KR20210090239A - 정보 예측 방법, 모델 훈련 방법 및 서버 - Google Patents

정보 예측 방법, 모델 훈련 방법 및 서버 Download PDF

Info

Publication number
KR20210090239A
KR20210090239A KR1020217017878A KR20217017878A KR20210090239A KR 20210090239 A KR20210090239 A KR 20210090239A KR 1020217017878 A KR1020217017878 A KR 1020217017878A KR 20217017878 A KR20217017878 A KR 20217017878A KR 20210090239 A KR20210090239 A KR 20210090239A
Authority
KR
South Korea
Prior art keywords
training
label
feature
predicted
target
Prior art date
Application number
KR1020217017878A
Other languages
English (en)
Other versions
KR102542774B1 (ko
Inventor
훙량 리
량 왕
텅페이 스
보 위안
사오제 양
훙성 위
인위팅 인
Original Assignee
텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 filed Critical 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Publication of KR20210090239A publication Critical patent/KR20210090239A/ko
Application granted granted Critical
Publication of KR102542774B1 publication Critical patent/KR102542774B1/ko

Links

Images

Classifications

    • G06K9/6256
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/30Interconnection arrangements between game servers and game devices; Interconnection arrangements between game devices; Interconnection arrangements between game servers
    • A63F13/35Details of game servers
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/53Controlling the output signals based on the game progress involving additional visual information provided to the game scene, e.g. by overlay to simulate a head-up display [HUD] or displaying a laser sight in a shooting game
    • A63F13/537Controlling the output signals based on the game progress involving additional visual information provided to the game scene, e.g. by overlay to simulate a head-up display [HUD] or displaying a laser sight in a shooting game using indicators, e.g. showing the condition of a game character on screen
    • A63F13/5378Controlling the output signals based on the game progress involving additional visual information provided to the game scene, e.g. by overlay to simulate a head-up display [HUD] or displaying a laser sight in a shooting game using indicators, e.g. showing the condition of a game character on screen for displaying an additional top view, e.g. radar screens or maps
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • A63F13/67Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor adaptively or by learning from player actions, e.g. skill level adjustment or by storing successful combat sequences for re-use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06K9/4604
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/80Special adaptations for executing a specific game genre or game mode
    • A63F13/822Strategy games; Role-playing games

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Optics & Photonics (AREA)
  • Image Analysis (AREA)

Abstract

정보 예측 방법, 모델 훈련 방법 및 서버가 개시된다. 정보 예측 방법은, 예측될 이미지를 획득하는 단계(101); 예측될 이미지로부터 예측될 특징들의 세트를 추출하는 단계(102) - 예측될 특징들의 세트는 제1 예측될 특징, 제2 예측될 특징 및 제3 예측될 특징을 포함하고, 제1 예측될 특징은 제1 영역의 이미지 특징을 나타내고, 제2 예측될 특징은 제2 영역의 이미지 특징을 나타내고, 제3 예측될 특징은 상호작용 동작과 관련된 속성 특징을 나타내고, 제1 영역의 범위는 제2 영역의 범위보다 작음 -; 및 타겟 조인트 모델에 의해, 예측될 특징들의 세트에 대응하는 제1 태그 및/또는 제2 태그를 획득하는 단계(103)를 포함하며, 제1 태그는 동작 내용과 관련된 태그를 나타내고, 제2 태그는 동작 의도와 관련된 태그를 나타낸다. 미세 제어 및 전반 상황의 뷰가 단지 조인트 모델을 사용하여 예측될 수 있고, 그럼으로써 계층적 모델에서 하드 핸드오버의 문제를 효과적으로 해결하고 예측의 편의성을 개선할 수 있다.

Description

정보 예측 방법, 모델 훈련 방법 및 서버
본 출원은 2018년 12월 13일자로 출원된 "INFORMATION PREDICTION METHOD, MODEL TRAINING METHOD AND SERVER" 라는 명칭의 중국 특허 출원 No. 201811526060.1에 대한 우선권을 주장하고, 중국 특허 출원은 본 명세서에서 그 전문이 참조로 포함된다.
발명의 분야
본 개시내용은 인공 지능(artificial intelligence)(AI) 기술 분야에 관한 것으로, 특히 정보 예측 방법, 모델 훈련 방법 및 서버에 관한 것이다.
AI 프로그램들은 규칙들이 명확한 보드 게임들에서 최고의 프로페셔널 플레이어들을 물리쳤다. 보드 게임들에 비해, 멀티플레이어 온라인 배틀 아레나(multiplayer online battle arena)(MOBA) 게임들은 더 복잡하고 실세계의 장면에 더 가깝다. MOBA 게임들에서 AI 문제들에 대한 연구는 현실 세계의 복잡한 문제들을 탐색하고 해결하는데 도움이 된다.
MOBA 게임들의 동작들의 복잡성과 관련하여, 일반적으로 전체 MOBA 게임의 복잡성 정도를 줄이기 위해, 전체 MOBA 게임에서의 동작들은 크게 두 가지 유형들, 즉, 전체 상황(big picture) 동작들과 미세 제어(micro control) 동작들로 분류될 수 있다. 도 1을 참조하면, 도 1은 관련 기술에서 모델을 계층적으로 생성하는 개략도이다. 도 1에 도시된 바와 같이, "정글(jungle)", "팜(farm)", "팀전투(teamfight)" 및 "밀어뜨리기(push)"와 같은 전체 상황 결정들에 따라 나누어지는 게임의 각 라운드에는 평균 약 100개의 전체 상황 태스크들이 있을 수 있고, 각각의 전체 상황 태스크에는 평균적으로 약 200개의 미세 제어 결정들이 있을 수 있다. 위에 기초하여, 도 2를 참조하면, 도 2는 관련 기술에서 계층적 모델의 개략적 구조도이다. 도 2에 도시된 바와 같이, 전체 상황 모델은 전체 상황 특징들을 사용하여 확립되고, 미세 제어 모델은 미세 제어 특징들을 사용하여 확립된다. 전체 상황 레이블은 전체 상황 모델을 사용하여 출력될 수 있고, 미세 제어 레이블은 미세 제어 모델을 사용하여 출력될 수 있다.
그러나, 전체 상황 모델과 미세 제어 모델은 계층적 모델링에서 제각기 설계되고 훈련되어야 한다. 즉, 두 모델들은 서로 독립적이다. 실제 응용에서, 두 모델들 중 어느 모델이 예측을 위해 선택될지가 항상 결정되어야 한다. 그러므로 두 모델들 간 하드 스위칭(hard switching)의 문제가 있고, 이는 예측하는데 불편하다.
본 개시내용의 실시예들은 하나의 결합 모델(combined model)만을 사용하여 미세 제어 및 전체 상황을 예측하고, 그렇게 함으로써 계층적 모델에서 하드 스위칭 문제를 효과적으로 해결하고 예측의 편의성을 개선하는 정보 예측 방법, 모델 훈련 방법 및 서버를 제공한다.
이를 고려하여, 본 개시내용의 제1 양태는 정보 예측 방법을 제공하는 것으로, 방법은 예측될 이미지(to-be-predicted image)를 획득하는 단계; 예측될 이미지로부터 예측될 특징 세트를 추출하는 단계 - 예측될 특징 세트는 제1 예측될 특징, 제2 예측될 특징 및 제3 예측될 특징을 포함하고, 제1 예측될 특징은 제1 영역의 이미지 특징이고, 제2 예측될 특징은 제2 영역의 이미지 특징이고, 제3 예측될 특징은 상호작용 동작과 관련된 속성 특징이고, 제1 영역의 범위는 제2 영역의 범위보다 작음 -; 및
타겟 결합 모델을 사용하여, 예측될 특징 세트에 대응하는 제1 레이블 및/또는 예측될 특징 세트에 대응하는 제2 레이블을 획득하는 단계를 포함하고, 제1 레이블은 동작 내용(operation content)과 관련되고 제2 레이블은 동작 의도(operation intention)와 관련된다.
본 개시내용의 제2 양태는 모델 훈련 방법을 제공하는 것으로, 방법은 사용될 훈련 이미지 세트(to-be-used training image set)를 획득하는 단계 - 사용될 훈련 이미지 세트는 N개의 사용될 훈련 이미지들을 포함하고, N은 1 이상의 정수임 -; 사용될 훈련 이미지들 각각으로부터 사용될 훈련 특징 세트를 추출하는 단계 - 사용될 훈련 특징 세트는 제1 사용될 훈련 특징, 제2 사용될 훈련 특징 및 제3 사용될 훈련 특징을 포함하고, 제1 사용될 훈련 특징은 제1 영역의 이미지 특징이고, 제2 사용될 훈련 특징은 제2 영역의 이미지 특징이고, 제3 사용될 훈련 특징은 상호작용 동작과 관련된 속성 특징이고, 제1 영역의 범위는 제2 영역의 범위보다 작음 -; 및 사용될 훈련 이미지들 각각에 대한 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블을 획득하는 단계 - 제1 사용될 훈련 레이블은 동작 내용과 관련되고, 제2 사용될 훈련 레이블은 동작 의도와 관련됨 -; 및 사용될 훈련 이미지들 각각의 사용될 훈련 특징 세트 및 사용될 훈련 이미지들 각각에 대응하는 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블에 의한 훈련을 통해 타겟 결합 모델을 획득하는 단계를 포함한다.
본 개시내용의 제3 양태는 서버를 제공하는 것으로, 서버는,
예측될 이미지를 획득하도록 구성된 획득 모듈; 및
획득 모듈에 의해 획득되는 예측될 이미지로부터 예측될 특징 세트를 추출하도록 구성된 추출 모듈을 포함하고, 예측될 특징 세트는 제1 예측될 특징, 제2 예측될 특징 및 제3 예측될 특징을 포함하고, 제1 예측될 특징은 제1 영역의 이미지 특징이고, 제2 예측될 특징은 제2 영역의 이미지 특징이고, 제3 예측될 특징은 상호작용 동작과 관련된 속성 특징이고, 제1 영역의 범위는 제2 영역의 범위보다 작고,
획득 모듈은 타겟 결합 모델을 사용하여, 추출 모듈에 의해 추출되는 예측될 특징 세트에 대응하는 제1 레이블 및 제2 레이블을 획득하도록 추가로 구성되고, 제1 레이블은 동작 내용과 관련되고, 제2 레이블은 동작 의도와 관련된다.
가능한 설계에서, 본 개시내용의 실시예들의 제3 양태의 제1 구현예에서, 획득 모듈은 타겟 결합 모델을 사용하여, 예측될 특징 세트에 대응하는 제1 레이블, 제2 레이블 및 제3 레이블을 획득하도록 구성되고, 제3 레이블은 승리 또는 패배의 결과와 관련된다.
본 개시내용의 제4 양태는 서버를 제공하는 것으로, 서버는,
사용될 훈련 이미지 세트를 획득하도록 구성된 획득 모듈 - 사용될 훈련 이미지 세트는 N개의 사용될 훈련 이미지들을 포함하고, N은 1 이상의 정수임 -;
획득 모듈에 의해 획득되는 사용될 훈련 이미지들 각각으로부터 사용될 훈련 특징 세트를 추출하도록 구성된 추출 모듈 - 사용될 훈련 특징 세트는 제1 사용될 훈련 특징, 제2 사용될 훈련 특징 및 제3 사용될 훈련 특징을 포함하고, 제1 사용될 훈련 특징은 제1 영역의 이미지 특징이고, 제2 사용될 훈련 특징은 제2 영역의 이미지 특징이고, 제3 사용될 훈련 특징은 상호작용 동작과 관련된 속성 특징이고, 제1 영역의 범위는 제2 영역의 범위보다 작고,
획득 모듈은 사용될 훈련 이미지들 각각에 대한 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블을 획득하도록 구성되고, 제1 사용될 훈련 레이블은 동작 내용과 관련되고, 제2 사용될 훈련 레이블은 동작 의도와 관련됨 -; 및
사용될 훈련 이미지들 각각으로부터 추출 모듈에 의해 추출되는 사용될 훈련 특징 세트 및 사용될 훈련 이미지들 각각에 대해 획득 모듈에 의해 획득되는 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블에 의한 훈련을 통해 타겟 결합 모델을 획득하도록 구성된 훈련 모듈을 포함한다.
가능한 설계에서, 본 개시내용의 실시예들의 제4 양태의 제1 구현예에서,
제1 사용될 훈련 특징은 2차원 벡터 특징이고, 제1 사용될 훈련 특징은 제1 영역에서 캐릭터 위치 정보, 이동 객체 위치 정보, 고정 객체 위치 정보 및 방어 객체 위치 중 적어도 하나를 포함하고;
제2 사용될 훈련 특징은 2차원 벡터 특징이고, 제2 사용될 훈련 특징은 제2 영역에서 캐릭터 위치 정보, 이동 객체 위치 정보, 고정 객체 위치 정보, 방어 객체 위치 정보, 장애물 객체 위치 정보 및 출력 객체 위치 정보 중 적어도 하나를 포함하고;
제3 사용될 훈련 특징은 1차원 벡터 특징이고, 제1 사용될 훈련 특징은 캐릭터 히트 포인트 값, 캐릭터 출력 값, 시간 정보 및 스코어 정보 중 적어도 하나를 포함하고; 제1 사용될 훈련 특징, 제2 사용될 훈련 특징 및 제3 사용될 훈련 특징은 서로 대응한다.
가능한 설계에서, 본 개시내용의 실시예들의 제4 양태의 제2 구현예에서,
제1 사용될 훈련 레이블은 버튼 유형 정보 및/또는 버튼 파라미터 정보를 포함하고;
버튼 파라미터 정보는 방향 파라미터, 위치 파라미터 및 타겟 파라미터 중 적어도 하나를 포함하고, 방향 파라미터는 캐릭터의 이동 방향을 나타내는 데 사용되고, 위치 파라미터는 캐릭터의 위치를 나타내는 데 사용되며, 타겟 파라미터는 캐릭터의 출력의 타겟을 나타내는 데 사용된다.
가능한 설계에서, 본 개시내용의 실시예들의 제4 양태의 제3 구현예에서, 제2 사용될 훈련 레이블은 동작 의도 정보 및 캐릭터 위치 정보를 포함하고; 동작 의도 정보는 캐릭터가 객체와 상호작용하는 의도를 나타내고, 캐릭터 위치 정보는 제1 영역에서 캐릭터의 위치를 나타낸다.
가능한 설계에서, 본 개시내용의 실시예들의 제4 양태의 제4 구현예에서, 훈련 모듈은 사용될 훈련 이미지들 각각의 사용될 훈련 특징 세트를 처리하여 타겟 특징 세트를 획득하고 - 타겟 특징 세트는 제1 타겟 특징, 제2 타겟 특징 및 제3 타겟 특징을 포함함 -;
장단기 메모리(long short-term memory)(LSTM) 계층을 사용하여 타겟 특징 세트에 대응하는 제1 예측된 레이블 및 제2 예측된 레이블을 획득하고 - 제1 예측된 레이블은 동작 내용과 관련된 예측된 레이블이고, 제2 예측된 레이블은 동작 의도와 관련된 예측된 레이블임 -;
사용될 훈련 이미지들 각각의 제1 예측된 레이블, 제1 사용될 훈련 레이블, 제2 예측된 레이블 및 제2 사용될 훈련 레이블에 의한 훈련을 통해 모델 핵심 파라미터를 획득하고 - 제1 예측된 레이블 및 제2 예측된 레이블은 둘 모두 예측된 값들을 갖고, 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블은 둘 모두 실제 값들을 가짐 -;
모델 핵심 파라미터에 따라 타겟 결합 모델을 생성하도록 구성된다.
가능한 설계에서, 본 개시내용의 실시예들의 제4 양태의 제5 구현예에서, 훈련 모듈은
완전 연결된 계층을 사용하여 사용될 훈련 이미지들 각각의 제3 사용될 훈련 특징을 처리하여 제3 타겟 특징을 획득하고 - 제3 타겟 특징은 1차원 벡터 특징임 -;
컨벌루션 계층을 사용하여 사용될 훈련 이미지들 각각의 제2 사용될 훈련 특징을 처리하여 제2 타겟 특징을 획득하고 - 제2 타겟 특징은 1차원 벡터 특징임 -;
컨벌루션 계층을 사용하여 사용될 훈련 이미지들 각각의 제1 사용될 훈련 특징을 처리하여 제1 타겟 특징을 획득하도록 구성되고, 제1 타겟 특징은 1차원 벡터 특징이다.
가능한 설계에서, 본 개시내용의 실시예들의 제4 양태의 제6 구현예에서, 훈련 모듈은
LSTM 계층을 사용하여 타겟 특징 세트에 대응하는 제1 예측된 레이블, 제2 예측된 레이블 및 제3 예측된 레이블을 획득하고 - 제3 예측된 레이블은 승리 또는 패배의 결과와 관련된 예측된 레이블임 -;
사용될 훈련 이미지들 각각에 대한 제3 사용될 훈련 레이블을 획득하고 - 제3 사용될 훈련 레이블은 승리 또는 패배의 실제 결과를 나타내는 데 사용됨 -;
제1 예측된 레이블, 제1 사용될 훈련 레이블, 제2 예측된 레이블, 제2 사용될 훈련 레이블, 제3 예측된 레이블 및 제3 사용될 훈련 레이블에 의한 훈련을 통해 모델 핵심 파라미터를 획득하도록 구성되고, 제3 사용될 훈련 레이블은 예측된 값을 갖고, 제3 예측된 레이블은 실제 값을 갖는다.
가능한 설계에서, 본 개시내용의 실시예들의 제4 양태의 제7 구현예에서, 서버는 업데이트 모듈을 더 포함하고;
획득 모듈은 훈련 모듈이 사용될 훈련 이미지들 각각의 사용될 훈련 특징 세트 및 사용될 훈련 이미지들 각각에 대응하는 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블에 의한 훈련을 통해 타겟 결합 모델을 획득한 후에 사용될 훈련 비디오를 획득하도록 추가로 구성되고, 사용될 훈련 비디오는 상호작용 이미지들의 다수의 프레임들을 포함하고;
획득 모듈은 타겟 결합 모델을 사용하여 사용될 훈련 비디오에 대응하는 타겟 장면 데이터를 획득하도록 추가로 구성되고, 타겟 장면 데이터는 타겟 장면의 데이터를 포함하고;
훈련 모듈은 획득 모듈에 의해 획득되는 타겟 장면 데이터, 제1 사용될 훈련 레이블 및 제1 예측된 레이블에 의한 훈련을 통해 타겟 모델 파라미터를 획득하도록 추가로 구성되고, 제1 예측된 레이블은 동작 내용과 관련된 예측된 레이블이고, 제1 예측된 레이블은 예측된 값을 갖고, 제1 사용될 훈련 레이블은 실제 값을 갖고;
업데이트 모듈은 훈련 모듈에 의해 획득되는 타겟 모델 파라미터를 사용하여 타겟 결합 모델을 업데이트하여, 강화된 결합 모델을 획득하도록 구성된다.
가능한 설계에서, 본 개시내용의 실시예들의 제4 양태의 제8 구현예에서, 서버는 업데이트 모듈을 더 포함하고;
획득 모듈은 훈련 모듈이 사용될 훈련 이미지들 각각의 사용될 훈련 특징 세트 및 사용될 훈련 이미지들 각각에 대응하는 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블에 의한 훈련을 통해 타겟 결합 모델을 획득한 후에 사용될 훈련 비디오를 획득하도록 추가로 구성되고, 사용될 훈련 비디오는 상호작용 이미지들의 다수의 프레임들을 포함하고;
획득 모듈은 타겟 결합 모델을 사용하여 사용될 훈련 비디오에 대응하는 타겟 장면 데이터를 획득하도록 추가로 구성되고, 타겟 장면 데이터는 타겟 장면의 데이터를 포함하고;
훈련 모듈은 획득 모듈에 의해 획득되는 타겟 장면 데이터, 제2 사용될 훈련 레이블 및 제2 예측된 레이블에 의한 훈련을 통해 타겟 모델 파라미터를 획득하도록 추가로 구성되고, 제2 예측된 레이블은 동작 의도와 관련된 예측된 레이블이고, 제2 예측된 레이블은 예측된 값을 갖고, 제2 사용될 훈련 레이블은 실제 값을 갖고;
업데이트 모듈은 훈련 모듈에 의해 획득되는 타겟 모델 파라미터를 사용하여 타겟 결합 모델을 업데이트하여, 강화된 결합 모델을 획득하도록 구성된다.
본 개시내용의 제5 양태는 서버를 제공하고, 통신 디바이스는 제1 양태 또는 제1 양태의 임의의 가능한 구현예에 따른 정보 예측 방법을 수행하도록 구성된다. 구체적으로, 서버는 제1 양태 또는 제1 양태의 임의의 가능한 구현예에 따른 정보 예측 방법을 수행하도록 구성된 모듈을 포함할 수 있다.
본 개시내용의 제6 양태는 서버를 제공하고, 통신 디바이스는 제2 양태 또는 제2 양태의 임의의 가능한 구현예에 따른 모델 훈련 방법을 수행하도록 구성된다. 예를 들어, 서버는 제2 양태 또는 제2 양태의 임의의 가능한 구현예에 따른 모델 훈련 방법을 수행하도록 구성된 모듈을 포함할 수 있다.
본 개시내용의 제7 양태는 컴퓨터 판독가능 저장 매체를 제공하고, 컴퓨터 판독가능 저장 매체는 명령어들을 저장하고, 명령어들은 컴퓨터상에서 실행될 때, 컴퓨터로 하여금 전술한 양태들 중 어느 하나에 따른 방법을 수행하게 한다.
본 개시내용의 제8 양태는 컴퓨터 프로그램(제품)을 제공하고, 컴퓨터 프로그램(제품)은 컴퓨터 프로그램 코드를 포함하고, 컴퓨터 프로그램 코드는 컴퓨터에 의해 실행될 때 컴퓨터로 하여금 전술한 양태들 중 어느 하나에 따른 방법을 수행하게 한다.
전술한 기술적 솔루션들로부터 알 수 있는 바와 같이, 본 개시내용의 실시예들은 적어도 다음과 같은 장점들을 갖는다.
본 개시내용의 실시예들에서, 정보 예측 방법이 제공된다. 먼저, 서버는 예측될 이미지를 획득한다. 그런 다음 서버는 예측될 이미지로부터 예측될 특징 세트를 추출하고, 여기서 예측될 특징 세트는 제1 예측될 특징, 제2 예측될 특징 및 제3 예측될 특징을 포함한다. 제1 예측될 특징은 제1 영역의 이미지 특징을 나타내고, 제2 예측될 특징은 제2 영역의 이미지 특징을 나타내고, 제3 예측될 특징은 상호작용 동작과 관련된 속성 특징을 나타낸다. 제1 영역의 범위는 제2 영역의 범위보다 작다. 마지막으로, 서버는 타겟 결합 모델을 사용하여, 예측될 이미지에 대응하는 제1 레이블 및 제2 레이블을 획득할 수 있고, 여기서 제1 레이블은 동작 내용과 관련된 레이블이고, 제2 레이블은 동작 의도와 관련된 레이블이다. 전술한 방법을 통해, 미세 제어 및 전체 상황이 단지 하나의 결합 모델만을 사용하여 예측될 수 있고, 여기서 미세 제어의 예측 결과는 제1 레이블로서 표현되고, 전체 상황의 예측 결과는 제2 레이블로서 표현된다. 그러므로 전체 상황 모델 및 미세 제어 모델이 하나의 결합 모델로 병합되어, 계층적 모델에서 하드 스위칭 문제를 효과적으로 해결하고 예측의 편의성을 개선한다.
도 1은 관련 기술에서 모델을 계층적으로 생성하는 개략도이다.
도 2는 관련 기술에서 계층적 모델의 개략적 구조도이다.
도 3은 본 개시내용의 실시예에 따른 정보 예측 시스템의 개략적 구성도를 도시한다.
도 4는 본 개시내용의 실시예에 따른 타겟 결합 모델의 시스템 구조의 개략도이다.
도 5는 본 개시내용의 실시예에 따른 정보 예측 방법의 개략도이다.
도 6은 본 개시내용의 실시예에 따른 강화된 결합 모델의 작업 흐름의 개략도이다.
도 7은 본 개시내용의 실시예에 따른 모델 훈련 방법의 개략도이다.
도 8은 본 개시내용의 실시예에 따른 사용될 훈련 특징 세트를 추출하는 개략도이다.
도 9는 본 개시내용의 실시예에 따른 사용될 훈련 특징 세트의 특징 표현의 개략도이다.
도 10은 본 개시내용의 실시예에 따른 이미지-유사 특징 표현의 개략도이다.
도 11은 본 개시내용의 실시예에 따른 미세 제어 레이블의 개략도이다.
도 12는 본 개시내용의 실시예에 따른 미세 제어 레이블의 다른 개략도이다.
도 13은 본 개시내용의 실시예에 따른 미세 제어 레이블의 다른 개략도이다.
도 14는 본 개시내용의 실시예에 따른 미세 제어 레이블의 다른 개략도이다.
도 15는 본 개시내용의 실시예에 따른 전체 상황 레이블의 개략도이다.
도 16은 본 개시내용의 실시예에 따른 타겟 결합 모델의 네트워크 구조의 개략도이다.
도 17은 본 개시내용의 실시예에 따른 강화된 결합 모델의 시스템 구조의 개략도이다.
도 18은 본 개시내용의 실시예에 따른 강화된 결합 모델의 다른 시스템 구조의 개략도이다.
도 19는 본 개시내용의 실시예에 따른 서버의 개략도이다.
도 20은 본 개시내용의 다른 실시예에 따른 서버의 개략도이다.
도 21은 본 개시내용의 다른 실시예에 따른 서버의 개략도이다.
도 22는 본 개시내용의 실시예에 따른 서버의 개략적 구조도이다.
본 개시내용의 실시예들은 하나의 결합 모델(combined model)만을 사용하여 미세 제어 및 전체 상황을 예측하고, 그렇게 함으로써 계층적 모델에서 하드 스위칭 문제를 효과적으로 해결하고 예측의 편의성을 개선하는 정보 예측 방법, 모델 훈련 방법 및 서버를 제공한다.
본 개시내용의 명세서, 청구항들 및 첨부 도면들에서, 용어들 "제1", "제2", "제3", "제4" 등은(존재한다면) 특정 순서 또는 우선 순위를 서술한다기보다는 유사한 객체끼리를 구별하려는 것이다. 이러한 방식으로 명명된 데이터는 적절한 상황들에서 바꾸어 사용 가능하므로, 본 명세서에 설명된 본 개시내용의 실시예들은, 예를 들어, 본 명세서에 예시되거나 설명된 순서와 다른 순서들로 구현될 수 있다는 것이 이해될 수 있다. 더욱이, "포함하다", "구비하다" 및 이들의 임의의 다른 변형 용어들은 비 배타적 포함을 포괄하는 것으로 의도된다. 예를 들어, 단계들 또는 유닛들의 리스트를 포함하는 프로세스, 방법, 시스템, 제품 또는 디바이스는 반드시 명확하게 열거된 그러한 단계들 또는 유닛들로 제한되는 것은 아니지만, 명확하게 열거되지 않았거나 또는 그러한 프로세스, 방법, 제품 또는 디바이스에 내재하지 않은 다른 단계들 또는 유닛들을 포함할 수 있다.
본 개시내용의 모델들은 이것으로 제한되는 것은 아니지만, 기계 번역, 지능형 제어, 전문가 시스템들, 로봇, 언어 및 이미지 이해, 자동 프로그래밍, 항공우주 응용, 처리, 방대한 정보의 저장 및 관리 등을 비롯한 AI 분야에 적용 가능하다는 점을 이해해야 한다. 소개의 용이함을 위해, 본 개시내용에서는 온라인 게임 장면을 예로서 사용하여 소개하고, 온라인 게임 장면은 MOBA 게임의 장면일 수 있다. MOBA 게임의 경우, 인간 플레이어의 거동들을 더 잘 시뮬레이션할 수 있어, 인간-컴퓨터 배틀들에서 더 나은 효과들을 발휘하고, 연결이 끊어진 플레이어를 시뮬레이션하고, 게임에서 플레이어를 연습시키는, AI 모델이 본 개시내용의 실시예들에서 설계된다. MOBA 게임은 전형적으로 멀티플레이어 대 멀티플레이어 모드에서 플레이된다. 즉, 플레이어들의 수가 동일한 두 개(또는 그 이상)의 팀들이 서로 맞서 경쟁하며, 여기서 각각의 플레이어는 영웅 캐릭터를 제어하며, 상대방의 "넥서스(Nexus)" 베이스를 먼저 밀어 넘어뜨리는 당사자는 승자가 된다.
이해의 용이함을 위해, 본 개시내용은 정보 예측 방법을 제공하며, 방법은 도 3에 도시된 정보 예측 시스템에 적용 가능하다. 도 3을 참조하면, 도 3은 본 개시내용의 실시예에 따른 정보 예측 시스템의 개략적 구성도를 도시한다. 도 3에 도시된 바와 같이, 게임들의 다수의 라운드들이 클라이언트들상에서 플레이되어, 많은 양의 게임 화면 데이터(즉, 훈련에 사용될 이미지들)가 생성된 다음, 서버로 전송된다. 게임 화면 데이터는 실제 게임을 플레이하는 프로세스에서 인간 플레이어들에 의해 생성된 데이터일 수도 있고, 인간 플레이어들의 동작들을 시뮬레이션하는 머신에 의해 획득된 데이터일 수도 있다. 본 개시내용에서, 게임 화면 데이터는 주로 인간 플레이어들에 의해 제공된다. 게임의 라운드가 평균 30분을 소요하고 1초에 15개 프레임들이 포함되는 예에서, 게임의 각 라운드는 평균 27000개 프레임들의 이미지들을 생성한다. 본 개시내용에서, 데이터의 복잡성을 줄이기 위해, 훈련은 전체 상황 태스크들 및 미세 제어 태스크들과 관련된 데이터를 주로 사용하여 수행된다. 전체 상황 태스크들은 이것으로 제한되는 것은 아니지만, "정글", "팜", "팀전투" 및 "밀어 뜨리기"를 비롯한 동작 의도들에 따라 분류된다. 게임의 각 라운드에서, 평균 약 100개의 전체 상황 태스크들만 있고, 각각의 전체 상황 태스크는 약 200 개의 미세 제어 결정들을 포함한다. 그러므로 전체 상황 결정의 단계들의 수와 미세 제어 결정의 단계들의 수는 둘 다 허용 가능한 범위 내에 속한다.
서버는 클라이언트들에 의해 보고된 게임 화면 데이터를 사용하여 모델을 훈련시켜 타겟 결합 모델을 획득하고, 타겟 결합 모델에 기초하여 강화된 결합 모델을 추가로 생성한다. 소개의 용이함을 위해, 도 4를 참조하면, 도 4는 본 개시내용의 실시예에 따른 강화된 결합 모델의 시스템 구조의 개략도이다. 도 4에 도시된 바와 같이, 모델 훈련 프로세스는 두 단계들로 나누어질 수 있다. 먼저 감독 학습(supervised learning)을 통해 인간 플레이어들의 게임 데이터로부터 전체 상황 및 미세 제어 동작들의 초기 결합 모델이 학습되고, 전체 상황 전체 연결(full connection)(FC) 계층 및 미세 제어 FC 계층이 결합 모델에 추가되어 타겟 결합 모델을 획득한다. 그 다음에 미세 제어 FC 계층(또는 전체 상황 FC 계층)은 강화 학습을 통해 최적화되고, 그 동안 다른 계층의 파라미터는 고정된 채로 유지되어, "팀전투"에서 평타율(hit rate) 및 회피율(dodge rate)과 같은 핵심 지표들을 개선한다.
클라이언트는 단말 디바이스에 배치된다. 단말 디바이스는 이것으로 제한되는 것은 아니지만, 태블릿 컴퓨터, 노트북 컴퓨터, 팜톱 컴퓨터, 모바일 폰 및 퍼스널 컴퓨터(personal computer)(PC)를 포함한다.
본 개시내용의 정보 예측 방법은 전술한 소개를 참조하여 아래에서 소개된다. 도 5를 참조하면, 본 개시내용의 실시예들에서 정보 예측 방법의 실시예는 다음과 같은 단계들(101 내지 103)을 포함한다.
단계(101)에서, 예측될 이미지가 획득된다.
이 실시예에서, 서버는 먼저 MOBA 게임의 이미지일 수 있는 예측될 이미지를 획득한다.
단계(102)에서, 예측될 특징 세트는 예측될 이미지로부터 추출되고, 예측될 특징 세트는 제1 예측될 특징, 제2 예측될 특징 및 제3 예측될 특징을 포함하고, 제1 예측될 특징은 제1 영역의 이미지 특징이고, 제2 예측될 특징은 제2 영역의 이미지 특징이고, 제3 예측될 특징은 상호작용 동작과 관련된 속성 특징이고, 제1 영역의 범위는 제2 영역의 범위보다 작다.
이 실시예에서, 서버는 예측될 이미지로부터 예측될 특징 세트를 추출해야 한다. 본 명세에서 예측될 특징 세트는 주로 세 가지 유형의 특징들, 즉 제1 예측될 특징, 제2 예측될 특징 및 제3 예측될 특징을 포함한다. 제1 예측될 특징은 제1 영역의 이미지 특징을 나타낸다. 예를 들어, 제1 예측될 특징은 MOBA 게임의 미니맵 이미지-유사(minimap image-like) 특징이다. 제2 예측될 특징은 제2 영역의 이미지 특징을 나타낸다. 예를 들어, 제2 예측될 특징은 MOBA 게임의 현재 시야 이미지-유사(current visual field image-like) 특징이다. 제3 예측될 특징은 상호작용 동작과 관련된 속성 특징을 나타낸다. 예를 들어, 제3 예측될 특징은 MOBA 게임의 영웅 속성 벡터 특징(hero attribute vector feature)이다.
단계(103)에서, 타겟 결합 모델을 사용하여, 예측될 특징 세트에 대응하는 제1 레이블이 획득되고 및/또는 예측될 특징 세트에 대응하는 제2 레이블이 획득되며, 제1 레이블은 동작 내용과 관련되고 제2 레이블은 동작 의도와 관련된다.
이 실시예에서, 서버는 추출되는 예측될 특징 세트를 타겟 결합 모델에 입력한다. 또한, 추출되는 예측될 특징 세트는 강화된 결합 모델에 대안적으로 입력될 수 있다. 강화된 결합 모델은 타겟 결합 모델을 강화함으로써 획득되는 모델이다. 이해의 용이함을 위해, 도 6을 참조하면, 도 6은 본 개시내용의 실시예에 따른 타겟 결합 모델의 작업 흐름의 개략도이다. 도 6에 도시된 바와 같이, 본 개시내용에서, 전체 상황 모델 및 미세 제어 모델은 동일한 모델, 즉, 결합 모델에 병합된다. 전체 상황 FC 계층 및 미세 제어 FC 계층은 결합 모델에 추가되어 인간의 의사 결정 프로세스와 더 잘 매칭하는 타겟 결합 모델을 획득한다. 결합 모델에는 통합된 특징들, 즉, 예측될 특징 세트가 입력된다. 통합된 인코딩 계층은 전체 상황 태스크들 및 미세 제어 태스크들을 동시에 훈련하는데 사용된다. 전체 상황 태스크들의 출력은 계단식 방식으로 미세 제어 태스크들의 인코딩 계층에 입력된다. 결합 모델은 동작 내용과 관련된 제1 레이블만을 최종적으로 출력하여 제1 레이블에 따라 미세 제어 FC 계층의 출력을 실행 명령어로서 사용할 수 있다. 대안적으로, 결합 모델은 동작 의도와 관련된 제2 레이블만을 출력하여 제2 레이블에 따라 전체 상황 FC 계층의 출력을 실행 명령어로서 사용하려는 할 수 있다. 대안적으로, 결합 모델은 제1 레이블 및 제2 레이블을 동시에 출력하여, 제1 레이블 및 제2 레이블에 따라 미세 제어 FC 계층의 출력 및 전체 상황 FC 계층의 출력을 동시에 실행 명령어로서 사용할 수 있다.
본 개시내용의 실시예들에서, 정보 예측 방법이 제공된다. 서버는 먼저 예측될 이미지를 획득한다. 그 다음에 서버는 예측될 이미지로부터 예측될 특징 세트를 추출한다. 예측될 특징 세트는 제1 예측될 특징, 제2 예측될 특징 및 제3 예측될 특징을 포함한다. 제1 예측될 특징은 제1 영역의 이미지 특징을 나타내고, 제2 예측될 특징은 제2 영역의 이미지 특징을 나타내고, 제3 예측될 특징은 상호작용 동작과 관련된 속성 특징을 나타내며, 제1 영역의 범위는 제2 영역의 범위보다 작다. 마지막으로, 서버는 타겟 결합 모델을 사용하여, 예측될 이미지에 대응하는 제1 레이블 및 제2 레이블을 획득할 수 있다. 제1 레이블은 동작 내용과 관련된 레이블을 나타내고, 제2 레이블은 동작 의도와 관련된 레이블을 나타낸다. 전술한 방법에 의하면, 미세 제어들 및 전체 상황은 단지 하나의 결합 모델만을 사용하여 예측될 수 있으며, 여기서 미세 제어의 예측 결과는 제1 레이블로서 나타내고, 전체 상황의 예측 결과는 제2 레이블로서 나타낸다. 그러므로 전체 상황 모델 및 미세 제어 모델이 하나의 결합 모델로 병합되어, 계층적 모델에서 하드 스위칭 문제를 효과적으로 해결하고 예측의 편의성을 개선한다.
임의로, 도 5에 대응하는 실시예에 기초하여, 본 개시내용의 정보 예측 방법의 제1 임의적 실시예에서, 타겟 결합 모델을 사용하여 예측될 특징 세트에 대응하는 제1 레이블 및/또는 예측될 특징 세트에 대응하는 제2 레이블을 획득하는 단계는, 타겟 결합 모델을 사용하여 예측될 특징 세트에 대응하는 제1 레이블, 제2 레이블 및 제3 레이블을 획득하는 단계를 포함할 수 있으며, 여기서 제3 레이블은 승리 또는 패배의 결과에 관련된 레이블을 나타낸다.
이 실시예에서, 비교적 포괄적인 예측 방법이 제공된다. 즉, 제1 레이블, 제2 레이블, 제3 레이블이 모두 타겟 결합 모델을 사용하여 출력되므로, 전체 상황 태스크들에 따른 동작들 및 미세 제어 태스크들에 따른 동작들이 예측될 수 있을 뿐만 아니라, 승리 또는 패배의 결과도 예측될 수 있다.
임의로, 실제 응용에서, 예측의 정확성을 개선하기 위해, 일반적으로는 예측될 이미지들의 다수의 연속 프레임들이 입력된다. 예를 들어, 예측될 이미지들의 100개 프레임들이 입력되고, 예측될 이미지의 각 프레임에 대해 특징 추출이 수행되어, 100개의 예측될 특징 세트가 획득한다. 100개의 예측될 특징 세트가 타겟 결합 모델에 입력되어, 전체 상황 태스크에 관련된 암시적 의도를 예측하고, 일반적인 탐색 역량을 학습하고, 미세 제어 태스크의 실행 명령어를 예측하고, 게임의 이번 라운드의 승리 또는 패배의 가능한 결과를 예측한다. 예를 들어, 우리는 게임의 이번 라운드에서 이기거나 또는 게임의 이번 라운드에서 패배할 수 있다.
본 개시내용의 실시예들에서, 타겟 결합 모델은 제1 레이블 및 제2 레이블을 출력할 수 있을 뿐만 아니라, 제3 레이블도 추가로 출력할 수 있다. 즉, 타겟 결합 모델은 승리 또는 패배의 결과를 추가로 예측할 수 있다. 전술한 방법을 통해, 실제 응용에서, 상황의 결과가 더 잘 예측될 수 있고, 이는 예측의 신뢰도를 개선하고 예측의 유연성과 실행 가능성을 개선하는데 도움이 된다.
인간 데이터를 사용하여 빠른 감독 학습이 수행될 뿐만 아니라, 강화 학습을 사용하여 모델의 예측 정확도가 개선될 수 있는, 본 개시내용의 모델 예측 방법이 아래에서 소개된다. 도 7을 참조하면, 본 개시내용의 실시예들에서 모델 예측 방법의 실시예는 다음과 같은 단계들(201 내지 204)을 포함한다.
단계(201)에서, 사용될 훈련 이미지 세트가 획득되고, 사용될 훈련 이미지 세트는 N개의 사용될 훈련 이미지들을 포함하고, N은 1 이상의 정수이다.
이 실시예에서, 모델 훈련의 프로세스가 소개된다. 서버는 먼저 클라이언트들에 의해 보고된 인간 플레이어 게임 데이터에 따라 사용될 훈련 이미지 세트를 획득한다. 사용될 훈련 이미지 세트는 일반적으로 이미지들의 다수의 프레임들을 포함한다. 즉, 사용될 훈련 이미지 세트는 N개의 사용될 훈련 이미지들을 포함하여 모델 정확성을 개선하며, N은 1 이상의 정수이다.
단계(202)에서, 사용될 훈련 특징 세트가 각각의 사용될 훈련 이미지로부터 추출되고, 사용될 훈련 특징 세트는 제1 사용될 훈련 특징, 제2 사용될 훈련 특징 및 제3 사용될 훈련 특징을 포함하고, 제1 사용될 훈련 특징은 제1 영역의 이미지 특징이고, 제2 사용될 훈련 특징은 제2 영역의 이미지 특징이고, 제3 사용될 훈련 특징은 상호작용 동작과 관련된 속성 특징이고, 제1 영역의 범위는 제2 영역의 범위보다 작다.
이 실시예에서, 서버는 사용될 훈련 이미지 세트 내의 각각의 사용될 훈련 이미지의 사용될 훈련 특징 세트를 추출한다. 사용될 훈련 특징 세트는 주로 세 가지 유형의 특징들, 즉 제1 사용될 훈련 특징, 제2 사용될 훈련 특징 및 제3 사용될 훈련 특징을 포함한다. 제1 사용될 훈련 특징은 제1 영역의 이미지 특징을 나타낸다. 예를 들어, 제1 사용될 훈련 특징은 MOBA 게임의 미니맵 이미지-유사 특징이다. 제2 사용될 훈련 특징은 제2 영역의 이미지 특징을 나타낸다. 예를 들어, 제2 사용될 훈련 특징은 MOBA 게임의 현재 시야 이미지-유사 특징이다. 제3 사용될 훈련 특징은 상호작용 동작과 관련된 속성 특징을 나타낸다. 예를 들어, 제3 사용될 훈련 특징은 MOBA 게임의 영웅 속성 벡터 특징이다.
단계(203)에서, 사용될 훈련 이미지들 각각에 대한 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블이 획득되고, 제1 사용될 훈련 레이블은 동작 내용과 관련되고, 제2 사용될 훈련 레이블은 동작 의도와 관련된다.
이 실시예에서, 서버는 사용될 훈련 이미지들 각각에 대한 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블을 추가로 획득한다. 제1 사용될 훈련 레이블은 동작 내용과 관련된 레이블을 나타낸다. 예를 들어, 제1 사용될 훈련 레이블은 미세 제어 태스크와 관련된 레이블이다. 제2 사용될 훈련 레이블은 동작 의도와 관련된 레이블을 나타낸다. 예를 들어, 제2 사용될 훈련 레이블은 전체 상황 태스크와 관련된 레이블이다.
실제 응용에서, 단계(203)은 단계(202) 이전에 수행될 수 있거나, 또는 단계(202) 이후에 수행될 수 있거나, 또는 단계(202)와 동시에 수행될 수 있다. 이것은 본 명세서에서 제한되지 않는다.
단계(204)에서, 타겟 결합 모델은 사용될 훈련 이미지들 각각의 사용될 훈련 특징 세트 및 사용될 훈련 이미지들 각각에 대응하는 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블에 의한 훈련을 통해 획득된다.
이 실시예에서, 서버는 각각의 사용될 훈련 이미지로부터 추출되는 사용될 훈련 특징 세트 및 각각의 사용될 훈련 이미지에 대응하는 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블을 사용하여 훈련을 수행하여 타겟 결합 모델을 획득한다. 타겟 결합 모델은 전체 상황 태스크의 상황 및 미세 제어 태스크의 명령어를 예측하는데 사용될 수 있다.
본 개시내용의 실시예들에서, 모델 훈련 방법이 소개된다. 먼저 서버는 사용될 훈련 이미지 세트를 획득한 다음, 각각의 사용될 훈련 이미지로부터 사용될 훈련 특징 세트를 추출하며, 여기서 사용될 훈련 특징 세트는 제1 사용될 훈련 특징, 제2 사용될 훈련 특징 및 제3 사용될 훈련 특징을 포함한다. 그 다음에 서버는 각각의 사용될 훈련 이미지에 대응하는 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블을 획득하고, 마지막으로 각각의 사용될 훈련 이미지의 사용될 훈련 특징 세트 및 각각의 사용될 훈련 이미지에 대응하는 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블에 의한 훈련을 통해 타겟 결합 모델을 획득한다. 전술한 방법을 통해, 미세 제어 및 전체 상황을 동시에 예측할 수 있는 모델이 설계된다. 그러므로 전체 상황 모델 및 미세 제어 모델이 결합 모델로 병합되어, 계층적 모델에서 하드 스위칭 문제를 효과적으로 해결하고 예측의 편의성을 개선한다. 또한, 전체 상황 태스크에 대한 고려는 거시적 결정의 정확성을 효과적으로 개선할 수 있다. 전체 상황 결정은 특히 MOBA 게임에서 매우 중요하다.
임의로, 도 7에 대응하는 실시예에 기초하여, 본 개시내용의 모델 훈련 방법의 제1 임의적 실시예에서, 제1 사용될 훈련 특징은 2차원 벡터 특징이고, 제1 사용될 훈련 특징은 제1 영역에서 캐릭터 위치 정보, 이동 객체 위치 정보, 고정 객체 위치 정보 및 방어 객체 위치 중 적어도 하나를 포함하고;
제2 사용될 훈련 특징은 2차원 벡터 특징이고, 제2 사용될 훈련 특징은 제2 영역에서 캐릭터 위치 정보, 이동 객체 위치 정보, 고정 객체 위치 정보, 방어 객체 위치 정보, 장애물 객체 위치 정보 및 출력 객체 위치 정보 중 적어도 하나를 포함하고;
제3 사용될 훈련 특징은 1차원 벡터 특징이고, 제1 사용될 훈련 특징은 캐릭터 히트 포인트 값, 캐릭터 출력 값, 시간 정보 및 스코어 정보 중 적어도 하나를 포함하며;
제1 사용될 훈련 특징, 제2 사용될 훈련 특징 및 제3 사용될 훈련 특징은 서로 대응한다.
이 실시예에서, 제1 사용될 훈련 특징, 제2 사용될 훈련 특징 및 제3 사용될 훈련 특징과 이들의 내용 간의 관계가 소개된다. 소개의 용이함을 위해, 인간 플레이어가 동작을 수행할 때, 미니맵, 현재 시야, 영웅 속성들의 정보가 종합적으로 고려되는 MOBA 게임의 장면을 예로 들어 사용하여 아래에서 설명된다. 그러므로 본 개시내용에서는 다중-모달리티 및 다중-스케일 특징 표현이 사용된다. 도 8을 참조하면, 도 8은 본 개시내용의 실시예에 따른 사용될 훈련 특징 세트를 추출하는 개략도이다. 도 8에 도시된 바와 같이, S1으로 표시된 부분은 게임 내의 영웅 캐릭터들, 및 각 영웅 캐릭터의 히트 포인트 값, 공격 데미지 값(attack damage value), 능력 파워 값(ability power value), 공격 방어 값(attack defense value) 및 마법 방어 값(magic defense value)을 포함하는 영웅 속성 정보이다. S2로 표시된 부분은 미니맵, 즉, 제1 영역이다. 미니맵에서, 예를 들어, 영웅 캐릭터, 미니언 라인(minion line), 몬스터(monster), 포탑(turret)의 위치들이 보일 수 있다. 영웅 캐릭터는 팀원에 의해 제어되는 영웅 캐릭터와 상대방에 의해 제어되는 영웅 캐릭터를 포함한다. 미니언 라인은 양측의 미니언들이 서로 싸우는 위치를 말한다. 몬스터는 환경에 있는 플레이어들 이외의 "중립적이고 적대적인" 객체를 말하는데, 이는 비 플레이어 캐릭터(non-player character)(NPC) 몬스터이며, 플레이어에 의해 제어되지 않는다. 포탑은 방어 구조를 말한다. 두 당사자들은 각각 넥서스 포탑을 가지며, 상대방의 넥서스 포탑을 파괴하는 당사자가 승리한다. S3로 표시된 부분은 현재 시야, 즉, 제2 영역이다. 현재 시야에서, 영웅들, 미니언 라인들, 몬스터들, 포탑들, 맵 장애물들, 총알들이 명료하게 보일 수 있다.
도 9를 참조하면, 도 9는 본 개시내용의 실시예에 따른 사용될 훈련 특징 세트의 특징 표현의 개략도이다. 도 9에 도시된 바와 같이, 영웅 속성 벡터 특징(즉, 제3 사용될 훈련 특징)과 미니맵 이미지-유사 특징(즉, 제1 사용될 훈련 특징) 간의 일대일 매핑 관계 및 영웅 속성 벡터 특징(즉, 제3 사용될 훈련 특징)과 현재 시야 이미지-유사 특징(즉, 제2 사용될 훈련 특징) 간의 일대일 매핑 관계가 확립되는데, 이는 거시적 의사 결정과 미시적 의사 결정 둘 모두에 사용될 수 있다. 영웅 속성 벡터 특징은 숫자 값들로 구성된 특징이며, 따라서 1차원 벡터 특징이다. 벡터 특징은 이것으로 제한되는 것은 아니지만, 영웅 캐릭터들의 속성 특징들, 예를 들면, 히트 포인트들(즉, 5명의 상대방 영웅 캐릭터들의 히트 포인트 값들 및 5명의 우리의 영웅 캐릭터들의 히트 포인트 값들), 공격력들(즉, 5명의 상대방 영웅 캐릭터들의 캐릭터 출력 값들 및 5명의 우리의 영웅 캐릭터들의 캐릭터 출력 값들), 시간(게임 라운드의 지속기간), 스코어(각 팀의 최종 스코어)를 포함한다. 미니맵 이미지-유사 특징과 현재 시야 이미지-유사 특징은 둘 모두 이미지-유사 특징들이다. 이해의 용이함을 위해, 도 10을 참조하면, 도 10은 본 개시내용의 실시예에 따른 이미지-유사 특징 표현의 개략도이다. 도 10에 도시된 바와 같이, 이미지-유사 특징은 원본(original) 픽셀 이미지로부터 인위적으로 구성된 2차원 특징으로, 원본 복합 이미지를 직접 학습하는 어려움을 줄여준다. 미니맵 이미지-유사 특징은 영웅들, 미니언 라인들, 몬스터들, 포탑들 등의 위치 정보를 포함하고, 거시적-스케일 정보를 표현하는데 사용된다. 현재 시야 이미지-유사 특징은 영웅들, 미니언 라인들, 몬스터들, 포탑들, 맵 장애물들, 총알들의 위치 정보를 포함하고, 미시적-스케일 로컬 정보를 표현하는데 사용된다.
인간 시야각을 시뮬레이션하는 이러한 다중-모달리티 및 다중-스케일 특징은 공간적 상대 위치 관계를 더 잘 모델링할 수 있을 뿐만 아니라, MOBA 게임에서 고차원적 특징을 표현하는데 매우 적합하다.
본 개시내용의 실시예들에서, 3개의 사용될 훈련 특징들의 내용이 또한 소개되며, 여기서 제1 사용될 훈련 특징은 2차원 벡터 특징이고, 제2 사용될 훈련 특징은 2차원 벡터 특징이고, 제3 사용될 훈련 특징은 1차원 벡터 특징이다. 전술한 방식들을 통해, 한편으로는 모델 훈련을 위한 더 많은 정보를 제공하는, 3개의 사용될 훈련 특징들에 포함된 특정 정보가 결정될 수 있다. 다른 한편, 제1 사용될 훈련 특징과 제2 사용될 훈련 특징은 둘 다 2차원 벡터 특징들이고, 이는 특징의 공간적 표현을 개선하는데 도움이 되고, 이 때문에 특징의 다양성이 개선된다.
임의로, 도 7에 대응하는 실시예에 기초하여, 본 개시내용의 모델 훈련 방법의 제2 임의적 실시예에서, 제1 사용될 훈련 레이블은 버튼 유형 정보 및/또는 버튼 파라미터 정보를 포함한다.
버튼 파라미터 정보는 방향 파라미터, 위치 파라미터 및 타겟 파라미터 중 적어도 하나를 포함하고, 방향 파라미터는 캐릭터의 이동 방향을 나타내는 데 사용되고, 위치 파라미터는 캐릭터의 위치를 나타내는 데 사용되며, 타겟 파라미터는 캐릭터의 출력의 타겟을 나타내는 데 사용된다.
이 실시예에서, 제1 사용될 훈련 레이블의 내용이 상세히 소개된다. 제1 사용될 훈련 레이블은 버튼 유형 정보 및/또는 버튼 파라미터 정보를 포함한다. 일반적으로, 버튼 유형 정보와 버튼 파라미터 정보는 제1 사용될 훈련 레이블로서 레이블의 정확성을 개선하는데 사용된다. 인간 플레이어가 동작을 수행할 때, 일반적으로 인간 플레이어는 사용할 버튼을 먼저 결정한 다음 버튼의 동작 파라미터를 결정한다. 그러므로 본 개시내용에서, 계층적 레이블이 설계된다. 즉, 현재 순간에 사용될 버튼이 먼저 예측되고, 그 다음에 버튼의 출력 파라미터가 예측된다.
이해의 용이함을 위해, 다음에는 첨부 도면들을 참조하여 제1 사용될 훈련 레이블을 예들을 사용하여 소개한다. 버튼 파라미터 정보는 주로 세 가지 유형들의 정보, 즉, 방향 정보, 위치 정보, 타겟 정보를 포함한다. 원의 한 바퀴는 360도이다. 레이블이 6도마다 설정된다고 가정하면, 방향 정보는 60 개 방향들의 정보로 구분될 수 있다. 영웅 캐릭터는 일반적으로 이미지에서 1000 픽셀을 차지하므로, 위치 정보는 30 × 30 위치들의 정보로 구분될 수 있다. 또한, 타겟 정보는 영웅 캐릭터의 능력에 의해 공격을 받을 객체일 수 있는 후보 공격 타겟을 나타낸다.
도 11을 참조하면, 도 11은 본 개시내용의 실시예에 따른 미세 제어 레이블의 개략도이다. 도 11에 도시된 바와 같이, 영웅 캐릭터는 A1으로 도시된 범위 내에서 능력 3을 45 도의 능력 방향으로 오른쪽 하단을 향해 던진다. A2는 동작 인터페이스에서 능력 3의 위치를 나타낸다. 그러므로 인간 플레이어의 동작은 "능력 3 + 방향"으로 표현된다. 도 12를 참조하면, 도 12는 본 개시내용의 실시예에 따른 미세 제어 레이블의 다른 개략도이다. 도 12에 도시된 바와 같이, 영웅 캐릭터는 A3으로 도시된 방향을 따라 이동하고, 이동 방향은 오른쪽 방향이다. 그러므로 인간 플레이어의 동작은 "이동 + 방향"으로 표현된다. 도 13을 참조하면, 도 13은 본 개시내용의 실시예에 따른 미세 제어 레이블의 다른 개략도이다. 도 13에 도시된 바와 같이, 영웅 캐릭터는 능력 1을 던지며, A4는 동작 인터페이스에서 능력 1의 위치를 표시한다. 그러므로 인간 플레이어의 동작은 "능력 1"로서 표현된다. 도 14를 참조하면, 도 14는 본 개시내용의 실시예에 따른 미세 제어 레이블의 다른 개략도이다. 도 14에 도시된 바와 같이, 영웅 캐릭터는 A5로 도시된 범위 내에서 능력 2를 45 도의 능력 방향으로 오른쪽 상단을 향해 던진다. A6는 동작 인터페이스에서 능력 2의 위치를 나타낸다. 그러므로 인간 플레이어의 동작은 "능력 2 + 방향"으로 나타낸다.
AI는 서로 다른 출력 유형들의 능력들을 예측할 수 있다, 즉, AI는 방향 버튼의 방향을 예측하고, 위치 버튼의 위치를 예측하며, 타겟 버튼의 특정 타겟을 예측할 수 있다. 계층적 레이블 설계는 게임 프로세스에서 인간 플레이어의 실제 동작 의도에 더 가까우며, 이는 AI 학습에 더 도움이 된다.
본 개시내용의 실시예들에서, 제1 사용될 훈련 레이블은 버튼 유형 정보 및/또는 버튼 파라미터 정보를 포함하고, 여기서 버튼 파라미터 정보는 방향 파라미터, 위치 파라미터 및 타겟 파라미터 중 적어도 하나를 포함하고, 방향 파라미터는 캐릭터의 이동 방향을 나타내는 데 사용되고, 위치 파라미터는 캐릭터의 위치를 나타내는 데 사용되며, 타겟 파라미터는 캐릭터의 출력의 타겟을 나타내는 데 사용된다고 설명된다. 전술한 방법을 통해, 제1 사용될 훈련 레이블의 내용은 더 세분화되고, 레이블들은 게임 프로세스에서 인간 플레이어의 실제 동작 의도에 더 가까울 수 있는 계층적 방식으로 확립되며, 그렇게 함으로써 AI의 학습 역량을 개선하는데 도움이 될 수 있다.
임의로, 도 7에 대응하는 실시예에 기초하여, 본 개시내용의 모델 훈련 방법의 제3 임의적 실시예에서, 제2 사용될 훈련 레이블은 동작 의도 정보 및 캐릭터 위치 정보를 포함한다.
동작 의도 정보는 캐릭터가 객체와 상호작용하는 의도를 나타내고, 캐릭터 위치 정보는 제1 영역에서 캐릭터의 위치를 나타낸다.
이 실시예에서, 제2 사용될 훈련 레이블에 포함된 내용이 상세히 소개된다. 제2 사용될 훈련 레이블은 동작 의도 정보 및 캐릭터 위치 정보를 포함한다. 실제 응용에서, 인간 플레이어는 현재 게임 상태에 따라 전체 상황 결정들, 예를 들면, 상단 맨 위 레인(lane)에서 미니언 라인 파밍하기(farming), 우리 정글에서 몬스터들 처치하기, 가운데 레인에서 팀전투에 참여하기, 맨 아래 레인에서 포탑 밀어뜨리기를 수행한다. 특정 동작 버튼들에 대응하는 미세 제어와 달리, 전체 상황 결정들은 플레이어 데이터에 반영된 암시적 의도들이다.
이해의 용이함을 위해, 도 15를 참조하면, 도 15는 본 개시내용의 실시예에 따른 전체 상황 레이블의 개략도이다. 예를 들어, 인간의 전체 상황 및 대응하는 전체 상황 레이블(제2 사용될 훈련 레이블)이 타임라인의 변화에 따라 획득된다. 인간 플레이어의 한 라운드의 배틀의 비디오는 '팀전투', '팜', '정글', '밀어뜨리기'와 같은 장면들로 나누어질 수 있고, 플레이어의 전체 상황 의도에 관한 동작 의도 정보는 장면들을 모델링함으로써 나타낼 수 있다. 미니맵은 24 * 24 블록들로 구분되고, 캐릭터 위치 정보는 다음 공격에서 캐릭터가 위치한 블록을 나타낸다. 도 15에 도시된 바와 같이, 제2 사용될 훈련 레이블은 동작 의도 정보 + 캐릭터 위치 정보이고, 이는 각각 "정글 + 좌표들 A", "팀전투 + 좌표들 B", "팜 + 좌표들 C"로서 표현된다.
본 개시내용의 실시예들에서, 제2 사용될 훈련 레이블은 동작 의도 정보 및 캐릭터 위치 정보를 포함하고, 여기서 동작 의도 정보는 캐릭터가 객체와 상호작용하는 의도를 나타내고, 캐릭터 위치 정보는 제1 영역에서 캐릭터의 위치를 나타낸다고 기술된다. 전술한 방법을 통해, MOBA 게임에서 전체 상황 결정이 매우 중요하기 때문에, 인간 플레이어의 전체 상황은 캐릭터 위치 정보와 조합하여 동작 의도 정보에 반영되므로, 솔루션의 실행 가능성 및 동작성이 개선된다.
임의로, 도 7에 대응하는 실시예에 기초하여, 본 개시내용의 모델 훈련 방법의 제4 임의적 실시예에서, 각각의 사용될 훈련 이미지의 사용될 훈련 특징 세트 및 각각의 사용될 훈련 이미지에 대응하는 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블에 의한 훈련을 통해 타겟 결합 모델을 획득하는 단계는 다음과 같은 단계들:
각각의 사용될 훈련 이미지의 사용될 훈련 특징 세트를 처리하여 타겟 특징 세트를 획득하는 단계 - 타겟 특징 세트는 제1 타겟 특징, 제2 타겟 특징 및 제3 타겟 특징을 포함함 -;
LSTM 계층을 사용하여 타겟 특징 세트에 대응하는 제1 예측된 레이블 및 제2 예측된 레이블을 획득하는 단계 - 제1 예측된 레이블은 동작 내용과 관련된 예측된 레이블이고, 제2 예측된 레이블은 동작 의도와 관련된 예측된 레이블임 -;
각각의 사용될 훈련 이미지의 제1 예측된 레이블, 제1 사용될 훈련 레이블, 제2 예측된 레이블 및 제2 사용될 훈련 레이블에 의한 훈련을 통해 모델 핵심 파라미터를 획득하는 단계 - 제1 예측된 레이블 및 제2 예측된 레이블은 둘 모두 예측된 값들을 갖고, 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블은 둘 모두 실제 값들을 가짐 -;
모델 핵심 파라미터에 따라 타겟 결합 모델을 생성하는 단계를 포함할 수 있다.
이 실시예에서, 훈련을 통해 타겟 결합 모델을 획득하는 일반적인 프로세스가 소개된다. 이해의 용이함을 위해, 도 16을 참조하면, 도 16은 본 개시내용의 실시예에 따른 타겟 결합 모델의 네트워크 구조의 개략도이다. 도 16에 도시된 바와 같이, 모델로의 입력은 사용될 훈련 이미지의 현재 프레임의 사용될 훈련 특징 세트이고, 사용될 훈련 특징 세트는 미니맵 이미지-유사 특징(제1 사용될 훈련 특징), 현재 시야 이미지-유사 특징(제2 사용될 훈련 특징) 및 영웅 캐릭터 벡터 특징(제3 사용될 훈련 특징)을 포함한다. 이미지-유사 특징들은 각기 컨벌루션 네트워크를 통해 인코딩되고, 벡터 특징은 전체 연결된 네트워크를 통해 인코딩되어 타겟 특징 세트를 획득한다. 타겟 특징 세트는 제1 타겟 특징, 제2 타겟 특징 및 제3 타겟 특징을 포함한다. 제1 타겟 특징은 제1 사용될 훈련 특징을 처리하여 획득되고, 제2 타겟 특징은 제2 사용될 훈련 특징을 처리하여 획득되며, 제3 타겟 특징은 제3 사용될 훈련 특징을 처리하여 획득된다. 그 다음에 타겟 특징 세트는 연쇄(concatenation)를 통해 공용 인코딩 계층을 형성한다. 인코딩 계층은 LSTM 네트워크 계층에 입력된다. LSTM 네트워크 계층은 영웅의 시야의 부분적인 가시성 문제를 해결하는데 주로 사용된다.
LSTM 네트워크는 시간 순환 신경망(time recurrent neural network)이며 시계열들에서 상대적으로 긴 간격과 대기시간에서 중요한 이벤트들을 처리하고 예측하는데 적합하다. LSTM 네트워크는 LSTM이 정보가 유용한지를 결정하는데 사용되는 프로세서를 갖고 있다는 점에서 순환 신경망(Recurrent Neural Network)(RNN)과 다르다. 프로세서의 구조는 유닛으로 지칭된다. 유닛은 각각 입력 게이트, 망각 게이트 및 출력 게이트라고 하는 3개의 문(door)들을 갖는다. 정보의 일부가 LSTM 네트워크 계층에 들어올 때, 그 정보가 유용한지 여부는 규칙에 따라 결정될 수 있다. 알고리즘 인증에 성공한 정보만 유지되고, 알고리즘 인증에 실패한 정보는 망각 게이트를 통해 잊혀진다. LSTM은 장기적인 의존성 문제를 해결하는 효과적인 기술이며 보편성이 아주 높다. MOBA 게임의 경우, 보이지 않는 시야 문제가 있을 수 있다. 즉, 우리 편 영웅 캐릭터는 우리 유닛들(예를 들어, 팀원들의 영웅 캐릭터들) 주변의 상대방 영웅들, 몬스터들, 미니언 라인들만 관찰할 수 있고, 다른 위치에서 상대방의 유닛을 관찰할 수 없으며, 상대방의 영웅은 덤불에 숨거나 스텔스 능력을 사용하여 시야에서 자신을 가릴 수 있다. 이 경우, 모델 훈련에서 정보 무결성을 보장하기 위해, 숨겨진 정보는 LSTM 네트워크 계층을 사용하여 복원되어야 한다.
사용될 훈련 이미지 프레임의 제1 예측된 레이블 및 제2 예측된 레이블은 LSTM 계층의 출력 결과에 기초하여 획득될 수 있다. 사용될 훈련 이미지 프레임의 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블은 수동으로 레이블링된 결과에 따라 결정된다. 이 경우, 제1 예측된 레이블과 제1 사용될 훈련 레이블 사이의 최소 값이 손실 함수를 사용하여 획득될 수 있고, 제2 예측된 레이블과 제2 사용될 훈련 레이블 사이의 최소 값이 손실 함수를 사용하여 획득될 수 있다. 모델 핵심 파라미터는 최소 값들의 조건하에서 결정된다. 모델 핵심 파라미터는 미세 제어 태스크들(예를 들어, 버튼, 이동, 정상적 공격, 능력 1, 능력 2 및 능력 3)에 대한 모델 파라미터 및 전체 상황 태스크들에 대한 모델 파라미터를 포함한다. 타겟 결합 모델은 모델 핵심 파라미터에 따라 생성된다.
각각의 출력 태스크는 독립적으로 계산될 수 있다는 것, 즉, 각 태스크의 출력 계층의 완전 연결된 네트워크 파라미터는 태스크에만 관련된다는 것이 이해될 수 있다. 타겟 결합 모델은 전체 상황 위치와 의도를 예측하는데 사용되는 2차 태스크들을 포함하며, 전체 상황 태스크의 출력은 계단식 형태로 미세 제어 태스크의 인코딩 계층에 출력된다.
손실 함수는 모델의 예측된 값과 실제 값 사이의 불일치 정도를 추정하는데 사용되며 음이 아닌 실가 함수(real-valued function)이다. 손실 함수가 작을수록 모델이 강건성이 더 크다는 것을 나타낸다. 손실 함수는 경험적 위험 함수와 구조적 위험 함수의 핵심 부분이다. 일반적으로 사용되는 손실 함수는 이것으로 제한되는 것은 아니지만, 힌지 손실(hinge loss), 교차 엔트로피 손실(cross entropy loss), 제곱 손실(square loss) 및 지수 손실(exponential loss)을 포함한다.
본 개시내용의 실시예들에서, 훈련을 통해 타겟 결합 모델을 획득하는 프로세스가 제공되며, 프로세스는 각각의 사용될 훈련 이미지의 사용될 훈련 특징 세트를 처리하여 타겟 특징 세트를 획득하는 단계, 그 다음에 LSTM 계층을 사용하여 타겟 특징 세트에 대응하는 제1 예측된 레이블 및 제2 예측된 레이블을 획득하는 단계, 및 그 다음에 각각의 사용될 훈련 이미지의 제1 예측된 레이블, 제1 사용될 훈련 레이블, 제2 예측된 레이블 및 제2 사용될 훈련 레이블을 사용하여 훈련을 통해 모델 핵심 파라미터를 획득하는 단계를 포함할 수 있다. 모델 핵심 파라미터는 타겟 결합 모델을 생성하는데 사용된다. 전술한 방법을 통해, LSTM 계층을 사용함으로써 일부 시야들이 관찰되지 않는 문제가 해결될 수 있다. 즉, LSTM 계층은 이전 기간의 데이터를 획득할 수 있으므로, 데이터가 보다 완전 해지고, 이는 모델 훈련의 프로세스에서 추론하고 결정 내리는데 도움이 된다.
임의로, 도 7에 대응하는 제4 실시예에 기초하여, 본 개시내용의 모델 훈련 방법의 제5 임의적 실시예에서, 각각의 사용될 훈련 이미지의 사용될 훈련 특징 세트를 처리하여 타겟 특징 세트를 획득하는 단계는 다음과 같은 단계들: FC 계층을 사용하여 각각의 사용될 훈련 이미지의 제3 사용될 훈련 특징을 처리하여 제3 타겟 특징을 획득하는 단계 - 제3 타겟 특징은 1차원 벡터 특징임 -; 컨벌루션 계층을 사용하여 각각의 사용될 훈련 이미지의 제2 사용될 훈련 특징을 처리하여 제2 타겟 특징을 획득하는 단계 - 제2 타겟 특징은 1차원 벡터 특징임 -; 컨벌루션 계층을 사용하여 각각의 사용될 훈련 이미지의 제1 사용될 훈련 특징을 처리하여 제1 타겟 특징을 획득하는 단계 - 제1 타겟 특징은 1차원 벡터 특징임 - 를 포함할 수 있다.
이 실시예에서, 모델에 입력되는 사용될 훈련 이미지의 각 프레임의 사용될 훈련 특징 세트를 처리하는 방법이 소개된다. 사용될 훈련 특징 세트는 미니맵 이미지-유사 특징(제1 사용될 훈련 특징), 현재 시야 이미지-유사 특징(제2 사용될 훈련 특징) 및 영웅 캐릭터 벡터 특징(제3 사용될 훈련 특징)을 포함한다. 예를 들어, 제3 사용될 훈련 특징은 제3 사용될 훈련 특징을 FC 계층에 입력하고 FC 계층에 의해 출력되는 제3 타겟 특징을 획득함으로써 처리된다. FC 계층의 기능은 분산된 특징 표현을 샘플 레이블링 공간에 매핑하는 것이다. FC 계층의 각 노드는 이전 계층의 모든 노드들에 연결되어 이전에 추출된 특징들을 통합한다. 완전 연결의 특성으로 인해, 보통은 FC 계층의 파라미터의 수가 가장 크다.
제1 사용될 훈련 특징 및 제2 사용될 훈련 특징은 두 특징들을 각각 컨벌루션 계층에 입력함으로써 처리되어, 컨벌루션 계층을 사용하여 제1 사용될 훈련 특징에 대응하는 제1 타겟 특징 및 제2 사용될 훈련 특징에 대응하는 제2 타겟 특징을 출력한다. 컨벌루션 계층은 원본 이미지를 평평하게 만들 수 있다. 이미지 데이터의 경우, 픽셀은 그 주변 픽셀들의 데이터와 크게 관련된다. 전체 연결 네트워크에 의해 처리되면, 이미지 내의 픽셀들의 상관관계가 쉽게 무시될 수 있거나 또는 관련없는 두 픽셀들이 강제로 연관될 수 있다. 그러므로 이미지 데이터에 대해 컨벌루션 처리가 수행되어야 한다. 제1 사용될 훈련 특징에 대응하는 이미지가 10 × 10 픽셀들이라고 가정하면, 컨벌루션 계층을 통해 획득된 제1 타겟 특징은 100차원 벡터 특징이다. 제2 사용될 훈련 특징에 대응하는 이미지가 10 × 10 픽셀들이라고 가정하면, 컨벌루션 계층을 통해 획득된 제2 타겟 특징은 100차원 벡터 특징이다. 제3 사용될 훈련 특징에 대응하는 제3 타겟 특징이 10차원 벡터 특징이라고 가정하면, 연쇄(concat) 계층을 통해 210 차원(100 + 100 + 10) 벡터 특징이 획득될 수 있다.
본 개시내용의 실시예들에서, 사용될 훈련 특징 세트는 추가로 처리될 수 있다. 즉, 각각의 사용될 훈련 이미지의 제1 사용될 훈련 특징은 FC 계층을 사용함으로써 처리되어 제1 타겟 특징을 획득한다. 각각의 사용될 훈련 이미지의 제2 사용될 훈련 특징은 컨벌루션 계층을 사용함으로써 처리되어 제2 타겟 특징을 획득한다. 각각의 사용될 훈련 이미지의 제3 사용될 훈련 특징은 컨벌루션 계층을 사용함으로써 처리되어 제3 타겟 특징을 획득한다. 전술한 방법을 통해, 모든 특징들은 1차원 벡터 특징들로서 획득되고, 후속 모델 훈련을 위해 벡터 특징들에 대해 연쇄 처리가 수행되며, 그렇게 함으로써 솔루션의 실행 가능성 및 동작성을 개선하는 것을 도울 수 있다.
임의로, 도 7에 대응하는 제4 실시예에 기초하여, 본 개시내용의 모델 훈련 방법의 제6 임의적 실시예에서, LSTM 계층을 사용하여 타겟 특징 세트에 대응하는 제1 예측된 레이블 및 제2 예측된 레이블을 획득하는 단계는,
LSTM 계층을 사용하여 타겟 특징 세트에 대응하는 제1 예측된 레이블, 제2 예측된 레이블 및 제3 예측된 레이블을 획득하는 단계를 포함할 수 있고, 제3 예측된 레이블은 승리 또는 패배의 결과와 관련된 예측된 레이블이고;
각각의 사용될 훈련 이미지의 제1 예측된 레이블, 제1 사용될 훈련 레이블, 제2 예측된 레이블 및 제2 사용될 훈련 레이블에 의한 훈련을 통해 모델 핵심 파라미터를 획득하는 단계는,
사용될 훈련 이미지들 각각에 대한 제3 사용될 훈련 레이블을 획득하는 단계 - 제3 사용될 훈련 레이블은 승리 또는 패배의 실제 결과를 나타내는 데 사용됨 -; 및
제1 예측된 레이블, 제1 사용될 훈련 레이블, 제2 예측된 레이블, 제2 사용될 훈련 레이블, 제3 예측된 레이블 및 제3 사용될 훈련 레이블에 의한 훈련을 통해 모델 핵심 파라미터를 획득하는 단계를 포함하고, 제3 사용될 훈련 레이블은 예측된 값을 갖고, 제3 예측된 레이블은 실제 값을 갖는다.
이 실시예에서, 타겟 결합 모델은 승리 또는 패배의 결과를 추가로 예측할 수 있다는 것이 추가로 소개된다. 예를 들어, 도 7에 대응하는 제4 실시예에 기초하여, 사용될 훈련 이미지 프레임의 제3 사용될 훈련 레이블이 LSTM 계층의 출력 결과에 기초하여 획득될 수 있다. 사용될 훈련 이미지 프레임의 제3 사용될 훈련 레이블 및 제3 사용될 훈련 레이블은 수동으로 레이블링된 결과에 따라 결정된다. 이 경우, 제3 예측된 레이블 및 제3 사용될 훈련 레이블 사이의 최소 값이 손실 함수를 사용하여 획득될 수 있고, 모델 핵심 파라미터는 최소 값의 조건하에서 결정된다. 이 경우, 모델 핵심 파라미터는 미세 제어 태스크들(예를 들어, 버튼, 이동, 정상적 공격, 능력 1, 능력 2 및 능력 3)에 대한 모델 파라미터들 및 전체 상황 태스크들에 대한 모델 파라미터를 포함할 뿐만 아니라, 승리 또는 패배를 예측하는 태스크들에 대한 모델 파라미터들을 포함한다. 타겟 결합 모델은 모델 핵심 파라미터에 따라 최종적으로 생성된다.
본 개시내용의 실시예들에서, 타겟 결합 모델은 승리 또는 패배의 결과와 관련된 레이블에 의해 추가로 훈련될 수 있다는 것이 설명된다. 즉, 서버는 LSTM 계층을 사용함으로써, 타겟 특징 세트에 대응하는 제1 예측된 레이블, 제2 예측된 레이블 및 제3 예측된 레이블을 획득하며, 여기서 제3 예측된 레이블은 예측을 통해 획득되고 승리 또는 패배의 결과와 관련이 있는 레이블을 나타낸다. 그 다음에 서버는 사용될 훈련 이미지들 각각에 대한 제3 사용될 훈련 레이블을 획득하고, 제1 예측된 레이블, 제1 사용될 훈련 레이블, 제2 예측된 레이블, 제2 사용될 훈련 레이블, 제3 예측된 레이블 및 제3 사용될 훈련 레이블에 의한 훈련을 통해 최종적으로 모델 핵심 파라미터를 획득한다. 전술한 방법을 통해, 타겟 결합 모델은 경기의 승률을 추가로 예측할 수 있다. 그러므로 상황의 학습이 강화될 수 있고, 그렇게 함으로써 모델 응용의 신뢰성과 다양성을 개선할 수 있다.
임의로, 도 7 및 도 7에 대응하는 제1 실시예 내지 제6 실시예 중 어느 하나에 기초하여, 본 개시내용의 모델 훈련 방법의 제7 임의적 실시예에서, 각각의 사용될 훈련 이미지의 사용될 훈련 특징 세트 및 각각의 사용될 훈련 이미지에 대응하는 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블에 의한 훈련을 통해 타겟 결합 모델을 획득하는 단계 후에, 방법은,
사용될 훈련 비디오를 획득하는 단계 - 사용될 훈련 비디오는 상호작용 이미지들의 다수의 프레임들을 포함함 -;
타겟 결합 모델을 사용하여 사용될 훈련 비디오에 대응하는 타겟 장면 데이터를 획득하는 단계 - 타겟 장면 데이터는 타겟 장면의 데이터를 포함함 -;
타겟 장면 데이터, 제1 사용될 훈련 레이블 및 제1 예측된 레이블에 의한 훈련을 통해 타겟 모델 파라미터를 획득하는 단계 - 제1 예측된 레이블은 동작 내용과 관련된 예측된 레이블이고, 제1 예측된 레이블은 예측된 값을 갖고, 제1 사용될 훈련 레이블은 실제 값을 가짐 -; 및
타겟 모델 파라미터를 사용하여 타겟 결합 모델을 업데이트하여, 강화된 결합 모델을 획득하는 단계를 더 포함할 수 있다.
이 실시예에서, MOBA 게임 플레이어들의 수가 많기 때문에, 인간 플레이어들로부터 많은 양의 데이터가 감독 학습 및 훈련에 사용될 수 있으며, 그럼으로써 모델에 의한 인간 동작들을 시뮬레이션할 수 있다. 그러나 인간의 긴장감 또는 부주의와 같은 다양한 요인들로 인해 오작동이 있을 수 있다. 오작동은 능력의 던지는 방향의 편차 또는 적시에 상대방의 능력을 피하지 못해 훈련 데이터에서 불량 샘플들로 이어지는 것을 포함할 수 있다. 이를 고려하여, 본 개시내용은 강화 학습을 통해 타겟 결합 모델에서 일부 태스크 계층들을 최적화할 수 있다. 예를 들어, 강화 학습은 미세 제어 FC 계층에 대해 수행되고 전체 상황 FC 계층에 대해서는 수행되지 않는다.
이해의 용이함을 위해, 도 17을 참조하면, 도 17은 본 개시내용의 실시예에 따른 강화된 결합 모델의 시스템 구조의 개략도이다. 도 17에 도시된 바와 같이, 타겟 결합 모델은 결합 모델, 전체 상황 FC 계층 및 미세 제어 FC 계층을 포함한다. 결합 모델에서 인코딩 계층의 핵심 모델 파라미터들 및 전체 상황 FC 계층의 핵심 모델 파라미터들이 감독 학습을 통해 획득된다. 강화 학습의 프로세스에서, 결합 모델에서 인코딩 계층 및 전체 상황 FC 계층의 핵심 모델 파라미터들은 변경되지 않은 채로 유지된다. 그러므로 특징 표현은 강화 학습 중에 학습될 필요가 없고, 그럼으로써 강화 학습의 수렴이 가속화된다. 팀전투 장면에서 미세 제어 태스크의 결정 단계들의 수는 결정 단계들의 수를 효과적으로 줄여주는 평균 100 개(약 20 초)이다. 미세 제어 FC 계층을 강화함으로써 AI의 능력 적중률 및 상대방 능력의 회피와 같은 핵심 역량들이 개선될 수 있다. 미세 제어 FC 계층은 구체적으로 PPO(proximal policy optimization) 알고리즘일 수 있는, 강화 학습 알고리즘에 의해 훈련된다.
다음에는 강화 학습의 프로세스를 소개한다.
단계 1. 타겟 결합 모델이 훈련을 통해 획득된 후에, 서버는 감독 학습을 통해 획득되는 타겟 결합 모델을 로드하고, 결합 모델과 전체 상황 FC 계층의 인코딩 계층을 바로잡고, 게임 환경을 로드할 수 있다.
단계 2. 사용될 훈련 비디오가 획득된다. 사용될 훈련 비디오는 상호작용 이미지들의 다수의 프레임들을 포함한다. 타겟 결합 모델을 사용하여 사용될 훈련 비디오의 시작 프레임부터 팀전투 처리가 수행되고, 영웅 팀전투 장면의 타겟 장면 데이터가 저장된다. 타겟 장면 데이터는 결합 모델 네트워크에 의해 출력되는 특징들, 액션들, 보상 신호 및 확률 분포를 포함할 수 있다. 특징들은 영웅 속성 벡터 특징, 미니맵 이미지-유사 특징 및 현재 시야 이미지-유사 특징이다. 액션들은 플레이어에 의해 영웅 캐릭터를 제어하는데 사용되는 버튼들이다. 보상 신호는 영웅 캐릭터가 팀전투 프로세스에서 상대방의 영웅 캐릭터들을 공격하는 횟수들이다. 결합 모델 네트워크에 의해 출력되는 확률 분포는 미세 제어 태스크에서 각 레이블의 분포 확률로서 표현될 수 있다. 예를 들어, 레이블 1의 분포 확률은 0.1이고, 레이블 2의 분포 확률은 0.3이고, 레이블 3의 분포 확률은 0.6이다.
단계 3. 타겟 모델 파라미터가 타겟 장면 데이터, 제1 사용될 훈련 레이블 및 제1 예측된 레이블에 의한 훈련을 통해 획득되고, 타겟 결합 모델에서 핵심 모델 파라미터들이 PPO 알고리즘을 사용하여 업데이트된다. 미세 제어 FC 계층의 모델 파라미터만 업데이트된다. 즉, 업데이트된 모델 파라미터는 제1 사용될 훈련 레이블 및 제1 예측된 레이블에 따라 생성된다. 제1 사용될 훈련 레이블과 제1 예측된 레이블은 둘 모두 미세 제어 태스크와 관련된 레이블이다.
단계 4. 단계 2 내지 단계 4의 처리가 사용될 훈련 비디오의 각 이미지 프레임에 대해 수행된 후에 프레임들의 반복들이 최대 수에 도달하지 못하면, 업데이트된 타겟 결합 모델은 배틀 환경으로 보내지고 프로세스는 단계 2로 돌아간다. 최대 반복 프레임 수에 도달하면 단계 5가 수행된다. 최대 반복 프레임 수는 경험에 기초하여 설정되거나 또는 장면에 기초하여 설정될 수 있다. 이것은 본 개시내용의 실시예들에서 제한되지 않는다.
단계 5. 강화에 의해 획득되는 강화된 결합 모델이 저장된다.
또한, 본 개시내용의 실시예들에서, 타겟 결합 모델의 일부 태스크 계층들은 강화 학습을 통해 추가로 최적화될 수 있다. 미세 제어 태스크의 일부가 강화되어야 하면, 서버는 사용될 훈련 비디오를 획득한다. 그런 다음 서버는 타겟 결합 모델을 사용하여 사용될 훈련 비디오에 대응하는 타겟 장면 데이터를 획득하고, 타겟 장면 데이터, 제1 사용될 훈련 레이블 및 제1 예측된 레이블에 기초한 훈련을 통해 타겟 모델 파라미터를 획득한다. 마지막으로, 서버는 타겟 모델 파라미터를 사용하여 타겟 결합 모델을 업데이트하여 강화된 결합 모델을 획득한다. 전술한 방법을 통해, 미세 제어 FC 계층을 강화함으로써 AI 역량들이 개선될 수 있다. 또한, 강화 학습은 인간의 긴장감 또는 부주의와 같은 다양한 요인들로 인해 야기되는 오작동 문제들을 추가로 극복할 수 있고, 그렇게 함으로써 훈련 데이터에서 불량 샘플들의 수를 크게 줄이고 모델의 신뢰성 및 모델을 사용하여 예측의 정확성을 더욱 개선할 수 있다. 강화 학습 방법은 일부 장면들에 대해서만 수행되어, 결정 단계들의 수를 줄이고 수렴을 가속화할 수 있다.
임의로, 도 7 및 도 7에 대응하는 제1 실시예 내지 제6 실시예 중 어느 하나에 기초하여, 본 개시내용의 모델 훈련 방법의 제8 임의적 실시예에서, 각각의 사용될 훈련 이미지의 사용될 훈련 특징 세트 및 각각의 사용될 훈련 이미지에 대응하는 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블에 의한 훈련을 통해 타겟 결합 모델을 획득하는 단계 후에, 방법은,
사용될 훈련 비디오를 획득하는 단계 - 사용될 훈련 비디오는 상호작용 이미지들의 다수의 프레임들을 포함함 -;
타겟 결합 모델을 사용하여 사용될 훈련 비디오에 대응하는 타겟 장면 데이터를 획득하는 단계 - 타겟 장면 데이터는 타겟 장면의 데이터를 포함함 -;
타겟 장면 데이터, 제2 사용될 훈련 레이블 및 제2 예측된 레이블에 의한 훈련을 통해 타겟 모델 파라미터를 획득하는 단계 - 제2 예측된 레이블은 동작 의도와 관련된 예측된 레이블이고, 제2 예측된 레이블은 예측된 값을 갖고, 제2 사용될 훈련 레이블은 실제 값을 가짐 -; 및
타겟 모델 파라미터를 사용하여 타겟 결합 모델을 업데이트하여, 강화된 결합 모델을 획득하는 단계를 더 포함할 수 있다.
이 실시예에서, MOBA 게임 플레이어들의 수가 많기 때문에, 인간 플레이어들로부터 많은 양의 데이터가 일반적으로 감독 학습 및 훈련에 사용될 수 있으며, 그럼으로써 모델에 의한 인간 동작들을 시뮬레이션할 수 있다. 그러나 인간의 긴장감 또는 부주의와 같은 다양한 요인들로 인해 오작동이 있을 수 있다. 오작동은 능력의 던지는 방향의 편차 또는 적시에 상대방의 능력을 피하지 못해 훈련 데이터에서 불량 샘플들로 이어지는 것을 포함할 수 있다. 이것을 고려하여, 본 개시내용은 강화 학습을 통해 타겟 결합 모델에서 일부 태스크 계층들을 최적화할 수 있다. 예를 들어, 강화 학습은 전체 상황 FC 계층에 대해서만 수행되고 미세 제어 FC 계층에 대해서는 수행되지 않는다.
이해의 용이함을 위해, 도 18을 참조하면, 도 18은 본 개시내용의 실시예에 따른 강화된 결합 모델의 시스템 구조의 개략도이다. 도 18에 도시된 바와 같이, 타겟 결합 모델은 결합 모델, 전체 상황 FC 계층 및 미세 제어 FC 계층을 포함한다. 결합 모델에서 인코딩 계층의 핵심 모델 파라미터들과 미세 제어 FC 계층의 핵심 모델 파라미터들은 감독 학습을 통해 획득된다. 강화 학습의 프로세스에서, 결합 모델에서 인코딩 계층 및 미세 제어 FC 계층의 핵심 모델 파라미터들은 변경되지 않은 채로 유지된다. 그러므로 특징 표현은 강화 학습 중에 학습될 필요가 없고, 그럼으로써 강화 학습의 수렴이 가속화된다. AI의 거시적 의사 결정 역량은 전체 상황 FC 계층을 강화함으로써 개선될 수 있다. 전체 상황 FC 계층은 강화 학습 알고리즘을 사용하여 훈련을 수행하고, 알고리즘은 PPO 알고리즘 또는 행위자-비판(Actor-Critic) 알고리즘일 수 있다.
다음에는 강화 학습의 프로세스를 소개한다.
단계 1. 타겟 결합 모델이 훈련을 통해 획득된 후에, 서버는 감독 학습을 통해 획득된 타겟 결합 모델을 로드하고, 결합 모델과 미세 제어 FC 계층의 인코딩 계층을 바로잡고, 게임 환경을 로드할 수 있다.
단계 2. 사용될 훈련 비디오가 획득된다. 사용될 훈련 비디오는 상호작용 이미지들의 다수의 프레임들을 포함한다. 타겟 결합 모델을 사용하여 사용될 훈련 비디오의 시작 프레임부터 팀전투 처리가 수행되고, 영웅 팀전투 장면의 타겟 장면 데이터가 저장된다. 타겟 장면 데이터는 "정글", "팜", "팀전투" 및 "밀어뜨리기"와 같은 장면들의 데이터를 포함할 수 있다.
단계 3. 타겟 모델 파라미터가 타겟 장면 데이터, 제2 사용될 훈련 레이블 및 제2 예측된 레이블에 의한 훈련을 통해 획득되고, 타겟 결합 모델에서 핵심 모델 파라미터들이 행위자-비판 알고리즘을 사용하여 업데이트된다. 전체 상황 FC 계층의 모델 파라미터만 업데이트된다. 즉, 업데이트된 모델 파라미터는 제2 사용될 훈련 레이블 및 제2 예측된 레이블에 따라 생성된다. 제2 사용될 훈련 레이블과 제2 예측된 레이블은 둘 모두 전체 상황 태스크와 관련된 레이블이다.
단계 4. 단계 2 내지 단계 4의 처리가 사용될 훈련 비디오의 각 이미지 프레임에 대해 수행된 후에 프레임들의 반복들이 최대 수에 도달하지 못하면, 업데이트된 타겟 결합 모델은 배틀 환경으로 보내지고 프로세스는 단계 2로 돌아간다. 최대 반복 프레임 수에 도달하면 단계 5가 수행된다.
단계 5. 강화에 의해 획득되는 강화된 결합 모델이 저장된다.
또한, 본 개시내용의 실시예들에서, 타겟 결합 모델에서 일부 태스크 계층들이 강화 학습을 통해 추가로 최적화될 수 있다. 전체 상황 태스크의 일부가 강화되어야 하면, 서버는 사용될 훈련 비디오를 획득한다. 그런 다음 서버는 타겟 결합 모델을 사용하여 사용될 훈련 비디오에 대응하는 타겟 장면 데이터를 획득하고, 타겟 장면 데이터, 제2 사용될 훈련 레이블 및 제2 예측된 레이블에 기초한 훈련을 통해 타겟 모델 파라미터를 획득한다. 마지막으로, 서버는 타겟 모델 파라미터를 사용하여 타겟 결합 모델을 업데이트하여 강화된 결합 모델을 획득한다. 전술한 방법을 통해, 전체 상황 FC 계층을 강화함으로써 AI 역량들이 개선될 수 있다. 또한, 강화 학습은 인간의 긴장감 또는 부주의와 같은 다양한 요인들로 인해 야기되는 오작동 문제들을 추가로 극복할 수 있고, 그렇게 함으로써 훈련 데이터에서 불량 샘플들의 수를 크게 줄이고 모델의 신뢰성 및 모델을 사용하여 예측의 정확성을 더욱 개선할 수 있다. 강화 학습 방법은 일부 장면들에 대해서만 수행되어, 결정 단계들의 수를 줄이고 수렴을 가속화할 수 있다.
다음에는 본 개시내용에서 서버를 상세히 설명한다. 도 19를 참조하면, 도 19는 본 개시내용의 실시예에 따른 서버의 실시예의 개략도이다. 서버(30)는,
예측될 이미지를 획득하도록 구성된 획득 모듈(301);
획득 모듈(301)에 의해 획득되는 예측될 이미지로부터 예측될 특징 세트를 추출하도록 구성된 추출 모듈(302)을 포함하고, 예측될 특징 세트는 제1 예측될 특징, 제2 예측될 특징 및 제3 예측될 특징을 포함하고, 제1 예측될 특징은 제1 영역의 이미지 특징이고, 제2 예측될 특징은 제2 영역의 이미지 특징이고, 제3 예측될 특징은 상호작용 동작과 관련된 속성 특징이고, 제1 영역의 범위는 제2 영역의 범위보다 작고;
획득 모듈(301)은 타겟 결합 모델을 사용하여, 추출 모듈(302)에 의해 추출되는 예측될 특징 세트에 대응하는 제1 레이블 및 제2 레이블을 획득하도록 추가로 구성되고, 제1 레이블은 동작 내용과 관련되고, 제2 레이블은 동작 의도와 관련된다.
이 실시예에서, 획득 모듈(301)은 예측될 이미지를 획득하고, 추출 모듈(302)은 획득 모듈(301)에 의해 획득되는 예측될 이미지로부터 예측될 특징 세트를 추출한다. 예측될 특징 세트는 제1 예측될 특징, 제2 예측될 특징 및 제3 예측될 특징을 포함하고, 제1 예측될 특징은 제1 영역의 이미지 특징을 나타내고, 제2 예측될 특징은 제2 영역의 이미지 특징을 나타내고, 제3 예측될 특징은 상호작용 동작과 관련된 속성 특징을 나타내고, 제1 영역의 범위는 제2 영역의 범위보다 작다. 획득 모듈(301)은 타겟 결합 모델을 사용하여, 추출 모듈(302)에 의해 추출되는 예측될 특징 세트에 대응하는 제1 레이블 및 제2 레이블을 획득한다. 제1 레이블은 동작 내용에 관련된 레이블을 나타내고, 제2 레이블은 동작 의도와 관련된 레이블을 나타낸다.
본 개시내용의 실시예들에서, 서버가 제공된다. 서버는 예측될 이미지를 먼저 획득한 다음, 예측될 이미지로부터 예측될 특징 세트를 추출한다. 예측될 특징 세트는 제1 예측될 특징, 제2 예측될 특징 및 제3 예측될 특징을 포함하고, 제1 예측될 특징은 제1 영역의 이미지 특징을 나타내고, 제2 예측될 특징은 제2 영역의 이미지 특징을 나타내고, 제3 예측될 특징은 상호작용 동작과 관련된 속성 특징을 나타내고, 제1 영역의 범위는 제2 영역의 범위보다 작다. 마지막으로, 서버는 타겟 결합 모델을 사용하여, 예측될 이미지에 대응하는 제1 레이블 및 제2 레이블을 획득할 수 있다. 제1 레이블은 동작 내용에 관련된 레이블을 나타내고, 제2 레이블은 동작 의도와 관련된 레이블을 나타낸다. 전술한 방법을 통해, 미세 제어 및 전체 상황이 단지 하나의 결합 모델만을 사용하여 예측될 수 있고, 여기서 미세 제어의 예측 결과는 제1 레이블로서 표현되고, 전체 상황의 예측 결과는 제2 레이블로서 표현된다. 그러므로 전체 상황 모델 및 미세 제어 모델이 결합 모델로 병합되어, 계층적 모델에서 하드 스위칭 문제를 효과적으로 해결하고 예측의 편의성을 개선한다.
임의로, 도 19에 대응하는 실시예에 기초하여, 본 개시내용의 서버(30)의 다른 실시예에서, 획득 모듈(301)은 타겟 결합 모델을 사용하여, 예측될 특징 세트에 대응하는 제1 레이블, 제2 레이블 및 제3 레이블을 획득하도록 구성된다. 제3 레이블은 승리 또는 패배의 결과와 관련된 레이블을 나타낸다.
본 개시내용의 실시예들에서, 타겟 결합 모델은 제1 레이블 및 제2 레이블을 출력할 수 있을 뿐만 아니라, 제3 레이블도 출력할 수 있다, 즉, 타겟 결합 모델은 승리 또는 패배의 결과를 추가로 예측할 수 있다. 전술한 방법을 통해, 실제 응용에서, 상황의 결과가 더 잘 예측될 수 있고, 이는 예측의 신뢰도를 개선하고 예측의 유연성과 실행 가능성을 개선하는데 도움이 된다.
다음에는 본 개시내용의 서버를 상세히 설명한다. 도 20을 참조하면, 도 20은 본 개시내용의 서버의 실시예의 개략도이다. 서버(40)는,
사용될 훈련 이미지 세트를 획득하도록 구성된 획득 모듈(401) - 사용될 훈련 이미지 세트는 N개의 사용될 훈련 이미지들을 포함하고, N은 1 이상의 정수임 -;
획득 모듈(401)에 의해 획득되는 각각의 사용될 훈련 이미지로부터 사용될 훈련 특징 세트를 추출하도록 구성된 추출 모듈(402) - 사용될 훈련 특징 세트는 제1 사용될 훈련 특징, 제2 사용될 훈련 특징 및 제3 사용될 훈련 특징을 포함하고, 제1 사용될 훈련 특징은 제1 영역의 이미지 특징이고, 제2 사용될 훈련 특징은 제2 영역의 이미지 특징이고, 제3 사용될 훈련 특징은 상호작용 동작과 관련된 속성 특징이고, 제1 영역의 범위는 제2 영역의 범위보다 작고;
획득 모듈(401)은 사용될 훈련 이미지들 각각에 대한 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블을 획득하도록 구성되고, 제1 사용될 훈련 레이블은 동작 내용과 관련되고, 제2 사용될 훈련 레이블은 동작 의도와 관련됨 -; 및
각각의 사용될 훈련 이미지로부터 추출 모듈(402)에 의해 추출되는 사용될 훈련 특징 세트 및 사용될 훈련 이미지들 각각에 대해 획득 모듈에 의해 획득되는 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블에 의한 훈련을 통해 타겟 결합 모델을 획득하도록 구성된 훈련 모듈(403)을 포함한다.
이 실시예에서, 획득 모듈(401)은 사용될 훈련 이미지 세트를 획득한다. 사용될 훈련 이미지 세트는 N개의 사용될 훈련 이미지들을 포함하며, N은 1 이상의 정수이다. 추출 모듈(402)은 획득 모듈(401)에 의해 획득되는 각각의 사용될 훈련 이미지로부터 사용될 훈련 특징 세트를 추출한다. 사용될 훈련 특징 세트는 제1 사용될 훈련 특징, 제2 사용될 훈련 특징 및 제3 사용될 훈련 특징을 포함한다. 제1 사용될 훈련 특징은 제1 영역의 이미지 특징을 나타내고, 제2 사용될 훈련 특징은 제2 영역의 이미지 특징을 나타내고, 제3 사용될 훈련 특징은 상호작용 동작과 관련된 속성 특징을 나타내며, 제1 영역의 범위는 제2 영역의 범위보다 작다. 획득 모듈(401)은 사용될 훈련 이미지들 각각에 대한 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블을 획득한다. 제1 사용될 훈련 레이블은 동작 내용에 관련된 레이블을 나타내고, 제2 사용될 훈련 레이블은 동작 의도와 관련된 레이블을 나타낸다. 훈련 모듈(403)은 각각의 사용될 훈련 이미지로부터 추출 모듈(402)에 의해 추출되는 사용될 훈련 특징 세트 및 각각의 사용될 훈련 이미지에 대해 획득 모듈에 의해 획득되는 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블에 의한 훈련을 통해 타겟 결합 모델을 획득한다.
본 개시내용의 실시예들에서, 서버가 소개된다. 서버는 사용될 훈련 이미지 세트를 먼저 획득한 다음, 각각의 사용될 훈련 이미지로부터 사용될 훈련 특징 세트를 추출한다. 사용될 훈련 특징 세트는 제1 사용될 훈련 특징, 제2 사용될 훈련 특징 및 제3 사용될 훈련 특징을 포함한다. 그 다음에 서버는 사용될 훈련 이미지들 각각에 대한 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블을 획득하고, 마지막으로 각각의 사용될 훈련 이미지의 사용될 훈련 특징 세트 및 각각의 사용될 훈련 이미지에 대응하는 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블에 의한 훈련을 통해 타겟 결합 모델을 획득한다. 전술한 방법을 통해, 미세 제어 및 전체 상황을 동시에 예측할 수 있는 모델이 설계된다. 그러므로 전체 상황 모델 및 미세 제어 모델이 결합 모델로 병합되어, 계층적 모델에서 하드 스위칭 문제를 효과적으로 해결하고 예측의 편의성을 개선한다. 또한, 전체 상황 태스크에 대한 고려는 거시적 결정의 정확성을 효과적으로 개선할 수 있다. 전체 상황 결정은 특히 MOBA 게임에서 매우 중요하다.
임의로, 도 20에 대응하는 실시예에 기초하여, 본 개시내용의 서버(40)의 다른 실시예에서, 제1 사용될 훈련 특징은 2차원 벡터 특징이고, 제1 사용될 훈련 특징은 제1 영역에서 캐릭터 위치 정보, 이동 객체 위치 정보 및 고정 객체 위치 정보, 방어 객체 위치 중 적어도 하나를 포함한다.
제2 사용될 훈련 특징은 2차원 벡터 특징이고, 제2 사용될 훈련 특징은 제2 영역에서 캐릭터 위치 정보, 이동 객체 위치 정보, 고정 객체 위치 정보, 방어 객체 위치 정보, 장애물 객체 위치 정보 및 출력 객체 위치 정보 중 적어도 하나를 포함한다.
제3 사용될 훈련 특징은 1차원 벡터 특징이고, 제1 사용될 훈련 특징은 캐릭터 히트 포인트 값, 캐릭터 출력 값, 시간 정보 및 스코어 정보 중 적어도 하나를 포함한다.
제1 사용될 훈련 특징, 제2 사용될 훈련 특징 및 제3 사용될 훈련 특징은 서로 대응한다.
본 개시내용의 실시예들에서, 3개의 사용될 훈련 특징들의 내용이 또한 소개되며, 여기서 제1 사용될 훈련 특징은 2차원 벡터 특징이고, 제2 사용될 훈련 특징은 2차원 벡터 특징이고, 제3 사용될 훈련 특징은 1차원 벡터 특징이다. 전술한 방법을 통해, 한편으로는 모델 훈련을 위한 더 많은 정보를 제공하는, 3개의 사용될 훈련 특징들에 포함된 특정 정보가 결정될 수 있다. 다른 한편, 제1 사용될 훈련 특징과 제2 사용될 훈련 특징은 둘 다 2차원 벡터 특징들이고, 이는 특징의 공간적 표현을 개선하는데 도움이 되고, 이 때문에 특징의 다양성이 개선된다.
임의로, 도 20에 대응하는 실시예에 기초하여, 본 개시내용의 서버(40)의 다른 실시예에서, 제1 사용될 훈련 레이블은 버튼 유형 정보 및/또는 버튼 파라미터 정보를 포함하고;
버튼 파라미터 정보는 방향 파라미터, 위치 파라미터 및 타겟 파라미터 중 적어도 하나를 포함하고, 방향 파라미터는 캐릭터의 이동 방향을 나타내는 데 사용되고, 위치 파라미터는 캐릭터의 위치를 나타내는 데 사용되며, 타겟 파라미터는 캐릭터의 출력의 타겟을 나타내는 데 사용된다.
본 개시내용의 실시예들에서, 제1 사용될 훈련 레이블은 버튼 유형 정보 및/또는 버튼 파라미터 정보를 포함하고, 여기서 버튼 파라미터 정보는 방향 파라미터, 위치 파라미터 및 타겟 파라미터 중 적어도 하나를 포함하고, 방향 파라미터는 캐릭터의 이동 방향을 나타내는 데 사용되고, 위치 파라미터는 캐릭터의 위치를 나타내는 데 사용되며, 타겟 파라미터는 캐릭터의 출력의 타겟을 나타내는 데 사용된다는 것이 설명된다. 전술한 방법을 통해, 제1 사용될 훈련 레이블의 내용은 더 세분화되고, 레이블들은 계층적 방식으로 확립되며, 이는 게임 프로세스에서 인간 플레이어의 실제 동작 의도에 더 가까워질 수 있고, 그렇게 함으로써 AI의 학습 역량을 개선하는데 도움이 될 수 있다.
임의로, 도 20에 대응하는 실시예에 기초하여, 본 개시내용의 서버(40)의 다른 실시예에서, 제2 사용될 훈련 레이블은 동작 의도 정보 및 캐릭터 위치 정보를 포함한다.
동작 의도 정보는 캐릭터가 객체와 상호작용하는 의도를 나타내고, 캐릭터 위치 정보는 제1 영역에서 캐릭터의 위치를 나타낸다.
본 개시내용의 실시예들에서, 제2 사용될 훈련 레이블은 동작 의도 정보 및 캐릭터 위치 정보를 포함하고, 여기서 동작 의도 정보는 캐릭터가 객체와 상호작용하는 의도를 나타내고, 캐릭터 위치 정보는 제1 영역에서 캐릭터의 위치를 나타낸다고 기술된다. 전술한 방법을 통해, MOBA 게임에서 전체 상황 결정이 매우 중요하기 때문에, 인간 플레이어의 전체 상황은 캐릭터 위치 정보와 조합하여 동작 의도 정보에 반영되므로, 솔루션의 실행 가능성 및 동작성이 개선된다.
임의로, 도 20에 대응하는 실시예에 기초하여, 본 개시내용의 서버(40)의 다른 실시예에서, 훈련 모듈(403)은
각각의 사용될 훈련 이미지의 사용될 훈련 특징 세트를 처리하여 타겟 특징 세트를 획득하고 - 타겟 특징 세트는 제1 타겟 특징, 제2 타겟 특징 및 제3 타겟 특징을 포함함 -;
LSTM 계층을 사용하여 타겟 특징 세트에 대응하는 제1 예측된 레이블 및 제2 예측된 레이블을 획득하고 - 제1 예측된 레이블은 동작 내용과 관련된 예측된 레이블이고, 제2 예측된 레이블은 동작 의도와 관련된 예측된 레이블임 -;
각각의 사용될 훈련 이미지의 제1 예측된 레이블, 제1 사용될 훈련 레이블, 제2 예측된 레이블 및 제2 사용될 훈련 레이블에 의한 훈련을 통해 모델 핵심 파라미터를 획득하고 - 제1 예측된 레이블 및 제2 예측된 레이블은 둘 모두 예측된 값들을 갖고, 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블은 둘 모두 실제 값들을 가짐 -;
모델 핵심 파라미터에 따라 타겟 결합 모델을 생성하도록 구성된다.
본 개시내용의 실시예들에서, 훈련을 통해 타겟 결합 모델을 획득하는 프로세스가 제공되고, 프로세스는 각각의 사용될 훈련 이미지의 사용될 훈련 특징 세트를 처리하여 타겟 특징 세트를 획득하는 단계를 주로 포함한다. 그 다음에 타겟 특징 세트에 대응하는 제1 예측된 레이블 및 제2 예측된 레이블이 LSTM 계층을 사용하여 획득되고, 모델 핵심 파라미터가 각각의 사용될 훈련 이미지의 제1 예측된 레이블, 제1 사용될 훈련 레이블, 제2 예측된 레이블 및 제2 사용될 훈련 레이블에 의한 훈련을 통해 획득된다. 모델 핵심 파라미터는 타겟 결합 모델을 생성하는데 사용된다. 전술한 방법을 통해, LSTM 계층을 사용함으로써 일부 시야들이 관찰되지 않는 문제가 해결될 수 있다. 즉, LSTM 계층은 이전 기간의 데이터를 획득할 수 있으므로, 데이터가 보다 완전해지고, 이는 모델 훈련의 프로세스에서 추론을 하고 결정을 내리는데 도움이 된다.
임의로, 도 20에 대응하는 실시예에 기초하여, 본 개시내용의 서버(40)의 다른 실시예에서, 훈련 모듈(403)은
FC 계층을 사용하여 각각의 사용될 훈련 이미지의 제3 사용될 훈련 특징을 처리하여 제3 타겟 특징을 획득하고 - 제3 타겟 특징은 1차원 벡터 특징임 -;
컨벌루션 계층을 사용하여 각각의 사용될 훈련 이미지의 제2 사용될 훈련 특징을 처리하여 제2 타겟 특징을 획득하고 - 제2 타겟 특징은 1차원 벡터 특징임 -;
컨벌루션 계층을 사용하여 각각의 사용될 훈련 이미지의 제1 사용될 훈련 특징을 처리하여 제1 타겟 특징을 획득하도록 구성되며, 제1 타겟 특징은 1차원 벡터 특징이다.
본 개시내용의 실시예들에서, 사용될 훈련 특징 세트는 추가로 처리될 수 있다. 즉, 각각의 사용될 훈련 이미지의 제1 사용될 훈련 특징은 FC 계층을 사용하여 처리되어 제1 타겟 특징을 획득하고, 각각의 사용될 훈련 이미지의 제2 사용될 훈련 특징은 컨벌루션 계층을 사용하여 처리되어 제2 타겟 특징을 획득하고, 각각의 사용될 훈련 이미지의 제3 사용될 훈련 특징은 컨벌루션 계층을 사용하여 처리되어 제3 타겟 특징을 획득한다. 전술한 방법을 통해, 1차원 벡터 특징들이 획득되고, 후속 모델 훈련을 위해 벡터 특징들에 대해 연쇄 처리가 수행되며, 그렇게 함으로써 솔루션의 실행 가능성 및 동작성을 개선하는 것을 도울 수 있다.
임의로, 도 20에 대응하는 실시예에 기초하여, 본 개시내용의 서버(40)의 다른 실시예에서, 훈련 모듈(403)은 LSTM 계층을 사용하여 타겟 특징 세트에 대응하는 제1 예측된 레이블, 제2 예측된 레이블 및 제3 예측된 레이블을 획득하고 - 제3 예측된 레이블은 승리 또는 패배의 결과와 관련된 예측된 레이블임 -;
사용될 훈련 이미지들 각각에 대한 제3 사용될 훈련 레이블을 획득하고 - 제3 사용될 훈련 레이블은 승리 또는 패배의 실제 결과를 나타내는 데 사용됨 -;
제1 예측된 레이블, 제1 사용될 훈련 레이블, 제2 예측된 레이블, 제2 사용될 훈련 레이블, 제3 예측된 레이블 및 제3 사용될 훈련 레이블에 의한 훈련을 통해 모델 핵심 파라미터를 획득하도록 구성되며, 제3 사용될 훈련 레이블은 예측된 값을 갖고, 제3 예측된 레이블은 실제 값을 갖는다.
본 개시내용의 실시예들에서, 타겟 결합 모델은 승리 또는 패배의 결과와 관련된 레이블에 의해 추가로 훈련될 수 있다는 것이 설명된다. 즉, 서버는 LSTM 계층을 사용함으로써, 타겟 특징 세트에 대응하는 제1 예측된 레이블, 제2 예측된 레이블 및 제3 예측된 레이블을 획득하며, 여기서 제3 예측된 레이블은 예측을 통해 획득되고 승리 또는 패배의 결과와 관련되는 레이블을 나타낸다. 그 다음에 서버는 사용될 훈련 이미지들 각각에 대한 제3 사용될 훈련 레이블을 획득하고, 제1 예측된 레이블, 제1 사용될 훈련 레이블, 제2 예측된 레이블, 제2 사용될 훈련 레이블, 제3 예측된 레이블 및 제3 사용될 훈련 레이블에 의한 훈련을 통해 모델 핵심 파라미터를 최종적으로 획득한다. 전술한 방법을 통해, 타겟 결합 모델은 경기의 승률을 추가로 예측할 수 있다. 그러므로 상황의 학습이 강화될 수 있고, 그렇게 함으로써 모델 응용의 신뢰성과 다양성을 개선할 수 있다.
임의로, 도 20에 대응하는 실시예에 기초하여, 도 21을 참조하면, 본 개시내용의 서버(40)의 다른 실시예에서, 서버(40)는 업데이트 모듈(404)을 더 포함한다.
획득 모듈(401)은 훈련 모듈(403)이 각각의 사용될 훈련 이미지의 사용될 훈련 특징 세트 및 각각의 사용될 훈련 이미지에 대응하는 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블에 의한 훈련을 통해 타겟 결합 모델을 획득한 후에 사용될 훈련 비디오를 획득하도록 추가로 구성되고, 사용될 훈련 비디오는 상호작용 이미지들의 다수의 프레임들을 포함한다.
획득 모듈(401)은 타겟 결합 모델을 사용하여 사용될 훈련 비디오에 대응하는 타겟 장면 데이터를 획득하도록 추가로 구성되며, 타겟 장면 데이터는 타겟 장면의 데이터를 포함한다.
훈련 모듈(403)은 획득 모듈(401)에 의해 획득되는 타겟 장면 데이터, 제1 사용될 훈련 레이블 및 제1 예측된 레이블에 의한 훈련을 통해 타겟 모델 파라미터를 획득하도록 추가로 구성되고, 제1 예측된 레이블은 동작 내용과 관련된 예측된 레이블이고, 제1 예측된 레이블은 예측된 값을 갖고, 제1 사용될 훈련 레이블은 실제 값을 갖는다.
업데이트 모듈(404)은 훈련 모듈(403)에 의해 획득되는 타겟 모델 파라미터를 사용하여 타겟 결합 모델을 업데이트하여, 강화된 결합 모델을 획득하도록 구성된다.
또한, 본 개시내용의 실시예들에서, 타겟 결합 모델에서 일부 태스크 계층들이 강화 학습을 통해 추가로 최적화될 수 있다. 미세 제어 태스크의 일부가 강화되어야 하면, 서버는 사용될 훈련 비디오를 획득한다. 그런 다음 서버는 타겟 결합 모델을 사용하여 사용될 훈련 비디오에 대응하는 타겟 장면 데이터를 획득하고, 타겟 장면 데이터, 제1 사용될 훈련 레이블 및 제1 예측된 레이블에 기초한 훈련을 통해 타겟 모델 파라미터를 획득한다. 마지막으로, 서버는 타겟 모델 파라미터를 사용하여 타겟 결합 모델을 업데이트하여 강화된 결합 모델을 획득한다. 전술한 방법을 통해, 미세 제어 FC 계층을 강화함으로써 AI 역량들이 개선될 수 있다. 또한, 강화 학습은 인간의 긴장감 또는 부주의와 같은 다양한 요인들로 인해 야기되는 오작동 문제들을 추가로 극복할 수 있고, 그렇게 함으로써 훈련 데이터에서 불량 샘플들의 수를 크게 줄이고 모델의 신뢰성 및 모델을 사용하여 예측을 수행하는 정확성을 더욱 개선할 수 있다. 강화 학습 방법은 일부 장면들에 대해서만 수행되어, 결정 단계들의 수를 줄이고 수렴을 가속화할 수 있다.
임의로, 도 20에 대응하는 실시예에 기초하여, 다시 도 21을 참조하면, 본 개시내용의 서버(40)의 다른 실시예에서, 서버(40)는 업데이트 모듈(404)을 더 포함한다.
획득 모듈(401)은 훈련 모듈(403)이 각각의 사용될 훈련 이미지의 사용될 훈련 특징 세트 및 각각의 사용될 훈련 이미지에 대응하는 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블에 의한 훈련을 통해 타겟 결합 모델을 획득한 후에 사용될 훈련 비디오를 획득하도록 추가로 구성되고, 사용될 훈련 비디오는 상호작용 이미지들의 다수의 프레임들을 포함한다.
획득 모듈(401)은 타겟 결합 모델을 사용하여 사용될 훈련 비디오에 대응하는 타겟 장면 데이터를 획득하도록 추가로 구성되며, 타겟 장면 데이터는 타겟 장면의 데이터를 포함한다.
훈련 모듈(403)은 획득 모듈(401)에 의해 획득되는 타겟 장면 데이터, 제2 사용될 훈련 레이블 및 제2 예측된 레이블에 의한 훈련을 통해 타겟 모델 파라미터를 획득하도록 추가로 구성되고, 제2 예측된 레이블은 동작 의도와 관련된 예측된 레이블이고, 제2 예측된 레이블은 예측된 값을 갖고, 제2 사용될 훈련 레이블은 실제 값을 갖는다.
업데이트 모듈(404)은 훈련 모듈(403)에 의해 획득되는 타겟 모델 파라미터를 사용하여 타겟 결합 모델을 업데이트하여, 강화된 결합 모델을 획득하도록 구성된다.
또한, 본 개시내용의 실시예들에서, 타겟 결합 모델에서 일부 태스크 계층들이 강화 학습을 통해 추가로 최적화될 수 있다. 전체 상황 태스크의 일부가 강화되어야 하면, 서버는 사용될 훈련 비디오를 획득한다. 그 다음에 서버는 타겟 결합 모델을 사용하여 사용될 훈련 비디오에 대응하는 타겟 장면 데이터를 획득하고, 타겟 장면 데이터, 제2 사용될 훈련 레이블 및 제2 예측된 레이블에 기초한 훈련을 통해 타겟 모델 파라미터를 획득한다. 마지막으로, 서버는 타겟 모델 파라미터를 사용하여 타겟 결합 모델을 업데이트하여 강화된 결합 모델을 획득한다. 전술한 방법을 통해, 전체 상황 FC 계층을 강화함으로써 AI 역량들이 개선될 수 있다. 또한, 강화 학습은 인간의 긴장감 또는 부주의와 같은 다양한 요인들로 인해 야기되는 오작동 문제들을 추가로 극복할 수 있고, 그렇게 함으로써 훈련 데이터에서 불량 샘플들의 수를 크게 줄이고 모델의 신뢰성 및 모델을 사용하여 예측을 수행하는 정확성을 더욱 개선할 수 있다. 강화 학습 방법은 일부 장면들에 대해서만 수행되어, 결정 단계들의 수를 줄이고 수렴을 가속화할 수 있다.
도 22는 본 개시내용의 실시예에 따른 서버의 개략적 구조도이다. 서버(500)는 구성 또는 성능에서 크게 변경될 수 있고, 하나 이상의 중앙 처리 유닛(central processing unit, CPU)들(522)(예를 들어, 하나 이상의 프로세서들)과 메모리(532) 및 애플리케이션 프로그램들(542) 또는 데이터(544)를 저장하는 하나 이상의 저장 매체(530)(예를 들어, 하나 이상의 대용량 저장 디바이스들)를 포함할 수 있다. 메모리(532) 및 저장 매체(530)는 임시 저장소 또는 영구 저장소일 수 있다. 저장 매체(530)에 저장된 프로그램은 (도면에 표시되지 않은) 하나 이상의 모듈들을 포함할 수 있고, 각각의 모듈은 서버에 대한 일련의 명령어 동작들을 포함할 수 있다. 또한, CPU(522)는 저장 매체(530)와 통신하고, 서버(500)에 대해 저장 매체(530) 내의 일련의 명령어 동작들을 수행하도록 설정될 수 있다.
서버(500)는 하나 이상의 전력 공급 디바이스들(526), 하나 이상의 유선 또는 무선 네트워크 인터페이스들(550), 하나 이상의 입력/출력 인터페이스들(558) 및/또는 Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, 또는 FreeBSDTM과 같은 하나 이상의 운영 체제들(541)을 더 포함할 수 있다.
전술한 실시예들에서 서버에 의해 수행되는 단계들은 도 22에 도시된 서버 구조에 기초할 수 있다.
본 개시내용의 실시예에서, CPU(522)는 다음과 같은 단계들:
예측될 이미지를 획득하는 단계;
예측될 이미지로부터 예측될 특징 세트를 추출하는 단계 - 예측될 특징 세트는 제1 예측될 특징, 제2 예측될 특징 및 제3 예측될 특징을 포함하고, 제1 예측될 특징은 제1 영역의 이미지 특징이고, 제2 예측될 특징은 제2 영역의 이미지 특징이고, 제3 예측될 특징은 상호작용 동작과 관련된 속성 특징이고, 제1 영역의 범위는 제2 영역의 범위보다 작음 -; 및
타겟 결합 모델을 사용하여, 예측될 특징 세트에 대응하는 제1 레이블 및/또는 예측될 특징 세트에 대응하는 제2 레이블을 획득하는 단계를 수행하도록 구성되며, 제1 레이블은 동작 내용과 관련되고 제2 레이블은 동작 의도와 관련된다.
임으로, CPU(522)는 다음과 같은 단계들:
타겟 결합 모델을 사용하여, 예측될 특징 세트에 대응하는 제1 레이블, 제2 레이블 및 제3 레이블을 획득하는 단계를 수행하도록 추가로 구성되며, 제3 레이블은 승리 또는 패배의 결과와 관련된다.
본 개시내용의 실시예에서, CPU(522)는 다음과 같은 단계들:
사용될 훈련 이미지 세트를 획득하는 단계 - 사용될 훈련 이미지 세트는 N개의 사용될 훈련 이미지들을 포함하고, N은 1 이상의 정수임 -;
각각의 사용될 훈련 이미지로부터 사용될 훈련 특징 세트를 추출하는 단계 - 사용될 훈련 특징 세트는 제1 사용될 훈련 특징, 제2 사용될 훈련 특징 및 제3 사용될 훈련 특징을 포함하고, 제1 사용될 훈련 특징은 제1 영역의 이미지 특징이고, 제2 사용될 훈련 특징은 제2 영역의 이미지 특징이고, 제3 사용될 훈련 특징은 상호작용 동작과 관련된 속성 특징이고, 제1 영역의 범위는 제2 영역의 범위보다 작음 -;
사용될 훈련 이미지들 각각에 대한 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블을 획득하는 단계 - 제1 사용될 훈련 레이블은 동작 내용과 관련되고, 제2 사용될 훈련 레이블은 동작 의도와 관련됨 -; 및
각각의 사용될 훈련 이미지의 사용될 훈련 특징 세트 및 각각의 사용될 훈련 이미지에 대응하는 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블에 의한 훈련을 통해 타겟 결합 모델을 획득하는 단계를 수행하도록 구성된다.
임으로, CPU(522)는 다음과 같은 단계들:
각각의 사용될 훈련 이미지의 사용될 훈련 특징 세트를 처리하여 타겟 특징 세트를 획득하는 단계 - 타겟 특징 세트는 제1 타겟 특징, 제2 타겟 특징 및 제3 타겟 특징을 포함함 -;
LSTM 계층을 사용하여 타겟 특징 세트에 대응하는 제1 예측된 레이블 및 제2 예측된 레이블을 획득하는 단계 - 제1 예측된 레이블은 동작 내용과 관련된 예측된 레이블이고, 제2 예측된 레이블은 동작 의도와 관련된 예측된 레이블임 -;
각각의 사용될 훈련 이미지의 제1 예측된 레이블, 제1 사용될 훈련 레이블, 제2 예측된 레이블 및 제2 사용될 훈련 레이블에 의한 훈련을 통해 모델 핵심 파라미터를 획득하는 단계 - 제1 예측된 레이블 및 제2 예측된 레이블은 둘 모두 예측된 값들을 갖고, 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블은 둘 모두 실제 값들을 가짐 -;
모델 핵심 파라미터에 따라 타겟 결합 모델을 생성하는 단계를 수행하도록 추가로 구성된다.
임으로, CPU(522)는 다음과 같은 단계들:
FC 계층을 사용하여 각각의 사용될 훈련 이미지의 제3 사용될 훈련 특징을 처리하여 제3 타겟 특징을 획득하는 단계 - 제3 타겟 특징은 1차원 벡터 특징임 -;
컨벌루션 계층을 사용하여 각각의 사용될 훈련 이미지의 제2 사용될 훈련 특징을 처리하여 제2 타겟 특징을 획득하는 단계 - 제2 타겟 특징은 1차원 벡터 특징임 -;
컨벌루션 계층을 사용하여 각각의 사용될 훈련 이미지의 제1 사용될 훈련 특징을 처리하여 제1 타겟 특징을 획득하는 단계를 수행하도록 추가로 구성되며, 제1 타겟 특징은 1차원 벡터 특징이다.
임으로, CPU(522)는 다음과 같은 단계들:
LSTM 계층을 사용하여 타겟 특징 세트에 대응하는 제1 예측된 레이블, 제2 예측된 레이블 및 제3 예측된 레이블을 획득하는 단계를 수행하도록 추가로 구성되고, 제3 예측된 레이블은 승리 또는 패배의 결과와 관련된 예측된 레이블이고;
각각의 사용될 훈련 이미지의 제1 예측된 레이블, 제1 사용될 훈련 레이블, 제2 예측된 레이블 및 제2 사용될 훈련 레이블에 의한 훈련을 통해 모델 핵심 파라미터를 획득하는 단계는,
사용될 훈련 이미지들 각각에 대한 제3 사용될 훈련 레이블을 획득하는 단계 - 제3 사용될 훈련 레이블은 승리 또는 패배의 실제 결과를 나타내는 데 사용됨 -; 및
제1 예측된 레이블, 제1 사용될 훈련 레이블, 제2 예측된 레이블, 제2 사용될 훈련 레이블, 제3 예측된 레이블 및 제3 사용될 훈련 레이블에 의한 훈련을 통해 모델 핵심 파라미터를 획득하는 단계를 포함하고, 제3 사용될 훈련 레이블은 예측된 값을 갖고, 제3 예측된 레이블은 실제 값을 갖는다.
임으로, CPU(522)는 다음과 같은 단계들:
사용될 훈련 비디오를 획득하는 단계 - 사용될 훈련 비디오는 상호작용 이미지들의 다수의 프레임들을 포함함 -;
타겟 결합 모델을 사용하여 사용될 훈련 비디오에 대응하는 타겟 장면 데이터를 획득하는 단계 - 타겟 장면 데이터는 타겟 장면의 데이터를 포함함 -;
타겟 장면 데이터, 제1 사용될 훈련 레이블 및 제1 예측된 레이블에 의한 훈련을 통해 타겟 모델 파라미터를 획득하는 단계 - 제1 예측된 레이블은 동작 내용과 관련된 예측된 레이블이고, 제1 예측된 레이블은 예측된 값을 갖고, 제1 사용될 훈련 레이블은 실제 값을 가짐 -; 및
타겟 모델 파라미터를 사용하여 타겟 결합 모델을 업데이트하여, 강화된 결합 모델을 획득하는 단계를 수행하도록 추가로 구성된다.
임으로, CPU(522)는 다음과 같은 단계들:
사용될 훈련 비디오를 획득하는 단계 - 사용될 훈련 비디오는 상호작용 이미지들의 다수의 프레임들을 포함함 -;
타겟 결합 모델을 사용하여 사용될 훈련 비디오에 대응하는 타겟 장면 데이터를 획득하는 단계 - 타겟 장면 데이터는 타겟 장면의 데이터를 포함함 -;
타겟 장면 데이터, 제2 사용될 훈련 레이블 및 제2 예측된 레이블에 의한 훈련을 통해 타겟 모델 파라미터를 획득하는 단계 - 제2 예측된 레이블은 동작 의도와 관련된 예측된 레이블이고, 제2 예측된 레이블은 예측된 값을 갖고, 제2 사용될 훈련 레이블은 실제 값을 가짐 -; 및
타겟 모델 파라미터를 사용하여 타겟 결합 모델을 업데이트하여, 강화된 결합 모델을 획득하는 단계를 수행하도록 추가로 구성된다.
관련 기술분야의 통상의 기술자는, 간단하고 명료한 설명을 위해, 전술한 시스템, 장치 및 유닛의 특정 작업 프로세스들에 대해서는 전술한 방법 실시예들의 대응하는 프로세스들이 참조될 수 있고, 상세한 사항은 여기서 되풀이 하여 설명되지 않는다는 것을 명백히 이해할 수 있다.
본 개시내용에서 제공되는 일부 실시예들에서, 개시된 시스템, 장치 및 방법은 다른 방식들로 구현될 수 있다는 것을 이해해야 한다. 예를 들어, 설명된 장치 실시예는 단지 예일 뿐이다. 예를 들어, 유닛 분할은 논리적인 기능 분할일 뿐이고 실제 구현에서는 달리 분할될 수 있다. 예를 들어, 복수의 유닛들 또는 구성요소들이 조합되거나 다른 시스템에 통합될 수 있고, 또는 일부 특징들이 무시되거나 수행되지 않을 수 있다. 또한, 전시되거나 논의된 상호 결합들 또는 직접 결합들 또는 통신 연결들은 일부 인터페이스들, 장치들 또는 유닛들을 사용하여 간접 결합들 또는 통신 연결들로서 구현될 수 있고, 전기, 기계 또는 다른 형태들로 구현될 수 있다.
별개의 컴포넌트들로서 설명된 유닛들은 물리적으로 분리될 수도 또는 분리되지 않을 수도 있고, 유닛들로서 전시된 컴포넌트들은 물리적 유닛들일 수도 있거나 또는 물리적 유닛들이 아닐 수도 있고, 즉, 동일 위치에 위치될 수도 있거나 또는 다수의 네트워크 유닛들에 걸쳐 분산될 수도 있다. 일부 또는 모든 유닛들은 실제 요건들에 따라 선택되어 실시예들에서 솔루션들의 목적들을 달성할 수 있다.
또한, 본 개시내용의 실시예들에서 기능 유닛들은 하나의 처리 유닛으로 통합될 수 있거나, 또는 유닛들 각각이 물리적으로 단독으로 존재할 수 있거나, 또는 둘 이상의 유닛들이 하나의 유닛으로 통합된다. 통합된 유닛은 하드웨어의 형태로 구현될 수 있거나, 또는 소프트웨어 기능 유닛의 형태로 구현될 수 있다.
통합된 유닛이 소프트웨어 기능 유닛의 형태로 구현되고 독립적인 제품으로서 판매되거나 사용될 때, 통합된 유닛은 컴퓨터 판독가능 저장 매체에 저장될 수 있다. 이러한 이해에 기초하여, 본 개시내용의 본질적인 기술적 솔루션들, 또는 관련 기술에 기여하는 부분, 또는 기술적 솔루션들의 전부 또는 일부는 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 저장 매체에 저장되고 (퍼스널 컴퓨터, 서버, 네트워크 디바이스 등일 수 있는) 컴퓨터 디바이스에게 본 개시내용의 실시예들에서 설명된 방법들의 단계들의 전부 또는 일부를 수행하도록 지시하기 위한 여러 명령어들을 포함한다. 전술한 저장 매체는 USB 플래시 드라이브, 착탈식 하드 디스크, 판독 전용 메모리(read-only memory)(ROM), 랜덤 액세스 메모리(random access memory)(RAM), 자기 디스크 또는 광학 디스크와 같이, 프로그램 코드를 저장할 수 있는 임의의 매체를 포함한다.
본 명세서에서 언급되는 "복수"라는 용어는 둘 이상을 의미한다. "및/또는"이라는 용어는 연관된 객체들 간의 연관 관계를 서술하며 세 가지 관계들을 포함한다. 예를 들어, A 및/또는 B는 다음의 세 가지 경우를 나타낼 수 있다: A 만 존재, A와 B가 모두 존재, 및 B 만 존재한다. 본 명세서에서 문자 "/"는 일반적으로 연관된 객체들 간의 "또는"이라는 관계를 표시한다. "적어도 하나"라는 용어는 하나 이상을 나타낸다.
전술한 실시예들은 본 개시내용의 기술적 솔루션들을 설명하기 위해 제공되는 것일 뿐, 본 개시내용을 제한하려는 것이 아니다. 관련 기술분야의 통상의 기술자는 전술한 실시예들을 참조하여 기술적 솔루션들이 상세하게 설명되기는 하였지만, 전술한 실시예들에서 설명된 기술적 솔루션들에 대해 여전히 수정들이 이루어질 수 있고, 또는 기술적 솔루션들에서 일부 기술적 특징들에 대해 동등한 대체들이 이루어질 수 있다는 것을 이해할 것이다. 이러한 수정들 또는 대체들은 대응하는 기술적 솔루션들의 본질이 본 개시내용의 실시예들의 기술적 솔루션들의 정신과 범위를 벗어나게 하지는 않는다.

Claims (25)

  1. 서버에 적용 가능한 정보 예측 방법으로서,
    예측될 이미지(to-be-predicted image)를 획득하는 단계;
    상기 예측될 이미지로부터 예측될 특징 세트를 추출하는 단계 - 상기 예측될 특징 세트는 제1 예측될 특징, 제2 예측될 특징 및 제3 예측될 특징을 포함하고, 상기 제1 예측될 특징은 제1 영역의 이미지 특징이고, 상기 제2 예측될 특징은 제2 영역의 이미지 특징이고, 상기 제3 예측될 특징은 상호작용 동작과 관련된 속성 특징이고, 상기 제1 영역의 범위는 상기 제2 영역의 범위보다 작음 -; 및
    타겟 결합 모델(target combined model)을 사용하여, 상기 예측될 특징 세트에 대응하는 제1 레이블 및/또는 상기 예측될 특징 세트에 대응하는 제2 레이블을 획득하는 단계
    를 포함하고,
    상기 제1 레이블은 동작 내용(operation content)과 관련되고 상기 제2 레이블은 동작 의도(operation intention)와 관련되는, 정보 예측 방법.
  2. 제1항에 있어서,
    타겟 결합 모델을 사용하여, 상기 예측될 특징 세트에 대응하는 제1 레이블 및/또는 상기 예측될 특징 세트에 대응하는 제2 레이블을 획득하는 단계는,
    상기 타겟 결합 모델을 사용하여, 상기 예측될 특징 세트에 대응하는 상기 제1 레이블 및/또는 상기 제2 레이블 및 제3 레이블을 획득하는 단계를 포함하고, 상기 제3 레이블은 승리 또는 패배의 결과와 관련되는, 정보 예측 방법.
  3. 서버에 적용 가능한 모델 훈련 방법으로서,
    사용될 훈련 이미지 세트(to-be-used training image set)를 획득하는 단계 - 상기 사용될 훈련 이미지 세트는 N개의 사용될 훈련 이미지들을 포함하고, N은 1 이상의 정수임 -;
    상기 사용될 훈련 이미지들 각각으로부터 사용될 훈련 특징 세트를 추출하는 단계 - 상기 사용될 훈련 특징 세트는 제1 사용될 훈련 특징, 제2 사용될 훈련 특징 및 제3 사용될 훈련 특징을 포함하고, 상기 제1 사용될 훈련 특징은 제1 영역의 이미지 특징이고, 상기 제2 사용될 훈련 특징은 제2 영역의 이미지 특징이고, 상기 제3 사용될 훈련 특징은 상호작용 동작과 관련된 속성 특징이고, 상기 제1 영역의 범위는 상기 제2 영역의 범위보다 작음 -;
    상기 사용될 훈련 이미지들 각각에 대한 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블을 획득하는 단계 - 상기 제1 사용될 훈련 레이블은 동작 내용과 관련되고, 상기 제2 사용될 훈련 레이블은 동작 의도와 관련됨 -; 및
    상기 사용될 훈련 이미지들 각각의 상기 사용될 훈련 특징 세트 및 상기 사용될 훈련 이미지들 각각에 대응하는 상기 제1 사용될 훈련 레이블 및 상기 제2 사용될 훈련 레이블에 의한 훈련을 통해 타겟 결합 모델을 획득하는 단계
    를 포함하는, 모델 훈련 방법.
  4. 제3항에 있어서,
    상기 제1 사용될 훈련 특징은 2차원 벡터 특징이고, 상기 제1 사용될 훈련 특징은 상기 제1 영역에서 캐릭터 위치 정보, 이동 객체 위치 정보, 고정 객체 위치 정보 및 방어 객체 위치 중 적어도 하나를 포함하고;
    상기 제2 사용될 훈련 특징은 2차원 벡터 특징이고, 상기 제2 사용될 훈련 특징은 상기 제2 영역에서 캐릭터 위치 정보, 이동 객체 위치 정보, 고정 객체 위치 정보, 방어 객체 위치 정보, 장애물 객체 위치 정보 및 출력 객체 위치 정보 중 적어도 하나를 포함하고;
    상기 제3 사용될 훈련 특징은 1차원 벡터 특징이고, 상기 제1 사용될 훈련 특징은 캐릭터 히트 포인트 값, 캐릭터 출력 값, 시간 정보 및 스코어 정보 중 적어도 하나를 포함하며;
    상기 제1 사용될 훈련 특징, 상기 제2 사용될 훈련 특징 및 상기 제3 사용될 훈련 특징은 서로 대응하는, 모델 훈련 방법.
  5. 제3항에 있어서,
    상기 제1 사용될 훈련 레이블은 버튼 유형 정보 및/또는 버튼 파라미터 정보를 포함하고;
    상기 버튼 파라미터 정보는 방향 파라미터, 위치 파라미터 및 타겟 파라미터 중 적어도 하나를 포함하고, 상기 방향 파라미터는 캐릭터의 이동 방향을 나타내는 데 사용되고, 상기 위치 파라미터는 상기 캐릭터의 위치를 나타내는 데 사용되며, 상기 타겟 파라미터는 상기 캐릭터의 출력의 타겟을 나타내는 데 사용되는, 모델 훈련 방법.
  6. 제3항에 있어서,
    상기 제2 사용될 훈련 레이블은 동작 의도 정보 및 캐릭터 위치 정보를 포함하고;
    상기 동작 의도 정보는 캐릭터가 객체와 상호작용하는 의도를 나타내고, 상기 캐릭터 위치 정보는 상기 제1 영역에서 상기 캐릭터의 위치를 나타내는, 모델 훈련 방법.
  7. 제3항에 있어서,
    상기 사용될 훈련 이미지들 각각의 상기 사용될 훈련 특징 세트 및 상기 사용될 훈련 이미지들 각각에 대응하는 상기 제1 사용될 훈련 레이블 및 상기 제2 사용될 훈련 레이블에 의한 훈련을 통해 타겟 결합 모델을 획득하는 단계는,
    상기 사용될 훈련 이미지들 각각의 상기 사용될 훈련 특징 세트를 처리하여 타겟 특징 세트를 획득하는 단계 - 상기 타겟 특징 세트는 제1 타겟 특징, 제2 타겟 특징 및 제3 타겟 특징을 포함함 -;
    장단기 메모리(long short-term memory)(LSTM) 계층을 사용하여 상기 타겟 특징 세트에 대응하는 제1 예측된 레이블 및 제2 예측된 레이블을 획득하는 단계 - 상기 제1 예측된 레이블은 상기 동작 내용과 관련된 예측된 레이블이고, 상기 제2 예측된 레이블은 상기 동작 의도와 관련된 예측된 레이블임 -;
    상기 사용될 훈련 이미지들 각각의 상기 제1 예측된 레이블, 상기 제1 사용될 훈련 레이블, 상기 제2 예측된 레이블 및 상기 제2 사용될 훈련 레이블에 의한 훈련을 통해 모델 핵심 파라미터를 획득하는 단계 - 상기 제1 예측된 레이블 및 상기 제2 예측된 레이블은 둘 모두 예측된 값들을 갖고, 상기 제1 사용될 훈련 레이블 및 상기 제2 사용될 훈련 레이블은 둘 모두 실제 값들을 가짐 -;
    상기 모델 핵심 파라미터에 따라 상기 타겟 결합 모델을 생성하는 단계
    를 포함하는, 모델 훈련 방법.
  8. 제7항에 있어서,
    상기 사용될 훈련 이미지들 각각의 상기 사용될 훈련 특징 세트를 처리하여 타겟 특징 세트를 획득하는 단계는,
    완전 연결된 계층을 사용하여 상기 사용될 훈련 이미지들 각각의 상기 제3 사용될 훈련 특징을 처리하여 상기 제3 타겟 특징을 획득하는 단계 - 상기 제3 타겟 특징은 1차원 벡터 특징임 -;
    컨벌루션 계층을 사용하여 상기 사용될 훈련 이미지들 각각의 상기 제2 사용될 훈련 특징을 처리하여 상기 제2 타겟 특징을 획득하는 단계 - 상기 제2 타겟 특징은 1차원 벡터 특징임 -; 및
    상기 컨벌루션 계층을 사용하여 상기 사용될 훈련 이미지들 각각의 상기 제1 사용될 훈련 특징을 처리하여 상기 제1 타겟 특징을 획득하는 단계
    를 포함하고,
    상기 제1 타겟 특징은 1차원 벡터 특징인, 모델 훈련 방법.
  9. 제7항에 있어서,
    LSTM 계층을 사용하여 상기 타겟 특징 세트에 대응하는 제1 예측된 레이블 및 제2 예측된 레이블을 획득하는 단계는,
    상기 LSTM 계층을 사용하여 상기 타겟 특징 세트에 대응하는 상기 제1 예측된 레이블, 상기 제2 예측된 레이블 및 제3 예측된 레이블을 획득하는 단계를 포함하고, 상기 제3 예측된 레이블은 승리 또는 패배의 결과와 관련된 예측된 레이블이고;
    상기 사용될 훈련 이미지들 각각의 상기 제1 예측된 레이블, 상기 제1 사용될 훈련 레이블, 상기 제2 예측된 레이블 및 상기 제2 사용될 훈련 레이블에 의한 훈련을 통해 모델 핵심 파라미터를 획득하는 단계는,
    상기 사용될 훈련 이미지들 각각에 대한 제3 사용될 훈련 레이블을 획득하는 단계 - 상기 제3 사용될 훈련 레이블은 승리 또는 패배의 실제 결과를 나타내는 데 사용됨 -; 및
    상기 제1 예측된 레이블, 상기 제1 사용될 훈련 레이블, 상기 제2 예측된 레이블, 상기 제2 사용될 훈련 레이블, 상기 제3 예측된 레이블 및 상기 제3 사용될 훈련 레이블에 의한 훈련을 통해 상기 모델 핵심 파라미터를 획득하는 단계
    를 포함하고,
    상기 제3 사용될 훈련 레이블은 예측된 값을 갖고, 상기 제3 예측된 레이블은 실제 값을 갖는, 모델 훈련 방법.
  10. 제3항 내지 제9항 중 어느 한 항에 있어서,
    상기 사용될 훈련 이미지들 각각의 상기 사용될 훈련 특징 세트 및 상기 사용될 훈련 이미지들 각각에 대응하는 상기 제1 사용될 훈련 레이블 및 상기 제2 사용될 훈련 레이블에 의한 훈련을 통해 타겟 결합 모델을 획득하는 단계 후에, 상기 방법은,
    사용될 훈련 비디오를 획득하는 단계 - 상기 사용될 훈련 비디오는 상호작용 이미지들의 복수의 프레임들을 포함함 -;
    상기 타겟 결합 모델을 사용하여 상기 사용될 훈련 비디오에 대응하는 타겟 장면 데이터를 획득하는 단계 - 상기 타겟 장면 데이터는 타겟 장면의 데이터를 포함함 -;
    상기 타겟 장면 데이터, 상기 제1 사용될 훈련 레이블 및 상기 제1 예측된 레이블에 의한 훈련을 통해 타겟 모델 파라미터를 획득하는 단계 - 상기 제1 예측된 레이블은 상기 동작 내용과 관련된 예측된 레이블이고, 상기 제1 예측된 레이블은 예측된 값을 갖고, 상기 제1 사용될 훈련 레이블은 실제 값을 가짐 -; 및
    상기 타겟 모델 파라미터를 사용하여 상기 타겟 결합 모델을 업데이트하여, 강화된 결합 모델을 획득하는 단계
    를 더 포함하는, 모델 훈련 방법.
  11. 제3항 내지 제9항 중 어느 한 항에 있어서,
    상기 사용될 훈련 이미지들 각각의 상기 사용될 훈련 특징 세트 및 상기 사용될 훈련 이미지들 각각에 대응하는 상기 제1 사용될 훈련 레이블 및 상기 제2 사용될 훈련 레이블에 의한 훈련을 통해 타겟 결합 모델을 획득하는 단계 후에, 상기 방법은,
    사용될 훈련 비디오를 획득하는 단계 - 상기 사용될 훈련 비디오는 상호작용 이미지들의 복수의 프레임들을 포함함 -;
    상기 타겟 결합 모델을 사용하여 상기 사용될 훈련 비디오에 대응하는 타겟 장면 데이터를 획득하는 단계 - 상기 타겟 장면 데이터는 타겟 장면의 데이터를 포함함 -;
    상기 타겟 장면 데이터, 상기 제2 사용될 훈련 레이블 및 상기 제2 예측된 레이블에 의한 훈련을 통해 타겟 모델 파라미터를 획득하는 단계 - 상기 제2 예측된 레이블은 상기 동작 의도와 관련된 예측된 레이블이고, 상기 제2 예측된 레이블은 예측된 값을 갖고, 상기 제2 사용될 훈련 레이블은 실제 값을 가짐 -; 및
    상기 타겟 모델 파라미터를 사용하여 상기 타겟 결합 모델을 업데이트하여, 강화된 결합 모델을 획득하는 단계
    를 더 포함하는, 모델 훈련 방법.
  12. 서버로서,
    예측될 이미지를 획득하도록 구성된 획득 모듈; 및
    상기 획득 모듈에 의해 획득되는 상기 예측될 이미지로부터 예측될 특징 세트를 추출하도록 구성된 추출 모듈
    을 포함하고,
    상기 예측될 특징 세트는 제1 예측될 특징, 제2 예측될 특징 및 제3 예측될 특징을 포함하고, 상기 제1 예측될 특징은 제1 영역의 이미지 특징이고, 상기 제2 예측될 특징은 제2 영역의 이미지 특징이고, 상기 제3 예측될 특징은 상호작용 동작과 관련된 속성 특징이고, 상기 제1 영역의 범위는 상기 제2 영역의 범위보다 작고;
    상기 획득 모듈은 타겟 결합 모델을 사용하여, 상기 추출 모듈에 의해 추출되는 상기 예측될 특징 세트에 대응하는 제1 레이블 및 제2 레이블을 획득하도록 추가로 구성되고, 상기 제1 레이블은 동작 내용과 관련되고, 상기 제2 레이블은 동작 의도와 관련되는, 서버.
  13. 서버로서,
    사용될 훈련 이미지 세트를 획득하도록 구성된 획득 모듈 - 상기 사용될 훈련 이미지 세트는 N개의 사용될 훈련 이미지들을 포함하고, N은 1 이상의 정수임 -;
    상기 획득 모듈에 의해 획득되는 상기 사용될 훈련 이미지들 각각으로부터 사용될 훈련 특징 세트를 추출하도록 구성된 추출 모듈 - 상기 사용될 훈련 특징 세트는 제1 사용될 훈련 특징, 제2 사용될 훈련 특징 및 제3 사용될 훈련 특징을 포함하고, 상기 제1 사용될 훈련 특징은 제1 영역의 이미지 특징이고, 상기 제2 사용될 훈련 특징은 제2 영역의 이미지 특징이고, 상기 제3 사용될 훈련 특징은 상호작용 동작과 관련된 속성 특징이고, 상기 제1 영역의 범위는 상기 제2 영역의 범위보다 작고,
    상기 획득 모듈은 상기 사용될 훈련 이미지들 각각에 대한 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블을 획득하도록 구성되고, 상기 제1 사용될 훈련 레이블은 동작 내용과 관련되고, 상기 제2 사용될 훈련 레이블은 동작 의도와 관련됨 -; 및
    상기 사용될 훈련 이미지들 각각으로부터 상기 추출 모듈에 의해 추출되는 상기 사용될 훈련 특징 세트 및 상기 사용될 훈련 이미지들 각각에 대해 상기 획득 모듈에 의해 획득되는 상기 제1 사용될 훈련 레이블 및 상기 제2 사용될 훈련 레이블에 의한 훈련을 통해 타겟 결합 모델을 획득하도록 구성된 훈련 모듈
    을 포함하는, 서버.
  14. 메모리, 송수신기, 프로세서 및 버스 시스템을 포함하는 서버로서,
    상기 메모리는 프로그램을 저장하도록 구성되고,
    상기 프로세서는 상기 메모리 내의 상기 프로그램을 실행하여 다음의 동작들:
    예측될 이미지(to-be-predicted image)를 획득하는 동작;
    상기 예측될 이미지로부터 예측될 특징 세트를 추출하는 동작 - 상기 예측될 특징 세트는 제1 예측될 특징, 제2 예측될 특징 및 제3 예측될 특징을 포함하고, 상기 제1 예측될 특징은 제1 영역의 이미지 특징이고, 상기 제2 예측될 특징은 제2 영역의 이미지 특징이고, 상기 제3 예측될 특징은 상호작용 동작과 관련된 속성 특징이고, 상기 제1 영역의 범위는 상기 제2 영역의 범위보다 작음 -; 및
    타겟 결합 모델을 사용하여, 상기 예측될 특징 세트에 대응하는 제1 레이블 및/또는 상기 예측될 특징 세트에 대응하는 제2 레이블을 획득하는 동작
    을 수행하도록 구성되고,
    상기 제1 레이블은 동작 내용과 관련되고 상기 제2 레이블은 동작 의도와 관련되고;
    상기 버스 시스템은 상기 메모리와 상기 프로세서 간의 통신을 가능하게 하기 위해 상기 메모리와 상기 프로세서를 연결하도록 구성되는, 서버.
  15. 제14항에 있어서,
    상기 프로세서는 다음의 동작:
    상기 타겟 결합 모델을 사용하여, 상기 예측될 특징 세트에 대응하는 상기 제1 레이블 및/또는 상기 제2 레이블 및 제3 레이블을 획득하는 동작을 수행하도록 구성되고,
    상기 제3 레이블은 승리 또는 패배의 결과와 관련되는, 서버.
  16. 메모리, 송수신기, 프로세서 및 버스 시스템을 포함하는 서버로서,
    상기 메모리는 프로그램을 저장하도록 구성되고,
    상기 프로세서는 상기 메모리 내의 상기 프로그램을 실행하여 다음의 동작들:
    사용될 훈련 이미지 세트를 획득하는 동작 - 상기 사용될 훈련 이미지 세트는 N개의 사용될 훈련 이미지들을 포함하고, N은 1 이상의 정수임 -;
    상기 사용될 훈련 이미지들 각각으로부터 사용될 훈련 특징 세트를 추출하는 동작 - 상기 사용될 훈련 특징 세트는 제1 사용될 훈련 특징, 제2 사용될 훈련 특징 및 제3 사용될 훈련 특징을 포함하고, 상기 제1 사용될 훈련 특징은 제1 영역의 이미지 특징이고, 상기 제2 사용될 훈련 특징은 제2 영역의 이미지 특징이고, 상기 제3 사용될 훈련 특징은 상호작용 동작과 관련된 속성 특징이고, 상기 제1 영역의 범위는 상기 제2 영역의 범위보다 작음 -;
    상기 사용될 훈련 이미지들 각각에 대한 제1 사용될 훈련 레이블 및 제2 사용될 훈련 레이블을 획득하는 동작 - 상기 제1 사용될 훈련 레이블은 동작 내용과 관련되고, 상기 제2 사용될 훈련 레이블은 동작 의도와 관련됨 -; 및
    상기 사용될 훈련 이미지들 각각의 상기 사용될 훈련 특징 세트 및 상기 사용될 훈련 이미지들 각각에 대응하는 상기 제1 사용될 훈련 레이블 및 상기 제2 사용될 훈련 레이블에 의한 훈련을 통해 타겟 결합 모델을 획득하는 동작
    을 수행하도록 구성되고;
    상기 버스 시스템은 상기 메모리와 상기 프로세서 간의 통신을 가능하게 하기 위해 상기 메모리와 상기 프로세서를 연결하도록 구성되는, 서버.
  17. 제16항에 있어서,
    상기 프로세서는 다음의 동작들:
    상기 사용될 훈련 이미지들 각각의 상기 사용될 훈련 특징 세트를 처리하여 타겟 특징 세트를 획득하는 동작 - 상기 타겟 특징 세트는 제1 타겟 특징, 제2 타겟 특징 및 제3 타겟 특징을 포함함 -;
    장단기 메모리(LSTM) 계층을 사용하여 상기 타겟 특징 세트에 대응하는 제1 예측된 레이블 및 제2 예측된 레이블을 획득하는 동작 - 상기 제1 예측된 레이블은 상기 동작 내용과 관련된 예측된 레이블이고, 상기 제2 예측된 레이블은 상기 동작 의도와 관련된 예측된 레이블임 -;
    각각의 사용될 훈련 이미지의 상기 제1 예측된 레이블, 상기 제1 사용될 훈련 레이블, 상기 제2 예측된 레이블 및 상기 제2 사용될 훈련 레이블에 의한 훈련을 통해 모델 핵심 파라미터를 획득하는 동작 - 상기 제1 예측된 레이블 및 상기 제2 예측된 레이블은 둘 모두 예측된 값들을 갖고, 상기 제1 사용될 훈련 레이블 및 상기 제2 사용될 훈련 레이블은 둘 모두 실제 값들을 가짐 -;
    상기 모델 핵심 파라미터에 따라 상기 타겟 결합 모델을 생성하는 동작
    을 수행하도록 구성되는, 서버.
  18. 제17항에 있어서,
    상기 프로세서는 다음의 동작들:
    완전 연결된 계층을 사용하여 상기 사용될 훈련 이미지들 각각의 상기 제3 사용될 훈련 특징을 처리하여 상기 제3 타겟 특징을 획득하는 동작 - 상기 제3 타겟 특징은 1차원 벡터 특징임 -;
    컨벌루션 계층을 사용하여 상기 사용될 훈련 이미지들 각각의 상기 제2 사용될 훈련 특징을 처리하여 상기 제2 타겟 특징을 획득하는 동작 - 상기 제2 타겟 특징은 1차원 벡터 특징임 -; 및
    상기 컨벌루션 계층을 사용하여 상기 사용될 훈련 이미지들 각각의 상기 제1 사용될 훈련 특징을 처리하여 상기 제1 타겟 특징을 획득하는 동작
    을 수행하도록 구성되고,
    상기 제1 타겟 특징은 1차원 벡터 특징인, 서버.
  19. 제17항에 있어서,
    상기 프로세서는 다음의 동작들:
    상기 LSTM 계층을 사용하여 상기 타겟 특징 세트에 대응하는 상기 제1 예측된 레이블, 상기 제2 예측된 레이블 및 제3 예측된 레이블을 획득하는 동작을 수행하도록 구성되고, 상기 제3 예측된 레이블은 승리 또는 패배의 결과와 관련된 예측된 레이블이고;
    상기 사용될 훈련 이미지들 각각의 상기 제1 예측된 레이블, 상기 제1 사용될 훈련 레이블, 상기 제2 예측된 레이블 및 상기 제2 사용될 훈련 레이블에 의한 훈련을 통해 모델 핵심 파라미터를 획득하는 동작은,
    상기 사용될 훈련 이미지들 각각에 대한 제3 사용될 훈련 레이블을 획득하는 동작 - 상기 제3 사용될 훈련 레이블은 승리 또는 패배의 실제 결과를 나타내는 데 사용됨 -; 및
    상기 제1 예측된 레이블, 상기 제1 사용될 훈련 레이블, 상기 제2 예측된 레이블, 상기 제2 사용될 훈련 레이블, 상기 제3 예측된 레이블 및 상기 제3 사용될 훈련 레이블에 의한 훈련을 통해 상기 모델 핵심 파라미터를 획득하는 동작
    을 포함하고,
    상기 제3 사용될 훈련 레이블은 예측된 값을 갖고, 상기 제3 예측된 레이블은 실제 값을 갖는, 서버.
  20. 제16항 내지 제19항 중 어느 한 항에 있어서,
    상기 프로세서는 다음의 동작들:
    사용될 훈련 비디오를 획득하는 동작 - 상기 사용될 훈련 비디오는 상호작용 이미지들의 복수의 프레임들을 포함함 -;
    상기 타겟 결합 모델을 사용하여 상기 사용될 훈련 비디오에 대응하는 타겟 장면 데이터를 획득하는 동작 - 상기 타겟 장면 데이터는 타겟 장면의 데이터를 포함함 -;
    상기 타겟 장면 데이터, 상기 제1 사용될 훈련 레이블 및 상기 제1 예측된 레이블에 의한 훈련을 통해 타겟 모델 파라미터를 획득하는 동작 - 상기 제1 예측된 레이블은 상기 동작 내용과 관련된 예측된 레이블이고, 상기 제1 예측된 레이블은 예측된 값을 갖고, 상기 제1 사용될 훈련 레이블은 실제 값을 가짐 -; 및
    상기 타겟 모델 파라미터를 사용하여 상기 타겟 결합 모델을 업데이트하여, 강화된 결합 모델을 획득하는 동작
    을 수행하도록 구성되는, 서버.
  21. 제16항 내지 제19항 중 어느 한 항에 있어서,
    상기 프로세서는 다음의 동작들:
    사용될 훈련 비디오를 획득하는 동작 - 상기 사용될 훈련 비디오는 상호작용 이미지들의 복수의 프레임들을 포함함 -;
    상기 타겟 결합 모델을 사용하여 상기 사용될 훈련 비디오에 대응하는 타겟 장면 데이터를 획득하는 동작 - 상기 타겟 장면 데이터는 타겟 장면의 데이터를 포함함 -;
    상기 타겟 장면 데이터, 상기 제2 사용될 훈련 레이블 및 상기 제2 예측된 레이블에 의한 훈련을 통해 타겟 모델 파라미터를 획득하는 동작 - 상기 제2 예측된 레이블은 상기 동작 의도와 관련된 예측된 레이블이고, 상기 제2 예측된 레이블은 예측된 값을 갖고, 상기 제2 사용될 훈련 레이블은 실제 값을 가짐 -; 및
    상기 타겟 모델 파라미터를 사용하여 상기 타겟 결합 모델을 업데이트하여, 강화된 결합 모델을 획득하는 동작
    을 수행하도록 구성되는, 서버.
  22. 컴퓨터 판독가능 저장 매체로서,
    적어도 하나의 명령어를 저장하고, 상기 적어도 하나의 명령어는 실행될 때, 제1항 또는 제2항에 따른 상기 정보 예측 방법을 구현하는, 컴퓨터 판독가능 저장 매체.
  23. 컴퓨터 판독가능 저장 매체로서,
    적어도 하나의 명령어를 저장하고, 상기 적어도 하나의 명령어는 실행될 때, 제3항 내지 제11항 중 어느 한 항에 따른 상기 모델 훈련 방법을 구현하는, 컴퓨터 판독가능 저장 매체.
  24. 컴퓨터 프로그램 제품으로서,
    상기 컴퓨터 프로그램 제품은 컴퓨터 프로그램 코드를 포함하고, 상기 컴퓨터 프로그램 코드는 컴퓨터에 의해 실행될 때, 상기 컴퓨터로 하여금 제1항 또는 제2항에 따른 상기 정보 예측 방법을 수행하게 하는, 컴퓨터 프로그램 제품.
  25. 컴퓨터 프로그램 제품으로서,
    상기 컴퓨터 프로그램 제품은 컴퓨터 프로그램 코드를 포함하고, 상기 컴퓨터 프로그램 코드는 컴퓨터에 의해 실행될 때, 상기 컴퓨터로 하여금 제3항 내지 제11항 중 어느 한 항에 따른 상기 모델 훈련 방법을 수행하게 하는, 컴퓨터 프로그램 제품.
KR1020217017878A 2018-12-13 2019-12-11 정보 예측 방법, 모델 훈련 방법 및 서버 KR102542774B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811526060.1 2018-12-13
CN201811526060.1A CN110163238B (zh) 2018-12-13 2018-12-13 一种信息预测的方法、模型训练的方法以及服务器
PCT/CN2019/124681 WO2020119737A1 (zh) 2018-12-13 2019-12-11 信息预测的方法、模型训练的方法以及服务器

Publications (2)

Publication Number Publication Date
KR20210090239A true KR20210090239A (ko) 2021-07-19
KR102542774B1 KR102542774B1 (ko) 2023-06-14

Family

ID=67645216

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217017878A KR102542774B1 (ko) 2018-12-13 2019-12-11 정보 예측 방법, 모델 훈련 방법 및 서버

Country Status (6)

Country Link
US (1) US20210201148A1 (ko)
EP (1) EP3896611A4 (ko)
JP (1) JP7199517B2 (ko)
KR (1) KR102542774B1 (ko)
CN (1) CN110163238B (ko)
WO (1) WO2020119737A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780101A (zh) * 2021-08-20 2021-12-10 京东鲲鹏(江苏)科技有限公司 避障模型的训练方法、装置、电子设备及存储介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163238B (zh) * 2018-12-13 2023-04-07 腾讯科技(深圳)有限公司 一种信息预测的方法、模型训练的方法以及服务器
CN111450534B (zh) * 2020-03-31 2021-08-13 腾讯科技(深圳)有限公司 一种标签预测模型的训练方法、标签预测的方法及装置
CN113469188A (zh) * 2021-07-15 2021-10-01 有米科技股份有限公司 字符识别模型训练的数据增强、字符识别的方法及装置
KR102593036B1 (ko) 2021-11-24 2023-10-23 고려대학교 산학협력단 알츠하이머병 진단 모델의 결정을 추론하고 강화하는 방법 및 장치
CN115121913B (zh) * 2022-08-30 2023-01-10 北京博清科技有限公司 激光中心线的提取方法
CN116109525B (zh) * 2023-04-11 2024-01-05 北京龙智数科科技服务有限公司 基于多维度数据增强的强化学习方法及装置
CN116842856B (zh) * 2023-09-04 2023-11-14 长春工业大学 一种基于深度强化学习的工业过程优化方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544960A (zh) * 2013-11-11 2014-01-29 苏州威士达信息科技有限公司 基于人耳感知的drm+系统的动态数据发送方法
CN108460389A (zh) * 2017-02-20 2018-08-28 阿里巴巴集团控股有限公司 一种识别图像中对象的类型预测方法、装置及电子设备
CN108724182A (zh) * 2018-05-23 2018-11-02 苏州大学 基于多类别模仿学习的端到端游戏机器人生成方法及系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3827691B2 (ja) * 2004-09-03 2006-09-27 株式会社コナミデジタルエンタテインメント ゲーム装置、その制御方法、ならびに、プログラム
US8774515B2 (en) * 2011-04-20 2014-07-08 Xerox Corporation Learning structured prediction models for interactive image labeling
CN103544496B (zh) * 2012-07-12 2016-12-21 同济大学 基于空间与时间信息融合的机器人场景识别方法
JP2015198935A (ja) * 2014-04-04 2015-11-12 コナミゲーミング インコーポレーテッド ゲーミング環境の操作のためのシステムおよび方法
CN107480687A (zh) * 2016-06-08 2017-12-15 富士通株式会社 信息处理装置和信息处理方法
CN107766870A (zh) * 2016-08-22 2018-03-06 富士通株式会社 信息处理装置和信息处理方法
KR102308871B1 (ko) * 2016-11-02 2021-10-05 삼성전자주식회사 객체의 속성에 기반하여 객체를 인식 및 트레이닝하는 방법 및 장치
CN107019901B (zh) * 2017-03-31 2020-10-20 北京大学深圳研究生院 基于图像识别及自动化控制的棋牌类游戏自动博弈机器人的建立方法
CN108090561B (zh) * 2017-11-09 2021-12-07 腾讯科技(成都)有限公司 存储介质、电子装置、游戏操作的执行方法和装置
CN107890674A (zh) * 2017-11-13 2018-04-10 杭州电魂网络科技股份有限公司 Ai行为调用方法和装置
CN108434740B (zh) * 2018-03-23 2021-01-29 腾讯科技(深圳)有限公司 一种策略信息确定的方法及装置、存储介质
CN109529338B (zh) * 2018-11-15 2021-12-17 腾讯科技(深圳)有限公司 对象控制方法、装置、电子设计及计算机可读介质
CN110163238B (zh) * 2018-12-13 2023-04-07 腾讯科技(深圳)有限公司 一种信息预测的方法、模型训练的方法以及服务器
CN109893857B (zh) * 2019-03-14 2021-11-26 腾讯科技(深圳)有限公司 一种操作信息预测的方法、模型训练的方法及相关装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544960A (zh) * 2013-11-11 2014-01-29 苏州威士达信息科技有限公司 基于人耳感知的drm+系统的动态数据发送方法
CN108460389A (zh) * 2017-02-20 2018-08-28 阿里巴巴集团控股有限公司 一种识别图像中对象的类型预测方法、装置及电子设备
CN108724182A (zh) * 2018-05-23 2018-11-02 苏州大学 基于多类别模仿学习的端到端游戏机器人生成方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Oriol Vinyals et. al., StarCraft II: A New Challenge for Reinforcement Learning, 16, Aug., 2017, 1부.* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780101A (zh) * 2021-08-20 2021-12-10 京东鲲鹏(江苏)科技有限公司 避障模型的训练方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2020119737A1 (zh) 2020-06-18
EP3896611A4 (en) 2022-01-19
JP2021536066A (ja) 2021-12-23
US20210201148A1 (en) 2021-07-01
JP7199517B2 (ja) 2023-01-05
KR102542774B1 (ko) 2023-06-14
EP3896611A1 (en) 2021-10-20
CN110163238B (zh) 2023-04-07
CN110163238A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
KR102542774B1 (ko) 정보 예측 방법, 모델 훈련 방법 및 서버
CN109499068B (zh) 对象的控制方法和装置、存储介质、电子装置
CN108283809B (zh) 数据处理方法、装置、计算机设备和存储介质
US11135514B2 (en) Data processing method and apparatus, and storage medium for concurrently executing event characters on a game client
US11491400B2 (en) Method, apparatus, and device for scheduling virtual objects in virtual environment
Hausknecht et al. A neuroevolution approach to general atari game playing
CN111111220B (zh) 多人对战游戏的自对弈模型训练方法、装置和计算机设备
CN112691377A (zh) 虚拟角色的控制方法、装置、电子设备及存储介质
CN110064205B (zh) 用于游戏的数据处理方法、设备和介质
CN111437608B (zh) 基于人工智能的游戏对局方法、装置、设备及存储介质
KR20200115213A (ko) 비디오 게임에서 자동 플레이어 제어의 인계
CN112870721B (zh) 一种游戏互动方法、装置、设备及存储介质
CN111450534B (zh) 一种标签预测模型的训练方法、标签预测的方法及装置
WO2023024762A1 (zh) 人工智能对象控制方法、装置、设备及存储介质
Ma et al. Large language models play starcraft ii: Benchmarks and a chain of summarization approach
Pirovano et al. Fuzzy Tactics: A scripting game that leverages fuzzy logic as an engaging game mechanic
CN115888119A (zh) 一种游戏ai训练方法、装置、电子设备及存储介质
CN113018862B (zh) 虚拟对象的控制方法、装置、电子设备及存储介质
CN111437605B (zh) 确定虚拟对象行为及托管虚拟对象行为的方法
CN114344889B (zh) 游戏策略模型生成方法和游戏中智能体的控制方法
Watkinson et al. Training a RoboCup striker agent via transferred reinforcement learning
Fink et al. Extracting NPC behavior from computer games using computer vision and machine learning techniques
CN111744201B (zh) 视频游戏中的自动玩家控制接管
Spencer et al. Opposed Artificial Intelligence: Developing Robustness to Adversarial Attacks in Attacker-Defender Games via AI-based Strategic Game-Playing
Lin et al. AI Reinforcement Study of Gank Behavior in MOBA Games

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right