KR102492205B1 - 역강화학습 기반 배달 수단 탐지 장치 및 방법 - Google Patents

역강화학습 기반 배달 수단 탐지 장치 및 방법 Download PDF

Info

Publication number
KR102492205B1
KR102492205B1 KR1020200107780A KR20200107780A KR102492205B1 KR 102492205 B1 KR102492205 B1 KR 102492205B1 KR 1020200107780 A KR1020200107780 A KR 1020200107780A KR 20200107780 A KR20200107780 A KR 20200107780A KR 102492205 B1 KR102492205 B1 KR 102492205B1
Authority
KR
South Korea
Prior art keywords
trajectory
compensation
state
delivery means
network
Prior art date
Application number
KR1020200107780A
Other languages
English (en)
Other versions
KR20220026804A (ko
Inventor
윤대영
이재일
김태훈
Original Assignee
주식회사 우아한형제들
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 우아한형제들 filed Critical 주식회사 우아한형제들
Priority to KR1020200107780A priority Critical patent/KR102492205B1/ko
Priority to US17/756,066 priority patent/US20220405682A1/en
Priority to PCT/KR2020/012019 priority patent/WO2022045425A1/ko
Publication of KR20220026804A publication Critical patent/KR20220026804A/ko
Application granted granted Critical
Publication of KR102492205B1 publication Critical patent/KR102492205B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06398Performance of employee with respect to a job function
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q50/28
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Manipulator (AREA)

Abstract

본 발명의 바람직한 실시예에 따른 역강화학습 기반 배달 수단 탐지 장치 및 방법은, 실제 배달원의 운행 기록과 모방된 운행 기록을 이용하여 인공신경망 모델을 학습하고, 학습한 인공신경망 모델을 이용하여 특정 배달원의 운행 기록으로부터 해당 배달원의 배달 수단을 탐지함으로써, 어뷰징(abusing)으로 의심되는 배달원을 식별할 수 있다.

Description

역강화학습 기반 배달 수단 탐지 장치 및 방법{Apparatus and method for detecting delivery vehicle based on Inverse Reinforcement Learning}
본 발명은 역강화학습 기반 배달 수단 탐지 장치 및 방법에 관한 것으로서, 더욱 상세하게는 실제 배달원의 운행 기록과 모방된 운행 기록을 이용하여 인공신경망 모델을 학습하고, 학습한 인공신경망 모델을 이용하여 특정 배달원의 운행 기록으로부터 해당 배달원의 배달 수단을 탐지하는 장치 및 방법에 관한 것이다.
온라인 음식 배달 서비스 산업은 지난 몇년간 크게 성장하고 있고, 이에 따라 배달원 관리의 필요성도 증대되고 있다. 종래의 음식 배달의 대부분은 크라우드소싱(crowdsourcing) 배달원들에 의해 이루어지고 있다. 크라우드소싱 배달원들은 모터사이클, 자전거, 킥보드, 자동차를 사용하여 또는 도보에 의해 음식을 배달하고 있다. 이들 배달원 중에는, 자신의 배달 차량으로 자전거 또는 킥보드로 등록하고 모터사이클을 통해 배달을 수행하는 어뷰저(abuser)들이 존재하고 있다.
도 1은 온라인 음식 배달 서비스의 전반적인 과정을 설명하기 위한 도면이다.
도 1을 참조하면, 먼저, 사용자는 어플리케이션 등을 통해 음식을 주문하고, 시스템은 해당 주문을 레스토랑에 전달한다. 그런 다음, 시스템은 음식을 배달할 적절한 배달원을 검색하여 할당하고, 할당된 배달원은 음식을 픽업하여 사용자에게 배달한다. 이러한 음식 배달 과정에서, 시스템이 어뷰저(abuser)에게 배달을 할당할 때, 배달원 어뷰징(abusing) 문제가 발생될 수 있다. 거리 제한에 기인하여, 시스템은 짧은 거리의 배달은 종종 자전거, 킥보드, 또는 도보 배달원에게 종종 할당한다. 따라서, 무단으로 모터사이클을 사용하면, 더 짧은 시간에 더 많은 배송을 수행할 수 있어 어뷰저(abuser)에게 도움이 될 수 있다. 또한, 계약서에 명시된 등록된 배달 차량의 유형에 대한 맞춤형 보험을 제공하기 때문에, 교통 사고 발생 시 심각한 문제를 초래할 수 있다. 따라서, 이러한 어뷰저(abuser)를 포착하고 감지하여, 모든 배달원들에게 공정한 기회와 안전한 운영 환경을 제공하는 것이 중요해 지고 있다.
본 발명이 이루고자 하는 목적은, 실제 배달원의 운행 기록과 모방된 운행 기록을 이용하여 인공신경망 모델을 학습하고, 학습한 인공신경망 모델을 이용하여 특정 배달원의 운행 기록으로부터 해당 배달원의 배달 수단을 탐지하는 역강화학습 기반 배달 수단 탐지 장치 및 방법을 제공하는 데 있다.
본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 수 있다.
상기의 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 역강화학습 기반 배달 수단 탐지 장치는, 정적인 현재 상태를 나타내는 상태(state)와 상기 상태에서 동적으로 취한 행동을 나타내는 행동(action)의 쌍으로 이루어지는 제1 궤적(trajectory)과, 상기 제1 궤적의 상태와 상기 제1 궤적의 상태를 기반으로 모방된 행동의 쌍으로 이루어지는 제2 궤적을 학습 데이터로 하여, 입력된 궤적에 대한 보상(reward)을 출력하는 보상 네트워크(Reward Network)를 생성하는 보상 네트워크 생성부; 및 상기 보상 네트워크를 이용하여 탐지 대상의 궤적으로부터 상기 탐지 대상의 궤적에 대한 보상을 획득하고, 상기 탐지 대상의 궤적에 대한 보상을 기반으로 상기 탐지 대상의 궤적에 대한 배달 수단을 탐지하는 배달 수단 탐지부;를 포함한다.
여기서, 상기 보상 네트워크 생성부는, 상기 제1 궤적의 상태를 학습 데이터로 하여, 입력된 상태에 대한 행동을 출력하는 정책 에이전트(Policy Agent)를 생성하고, 상기 정책 에이전트를 통해 상기 제1 궤적의 상태에 대한 행동을 획득하고, 상기 제1 궤적의 상태와 획득한 행동을 기반으로 상기 제2 궤적을 생성할 수 있다.
여기서, 상기 보상 네트워크 생성부는, 상기 보상 네트워크를 통해 획득한 상기 제2 궤적에 대한 제2 보상을 기반으로, PPO(Proximal Policy Optimization) 알고리즘을 통해, 상기 정책 에이전트의 가중치를 업데이트할 수 있다.
여기서, 상기 보상 네트워크 생성부는, 상기 보상 네트워크를 통해 획득한 상기 제1 궤적에 대한 제1 보상과, 상기 보상 네트워크를 통해 획득한 상기 제2 궤적에 대한 제2 보상을 기반으로, 보상의 분포적 차이를 획득하여 상기 보상 네트워크의 가중치를 업데이트할 수 있다.
여기서, 상기 보상 네트워크 생성부는, 상기 제1 보상과 상기 제2 보상을 기반으로, ELBO(Evidence of Lower Bound) 최적화 알고리즘을 통해, 보상의 분포적 차이를 획득하여 상기 보상 네트워크의 가중치를 업데이트할 수 있다.
여기서, 상기 보상 네트워크 생성부는, 가우시안 분포(Gaussian distribution)를 이용하여, 상기 보상 네트워크의 가중치와 상기 정책 에이전트의 가중치를 초기화하고, 반복적인 학습 과정을 통해, 상기 보상 네트워크와 상기 정책 에이전트를 생성할 수 있다.
여기서, 상기 보상 네트워크 생성부는, 중요도 샘플링(importance sampling) 알고리즘을 통해 상기 제2 궤적 중에서 일부를 샘플로 선정하고, 샘플로 선정된 상기 제2 궤적에 대응되는 샘플을 상기 제1 궤적 중에서 획득하며, 샘플로 획득된 상기 제1 궤적과 샘플로 선정된 상기 제2 궤적을 학습 데이터로 하여, 상기 보상 네트워크를 생성할 수 있다.
여기서, 상기 배달 수단 탐지부는, 상기 탐지 대상의 궤적에 대한 보상을 정규화하여 이상치 점수(novelty score)를 획득하고, 이상치 점수를 기반으로 획득된 절대 평균 편차(Mean Absolute Deviation, MAD)와 상기 탐지 대상의 궤적에 대한 이상치 점수를 기반으로 상기 탐지 대상의 궤적에 대한 배달 수단을 탐지할 수 있다.
여기서, 상기 상태는, 위도(latitude), 경도(longitude), 시간차(interval), 거리(distance), 속도(speed), 누적 거리(cumulative distance) 및 누적 시간(cumulative time)에 대한 정보를 포함하고, 상기 행동은, x축 방향의 속력(velocity), y축 방향의 속력 및 가속도(acceleration)에 대한 정보를 포함하며, 상기 제1 궤적은, 실제 배달원의 운행 기록으로부터 획득되는 궤적일 수 있다.
상기의 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 역강화학습 기반 배달 수단 탐지 방법은, 역강화학습 기반 배달 수단 탐지 장치가 수행하는 배달 수단 탐지 방법으로서, 정적인 현재 상태를 나타내는 상태(state)와 상기 상태에서 동적으로 취한 행동을 나타내는 행동(action)의 쌍으로 이루어지는 제1 궤적(trajectory)과, 상기 제1 궤적의 상태와 상기 제1 궤적의 상태를 기반으로 모방된 행동의 쌍으로 이루어지는 제2 궤적을 학습 데이터로 하여, 입력된 궤적에 대한 보상(reward)을 출력하는 보상 네트워크(Reward Network)를 생성하는 단계; 및 상기 보상 네트워크를 이용하여 탐지 대상의 궤적으로부터 상기 탐지 대상의 궤적에 대한 보상을 획득하고, 상기 탐지 대상의 궤적에 대한 보상을 기반으로 상기 탐지 대상의 궤적에 대한 배달 수단을 탐지하는 단계;를 포함한다.
여기서, 상기 보상 네트워크 생성 단계는, 상기 제1 궤적의 상태를 학습 데이터로 하여, 입력된 상태에 대한 행동을 출력하는 정책 에이전트(Policy Agent)를 생성하고, 상기 정책 에이전트를 통해 상기 제1 궤적의 상태에 대한 행동을 획득하고, 상기 제1 궤적의 상태와 획득한 행동을 기반으로 상기 제2 궤적을 생성하는 것으로 이루어질 수 있다.
여기서, 상기 보상 네트워크 생성 단계는, 상기 보상 네트워크를 통해 획득한 상기 제2 궤적에 대한 제2 보상을 기반으로, PPO(Proximal Policy Optimization) 알고리즘을 통해, 상기 정책 에이전트의 가중치를 업데이트하는 것으로 이루어질 수 있다.
여기서, 상기 보상 네트워크 생성 단계는, 상기 보상 네트워크를 통해 획득한 상기 제1 궤적에 대한 제1 보상과, 상기 보상 네트워크를 통해 획득한 상기 제2 궤적에 대한 제2 보상을 기반으로, 보상의 분포적 차이를 획득하여 상기 보상 네트워크의 가중치를 업데이트하는 것으로 이루어질 수 있다.
여기서, 상기 보상 네트워크 생성 단계는, 중요도 샘플링(importance sampling) 알고리즘을 통해 상기 제2 궤적 중에서 일부를 샘플로 선정하고, 샘플로 선정된 상기 제2 궤적에 대응되는 샘플을 상기 제1 궤적 중에서 획득하며, 샘플로 획득된 상기 제1 궤적과 샘플로 선정된 상기 제2 궤적을 학습 데이터로 하여, 상기 보상 네트워크를 생성하는 것으로 이루어질 수 있다.
상기의 기술적 과제를 달성하기 위한 본 발명의 바람직한 실시예에 따른 컴퓨터 프로그램은 컴퓨터로 읽을 수 있는 기록 매체에 저장되어 상기한 역강화학습 기반 배달 수단 탐지 방법 중 어느 하나를 컴퓨터에서 실행시킨다.
본 발명의 바람직한 실시예에 따른 역강화학습 기반 배달 수단 탐지 장치 및 방법에 의하면, 실제 배달원의 운행 기록과 모방된 운행 기록을 이용하여 인공신경망 모델을 학습하고, 학습한 인공신경망 모델을 이용하여 특정 배달원의 운행 기록으로부터 해당 배달원의 배달 수단을 탐지함으로써, 어뷰징(abusing)으로 의심되는 배달원을 식별할 수 있다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 온라인 음식 배달 서비스의 전반적인 과정을 설명하기 위한 도면이다.
도 2는 본 발명의 바람직한 실시예에 따른 역강화학습 기반 배달 수단 탐지 장치의 구성을 설명하기 위한 블록도이다.
도 3은 본 발명의 바람직한 실시예에 따른 보상 네트워크의 생성 과정을 설명하기 위한 도면이다.
도 4는 도 3에 도시한 보상 네트워크의 세부 구성을 설명하기 위한 도면이다.
도 5는 본 발명의 바람직한 실시예에 따른 역강화학습 기반 배달 수단 탐지 방법의 단계를 설명하기 위한 흐름도이다.
도 6은 도 5에 도시한 보상 네트워크 생성 단계의 세부 단계를 설명하기 위한 흐름도이다.
도 7은 도 5에 도시한 배달 수단 탐지 단계의 세부 단계를 설명하기 위한 흐름도이다.
도 8a 및 도 8b는 본 발명의 바람직한 실시예에 따른 역강화학습 기반 배달 수단 탐지 동작의 성능을 설명하기 위한 도면이다.
이하, 첨부된 도면을 참조하여 본 발명의 실시 예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
본 명세서에서 "제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
본 명세서에서 각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 명세서에서, "가진다", "가질 수 있다", "포함한다" 또는 "포함할 수 있다"등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
또한, 본 명세서에 기재된 '~부'라는 용어는 소프트웨어 또는 FPGA(field-programmable gate array) 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터 구조들 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다.
이하에서 첨부한 도면을 참조하여 본 발명에 따른 역강화학습 기반 배달 수단 탐지 장치 및 방법의 바람직한 실시예에 대해 상세하게 설명한다.
먼저, 도 2를 참조하여 본 발명의 바람직한 실시예에 따른 역강화학습 기반 배달 수단 탐지 장치에 대하여 설명한다.
도 2는 본 발명의 바람직한 실시예에 따른 역강화학습 기반 배달 수단 탐지 장치의 구성을 설명하기 위한 블록도이다.
도 2를 참조하면, 본 발명의 바람직한 실시예에 따른 역강화학습 기반 배달 수단 탐지 장치(이하 '배달 수단 탐지 장치'라 한다)(100)는 실제 배달원의 운행 기록과 모방된 운행 기록을 이용하여 인공신경망 모델을 학습하고, 학습한 인공신경망 모델을 이용하여 특정 배달원의 운행 기록으로부터 해당 배달원의 배달 수단을 탐지(즉, 어뷰징으로 의심되는 운행 기록을 식별)할 수 있다. 이를 통해 어뷰징(abusing)으로 의심되는 배달원을 식별할 수 있고, 해당 배달원에게 해명을 요청하기 위한 의사결정에 이용될 수 있다.
이를 위해, 배달 수단 탐지 장치(100)는 보상 네트워크 생성부(110) 및 배달 수단 탐지부(130)를 포함할 수 있다.
보상 네트워크 생성부(110)는 실제 배달원의 운행 기록과 모방된 운행 기록을 이용하여 인공신경망 모델을 학습할 수 있다.
즉, 보상 네트워크 생성부(110)는 제1 궤적(trajectory)과 제2 궤적을 학습 데이터로 하여, 입력된 궤적에 대한 보상(reward)을 출력하는 보상 네트워크(Reward Network)를 생성할 수 있다.
여기서, 제1 궤적은, 실제 배달원의 운행 기록으로부터 획득되는 궤적으로서, 상태(state)와 행동(action)의 쌍으로 이루어질 수 있다. 상태는 정적인 배달원의 현재 상태를 나타내는 것으로서, 위도(latitude), 경도(longitude), 시간차(interval), 거리(distance), 속도(speed), 누적 거리(cumulative distance) 및 누적 시간(cumulative time)에 대한 정보를 포함할 수 있다. 행동은 해당 상태에서 배달원이 동적으로 취한 행동을 나타내는 것으로서, x축 방향의 속력(velocity), y축 방향의 속력 및 가속도(acceleration)에 대한 정보를 포함할 수 있다. 예컨대, 상태가 "시간차 = 3초 & 속도 = 20m/s"인 경우, 속도를 증가하려면 해당 상태에서 취할 수 있는 행동은 "가속도 = 30m/s2" 또는 "가속도 = 10m/s2"일 수 있다.
제2 궤적은, 제1 궤적의 상태로부터 행동을 모사한 것으로서, 제1 궤적의 상태와 제1 궤적의 상태를 기반으로 모방된 행동의 쌍으로 이루어질 수 있다. 이때, 보상 네트워크 생성부(110)는 제1 궤적의 상태를 학습 데이터로 하여, 입력된 상태에 대한 행동을 출력하는 정책 에이전트(Policy Agent)를 생성할 수 있다. 보상 네트워크 생성부(110)는 정책 에이전트를 통해 제1 궤적의 상태에 대한 행동을 획득하고, 제1 궤적의 상태와 획득한 행동을 기반으로 제2 궤적을 생성할 수 있다.
이때, 보상 네트워크 생성부(110)는 중요도 샘플링(importance sampling) 알고리즘을 통해 제2 궤적 중에서 일부를 샘플로 선정하고, 샘플로 선정된 제2 궤적에 대응되는 샘플을 제1 궤적 중에서 획득하며, 샘플로 획득된 제1 궤적과 샘플로 선정된 제2 궤적을 학습 데이터로 하여, 보상 네트워크를 생성할 수 있다. 여기서, 중요도 샘플링이란 학습이 덜 된 샘플들에 샘플링을 할 확률을 더 부여하는 방식으로, 정책 에이전트가 행동을 선택할 확률 분의 행동의 보상으로 산정될 수 있다. 예컨대, 하나의 행동을 a라고 가정하면, a가 샘플링될 확률은 a의 보상 / a를 선택할 확률이 된다.
아울러, 보상 네트워크 생성부(110)는 가우시안 분포(Gaussian distribution)를 이용하여, 보상 네트워크의 가중치와 정책 에이전트의 가중치를 초기화하고, 반복적인 학습 과정을 통해, 보상 네트워크와 정책 에이전트를 생성할 수 있다.
이때, 보상 네트워크 생성부(110)는 보상 네트워크를 통해 획득한 제1 궤적에 대한 제1 보상과, 보상 네트워크를 통해 획득한 제2 궤적에 대한 제2 보상을 기반으로, 보상의 분포적 차이를 획득하여 보상 네트워크의 가중치를 업데이트할 수 있다. 예컨대, 보상 네트워크 생성부(110)는 제1 보상과 제2 보상을 기반으로, ELBO(Evidence of Lower Bound) 최적화 알고리즘을 통해, 보상의 분포적 차이를 획득하여 보상 네트워크의 가중치를 업데이트할 수 있다. 즉, ELBO는 KL 발산(Kullback-Leibler divergence)이라고 하는 분포의 차이를 계산하는 방식을 통해 산정될 수 있다. ELBO 이론은 발산(divergence)을 최소화하는 방식이 분포의 하한값(lower bound)을 높이는 방법이고, 최소치를 높임으로써 최종적으로는 분포의 격차를 줄이는 방향이라고 설명하고 있다. 따라서, 본 발명에서는 하한값은 정책 에이전트의 보상의 분포가 되고, 차이를 구하게 되는 분포는 실제 배달원(전문가)의 보상의 분포가 된다. 이 두가지의 보상의 분포 차를 획득함으로써 ELBO를 획득할 수 있다. 여기서, 보상의 분포를 추론하는 이유는 정책 에이전트의 상태와 행동이 통계 이론에서의 이산의(discrete) 값이 아닌 연속적인(continuous) 값이기 때문이다.
또한, 보상 네트워크 생성부(110)는 보상 네트워크를 통해 획득한 제2 궤적에 대한 제2 보상을 기반으로, 정책 에이전트의 가중치를 업데이트할 수 있다. 예컨대, 보상 네트워크 생성부(110)는 제2 보상을 기반으로, PPO(Proximal Policy Optimization) 알고리즘을 통해, 정책 에이전트의 가중치를 업데이트할 수 있다.
배달 수단 탐지부(130)는 보상 네트워크 생성부(110)를 통해 학습한 인공신경망 모델을 이용하여 특정 배달원의 운행 기록으로부터 해당 배달원의 배달 수단을 탐지할 수 있다.
즉, 배달 수단 탐지부(130)는 보상 네트워크 생성부(110)를 통해 생성된 보상 네트워크를 이용하여 탐지 대상의 궤적으로부터 탐지 대상의 궤적에 대한 보상을 획득하고, 탐지 대상의 궤적에 대한 보상을 기반으로 탐지 대상의 궤적에 대한 배달 수단을 탐지할 수 있다.
예컨대, 배달 수단 탐지부(130)는 탐지 대상의 궤적에 대한 보상을 정규화하여 이상치 점수(novelty score)를 획득하고, 이상치 점수를 기반으로 획득된 절대 평균 편차(Mean Absolute Deviation, MAD)와 탐지 대상의 궤적에 대한 이상치 점수를 기반으로 탐지 대상의 궤적에 대한 배달 수단을 탐지할 수 있다. 즉, MAD를 이용하여 이상치(novelty)를 찾아내면, 원래 모터사이클을 이용한 배달원들은 높은 보상 값을 받게 되기 때문에, 궤적 전체에 비례하여 미리 정해진 수치(5%, 10% 등) 이상 MAD를 넘어간 수치를 받은 배달원이 있다면, 해당 배달원을 어뷰징으로 의심되는 배달원으로 탐지할 수 있다.
위와 같이, 본 발명에 따른 배달 수단 탐지 장치(100)는 인공 신경망으로 이루어진 강화학습 정책 에이전트를 통해 모터사이클 배달원의 행동 특성을 모방하고, 인공 신경망으로 이루어진 역강화학습 보상 네트워크(즉, 보상 함수)가 정책 에이전트에 의해 모방된 행동 패턴과 실제 모터사이클 배달원(즉, 전문가)의 행동 패턴 사이의 분포적 차이를 모델링하고, 정책 에이전트에게 보상을 부여한다. 이 분포적 차이를 모델링하는 과정이 변분 추론이다. 이러한 과정을 반복적으로 수행하여 정책 에이전트와 보상 네트워크는 동시에 상호 작용을 통해 학습되게 된다. 정책 에이전트는 학습이 반복될수록 모터사이클 배달원과 유사한 행동 패턴을 취하게 되고, 보상 네트워크는 이에 맞는 보상을 주는 것을 학습하게 된다. 최종적으로 학습된 보상 네트워크를 이용하여 탐지 대상인 배달원들의 행동 패턴에 대한 보상을 추출한다. 추출한 보상을 통해 해당 행동 패턴이 모터사이클을 이용하는 것인지 아니면 다른 배달 수단을 이용한 것인지를 분류하게 된다. 분류된 배달 수단을 통해 어뷰징으로 의심되는 배달원을 찾아낼 수 있다.
그러면, 도 3 및 도 4를 참조하여 본 발명의 바람직한 실시예에 따른 역강화학습 기반 배달 수단 탐지 동작에 대하여 보다 자세하게 설명한다.
도 3은 본 발명의 바람직한 실시예에 따른 보상 네트워크의 생성 과정을 설명하기 위한 도면이고, 도 4는 도 3에 도시한 보상 네트워크의 세부 구성을 설명하기 위한 도면이다.
강화학습(Reinforcement Learning)
본 발명은 튜플(tuple)
Figure 112020089857812-pat00001
에 의해 정의되는 마르코브 결정 프로세스(Markov Decision Processes, MDP)를 고려하며, S는 유한한 상태들의 집합이고, 행동들의 유한한 세트의 집합이며, P(s, a, s')는 상태 s로부터 상태 s'로의 변화의 전이 확률(transition probability)을 나타낸다. 행동 a가 발생될 때, r(s, a)는 상태 s에서 행동 a가 발생되는 것의 즉각적인 보상을 나타내고,
Figure 112020089857812-pat00002
은 초기 상태 분포
Figure 112020089857812-pat00003
이며,
Figure 112020089857812-pat00004
은 잠재적인 미래의 보상을 모델링하는 디스카운트 팩터(discount factor)를 나타낸다. 가능한 행동들에 대한 상태로부터 분포로의 스토캐스틱(stochastic) 정책 맵핑은
Figure 112020089857812-pat00005
로 정의된다. 상태 S에서 수행된 정책 π의 값은 기대(expectation)
Figure 112020089857812-pat00006
로 정의되고, 강화학습 에이전트의 목표는 모든 가능한 상태들에 대한 기대를 최대화하는 최적의 정책 π * 을 찾는 것이다.
역강화학습(Inverse Reinforcement Learning, IRL)
위의 RL과 대조적으로, 보상 함수(reward function)는 MDP 내에서 명시적으로 모델링되어야 하며, IRL의 목표는 전문가(즉, 실제 배달원)의 시연(demonstration)으로부터 최적의 보상 함수 R * 를 추정하는 것이다. 이런 이유로, RL 에이전트는 IRL에 의해 찾아진 보상 함수를 이용하여 전문가의 행동을 모방하는 것이 요구된다. 궤적 T는 상태-행동의 쌍들
Figure 112020089857812-pat00007
의 시퀀스(sequence)를 나타내고, T E T P 는 각각 전문가의 궤적들 및 정책에 의해 생성된 궤적들을 나타낸다. 전문가 및 정책의 궤적들을 이용하여, 보상 함수는 전문가 및 정책 전부의 보상들의 기대를 최적화하는 것에 의해 정확한 보상 표현(reward representation)를 학습하여야 한다.
[수학식 1]
Figure 112020089857812-pat00008
최대 엔트로피 역강화학습(Maximum Entropy IRL)
최대 엔트로피 IRL은 볼츠만 분포(Boltzmann distribution)를 이용하여 전문가의 시연(demonstration)을 모델링하고, 보상 함수는 아래의 [수학식 2]와 같이, 궤적들의 파라미터화된 에너지 함수(parameterized energy function)로 모델링된다.
[수학식 2]
Figure 112020089857812-pat00009
여기서, Rθ에 의해 파라미터화되고
Figure 112020089857812-pat00010
로 정의된다. 이 프레임워크는 전문가의 궤적이 가장 높은 우도(likelihood)를 가지는 최적에 가깝다고 가정한다. 이 모델에서, 분배 함수(partition function) Z에서 정의되는, 최적의 궤적들은 지수적으로 선호된다. 분배 함수를 결정하는 것은 계산이 어려운 도전이기 때문에, 최대 엔트로피 IRL에서의 초기 연구는 Z를 계산하기 위해 동적 프로그래밍을 제안했다. 보다 최근의 접근 방식들은 중요도 가중치에 의해 샘플을 삭제하거나 중요도 샘플링(importance sampling)을 적용하는 것에 의해 MDP의 미지의 동역학(dynamics)을 가지는 Z를 근사화하는데 중점을 두고 있다.
본 발명의 동작 과정
최대 엔트로피 IRL 프레임워크의 기초 위에서, 본 발명은 이상치(novelty) 검출을 위한 모든 가능한 보상들에 대한 분포의 사후 추정 문제로 배달 어뷰저(ride abuser) 탐지를 공식화한다. 본 발명에 따른 보상 학습의 전반적인 과정은 도 3에 도시된 바와 같다. 본 발명의 메인 과정은 아래와 같다.
먼저, 정책 π는 전문가를 모방하기 위해, 반복적으로 궤적들 T P 를 생성한다. 그런 다음, 보상들이 가우시안 분포(Gaussian distribution)를 따른 다는 것을 가정하고, 본 발명은 μσ를 가지는 사후 분포(posterior distribution)의 학습된 파라미터들로부터 보상 값들을 샘플링한다. 샘플링된 보상들은 사후(posterior)의 표현(representation)으로 가정되면, 정책 π는 샘플링된 보상들에 대하여 업데이트될 수 있고, 보상 파라미터들은, 2개의 다른 기대들(주어진 T E T P 에 대한 보상들의 사후 기대들)의 ELBO(Evidence of Lower Bound)로 알려진, 변분 바운드(variational bound)를 최적화하는 것에 의해 업데이트될 수 있다. 보상 네트워크는 도 4에 도시된 바와 같으며, T E T P 각각으로부터 R E R P 를 출력한다.
본 발명의 접근 방식은 불확실성을 획득하기 위해 신경망의 각 노드를 랜덤 변수로 보는, 파라미터의 베이지안 추론(parametric Bayesian inference)이다.
본 발명은, 마르코브 체인 몬테 카를로(Markov Chain Monte Carlo, MCMC)를 이용하여 보상 함수 공간(reward function space)을 도출하는, 부트스트래핑(bootsreapping) 또는 Monte Carlo dropout을 사용하는 이전 모델들에 비해, ELBO를 최적화할 때 파라미터 변분 추론을 사용하는 것이 더 효율적이라고 가정한다.
베이지안 공식(Bayesian Formulation)
보상들이 독립적이고 동일하게 분포(independent and identically distributed, i.i.d.)된다고 가정하면, 본 발명은 보상들의 사후 분포를 찾는데 중점을 둘 수 있다. 베이즈 정리(Bayes theorem)를 이용하여, 본 발명은 사후(posterior)를 아래의 [수학식 3]과 같이 공식화할 수 있다.
[수학식 3]
Figure 112020089857812-pat00011
여기서, 사전 분포(prior distribution) p(r)은 보상 분포(reward distribution)의 배경 지식으로 알려져 있다. 본 발명에서는, 보상의 사전 지식이 가우시안 분포(Gaussian distribution)라고 가정한다. 우도(likelihood) 항은 최대 엔트로피 IRL에 의해 [수학식 2]에서 정의된다. 이것은 또한 주어진 상태들에 대한 정책 π의 선호 행동과 궤적 라인(line)을 따른 보상들로 해석될 수도 있다. 분배 함수 Z의 난해성(intractability)때문에 이러한 우도(likelihood)를 측정하는 것은 불가능하기 때문에, 본 발명은 아래의 섹션을 통해 분배 함수를 추정한다.
변분 보상 추론(Variational Reward Inference)
변분 베이지안(variational Bayesian) 연구에서, 사후 근사(posterior approximation)는 종종 ELBO 최적화 문제로 여겨진다.
[수학식 4]
Figure 112020089857812-pat00012
여기서,
Figure 112020089857812-pat00013
는 사후 근사 함수 q를 위한 학습된 파라미터들이고, z는 추론된 분포로부터 샘플링된 값들의 모음(collection)이며,
Figure 112020089857812-pat00014
는 주어진 z에 대한 사후 분포이다.
변분 베이지안 설정에서, z는 학습된 파리미터들로부터 샘플링된 잠재 변수들(latent variables)을 나타낸다. 그러면, 근사화된 사후
Figure 112020089857812-pat00015
와 생성된 분포 p(z) 사이의 쿨백-라이블러 발산(Kullback-Leibler divergence)(D KL )을 최소화하는 것은 ELBO를 최대화하는 것으로 고려될 수 있다. z를 잠재 변수들로 사용하는 것을 대신하여, 본 발명은 이들을 근사화된 사후 분포의 파라미터들로 사용한다.
이를 본 발명에 적용하면, 본 발명은 아래의 [수학식 5]와 같이 기대(expectation) 항은 재공식화할 수 있다.
[수학식 5]
Figure 112020089857812-pat00016
기대(expectation) 내부의 로그-우도(log-likelihood) 항은 필연적으로 [수학식 2]에 정의된 우도(likelihood)에 로그를 적용하는 것과 동일하다. 따라서, 기대(expectation) 항을 추정하는 것은 또한 Z 추정의 필요를 실행한다. MCMC와 함께 백업 궤적 샘플들을 사용하여 우도(likelihood) 항 내에서 Z를 추정한 이전의 접근 방식들과는 다르게, 본 발명은 전문가 보상들과 정책 보상들 사이의 사후 분포의 차이를 측정하기 위해 학습된 파라미터들을 사용한다. 그러면, 로그-우도(log-likelihood) 항은 경계(marginal) 가우시안 로그-우도(Gaussian log-likelihood, GLL)를 이용하여 근사화될 수 있다. 사후(posterior)의 복수개의 특징들이 가정되면 복수개의 파라미터들이 사용될 수 있기 때문에, 본 발명은 복수개의 GLL 값들의 평균(mean)을 사용할 수 있다. 그러면, [수학식 4]에서의 ELBO는 아래의 [수학식 6]으로 다시 표현될 수 있다.
[수학식 6]
Figure 112020089857812-pat00017
여기서, D KL 은 사후(posterior)와 사전(prior) 사이의 분포 차이를 측정하고, 사전 분포(prior distribution)는 평균이 0인 가우시안 분포(zero mean Gaussian distribution)로 설정된다.
그라디언트 계산(Gradient Computation)
보상들의 사후 분포(posterior distribution)에 대한 실측 자료가 없기 때문에, 본 발명은 ELBO를 계산할 때, 전문가 궤적의 보상들을 사후 기대(posterior expectation)로 사용한다. 보상 파라미터(reward parameter) θ에 대하여 그라디언트(gradient)를 계산하는 기존의 과정은 아래의 [수학식 7]과 같다.
[수학식 7]
Figure 112020089857812-pat00018
샘플링된 보상들을 이용하여 사후(posterior)를 계산하는 것은 불가능하기 때문에, 본 발명은, 그라디언트(gradient)가 사후 분포(posterior distribution)의 학습된 파라미터들을 이용하여 계산되는 것을 허용하는, 재파라미터화(reparameterization) 기법을 이용한다. 재파라미터화 기법을 이용하면, 본 발명은 아래의 [수학식 8]과 같이 그라디언트(gradient)를 추정할 수 있다.
[수학식 8]
Figure 112020089857812-pat00019
본 발명은 또한, 중요한 샘플들만 그라디언트(gradient)를 계산하는데 적용하기 위해 정의된 중요도에 기초하여 샘플들을 선택하는, 중요도 샘플링(importance sampling) 기법을 적용할 수 있다.
중요도 샘플링(importance sampling)을 이용하여, 더 높은 보상들을 가지는 궤적들은 더 지수적으로 선호된다. 가중치 항을 그라디언트(gradient)에 적용하면, 본 발명은 아래의 [수학식 9]를 획득할 수 있다.
[수학식 9]
Figure 112020089857812-pat00020
여기서,
Figure 112020089857812-pat00021
이고,
Figure 112020089857812-pat00022
이며,
Figure 112020089857812-pat00023
이다. q(τ i )τ i 에 대한 정책 출력(policy output)의 로그 확률(log probability)을 나타낸다.
훈련 과정 도중에, 샘플링된 궤적들의 쌍들만이 각각의 훈련 스텝에서 그라디언트(gradient)를 통해 업데이트되도록 하기 위해 본 발명은 전문가 궤적들을 샘플링된 정책 궤적에 매칭하는데 중요도 샘플링(importance sampling)을 또한 이용할 수 있다.
본 발명의 동작 알고리즘
본 발명은 비-모터사이클 배달원들로 등록된 어뷰저(abuser)를 식별하기 위해, 모터사이클 배달원들의 그룹의 행동들을 학습하는 것을 목표로 한다. 따라서, 본 발명은 모터사이클 배달원들의 주어진 전문가 궤적들에 대하여 보상들의 분포를 추론한다. 본 발명에 따른 보상 함수가 모터사이클을 이용하는 어뷰저의 다른 행동들과 그들의 원래 차량을 이용하는 비-어뷰저 행동 사이를 구분하기 위해 모터사이클 배달원의 행동들로부터 학습하는 것을 보장하기 위해, 훈련 세트는 잠재적인 어뷰저들을 포함하고 있지 않아야 하는 것이 중요하다.
본 발명은 먼저 정책 네트워크(policy network) π와 보상 학습 네트워크(reward learning network) 파라미터들 θ를 평균이 0인 가우시안 분포(zero mean Gaussian distribution)를 이용하여 초기화하고, 전문가 궤적들
Figure 112020089857812-pat00024
는 데이터세트로부터 주어진다. 각각의 반복 과정에서, 정책 πθ에 의해 주어진 보상들에 따라, 샘플 정책 궤적 T P 를 생성한다. 그러면, 본 발명은 전문가 및 정책 전부에 대하여 훈련된 필요가 있는 궤적들을 샘플링하기 위해 중요도 샘플링(importance sampling)을 적용한다. 주어진 궤적들의 세트에 대해, 보상 함수는 GLLD KL 을 계산하기 위해 보상들을 생성하고, 그라디언트(gradient)는 계산된 로스(loss)를 최소화하기 위해 업데이트 된다. 학습 과정 도중에, 보상 함수는 학습된 파라미터들을 이용하여 복수회 샘플들을 생성할 수 있다. 그러나, 단일 보상 값이 이상치(novelty) 검출에 이용되기 때문에, 학습된 평균 값이 이용되어야 한다.
정책 그라디언트 알고리즘을 위해, 본 발명은, surrogate gradient clipping과 Kullback-Leibler penalty를 이용하여 Actor-Critic 정책 그라디언트 알고리즘의 정책 업데이트를 제한하는, 최첨단 정책 최적화 방법인, PPO(Proximal Policy Optimization)을 이용한다. 본 발명에 따른 학습 과정의 전반적인 알고리즘은 아래의 [알고리즘 1]과 같다.
[알고리즘 1]
Obtain expert trajectories T E ;
Initialize policy network π;
Initialize reward network θ;
for iteration n = 1 to N do
Generate T P from π;
Apply importance sampling to T E ^ and T P ^;
Obtain n samples of R E and R P from θ using T E ^ and T P ^;
Compute ELBO(θ) using R E and R P ;
Update parameters using gradient θ ELBO(θ);
Update π with respect to R P using PPO;
배달 수단의 탐지(어뷰저의 탐지)
보상 함수가 학습된 이후, 테스트 궤적들은 적절한 보상 값들을 얻기 위해 직접 보상 함수에 입력될 수 있다. 여기서, 본 발명은 각각의 테스트 궤적의 이상치 점수(novelty scor)를 아래의 [수학식 10]을 통해 계산한다.
[수학식 10]
Figure 112020089857812-pat00025
여기서, μ r σ r 은 모든 테스트 보상들에 대한 평균 및 표준 편차를 나타내고, r θ (τ)는 상태와 행동의 쌍인 주어진 단일의 τ에 대한 단일의 보상 값을 나타낸다.
본 발명은, 이상치(novelty) 또는 아웃라이어(outlier) 검출 메트릭(metric)에 공통적으로 이용되는, 자동화된 이상치(novelty) 검출을 위해 절대 평균 편차(Mean Absolute Deviation, MAD)를 적용한다.
본 발명은 아래의 [수학식 11]에서 MAD의 계수를 k로 나타내고, k는, 경험적 실험(empirical experiments)에 기초한 최고의 성능을 산출하는, 1로 설정한다. 복수회 테스트 실행을 통해 보상들의 결과 분포들을 실험한 후, 보상들의 사후(posterior)가 경험적으로 하프-가우시안(half-Gaussian) 또는 하프-라플라시안 분포(half-Laplacian distribution)를 따르는 것을 확인하였다. 따라서, 본 발명은 이상치(novelty) 검출을 위한 자동화된 임계치
Figure 112020089857812-pat00026
를 아래의 [수학식 11]과 같이 정의한다.
[수학식 11]
Figure 112020089857812-pat00027
여기서, min(n)은 최소값을 나타내고, σ n 은 최소로부터 모든 이상치 점수(novelty score) 값들에 대한 표준 편차를 나타낸다.
보상들의 사전 분포(prior distribution)가 평균이 0인 가우시안(zero mean Gaussian)인 것으로 가정하였기 때문에, 또한 사후(posterior)의 min(n)은 0에 가깝다는 것을 가정할 수 있다. 결국, 본 발명은 n(τ) >
Figure 112020089857812-pat00028
인 궤적들에 대한 point-wise 이상치(novelty)를 정의할 수 있다. RL의 목적이 기대되는 리턴(return)을 최대화하는 것이기 때문에, 높은 리턴을 가지는 궤적들은 본 발명에 따른 문제에서 이상치들(novelties)로 고려될 수 있다. 포인트(point)가 어뷰저(abuser)의 궤적에 속한다면, 본 발명은 궤적 내의 해당 포인트(point)를 포인트-별(point-wise) 이상치(novelty)로 정의한다. 본 발명은 시퀀스(sequences)를 분류하는 것을 목표로 하기 때문에, 본 발명은 특정 부분(proportion)에 포인트-별(point-wise) 이상치들(novelties)을 포함한 궤적들을 궤적-별(trajectory-wise) 이상치(novelty)로 정의한다. 배달원들의 행동 패턴은 그들의 차량 유형에 관계없이 매우 유사하기 때문에, 본 발명은 시퀀스(sequence)의 길이에 비해 포인트-별(point-wise) 이상치(novelty)의 비율이 작을 것으로 예상한다. 따라서, 본 발명은 궤적-별(trajectory-wise) 이상치(novelty)를 10% 또는 5%의 포인트-별(point-wise) 이상치(novelty)를 가지는 궤적들로 정의한다.
그러면, 도 5 내지 도 7을 참조하여 본 발명의 바람직한 실시예에 따른 역강화학습 기반 배달 수단 탐지 방법에 대하여 설명한다.
도 5는 본 발명의 바람직한 실시예에 따른 역강화학습 기반 배달 수단 탐지 방법의 단계를 설명하기 위한 흐름도이다.
도 5를 참조하면, 배달 수단 탐지 장치(100)는 제1 궤적(trajectory)과 제2 궤적을 학습 데이터로 하여, 입력된 궤적에 대한 보상(reward)을 출력하는 보상 네트워크(Reward Network)를 생성한다(S110).
그런 다음, 배달 수단 탐지 장치(100)는 보상 네트워크를 이용하여, 탐지 대상의 궤적에 대한 배달 수단을 탐지한다(S130).
도 6은 도 5에 도시한 보상 네트워크 생성 단계의 세부 단계를 설명하기 위한 흐름도이다.
도 6을 참조하면, 배달 수단 탐지 장치(100)는 제1 궤적을 획득할 수 있다(S111). 여기서, 제1 궤적은, 실제 배달원의 운행 기록으로부터 획득되는 궤적으로서, 상태(state)와 행동(action)의 쌍으로 이루어질 수 있다. 상태는 정적인 현재 상태를 나타내는 것으로서, 위도(latitude), 경도(longitude), 시간차(interval), 거리(distance), 속도(speed), 누적 거리(cumulative distance) 및 누적 시간(cumulative time)에 대한 정보를 포함할 수 있다. 행동은 해당 상태에서 동적으로 취한 행동을 나타내는 것으로서, x축 방향의 속력(velocity), y축 방향의 속력 및 가속도(acceleration)에 대한 정보를 포함할 수 있다.
그런 다음, 배달 수단 탐지 장치(100)는 정책 에이전트(Policy Agent)와 보상 네트워크를 초기화할 수 있다(S112). 즉, 배달 수단 탐지 장치(100)는 가우시안 분포(Gaussian distribution)를 이용하여, 보상 네트워크의 가중치와 정책 에이전트의 가중치를 초기화할 수 있다.
이후, 배달 수단 탐지 장치(100)는 정책 에이전트를 통해 제2 궤적을 생성할 수 있다(S113). 여기서, 제2 궤적은, 제1 궤적의 상태로부터 행동을 모사한 것으로서, 제1 궤적의 상태와 제1 궤적의 상태를 기반으로 모방된 행동의 쌍으로 이루어질 수 있다. 이때, 배달 수단 탐지 장치(100)는 제1 궤적의 상태를 학습 데이터로 하여, 입력된 상태에 대한 행동을 출력하는 정책 에이전트를 생성할 수 있다. 배달 수단 탐지 장치(100)는 정책 에이전트를 통해 제1 궤적의 상태에 대한 행동을 획득하고, 제1 궤적의 상태와 획득한 행동을 기반으로 제2 궤적을 생성할 수 있다.
그리고, 배달 수단 탐지 장치(100)는 제1 궤적 및 제2 궤적에서 샘플을 선정할 수 있다(S114). 즉, 배달 수단 탐지 장치(100)는 중요도 샘플링(importance sampling) 알고리즘을 통해 제2 궤적 중에서 일부를 샘플로 선정하고, 샘플로 선정된 제2 궤적에 대응되는 샘플을 제1 궤적 중에서 획득할 수 있다.
그런 다음, 배달 수단 탐지 장치(100)는 보상 네트워크를 통해 샘플로 선정된 제1 궤적 및 제2 궤적에 대한 제1 보상 및 제2 보상을 획득할 수 있다(S115).
이후, 배달 수단 탐지 장치(100)는 제1 보상 및 제2 보상을 기반으로 분포적 차이를 획득하여 보상 네트워크의 가중치를 업데이트할 수 있다(S116). 예컨대, 배달 수단 탐지 장치(100)는 제1 보상과 제2 보상을 기반으로, ELBO(Evidence of Lower Bound) 최적화 알고리즘을 통해, 보상의 분포적 차이를 획득하여 보상 네트워크의 가중치를 업데이트할 수 있다.
그리고, 배달 수단 탐지 장치(100)는 제2 보상을 기반으로 PPO(Proximal Policy Optimization) 알고리즘을 통해 정책 에이전트의 가중치를 업데이트할 수 있다(S117).
학습이 종료되지 않은 경우(S118-N), 배달 수단 탐지 장치(100)는 단계 S113 내지 단계 S117을 다시 수행할 수 있다.
도 7은 도 5에 도시한 배달 수단 탐지 단계의 세부 단계를 설명하기 위한 흐름도이다.
도 7을 참조하면, 배달 수단 탐지 장치(100)는 탐지 대상의 궤적에 대한 보상을 정규화하여 이상치 점수(novelty score)를 획득할 수 있다(S131).
그런 다음, 배달 수단 탐지 장치(100)는 이상치 점수를 기반으로 획득된 절대 평균 편차(MAD)와 탐지 대상의 궤적에 대한 이상치 점수를 기반으로 탐지 대상의 궤적에 대한 배달 수단을 탐지할 수 있다(S132).
그러면, 도 8a 및 도 8b를 참조하여 본 발명의 바람직한 실시예에 따른 역강화학습 기반 배달 수단 탐지 동작의 성능에 대하여 설명한다.
본 발명에 따른 역강화학습 기반 배달 수단 탐지 동작의 성능을 비교하기 위해, 이상치(novelty) 또는 아웃라이어(outlier) 검출에 이용되는 아래의 7가지의 기법을 이용하였다.
- LOF(Local Outlier Factor) : 더 높은 밀도 포인트(density points)를 이상치(novelty)로 정의할 수 있도록 각각의 데이터 포인트의 가장 가까운 k 이웃까지의 거리를 밀도로 측정하는 클러스터링 및 밀도 기반의 아웃라이어 검출 모델
- ISF(Isolation Forest) : 정상 데이터에서 아웃라이어를 분리하기 위해 데이터 세트에서 파티션을 재귀적으로 생성하는 부트스트랩 회귀 트리(bootstrapped regression trees)를 기반으로 하는 이상치 검출 모델
- OC-SVM(One Class Support Vector Machine) : 정상 데이터의 포인트들의 경계를 학습하고, 경계 외부의 데이터 포인트들을 아웃라이어로 분류하는 모델
- FNN-AE(Feed-Forward Neural Network Autoencoder) : Fully connected layers만을 이용하여 구현된 자동인코더
- LSTM-AE(Long Short-Term Memory Autoencoder) : 숨겨진 Layer는 인코딩 값들로 작동하고, 하나의 Fully connected layer가 출력 layer에 추가된, LSTM 인코더와 LSSTM 디코더로 구성된 모델
- VAE(Variational Autoencoder) : 주어진 데이터를 잠재 변수(평균 및 표준 편차)로 인코딩하는 인코더로 구성된 모델
- IRL-AD(Inverse Reinforcement Learning based Anomaly Detection) : k 부트스탭(bootstrapped) 헤드가 있는 베이지안 신경망을 이용한 모델
테스트 데이터에 대해 하나의 클래스 분류를 수행하고 precision, recall, F1-score, 및 AUROC score를 이용하여 성능을 평가하였다. 또한, 하나의 클래스에서 왜곡되지 않은 정확도를 가지는 두 클래스를 효과적으로 분류하기 위해 실세계의 시나리오를 고려하여 모델 타당성을 측정하기 위해 false positives와 false negatives의 수를 측정하였다.
아래의 [표 1]은 5% 이상치(novelty) 비율로 시퀀스(sequence)를 분류한 모든 방법들의 결과를 나타내고, 아래의 [표 2]는 5% 이상치(novelty) 비율로 시퀀스(sequence)를 분류한 모든 방법들의 결과를 나타낸다.

Method
5% Novelty Rate
Precision Recall F 1 AUROC FPR FNR
LOF .389 .133 .199 .490 221 913
ISF .435 .490 .461 .511 670 538
OC-SVM .576 1.0 .731 .500 1054 0
FNN-AE .413 .668 .511 .459 1240 222
LSTM-AE .440 .800 .568 .517 1087 213
VAE .436 .953 .598 .513 1315 50
IRL-AD .728 .593 .654 .713 434 237
본 발명 .860 .678 .758 .797 344 118
여기서, FPR은 False Positive Rate를 나타내고, FNR은 False Negarive Rate를 나타낸다.

Method
10% Novelty Rate
Precision Recall F 1 AUROC FPR FNR
LOF .412 .479 .443 .487 772 549
ISF .420 .770 .544 .495 1117 242
OC-SVM .576 1.0 .731 .500 1054 0
FNN-AE .405 .792 .546 .477 1012 354
LSTM-AE .432 .908 .586 .506 1272 98
VAE .433 .981 .601 .508 1369 20
IRL-AD .673 .641 .656 .703 383 333
본 발명 .850 .707 .772 .806 313 113
[표 1] 및 [표 2]에 따르면, 본 발명은 AUROC score에서 2번째로 우수한 성능을 나타낸 IRL-AD에 비해 더 높은 점수를 달성하여 모든 방법을 능가하는 성능을 나타냄을 확인할 수 있다. 그리고, 본 발명은 F1 score에서 2번째로 우수한 성능을 나타낸 OC-SVM에 비해 더 높은 점수를 달성하였음을 확인할 수 있다. 또한, 본 발명은 FPR 및 FNR에서도 다른 기법들에 비해 더 나은 성능을 나타냄을 확인할 수 있다.
도 8a 및 도 8b는 본 발명의 바람직한 실시예에 따른 역강화학습 기반 배달 수단 탐지 동작의 성능을 설명하기 위한 도면이다.
본 발명에 의해, 테스트 데이터세트로부터 분류된 어뷰저(abuser)와 비-어뷰저(non-abuser)의 샘플 궤적은 도 8a 및 도 8b와 같다. 도 8a는 비-어뷰저의 궤적을 나타내고, 도 8b는 어뷰저의 궤적을 나타낸다.
도 8a의 왼쪽 그림은 하단에 표시된 이상치 점수를 기반으로 비-어뷰저의 궤적을 보여주며, 시퀀스(sequence)의 모든 데이터 포인트들이 비-어뷰저로 분류됨을 확인할 수 있다. 도 8a의 오른쪽 그림에서, 중간의 수치는 GPS 오작동으로 인해 약간의 이상치들을 가지고 있지만, 대부분의 데이터 포인트들에 대한 이상치 점수는 비-어뷰저임을 나타내고 있다.
도 8b의 왼쪽 그림은 23번째 데이터 포인트부터 시작하여 대부분의 데이터 포인트들이 이상치로 분류되므로, 이 궤적은 어뷰저로 분류된다. 도 8b의 오른쪽 그림의 거의 모든 데이터 포인트들이 이상치로 분류되므로, 이 궤적은 어뷰저의 궤적으로 분류된다.
이와 같이, 본 발명은 그 결과를 시각화할 수 있다.
이상에서 설명한 본 발명의 실시예를 구성하는 모든 구성요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 기록 매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 기록 매체로서는 자기기록매체, 광 기록매체 등이 포함될 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100 : 배달 수단 탐지 장치,
110 : 보상 네트워크 생성부,
130 : 배달 수단 탐지부

Claims (15)

  1. 정적인 현재 상태를 나타내는 상태(state)와 상기 상태에서 동적으로 취한 행동을 나타내는 행동(action)의 쌍으로 이루어지는 제1 궤적(trajectory)과, 상기 제1 궤적의 상태와 상기 제1 궤적의 상태를 기반으로 모방된 행동의 쌍으로 이루어지는 제2 궤적을 학습 데이터로 하여, 입력된 궤적에 대한 보상(reward)을 출력하는 보상 네트워크(Reward Network)를 생성하는 보상 네트워크 생성부; 및
    상기 보상 네트워크를 이용하여 탐지 대상의 궤적으로부터 상기 탐지 대상의 궤적에 대한 보상을 획득하고, 상기 탐지 대상의 궤적에 대한 보상을 기반으로 상기 탐지 대상의 궤적에 대한 배달 수단을 탐지하는 배달 수단 탐지부; 를 포함하고,
    상기 보상 네트워크 생성부는,
    상기 보상 네트워크를 통해 획득한 상기 제1 궤적에 대한 제1 보상과, 상기 보상 네트워크를 통해 획득한 상기 제2 궤적에 대한 제2 보상을 기반으로, 보상의 분포적 차이를 획득하여 상기 보상 네트워크의 가중치를 업데이트하는,
    역강화학습 기반 배달 수단 탐지 장치.
  2. 제1항에서,
    상기 보상 네트워크 생성부는,
    상기 제1 궤적의 상태를 학습 데이터로 하여, 입력된 상태에 대한 행동을 출력하는 정책 에이전트(Policy Agent)를 생성하고,
    상기 정책 에이전트를 통해 상기 제1 궤적의 상태에 대한 행동을 획득하고, 상기 제1 궤적의 상태와 획득한 행동을 기반으로 상기 제2 궤적을 생성하는,
    역강화학습 기반 배달 수단 탐지 장치.
  3. 제2항에서,
    상기 보상 네트워크 생성부는,
    상기 보상 네트워크를 통해 획득한 상기 제2 궤적에 대한 제2 보상을 기반으로, PPO(Proximal Policy Optimization) 알고리즘을 통해, 상기 정책 에이전트의 가중치를 업데이트하는,
    역강화학습 기반 배달 수단 탐지 장치.
  4. 삭제
  5. 제1항에서,
    상기 보상 네트워크 생성부는,
    상기 제1 보상과 상기 제2 보상을 기반으로, ELBO(Evidence of Lower Bound) 최적화 알고리즘을 통해, 보상의 분포적 차이를 획득하여 상기 보상 네트워크의 가중치를 업데이트하는,
    역강화학습 기반 배달 수단 탐지 장치.
  6. 정적인 현재 상태를 나타내는 상태(state)와 상기 상태에서 동적으로 취한 행동을 나타내는 행동(action)의 쌍으로 이루어지는 제1 궤적(trajectory)과, 상기 제1 궤적의 상태와 상기 제1 궤적의 상태를 기반으로 모방된 행동의 쌍으로 이루어지는 제2 궤적을 학습 데이터로 하여, 입력된 궤적에 대한 보상(reward)을 출력하는 보상 네트워크(Reward Network)를 생성하는 보상 네트워크 생성부; 및
    상기 보상 네트워크를 이용하여 탐지 대상의 궤적으로부터 상기 탐지 대상의 궤적에 대한 보상을 획득하고, 상기 탐지 대상의 궤적에 대한 보상을 기반으로 상기 탐지 대상의 궤적에 대한 배달 수단을 탐지하는 배달 수단 탐지부; 를 포함하고,
    상기 보상 네트워크 생성부는,
    상기 제1 궤적의 상태를 학습 데이터로 하여, 입력된 상태에 대한 행동을 출력하는 정책 에이전트(Policy Agent)를 생성하고,
    상기 정책 에이전트를 통해 상기 제1 궤적의 상태에 대한 행동을 획득하고, 상기 제1 궤적의 상태와 획득한 행동을 기반으로 상기 제2 궤적을 생성하고,
    상기 보상 네트워크 생성부는,
    가우시안 분포(Gaussian distribution)를 이용하여, 상기 보상 네트워크의 가중치와 상기 정책 에이전트의 가중치를 초기화하고,
    반복적인 학습 과정을 통해, 상기 보상 네트워크와 상기 정책 에이전트를 생성하는,
    역강화학습 기반 배달 수단 탐지 장치.
  7. 제2항에서,
    상기 보상 네트워크 생성부는,
    중요도 샘플링(importance sampling) 알고리즘을 통해 상기 제2 궤적 중에서 일부를 샘플로 선정하고, 샘플로 선정된 상기 제2 궤적에 대응되는 샘플을 상기 제1 궤적 중에서 획득하며, 샘플로 획득된 상기 제1 궤적과 샘플로 선정된 상기 제2 궤적을 학습 데이터로 하여, 상기 보상 네트워크를 생성하는,
    역강화학습 기반 배달 수단 탐지 장치.
  8. 정적인 현재 상태를 나타내는 상태(state)와 상기 상태에서 동적으로 취한 행동을 나타내는 행동(action)의 쌍으로 이루어지는 제1 궤적(trajectory)과, 상기 제1 궤적의 상태와 상기 제1 궤적의 상태를 기반으로 모방된 행동의 쌍으로 이루어지는 제2 궤적을 학습 데이터로 하여, 입력된 궤적에 대한 보상(reward)을 출력하는 보상 네트워크(Reward Network)를 생성하는 보상 네트워크 생성부; 및
    상기 보상 네트워크를 이용하여 탐지 대상의 궤적으로부터 상기 탐지 대상의 궤적에 대한 보상을 획득하고, 상기 탐지 대상의 궤적에 대한 보상을 기반으로 상기 탐지 대상의 궤적에 대한 배달 수단을 탐지하는 배달 수단 탐지부; 를 포함하고,
    상기 보상 네트워크 생성부는,
    상기 제1 궤적의 상태를 학습 데이터로 하여, 입력된 상태에 대한 행동을 출력하는 정책 에이전트(Policy Agent)를 생성하고,
    상기 정책 에이전트를 통해 상기 제1 궤적의 상태에 대한 행동을 획득하고, 상기 제1 궤적의 상태와 획득한 행동을 기반으로 상기 제2 궤적을 생성하고,
    상기 배달 수단 탐지부는,
    상기 탐지 대상의 궤적에 대한 보상을 정규화하여 이상치 점수(novelty score)를 획득하고, 이상치 점수를 기반으로 획득된 절대 평균 편차(Mean Absolute Deviation, MAD)와 상기 탐지 대상의 궤적에 대한 이상치 점수를 기반으로 상기 탐지 대상의 궤적에 대한 배달 수단을 탐지하는,
    역강화학습 기반 배달 수단 탐지 장치.
  9. 제1항에서,
    상기 상태는,
    위도(latitude), 경도(longitude), 시간차(interval), 거리(distance), 속도(speed), 누적 거리(cumulative distance) 및 누적 시간(cumulative time)에 대한 정보를 포함하고,
    상기 행동은,
    x축 방향의 속력(velocity), y축 방향의 속력 및 가속도(acceleration)에 대한 정보를 포함하며,
    상기 제1 궤적은,
    실제 배달원의 운행 기록으로부터 획득되는 궤적인,
    역강화학습 기반 배달 수단 탐지 장치.
  10. 역강화학습 기반 배달 수단 탐지 장치가 수행하는 배달 수단 탐지 방법으로서,
    정적인 현재 상태를 나타내는 상태(state)와 상기 상태에서 동적으로 취한 행동을 나타내는 행동(action)의 쌍으로 이루어지는 제1 궤적(trajectory)과, 상기 제1 궤적의 상태와 상기 제1 궤적의 상태를 기반으로 모방된 행동의 쌍으로 이루어지는 제2 궤적을 학습 데이터로 하여, 입력된 궤적에 대한 보상(reward)을 출력하는 보상 네트워크(Reward Network)를 생성하는 단계; 및
    상기 보상 네트워크를 이용하여 탐지 대상의 궤적으로부터 상기 탐지 대상의 궤적에 대한 보상을 획득하고, 상기 탐지 대상의 궤적에 대한 보상을 기반으로 상기 탐지 대상의 궤적에 대한 배달 수단을 탐지하는 단계; 를 포함하고,
    상기 보상 네트워크 생성 단계는,
    상기 보상 네트워크를 통해 획득한 상기 제1 궤적에 대한 제1 보상과, 상기 보상 네트워크를 통해 획득한 상기 제2 궤적에 대한 제2 보상을 기반으로, 보상의 분포적 차이를 획득하여 상기 보상 네트워크의 가중치를 업데이트하는 것으로 이루어지는,
    역강화학습 기반 배달 수단 탐지 방법.
  11. 제10항에서,
    상기 보상 네트워크 생성 단계는,
    상기 제1 궤적의 상태를 학습 데이터로 하여, 입력된 상태에 대한 행동을 출력하는 정책 에이전트(Policy Agent)를 생성하고,
    상기 정책 에이전트를 통해 상기 제1 궤적의 상태에 대한 행동을 획득하고, 상기 제1 궤적의 상태와 획득한 행동을 기반으로 상기 제2 궤적을 생성하는 것으로 이루어지는,
    역강화학습 기반 배달 수단 탐지 방법.
  12. 제11항에서,
    상기 보상 네트워크 생성 단계는,
    상기 보상 네트워크를 통해 획득한 상기 제2 궤적에 대한 제2 보상을 기반으로, PPO(Proximal Policy Optimization) 알고리즘을 통해, 상기 정책 에이전트의 가중치를 업데이트하는 것으로 이루어지는,
    역강화학습 기반 배달 수단 탐지 방법.
  13. 삭제
  14. 제11항에서,
    상기 보상 네트워크 생성 단계는,
    중요도 샘플링(importance sampling) 알고리즘을 통해 상기 제2 궤적 중에서 일부를 샘플로 선정하고, 샘플로 선정된 상기 제2 궤적에 대응되는 샘플을 상기 제1 궤적 중에서 획득하며, 샘플로 획득된 상기 제1 궤적과 샘플로 선정된 상기 제2 궤적을 학습 데이터로 하여, 상기 보상 네트워크를 생성하는 것으로 이루어지는,
    역강화학습 기반 배달 수단 탐지 방법.
  15. 제10항, 제11항, 제12항 또는 제14항 중 어느 한 항에 기재된 역강화학습 기반 배달 수단 탐지 방법을 컴퓨터에서 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록 매체에 저장된 컴퓨터 프로그램.
KR1020200107780A 2020-08-26 2020-08-26 역강화학습 기반 배달 수단 탐지 장치 및 방법 KR102492205B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020200107780A KR102492205B1 (ko) 2020-08-26 2020-08-26 역강화학습 기반 배달 수단 탐지 장치 및 방법
US17/756,066 US20220405682A1 (en) 2020-08-26 2020-09-07 Inverse reinforcement learning-based delivery means detection apparatus and method
PCT/KR2020/012019 WO2022045425A1 (ko) 2020-08-26 2020-09-07 역강화학습 기반 배달 수단 탐지 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200107780A KR102492205B1 (ko) 2020-08-26 2020-08-26 역강화학습 기반 배달 수단 탐지 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20220026804A KR20220026804A (ko) 2022-03-07
KR102492205B1 true KR102492205B1 (ko) 2023-01-26

Family

ID=80355260

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200107780A KR102492205B1 (ko) 2020-08-26 2020-08-26 역강화학습 기반 배달 수단 탐지 장치 및 방법

Country Status (3)

Country Link
US (1) US20220405682A1 (ko)
KR (1) KR102492205B1 (ko)
WO (1) WO2022045425A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023520416A (ja) * 2020-03-30 2023-05-17 オラクル・インターナショナル・コーポレイション ドメイン外(ood)検出のための改良された技術
GB2605155B (en) * 2021-03-24 2023-05-17 Sony Interactive Entertainment Inc Image rendering method and apparatus
GB2605158B (en) 2021-03-24 2023-05-17 Sony Interactive Entertainment Inc Image rendering method and apparatus
US11941373B2 (en) * 2021-12-17 2024-03-26 Microsoft Technology Licensing, Llc. Code generation through reinforcement learning using code-quality rewards
WO2024050712A1 (en) * 2022-09-07 2024-03-14 Robert Bosch Gmbh Method and apparatus for guided offline reinforcement learning
CN115831340B (zh) * 2023-02-22 2023-05-02 安徽省立医院(中国科学技术大学附属第一医院) 基于逆强化学习的icu呼吸机与镇静剂管理方法及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101842488B1 (ko) * 2017-07-11 2018-03-27 한국비전기술주식회사 원거리 동적 객체의 검지 및 추적을 기반으로 한 행동패턴인식기법이 적용된 지능형 감지시스템
JP2018126797A (ja) 2017-02-06 2018-08-16 セイコーエプソン株式会社 制御装置、ロボットおよびロボットシステム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100837497B1 (ko) * 2006-09-20 2008-06-12 오티스 엘리베이터 컴파니 승객 운반 시스템을 위한 승객 안내 시스템
US10896383B2 (en) * 2014-08-07 2021-01-19 Okinawa Institute Of Science And Technology School Corporation Direct inverse reinforcement learning with density ratio estimation
US9630318B2 (en) * 2014-10-02 2017-04-25 Brain Corporation Feature detection apparatus and methods for training of robotic navigation
KR102048365B1 (ko) * 2017-12-11 2019-11-25 엘지전자 주식회사 인공지능을 이용한 이동 로봇 및 이동 로봇의 제어방법
WO2019231456A1 (en) * 2018-05-31 2019-12-05 Nissan North America, Inc. Probabilistic object tracking and prediction framework
EP3767541A1 (en) * 2019-07-17 2021-01-20 Robert Bosch GmbH A machine learnable system with conditional normalizing flow
US11775817B2 (en) * 2019-08-23 2023-10-03 Adobe Inc. Reinforcement learning-based techniques for training a natural media agent
KR102111894B1 (ko) * 2019-12-04 2020-05-15 주식회사 블루비즈 행동패턴 이상 징후 판별 시스템 및 이의 제공방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018126797A (ja) 2017-02-06 2018-08-16 セイコーエプソン株式会社 制御装置、ロボットおよびロボットシステム
KR101842488B1 (ko) * 2017-07-11 2018-03-27 한국비전기술주식회사 원거리 동적 객체의 검지 및 추적을 기반으로 한 행동패턴인식기법이 적용된 지능형 감지시스템

Also Published As

Publication number Publication date
WO2022045425A1 (ko) 2022-03-03
US20220405682A1 (en) 2022-12-22
KR20220026804A (ko) 2022-03-07

Similar Documents

Publication Publication Date Title
KR102492205B1 (ko) 역강화학습 기반 배달 수단 탐지 장치 및 방법
Bhavsar et al. Machine learning in transportation data analytics
JP7233807B2 (ja) 人工ニューラル・ネットワークにおける不確実性をシミュレートするためのコンピュータ実施方法、コンピュータ・システム、およびコンピュータ・プログラム
US11816183B2 (en) Methods and systems for mining minority-class data samples for training a neural network
CN108960303B (zh) 一种基于lstm的无人机飞行数据异常检测方法
US9971942B2 (en) Object detection in crowded scenes using context-driven label propagation
Dubois et al. Data-driven predictions of the Lorenz system
US10677686B2 (en) Method and apparatus for autonomous system performance and grading
DK201770681A1 (en) A method for (re-) training a machine learning component
CN114815605A (zh) 自动驾驶测试用例生成方法、装置、电子设备及存储介质
CN112418432A (zh) 分析多个物理对象之间的相互作用
Oliinyk et al. Development of Genetic Methods for Predicting the Incidence of Volumes of Emissions of Pollutants in Air.
CN111967308A (zh) 一种在线路面不平度辨识方法及系统
Williams et al. A computational model of coupled human trust and self-confidence dynamics
Wen et al. Modeling the effects of autonomous vehicles on human driver car-following behaviors using inverse reinforcement learning
Ahmed et al. Convolutional neural network for driving maneuver identification based on inertial measurement unit (IMU) and global positioning system (GPS)
Yoon et al. Who is delivering my food? Detecting food delivery abusers using variational reward inference networks
CN114556331A (zh) 少镜头时间动作定位的新框架
CN115981302A (zh) 车辆跟驰换道行为决策方法、装置及电子设备
Fouladinejad et al. Development of a surrogate-based vehicle dynamic model to reduce computational delays in a driving simulator
Abdelrahman et al. A robust environment-aware driver profiling framework using ensemble supervised learning
Pine et al. Social Network Analysis and Validation of an Agent-Based Model
Schütt et al. Exploring the Range of Possible Outcomes by means of Logical Scenario Analysis and Reduction for Testing Automated Driving Systems
Williams Cognitive Modeling for Human-Automation Interaction: A Computational Model of Human Trust and Self-Confidence
EP3796220A1 (en) Training a generator based on a confidence score provided by a discriminator

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant