KR102079745B1 - 인공지능 에이전트의 훈련 방법, 이에 기반한 사용자 액션의 추천 방법 및 이를 이용한 장치 - Google Patents

인공지능 에이전트의 훈련 방법, 이에 기반한 사용자 액션의 추천 방법 및 이를 이용한 장치 Download PDF

Info

Publication number
KR102079745B1
KR102079745B1 KR1020190082618A KR20190082618A KR102079745B1 KR 102079745 B1 KR102079745 B1 KR 102079745B1 KR 1020190082618 A KR1020190082618 A KR 1020190082618A KR 20190082618 A KR20190082618 A KR 20190082618A KR 102079745 B1 KR102079745 B1 KR 102079745B1
Authority
KR
South Korea
Prior art keywords
user
action
agent
delay compensation
state
Prior art date
Application number
KR1020190082618A
Other languages
English (en)
Inventor
강필상
신강식
전영창
Original Assignee
(주) 시큐레이어
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주) 시큐레이어 filed Critical (주) 시큐레이어
Priority to KR1020190082618A priority Critical patent/KR102079745B1/ko
Application granted granted Critical
Publication of KR102079745B1 publication Critical patent/KR102079745B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

본 개시서에는 인공지능 에이전트를 훈련시키는 방법, 이에 기반하여 사용자 액션을 추천하는 방법 및 이를 이용한 장치가 개시된다. 특히 본 개시서는 강화학습에 필요한 환경, 보상 기준 등이 제공되지 않아 반복적으로 학습을 진행할 수 없는 경우에도 인공지능 에이전트를 훈련시킬 수 있는 강건한(robust) 방법에 관한 것이다.

Description

인공지능 에이전트의 훈련 방법, 이에 기반한 사용자 액션의 추천 방법 및 이를 이용한 장치{METHOD FOR TRAINING ARTIFICIAL AGENT, METHOD FOR RECOMMENDING USER ACTION BASED THEREON, AND APPARATUSES USING THE SAME}
본 개시서에는 인공지능 에이전트를 훈련시키는 방법, 이에 기반하여 사용자 액션을 추천하는 방법 및 이를 이용한 장치가 개시된다. 특히 본 개시서는 강화학습에 필요한 환경, 보상 기준 등이 제공되지 않아 반복적으로 학습을 진행할 수 없는 경우에도 인공지능 에이전트를 훈련시킬 수 있는 강건한(robust) 방법에 관한 것이다.
강화학습은 액션을 취하고 시행착오(trial-and-error)를 겪으며 바람직한 액션에 따른 보상(reward)을 받음으로써 학습을 진행하는 방법이다. 강화학습은 에이전트(agent)가 환경에서 지속적으로 자신의 상태를 추적하는바, 강화학습은 액션의 바람직함과 그렇지 않음을 보상이라는 개념을 통하여 피드백한다. 여기에서 지연 보상(delayed return)이라는 것이 핵심개념이 되는데, 이는 에이전트가 현재 취한 액션의 결과가 다소 먼 미래에 나타나게 되는 때, 즉, 모든 액션 각각에 대한 보상이 즉시 주어지지 않고 모든 액션을 취한 후 마지막 단계에 이르러 그 전체 액션에 대한 보상이 주어지는 경우를 상정한 것이다.
이와 같은 강화학습의 종래 기술을 나타낸 도 1을 참조하면, 강화학습은 환경(120)이 소정의 목표 상태에 도달할 수 있도록 에이전트(110)의 액션에 따른 보상을 수여하는 특징을 가진다. 최초 상태가 환경(120)으로부터 에이전트(110)에 주어지면 이에 대한 액션을 취하고, 그로써 새로운 상태 및 이에 따른 보상이 에이전트(110)에 주어진다. 이는 상기 목표 상태에 도달할 때까지 반복된다.
그런데, 이러한 강화학습이 일반적으로 늘 가능한 것은 아닌데. 예컨대, 웹사이트 서핑(웹사이트를 돌아다니는 일)과 같이 목표가 개인마다 다르거나 목표에 대하여 미리 설정된 조건이 없는 경우를 '강화학습이 곤란한 환경'이라고 지칭할 수 있다. 즉, 액션의 바람직함과 그렇지 않음을 판단할 수 없기 때문에 강화학습이 곤란한 환경이라고 지칭하는 것이다.
예를 들어, 게임의 경우에는 높은 점수를 내어 게임의 종착지까지 가면 되는 목표가 있지만, 사용자가 인터넷 서핑을 하며 눌렀던 웹페이지들에는 옳고 그름이 없어 정답이 없는 경우라 할 수 있는바, 종래의 강화학습을 그대로 적용하기 곤란하다는 한계가 있었다.
즉, 정답, 목표, 목적지가 없는 환경에서는 종래 방식대로 강화학습을 진행할 수 없으므로 이를 '강화학습이 곤란한 환경'이라고 할 수 있는바, 이와 같은 종래의 강화학습 접근법의 한계를 극복하기 위하여, 본 발명자는, 웹사이트 서핑과 같이 목표가 개인마다 다르거나 목표에 대하여 미리 정해진 조건이 없을 때에도 사용자의 만족도 평가 및 환경적인 요인(접속 지속 시간, 방문 횟수 등)을 통해 강화학습에 사용할 지연 보상을 줄 수 있는 방안을 제안하고, 이로써 강화학습이 곤란한 환경에서도 강화학습을 진행할 수 있는 환경을 제공하고자 한다.
본 발명은 종래의 강화학습에 있어서 보상 정책(reward policy)이 정해지지 않은 경우에도 사용자의 액션에 의한 평가를 가능하게 함으로써 강화학습이 곤란한 환경에서도 효율적으로 인공지능 에이전트를 훈련시키는 것을 목적으로 한다.
구체적으로 본 발명은 단순한 종래의 통계 기반의 추천(예컨대, 웹사이트 추천)의 한계를 극복하기 위하여, 인공지능을 이용하여 사용자가 실제로 만족하는 액션을 취하여 그 결과에 도달할 수 있도록 추천하는 것을 목적으로 한다.
상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한 본 발명의 특징적인 구성은 하기와 같다.
본 발명의 일 태양(aspect)에 따르면, 인공지능 에이전트(artificial intelligent agent)를 훈련시키는 컴퓨팅 장치 상에서 수행되는 방법이 제공되는바, 그 방법은, (a) 사용자에게 주어진 환경에서 상기 사용자의 액션에 의하여 촉발되는 상태의 변화(state transition)에 따라 도달 가능한 상태들(reachable states)의 계층 구조를 획득하는 단계; (b) 상기 사용자에게 현재 주어진 상태에서 상기 계층 구조에 포함된 개별 상태들에 도달할 수 있는 모든 경로를 생성하는 단계; (c) (i) 상기 사용자 액션에 의한 상기 상태 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 기초하여, 상기 모든 경로 중 상기 사용자 액션에 의하여 선택된 경로에 대한 제1 지연 보상 및 상기 모든 경로 중 상기 사용자 액션에 의하여 선택되지 않은 경로에 대한 제2 지연 보상을 상기 인공지능 에이전트에 부여할 지연 보상으로서 산출하는 단계; 및 (d) 산출된 상기 지연 보상을 이용하여 상기 인공지능 에이전트를 훈련시키는 단계로서, 상기 훈련은 상기 인공지능 에이전트로 하여금 입력된 현재의 상태에 대하여 출력되는 추천 액션이 상기 지연 보상에 따른 편향성을 가지게 하는 보상-기반(reward-based) 기계학습인, 단계를 포함한다.
본 발명의 다른 태양에 따르면, 사용자가 취할 액션을 컴퓨팅 장치가 인공지능 에이전트를 통하여 추천하는 방법이 제공되는바, 그 방법은, (a) 사용자에게 주어진 환경에서 상기 사용자의 액션에 의하여 촉발되는 상태의 변화(state transition)에 따라 도달 가능한 상태들(reachable states)의 계층 구조가 획득된 후 상기 사용자에게 현재 주어진 상태에서 상기 계층 구조에 포함된 개별 상태들에 도달할 수 있는 모든 경로가 생성되고, (i) 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 기초하여, 상기 모든 경로 중 상기 사용자 액션에 의하여 선택된 경로에 대한 제1 지연 보상 및 상기 모든 경로 중 상기 사용자 액션에 의하여 선택되지 않은 경로에 대한 제2 지연 보상을 상기 인공지능 에이전트에 부여할 지연 보상으로서 산출되어, 산출된 상기 지연 보상을 이용하여 상기 인공지능 에이전트가 훈련된 상태에서, 상기 사용자에게 주어진 현재 상태를 획득하는 단계; (b) 획득된 상기 현재 상태를 상기 인공지능 에이전트에 입력하여 상기 인공지능 에이전트를 통하여 상기 현재 상태에 대하여 상기 사용자에게 추천되는 액션인 추천 액션을 적어도 하나 포함하는 추천 시나리오를 산출하는 단계; 및 (c) 상기 추천 시나리오를 상기 사용자에게 제공하는 단계를 포함하고, 상기 훈련은 상기 인공지능 에이전트로 하여금 주어진 현재의 상태에 대하여 출력되는 추천 액션이 상기 지연 보상에 따른 편향성을 가지게 하는 보상-기반(reward-based) 기계학습이다.
본 발명의 다른 일 태양에 따르면, 본 발명에 따른 방법을 수행하도록 구현된 명령어(instructions)를 포함하는, 기계 판독 가능한 비일시적 기록 매체에 저장된, 컴퓨터 프로그램도 제공된다.
본 발명의 또 다른 태양에 따르면, 인공지능 에이전트(artificial intelligent agent)를 훈련시키는 컴퓨팅 장치가 제공되는바, 그 장치는, 사용자에게 주어진 환경 및 상기 사용자에게 현재 주어진 상태를 획득하는 통신부; 및 상기 사용자의 액션에 의하여 촉발되는 상태의 변화(state transition)에 따라 도달 가능한 상태들(reachable states)의 계층 구조를 획득하는 제1 프로세스, 상기 사용자에게 현재 주어진 상태에서 상기 계층 구조에 포함된 개별 상태들에 도달할 수 있는 모든 경로를 생성하는 제2 프로세스; (i) 상기 사용자 액션에 의한 상기 상태 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 기초하여, 상기 모든 경로 중 상기 사용자 액션에 의하여 선택된 경로에 대한 제1 지연 보상 및 상기 모든 경로 중 상기 사용자 액션에 의하여 선택되지 않은 경로에 대한 제2 지연 보상을 상기 인공지능 에이전트에 부여할 지연 보상으로서 산출하는 제3 프로세스; 및 산출된 상기 지연 보상을 이용하여 상기 인공지능 에이전트를 훈련시키는 프로세스로서, 상기 훈련은 상기 인공지능 에이전트로 하여금 입력된 현재의 상태에 대하여 출력되는 추천 액션이 상기 지연 보상에 따른 편향성을 가지게 하는 보상-기반(reward-based) 기계학습인, 제4 프로세스를 수행하는 프로세서를 포함한다.
본 발명의 또 다른 일 태양에 따르면, 사용자가 취할 액션을 인공지능 에이전트를 통하여 추천하는 컴퓨팅 장치가 제공되는바, 그 장치는, 사용자에게 주어진 환경에서 상기 사용자의 액션에 의하여 촉발되는 상태의 변화(state transition)에 따라 도달 가능한 상태들(reachable states)의 계층 구조가 획득된 후 상기 사용자에게 현재 주어진 상태에서 상기 계층 구조에 포함된 개별 상태들에 도달할 수 있는 모든 경로가 생성되고, (i) 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 기초하여, 상기 모든 경로 중 상기 사용자 액션에 의하여 선택된 경로에 대한 제1 지연 보상 및 상기 모든 경로 중 상기 사용자 액션에 의하여 선택되지 않은 경로에 대한 제2 지연 보상을 상기 인공지능 에이전트에 부여할 지연 보상으로서 산출되어, 산출된 상기 지연 보상을 이용하여 상기 인공지능 에이전트가 훈련된 상태에서, 상기 사용자에게 주어진 현재 상태를 획득하는 통신부; 및 획득된 상기 현재 상태를 상기 인공지능 에이전트에 입력하여 상기 인공지능 에이전트를 통하여 상기 현재 상태에 대하여 상기 사용자에게 추천되는 액션인 추천 액션을 적어도 하나 포함하는 추천 시나리오를 산출하는 제1 프로세스; 및 상기 추천 시나리오를 상기 사용자에게 제공하는 제2 프로세스를 수행하는 프로세서를 포함하고, 상기 훈련은 상기 인공지능 에이전트로 하여금 주어진 현재의 상태에 대하여 출력되는 추천 액션이 상기 지연 보상에 따른 편향성을 가지게 하는 보상-기반(reward-based) 기계학습이다.
본 개시서의 예시적인 실시 예에 따르면, 강화학습이 곤란한 환경에서도 효율적으로 인공지능 에이전트를 훈련시킬 수 있는 효과가 있다.
특히, 예시적인 실시 예에 따르면, 사용자의 만족도 등 환경적인 요인 등을 활용함으로써 인공지능 에이전트를 효율적으로 훈련시킬 수 있다.
본 발명의 실시 예의 설명에 이용되기 위하여 첨부된 아래 도면들은 본 발명의 실시 예들 중 단지 일부일 뿐이며, 통상의 기술자에게 있어서는 발명적인 노력 없이 이 도면들에 기초하여 다른 도면들이 얻어질 수 있다.
도 1은 종래 강화 학습에 기반한 인공지능 에이전트의 훈련 방법을 개념적으로 설명하기 위한 도면이다.
도 2는 본 개시서의 일 실시 예에 따라 인공지능 에이전트를 훈련시키고 이에 기반하여 사용자에게 액션을 추천하는 방법(이하 "인공지능 에이전트 훈련 방법 및 이에 기반한 사용자 액션 추천 방법 "이라 함)을 수행하는 컴퓨팅 장치의 예시적 구성을 개략적으로 도시한 개념도이다.
도 3은 본 개시서의 일 실시 예에 따른 인공지능 에이전트 훈련 및 이에 기반한 사용자 액션 추천 방법에 이용되는 컴퓨팅 장치의 하드웨어 또는 소프트웨어 구성요소를 도시한 예시적 블록도이다.
도 4는 본 개시서에 따른 인공지능 에이전트 훈련 방법이 적용될 수 있는 환경의 일 예시로서 웹 서핑의 대상이 되는 웹페이지들의 계층 구조를 모식적으로 나타낸 개념도이다.
도 5a는 본 개시서의 일 실시 예에 따른 인공지능 에이전트 훈련 방법 및 이에 기반한 사용자 액션 추천 방법을 예시적으로 나타낸 흐름도이다. 도 5b는 도 5a에 나타난 일부 단계들을 본 개시서의 일 실시 예에 따라 더 구체적으로 예시한 흐름도이다. 도 5c는 도 5a에 나타난 다른 일부 단계들을 본 개시서의 일 실시 예에 따라 더 구체적으로 예시한 흐름도이다.
도 6은 본 개시서에 따른 인공지능 에이전트 훈련 방법에 적용될 수 있는 보상 추정에 관한 일 예시를 나타낸 개념도이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명의 목적들, 기술적 해법들 및 장점들을 분명하게 하기 위하여 본 발명이 실시될 수 있는 특정 실시 예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시 예는 통상의 기술자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다.
본 발명의 상세한 설명 및 청구항들에 걸쳐 '학습' 혹은 '러닝'은 절차에 따른 컴퓨팅(computing)을 통하여 기계학습(machine learning)을 수행함을 일컫는 용어인바, 인간의 교육 활동과 같은 정신적 작용을 지칭하도록 의도된 것이 아니며, 훈련(training)은 기계학습에 관하여 일반적으로 받아들여지는 의미로 쓰인 것이다.
특히, 본 발명의 상세한 설명 및 청구항들에 걸쳐 이용된 "강화 학습(reinforcement learning)"이라는 용어는 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방식을 지칭하며, 본 명세서에서는 보상-기반 기계 학습(reward-based machine learning)이라고도 지칭하였다.
또한, 본 발명의 상세한 설명 및 청구항들에 걸쳐, '포함하다'라는 단어 및 그 변형은 다른 기술적 특징들, 부가물들, 구성요소들 또는 단계들을 제외하는 것으로 의도된 것이 아니다. 또한, ‘하나’ 또는 ‘한’은 하나 이상의 의미로 쓰인 것이며, ‘또 다른’은 적어도 두 번째 이상으로 한정된다.
통상의 기술자에게 본 발명의 다른 목적들, 장점들 및 특성들이 일부는 본 설명서로부터, 그리고 일부는 본 발명의 실시로부터 드러날 것이다. 아래의 예시 및 도면은 실례로서 제공되며, 본 발명을 한정하는 것으로 의도된 것이 아니다. 따라서, 특정 구조나 기능에 관하여 본 명세서에 개시된 상세 사항들은 한정하는 의미로 해석되어서는 아니되고, 단지 통상의 기술자가 실질적으로 적합한 임의의 상세 구조들로써 본 발명을 다양하게 실시하도록 지침을 제공하는 대표적인 기초 자료로 해석되어야 할 것이다.
더욱이 본 발명은 본 명세서에 표시된 실시 예들의 모든 가능한 조합들을 망라한다. 본 발명의 다양한 실시 예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시 예에 관련하여 본 발명의 사상 및 범위를 벗어나지 않으면서 다른 실시 예로 구현될 수 있다. 또한, 각각의 개시된 실시 예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 사상 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
본 명세서에서 달리 표시되거나 분명히 문맥에 모순되지 않는 한, 단수로 지칭된 항목은, 그 문맥에서 달리 요구되지 않는 한, 복수의 것을 아우른다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
이하, 통상의 기술자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시 예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 2는 본 개시서의 일 실시 예에 따른 인공지능 에이전트 훈련 방법 및 이에 기반한 사용자 액션 추천 방법을 수행하는 컴퓨팅 장치의 예시적 구성을 개략적으로 도시한 개념도이다.
도 2를 참조하면, 본 발명의 일 실시 예에 따른 컴퓨팅 장치(200)는, 통신부(210) 및 프로세서(220)를 포함하며, 상기 통신부(210)를 통하여 외부 컴퓨팅 장치(미도시)와 직간접적으로 통신할 수 있다.
구체적으로, 상기 컴퓨팅 장치(200)는, 전형적인 컴퓨터 하드웨어(예컨대, 컴퓨터 프로세서, 메모리, 스토리지, 입력 장치 및 출력 장치, 기타 기존의 컴퓨팅 장치의 구성요소들을 포함할 수 있는 장치; 라우터, 스위치 등과 같은 전자 통신 장치; 네트워크 부착 스토리지(NAS; network-attached storage) 및 스토리지 영역 네트워크(SAN; storage area network)와 같은 전자 정보 스토리지 시스템)와 컴퓨터 소프트웨어(즉, 컴퓨팅 장치로 하여금 특정의 방식으로 기능하게 하는 명령어들)의 조합을 이용하여 원하는 시스템 성능을 달성하는 것일 수 있다.
이와 같은 컴퓨팅 장치의 통신부(210)는 연동되는 타 컴퓨팅 장치와 요청과 응답을 송수신할 수 있는바, 일 예시로서 그러한 요청과 응답은 동일한 TCP(transmission control protocol) 세션(session)에 의하여 이루어질 수 있지만, 이에 한정되지는 않는바, 예컨대 UDP(user datagram protocol) 데이터그램(datagram)으로서 송수신될 수도 있을 것이다. 덧붙여, 넓은 의미에서 상기 통신부(210)는 명령어 또는 지시 등을 전달받기 위한 키보드, 마우스, 기타 외부 입력장치, 프린터, 디스플레이, 기타 외부 출력장치를 포함할 수 있다.
또한, 컴퓨팅 장치의 프로세서(220)는 MPU(micro processing unit), CPU(central processing unit), GPU(graphics processing unit), NPU(neural processing unit) 또는 TPU(tensor processing unit), 캐시 메모리(cache memory), 데이터 버스(data bus) 등의 하드웨어 구성을 포함할 수 있다. 또한, 운영체제, 특정 목적을 수행하는 애플리케이션의 소프트웨어 구성을 더 포함할 수도 있다.
도 3은 본 개시서의 일 실시 예에 따른 인공지능 에이전트 훈련 및 이에 기반한 사용자 액션 추천 방법에 이용되는 컴퓨팅 장치의 하드웨어 또는 소프트웨어 구성요소를 도시한 예시적 블록도이다.
먼저, 도 3을 참조하여 본 개시서에 따른 방법 및 장치의 구성을 간략히 개관하면, 컴퓨팅 장치(200)는 그 구성요소로서 사용자 정보 획득 모듈(310)을 포함할 수 있다. 이 사용자 정보 획득 모듈(310)은 본 개시서에 따른 방법이 적용되는 현재의 개별 사용자를 식별하도록 구성되는바, 도 3에 도시된 개별 모듈들은, 예컨대, 컴퓨팅 장치(200)에 포함된 통신부(210)나 프로세서(220), 또는 상기 통신부(210) 및 프로세서(220)의 연동에 의하여 구현될 수 있음은 통상의 기술자가 이해할 수 있을 것이다.
보상 기반 학습 모듈(320)은 본 개시서에 있어서 인공지능 에이전트를 훈련시키는 모듈로서, 추후 설명하는 보상 추정 모듈(350)로부터 획득된 지연 보상들, (i) 상기 식별된 개별 사용자 및 그 개별 사용자를 포함하는 전체 사용자들의 지금까지 취했던 액션들 또는 (ii) 상기 식별된 개별 사용자의 지금까지 취했던 액션들을 반영하여 상기 인공지능 에이전트로 하여금 사용자가 선호하는 액션을 추천하도록 상기 인공지능 에이전트를 훈련시키는 기능을 수행한다. 보상 기반 학습 모듈(320)에 의하여 훈련되는 인공지능 에이전트는, 예컨대, 심층 신경망으로서 구성될 수 있는데, 이 심층 신경망은 다층의 인공 신경망으로 이루어진 구조에서 다량의 데이터를 통하여 주어진 상태에서 높은 보상을 얻는 액션을 자동으로 학습할 수 있는바, 그 훈련은 주로 목적 함수에 대한 손실 함수를 최소화하는 방식으로 진행된다.
사용자 액션 추천 모듈(330)은 보상 기반 학습 모듈(320)에 의하여 훈련된 인공지능 에이전트를 통하여 개별 사용자에게 주어진 환경의 현재 상태에 대하여 개별 사용자가 선호할 만한 목표에 도달할 수 있는 액션을 추천하는 기능을 수행한다.
예를 들어, 본 개시서에 따른 인공지능 에이전트 훈련 방법이 적용될 수 있는 환경의 일 예시로서 웹 서핑에 의하여 도달 가능한 웹페이지들의 계층 구조를 모식적으로 나타낸 도 4를 참조하면, 그러한 환경은 도 4에 예시된 바와 같은 웹 환경일 수 있으며, 사용자가 취할 액션은 현재 보고 있는 웹페이지에 표시된 하이퍼링크(hyperlink)를 통하여 다른 웹페이지로 넘어가는 URL 요청(URL request)일 수 있다(예컨대, 그러한 URL 요청은 하이퍼링크에 대한 클릭에 의할 수 있다). 즉, 사용자가 취할 만한 액션들이 도 4의 식별번호 410으로 표시된 웹페이지에 도달하기 위한 계층간 이동이라고 할 때, 보상 기반 학습 모듈(320)은, 현재 보고 있는 웹사이트에서 식별번호 410에 도달하기 위한 URL 요청의 액션을 추천하도록 인공지능 에이전트를 훈련시키고, 사용자 액션 추천 모듈(330)은 컴퓨팅 장치(200)에 연동된 소정의 출력 장치(디스플레이 등을 포함)를 통하여, 예컨대, 상기 출력 장치에 제공된 소정의 사용자 인터페이스를 통하여 사용자가 인지할 수 있는 형태로 상기 추천된 액션의 정보를 제공할 수 있다.
이때, 개별 사용자는 추천된 액션을 참고하거나 이와 무관하게 액션을 취할 수 있고, 사용자 액션 획득 모듈(340)에 의하여 획득된 그 사용자의 액션에 대한 지연 보상은 보상 추정 모듈(350)에 의하여 산출될 수 있다. 사용자의 액션과 연관된 지연 보상은 그 액션과 함께 사용자 액션 저장 모듈(360)에 의하여 보유됨으로써 보상 기반 학습 모듈(320)이 상기 인공지능 에이전트를 훈련시키기 위한 기초 자료로서 그 액션 및 연관된 지연 보상을 이용할 수 있다.
여기에서 개별 사용자라고 함은, 본 개시서에 따른 방법을 수행하는 컴퓨팅 장치(200)의 사용자, 관리자 등을 포함하나, 이 이외에도 환경의 상태에 따른 적절한 추천을 요하는 주체라면 어느 주체라도 포함되는 것으로 이해되어야 할 것이다.
도 3 및 도 4를 참조하여 개략적으로 설명된 각각의 구성요소들의 구체적인 기능 및 효과에 관하여는 도 5a, 및 도 6을 참조하여 상세히 후술하기로 한다. 도 3에 나타난 구성요소들은 설명의 편의상 하나의 컴퓨팅 장치에서 실현되는 것으로 예시되었으나, 본 발명의 방법을 수행하는 컴퓨팅 장치(200)는 복수개의 장치들이 서로 연동된 것으로 구성될 수도 있다는 점이 이해될 것이다. 즉, 본 발명에 따른 방법의 각 단계는, 하나의 컴퓨팅 장치가 직접 수행하거나 상기 하나의 컴퓨팅 장치가 상기 하나의 컴퓨팅 장치에 연동되는 타 컴퓨팅 장치로 하여금 수행하도록 지원함으로써 수행될 수 있다.
도 5a는 본 개시서의 일 실시 예에 따른 인공지능 에이전트 훈련 방법 및 이에 기반한 사용자 액션 추천 방법을 예시적으로 나타낸 흐름도이다.
도 5a를 참조하면, 본 개시서에 따른 인공지능 에이전트 훈련 방법은, 우선, 컴퓨팅 장치(200)에 의하여 구현되는 사용자 정보 획득 모듈(310)이, 사용자에게 현재 주어진 환경을 식별하고, 컴퓨팅 장치(200)에 의하여 구현되는 보상 기반 학습 모듈(320)이, 상기 사용자의 액션에 의하여 촉발될 수 있는 상태의 변화에 따라 도달 가능한 상태들 전체의 계층 구조를 획득하는 단계(S100)를 포함한다.
예를 들어, 주어진 환경이 웹 환경이면, 사용자의 URL 요청(request) 액션에 의하여 촉발될 수 있는 상태의 변화인 현재 표시되는 웹페이지의 전환에 따라 도달 가능한 상태들, 즉 하이퍼링크를 통한 웹페이지 간 이동에 따라 도달할 수 있는 웹사이트 전체의 웹페이지들의 연결 관계를 계층 구조로서 획득할 수 있을 것이다.
또한, 사용자 정보 획득 모듈(310)을 구현하는 컴퓨팅 장치(200)는, 사용자가 웹 환경 등을 이용하는 데 쓰이는 컴퓨팅 장치(200'; 미도시)와 상이한 장치일 수도 있는바, 예를 들어, 다수의 사용자들 각각이 이용하는 컴퓨팅 장치들로부터 사용자 로그(예컨대, 웹 사용자 로그)의 형태로 수집, 획득될 수도 있다.
웹 환경의 예시에서 사용자 로그는 사용자의 개인정보, 웹 서비스를 제공하는 시스템 상의 그룹(group)에 관한 정보를 포함할 수 있고, 사용자의 요청 정보는 사용자가 요청하는 페이지와 메뉴, 실질적인 요청 정보인 파라미터를 포함할 수 있다.
도 5b는 도 5a에 나타난 단계(S100)에 관한 일 실시 예를 더 구체적으로 예시한 흐름도이다.
도 5b를 참조하면, 단계(S100)는 사용자로부터 액션의 정보를 획득하는 단계(S120)를 포함할 수 있다. 앞서 예시된 바와 같이, 그러한 액션의 정보는 사용자 로그의 형태로 수집될 수 있다. 그러면, 단계(S100)는 여러 사용자들로부터 획득된 액션을 유사도에 따라 분류하는 단계(S140)를 더 포함할 수 있다.
구체적으로, 단계(S140)에서 컴퓨팅 장치(200)는, 사용자 로그를 이용하여 클러스터링(clustering) 혹은 분류(classification)를 진행할 수 있는바, 여기에서 클러스터링 및 분류는 통계 혹은 기계학습 분야에서 일반적으로 이용되는 의미로 쓰인 것이다. 사용자 로그의 데이터 유사도에 따라 분류될 수 있을 것이며, 분류의 결과로 도출된 키워드는 데이터 과학(data-science) 및 데이터 분석을 통하여 유형별로 다시 분류하는 것도 가능한바, 이는 통상의 기술자에게 알려진 바와 같다.
단계(S100)는 클러스터링 또는 분류가 수행된 후, 유사도에 따라 분류된 여러 액션들에 의하여 촉발되는 상태의 변화에 따라 도달 가능한 상태들의 계층 구조를 획득하는 단계(S160)를 더 포함할 수 있다.
다음으로, 본 개시서에 따른 인공지능 에이전트 훈련 방법은, 컴퓨팅 장치(200)에 의하여 구현되는 보상 기반 학습 모듈(320)이, 상기 사용자에게 현재 주어진 상태에서 상기 계층 구조에 포함된 개별 상태들에 도달할 수 있는 모든 경로를 생성하는 단계(S200)를 더 포함한다.
앞서 예시한 바와 같은 웹 환경에서, 현재 주어진 상태는 사용자가 보고 있는 현재 웹페이지일 수 있으며, 상기 개별 상태들은 URL 요청 액션에 따라 현재 웹페이지로부터 도달할 수 있는 웹페이지가 표시된 상태들일 수 있다. 따라서 상기 모든 경로는 현재 웹페이지로부터 개별 상태들에 도달하는 URL 요청 액션들의 가능한 모든 시퀀스(sequence, 순서)일 수 있다.
계속해서 도 5a를 참조하면, 본 개시서에 따른 인공지능 에이전트 훈련 방법은, 컴퓨팅 장치(200)에 의하여 구현되는 보상 기반 학습 모듈(320)이, (i) 상기 사용자 액션에 의한 상기 상태 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 기초하여, 상기 모든 경로 중 상기 사용자 액션에 의하여 선택된 경로에 대한 제1 지연 보상 및 상기 모든 경로 중 상기 사용자 액션에 의하여 선택되지 않은 경로에 대한 제2 지연 보상을 상기 인공지능 에이전트에 부여할 지연 보상으로서 산출하는 단계를 더 포함한다(S400).
여기에서 사용자 액션에 의한 상태 변화라 함은, 예컨대, 웹브라우저 상의 사용자의 클릭 행위에 의하여 현재 보여지는 웹페이지가 다른 웹페이지로 전환되는 것일 수 있다. 또한, 챗봇(chat-bot)에 있어서 특정 주제의 질문과 답변을 주고받는 단계로부터 다음 단계로 이행하는 것도 그 한 예시가 될 수 있다.
또한, 여기에서 개별 상태들에서의 체류를 유지한다는 것은 사용자가 액션을 취하여도 다른 개별 상태로 변화하지 않거나 일부 개별 상태들 내에서 순환적으로 머문다는 것을 의미한다. 예를 들어, 어느 웹페이지에 나타난 검색 창에 검색어를 입력하는 액션, 그리고 이를 통하여 검색을 시도하는 액션에 의하여는 그 검색 창이 나타난 개별 상태로부터 성질이 상이한 다른 개별 상태로 변화하지 않는바, 이는 그 검색 창이 나타난 개별 상태에서의 체류를 유지하는 것으로 볼 수 있다. 예를 들어, 어느 웹페이지에 나타난 체크박스(checkbox)들에 체크 표시(v 표시)를 하는 액션도 그러한 체류를 유지하는 액션의 한 예시일 수 있다. 이와 같은 액션의 수량은 그 액션의 횟수 또는 빈도를 포함할 수 있다. 상기 체류를 유지하는 액션의 수량은 후술하는 사용자의 평가에 대용할 수 있는바, 예를 들어 액션의 수량 1회마다 비례하도록 정해진 소정의 평가 점수 k를 가산할 수 있다.
또한, 여기에서 사용자의 평가는, 상기 환경의 특정 상태에 관하여 상기 사용자가 평가한 만족도, 상기 특정 상태를 직접 촉발하거나 이에 근접해가는 액션의 반복 횟수를 포함하는 지표들 중에서 선택된 하나 이상에 기초하여 산출된 값일 수 있으며, 그러한 사용자의 평가는 전술한 소정의 사용자 인터페이스를 통하여 획득될 수 있다. 사용자의 평가는 이에 대응되는 액션과 함께 컴퓨팅 장치(200)에 의하여 구현되는 사용자 액션 저장 모듈(360)에 저장되고, 또 반대로 이로부터 획득되어 보상 기반 학습 모듈(320)의 인공지능 에이전트에 대한 훈련에 이용될 수 있다.
구체적으로, 사용자의 평가는, 소정의 척도 내에서 사용자에 의하여 선택된 수치일 수 있다. 예를 들어, 웹페이지 또는 그 웹페이지의 팝업 창을 통하여 사용자에 대하여 '본 사이트에 대해 어느 정도 만족하십니까(0~10점, 0점: 전혀 만족하지 않음, 10점: 가장 만족스러움)?'과 같은 질문을 표시하고 0점 내지 10점 중의 어느 점수를 입력받아 이를 사용자의 평가로 활용할 수 있을 것이며, 혹은 자연어로 된 사이트에 대한 코멘트를 입력받고 이에 대한 호의도 점수를 산출하여 이를 사용자의 평가로 활용할 수도 있을 것이다.
이처럼 이 단계(S400)에서는, 액션에 의한 상태 변화(즉, 상태 s1->상태 s2로의 변화 T)를 그 상태에서의 체류를 유지하는 액션의 수량(x) 또는 사용자로부터 입력받은 사용자의 평가(y)와 대응시켜 그 쌍(T: s1->s2, k*x or y)을 보상-기반 학습의 데이터로 활용할 수 있다.
도 5c는 단계(S400)에 관한 일 실시 예를 더 구체적으로 예시한 흐름도이며, 도 6은 본 개시서에 따른 인공지능 에이전트 훈련 방법에 적용될 수 있는 보상 추정에 관한 일 예시를 나타낸 개념도이다.
도 6을 참조하면, 구체적으로 단계(S400)는, (i) 상기 사용자 액션에 의한 상기 상태 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 의하여 상기 개별 상태들에 대한 최종 보상을 산출하는 단계(S400-1; 미도시)를 포함할 수 있다.
도 5c를 참조하면, 단계(S400-1)에서는, 상기 사용자의 평가를 입력받도록 구성된 사용자 인터페이스 요소를 제공하고(S430), (i) 상기 사용자 인터페이스 요소에 의하여 상기 평가가 입력되면(S440) 상기 최종 보상이 상기 평가에 의하여 산출(S460a)되고, (ii) 상기 사용자 인터페이스 요소에 의한 상기 평가의 입력이 없으면(S450), 상기 사용자가 상기 개별 상태들에 도달하기 위하여 동일한 경로를 선택했던 과거의 기록이 있는지 여부를 조회하여(S450) 상기 과거의 기록이 있으면 상기 과거의 기록에 따른 이전 훈련에 이용되었던 최종 보상 중 최대값과 같거나 그보다 낮은 값이 상기 최종 보상으로서 산출(S460b)되며, (iii) 상기 과거의 기록이 없으면, 미리 정해진 최대 점수가 상기 최종 보상으로서 산출(S460c)될 수 있다. 여기에서 상기 사용자 인터페이스 요소에 의한 상기 평가의 입력이 없음에는 사용자에 의한 건너뛰기(skip)의 액션도 포함될 수 있다.
또한, 단계(S400)는, 단계(S400-1) 후에 상기 보상-기반 기계학습의 반복 횟수 N에 대하여, N/2 회 이상은 상기 사용자의 액션에 의하여 선택된 경로에 부여할 제1 지연 보상으로서 상기 최종 보상과 같거나 그보다 더 높은 값을 산출하는 프로세스, 및 상기 N에서 상기 N/2 회 이상을 뺀 나머지 횟수는 상기 사용자의 액션에 의하여 선택되지 않은 경로에 부여할 제2 지연 보상으로서 상기 최종 보상의 절반 또는 그보다 낮은 값을 산출하는 프로세스를 수행하는 단계(S400-2; 미도시)를 더 포함한다.
예컨대, 인공지능 에이전트를 훈련시키는 기계학습의 전체 반복 횟수가 N회라고 할 때, 통계적으로 N/2 회 이상은 웹 사용자의 URL 요청(URL request)들에 따라 도달한 개별 상태인 최종 URL에 대한 지연 보상을 제1 지연 보상으로 선택하고, 이를 제외한 나머지 N/2 미만의 횟수는 사용자의 URL 요청들에 의하여 실제 도달되지 않은 URL에 대한 지연 보상을 그 URL(개별 상태)에 도달하는 URL 요청 액션들의 가능한 랜덤 시퀀스에 대한 제2 지연 보상으로 선택할 수 있다.
이는 종래의 강화학습에 이용되는 모든 보상 값은 인공지능 에이전트(AI agent)에 의하여 시도된 모든 액션에 근거하여 얻어지는 값인데 비해, 본 개시서에서와 같이 보상 정책이 정해져 있지 않아 강화학습이 곤란한 경우에는 인공지능 에이전트에 의하여 시도되는 액션에 의하여 보상 값이 얻어지지 않고, 사용자의 상황으로부터 추정되는 것이므로, 그 보상 값의 데이터 개수가 충분한 기계학습이 이루어지기에 부족하기 때문이다.
요컨대, 인공지능 에이전트의 액션 및 미리 정해진 보상 정책에 따라 주어지는 보상의 쌍은 얼마든지 자동으로 생성해낼 수 있어 모자람이 없는데 비하여 사용자의 액션 및 이에 대하여 산출되는 실제 보상의 쌍은 부족하므로, 사용자로부터 산출된 제1 지연 보상을 이용하여 사용자의 URL 요청들에 의하여 실제 도달되지 않은 URL에 대한 지연 보상 값도 추정할 필요가 있다.
여기에서 사용자에 의하여 실제로 도달된 최종 URL에 관한 제1 지연 보상은, (i) 상기 사용자 액션에 의한 상기 상태 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 의하여 산출된 최종 보상(final reward)과 같거나 이보다 더 높은 값으로 정할 수 있으며, 제2 지연 보상은, 그 최종 보상의 절반 또는 이보다 더 낮은 값으로 정해질 수 있다. 이로써 보상-기반 기계학습에 있어서 제2 지연 보상이 사용자에 의한 최종 보상과 같거나 그보다 높으면 기계학습이 진행된 정도를 나타내는 손실 함수가 수렴하지 않고 발산하는 문제(즉, 기계학습이 진행되지 않는 문제)를 해소할 수 있다.
계속해서 도 5a를 참조하면, 본 개시서에 따른 인공지능 에이전트 훈련 방법은, 컴퓨팅 장치(200)에 의하여 구현되는 보상 기반 학습 모듈(320)이, 산출된 상기 지연 보상을 이용하여 상기 인공지능 에이전트를 훈련시키는 단계(S500)를 더 포함하는데, 여기에서 훈련은 상기 인공지능 에이전트로 하여금 입력된 현재의 상태에 대하여 출력되는 추천 액션이 상기 지연 보상에 따른 편향성을 가지게 하는 보상-기반 기계학습이다.
이 단계(S500)의 훈련에 있어 인간인 사용자들에 의하여 입력된 액션 및 이로 인한 환경의 상태 변화에 대한 사용자들의 추정된 평가를 이용한다는 특징은 종래의 강화학습에 있어 액션을 취하는 것이 인공지능 에이전트이고, 이에 대한 평가는 정해진 보상 정책에 따른다는 점과 차별화된다.
전술한 단계들(S200 내지 S500)는 소정의 훈련 종료 조건이 충족될 때까지 반복될 수 있다(S600). 예를 들어, 이는 미리 지정된 횟수(예컨대, N = 10000 등)만큼 반복하는 조건일 수도 있고, 인공신경망이 훈련된 척도를 나타내는 손실 함수가 소정의 문턱값 아래로 낮아지는 조건일 수도 있는바, 이와 같은 반복 수행의 종료 조건은 통상의 기술자에게 용이하게 이해될 수 있어 이를 더 상세히 설명하는 것이 본 발명의 요지를 흐릴 수 있으므로 생략하기로 한다.
다음으로, 전술한 바와 같이 훈련된 인공지능 에이전트를 이용하여 사용자가 취할 액션을 추천하는 방법(인공지능 에이전트 기반 사용자 액션 추천 방법)에 대하여 설명한다. 따라서 본 개시서에 따른 인공지능 에이전트 기반 사용자 액션 추천 방법은 본 개시서에 따른 인공지능 에이전트 훈련 방법의 모든 단계들을 포함할 수 있다.
본 개시서에 따른 인공지능 에이전트 기반 사용자 액션 추천 방법은, 전술한 단계(S100 내지 S500)에 따라 훈련된 인공지능이 훈련된 상태에서, 컴퓨팅 장치(200)에 의하여 구현되는 사용자 정보 획득 모듈(310)이, 상기 사용자에게 주어진 현재 상태를 획득하는 단계(S220; 미도시)를 포함한다.
그러면, 상기 인공지능 에이전트 기반 사용자 액션 추천 방법에서, 컴퓨팅 장치(200)에 의하여 구현되는 사용자 액션 추천 모듈(330)은, 획득된 상기 현재 상태를 상기 인공지능 에이전트에 입력하고, 상기 현재 상태에 대하여 상기 사용자에게 추천되는 액션인 추천 액션을 적어도 하나 포함하는 추천 시나리오를 상기 인공지능 에이전트로부터 산출(S320)한다.
산출된 상기 추천 시나리오는 상기 사용자에게 제공되는바(S340), 예컨대, 사용자 액션 추천 모듈(330)은 컴퓨팅 장치(200)에 연동된 소정의 출력 장치(디스플레이 등을 포함)를 통하여, 예컨대, 상기 출력 장치에 제공된 소정의 사용자 인터페이스를 통하여 사용자가 인지할 수 있는 형태로 상기 추천된 시나리오의 정보를 사용자에게 제공할 수 있다.
예컨대, 본 개시서에 따른 보상-기반 학습이 수행되는 환경이 병원 챗봇(chat-bot)인 경우에, 전술한 훈련 방법에 의하여 사용자는 여러 가지 질답을 통하여 상태 변화를 거칠 수 있다(예컨대, 나이->과거 질환 유병 여부->수술 유무->내원한 목적->접수 등의 상태들). 접수 완료 후에 사용자가 직접 만족도 평가를 주면, 그 만족도 평가에 따른 보상으로써 상기 질답에 대한 보상을 산출할 수 있는바, 질답을 한 순서(즉, 상태의 변화들)와 최종 질문에 대한 답변(즉, 사용자의 액션)을 통하여 인공지능 에이전트의 학습을 수행할 수 있다.
그러면 전술한 추천 방법에 의하여 사용자가 챗봇과 다시 질답을 주고받을 때 챗봇의 인공지능 에이전트가, 해당 사용자 및 종래 다른 사용자들을 통하여 기 수행된 학습을 통하여 적절한 질문 및 답변이 수행하도록 상태 변화를 유도할 수 있게 된다.
시나리오에 관한 다른 예시로서, 다음 표 1과 같이 질문과 답변에 의한 논문 검색 엔진을 이용하는 환경을 들 수 있다.
- 상태: '게재 학술지'
질문: 자주 이용하는 학술지가 있습니까?
1. 한국정보보호학회, 2. 한국정보과학회, 3. 한국통신학회, 4. 기타

- 상태: '게재 년도'
질문: 자주 보는 논문의 게재 기간이 있습니까?
1. 최근 6개월, 2. 최근 1년, 3. 최근 3년, 4. 최근 5년, 5. 기타

- 상태: '키워드'
질문: 자주 사용하는 키워드가 있습니까?
1. 딥러닝, 2. 머신러닝, 3. 심층학습, 4. 강화학습, 5. 기타

- 상태: '주제 분류'
질문: 자주 사용하는 주제 분류가 있습니까?
1. 인문학, 2. 사회과학, 3. 자연과학, 4. 공학, 5. 기타

- 상태: '상세 분류'
질문: 자주 사용하는 주제가 있다면 상세 분류는 무엇입니까?
1. 공학 일반, 2. 기계공학, 3. 항공우주공학, 4. 컴퓨터공학, 5. 기타
표 1 가운데 '기타' 항목에 대하여는 별개의 사용자 입력을 받을 수 있으며, 위 시나리오에서 사용자에 의하여 선택된 정보들(선택 액션들)로써 인공지능 에이전트의 학습을 수행할 수 있다. 표 1에 나타난 예시에 따르면, 단계(S340)에서, 사용자에 의하여 적어도 1회 훈련된 인공지능 에이전트에 의하여, 사용자 액션 추천 모듈(330)은 사용자가 인지할 수 있는 형태로, 예컨대, 다음 표 2와 같이 하이퍼링크들을 포함하는 형태로 추천된 시나리오의 정보를 사용자에게 제공할 수 있다.
최근 6개월 내에 한국정보보호학회 에 게재된 공학 - 컴퓨터공학 딥러닝 관련 논문을 검색하시겠습니까?
표 2에서 굵은 글자체로 표시된 예시적 항목들은 하이퍼링크로 제공된 것이며, 사용자는 이와 같은 추천 시나리오를 사용하거나 사용하지 않을 수 있는데, 추천 시나리오를 그대로 사용하지 않는 후자의 경우 추천 시나리오에 나타난 개별 항목들이 사용자의 액션(예컨대 클릭 등의 조작)에 의하여 다시 선택되거나 입력될 수 있고, 다시 획득된 액션 정보를 가지고 후술하는 바와 같이 인공지능 에이전트의 학습이 추가로 수행될 수 있다.
본 개시서에 따른 인공지능 에이전트 기반 사용자 액션 추천 방법에 있어서, 사용자에게 추천되는 추천 액션을 포함하는 추천 시나리오를 제공하는 단계(S340) 후에, 지연 보상을 산출하고(S400'; S410 내지 S460a, S460b, S460c), 그 지연 보상을 이용하여 인공지능 에이전트를 훈련시킬(S500') 수 있는 것은, 전술한 인공지능 에이전트 훈련 방법에서의 단계들(S400, S500 각각)에서와 마찬가지이다.
다시, 도 5c를 참조하면, 본 개시서에 따른 인공지능 에이전트 기반 사용자 액션 추천 방법에서는, 단계(S340) 후에, 상기 사용자에 의한 상기 추천 시나리오의 사용 여부를 감지(S410)하며, 상기 추천 시나리오가 사용되었으면, 상기 추천 시나리오에 포함된 경로를 저장(S420a)하고, 상기 추천 시나리오가 사용되지 않았으면, 사용자가 다시 입력한 액션에 의한 상태 변화를 저장하고(S420b), 전술한 단계들(S440 내지 S460a, S460b, S460c)에서와 같이 최종 보상을 산출한 후에, 이에 따른 지연 보상을 산출(S480; 미도시)한다.
그 후, 산출된 상기 지연 보상을 이용하여 상기 인공지능 에이전트를 훈련(S500')시키는 것은 전술한 단계(S500)와 동일하다.
이처럼 본 발명은 그 모든 실시 예 및 변형례에 걸쳐, 인공지능 에이전트의 액션에 대하여 일률적으로 보상이 주어지지 않아 강화학습이 곤란한 환경에서도 사용자의 만족도 등 환경적인 요인 등을 활용함으로써 인공지능 에이전트를 보상-기반으로 효율적으로 정확하게 훈련시킬 수 있는 효과가 있으며, 그 인공지능 에이전트에 의하여 사용자가 취하면 바람직할 액션, 즉, 보다 더 만족할 최종 상태에 도달할 수 있는 액션을 추천받을 수 있다.
위 실시 예의 설명에 기초하여 해당 기술분야의 통상의 기술자는, 본 발명의 방법 및/또는 프로세스들, 그리고 그 단계들이 하드웨어, 소프트웨어 또는 특정 용례에 적합한 하드웨어 및 소프트웨어의 임의의 조합으로 실현될 수 있다는 점을 명확하게 이해할 수 있다. 상기 하드웨어는 범용 컴퓨터 및/또는 전용 컴퓨팅 장치 또는 특정 컴퓨팅 장치 또는 특정 컴퓨팅 장치의 특별한 모습 또는 구성요소를 포함할 수 있다. 상기 프로세스들은 내부 및/또는 외부 메모리를 가지는, 하나 이상의 마이크로프로세서, 마이크로컨트롤러, 임베디드 마이크로컨트롤러, 프로그래머블 디지털 신호 프로세서 또는 기타 프로그래머블 장치에 의하여 실현될 수 있다. 게다가, 혹은 대안으로서, 상기 프로세스들은 주문형 집적회로(application specific integrated circuit; ASIC), 프로그래머블 게이트 어레이(programmable gate array), 프로그래머블 어레이 로직(Programmable Array Logic; PAL) 또는 전자 신호들을 처리하기 위해 구성될 수 있는 임의의 다른 장치 또는 장치들의 조합으로 실시될 수 있다. 더욱이 본 발명의 기술적 해법의 대상물 또는 선행 기술들에 기여하는 부분들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 기계 판독 가능한 기록 매체에 기록될 수 있다. 상기 기계 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 기계 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 기계 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD, Blu-ray와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 전술한 장치들 중 어느 하나뿐만 아니라 프로세서, 프로세서 아키텍처 또는 상이한 하드웨어 및 소프트웨어의 조합들의 이종 조합, 또는 다른 어떤 프로그램 명령어들을 실행할 수 있는 기계 상에서 실행되기 위하여 저장 및 컴파일 또는 인터프리트될 수 있는, C와 같은 구조적 프로그래밍 언어, C++ 같은 객체지향적 프로그래밍 언어 또는 고급 또는 저급 프로그래밍 언어(어셈블리어, 하드웨어 기술 언어들 및 데이터베이스 프로그래밍 언어 및 기술들)를 사용하여 만들어질 수 있는바, 기계어 코드, 바이트코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 이에 포함된다.
따라서 본 발명에 따른 일 태양에서는, 앞서 설명된 방법 및 그 조합들이 하나 이상의 컴퓨팅 장치들에 의하여 수행될 때, 그 방법 및 방법의 조합들이 각 단계들을 수행하는 실행 가능한 코드로서 실시될 수 있다. 다른 일 태양에서는, 상기 방법은 상기 단계들을 수행하는 시스템들로서 실시될 수 있고, 방법들은 장치들에 걸쳐 여러 가지 방법으로 분산되거나 모든 기능들이 하나의 전용, 독립형 장치 또는 다른 하드웨어에 통합될 수 있다. 또 다른 일 태양에서는, 위에서 설명한 프로세스들과 연관된 단계들을 수행하는 수단들은 앞서 설명한 임의의 하드웨어 및/또는 소프트웨어를 포함할 수 있다. 그러한 모든 순차 결합 및 조합들은 본 개시서의 범위 내에 속하도록 의도된 것이다.
예를 들어, 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. 상기 하드웨어 장치는, 프로그램 명령어를 저장하기 위한 ROM/RAM 등과 같은 메모리와 결합되고 상기 메모리에 저장된 명령어들을 실행하도록 구성되는 MPU, CPU, GPU, TPU와 같은 프로세서를 포함할 수 있으며, 외부 장치와 신호를 주고받을 수 있는 통신부를 포함할 수 있다. 덧붙여, 상기 하드웨어 장치는 개발자들에 의하여 작성된 명령어들을 전달받기 위한 키보드, 마우스, 기타 외부 입력장치를 포함할 수 있다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시 예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시 예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 사람이라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시 예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.
그와 같이 균등하게 또는 등가적으로 변형된 것에는, 예컨대 본 발명에 따른 방법을 실시한 것과 동일한 결과를 낼 수 있는, 논리적으로 동치(logically equivalent)인 방법이 포함될 것인바, 본 발명의 진의 및 범위는 전술한 예시들에 의하여 제한되어서는 아니되며, 법률에 의하여 허용 가능한 가장 넓은 의미로 이해되어야 한다.

Claims (10)

  1. 인공지능 에이전트(artificial intelligent agent)를 훈련시키는 컴퓨팅 장치 상에서 수행되는 방법으로서,
    (a) 사용자에게 주어진 환경에서 상기 사용자의 액션에 의하여 촉발되는 상태의 변화(state transition)에 따라 도달 가능한 상태들(reachable states)의 계층 구조를 획득하는 단계;
    (b) 상기 사용자에게 현재 주어진 상태에서 상기 계층 구조에 포함된 개별 상태들에 도달할 수 있는 모든 경로를 생성하는 단계;
    (c) (i) 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 기초하여, 상기 모든 경로 중 상기 사용자의 액션에 의하여 선택된 경로에 대한 제1 지연 보상 및 상기 모든 경로 중 상기 사용자의 액션에 의하여 선택되지 않은 경로에 대한 제2 지연 보상을 상기 인공지능 에이전트에 부여할 지연 보상으로서 산출하는 단계; 및
    (d) 산출된 상기 지연 보상을 이용하여 상기 인공지능 에이전트를 훈련시키는 단계로서, 상기 훈련은 상기 인공지능 에이전트로 하여금 입력된 현재의 상태에 대하여 출력되는 추천 액션이 상기 지연 보상에 따른 편향성을 가지게 하는 보상-기반(reward-based) 기계학습인, 단계;
    를 포함하되,
    상기 (c) 단계는,
    (c1) (i) 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 의하여 상기 개별 상태들에 대한 최종 보상을 산출하는 단계; 및
    (c2) 상기 보상-기반 기계학습의 반복 횟수 N에 대하여, N/2 회 이상은 상기 사용자의 액션에 의하여 선택된 경로에 부여할 제1 지연 보상으로서 상기 최종 보상과 같거나 그보다 더 높은 값을 산출하는 프로세스, 및 상기 N에서 상기 N/2 회 이상을 뺀 나머지 횟수는 상기 사용자의 액션에 의하여 선택되지 않은 경로에 부여할 제2 지연 보상으로서 상기 최종 보상의 절반 또는 그보다 낮은 값을 산출하는 프로세스를 수행하는 단계
    를 포함하는, 인공지능 에이전트 훈련 방법.
  2. 제1항에 있어서,
    상기 (b) 단계 내지 (d) 단계는, 소정의 훈련 종료 조건이 충족될 때까지 반복되는 것을 특징으로 하는 인공지능 에이전트 훈련 방법.
  3. 삭제
  4. 제1항에 있어서,
    상기 (c1) 단계는,
    상기 사용자의 평가를 입력받도록 구성된 사용자 인터페이스 요소를 제공하는 단계; 및
    (i) 상기 사용자 인터페이스 요소에 의하여 상기 평가가 입력되면 상기 최종 보상이 상기 평가에 의하여 산출되고, (ii) 상기 사용자 인터페이스 요소에 의한 상기 평가의 입력이 없으면, 상기 사용자가 상기 개별 상태들에 도달하기 위하여 동일한 경로를 선택했던 과거의 기록이 있는지 여부를 조회하여 상기 과거의 기록이 있으면 상기 과거의 기록에 따른 이전 훈련에 이용되었던 최종 보상 중 최대값과 같거나 그보다 낮은 값이 상기 최종 보상으로서 산출되며, (iii) 상기 과거의 기록이 없으면, 미리 정해진 최대 점수가 상기 최종 보상으로서 산출되는, 단계
    를 포함하는 인공지능 에이전트 훈련 방법.
  5. 사용자가 취할 액션을 컴퓨팅 장치가 인공지능 에이전트를 통하여 추천하는 방법으로서,
    (a) 사용자에게 주어진 환경에서 상기 사용자의 액션에 의하여 촉발되는 상태의 변화(state transition)에 따라 도달 가능한 상태들(reachable states)의 계층 구조가 획득된 후 상기 사용자에게 현재 주어진 상태에서 상기 계층 구조에 포함된 개별 상태들에 도달할 수 있는 모든 경로가 생성되고, (i) 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 기초하여, 상기 모든 경로 중 상기 사용자의 액션에 의하여 선택된 경로에 대한 제1 지연 보상 및 상기 모든 경로 중 상기 사용자의 액션에 의하여 선택되지 않은 경로에 대한 제2 지연 보상을 상기 인공지능 에이전트에 부여할 지연 보상으로서 산출되어, 산출된 상기 지연 보상을 이용하여 상기 인공지능 에이전트가 훈련된 상태에서, 상기 사용자에게 주어진 현재 상태를 획득하는 단계;
    (b) 획득된 상기 현재 상태를 상기 인공지능 에이전트에 입력하여 상기 인공지능 에이전트를 통하여 상기 현재 상태에 대하여 상기 사용자에게 추천되는 액션인 추천 액션을 적어도 하나 포함하는 추천 시나리오를 산출하는 단계; 및
    (c) 상기 추천 시나리오를 상기 사용자에게 제공하는 단계
    를 포함하되, 상기 훈련은 상기 인공지능 에이전트로 하여금 주어진 현재의 상태에 대하여 출력되는 추천 액션이 상기 지연 보상에 따른 편향성을 가지게 하는 보상-기반(reward-based) 기계학습이고,
    상기 (a) 단계는,
    (a1) (i) 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 상기 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 의하여 상기 개별 상태들에 대한 최종 보상을 산출하는 단계; 및
    (a2) 상기 보상-기반 기계학습의 반복 횟수 N에 대하여, N/2 회 이상은 상기 사용자의 액션에 의하여 선택된 경로에 부여할 제1 지연 보상으로서 상기 최종 보상과 같거나 그보다 더 높은 값을 산출하는 프로세스, 및 상기 N에서 상기 N/2 회 이상을 뺀 나머지 횟수는 상기 사용자의 액션에 의하여 선택되지 않은 경로에 부여할 제2 지연 보상으로서 상기 최종 보상의 절반 또는 그보다 낮은 값을 산출하는 프로세스를 수행하는 단계
    를 포함하는, 인공지능 에이전트 기반 사용자 액션 추천 방법.
  6. 제5항에 있어서,
    (d) 상기 사용자에 의한 상기 추천 시나리오의 사용 여부를 감지하고, (i) 상기 추천 시나리오가 사용된 경우의 상기 추천 시나리오에 의하여 도달한 경로에 대응되는 액션들에 의한 상기 상태의 변화 또는 상기 추천 시나리오가 사용되지 않은 경우의 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 기초하여,
    상기 모든 경로 중 상기 사용자 액션에 의하여 선택된 경로에 대한 제1 지연 보상 및 상기 모든 경로 중 상기 사용자 액션에 의하여 선택되지 않은 경로에 대한 제2 지연 보상을 상기 인공지능 에이전트에 부여할 지연 보상으로서 산출하는 단계; 및
    (e) 산출된 상기 지연 보상을 이용하여 상기 인공지능 에이전트를 훈련시키는 단계
    를 더 포함하는 인공지능 에이전트 기반 사용자 액션 추천 방법.
  7. 컴퓨팅 장치로 하여금, 제1항, 제2항, 제4항 내지 제6항 중 어느 한 항의 방법을 수행하도록 구현된 명령어(instructions)를 포함하는, 기계 판독 가능한 비일시적 기록 매체에 저장된, 컴퓨터 프로그램.
  8. 인공지능 에이전트(artificial intelligent agent)를 훈련시키는 컴퓨팅 장치로서,
    사용자에게 주어진 환경 및 상기 사용자에게 현재 주어진 상태를 획득하는 통신부; 및
    상기 사용자의 액션에 의하여 촉발되는 상태의 변화(state transition)에 따라 도달 가능한 상태들(reachable states)의 계층 구조를 획득하는 제1 프로세스, 상기 사용자에게 현재 주어진 상태에서 상기 계층 구조에 포함된 개별 상태들에 도달할 수 있는 모든 경로를 생성하는 제2 프로세스; (i) 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 기초하여, 상기 모든 경로 중 상기 사용자의 액션에 의하여 선택된 경로에 대한 제1 지연 보상 및 상기 모든 경로 중 상기 사용자의 액션에 의하여 선택되지 않은 경로에 대한 제2 지연 보상을 상기 인공지능 에이전트에 부여할 지연 보상으로서 산출하는 제3 프로세스; 및 산출된 상기 지연 보상을 이용하여 상기 인공지능 에이전트를 훈련시키는 프로세스로서, 상기 훈련은 상기 인공지능 에이전트로 하여금 입력된 현재의 상태에 대하여 출력되는 추천 액션이 상기 지연 보상에 따른 편향성을 가지게 하는 보상-기반(reward-based) 기계학습인, 제4 프로세스를 수행하는 프로세서
    를 포함하고,
    상기 프로세서는,
    상기 제3 프로세스에서,
    (i) 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 의하여 상기 개별 상태들에 대한 최종 보상을 산출하고,
    상기 보상-기반 기계학습의 반복 횟수 N에 대하여, N/2 회 이상은 상기 사용자의 액션에 의하여 선택된 경로에 부여할 제1 지연 보상으로서 상기 최종 보상과 같거나 그보다 더 높은 값을 산출하는 프로세스, 및 상기 N에서 상기 N/2 회 이상을 뺀 나머지 횟수는 상기 사용자의 액션에 의하여 선택되지 않은 경로에 부여할 제2 지연 보상으로서 상기 최종 보상의 절반 또는 그보다 낮은 값을 산출하는 프로세스를 수행하는, 인공지능 에이전트 훈련 장치.
  9. 제8항에 있어서,
    상기 프로세서는, 상기 제1 프로세스 내지 제3 프로세스를 소정의 훈련 종료 조건이 충족될 때까지 반복되는 것을 특징으로 하는 인공지능 에이전트 훈련 장치.
  10. 사용자가 취할 액션을 인공지능 에이전트를 통하여 추천하는 컴퓨팅 장치로서,
    사용자에게 주어진 환경에서 상기 사용자의 액션에 의하여 촉발되는 상태의 변화(state transition)에 따라 도달 가능한 상태들(reachable states)의 계층 구조가 획득된 후 상기 사용자에게 현재 주어진 상태에서 상기 계층 구조에 포함된 개별 상태들에 도달할 수 있는 모든 경로가 생성되고, (i) 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 기초하여, 상기 모든 경로 중 상기 사용자의 액션에 의하여 선택된 경로에 대한 제1 지연 보상 및 상기 모든 경로 중 상기 사용자의 액션에 의하여 선택되지 않은 경로에 대한 제2 지연 보상을 상기 인공지능 에이전트에 부여할 지연 보상으로서 산출되어, 산출된 상기 지연 보상을 이용하여 상기 인공지능 에이전트가 훈련된 상태에서, 상기 사용자에게 주어진 현재 상태를 획득하는 통신부; 및
    획득된 상기 현재 상태를 상기 인공지능 에이전트에 입력하여 상기 인공지능 에이전트를 통하여 상기 현재 상태에 대하여 상기 사용자에게 추천되는 액션인 추천 액션을 적어도 하나 포함하는 추천 시나리오를 산출하는 제1 프로세스; 및 상기 추천 시나리오를 상기 사용자에게 제공하는 제2 프로세스를 수행하는 프로세서
    를 포함하되,
    상기 훈련은 상기 인공지능 에이전트로 하여금 주어진 현재의 상태에 대하여 출력되는 추천 액션이 상기 지연 보상에 따른 편향성을 가지게 하는 보상-기반(reward-based) 기계학습이고,
    상기 지연 보상은,
    (i) 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 상기 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 의하여 상기 개별 상태들에 대한 최종 보상을 산출하고, 상기 보상-기반 기계학습의 반복 횟수 N에 대하여, N/2 회 이상은 상기 사용자의 액션에 의하여 선택된 경로에 부여할 제1 지연 보상으로서 상기 최종 보상과 같거나 그보다 더 높은 값을 산출하는 프로세스, 및 상기 N에서 상기 N/2 회 이상을 뺀 나머지 횟수는 상기 사용자의 액션에 의하여 선택되지 않은 경로에 부여할 제2 지연 보상으로서 상기 최종 보상의 절반 또는 그보다 낮은 값을 산출하는 프로세스를 수행함으로써 산출되는, 인공지능 에이전트 기반 사용자 액션 추천 장치.
KR1020190082618A 2019-07-09 2019-07-09 인공지능 에이전트의 훈련 방법, 이에 기반한 사용자 액션의 추천 방법 및 이를 이용한 장치 KR102079745B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190082618A KR102079745B1 (ko) 2019-07-09 2019-07-09 인공지능 에이전트의 훈련 방법, 이에 기반한 사용자 액션의 추천 방법 및 이를 이용한 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190082618A KR102079745B1 (ko) 2019-07-09 2019-07-09 인공지능 에이전트의 훈련 방법, 이에 기반한 사용자 액션의 추천 방법 및 이를 이용한 장치

Publications (1)

Publication Number Publication Date
KR102079745B1 true KR102079745B1 (ko) 2020-04-07

Family

ID=70291052

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190082618A KR102079745B1 (ko) 2019-07-09 2019-07-09 인공지능 에이전트의 훈련 방법, 이에 기반한 사용자 액션의 추천 방법 및 이를 이용한 장치

Country Status (1)

Country Link
KR (1) KR102079745B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102169876B1 (ko) * 2020-05-22 2020-10-27 주식회사 애자일소다 조건부 에피소드 구성을 이용한 강화학습 장치 및 방법
KR102264571B1 (ko) * 2020-10-30 2021-06-15 주식회사 애자일소다 계층 구조를 갖는 의사결정 에이전트
KR20220123975A (ko) 2021-03-02 2022-09-13 연세대학교 산학협력단 인공지능 학습 장치 및 방법
WO2023022411A1 (ko) * 2021-08-19 2023-02-23 삼성전자 주식회사 강화 학습을 위한 정보를 제공하는 전자 장치 및 그 동작 방법
KR102512544B1 (ko) * 2022-08-16 2023-03-22 모나 주식회사 배터리 등가회로 생성방법 및 그 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100132868A (ko) * 2009-06-10 2010-12-20 삼성전자주식회사 목표 예측 인터페이스 제공 장치 및 그 방법
US20150278694A1 (en) * 2011-10-12 2015-10-01 C/O Sony Corporation Information processing apparatus, information processing method, and program
KR20180089769A (ko) * 2017-02-01 2018-08-09 성균관대학교산학협력단 행동 결정 장치 및 방법, 컴퓨터 판독 가능한 저장 매체
US20180260700A1 (en) * 2017-03-09 2018-09-13 Alphaics Corporation Method and system for implementing reinforcement learning agent using reinforcement learning processor
KR20190076628A (ko) * 2017-12-22 2019-07-02 주식회사 모두의연구소 보상 제어기를 이용한 강화 학습 방법 및 이를 위한 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100132868A (ko) * 2009-06-10 2010-12-20 삼성전자주식회사 목표 예측 인터페이스 제공 장치 및 그 방법
US20150278694A1 (en) * 2011-10-12 2015-10-01 C/O Sony Corporation Information processing apparatus, information processing method, and program
KR20180089769A (ko) * 2017-02-01 2018-08-09 성균관대학교산학협력단 행동 결정 장치 및 방법, 컴퓨터 판독 가능한 저장 매체
US20180260700A1 (en) * 2017-03-09 2018-09-13 Alphaics Corporation Method and system for implementing reinforcement learning agent using reinforcement learning processor
KR20190076628A (ko) * 2017-12-22 2019-07-02 주식회사 모두의연구소 보상 제어기를 이용한 강화 학습 방법 및 이를 위한 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Kulkarni, Tejas D., et al. Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation. Advances in neural information processing systems. 2016.* *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102169876B1 (ko) * 2020-05-22 2020-10-27 주식회사 애자일소다 조건부 에피소드 구성을 이용한 강화학습 장치 및 방법
WO2021235603A1 (ko) * 2020-05-22 2021-11-25 주식회사 애자일소다 조건부 에피소드 구성을 이용한 강화학습 장치 및 방법
JP2022537846A (ja) * 2020-05-22 2022-08-31 アジャイルソーダ インコーポレイテッド 条件付きエピソード構成を用いた強化学習装置及び方法
JP7387953B2 (ja) 2020-05-22 2023-11-29 アジャイルソーダ インコーポレイテッド 条件付きエピソード構成を用いた強化学習装置及び方法
KR102264571B1 (ko) * 2020-10-30 2021-06-15 주식회사 애자일소다 계층 구조를 갖는 의사결정 에이전트
JP2022074019A (ja) * 2020-10-30 2022-05-17 アジャイルソーダ インコーポレイテッド 階層構造を有する意思決定エージェント
JP7219986B2 (ja) 2020-10-30 2023-02-09 アジャイルソーダ インコーポレイテッド 階層構造を有する意思決定エージェント
KR20220123975A (ko) 2021-03-02 2022-09-13 연세대학교 산학협력단 인공지능 학습 장치 및 방법
WO2023022411A1 (ko) * 2021-08-19 2023-02-23 삼성전자 주식회사 강화 학습을 위한 정보를 제공하는 전자 장치 및 그 동작 방법
KR102512544B1 (ko) * 2022-08-16 2023-03-22 모나 주식회사 배터리 등가회로 생성방법 및 그 장치

Similar Documents

Publication Publication Date Title
KR102079745B1 (ko) 인공지능 에이전트의 훈련 방법, 이에 기반한 사용자 액션의 추천 방법 및 이를 이용한 장치
Pardos et al. Enabling real-time adaptivity in MOOCs with a personalized next-step recommendation framework
Fu et al. SNIF-ACT: A cognitive model of user navigation on the World Wide Web
Witty et al. Measuring and characterizing generalization in deep reinforcement learning
Salehi Application of implicit and explicit attribute based collaborative filtering and BIDE for learning resource recommendation
CN111079056A (zh) 提取用户画像的方法、装置、计算机设备和存储介质
Liu et al. Identifying and predicting the states of complex search tasks
Akuma et al. Comparative analysis of relevance feedback methods based on two user studies
Okoye et al. A semantic rule-based approach supported by process mining for personalised adaptive learning
Liu et al. Exploring search task difficulty reasons in different task types and user knowledge groups
Zhang et al. Dynamic scholarly collaborator recommendation via competitive multi-agent reinforcement learning
Junges et al. Programming agent behavior by learning in simulation models
Geiger Personalized task recommendation in crowdsourcing systems
Li et al. MOOC-FRS: A new fusion recommender system for MOOCs
Smith et al. Using ego network data to inform agent-based models of diffusion
Qian et al. Heterogeneous information network embedding based on multiperspective metapath for question routing
Mishra et al. Dynamic identification of learning styles in MOOC environment using ontology based browser extension
Sakai et al. A framework of explanation generation toward reliable autonomous robots
i Mansilla Asknext: An agent protocol for social search
Hu et al. Pen4rec: Preference evolution networks for session-based recommendation
Peña-Ortiz et al. Dweb model: representing Web 2.0 dynamism
Horta et al. Collaboration analysis in global software development
Elsenbroich et al. Agent-based modelling as a method for prediction in complex social systems
CN113742591B (zh) 学习伙伴推荐方法和装置、电子设备、存储介质
Gelfert Assessing the credibility of conceptual models

Legal Events

Date Code Title Description
GRNT Written decision to grant