KR102518825B1

KR102518825B1 - 자기 개발을 위한 강화 학습 시스템

Info

Publication number: KR102518825B1
Application number: KR1020220159928A
Authority: KR
Inventors: 이정수
Original assignee: 이정수
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-04-06
Also published as: WO2024111866A1

Abstract

본 발명의 자기 개발을 위한 강화 학습 시스템은 적어도 하나의 프로세서에 의해 동작하는 적어도 하나의 에이전트(agent); 자기 개발을 위한 강화 학습 훈련 알고리즘을 실행시키기 위한 명령어들을 저장하는 비일시적 저장 매체를 포함하되, 상기 강화 학습 훈련 알고리즘은, 상기 에이전트에 의해 유저가 속한 그룹에 관련된 현재 상태(S: state)에 대한 관찰이 수행되는 단계; 상기 에이전트는 미리 정의된 정책(policy)에 기반하여 상기 현재 상태에 대응하는 행동(a: action)을 선택하며, 선택된 행동에 대응하는 미션을 상기 유저에게 추천하는 단계; 상기 유저가 상기 에이전트에 의해 추천된 상기 미션을 수행한 후 평가된 유저 만족도, 및 상기 유저의 수정된 유저 관심 키워드(keyword)의 벡터가 상기 에이전트에 의해 수신되는 단계; 상기 에이전트에 의해 상기 유저가 속한 그룹 내 여러 명의 멘티(mentee)들 중 멘티 관심 키워드를 업데이트한 멘티들의 비율을 기초로 상태 전이 확률(state transition probability)을 업데이트하는 단계; 상기 멘티 관심 키워드를 업데이트한 멘티들에게 추천된 미션의 수행 후 상기 멘티들이 평가한 멘티 만족도 결과의 가중치 평균을 기초로 보상 함수(reward function)를 업데이트하는 단계; 상기 멘티 관심 키워드를 업데이트한 각각의 멘티가 미리 정한 롤모델 멘토(mentor)의 멘토 관심 키워드 벡터와 상기 유저 관심 키워드의 벡터 간의 코사인 유사도(cosine similarity)가 멀수록 보상이 작도록 할인율을 업데이트하는 단계; 및 업데이트된 상기 상태 전이 확률, 상기 보상 함수 및 상기 할인율을 기초로 상기 정책을 업데이트하는 단계를 포함하고, 업데이트된 상기 정책은 상기 보상 함수의 가중치 평균이 최대값이 되도록 상기 에이전트가 다음 행동(next action)을 취하도록 설정된다.

Description

자기 개발을 위한 강화 학습 시스템{REINFORCEMENT LEARNING SYSTEM FOR SELF-DEVELOPMENT}

본 발명은 자기 개발을 위한 강화 학습 시스템에 관한 것으로서, 보다 상세하게는, 기계 학습의 일 영역인 강화 학습을 이용한 자기 개발을 위한 강화 학습 시스템에 관한 것이다.

멘토(mentor)는 다양한 측면에서 멘티에게 도움을 주는 사람이다. 멘토는 멘티를 보살펴주고, 믿어주며, 격려해주는 사람이다. 훌륭한 멘토는 멘티가 함께 있고 싶어하고, 경험이 많으며, 멘티가 인생에서 성공하도록 돕기를 좋아한다.

멘티(mentee)는 멘토를 통하여 도움을 받아 자신의 역량을 개발하고 발전하는 사람이다. 대학에서 멘티는 전공 기초 지식이 부족하여 이를 보강할 학습력을 키우기 위해 멘토의 도움을 받고, 대학생활에 적응하고 진로 및 취업에 대한 정보를 얻고자 하는 학습자이다.

멘토링은 멘토가 멘티에게 영향을 끼치는 활동을 의미한다. 멘토링의 유형은 멘토와 멘티의 관계가 어떻게 형성되는가에 따라 1:1 멘토링, 동료 멘토링 및 그룹 멘토링으로 구분한다. 1:1 멘토링은 학습과정이나 전환의 필요성이 있는 단계에 있는 경험이 부족한 사람들에게 경험이 많은 멘토가 일대일로 가르치는 관계를 말한다. 동료 멘토링(또는 그룹 스터디)은 비슷한 수준의 동료들이 서로 지원하고 지도해주는 관계를 말한다. 그룹 멘토링은 특정한 목적을 가지고 경험이 풍부한 한 명 이상의 멘토 아래 여러 명의 멘티가 함께 있는 형태이다. 그룹으로서 아이디어 및 정보를 교환하고 피드백을 받을 수 있다는 것이 장점이다.

멘토링을 통하여 자신의 진로 또는 진학 방향들을 자연스럽게 결정할 수 있는 플랫폼에 대한 요구가 존재한다.

등록특허 공보 10-2408115 공개특허 공보 10-2013-0082901

본 발명은 상기와 같은 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 자기 개발을 위한 강화 학습 시스템을 제공하는데 있다.

본 발명의 상기 및 다른 목적과 이점은 바람직한 실시예를 설명한 하기의 설명으로부터 분명해질 것이다.

상기 목적은, 자기 개발을 위한 강화 학습 시스템을 제공하는데 있다

본 발명의 일 실시예에 따른 자기 개발을 위한 강화 학습 시스템은,

적어도 하나의 프로세서에 의해 동작하는 적어도 하나의 에이전트(agent);

자기 개발을 위한 강화 학습 훈련 알고리즘을 실행시키기 위한 명령어들을 저장하는 비일시적 저장 매체

를 포함하되,

상기 강화 학습 훈련 알고리즘은,

상기 에이전트에 의해 유저가 속한 그룹에 관련된 현재 상태(S: state)에 대한 관찰이 수행되는 단계;

상기 에이전트는 미리 정의된 정책(policy)에 기반하여 상기 현재 상태에 대응하는 행동(a: action)을 선택하며, 선택된 행동에 대응하는 미션을 상기 유저에게 추천하는 단계;

상기 유저가 상기 에이전트에 의해 추천된 상기 미션을 수행한 후 평가된 유저 만족도, 및 상기 유저의 수정된 유저 관심 키워드(keyword)의 벡터가 상기 에이전트에 의해 수신되는 단계;

상기 에이전트에 의해 상기 유저가 속한 그룹 내 여러 명의 멘티(mentee)들 중 멘티 관심 키워드를 업데이트한 멘티들의 비율을 기초로 상태 전이 확률(state transition probability)을 업데이트하는 단계;

상기 멘티 관심 키워드를 업데이트한 멘티들에게 추천된 미션의 수행 후 상기 멘티들이 평가한 멘티 만족도 결과의 가중치 평균을 기초로 보상 함수(reward function)를 업데이트하는 단계;

상기 멘티 관심 키워드를 업데이트한 각각의 멘티가 미리 정한 롤모델 멘토(mentor)의 멘토 관심 키워드 벡터와 상기 유저 관심 키워드의 벡터 간의 코사인 유사도(cosine similarity)가 멀수록 보상이 작도록 할인율을 업데이트하는 단계; 및

업데이트된 상기 상태 전이 확률, 상기 보상 함수 및 상기 할인율을 기초로 상기 정책을 업데이트하는 단계

를 포함하고,

업데이트된 상기 정책은 상기 보상 함수의 가중치 평균이 최대값이 되도록 상기 에이전트가 다음 행동(next action)을 취하도록 설정된다.

바람직하게는,

상기 자기 개발을 위한 강화 학습 훈련 알고리즘은 마르코프 결정 과정(MDP : Markov Decision Process)에 기초하며, Q-러닝(Learning)을 이용하여 벨만 방정식(Bellman Equation)의 미리 정의된 변수의 최적 조건을 찾도록 수행되는 것을 특징으로 한다.

바람직하게는,

상기 유저 관심 키워드 및 상기 멘티 관심 키워드는 자신들의 진로, 진학 및 취업과 관련된 자연어를 포함하고, 상기 멘토 관심 키워드는 자신의 멘토링 그룹에 멘토링하는 내용과 관련된 자연어를 포함하고,

상기 유저 관심 키워드의 벡터, 상기 멘티 관심 키워드의 벡터 및 상기 멘토 관심 키워드의 벡터는 신경망(NN : neural network)을 이용하여 자연어 처리의 워드 임베딩(embedding) 방식으로 생성된다.

바람직하게는,

상기 현재 상태는 상기 유저 및 상기 멘티에 의해 입력된 정보로서, 워드 임베딩(embedding) 방식으로 생성된 벡터 형태를 갖고,

상기 행동은 상기 에이전트가 상기 유저 및 상기 멘티들이 수행할 미션들을 추천하는 동작을 포함하고, 상기 미션들은 상기 유저가 속한 그룹 내 멘티들에 의해 제안된 미션들 및 상기 멘토 및 관련 분야의 다른 멘토에 의해 제안된 미션들의 총합이다.

바람직하게는,

상기 에이전트는 상기 유저 당 하나씩 배치되고, 상기 유저 마다 배치된 에이전트들은 각각 서로 다른 환경(environment)에서 동작하되, 유저 클러스터 내 유저들의 에이전트들의 환경의 유사도는 서로 다른 유저 클러스터의 유저들의 에이전트들의 환경의 유사도보다 높다.

바람직하게는,

상기 현재 상태에 대한 관찰이 수행되는 단계; 상기 행동을 수행하는 단계; 상기 수신되는 단계; 상기 상태 전이 확률을 업데이트하는 단계; 상기 보상 함수를 업데이트하는 단계; 상기 할인율을 업데이트하는 단계; 및 상기 정책을 업데이트 하는 단계는 복수 회 반복되고,

상기 에이전트에 의해 추천된 미션을 수행한 상기 유저 및 상기 멘티들로부터 관심 키워드의 수정을 입력받고, 수정된 관심 키워드들을 기초로 상기 유저의 상기 현재 상태를 다음 상태로 업데이트한다. .

바람직하게는,

상기 보상 함수를 업데이트하는 단계는 상기 유저 만족도를 포함하여 계산하되, 상기 유저 만족도에 가중치를 부여하여 계산된다.

바람직하게는,

상기 유저 관심 키워드와 상기 멘티 관심 키워드의 코사인 유사도가 미리 결정된 임계치를 초과하는 경우 상기 유저가 그룹핑될 새로운 멘토링 그룹을 매칭을 수행하는 그룹핑부;를 더 포함한다.

바람직하게는,

상기 그룹핑부는 상기 유저 관심 키워드의 벡터, 상기 멘티 관심 키워드의 벡터들에 대하여 비지도 학습(Unsupervised Learning)의 GMM(Gaussian Mixture Model) 기반 소프트-클러스터링(soft-clustering), 비지도 학습의 협업 필터링(Collaborative Filtering), 각 멘토 및 각 멘티에 대한 상호 만족도를 또는 유저의 새로운 관심 키워드 벡터를 기초로 한 RNN(Recurrent Neural Network) 중 적어도 하나를 적용하여 상기 유저에 대한 상기 멘토링 그룹 매칭을 수행한다.

본 발명에 따른 자기 개발을 위한 강화 학습 시스템을 이용하여, 멘토링 그룹에서 미션을 수행함에 따라 유저는 자신에게 보다 적합한 진로가 무엇인지를 자연스럽게 발견할 수 있는 효과가 있다.

또한, 유저는 자신의 진로 목표와 관련된 멘토링을 받고 관련 지식을 습득하게 되는 효과가 있다.

다만, 본 발명의 효과들은 이상에서 언급한 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 본 발명의 자기 개발을 위한 강화 학습 시스템의 개략도를 도시한 도면이다.
도 2는 본 발명의 자기 개발을 위한 강화 학습 시스템의 강화 학습 훈련 알고리즘의 흐름도를 보여주는 도면이다.
도 3는 본 발명의 자기 개발을 위한 강화 학습 시스템의 에이전트와 환경간의 동작을 도식적으로 보여주는 도면이다.
도 4는 본 발명의 자기 개발을 위한 강화 학습 시스템의 에이전트의 동작 흐름도를 보여주는 도면이다.

이하, 본 발명의 실시예와 도면을 참조하여 본 발명을 상세히 설명한다. 이들 실시예는 오로지 본 발명을 보다 구체적으로 설명하기 위해 예시적으로 제시한 것일 뿐, 본 발명의 범위가 이들 실시예에 의해 제한되지 않는다는 것은 당업계에서 통상의 지식을 가지는 자에 있어서 자명할 것이다.

또한, 달리 정의하지 않는 한, 본 명세서에서 사용되는 모든 기술적 및 과학적 용어는 본 발명이 속하는 기술 분야의 숙련자에 의해 통상적으로 이해되는 바와 동일한 의미를 가지며, 상충되는 경우에는, 정의를 포함하는 본 명세서의 기재가 우선할 것이다.

도면에서 제안된 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. 그리고, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에서 기술한 "부"란, 특정 기능을 수행하는 하나의 단위 또는 블록을 의미한다.

각 단계들에 있어 식별부호(제1, 제2, 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 실시될 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 실시될 수도 있고 실질적으로 동시에 실시될 수도 있으며 반대의 순서대로 실시될 수도 있다.

강화 학습(Reinforcement learning)은 기계 학습의 한 영역이다. 행동심리학에서 영감을 받았으며, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다. 이러한 문제는 매우 포괄적이기 때문에 게임 이론, 제어이론, 운용 과학, 정보 이론, 시뮬레이션 기반 최적화, 다중 에이전트 시스템, 떼 지능, 통계학, 유전 알고리즘 등의 분야에서도 연구된다.

강화 학습은 어떠한 환경에서 어떠한 행동을 했을 때 그것이 잘 된 행동인지 잘못된 행동인지를 나중에 판단하고 보상(또는 벌칙)을 줌으로써 반복을 통해 스스로 학습하게 하는 분야이다.

도 1은 본 발명의 자기 개발을 위한 강화 학습 시스템의 개략도를 도시한 도면이다.

강화 학습 시스템(100)은 적어도 하나의 프로세서에 의해 동작하는 적어도 하나의 에이전트(agent)(110) 및 비일시적 저장 매체(130)을 포함한다.

본 발명에서의 에이전트(110)의 일 예는 인공지능(AI : artificial intelligence)이다.

본 발명의 에이전트는 상기 유저 당 하나씩 배치된다. 유저 마다 배치된 에이전트들은 각각 서로 다른 환경(environment)에서 동작할 수 있다. 이때, 유저 클러스터 내 유저들의 에이전트들의 환경의 유사도는 서로 다른 유저 클러스터의 유저들의 에이전트들의 환경의 유사도보다 높을 수 있다.

비일시적 저장 매체(130)는 자기 개발을 위한 강화 학습 훈련 알고리즘을 실행시키기 위한 명령어들을 저장한다.

강화 학습에는 두 가지 구성 요소로 환경(environment)과 에이전트(agent)가 있다. 환경과 에이전트의 상호 동작에 대하여는 아래의 도 3을 참조하여 보다 상세하게 설명한다.

에이전트는 특정 환경에서 행동(action)을 결정하고 환경은 그 결정에 대한 보상을 내린다. 이 보상은 행동 즉시 결정되기보다는 여러 행동들을 취한 후에 한꺼번에 결정되는 경우가 많다. 특정 행동을 취했을 때 바로 그 행동에 대한 평가를 내릴 수 없는 경우가 많기 때문이다.

강화 학습은 앞서 다룬 딥러닝과 밀접한 관계가 있다. 에이전트가 행동을 결정하고 환경이 주는 보상으로 스스로 학습할 때 주로 딥러닝에서 다룬 인공 신경망을 사용한다. 환경과 에이전트의 상태 등을 입력값으로 인공 신경망이 행동을 결정하고 보상이 있으면 이전의 입력값과 행동들을 긍정적으로 학습한다.

본 발명에서는 강화 학습과 관련된 구체적인 수식 및 관련 배경 지식등은 구체적인 설명을 생략하며 이와 관련된 내용은 당업자에게 용이하게 이해될 수 있다.

도 2는 본 발명의 자기 개발을 위한 강화 학습 시스템의 강화 학습 훈련 알고리즘의 흐름도를 보여주는 도면이다.

본 발명의 강화 학습 훈련 알고리즘은 에이전트(110)에 의해 유저가 속한 그룹에 관련된 현재 상태(S: state)에 대한 관찰이 수행되는 단계(S210)를 포함한다.

본원 발명에서 사용되는, 용어"현재 상태(t state)"는 유저 및 유저가 속한 멘토링 그룹의 멘티에 의해 입력된 정보를 포함한다.

현재 상태는 에이전트가 이해할 수 있도록 워드 임베딩(embedding) 방식으로 생성된 벡터 형태를 갖는다.

본 발명의 강화 학습 훈련 알고리즘은 에이전트가 미리 정의된 정책(policy)에 기반하여 현재 상태에 대응하는 행동(a: action)을 선택하며, 선택된 행동에 대응하는 미션을 유저에게 추천하는 단계(S212)를 포함한다.

에이전트(110)는 관찰된 현재 상태에 최적인 미션을 유저에게 추천하여 유저가 수행할 수 있도록 한다.

현재의 유저의 상태(임베딩된 키워드+액션 조합 벡터)에 최신 버전의 Deep Q NN의 파라미터(theta)를 내적(inner product)하여 얻은 Q(s,c,theta)의 argmax를 통해 최적의 행동(c)을 유저에게 제안한다.

이 때, 최신버전의 Deep Q NN은 <유저 클러스터 내 각 유저들의 키워드+액션 조합 벡터>을 입력으로 하고, <유저 클러스터 내 유저들의 리워드(각 유저들이 수행한 미션에 대한 만족도 평가)들의 가중 평균>이 포함된 목표치와 NN의 출력의 Loss function을 줄이는 방식으로 학습한다.

유저 클러스터 내 유저들의 <키워드(s)+액션(c) 조합 벡터>의 차원은 동일. s의 경우 워드 임베딩된 키워드 벡터(유저 클러스터 내 모든 유저들 각자의 키워드 벡터의 차원은 모두 동일). c는 유저가 멘토링 결과 도출한 각자의 미션들. 즉, 유저 클러스터 내 유저들 각자가 도출한 미션들의 총 합이 (s,c)에서 가능한 c의 경우의 수이다.

본 발명에서 사용되는, 용어 "행동(action)"은 에이전트가 유저 및 멘티들이 수행할 미션들을 추천하는 동작을 말한다.

본 발명에서 사용되는, 용어 "미션(mission)"은 멘토링 그룹에서 수행되는 프로젝트(project)와 유사한 개념으로서, 유저가 속한 그룹 내 멘티들에 의해 제안된 미션들 및 멘토 및 관련 분야의 다른 멘토에 의해 제안된 미션들의 총합을 의미한다. 본 발명에서 미션은 '여름방학 IT기업 인턴'과 같은 '구'나 '절' 혹은 문장의 형태로 기술될 수 있다.

본 발명의 강화 학습 훈련 알고리즘은 유저가 에이전트에 의해 추천된 미션을 수행한 후 평가된 유저 만족도, 및 유저의 수정된 유저 관심 키워드(keyword)의 벡터가 에이전트에 의해 수신되는 단계(S214)를 포함한다.

본 발명에서 사용되는, 용어 "유저 관심 키워드" 및 "멘티 관심 키워드"는 자신들의 진로, 진학 및 취업과 관련된 자연어를 포함한다.

본 발명에서 사용되는, 용어 "멘토 관심 키워드"는 멘토의 멘토링 그룹에 멘토링하는 내용과 관련된 자연어를 포함한다.

유저 관심 키워드의 벡터, 멘티 관심 키워드의 벡터 및 멘토 관심 키워드의벡터는 신경망(NN : neural network)을 이용하여 자연어 처리의 워드 임베딩(embedding) 방식으로 생성된다.

관심 키워드 벡터는 임베딩된 상태 벡터이다.

유저 클러스터 내 존재하는 키워드(s)의 경우 워드 임베딩 방식으로 나온 키워드 벡터이며, 해당 벡터의 각 element들은 rough하게 quantization 하여 discrete하게 표기된다. 유저 클러스터 내에서 유한개의 상태 벡터가 나올 수 있도록한다. 에이전트의 환경이 지나치게 커지는 것을 방지한다. 유저 클러스터 내 유저들의 숫자가 적을 수록 더욱 rough하게 quantization을 하여 ‘가능한’ 상태벡터의 경우의 수를 줄이는 방식으로 동작한다.

따라서 서로 다른 유저 클러스터의 유저들도 동일한 ‘차원’의 키워드 벡터를 가지고 있다. 이 때, 특정 유저가 특정 액션을 통해 도달하게 된 새로운 키워드 벡터가 기존의 유저 클러스터 내 키워드 벡터들의 평균과 similarity가 심하게 차이가 나는 경우, 해당 유저는 본인의 키워드 벡터와 비슷한 새로운 유저 클러스터가 할당된다.

키워드 벡터는 신경망을 활용한 워드 임베딩 방식으로 생성된다. 자연어 처리(Natural Language Processing)분야에서 임베딩(Embedding)은 사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자 형태인 벡터(vector)로 바꾼 결과 혹은 그 일련의 과정 전체를 의미한다. 가장 간단한 형태의 임베딩은 단어의 빈도를 그대로 벡터로 사용하는 것이다. 단어-문서 행렬(Term-Document Matrix)는 행(row)는 단어 (column)은 문서에 대응한다. 단어-문서 행렬은 가장 단순한 형태의 임베딩의 예이다.

본 발명의 강화 학습 훈련 알고리즘은 에이전트에 의해 유저가 속한 그룹 내 여러 명의 멘티(mentee)들 중 멘티 관심 키워드를 업데이트한 멘티들의 비율을 기초로 상태 전이 확률(state transition probability)을 업데이트하는 단계(S216)를 포함한다.

즉, 특정 행동 이후 멘티 관심 키워드를 업데이트한 멘티들의 비율을 기초로 상태 전이 확률을 업데이트할 수 있다.

본 발명의 강화 학습 훈련 알고리즘은 멘티 관심 키워드를 업데이트한 멘티들에게 추천된 미션의 수행 후 멘티들이 평가한 멘티 만족도 결과의 가중치 평균을 기초로 보상 함수(reward function)를 업데이트하는 단계(S218)를 포함한다.

유저의 롤모델(예를 들어, 유저가 멘토링 결과 높은 점수를 준 멘토, 혹은 멘토링은 진행하지 않았지만 유저가 높은 관심을 보인 멘토)의 키워드 벡터(s)와 유저의 키워드 벡터 간 유사도가 높아질 수록 유저가 받게 되는 리워드가 더욱 커질 수 있도록 설계된다.

보상 함수를 업데이트하는 단계(S218)는 유저 만족도를 포함하여 계산하되, 유저 만족도에 가중치를 부여하여 계산된다.

유저 클러스터 내 유저들이 추천된 미션을 수행 후 수행한 만족도 결과의 가중치 평균을 기초로 보상함수를 업데이트할 수도 있다.

본 발명의 강화 학습 훈련 알고리즘은 멘티 관심 키워드를 업데이트한 각각의 멘티가 미리 정한 롤모델 멘토(mentor)의 멘토 관심 키워드 벡터와 유저 관심 키워드의 벡터 간의 코사인 유사도(cosine similarity)가 멀수록 보상이 작도록 할인율을 업데이트하는 단계(S220)를 포함한다.

유저가 속한 그룹 내 멘티들의 키워드 벡터들의 평균값의 코사인 유사도가 멀수록 보상이 작도록 할인율을 업데이트할 수도 있다.

미리 정한 롤모델 멘토는 유저가 멘토링 진행 후 높은 평가를 한 멘토 혹은 멘토링을 진행하지 않았더라도 롤모델로 지정하거나 높은 관심을 표현한 멘토를 포함할 수 있다.

코사인 유사도는 두 벡터 간의 코사인 각도를 이용하여 구할 수 있는 두 벡터의 유사도를 의미한다. 두 벡터의 방향이 완전히 동일한 경우에는 1의 값을 가지며, 90°의 각을 이루면 0, 180°로 반대의 방향을 가지면 -1의 값을 갖게 된다. 즉, 결국 코사인 유사도는 -1 이상 1 이하의 값을 가지며 값이 1에 가까울수록 유사도가 높다고 판단할 수 있다. 이를 직관적으로 이해하면 두 벡터가 가리키는 방향이 얼마나 유사한가를 의미한다.

본 발명의 강화 학습 훈련 알고리즘은 업데이트된 상태 전이 확률, 보상 함수 및 할인율을 기초로 정책을 업데이트하는 단계(S222)를 포함한다.

업데이트된 정책(policy)은 보상 함수의 가중치 평균이 최대값이 되도록 에이전트가 다음 행동(next action)을 취하도록 설정된다.

본 발명의 자기 개발을 위한 강화 학습 훈련 알고리즘은 마르코프 결정 과정(MDP : Markov Decision Process)에 기초하며, Q-러닝(Learning)을 이용하여 벨만 방정식(Bellman Equation)의 미리 정의된 변수의 최적 조건을 찾도록 수행되는 것을 특징으로 한다.

주어진 상태의 밸류를 구하는 실제 방법에 벨만 방정식이 사용된다. 벨만 방정식은 시점 t 에서의 밸류와 시점 t+1 에서의 밸류 사이의 관계를 다루고 있으며 또 가치함수와 정책함수 사이의 관계도 다루고 있다. 벨만 방정식은 현재 시점 (t)와 다음 시점(t+1) 사이의 재귀적 관계를 이용해 정의된다.

Q 러닝(Learning)은 주어진 유한 마르코프 결정 과정의 최적의 정책을 찾기 위해 사용할 수 있다. Q 러닝은 주어진 상태에서 주어진 행동을 수행하는 것이 가져다 줄 효용의 기대값을 예측하는 함수인 Q 함수를 학습함으로써 최적의 정책을 학습한다. 정책이란 주어진 상태에서 어떤 행동을 수행할지 나타내는 규칙이다. Q 함수를 학습하고 나면 각 상태에서 최고의 Q를 주는 행동을 수행함으로써 최적의 정책을 유도할 수 있다. Q 러닝의 장점 중 하나는 주어진 환경의 모델 없이도 수행하는 행동의 기대값을 비교할 수 있다는 점이다. 뿐만 아니라 Q 러닝은 전이가 확률적으로 일어나거나 보상이 확률적으로 주어지는 환경에서도 별다른 변형 없이 적용될 수 있다. Q 러닝은 임의의 유한 마르코프 결정 과정(MDP)에 대해서 현재 상태에서 최대의 보상을 획득하는 최적의 정책을 학습할 수 있다는 사실이 증명되어 있다.

본 발명의 자기 개발을 위한 강화 학습 훈련 알고리즘은 현재 상태에 대한 관찰이 수행되는 단계(S210); 행동을 수행하는 단계(S212); 수신되는 단계(S214); 상태 전이 확률을 업데이트하는 단계(S216); 보상 함수를 업데이트하는 단계(S218); 할인율을 업데이트하는 단계(S220); 및 정책을 업데이트 하는 단계(S222)는 복수 회 반복된다.

본 발명의 자기 개발을 위한 강화 학습 훈련 알고리즘은 에이전트에 의해 추천된 미션을 수행한 유저 및 멘티들로부터 관심 키워드의 수정을 입력받고, 수정된 관심 키워드들을 기초로 유저의 상기 현재 상태를 다음 상태로 업데이트한다.

또한, 본 발명의 자기 개발을 위한 강화 학습 훈련 알고리즘은 에이전트에 의해 추천된 미션을 수행한 후 유저 및 멘티들에 의해 평가된 만족도 및 유저 및 멘티들이 본인의 관심 키워드를 수정함에 따라 변경된 상태 벡터를 기반으로, 리워드 및 상태전이확률이 업데이트 되어 최종적으로 유저 에이전트의 '정책'이 업데이트 된다. 가령, 유저 에이전트의 제1 정책에 따라 유저가 “여름방학 IT기업 인턴” 미션을 수행한 후 미션에 대해 “만족했다면” 다음 사이클에서 유저 에이전트는 제2 정책에 따른 미션을 유저에게 제안하겠지만, “만족하지 않았다면” 유저 에이전트는 제2 정책과 다른 제3 정책에 따른 미션을 유저에게 제안하게 된다. 극단적으로, “만족하지 않았음”의 정도가 크다면 유저 에이전트의 제3 정책은 “IT 기업 취업”을 유저의 진로에서 제외하는 방향으로 유저에게 미션을 제안하게 될 수도 있다.

본 발명의 AI는 Bellman Equation에 Q-learning이라는 방법을 적용하여 Q*(s, a)가 최대값을 가지도록 하는 a를 찾아낼 수 있도록 학습된다. 여기서 Q*(s, a)는 다음 미션의 적합도를 정량적으로 표시한 함수이다. Q*(s, a)가 최대값을 가지도록 하는 a라는 것은 "멘티의 현재 단계(s, state)를 고려했을 때 가장 적합한 다음 미션(a, action)"이라는 의미가 된다.

본 발명의 자기 개발을 위한 강화 학습 시스템은 유저 관심 키워드와 멘티 관심 키워드의 코사인 유사도가 미리 결정된 임계치를 초과하는 경우 유저가 그룹핑될 새로운 멘토링 그룹을 매칭을 수행하는 그룹핑부(미도시)를 더 포함한다.

그룹핑부는 유저 관심 키워드의 벡터, 멘티 관심 키워드의 벡터들에 대하여 비지도 학습(Unsupervised Learning)의 GMM(Gaussian Mixture Model) 기반 소프트-클러스터링(soft-clustering), 비지도 학습의 협업 필터링(Collaborative Filtering), 각 멘토 및 각 멘티에 대한 상호 만족도를 또는 유저의 새로운 관심 키워드 벡터를 기초로 한 RNN(Recurrent Neural Network) 중 적어도 하나를 적용하여 유저에 대한 멘토링 그룹 매칭을 수행한다.

그룹핑부는 유저의 관심 키워드의 벡터와 멘토들 및 멘티들의 키워드 벡터들에 대하여 비지도 학습(Unsupervised Learning)의 GMM(Gaussian Mixture Model) 기반 소프트-클러스터링(soft-clustering), 비지도 학습의 협업 필터링(Collaborative Filtering), 각 멘토 및 각 멘티에 대한 상호 만족도를 또는 유저의 새로운 관심 키워드 벡터를 기초로 한 RNN(Recurrent Neural Network) 중 적어도 하나를 적용하여 유저에 대한 멘토-멘티의 그룹 매칭을 수행한다.

멘토들 및 멘티들 각각은 하나의 키워드 벡터를 가지며, 키워드 벡터는 워드 임베딩 방식에 의해 생성된다. 대표적으로, 소프트-클러스터링(soft-clustering) 진행시 멘토들 및 멘티들 모든 각각의 유저들의 키워드 벡터들은 Semantic Space에 매핑되고, 이 공간 안에서 각 유저들을 클러스터링을 진행하게 된다.

Gaussian Mixture Model (GMM)은 이름 그대로 Gaussian 분포가 여러 개 혼합된 clustering 알고리즘이다. 현실에 존재하는 복잡한 형태의 확률 분포를 K개의 Gaussian distribution을 혼합하여 표현하자는 것이 GMM의 기본 아이디어이다. 이때 K는 데이터를 분석하고자 하는 사람이 직접 설정해야 한다.

Gaussian Mixture Model(GMM)은 기계 학습에서 Unsupervised Learning(클러스터링)에 많이 활용된다. 본 발명에서의 기계 학습의 여러 방법에 대한 구체적인 기술적 설명은 당업자에게 자명하고 또한 널리 공지되어 있으므로 생략한다.

유저의 관심 키워드의 벡터와 멘토들 및 멘티들의 키워드 벡터들을 병합하고, 병합된 키워드 벡터들에 대하여 GMM(Gaussian Mixture Model) 기반 소프트-클러스터링(soft-clustering)을 적용하여 그룹 매칭을 수행할 수 있다. 그 외, 실시예에 따라 통상의 비지도 학습의 협업 필터링(Collaborative Filtering), 각 멘토 및 각 멘티에 대한 상호 만족도를 또는 유저의 새로운 관심 키워드 벡터를 기초로 한 RNN(Recurrent Neural Network)를 통해 그룹 매칭을 수행할 수 있으며, 상기 나열된 방식들의 조합을 통해서도 그룹 매칭을 수행할 수 있다.

도 3는 본 발명의 자기 개발을 위한 강화 학습 시스템의 에이전트와 환경간의 동작을 도식적으로 보여주는 도면이다.

본 발명의 자기 개발을 위한 강화 학습 시스템은 에이전트(310)가 "행동(action)"을 취하고, 환경(330)으로부터 보상(reward)을 받는 구조로 강화 학습을 수행한다.

컴퓨터 에이전트가 역동적인 환경에서 반복적인 시행착오 상호작용을 통해 작업 수행 방법을 학습하는 기계 학습 기법의 한 유형이다. 이 학습 접근법을 통해 에이전트는 인간 개입 또는 작업 수행을 위한 명시적인 프로그래밍 없이 작업에 대한 보상 메트릭을 최대화하는 결정을 내릴 수 있다.

본 발명의 자기 개발을 위한 강화 학습 시스템에서 행동은 에이전트가 유저 및 멘티들이 수행할 미션들을 추천하는 동작을 말한다.

미션(mission)은 멘토링 그룹에서 수행되는 프로젝트(project)와 유사한 개념으로서, 유저가 속한 그룹 내 멘티들에 의해 제안된 미션들 및 멘토 및 관련 분야의 다른 멘토에 의해 제안된 미션들의 총합을 의미한다.

환경에서 에이전트에 제공하는 보상은 미션을 수행한 후 유저 및 멘티들에 의해 평가되는 만족도이다. 보상은 유저 및 멘티들이 평가한 만족도 결과의 가중치 평균이다.

본 발명의 자기 개발을 위한 강화 학습 시스템은 보상이 최대값을 갖도록 에이전트가 유저에게 미션을 추천하는 방식으로 정책을 수립하여 반복 진행된다.

이러한 반복 진행되는 미션 수행을 통하여 유저 및 멘티들은 자기 진로와 관련된 제반 지식들을 자연스럽게 취득하게 되고, 자신의 적성과 진로를 결정하는 데 유익한 정보를 취득할 수 있다.

도 4는 본 발명의 자기 개발을 위한 강화 학습 시스템의 에이전트의 동작 흐름도를 보여주는 도면이다.

도 4에 도시된 바와 같이, 에이전트가 현재의 상태를 고려하여 유저에게 최적으로 미션을 추천 또는 제안함으로써 시작된다(410).

유저는 현실 세계에서 에이전트에 의해 추천된 미션을 수행한다(420).

유저는 미션 수행 후 만족도를 평가하고, 자신의 관심 키워드 벡터를 업데이트한다(430).

유저가 속한 그룹 내 여러 명의 멘티(mentee)들 중 멘티 관심 키워드를 업데이트한 멘티들의 비율을 기초로 상태 전이 확률(T(s,a,s'))를 업데이트하고, 멘티 관심 키워드를 업데이트한 멘티들에게 추천된 미션의 수행 후 멘티들이 평가한 멘티 만족도 결과의 가중치 평균을 기초로 보상 함수(R(s,a,s'))를 업데이트한다(440).

추가적으로, 멘티에 의해 미리 정해진 롤모델 멘토(mentor)의 멘토 관심 키워드의 벡터와 유저 관심 키워드의 벡터 간의 코사인 유사도(cosine similarity)가 멀수록 보상이 작도록 할인율을 업데이트한다.

업데이트된 상태 전이 확률, 보상 함수 및 할인율을 기초로 정책을 업데이트한다.

본 명세서에서는 본 발명자들이 수행한 다양한 실시예 가운데 몇 개의 예만을 들어 설명하는 것이나 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고, 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.

Claims

적어도 하나의 프로세서에 의해 동작하는 적어도 하나의 에이전트(agent);
자기 개발을 위한 강화 학습 훈련 알고리즘을 실행시키기 위한 명령어들을 저장하는 비일시적 저장 매체
를 포함하되,
상기 강화 학습 훈련 알고리즘은,
상기 에이전트에 의해 유저가 속한 그룹에 관련된 현재 상태(S: state)에 대한 관찰이 수행되는 단계;
상기 에이전트는 미리 정의된 정책(policy)에 기반하여 상기 현재 상태에 대응하는 행동(a: action)을 선택하며, 선택된 행동에 대응하는 미션을 상기 유저에게 추천하는 단계;
상기 유저가 상기 에이전트에 의해 추천된 상기 미션을 수행한 후 평가된 유저 만족도, 및 상기 유저의 수정된 유저 관심 키워드(keyword)의 벡터가 상기 에이전트에 의해 수신되는 단계;
상기 에이전트에 의해 상기 유저가 속한 그룹 내 여러 명의 멘티(mentee)들 중 멘티 관심 키워드를 업데이트한 멘티들의 비율을 기초로 상태 전이 확률(state transition probability)을 업데이트하는 단계;
상기 멘티 관심 키워드를 업데이트한 멘티들에게 추천된 미션의 수행 후 상기 멘티들이 평가한 멘티 만족도 결과의 가중치 평균을 기초로 보상 함수(reward function)를 업데이트하는 단계;
상기 멘티 관심 키워드를 업데이트한 각각의 멘티가 미리 정한 롤모델 멘토(mentor)의 멘토 관심 키워드 벡터와 상기 유저 관심 키워드의 벡터 간의 코사인 유사도(cosine similarity)가 멀수록 보상이 작도록 할인율을 업데이트하는 단계; 및
업데이트된 상기 상태 전이 확률, 상기 보상 함수 및 상기 할인율을 기초로 상기 정책을 업데이트하는 단계
를 포함하고,
업데이트된 상기 정책은 상기 보상 함수의 가중치 평균이 최대값이 되도록 상기 에이전트가 다음 행동(next action)을 취하도록 설정되는,
자기 개발을 위한 강화 학습 시스템.
청구항 1에 있어서,
상기 자기 개발을 위한 강화 학습 훈련 알고리즘은 마르코프 결정 과정(MDP : Markov Decision Process)에 기초하며, Q-러닝(Learning)을 이용하여 벨만 방정식(Bellman Equation)의 미리 정의된 변수의 최적 조건을 찾도록 수행되는 것을 특징으로 하는,
자기 개발을 위한 강화 학습 시스템.
청구항 2에 있어서,
상기 유저 관심 키워드 및 상기 멘티 관심 키워드는 진로, 진학 및 취업과 관련된 자연어를 포함하고, 상기 멘토 관심 키워드는 멘토링 그룹에 멘토링하는 내용과 관련된 자연어를 포함하고,
상기 유저 관심 키워드의 벡터, 상기 멘티 관심 키워드의 벡터 및 상기 멘토 관심 키워드의 벡터는 신경망(NN : neural network)을 이용하여 자연어 처리의 워드 임베딩(embedding) 방식으로 생성되는,
자기 개발을 위한 강화 학습 시스템.
청구항 3에 있어서,
상기 현재 상태는 상기 유저 및 상기 멘티에 의해 입력된 정보로서, 워드 임베딩(embedding) 방식으로 생성된 벡터 형태를 갖고,
상기 행동은 상기 에이전트가 상기 유저 및 상기 멘티들이 수행할 미션들을 추천하는 동작을 포함하고, 상기 미션들은 상기 유저가 속한 그룹 내 멘티들에 의해 제안된 미션들 및 상기 멘토 및 관련 분야의 다른 멘토에 의해 제안된 미션들의 총합인, 자기 개발을 위한 강화 학습 시스템.
청구항 1에 있어서,
상기 에이전트는 상기 유저 당 하나씩 배치되고,
상기 유저 마다 배치된 에이전트들은 각각 서로 다른 환경(environment)에서 동작하되, 유저 클러스터 내 유저들의 에이전트들의 환경의 유사도는 서로 다른 유저 클러스터의 유저들의 에이전트들의 환경의 유사도보다 높은,
자기 개발을 위한 강화 학습 시스템.
청구항 1에 있어서,
상기 현재 상태에 대한 관찰이 수행되는 단계; 상기 추천하는 단계; 상기 수신되는 단계; 상기 상태 전이 확률을 업데이트하는 단계; 상기 보상 함수를 업데이트하는 단계; 상기 할인율을 업데이트하는 단계; 및 상기 정책을 업데이트 하는 단계는 복수 회 반복되고,
상기 상태 전이 확률을 업데이트하는 단계는 상기 에이전트에 의해 추천된 미션을 수행한 상기 유저 및 상기 멘티들로부터 관심 키워드의 수정을 입력받은 경우, 수정된 관심 키워드들을 기초로 상기 유저의 상기 현재 상태를 다음 상태로 업데이트하는 것을 포함하는,
자기 개발을 위한 강화 학습 시스템.
청구항 1에 있어서,
상기 보상 함수를 업데이트하는 단계는 상기 유저 만족도를 포함하여 계산하되, 상기 유저 만족도에 가중치를 부여하여 계산되는,
자기 개발을 위한 강화 학습 시스템.
청구항 1에 있어서,
상기 정책을 업데이트하는 단계 이후에 상기 유저 관심 키워드 벡터와 상기 멘티 관심 키워드 벡터의 코사인 유사도가 미리 결정된 임계치를 초과하는 경우 상기 에이전트가 상기 유저를 다른 멘토링 그룹에 매칭하는 단계;
를 더 포함하는, 자기 개발을 위한 강화 학습 시스템.
청구항 8에 있어서,
상기 유저를 상기 다른 멘토링 그룹에 매칭하는 것은 상기 유저 관심 키워드의 벡터, 상기 멘티 관심 키워드의 벡터들에 대하여 비지도 학습(Unsupervised Learning)의 GMM(Gaussian Mixture Model) 기반 소프트-클러스터링(soft-clustering), 비지도 학습의 협업 필터링(Collaborative Filtering), 각 멘토 및 각 멘티에 대한 상호 만족도를 또는 유저의 새로운 관심 키워드 벡터를 기초로 한 RNN(Recurrent Neural Network) 중 적어도 하나를 적용하여 수행되는,
자기 개발을 위한 강화 학습 시스템.