KR102106684B1

KR102106684B1 - 동적인 피쳐 획득과 분류를 위한 공동 학습 프레임워크

Info

Publication number: KR102106684B1
Application number: KR1020180020952A
Authority: KR
Inventors: 양은호; 심하진
Original assignee: 한국과학기술원
Priority date: 2018-02-22
Filing date: 2018-02-22
Publication date: 2020-05-04
Also published as: KR20190101043A

Abstract

일 실시예에 따른 컴퓨터로 수행되는 프레임워크 시스템에 의하여 수행되는 공동학습 프레임워크를 제공하는 방법은, RL 에이전트에서 각 데이터 지점에 대하여 적어도 하나 이상의 특징을 획득함에 따라 상기 획득된 특징에 대한 분류 손실과 획득 비용과 관련된 프레임워크를 공식화하는 단계; 상기 프레임워크를 통하여 RL 에이전트와 분류기를 공동으로 학습시키는 단계; 및 상기 RL 에이전트와 분류기에서 공동으로 학습을 수행함에 따라 새로운 데이터 지점에 대한 특징 획득을 추론하는 단계를 포함할 수 있다.

Description

동적인 피쳐 획득과 분류를 위한 공동 학습 프레임워크{A JOINT LEARNING FRAMEWORK FOR ACTIVE FEATURE ACQUISITION AND CLASSIFICATION}

아래의 설명은 공동 학습에 대한 프레임워크에 관한 것이다.

심층 학습(Deep learning)은 주로 광대한 양의 데이터에 대한 인터넷으로부터의 쉬운 접근에 의해 최근 몇 년 동안 크게 성장하였다. 몇 가지 예로, 시각 인식(visual recognition) 및 기계 번역과 같은 다양한 태스크들에 대한 전형적이고 표준적인 알고리즘들의 상당한 발전을 해왔다. 정확한 딥 네트워크 학습에 대한 기본적인 가정은 모델이 모든 이용 가능한 특징들을 인지한 후에 예측을 할 수 있도록 데이터가 매우 적은 비용 또는 무비용으로 쉽게 이용 가능하다는 것이다. 그러나, 정보 습득은 때때로 모델에 의해 영향을 받지 않지 않을 뿐 아니라(그 반대의 경우도 있다) 비용을 초래한다. 예를 들어, 질병에 대해 환자를 진단하는 태스크를 고려해보면, 의사는 단지 환자가 처음에 보고한 몇 가지 증상들로 진단을 시작한다. 환자가 최종적인 진단에 충분한 확신을 가질 때까지, 그 의사는 환자가 갖고 있는 잠재적인 질병 세트를 좁히기 위하여 다른 증상들을 질의하거나 어떤 의료적인 검사들을 수행할 것이다. 이러한 의료 테스트를 통해 모든 특징들을 습득하는 것은 환자들에게 재정적인 부담을 주고, 더 심각하게는 적절한 때에 적절한 치료를 받지 못하게 하는 리스크를 증가시킬 수 있다. 게다가, 무의미한 특징들을 수집하는 것은 오직 노이즈를 더하고 예측을 불안정하게 만든다.

이에 따라 능동적으로 특징을 획득하고, 특징 분류를 위한 공동 학습 프레임워크가 제안될 필요가 있다.

능동적 특징 획득 및 분류를 위한 공동 학습 프레임워크를 제공할 수 있다. 분류 알고리즘을 위한 동적인 특징 획득을 위하여 end-to-end 방식으로 RL 에이전트와 분류기를 동시에 공동으로 학습하는 프레임워크를 제공할 수 있다.

컴퓨터로 수행되는 프레임워크 시스템에 의하여 수행되는 공동학습 프레임워크를 제공하는 방법은, RL 에이전트에서 각 데이터 지점에 대하여 적어도 하나 이상의 특징을 획득함에 따라 상기 획득된 특징에 대한 분류 손실과 획득 비용과 관련된 프레임워크를 공식화하는 단계; 상기 프레임워크를 통하여 RL 에이전트와 분류기를 공동으로 학습시키는 단계; 및 상기 RL 에이전트와 분류기에서 공동으로 학습을 수행함에 따라 새로운 데이터 지점에 대한 특징 획득을 추론하는 단계를 포함할 수 있다.

상기 획득된 특징에 대한 분류 손실과 획득 비용과 관련된 프레임워크를 공식화하는 단계는, 상기 데이터 지점에 대하여 기 설정된 순서로 특징들을 능동적으로 습득하는 단계를 포함할 수 있다.

상기 획득된 특징에 대한 분류 손실과 획득 비용과 관련된 프레임워크를 공식화하는 단계는, 상기 RL 에이전트로부터 상기 각 데이터 지점에 따라 선택되는 특징들의 서브 세트에 따라 일정 시간까지 획득된 특징을 탐색하고, 상기 탐색된 특징 중 일부의 특징을 선택하는 행동을 수행함에 따라 특징을 획득하는 단계를 포함할 수 있다.

상기 획득된 특징에 대한 분류 손실과 획득 비용과 관련된 프레임워크를 공식화하는 단계는, 상기 획득된 특징에 대한 분류 손실과 획득 비용을 동시에 최소화하는 모델을 학습시키기 위하여 프레임워크를 공식화하는 단계를 포함할 수 있다.

상기 획득된 특징에 대한 분류 손실과 획득 비용과 관련된 프레임워크를 공식화하는 단계는, 상기 획득된 특징에 대하여 환경에 의하여 주어지는 보상을 예측하기 위하여 기 설정된 기준 이상의 정보가 제공되었는지 여부를 측정하고, 상기 RL 에이전트에서 상기 각 데이터 지점에서의 분류 수행 여부에 따라 보상을 제공하기 위한 프레임워크를 구성하는 단계를 포함할 수 있다.

상기 획득된 특징에 대한 분류 손실과 획득 비용과 관련된 프레임워크를 공식화하는 단계는, 상기 RL 에이전트에 딥러닝을 수행함으로써 상태-행동 값 함수를 근사화하여 정책을 탐색하는 단계를 포함할 수 있다.

상기 프레임워크를 통하여 RL 에이전트와 분류기를 공동으로 학습시키는 단계는, 상기 RL 에이전트와 상기 분류기를 공동으로 학습시킴에 따라 특징 또는 숨은 특징들을 공유하고, 상기 RL 에이전트와 상기 분류기에서 공유되는 특징 또는 숨은 특징들의 서브 세트를 인코딩하는 단계를 포함할 수 있다.

상기 프레임워크를 통하여 RL 에이전트와 분류기를 공동으로 학습시키는 단계는, 상기 RL 에이전트와 상태-행동값 함수에 의해 결정되는 정책에 따라 각 데이터 지점에 대해 사건을 생성하고, 상기 사건의 분류에 사용되는 특징의 서브 세트를 선택하고, 행동을 취함에 따라 상기 에이전트가 정지 행동을 선택할 때까지 획득된 특징에 대한 특징 획득 비용과 획득된 특징 값을 에이전트에게 반환하는 단계를 포함할 수 있다.

상기 프레임워크를 통하여 RL 에이전트와 분류기를 공동으로 학습시키는 단계는, 상기 분류기에서 상기 획득된 특징으로부터 선택된 적어도 하나 이상의 특징의 품질을 평가하고, 상기 평가된 품질에 기반하여 상기 RL 에이전트에게 보상을 부여하는 단계를 포함할 수 있다.

컴퓨터로 수행되는 프레임워크 시스템에 의하여 수행되는 공동학습 프레임워크를 제공하는 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램은, RL 에이전트에서 각 데이터 지점에 대하여 적어도 하나 이상의 특징을 획득함에 따라 상기 획득된 특징에 대한 분류 손실과 획득 비용과 관련된 프레임워크를 공식화하는 단계; 상기 프레임워크를 통하여 RL 에이전트와 분류기를 공동으로 학습시키는 단계; 및 상기 RL 에이전트와 분류기에서 공동으로 학습을 수행함에 따라 새로운 데이터 지점에 대한 특징 획득을 추론하는 단계를 포함할 수 있다.

상기 획득된 특징에 대한 분류 손실과 획득 비용과 관련된 프레임워크를 공식화하는 단계는, 상기 데이터 지점에 대하여 기 설정된 순서로 특징들을 능동적으로 습득하고, 상기 RL 에이전트로부터 상기 각 데이터 지점에 따라 선택되는 특징들의 서브 세트에 따라 일정 시간까지 획득된 특징을 탐색하고, 상기 탐색된 특징 중 일부의 특징을 선택하는 행동을 수행함에 따라 특징을 획득하는 단계를 포함할 수 있다.

상기 획득된 특징에 대한 분류 손실과 획득 비용과 관련된 프레임워크를 공식화하는 단계는, 상기 획득된 특징에 대한 분류 손실과 획득 비용을 동시에 최소화하는 모델을 학습시키기 위하여 프레임워크를 구성하고, 상기 획득된 특징에 대하여 환경에 의하여 주어지는 보상을 예측하기 위하여 기 설정된 기준 이상의 정보가 제공되었는지 여부를 측정하고, 상기 RL 에이전트에서 상기 각 데이터 지점에서의 분류 수행 여부에 따라 보상을 제공하고, 상기 RL 에이전트에 딥러닝을 수행함으로써 상태-행동 값 함수를 근사화하여 정책을 탐색하는 단계를 포함할 수 있다.

상기 프레임워크를 통하여 RL 에이전트와 분류기를 공동으로 학습시키는 단계는, 상기 RL 에이전트와 상태-행동 값 함수에 의해 결정되는 정책에 따라 각 데이터 지점에 대해 사건을 생성하고, 상기 사건의 분류에 사용되는 특징의 서브 세트를 선택하고, 행동을 취함에 따라 상기 에이전트가 정지 행동을 선택할 때까지 획득된 특징에 대한 특징 획득 비용과 획득된 특징 값을 에이전트에게 반환하는 단계를 포함할 수 있다.

일 실시예에 따른 프레임워크 시스템은 동적인 특징 획득을 통하여 현재 가지고 있는 정보를 기반으로 다음에 필요한 정보가 무엇인지 판단하고, 필요한 만큼 비용 대비 효율적으로 정보를 요청 및 획득할 수 있다.

일 실시예에 따른 프레임워크 시스템은 공동 학습 프레임워크를 통하여 분류 손실과 획득 비용을 최소화할 수 있다.

도 1은 일 실시예에 따른 프레임워크 시스템에서 제안하는 프레임워크를 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 프레임워크 시스템에서 제안하는 프레임워크를 통한 공유 효과를 설명하기 위한 예이다.
도 3은 일 실시예에 따른 프레임워크 시스템에서 CUBE 데이터 세트를 나타낸 예이다.
도 4는 일 실시예에 따른 프레임워크 시스템의 공동 학습 프레임워크를 제공하는 방법을 설명하기 위한 흐름도이다.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.

아래의 실시예에서는 특징 획득 비용을 기반으로 하는 조정기(regularizer)를 통해 최적화 문제를 공식화할 수 있다. 알려지지 않은 특징들이 발견되어야 하는지 결정하는 과정은 충분하지만 중복되지 않은 특징들을 수집할 때까지 순차적으로 반복될 수 있다. 특징 습득에서, 미리 정의된 특징 획득 비용을 지불하고 최종 예측에 따라 보상 또는 벌점을 받을 수 있다. 그리고 나서, 제안된 최적화 문제를 체계적으로 해결하기 위하여, 예측용 분류기(classifier) 및 특징 획득용 RL 에이전트를 갖는 순차 특징 습득 프레임워크를 제공할 수 있다. 프레임워크에서 분류기는 RL 에이전트를 위한 추정된 환경으로서 이해될 수 있고, 이는 RL 에이전트를 위한 보상이 우리의 분류기가 최종 결정에 얼마나 확신을 가지는지에 기반해야 한다는 점에서 직관적이다. 누락 항목들을 갖는 새로운 데이터 지점이 주어지면, RL 에이전트는 히스토리에 기반해 순차적으로 특징들을 선택하게 된다. RL 에이전트가 특징 획득을 종료하기로 결정하면, 분류기는 지금까지 RL 에이전트에 의해 획득된 특징들을 기반으로 예측을 수행할 수 있다. 동시에, 현재의 특징 서브 세트가 예측을 위해 적합한지에 대하여 RL 에이전트에 신호를 보내기 위하여 최종 보상은 분류기에 의한 예측으로부터 설정될 수 있다.

도 1은 일 실시예에 따른 프레임워크 시스템에서 제안하는 프레임워크를 설명하기 위한 도면이다. 프레임워크 시스템은 순차 특징 획득을 위한 강화 학습 프레임워크를 구성할 수 있다.

프레임워크 시스템은 p개의 특징을 갖는 데이터 지점

를 라벨

와 매핑하는 함수

를 학습하는 표준 K-클래스(standard K-class) 분류 문제를 고려하자. 여기서 기본 가정은 특징 벡터는 고정된 차원이며, 모두 제시되어 있다는 점이다. 이때, 누락된 항목들이 존재할 수 있다.

프레임워크 시스템은 각 데이터 지점

에 대하여 기 설정된 순서(예를 들면, 순차적인 순서)로 특징들을 능동적으로 획득할 수 있다. 특히, t=0에서 공 획득 집합(empty acquired set)

에서 시작될 수 있다. 매 시간 간격 t마다, 선택되지 않은 특징들의 서브 세트

를 선택하고, 비용

에서 누락된 누락 항목들

의 값을 검사할 수 있다. 시간 t에서의 검사를 수행한 후에

값들에 접근할 수 있다. 시간

(

는 모든 데이터 지점 i=1, ... , n과 반드시 동일한 것은 아니다)까지 특징들을 반복적으로 획득하고 관찰된 특징들의 부분 세트(집합)

가 주어졌을 때

를 분류한다. 특징 획득의 순서 및 대응하는 비용은 샘플마다 다양하지만, 맥락상 명확할 때 샘플 인덱스 i를 삭제한다.

프레임워크 시스템은 분류 손실과 획득 비용을 동시에 최소화하는 모델을 학습시키기 위하여, 아래와 같은 최적화 문제로 우리의 프레임워크를 공식화할 수 있다.

수식 1:

여기서,

은 기-정의된 손실 함수이고,

는 순차적인 선택이 정책(policy)

에 의해 수행될 때 각 특징이 마지막에(또는

에) 획득할 것인지 나타낸다. 분류기

는 오직

인 이용 가능한 특징들에만 접근 가능하다. 수식 1의 프레임워크에서, 분류기(110)의 최적화 파라미터들(

) 과 선택 정책(

)은 다른 방식에 의해 획득될 수 있다.

에 대해 수식 1을 해결하는 것은 도 1에 도시된 바와 같이, RL 에이전트(Reinforcement Learning Agent)(120)를 위한 보상이 특정

를 기반으로 하는 의도적인 강화 설계를 통해 달성될 수 있다.

도 1을 참고하면, 순차 특징 획득을 위한 강화 학습 프레임워크의 도면을 나타낸 것이다. 각 사건(episode)은 분류(classification)에 사용되는 특징들의 서브 세트 선택에 대응한다. RL 에이전트는 어느 정보(또는 특징)가 얻어지는지 선택하기 위하여 행동을 취하고, RL 에이전트가 정지 행동을 선택할 때까지 환경은 특징 획득 비용과 함께 획득된 특징에 대한 특징 값을 RL 에이전트에게 반환한다. 이때, 환경은 분류기

를 기반으로 선택된 특징들의 품질을 평가하고 RL 에이전트에게 보상을 부여할 수 있다.

구체적으로,

에 관하여 수식 1을 해결하기 위한 RL 에이전트의 구조를 설명하기로 한다. RL 에이전트의 구조를 설명하기 위하여 상태(State), 행동(Action), 보상과 환경(Reward and environment), 정책(Policy)에 대하여 설명하기로 한다.

상태: 정보 특징들은 클래스마다 다르기 때문에, RL 에이전트가 선택해야 하는 특징들의 서브 세트는 데이터 지점마다 다를 것이다. 트루 클래스에 대한 어떤 사전 정보 없이, 누락 특징들의 중요성은 현재 이용 가능한 특징들인

로부터 추정될 수 있다. 이를 위하여, 상태

를

와

의 연결로서 설계하고,

의 j번째 항목인

는

라면 0으로 설정되고, 그렇지 안다면 j번째 특징의 값으로 설정된다. 여기서

는 앞서 설명한 바와 같이 정의되며, 이는 시간 t까지 어느 특징들이 습득되었는지를 나타낸다.

는 j번째 특징이 이전에 검사됐다는 것을 의미하고(예를 들어

),

은 j번째 특징이 아직 발견되지 않았다는 것을 의미한다.

행동: RL 에이전트는 어느 특징들이 검사될 것인지 선택할 수 있다. 모든 가능한 행동들의 세트는

의 멱집합으로 간단히 정의된다(이는 공집합

를 포함하고, 이는 더 이상 특징을 습득하지 않는다는 것을 의미한다). 실시예에서 간결함을 위하여 RL 에이전트가 한 번에 하나의 특징을 획득하고, 이 가정 하에서 행동 공간의 크기는

로 가정하기로 한다. 게다가, 시간 t에서, 대응하는 특징들이 이미 이전에 선택되었다면 일부 행동들은 유효하지 않을 것이다.

은 어떤 시간에도 유효한 특별한 행동이다. RL 에이전트가

를 선택한다면, 알려지지 않은 특징들을 찾는 것을 중지하고 현재 상태

에 기반하여 예측할 수 있다.

보상과 환경: 보상을 음의 습득 비용으로 정의할 수 있다. 특히,

사건(episode)에서,

는

를 제외한 모든 행동들에서

로 설정된다. 여기서, 보상은 기 정의되고 RL 에이전트에 알려진다.

에서

까지의 상태 변화는 결정론적이지만 사실상 시간 t에서 획득을 관찰하기 전까지

는 RL 에이전트에 알려지지 않기 때문에 여전히 간단하지 않다(not trivial).

'특징 획득'의 행동들과 반대로, 더 이상의 특징 값들이

로 나타나지 않을 것이기 때문에

행동에 의한 상태 변화는 간단하다(trivial). 한편, 보상을 정의하는 것은 매우 어렵다.

를 위해 '환경'에 의해 주어지는 보상은 예측을 위하여 지금까지 얼마나 충분한 정보가 제공되었는지 측정해야 한다. 여기서 보상은, 제공된 특징들이 충분할 때 완전히 정확한 예측을 하는 가상의 분류기(또는 환경)를 포함한다고 가정한다. 분류기가 어떤 데이터 지점

에서 올바른 분류를 하지 않는다면, 음의 보상

가 주어져야 한다. 그렇지 않으면, RL 에이전트는 보상

를 받는다. 그러나, 완벽한 분류기를 실제로 갖고 있지 않기 때문에 이 '충분함'이라는 개념은 RL 에이전트에 전혀 알려져 있지 않다.

대신에, 분류기

를 신탁 대리인으로 사용하고

의 예측을 기반으로 충분함의 양을 추정할 수 있다. 최종 보상

을

로 설정한다면, 최고의 정책(policy)

를 찾는 것은 아래와 같이 분류기

가 고정된 채

의 관점에서 수식 1을 해결하는 것이다.

여기서,

는 최고의 정책

에 의한 최종 상태이고,

는 최고의 정책

에 대응하는

이다.

정책: 최적의 정책을 찾기 위하여, RL 에이전트를 위해 Q-learning(예를 들면, Watkins 및 Dayan 1992에서 제안된 Q-learning)을 사용할 수 있다. 구체적으로, 순차적인 상태 공간에 대해 상태-행동 값 함수를 근사화하기 위하여 deep Q-learning(예를 들면, Mnih 등 2013에서 제안된 deep Q-learning)을 채택할 수 있다. 목표 네트워크의 지연 업데이트와 재생 메모리를 사용함으로써 deep Q-learning이 더욱 더 안정적이 되도록 만들 수 있다. 실시예에서 제안하는 순차 특징 습득 프레임워크는 Q-learning에 제한되지 않으며, policy gradient methods, A3C, TRPO와 같은 임의의 다른 표준 정책 학습 방법들 또한 실행 가능한 옵션들이다.

프레임워크 시스템은 프레임워크에서 RL 에이전트와 분류기를 공동으로 학습시킬 수 있다. 다시 말해서, 프레임워크 시스템은

의 매개 변수가 있는 상태-행동 값 함수 Q 및

의 매개 변수가 있는 분류기 C(Q와 매치하기 위하여

라고 부르는 점을 주목하자)를 학습할 수 있다.

두 개의 구성요소들은 입력 s를 공유하기 때문에, 멀티태스크를 통하여 동시에 학습시킬 수 있다. 직관적으로, 둘은 수식 1에서 단일한 공동 학습 목표를 최적화하는 데 목표가 있기 때문에 Q 및 C는 기 설정된 기준 범위의 정보량을 공유해야 한다. 그러나, 기 설정된 기준 범위 이상의 과도한 공유는 각 모델의 유연성을 감소시킬 수 있다. 이에 따라, 적당한 정보 공유 범위의 수준을 탐색할 수 있다.

도 2를 참고하면, 프레임워크 시스템에서 제안하는 프레임워크를 통한 공유 효과를 설명하기 위한 예이다. 도 2(a)는 공유의 효과를 나타낸 그래프이다. Q 및 C 사이의 공유 효과를 확인하기 위하여, 다양한 공유 주제를 갖고, 100개의 특징들(10개의 정보 특징들 및 90개의 더미 특징들)을 갖는 CUBE 데이터 세트에 실시예에서 제안된 모델(프레임워크)을 사용하여 수집된 특징들의 평균 수 및 분류 정확도를 확인할 수 있다. Q 및 C 둘은 사이즈가 50-30-50인 3개의 숨겨진 계층을 갖는 MLP(multi-layer perceptrons, MLP)이다. 공유 계층의 수는 0개(완전 분리)에서 3개(완전 공유)까지 변화시킨다. 점들은 100번의 실행으로부터의 평균 정확도이며, 에러 막대들은 제1 분위 및 제3 분위를 나타낸다. 도 2(b)는 RL 에이전트 Q 및 환경 C에 대한 공동 학습 프레임워크를 나타낸 것이다.

부분적으로 정보를 공유하는 공유 모델이 정확도 및 관찰된 특징 수의 관점에서 공유하지 않거나 완전히 공유하는 극단적인 모델보다 우수하며, 적은 오차를 발생시킨다. 이에, 숨은 특징들을 공유하는 RL 에이전트 Q와 분류기 C를 공동으로 학습시키는 프레임워크를 제안한다. 예를 들면, Q 및 C가 다계층 퍼셉트론인 경우에, 그들은 처음 몇 계층만 공유할 것이다. 이 공유된 계층들은 출력이 Q와 C로 나오는 공유 인코더

로 고려될 수 있다. Q와 C를 공동으로 학습시키는

프레임워크는 다음과 같은 방법으로 공식화될 수 있다. 매 시간 t 마다, 상태

는 공유 인코더

에 입력된다. 그리고 나서, 인코딩된 표현식

는 Q와 C에 주어진다.

프레임워크의 전체적인 구조는 도 2(b)에 제시되었다. Q와 C가 자체적인 손실 삼수를 갖고 있는 반면, 공유된 함수

은 응용에 따라 Q와 C 모두 또는 어느 하나에 의해 학습될 수 있다(예를 들어, Q 학습에 있어서

는 상수로 고려될 수 있고,

는 오직 C 학습을 통해 학습될 수 있으며 반대도 된다).

프레임워크 시스템에서 제안된 공유 학습 프레임워크에서 학습 및 추론을 수행할 수 있다. 공유 학습 프레임워크에서 end-to-end 방식으로 어떻게 Q과 C를 공동으로 학습시키는 방법에 대하여 설명하기로 한다. 기본적인 학습 절차를 따르고 DQN 학습의 두 가지 핵심 메커니즘을 채택할 수 있다. 이때, 작은 변화를 방지하기 위하여 재생 메모리 및 목표 Q-네트워크

의 지연 업데이트를 채택할 수 있다. 특히, 학습 단계에서, RL 에이전트는 현재 Q 값에 의해 결정되는 정책에 따라 각 데이터 지점에 대해 사건

를 생성한다. 각 상태에서, 유효하지 않은 행동들의 Q 값은

으로 설정된다. 모든 경험 히스토리인

에 대한

은 학습하는 동안 종전 경험들에 재접근할 수 있도록 재생 메모리에 저장된다. 이때, 메모리의 용량이 초과되면 가장 최근 경험들이 저장된다. 이는 샘플의 의존도를 낮춤으로써 deep Q-learning을 더 안정적으로 만든다.

중간 보상

는 환경으로부터 온다. '특징 획득'의 행동에 대하여 RL 에이전트는 기 정의된 특징 획득 비용

를 얻는다. 반면,

일 때, 보상은 C로부터의 예측 결과에 기반하여 계산된다. 그러나, 이때 미완성 C로부터의 예측 결과는 노이즈로 인하여 보상 계산이 히스토리가 재생 메모리로부터 샘플링될 때까지 지연된다. 그러므로, 사건을 생성함에 있어서, 경험 튜플(experience tuple)은

의 형태로 저장된다. 이 경험에 대한 보상은 소규모 배치에 샘플링되고 훈련을 위해 사실상 사용될 때 더 똑똑한 C를 통해 계산될 수 있다.

각 샘플에 대한 사건들을 생성함에 따라, 소규모 배치

는 재생 메모리에서 추출될 수 있다. 행동이

인 경험 튜플들에서, 보상은 이 지점에서의 현재 C를 통해 추정될 수 있다.

학습을 위해 소규모 배치가 주어지면, 제곱 오차

를 최소화하기 위하여 Q의 모든 파라미터들은 gradient decent 방법에 의해 학습된다. 이때,

은

이며 안정성에 대한 지연 업데이트

를 갖는다. 디스카운트하지 않은 특징 획득에 대한 전체적인 비용에 관심이 있기 때문에 디스카운트 인자(discount factor)가 1이라는 점에 주목할 가치가 있다.

Q가 학습되는 동안, C 또한 공동으로 학습된다. C는 누락 값들로 분류 태스크를 수행하기로 되어있기 때문에, 불완전 데이터 세트로 학습시킬 수 있다. 재생 메모리의 소규모 배치로부터 불완전 데이터를 시뮬레이션 할 수 있다. 소규모 배치와 함께, 크로스 엔트로피 손실

을 최소화하기 위한 gradient descent 방법으로 C가 학습될 수 있다. 여기서

는 실제 라벨에 대응하는 출력(또는

계층 이후의 확률)이다. Q 및 C는 정지 기준이 만족될 때까지 교대로 업데이트될 수 있다.

일단 Q 및 C가 학습됨에 따라 새로운 데이터 지점에 대해 능동적 특징 획득을 수행할 수 있다. 시작 상태는 부분적으로 알려진 특징들의 세트이거나 완전히 빈 세트일 수 있다. RL 에이전트는

행동이 선택될 때까지 최대 Q 값을 갖는 행동을 선택함으로써 어느 특징들이 습득되어야 하는지 결정할 수 있다.

가 선택될 때, C는 지금까지 습득된 특징들에 기반하여 예측하는 추론을 수행할 수 있다.

도 3을 참고하면, 8개 클래스에 p 차원의 실수 벡터들로 구성된 CUBE 데이터 세트를 나타낸 예이다.

프레임워크 시스템은 누락된 특징들을 통하여 인코딩할 수 있다. 공동 학습 프레임워크에서 특징 인코딩

의 예로서 참고문헌 " Vinyals, O.; Bengio, S.; and Kudlur, M. 2016. Order matters: sequence to sequence for sets. In International Conference on Learning Representations."에서 제안된 set encoding 방법을 적용할 수 있다. Set encoding은 두 가지 모호한 경우, 1) j번째 항목이 누락 항목인 경우, 2) j번째 항목이 발견되지만 그 값이 0인 경우를 자연스레 구별하기 때문에

에 적합하다.

참고문헌에서 set encoding은 읽기 블록(reading block)이라 불리는 신경망은 입력의 각 요소

를 실수 벡터

와 매핑하고, 처리 블록(process block)이라 불리는 LSTM은

를 처리하고 최종 세트 삽입을 생성하기 위하여 주목(attention) 메커니즘을 반복적으로 적용하는 두 가지의 구성을 포함한다.

프레임워크 시스템은 각 상태

를 표현하기 위하여 set encoding 방법을 채택할 수 있다. 특징 인덱스와 특징 인덱스로부터 관찰된 값의 쌍인

를 세트 내 원소(element)로 취급할 수 있다. 특징 인덱스의 실제 값은 어떠한 정보도 전달하지 않기 때문에 각 관찰된 특징을

로 나타낸다. 여기서

는 좌표 정보를 통합하기 위하여 j번째 좌표에는 1, 그 외에는 0을 갖는 one-hot 벡터이다. 이후, 상기에 소개된 (처리 블록 이후

을 생성하는 읽기 블록을 거치는) set encoding 메커니즘을 통해, 관찰된 특징들을 갖는 세트 삽입(set embedding)을 생성한다.

도 4는 일 실시예에 따른 프레임워크 시스템의 공동 학습 프레임워크를 제공하는 방법을 설명하기 위한 흐름도이다.

단계(410)에서 프레임워크 시스템은 RL 에이전트에서 각 데이터 지점에 대하여 적어도 하나 이상의 특징을 획득할 수 있다. 프레임워크 시스템은 데이터 지점에 대하여 기 설정된 순서로 특징들을 능동적으로 습득할 수 있다. 예를 들면, 순방향 또는 역방향 등의 순서에 기초하여 특징들을 능동적으로 습득할 수 있다. 프레임워크 시스템은 RL 에이전트로부터 각 데이터 지점에 따라 선택되는 특징들의 서브 세트에 따라 일정 시간까지 획득된 특징을 탐색하고, 탐색된 특징 중 일부의 특징을 선택하는 행동을 수행함에 따라 특징을 획득할 수 있다.

단계(420)에서 프레임워크 시스템은 획득된 특징에 대한 분류 손실과 획득 비용과 관련된 프레임워크를 공식화할 수 있다. 프레임워크 시스템은 획득된 특징에 대한 분류 손실과 획득 비용을 동시에 최소화하는 모델을 학습시키기 위한 프레임워크를 구성할 수 있다. 프레임워크 시스템은 획득된 특징에 대하여 환경에 의하여 주어지는 보상을 예측하기 위하여 기 설정된 기준 이상의 정보가 제공되었는지 여부를 측정하고, RL 에이전트에서 각 데이터 지점에서의 분류 수행 여부에 따라 보상을 제공하기 위한 프레임워크를 구성할 수 있다. 이때, 프레임워크 시스템은 RL 에이전트에 딥러닝을 수행함으로써 상태-행동 값 함수를 근사화하여 정책을 탐색할 수 있다.

단계(430)에서 프레임워크 시스템은 프레임워크를 통하여 RL 에이전트와 분류기를 공동으로 학습시킬 수 있다. 프레임워크 시스템은 RL 에이전트와 분류기를 공동으로 학습시킴에 따라 특징 또는 숨은 특징들을 공유하고, RL 에이전트와 분류기에서 공유되는 특징 또는 숨은 특징들의 서브 세트를 인코딩할 수 있다. 이때, 특징을 획득함에 있어서 발생하는 누락 항목을 다루기 위하여 숨은 특징들의 서브 세트를 인코딩한다. 프레임워크 시스템은 RL 에이전트와 상태-행동 값 함수에 의해 결정되는 정책에 따라 각 데이터 지점에 대해 사건을 생성하고, 사건의 분류에 사용되는 특징의 서브 세트를 선택하고, 행동을 취함에 따라 에이전트가 정지 행동을 선택할 때까지 획득된 특징에 대한 특징 획득 비용과 획득된 특징 값을 에이전트에게 반환할 수 있다.

단계(440)에서 프레임워크 시스템은 RL 에이전트와 분류기에서 공동으로 학습을 수행함에 따라 새로운 데이터 지점에 대한 특징 획득을 추론할 수 있다.

예를 들면, 비용 인식 순차 특징 선택은 특징이 완전히 제공되지 않고 각 특징의 콜렉션이 의료 데이터와 같이 가변 비용을 초래하는 상황에서 사용될 수 있다. 예측 손실과 특징 획득 비용을 동시에 최소화하는 최적화 문제로 공식화하고 분류기와 RL 에이전트에 대한 공동 학습 프레임워크를 도출하였다. 프레임워크 시스템은 예측 유용성과 수집 비용을 고려하여 순차적으로 특징을 수집하고 특징의 세트(집합)의 일부만을 사용하여 예측을 수행할 수 있다. 특히, 최적의 정책을 학습하고 수집된 특징 세트를 인코딩하기 위하여 하위 네트워크 계층을 공유하는 분류기를 위해 공동으로 훈련된 다중 작업 네트워크로 모델을 설계할 수 있다. 특징에 대한 액세스 권한이있는 모델보다 훨씬 뛰어난 성능을 얻을 수 있으며, 여러 가지 특징을 사용하여 기준선보다 훨씬 뛰어난 성능을 보이는 관련 기준선에 대해 분류를 위해 종합 및 실제 의료 데이터를 검증할 수 있다.

프레임워크 시스템은 의료용 챗봇 등의 상담 자동화를 위한 챗봇 등에 사용될 수 있다. 또한, 프레임워크 시스템은 질문을 동적으로 사용자에게 질의하고, 그에 따른 답변을 얻음으로써 판단을 내리는 과정을 자동화하여 상담을 자동화시킬 수 있다. 예를 들면, 프레임워크 시스템은 상담을 자동화하기를 원하는 여러 사이트(예를 들면, A/S 센터, 의료 분야, 분류 태스크(진단)를 수행하는 곳)에서 축적된 데이터를 통하여 챗봇이나 웹사이트 문답 형식으로 상담을 자동화할 수 있다. 진료는 해주는 상담 챗봇을 통하여 병원에 방문하기 어려운 노인들, 쉬이 병원을 찾지 않는 사람들이 쉽게 상담에 접근하고 필요한 진료를 알도록 제공할 수 있고, 병원에서는 간단한 문진을 자동화하여 접근성을 높일 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

컴퓨터로 수행되는 프레임워크 시스템에 의하여 수행되는 공동학습 프레임워크를 제공하는 방법에 있어서,
RL 에이전트에서 각 데이터 지점에 대하여 적어도 하나 이상의 특징을 획득함에 따라 상기 획득된 특징에 대한 분류 손실과 획득 비용과 관련된 프레임워크를 공식화하는 단계;
상기 프레임워크를 통하여 RL 에이전트와 분류기를 공동으로 학습시키는 단계; 및
상기 RL 에이전트와 분류기에서 공동으로 학습을 수행함에 따라 새로운 데이터 지점에 대한 특징 획득을 추론하는 단계
를 포함하고,
상기 획득된 특징에 대한 분류 손실과 획득 비용과 관련된 프레임워크를 공식화하는 단계는,
상기 데이터 지점에 대하여 기 설정된 순서로 특징들을 능동적으로 습득하는 단계
를 포함하는 공동학습 프레임워크 제공 방법.
삭제
제1항에 있어서,
상기 획득된 특징에 대한 분류 손실과 획득 비용과 관련된 프레임워크를 공식화하는 단계는,
상기 RL 에이전트로부터 상기 각 데이터 지점에 따라 선택되는 특징들의 서브 세트에 따라 일정 시간까지 획득된 특징을 탐색하고, 상기 탐색된 특징 중 일부의 특징을 선택하는 행동을 수행함에 따라 특징을 획득하는 단계
를 포함하는 공동학습 프레임워크 제공 방법.
컴퓨터로 수행되는 프레임워크 시스템에 의하여 수행되는 공동학습 프레임워크를 제공하는 방법에 있어서,
RL 에이전트에서 각 데이터 지점에 대하여 적어도 하나 이상의 특징을 획득함에 따라 상기 획득된 특징에 대한 분류 손실과 획득 비용과 관련된 프레임워크를 공식화하는 단계;
상기 프레임워크를 통하여 RL 에이전트와 분류기를 공동으로 학습시키는 단계; 및
상기 RL 에이전트와 분류기에서 공동으로 학습을 수행함에 따라 새로운 데이터 지점에 대한 특징 획득을 추론하는 단계
를 포함하고,
상기 획득된 특징에 대한 분류 손실과 획득 비용과 관련된 프레임워크를 공식화하는 단계는,
상기 획득된 특징에 대한 분류 손실과 획득 비용을 동시에 최소화하는 모델을 학습시키기 위하여 프레임워크를 공식화하는 단계
를 포함하는 공동학습 프레임워크 제공 방법.
제4항에 있어서,
상기 획득된 특징에 대한 분류 손실과 획득 비용과 관련된 프레임워크를 공식화하는 단계는,
상기 획득된 특징에 대하여 환경에 의하여 주어지는 보상을 예측하기 위하여 기 설정된 기준 이상의 정보가 제공되었는지 여부를 측정하고, 상기 RL 에이전트에서 상기 각 데이터 지점에서의 분류 수행 여부에 따라 보상을 제공하기 위한 프레임워크를 구성하는 단계
를 포함하는 공동학습 프레임워크 제공 방법.
제5항에 있어서,
상기 획득된 특징에 대한 분류 손실과 획득 비용과 관련된 프레임워크를 공식화하는 단계는,
상기 RL 에이전트에 딥러닝을 수행함으로써 상태-행동 값 함수를 근사화하여 정책을 탐색하는 단계
를 포함하는 공동학습 프레임워크 제공 방법.
컴퓨터로 수행되는 프레임워크 시스템에 의하여 수행되는 공동학습 프레임워크를 제공하는 방법에 있어서,
RL 에이전트에서 각 데이터 지점에 대하여 적어도 하나 이상의 특징을 획득함에 따라 상기 획득된 특징에 대한 분류 손실과 획득 비용과 관련된 프레임워크를 공식화하는 단계;
상기 프레임워크를 통하여 RL 에이전트와 분류기를 공동으로 학습시키는 단계; 및
상기 RL 에이전트와 분류기에서 공동으로 학습을 수행함에 따라 새로운 데이터 지점에 대한 특징 획득을 추론하는 단계
를 포함하고,
상기 프레임워크를 통하여 RL 에이전트와 분류기를 공동으로 학습시키는 단계는,
상기 RL 에이전트와 상기 분류기를 공동으로 학습시킴에 따라 특징 또는 숨은 특징들을 공유하고, 상기 RL 에이전트와 상기 분류기에서 공유되는 특징 또는 숨은 특징들의 서브 세트를 인코딩하는 단계
를 포함하는 공동학습 프레임워크 제공 방법.
컴퓨터로 수행되는 프레임워크 시스템에 의하여 수행되는 공동학습 프레임워크를 제공하는 방법에 있어서,
RL 에이전트에서 각 데이터 지점에 대하여 적어도 하나 이상의 특징을 획득함에 따라 상기 획득된 특징에 대한 분류 손실과 획득 비용과 관련된 프레임워크를 공식화하는 단계;
상기 프레임워크를 통하여 RL 에이전트와 분류기를 공동으로 학습시키는 단계; 및
상기 RL 에이전트와 분류기에서 공동으로 학습을 수행함에 따라 새로운 데이터 지점에 대한 특징 획득을 추론하는 단계
를 포함하고,
상기 프레임워크를 통하여 RL 에이전트와 분류기를 공동으로 학습시키는 단계는,
상기 RL 에이전트와 상태-행동 값 함수에 의해 결정되는 정책에 따라 각 데이터 지점에 대해 사건을 생성하고, 상기 사건의 분류에 사용되는 특징의 서브 세트를 선택하고, 행동을 취함에 따라 상기 에이전트가 정지 행동을 선택할 때까지 획득된 특징에 대한 특징 획득 비용과 획득된 특징 값을 에이전트에게 반환하는 단계
를 포함하는 공동학습 프레임워크 제공 방법.
제8항에 있어서,
상기 프레임워크를 통하여 RL 에이전트와 분류기를 공동으로 학습시키는 단계는,
상기 분류기에서 상기 획득된 특징으로부터 선택된 적어도 하나 이상의 특징의 품질을 평가하고, 상기 평가된 품질에 기반하여 상기 RL 에이전트에게 보상을 부여하는 단계
를 포함하는 공동학습 프레임워크 제공 방법.
컴퓨터로 수행되는 프레임워크 시스템에 의하여 수행되는 공동학습 프레임워크를 제공하는 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램에 있어서,
RL 에이전트에서 각 데이터 지점에 대하여 적어도 하나 이상의 특징을 획득함에 따라 상기 획득된 특징에 대한 분류 손실과 획득 비용과 관련된 프레임워크를 공식화하는 단계;
상기 프레임워크를 통하여 RL 에이전트와 분류기를 공동으로 학습시키는 단계; 및
상기 RL 에이전트와 분류기에서 공동으로 학습을 수행함에 따라 새로운 데이터 지점에 대한 특징 획득을 추론하는 단계
를 포함하고,
상기 획득된 특징에 대한 분류 손실과 획득 비용과 관련된 프레임워크를 공식화하는 단계는,
상기 데이터 지점에 대하여 기 설정된 순서로 특징들을 능동적으로 습득하고, 상기 RL 에이전트로부터 상기 각 데이터 지점에 따라 선택되는 특징들의 서브 세트에 따라 일정 시간까지 획득된 특징을 탐색하고, 상기 탐색된 특징 중 일부의 특징을 선택하는 행동을 수행함에 따라 특징을 획득하는 단계
를 포함하는 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램.
삭제
컴퓨터로 수행되는 프레임워크 시스템에 의하여 수행되는 공동학습 프레임워크를 제공하는 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램에 있어서,
RL 에이전트에서 각 데이터 지점에 대하여 적어도 하나 이상의 특징을 획득함에 따라 상기 획득된 특징에 대한 분류 손실과 획득 비용과 관련된 프레임워크를 공식화하는 단계;
상기 프레임워크를 통하여 RL 에이전트와 분류기를 공동으로 학습시키는 단계; 및
상기 RL 에이전트와 분류기에서 공동으로 학습을 수행함에 따라 새로운 데이터 지점에 대한 특징 획득을 추론하는 단계
를 포함하고,
상기 획득된 특징에 대한 분류 손실과 획득 비용과 관련된 프레임워크를 공식화하는 단계는,
상기 획득된 특징에 대한 분류 손실과 획득 비용을 동시에 최소화하는 모델을 학습시키기 위하여 프레임워크를 구성하고, 상기 획득된 특징에 대하여 환경에 의하여 주어지는 보상을 예측하기 위하여 기 설정된 기준 이상의 정보가 제공되었는지 여부를 측정하고, 상기 RL 에이전트에서 상기 각 데이터 지점에서의 분류 수행 여부에 따라 보상을 제공하고, 상기 RL 에이전트에 딥러닝을 수행함으로써 상태-행동 값 함수를 근사화하여 정책을 탐색하는 단계
를 포함하는 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램.
컴퓨터로 수행되는 프레임워크 시스템에 의하여 수행되는 공동학습 프레임워크를 제공하는 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램에 있어서,
RL 에이전트에서 각 데이터 지점에 대하여 적어도 하나 이상의 특징을 획득함에 따라 상기 획득된 특징에 대한 분류 손실과 획득 비용과 관련된 프레임워크를 공식화하는 단계;
상기 프레임워크를 통하여 RL 에이전트와 분류기를 공동으로 학습시키는 단계; 및
상기 RL 에이전트와 분류기에서 공동으로 학습을 수행함에 따라 새로운 데이터 지점에 대한 특징 획득을 추론하는 단계
를 포함하고,
상기 프레임워크를 통하여 RL 에이전트와 분류기를 공동으로 학습시키는 단계는,
상기 RL 에이전트와 상기 분류기를 공동으로 학습시킴에 따라 특징 또는 숨은 특징들을 공유하고, 상기 RL 에이전트와 상기 분류기에서 공유되는 특징 또는 숨은 특징들의 서브 세트를 인코딩하는 단계
를 포함하는 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램.
컴퓨터로 수행되는 프레임워크 시스템에 의하여 수행되는 공동학습 프레임워크를 제공하는 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램에 있어서,
RL 에이전트에서 각 데이터 지점에 대하여 적어도 하나 이상의 특징을 획득함에 따라 상기 획득된 특징에 대한 분류 손실과 획득 비용과 관련된 프레임워크를 공식화하는 단계;
상기 프레임워크를 통하여 RL 에이전트와 분류기를 공동으로 학습시키는 단계; 및
상기 RL 에이전트와 분류기에서 공동으로 학습을 수행함에 따라 새로운 데이터 지점에 대한 특징 획득을 추론하는 단계
를 포함하고,
상기 프레임워크를 통하여 RL 에이전트와 분류기를 공동으로 학습시키는 단계는,
상기 RL 에이전트와 상태-행동 값 함수에 의해 결정되는 정책에 따라 각 데이터 지점에 대해 사건을 생성하고, 상기 사건의 분류에 사용되는 특징의 서브 세트를 선택하고, 행동을 취함에 따라 상기 에이전트가 정지 행동을 선택할 때까지 획득된 특징에 대한 특징 획득 비용과 획득된 특징 값을 에이전트에게 반환하는 단계
를 포함하는 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램.