KR20100016909A - 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치및 그 방법 - Google Patents

부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치및 그 방법 Download PDF

Info

Publication number
KR20100016909A
KR20100016909A KR1020080076559A KR20080076559A KR20100016909A KR 20100016909 A KR20100016909 A KR 20100016909A KR 1020080076559 A KR1020080076559 A KR 1020080076559A KR 20080076559 A KR20080076559 A KR 20080076559A KR 20100016909 A KR20100016909 A KR 20100016909A
Authority
KR
South Korea
Prior art keywords
policy
boundary
partial
markov decision
decision process
Prior art date
Application number
KR1020080076559A
Other languages
English (en)
Other versions
KR101002125B1 (ko
Inventor
은지현
김기응
구명완
장두성
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020080076559A priority Critical patent/KR101002125B1/ko
Publication of KR20100016909A publication Critical patent/KR20100016909A/ko
Application granted granted Critical
Publication of KR101002125B1 publication Critical patent/KR101002125B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 부분 관측 마코프 의사결정 과정(POMDP)을 이용해 특정 시스템(예 : 대화 관리 시스템)을 위한 정책을 모델링하는 경우에, HSVI(Heuristic Search Value Iteration)의 상부경계 및 하부경계를 대수결정도(ADD)를 적용하여 계산함으로써, 정책을 훈련시키는데 걸리는 시간을 줄이고 대화 관리 시스템의 처리 만족도에 대한 성능을 향상시키기 위한, 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치 및 그 방법과, 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하고자 한다.
이를 위하여, 본 발명은 정책 모델링 장치에 있어서, 부분 마코프 의사결정 과정을 통해 해결하고자 하는 문제를 수학적 파라미터로 정의하고, 상/하부경계의 목표차이값을 입력받기 위한 문제 정의 수단; 대수결정도를 적용해 상기 상/하부경계를 계산하기 위한 경계 계산 수단; 상기 상/하부경계의 계산결과, 상기 수학적 파라미터, 상기 목표차이값을 이용하여 부분 마코프 의사결정 과정에 따라 행동을 결정해 정책을 훈련하기 위한 정책 훈련 수단; 및 상기 정책을 외부 시스템으로 제공하기 위한 정책 출력 수단을 포함한다.
마코프 의사결정 과정(MDP), 부분 마코프 의사결정 과정(POMDP), Perseus, HSVI, 정책 모델링, 정책 훈련, 대화 관리 시스템, 상부경계, 하부경계

Description

부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치 및 그 방법{APPARATUS AND METHOD OF POLICY MODELING BASED ON PARTIALLY OBSERVABLE MARKOV DECISION PROCESSES}
본 발명은 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치 및 그 방법과, 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 더욱 상세하게는 부분 관측 마코프 의사결정 과정(POMDP)을 이용해 특정 시스템(예 : 대화 관리 시스템)을 위한 정책을 모델링하는 경우에, HSVI(Heuristic Search Value Iteration)의 상부경계 및 하부경계를 대수결정도(ADD)를 적용하여 계산함으로써, 정책을 훈련시키는데 걸리는 시간을 줄이고 대화 관리 시스템의 처리 만족도에 대한 성능을 향상시키기 위한, 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치 및 그 방법과, 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
이하의 일실시예에서는 대화 관리 시스템을 위한 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치 및 그 방법을 예로 들어 설명하나, 본 발명이 대화 관리 시스템에 한정되는 것이 아님을 미리 밝혀둔다.
자연어 대화 인터페이스는 인간과 컴퓨터 간 가장 자연스럽고 효과적인 인터페이스로 각광을 받고 있다. 즉, 자연어 대화 인터페이스는 컴퓨터 이외에 차세대 통신, 주문자형 방송, 홈 네트워크, 지능형 로봇 등 많은 정보를 포함하고 복잡한 인터페이스를 요구하는 장비 및 서비스의 증가로 인해 그 수요가 늘어나고 있을 뿐만 아니라, 유비쿼터스 컴퓨팅 시대를 위한 필수적인 지능형 인터페이스로 활발한 연구가 진행되고 있다.
이러한 자연어 대화 인터페이스는 대화 관리 시스템(Dialogue Management System)에 실제로 적용되어, 기존의 제한된 인터페이스(일례로, 키보드, GUI 등)를 뛰어넘어 보다 사람에게 친숙하고 자연스러우며, 공간의 제약을 받지 않는 유동적인 방법으로 컴퓨터와 정보를 주고받기 위한 음성 언어 인터페이스로 활용되고 있다.
대화 관리 시스템은 자연어를 기반으로 사용자 질의에 대한 적절한 정보를 제공하고, 사용자가 의도한 목적을 정확히 수행할 수 있도록 사용자와 대화를 진행해 가는 시스템이다. 즉, 대화 관리 시스템은 보다 효과적인 음성 인터페이스를 제공하기 위해 사용자와 컴퓨터 사이에 매개체 역할을 수행하게 된다.
일반적으로, 대화 관리 시스템은 크게 네 부분으로 구성된다. 먼저 음성, 텍스트, 터치스크린 입력 등 멀티모달 기법으로 사용자의 입력을 받는 입력 부분, 사용자 입력을 이해하는 언어 이해 부분(의미 해석 부분), 언어 이해 부분의 입력을 시스템의 동작과 생성될 응답의 내용을 결정하는 대화 추론 부분, 자연어로 된 응 답을 생성하는 응답 생성 부분으로 나뉜다.
한편, 종래의 대화 관리 시스템은 유한 상태 기반 방식(Finite State-Based Model)을 바탕으로 개발되었다. 이는 문제 해결 영역(problem solving domain)의 대화를 처리하기 위해 정확하고 빠르게 설계될 수 있으나, 자연스러운 사용자의 발화가 불가능하며 항상 고정된 시나리오를 따라야 하는 단점이 있다.
이로 인해, 문제 해결 영역의 대화를 정확하고 빠르게 처리하면서 사용자의 자연스러운 발화를 가능하게 하기 위한 방식으로, 마르코프 의사 결정 과정(Markov Decision Process, 이하 "MDP"라 함)에 기반한 대화 관리 시스템이 제안되었다. 이는 사용자의 발화 및 그에 대응되는 시스템 동작으로 구성된 대화 코퍼스(dialogue corpus)로부터 정책을 훈련하여 대화 관리 시스템의 동작과 응답을 결정하는 방식이다.
그런데, MDP는 환경의 특정한 상태에 대해서 모든 완벽한 정보를 요구하기 때문에, 환경에 변화가 발생하였을 경우에 새로운 상태로의 사상이 명확해야 한다.
이로 인해, MDP에 기반한 대화 관리 시스템에서는, 모든 환경이 MDP를 만족하는 상태로 표현하기 위해 매우 많은 상태들이 요구된다. 즉, MDP에 기반한 대화 관리 시스템은, 상기와 같이 많은 상태가 요구됨에 따라, 강화 학습이 어려울 뿐만 아니라 훈련 데이터베이스의 수집이 대규모로 이뤄져야 하는 단점이 있다.
또한, MDP에 기반한 대화 관리 시스템은, 전술한 바와 같이 모든 환경 상태를 완전히 믿을 수 있는 상태를 가정하고 있는 MDP를 기반으로 구현되었기 때문에, 현실적인 대화 관리 환경을 반영하기 어려운 단점이 있다.
부언하면, MDP에 기반한 대화 관리 시스템은, 실제로 텍스트 기반의 자연어를 이해하거나 음성을 인식하는 경우에 오류가 발생하는 경우(즉, 모든 환경 상태를 완전히 믿을 수 없는 상태)에 대화 관리 성능이 크게 떨어질 수 있다.
즉, 실제 세계에서 환경 상태에 대한 정확하고 완전한 정보를 가진다는 것은 거의 불가능하기 때문에, MDP에 기반한 대화 관리 시스템은 실제 세계를 고려하여 부분적인 불확실성이 포함된 상태에서 행동을 선택하고, 종종 환경 상태에 대한 정보를 늘려서 좀더 효과적으로 행동을 선택할 필요성도 있다.
이에, MDP의 관측에서 부분적으로 믿을 수 없는 문제를 해결하기 위해, 부분 관측 마르코프 의사 결정 과정(Partially Observable Markov Decision Process, 이하 "POMDP"라 함)에 기반한 대화 관리 시스템이 제안되었다. 이때, POMDP에 기반한 대화 관리 시스템은 MDP에 기반한 대화 관리 시스템과 마찬가지로, 사용자의 발화 및 그에 대응되는 시스템 동작으로 구성된 대화 코퍼스로부터 정책을 훈련하여 대화 관리 시스템의 동작과 응답을 결정하는 방식을 이용한다.
최근 들어, POMDP에 기반한 대화 관리 시스템은 양자화된 신뢰도 구간 대신 연속적인 신뢰도를 환경 변수로 사용하고 최적의 신뢰도 경계를 찾을 수 있는 방식으로 주목받고 있다. 그런데, POMDP에 기반한 대화 관리 시스템은 POMDP이 복잡하여 정책을 훈련하는데 많은 시간이 걸릴 뿐만 아니라, 계산량으로 인해 많은 메모리가 소모된다.
이에 따라, POMDP에 기반한 대화 관리시스템은 정책을 훈련하는데 걸리는 시간을 앞당겨 정책을 훈련하기 위한 처리속도 및 메모리 사용량에 대한 성능을 향상 시킬 필요성이 더욱 요구되고 있다.
따라서 상기와 같은 종래의 HSVI에서는 처리속도 성능이 떨어지고 메모리가 많이 사용되는 문제점이 있으며, 이를 해결하고자 하는 것이 본 발명의 과제이다.
따라서 본 발명은 부분 관측 마코프 의사결정 과정(POMDP)을 이용해 특정 시스템(예 : 대화 관리 시스템)을 위한 정책을 모델링하는 경우에, HSVI(Heuristic Search Value Iteration)의 상부경계 및 하부경계를 대수결정도(ADD)를 적용하여 계산함으로써, 정책을 훈련시키는데 걸리는 시간을 줄이고 대화 관리 시스템의 처리 만족도에 대한 성능을 향상시키기 위한, 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치 및 그 방법과, 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명은, 정책 모델링 장치에 있어서, 부분 마코프 의사결정 과정을 통해 해결하고자 하는 문제를 수학적 파라미터로 정의하고, 상/하부경계의 목표차이값을 입력받기 위한 문제 정의 수단; 대수결정도를 적용해 상기 상/하부경계를 계산하기 위한 경계 계산 수단; 상기 상/하부경계의 계산결과, 상기 수학적 파라미터, 상기 목표차이값을 이용하여 부분 마코프 의사결정 과정에 따라 행동을 결정해 정책을 훈련하기 위한 정책 훈련 수단; 및 상기 정책을 외부 시스템으로 제공하기 위한 정책 출력 수단을 포함한다.
한편, 본 발명은 정책 모델링 방법에 있어서, 부분 마코프 의사결정 과정을 통해 해결하고자 하는 문제를 수학적 파라미터로 정의하고, 상/하부경계의 목표차이값을 입력받는 단계; 대수결정도를 적용해 상기 상/하부경계를 계산하는 경계 계산 단계; 상기 상/하부경계의 계산결과, 상기 수학적 파라미터, 상기 목표차이값을 이용하여 부분 마코프 의사결정 과정에 따라 행동을 결정해 정책을 훈련하는 훈련 단계; 및 상기 정책을 외부 시스템으로 제공하는 단계를 포함한다.
그리고, 본 발명은 프로세스를 구비한 정책 모델링 장치에, 부분 마코프 의사결정 과정을 통해 해결하고자 하는 문제를 수학적 파라미터로 정의하고, 상/하부경계의 목표차이값을 입력받는 기능; 대수결정도를 적용해 상기 상/하부경계를 계산하는 기능; 상기 상/하부경계의 계산결과, 상기 수학적 파라미터, 상기 목표차이값을 이용하여 부분 마코프 의사결정 과정에 따라 행동을 결정해 정책을 훈련하는 기능; 및 상기 정책을 외부 시스템으로 제공하는 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 포함한다.
상기와 같은 본 발명은, HSVI에서 상부경계 및 하부경계를 대수결정도를 적용하여 계산함으로써, 대화 관리 시스템에서 정책을 훈련시키는데 걸리는 시간을 줄여 처리속도를 향상시킬 수 있고, 대화 관리 시스템의 메모리 사용량을 줄일 수 있는 효과가 있다.
상술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되어 있는 상세한 설명을 통하여 보다 명확해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다.
본 발명의 이해를 돕기 위해, 전술한 MDP 및 POMDP에 대해 상세히 설명한다.
먼저, MDP는 하기 4개의 파라미터에 의해 수학적으로 정의된다.
(1) 에이전트가 행동을 수행하는 환경상태(world state)를 정의하는 상태 집합: S
(2) 에이전트가 수행할 수 있는 행동(action)을 정의하는 행동 집합: A
(3) 에이전트가 환경상태 s에서 행동 a를 수행했을 때, 받는 보상(reward)을 산출하는 보상 함수: R(s, a)
(4) 에이전트가 환경상태 s에서 행동 a를 수행했을 때, 다음 환경상태가 s'이 될 상태 천이 확률: T(s, a, s')
MDP는 앞서 언급한 바와 같이 환경 변화가 마코프 속성을 갖는다고 가정한다. 즉, 다음 환경상태가 s'이 될 상태천이확률은, 현재 환경상태 및 현재 행동에 의해 결정되며, 그 이전의 환경상태나 행동은 영향을 미치지 않는다고 가정한다[즉, 완전한 관찰성(full-observability)에 대한 가정으로 이하 "마코프 가정"이라 함].
만약, 에이전트가 MDP를 구성하는 4개의 파라미터(S, A, R, T)를 모두 알고 있다면, 앞으로 받을 수 있는 보상의 총합이 극대화되는 행동을 계산하여 상태천이의 예측이나, 자기 행동을 결정한다.
이를 위해, 에이전트는 어떤 환경상태에서 어떤 행동을 수행해야할지에 대한 맵핑 테이블(mapping table)을 미리 준비해야 한다. 이때, 맵핑 테이블은 '정책(policy, π)'이라 정의된다.
이론상으로, 에이전트는 그 이전의 환경상태까지 고려해 환경상태의 시퀀스에서 행동으로 매핑하는 'π:S*→A'를 만족하는 정책 테이블을 준비해야 한다. 하지만, 에이전트는 마코프 가정으로 인해 현재 환경상태로부터 행동으로 매핑하는 'π:S→A'를 만족하는 정책 테이블을 준비하더라도 보상의 총합을 극대화하는 정책을 찾을 수 있다.
한편, 에이전트가 수행할 수 있는 시간(time horizon)이 무한대일 때, 보상의 총합도 무한대로 발산할 수 있다. 이 경우에는 에이전트에서 최적화 알고리즘을 도출하기 어렵기 때문에, 대개 보상의 총합을 유한(finite)하게 만들기 위해 감각 보상의 총합(cumulative discounted reward)을 최적화 알고리즘의 목적함수로 삼는다.
즉, 정책 π에 의해 결정되는 감각 보상의 총합은 하기 [수학식 1]과 같이 정의된다.
Figure 112008056268212-PAT00001
이는 다시 재귀 방정식으로, 하기 [수학식 2]와 같이 정의된다.
Figure 112008056268212-PAT00002
여기서,
Figure 112008056268212-PAT00003
를 정책 π의 가치함수(value function)라 한다. 만약
Figure 112008056268212-PAT00004
가 '정의할 수 있는 다른 모든 타 정책의 가치함수'보다 크거나 같다면, 이때의 정책을 최적정책(optimal policy)이라고 하고, π*로 표기한다.
결과적으로, MDP에서 해를 구하는 과정은 최적정책(π*)을 구하는 과정이라 할 수 있다. 이때, 최적정책을 구하는 과정에 대한 복잡도는 'P-Complete'로 증명 된 바 있다.
여기서, MDP에서는 선형계획법(Linear Programming)을 통해 최적정책을 구할 수도 있다. 이는 선형계획법이 다항적 시간(polynomial time)을 통해 그 해를 구할 수 있기 때문이다. 하지만, MDP에서는 전술한 선형계획법을 통해 최적정책을 구하기보다, 가치 반복 알고리즘(value iteration)을 통해 최적정책을 구한다. 이는 가치 반복 알고리즘이 단순성 및 처리속도 측면에서 우월하기 때문이다.
구체적으로, 가치 반복 알고리즘에서는 매회 하기 [수학식 3]과 같은 벨만 백업(Bellman backup)이라는 과정을 계속 되풀이하여, 최적 가치함수 및 최적정책을 찾을 수 있다.
Figure 112008056268212-PAT00005
이를 계속 반복하면
Figure 112008056268212-PAT00006
Figure 112008056268212-PAT00007
로 수렴하게 되며, 그에 따라 최적정책은 하기 [수학식 4]와 같다.
Figure 112008056268212-PAT00008
MDP에서는 선형계획법의 다항적 시간을 이용하여 해를 구할 수 있는 장점이 있다.
하지만, 전술한 바와 같이, MDP에서는 '완전한 관찰성(full-observability)에 대한 가정' 즉, 마코프 가정으로 인해 실제 세계에 적용하기 어려운 단점이 있다. 즉, MDP는 에이전트가 환경 상태를 완전히 관찰할 수 있다는 가정하에서 유효하다. 또한, 실제 세계에서 에이전트는 일종의 센서로부터 환경을 관찰하고, 그에 따른 센서데이터에는 어쩔 수 없이 오차가 포함된다.
따라서 실제 세계에서는 단순히 MDP를 통해 최적정책을 구하는 경우에 성능이 크게 떨어지는 경우가 많다.
상기와 같은 이유로, 상태예측이나 행동결정방법의 하나로서 부분 관측 마코프 의사결정 과정 즉, POMDP이 알려져 있다.
POMDP에서는 MDP에서 환경 상태를 정확히 관찰하지 못하는 경우를 모델링하여 최적 행위를 계산할 수 있도록 한다.
즉, POMDP에서는 에이전트가 부분적인 불확실성이 있는 상황에서도 의사결정을 할 수 있도록 MDP를 일반화한다. 이를 위해, POMDP에서는 MDP와 수학적인 정의가 흡사하나, 관찰값의 오류를 확률적으로 모델링하는 부분이 추가된다.
구체적으로, POMDP는 하기 6개의 파라미터에 의해 수학적으로 정의된다.
(1) 에이전트가 행동을 수행하는 환경상태(world state)를 정의하는 상태 집합: S
(2) 에이전트가 수행할 수 있는 행동(action)을 정의하는 행동 집합: A
(3) 에이전트가 환경상태 s에서 행동 a를 수행했을 때, 받는 보상(reward)을 산출하는 보상 함수: R(s, a)
(4) 에이전트가 환경상태 s에서 행동 a를 수행했을 때, 다음 환경상태가 s'이 될 상태 천이 확률: T(s, a, s')
(5) 에이전트가 관찰할 수 있는 값들을 정의하는 관찰 집합: Z
(6) 환경 상태가 s일 때, 개체의 관찰값이 z일 관찰 확률: O(s, z)
POMDP에서는 에이전트가 환경상태를 직접 볼 수 없다고 가정하기 때문에, 에이전트는 관찰값의 시퀀스로부터 실제 환경상태를 유추(infer)해야만 한다. 따라서 POMDP에서의 정책은 관찰값의 시퀀스로부터 행동으로 매핑하는 π:Z*→A로 정의된다. 이때, POMDP에서는 관찰값의 시퀀스가 상태추정 확률분포
Figure 112008056268212-PAT00009
로 요약된다고 알려져 있다.
결론적으로, POMDP에서 정책이라 함은 '가능한 모든 상태추정 확률분포'에 대해 어떤 행동을 수행할지를 결정하는 것을 의미한다. 즉, '가능한 모든 상태추정 확률분포'의 집합을 'B'라 하면, POMDP에서 정책은 'π:B→A'로 정의된다.
또한, POMDP에서 가치함수는 상태추정 확률분포의 공간함수로 표현되고, 특히 구간별 선형(piecewise linear)이면서 볼록함(convex)임이 알려져 있다. 여기서, POMDP에서 가치함수는 선형함수의 집합
Figure 112008056268212-PAT00010
로 표현된다.
도 1은 POMDP에서 가치함수에 대한 설명도이다. 즉, 도 1은 POMDP에서 환경상태가 2개인 경우(즉, 각각 s1 및 s2로 표기함), 1차원으로 투영하여 가치함수의 예를 나타낸 도면이다. 여기서, 상태추정 확률분포를 [p(s1),p(s2)]라 하면, p(s2)=1―p(s1)이므로 p(s1)만 가지고 가치함수를 분석할 수 있다. 이는 1차원으로 투영할 수 있음을 의미한다.
한편, 에이전트에서는 POMDP를 통해 상태예측 및 행동결정을 위한 해를 구하기 위한 데이터 처리속도 및 메모리 사용량에 대한 성능이 중요한데, 이를 해결하기 위한 POMDP의 처리방식으로 다양한 방식이 제안되었다.
우선, PBVI(Point-Based Value Iteration), "Perseus" 등이 제안된 바 있다. 이는 주로 하부경계(lower bound)만을 계산하여 POMDP의 해를 구하는 방식이다. 특히, 상기와 같은 방식에서는 하부경계 계산시에 대수결정도(Algebraic Decision Diagram, 이하 "ADD"라 함)를 이용하여 처리속도 및 메모리 사용량에 대한 성능을 향상시키는 방식이 제안된바 있다.
또한, HSVI(Heuristic Search Value Iteration)가 제안된 바 있다. HSVI는 상부경계 및 하부경계를 모두 계산하여 POMDP의 해를 구함으로써, 기존에 하부경계만을 계산해 POMDP의 해를 구하는 방식(즉, PBVI, Perseus 등)에 비해 처리속도 및 메모리 사용량에 대한 성능을 향상시켰다.
특히, HSVI에 대해 구체적으로 설명하면, HSVI에서는 수행조건으로서 '상부경계 및 하부경계의 차이목표값 ε'을 입력받아 하기와 같은 단계에 따라 수행된다.
(1)
Figure 112008056268212-PAT00011
(가치 추정치)의 상부경계 및 하부경계를 초기화한다. 이때, 하부경 계 및 상부경계의 초기값은 가능한 가치값 중 최저치와 최고치로 한다.
(2)
Figure 112008056268212-PAT00012
를 만족하는 동안
Figure 112008056268212-PAT00013
를 반복적으로 호출한다. 여기서, b0는 POMDP의 상태추정 확률분포를 의미한다. 즉,
Figure 112008056268212-PAT00014
(3)
Figure 112008056268212-PAT00015
가 만족하면, 상부경계 및 하부경계의 차이가 ε이하이므로 하부경계로부터 정책을 계산한다.
또한,
Figure 112008056268212-PAT00016
는 하기와 같은 단계에 따라 수행된다.
(1) 만약,
Figure 112008056268212-PAT00017
를 만족하면 현재의 함수에서 회귀한다.
(2) '탐색 휴리스틱(search heuristic)'에 의해 행동 a* 및 관측 o*를 선택한다.
(3)
Figure 112008056268212-PAT00018
을 호출한다.
(4) b에서의 상부경계 및 하부경계를 갱신한다.
본 발명에서는 대화 관리 시스템에서 POMDP의 해를 구하여 정책을 모델링하기 위해, HSVI의 상부경계 및 하부경계를 대수결정도 즉, ADD를 이용하여 계산하는 특징이 있다. 여기서, 상부경계는 ADD를 이용하여 '톱니경계(sawtooth bound)'를 계산하고, 하부경계는 ADD를 이용하여 계산하는 앞서 언급한 종래의 방식을 준용한다.
ADD(Algebraic Decision Diagram)는 BDD(Boolean Decision Diagram)의 일반 적인 형태로서, BDD가 'B^n→B(B: 부울 변수)' 형태의 함수라면, ADD는 'B^n→R(B: 부울변수, R: 실수)' 형태의 함수이다. 이때, ADD는 n개의 부울 변수(boolean variable)로부터 실수로 대응되는 함수를 의미하며, 결국 ADD의 각 터미널 노드는 실수값을 가지는 형태로 표현된다.
일반적으로, MDP 혹은 POMDP에서 상태(State)를 구성하는 변수(variable)의 개수가 증가할수록 상태공간(state space)의 크기가 기하급수적(exponential)으로 증가한다. 이를 방지하기 위해, 본 발명에서는 상태변수를 분할하여 ADD로 표현함으로써, 메모리 사용량을 줄일 수 있고, ADD 연산자를 이용하여 가치 반복 알고리즘(Value iteration)을 통해 계산량을 줄일 수 있다.
아울러, 당업자라면 ADD를 이용하여 하부경계를 계산하는 방식에 대해 쉽게 이해할 수 있으므로 자세한 설명을 생략하기로 하며, 본 발명에서는 ADD를 이용하여 상부경계를 계산하는 방식에 대해 상세히 설명하기로 한다.
도 2는 본 발명에 적용되는 톱니경계에 대한 예시도이다.
상부경계는 상태추정 확률분포
Figure 112008056268212-PAT00019
에서의 톱니경계를 이용하여 계산할 수 있다. 이때, '상태추정 공간코너들의 톱니경계'와 '이미 알려져 있는 몇몇 타 상태추정 확률분포의 톱니경계'를 이용한다.
예를 들어, 타 상태추정 확률분포 b'의 상부경계(
Figure 112008056268212-PAT00020
)를 이미 알고 있다고 가정했을때, b의 상부경계(즉,
Figure 112008056268212-PAT00021
)를 하기 [수학식 5]와 같이 계산할 수 있다.
Figure 112008056268212-PAT00022
여기서,
Figure 112008056268212-PAT00023
로 정의하고,
Figure 112008056268212-PAT00024
로 정의할 수 있다. 그리고 αsimplex는 POMDP에서 관찰값을 무시하고 MDP로 가정하여 구한 가치함수로서, POMDP의 가치함수 상부경계 중 가장 간단하고 가장 오차가 큰 상부경계이다.
도 1과 마찬가지로, 도 2에서도 POMDP에서 환경상태가 2개인 경우(즉, 각각 s1 및 s2로 표기함), 1차원으로 투영하여
Figure 112008056268212-PAT00025
를 계산하는 과정을 설명한다. 여기서, 상태추정 확률분포를 [p(s1),p(s2)]라 하면, p(s2)=1―p(s1)이므로 p(s1)만 가지고 가치함수를 분석할 수 있다. 이는 1차원으로 투영할 수 있음을 의미한다.
한편, 본 발명에서 톱니경계의 계산에 ADD를 이용하기 위해서는, ADD의 뺄셈 연산자(즉, ―ADD), ADD의 내적 연산자(즉, ·ADD), ADD의 나눗셈 연산자(즉, /ADD)를 사용한다. 또한, 가치함수를 결정하는 선형함수 αsimplex는 ADD로 표현되고, 이와 마찬가지로 상태추정 확률분포 b도 ADD로 표현된다.
임의의 두 상태추정 확률분포 b와 b'를 각각 ADD로 표현한 bADD와 b'ADD, 가치함수를 결정하는 선형함수 αsimplex를 ADD로 표현한 αsimplex , ADD가 주어지면, 'minRatio'는 ADD의 나눗셈 연산자(/ADD)를 이용하여 하기 [수학식 6]과 같이 구할 수 있다.
Figure 112008056268212-PAT00026
Figure 112008056268212-PAT00027
Figure 112008056268212-PAT00028
는 ADD의 내적 연산자(·ADD)를 이용하여 하기 [수학식 7]과 같이 구할 수 있다.
Figure 112008056268212-PAT00029
Figure 112008056268212-PAT00030
상기 [수학식 6] 및 상기 [수학식 7]을 통해, bADD의 가치값
Figure 112008056268212-PAT00031
는 하기 [수학식 8]과 같이 나타낼 수 있다.
Figure 112008056268212-PAT00032
만약, 상태추정 확률분포를 ADD의 각 변수별로 주변화(marginalize)하여 표현하면, ADD의 나눗셈 연산자(/ADD)를 사용하는 것보다 'minRatio'를 더욱 빠르게 계산할 수 있다.
예를 들어, ADD에 쓰이는 변수가
Figure 112008056268212-PAT00033
Figure 112008056268212-PAT00034
이고, 모두 부울 변수(boolean variable)라고 가정한다. 이때, 상태추정 확률분포 b 및 b'은 각각 하기 [수학식 9]와 같이 나타낼 수 있다.
Figure 112008056268212-PAT00035
Figure 112008056268212-PAT00036
이때, 'minRatio(b,b')'는 하기 [수학식 10]과 같이 나타낼 수 있다.
Figure 112008056268212-PAT00037
상기 [수학식 10]과 같이, 'minRatio'의 계산 시에, /ADD 연산자를 사용하지 않고 각 변수별로 최소 비율을 계산한 후 곱하는 경우가 /ADD 연산자를 사용하는 것보다 더 빠르게 계산할 수 있다.
도 3a는 본 발명에 따른 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치에 대한 일실시예 구성도이다.
도 3a에 도시된 바와 같이, 본 발명에 따른 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치(이하 "정책 모델링 장치"라 함)는, 부분 마코프 의사결정 과정을 통해 해결하고자 하는 문제를 수학적 파라미터로 정의하고, 상/하부경계의 목표차이값을 입력받기 위한 문제 정의부(310), 대수결정도를 적용해 상기 상/하부경계를 계산하기 위한 경계 계산부(320), 상/하부경계의 계산결과, 상기 수학적 파라미터, 상기 목표차이값을 이용하여 부분 마코프 의사결정 과정에 따라 행동을 결정해 정책을 훈련하기 위한 정책 훈련부(330), 정책을 제공하기 위한 정책 출력부(340)를 포함한다.
이를 위해, 문제 정의부(310)는 소정의 대화 관리 시스템(예를 들어, 홈네트워크 제어, 로봇 제어, 비행기/철도 예약 등을 위한 대화 관리 시스템)에서 해결하고자 하는 문제를 정의한다. 즉, 문제 정의부(310)는 대화 관리 시스템을 통해 해결하고자 하는 문제를 WOZ(Wizard of Oz) 방식으로 수집된 대화 코퍼스에서 POMDP의 수학적 정의에 해당되는 6개의 파라미터 즉, 상태 집합 S, 행동 집합 A, 보상 함수 R(s,a), 상태 천이 확률 T(s,a,s'), 관찰 집합 Z, 관찰 확률 O(s,z)로 표현한다. 아울러, 문제 정의부(310)는 상부경계 및 하부경계의 차이목표값 ε(0<ε≪1)을 입력받는다.
그런데, 대화 관리 시스템을 통해 해결하고자 하는 문제 해결 영역의 대화들은, 그 목적이 분명하며 대화 관리 시스템이 명확한 행동을 하기 위해서 사용자로부터 얻어야 하는 정보를 미리 예상할 수 있다.
이에 따라, 문제 정의부(310)는 대화 관리 시스템이 원하는 정보를 사용자로 부터 자연스럽게 얻어낼 수 있도록 문제를 정의할 수 있는데, 대화 관리 시스템의 행동을 대화의 주도 전환에 관련된 행동으로 구성하고(후술할 도 4a 참조), 그에 따라 대화 관리 시스템에서 사용될 수 있는 행동들로 정책 그래프를 구성할 수 있다(후술할 도 4b 참조).
경계 계산부(320)는 POMDP의 HSVI를 통해 정책을 훈련할 수 있도록, ADD를 이용하여 POMDP의 HSVI에서 상부경계 및 하부경계를 계산한다. 이때, 경계 계산부(320)는 상부경계 및 하부경계에 대한 계산결과를 정책 훈련부(330)로 제공하여, 정책을 훈련할 수 있도록 한다.
정책 훈련부(330)는 강화학습(reinforcement learning)을 통해 POMDP의 행동을 결정하는 정책(policy)을 훈련한다. 즉, 정책 훈련부(330)는 대화 코퍼스에서 각 상태의 최적 행동을 결정하여, 사용자가 원하는 목적에 도달할 수 있는 정책을 훈련한다.
이때, 정책 훈련부(330)는 강화학습을 통해 매 단계의 행동에 대한 보상을 통해 해당 정책을 평가하고, 궁극적으로 해당 정책에 대한 누적 보상(cumulative reward)이 최대인 경우를 최적 정책으로 선택한다.
여기서, 정책 훈련부(330)는 대화가 성공적으로 진행되었음을 확인하기 위해, '사용자가 원하는 목적을 이루었을 경우' 또는 '사용자가 원하는 목적을 이루지 못한 경우' 각각에 대해 차등적인 값을 미리 설정하고, 해당 정책에 대한 평가 시에 기 설정한 값을 해당 정책에 부여한다.
그런데, 해당 정책에 대해 '사용자가 원하는 목적을 이루었을 경우'에 '사용 자가 원하는 목적을 이루지 못한 경우'에 비해 높게 평가될 수 있도록, 해당 정책을 통해 '사용자가 원하는 목적을 이루었을 경우'에 상대적으로 큰 값을 부여하는 것이 바람직하다. 예를 들어, '사용자가 원하는 목적을 이루었을 경우' 해당 정책에 '+1'을 부여하고, '사용자가 원하는 목적을 이루지 못한 경우' 해당 정책에 상대적으로 작은 값('0.5', '0', '-1' 등)을 부여한다.
한편, 정책 훈련부(330)는 경계 계산부(320)를 통해, POMDP의 HSVI에서 상부경계 및 하부경계에 대한 계산결과를 이용하여, '가능한 모든 상태추정 확률분포'에 대해 어떤 행동을 수행할지를 결정함으로써 정책(π)을 훈련한다[즉, π=HSVI(ε)로 표현됨].
만약, 상태 |S| = n일 경우, 정책 훈련부(330)는 '가능한 모든 상태추정 확률 분포'에 대해 어떤 행동을 수행할지를 하기 [표 1]과 같이 최적 정책으로 훈련한다.
상태추정 확률분포 행동
b_1=[p(s_1)=0.1, p(s_2)=0.1,…,p(s_n)=0.5 ] 행동_1
b_2=[p(s_1)=0.3, p(s_2)=0.6,…,p(s_n)=0.2 ] 행동_2
예를 들어, 철도 예약 시스템에서 두 도시를 대상으로 편도운행티켓을 발급하는 문제의 경우를 설명한다.
여기서, 각 도시가 a, b이면, 가능한 상태는 s_1=(a 출발 & b 도착), s_2=(b 출발 & a 도착)과 같이 총 2개이다. 이때, 행동은 'Greet(인사)', 'Ask-from(출발지 질문)', 'Ask-to(목적지 질문)', 'Confirm-from-a(출발지 a로 확정)', 'Confirm-from-b(출발지 b로 확정)', 'Confirm-to-a(목적지 a로 확정)', 'Confirm-to-b(목적지 b로 확정)', 'Submit-a-b(a 출발 & b 도착 확인)', 'Submit-b-a(b 출발 & a 도착 확인)', 'Fail(대화실패)'과 같이 총 10개로 정의되어 있다고 가정한다.
이때, 정책 훈련부(330)는 하기 [표 2]와 같은 정책을 훈련한다.
상태추정 확률분포 행동
b_1=[p(s_1)=0.0, p(s_2)=1.0] Submit-b-a
b_2=[p(s_1)=0.1, p(s_2)=0.9] Submit-a-b
b_3=[p(s_1)=0.2, p(s_2)=0.8] Confirm-from-b
b_4=[p(s_1)=0.3, p(s_2)=0.7] Confirm-to-b
b_5=[p(s_1)=0.4, p(s_2)=0.6] Confirm-from-a
b_6=[p(s_1)=0.5, p(s_2)=0.5] Ask-from
b_7=[p(s_1)=0.7, p(s_2)=0.3] Confirm-to-a
b_8=[p(s_1)=0.8, p(s_2)=0.2] Ask-to
b_9=[p(s_1)=0.9, p(s_2)=0.1] Greet
b_10=[p(s_1)=1.0, p(s_2)=0.1] Fail
정책 출력부(340)는 상기와 같이 훈련된 정책 즉, 가능한 모든 상태추정 확률분포에 대응되는 행동을 출력한다. 이때, 정책 출력부(340)는 훈련된 정책을 대화 관리 시스템에 제공하여, 대화 관리 시스템이 소정의 추정상태에서 어떤 행동을 수행하는 것이 최적인지를 선택할 수 있도록 한다.
도 3b는 본 발명에 따른 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 방법에 대한 일실시예 흐름도이다.
여기서, 본 발명에 따른 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 방법은, 도 3a에 도시된 정책 모델링 장치에서 이루어지는 모델링 과정을 통해 자명하게 드러날 뿐만 아니라 당업자라면 쉽게 이해할 수 있으므로, 그 요지에 대해서만 간략히 설명하기로 한다.
먼저, 정책 모델링 장치는 부분 마코프 의사결정 과정을 통해 해결하고자 하는 문제를 수학적 파라미터로 정의하고, 상/하부경계의 목표차이값을 입력받는다(S351).
이후, 정책 모델링 장치는 대수결정도를 적용해 상/하부경계를 계산한다(S352). 이때, 정책 모델링 장치는 상/하부경계의 계산결과, 수학적 파라미터, 목표차이값을 이용하여 부분 마코프 의사결정 과정에 따라 행동을 결정해 정책을 훈련한다(S353).
그리고, 정책 모델링 장치는 상기와 같이 훈련된 정책을 특정 시스템(예를 들어, 대화 관리 시스템)에 제공한다(S354).
이상과 같이, 본 발명의 정책 모델링 장치는 우선 소정의 대화 관리 시스템에서 해결하고자 하는 문제를 정의한 후, POMDP의 행동을 결정하기 위한 정책을 훈련하고, 훈련된 정책을 대화 관리 시스템에 제공한다. 특히, 정책 모델링 장치는 POMDP의 행동을 결정하기 위한 정책을 훈련할 때, POMDP의 HSVI에서 상부경계 및 하부경계를 ADD를 이용하여 계산함으로써, '가능한 모든 상태추정 확률분포'에 대해 어떤 행동을 수행할지를 결정하도록 한다.
한편, 본 발명의 정책 모델링 장치는 철도 예약 시스템 또는 IPTV 제어 시스템을 위한 대화 관리 시스템에 적용할 수 있다. 즉, 대화 관리 시스템을 통해 해결하고자 하는 정책 및 대화는 사용자로부터 얻어야 하는 정보를 미리 예상할 수 있어 원하는 정보를 사용자로부터 자연스럽게 얻어낼 수 있도록 후술할 도 4a 또는 도 4d와 같이 구성할 수 있다.
본 발명에서는 정책 모델링 장치가 후술할 철도 예약 시스템 또는 IPTV 제어 시스템을 위한 대화 관리 시스템에 적용되는 경우에 대해 설명하고 있으나 이에 한정적으로 적용되지 않는다. 즉, 본 발명의 정책 모델링 장치는 대화 관리를 통해 문제를 해결하고자 하는 대화 관리 시스템을 위해 정책을 모델링하는 경우라면 어디라도 적용될 수 있음을 당업자라면 자명하게 이해할 수 있을 것이다.
이하, 본 발명에서는 구체적인 실시예로서, 철도 예약 시스템 및 IPTV 제어 시스템에 적용되는 경우에 대하여 설명한다.
먼저, 본 발명의 정책 모델링 장치 및 방법이 철도 예약 시스템에 적용되는 경우에 대해 설명한다(도 4a 내지 도 4c 참조).
도 4a는 본 발명이 적용된 철도 예약 시스템을 위한 정책 및 대화에 대한 일예시도이고, 도 4b는 상기 도 4a 기반의 정책 그래프(policy graph)에 대한 일실시예 설명도이고, 도 4c는 본 발명이 적용되는 철도 예약 시스템을 위한 대화 관리 시스템에 대한 일실시예 설명도이다.
철도 예약 시스템을 위한 대화 관리 시스템에서 사용될 수 있는 정책은 도 4b와 같이 정책 그래프를 형성할 수 있다.
특히, 도 4c에서, 대화 관리 시스템(420)은 철도 예약에 대한 문제를 해결하기 위해 본 발명의 정책 모델링 장치에 의해 훈련된 정책을 관리하는 정책 DB(410)를 이용하여 철도 예약 시스템(430)의 음성 언어 인터페이스를 구현한다.
대화 관리 시스템(420)은 일반적으로, 입력부(421), 의미해석부(422), 대화추론부(423), 응답생성부(424), 및 출력부(425)를 포함하고 있다.
이하, 철도 예약 시스템(430)을 위해, 본 발명의 정책 모델링 장치에 의해 훈련된 정책을 이용하여 대화 관리 시스템(420)에서 이루어지는 대화 관리 과정에 대한 예를 설명한다.
먼저, 입력부(421)는 음성인식기 또는 키보드 등을 통해 사용자의 의도가 표현된 문장이 입력되면, 텍스트 형태의 문장으로 생성한다. 이때, 입력문장으로는 "서울에서 출발하는 열차는?"이다.
이후, 의미해석부(422)는 상기 텍스트 형태의 문장(즉, "서울에서 출발하는 열차는?")를 단편적인 형태의 의미구조로 변환시킨다. 이때, 각 의미구조는 신뢰도(예를 들어, 확률값)를 갖는다. 이때, 각 의미구조는 "출발지=서울(0.6), 사용자 의도=조회(0.9)"와 같이 나타낸다.
특히, "출발지=서울(0.6), 사용자의도=조회(0.9)"라 함은, 의미해석부(452)가 상기 텍스트 형태의 문장을 통해 '출발지'로 '서울'이 0.6의 신뢰도, '사용자의도'로 '조회'가 0.9의 신뢰도로 의미해석이 이루어졌음을 나타낸다.
그리고 대화추론부(423)는 상기 의미구조로부터 사전에 정의된 관찰값을 선택하여 현재 상태를 추정하고 정책 DB(410)의 훈련된 정책을 조회하여, 현 추정상태에서 어떤 행동을 수행하는 것이 최적인지를 선택한다. 이때, 대화추론부(423)는 목적시스템인 철도 예약 시스템(430)을 검색하여 적절한 부가정보를 생성할 수도 있다.
즉, 대화추론부(423)는 각 의미구조로부터 정의된 관찰값[즉, 출발지=서울(0.6), 사용자 의도=조회(0.9)]에서 현재 상태를 추정하고 정책 DB(410)의 훈련된 정책을 조회하여, 현 추정상태에서 목적지 정보를 구체화시키는 'Specify' 행동을 수행하는 것을 최적으로 판단한다. 이 경우 대화추론부(423)는 철도 예약 시스템(430)을 검색할 필요가 없다.
이때, 대화추론부(453)는 출발지 정보에 대응되는 목적지 정보를 확인할 수 없기 때문에, 사용자가 발화한 정보에서 목적지 정보를 구체화시키기 위한 질문을 내보내는 정책을 결정한다.
그에 따라, 응답생성부(424)는 정책을 통해 결정된 'Specify(목적지)' 행동, 사용자의 입력정보, 철도 예약 시스템(430)의 결과를 사용자가 이해하기 쉬운 형태로 생성한다. 이때, 응답 문장으로는 "서울에서 출발해서 어느 곳으로 가는 열차를 원하십니까?"이다.
이후, 출력부(425)는 상기 응답문장을 음성, 텍스트 등의 형태로 변환하여 사용자에게 추론된 응답을 제공한다.
또한, 본 발명의 정책 모델링 장치 및 방법이 IPTV 제어 시스템에 적용되는 경우에 대해 설명한다(도 4d 및 도 4e 참조).
도 4d는 본 발명이 적용된 IPTV 제어 시스템을 위한 정책 및 대화에 대한 일예시도이고, 도 4e는 본 발명이 적용되는 IPTV 제어 시스템을 위한 대화 관리 시스템에 대한 일실시예 설명도이다.
여기서, IPTV 제어 시스템을 위한 대화 관리 시스템에서 사용될 수 있는 정책은 상기 도 4b와 같이 정책 그래프로 나타낼 수 있음을 자명하게 유추할 수 있으므로 자세한 언급을 생략하기로 한다.
한편, 도 4e에서, 대화 관리 시스템(450)은 IPTV 제어에 대한 문제를 해결하기 위해 본 발명의 정책 모델링 장치에 의해 훈련된 정책을 관리하는 정책 DB(440)를 이용하여 IPTV 제어 시스템(460)의 음성 언어 인터페이스를 구현한다.
IPTV 제어 시스템(460)을 위해, 본 발명의 정책 모델링 장치에 의해 훈련된 정책을 이용하여 대화 관리 시스템(450)에서 이루어지는 대화 관리 과정에 대한 예를 설명한다.
먼저, 입력부(451)는 음성인식기 또는 키보드 등을 통해 사용자의 의도가 표현된 문장이 입력되면, 텍스트 형태의 문장으로 생성한다. 이때, 입력문장으로는 "이산 12회 다운로드하자"이다.
이후, 의미해석부(452)는 상기 텍스트 형태의 문장(즉, "이산 12회 다운로드하자")를 단편적인 형태의 의미구조로 변환시킨다. 이때, 각 의미구조는 신뢰도(예를 들어, 확률값)를 갖는다. 이때, 각 의미구조는 "프로그램명=이산(0.4), 회차=12회(0.9), 사용자 의도=다운로드(0.8)"와 같이 나타낸다.
특히, "프로그램명=이산(0.4), 회차=12회(0.9)"라 함은, 의미해석부(452)가 상기 텍스트 형태의 문장을 통해 프로그램명으로 '이산'이 0.4의 신뢰도, 회차로 '12회'가 0.9의 신뢰도로 의미해석이 이루어졌음을 나타낸다.
그런 후, 대화추론부(453)는 상기 의미구조로부터 사전에 정의된 관찰값을 선택하여 현재 상태를 추정하고 정책 DB(440)의 훈련된 정책을 조회하여, 현 추정상태에서 어떤 행동을 수행하는 것이 최적인지를 선택한다.
즉, 대화추론부(453)는 각 의미구조로부터 정의된 관찰값[즉, 프로그램명=이산(0.4), 회차=12회(0.9), 사용자 의도=다운로드(0.8)]에서 현재 상태를 추정하고 정책 DB(440)의 훈련된 정책을 조회하여, 현 추정상태에서 사용자가 발화한 정보를 확인하는 'Confirm(프로그램명)' 행동을 수행하는 것을 최적으로 판단한다.
이때, 대화추론부(453)는 상대적으로 프로그램명이 신뢰도가 낮게 의미해석되었기 때문에, 사용자가 발화한 정보 즉, 어떤 프로그램명을 발화하였는지에 대해 재확인하기 위한 질문을 내보내는 정책을 결정한다.
그에 따라, 응답생성부(454)는 정책을 통해 결정된 'Confirm(프로그램명)' 행동, 사용자의 입력정보, IPTV 제어 시스템(460)의 결과를 사용자가 이해하기 쉬운 형태로 생성한다. 이때, 응답 문장으로는 "어떤 프로그램의 12회를 다운로드 하시겠습니까?"이다.
이후, 출력부(425)는 상기 응답문장을 음성, 텍스트 등의 형태로 변환하여 사용자에게 추론된 응답을 제공한다.
이와 같이, 본 발명의 정책 모델링 장치는 철도 예약 시스템 또는 IPTV 제어 시스템 등을 위한 대화 관리 시스템에서 대화 관리를 위해 필요한 행동을 수행할 수 있게 하는 정책을 훈련하여 제공한다.
이하, 철도 예약 시스템에서 정책을 훈련하는 경우에, '본 발명의 정책 모델링 방법' 및 '종래의 정책 훈련 방법'의 성능에 대한 비교결과를 후술할 도 5a 및 도 5b를 참조하여 설명한다.
도 5a 및 도 5b는 정책 훈련에 대한 실험결과를 나타내는 설명도이다.
도 5a 및 도 5b에서, 'n-City ticketing problem'이라 함은, n개의 도시를 대상으로 출발지와 목적지를 선택하여 편도티켓을 발급하는 문제를 의미한다.
즉, 도 5a에서 '2-City ticketing problem'은 두 개 도시(a, b)에서 각기 출발지와 목적지를 선택하여 편도티켓을 발급하는 문제를 의미하고, 도 5b에서 '3-City ticketing problem'은 세 개 도시(a, b, c)에서 각기 출발지와 목적지를 선택하여 편도티켓을 발급하는 문제를 의미한다.
도 5a 및 도 5b에 도시된 바와 같이, 여기서는 정책 훈련을 위한 방식으로 'Perseus', 'HSVI', 'Symbolic Perseus'(ADD를 적용한 Perseus), 'Symbolic HSVI'(ADD를 적용한 HSVI)에 대한 실험결과를 나타낸다. 전술한 바와 같이, 본 발명의 정책 모델링 장치에서는 ADD를 적용한 HSVI 즉, 'Symbolic HSVI'를 이용하여 정책을 훈련한다.
도 5a 및 도 5b의 실험결과에 따르면, 'Symbolic HSVI'는 보상값(Reward)에서 타 방식들(즉, 'Perseus', 'HSVI', 'Symbolic Perseus')과 비교하여 크게 차이를 나타내지 않는 반면에, 정책을 훈련하는데 걸리는 시간(Time)에서 타 방식들에 비해 큰 폭으로 줄었음을 확인할 수 있다.
특히, '3-City ticketing problem'의 입력 오류율(p_err)이 '0.2'인 경우에, 본 발명의 'Symbolic HSVI'는 'Perseus'에 비해 정책을 훈련하는데 걸리는 시간이 대략 1/66로 감소하였다. 즉, 최적 정책을 구함에 있어서 수렴속도가 월등히 빨라짐을 알 수 있다.
결과적으로, 'n-City ticketing problem'에서 n이 커짐에 따라(즉, 정책 훈련 과정이 복잡해짐에 따라), 본 발명의 'Symbolic HSVI'는 타 방식들에 비해 정책을 훈련하는데 걸리는 시간을 앞당겨 정책을 훈련하기 위한 처리속도 및 메모리 사용량에 대한 성능을 향상시킬 수 있다.
한편, 전술한 바와 같은 본 발명의 방법은 컴퓨터 프로그램으로 작성이 가능하다. 그리고 상기 프로그램을 구성하는 코드 및 코드 세그먼트는 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 상기 작성된 프로그램은 컴퓨터가 읽을 수 있는 기록매체(정보저장매체)에 저장되고, 컴퓨터에 의하여 판독되고 실행됨으로써 본 발명의 방법을 구현한다. 그리고 상기 기록매체는 컴퓨터가 판독할 수 있는 모든 형태의 기록매체를 포함한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
도 1은 POMDP에서 가치함수에 대한 설명도,
도 2는 본 발명에 적용되는 톱니경계에 대한 예시도,
도 3a는 본 발명에 따른 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치에 대한 일실시예 구성도,
도 3b는 본 발명에 따른 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 방법에 대한 일실시예 흐름도,
도 4a는 본 발명이 적용된 철도 예약 시스템을 위한 정책 및 대화에 대한 일예시도,
도 4b는 상기 도 4a 기반의 정책 그래프(policy graph)에 대한 일실시예 설명도,
도 4c는 본 발명이 적용되는 철도 예약 시스템을 위한 대화 관리 시스템에 대한 일실시예 설명도,
도 4d는 본 발명이 적용된 IPTV 제어 시스템을 위한 정책 및 대화에 대한 일예시도,
도 4e는 본 발명이 적용되는 IPTV 제어 시스템을 위한 대화 관리 시스템에 대한 일실시예 설명도,
도 5a 및 도 5b는 정책 훈련에 대한 실험결과를 나타내는 설명도이다.
* 도면의 주요 부분에 대한 부호의 설명
310 : 문제 정의부
320 : 경계 계산부
330 : 정책 훈련부
340 : 정책 출력부

Claims (17)

  1. 정책 모델링 장치에 있어서,
    부분 마코프 의사결정 과정을 통해 해결하고자 하는 문제를 수학적 파라미터로 정의하고, 상/하부경계의 목표차이값을 입력받기 위한 문제 정의 수단;
    대수결정도를 적용해 상기 상/하부경계를 계산하기 위한 경계 계산 수단;
    상기 상/하부경계의 계산결과, 상기 수학적 파라미터, 상기 목표차이값을 이용하여 부분 마코프 의사결정 과정에 따라 행동을 결정해 정책을 훈련하기 위한 정책 훈련 수단; 및
    상기 정책을 외부 시스템으로 제공하기 위한 정책 출력 수단
    을 포함하는 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치.
  2. 제 1 항에 있어서,
    상기 경계 계산 수단은,
    대수결정도를 적용해 상부경계를 계산하는 경우에, 상태추정 확률분포에서의 톱니경계를 이용하여 계산하는 것을 특징으로 하는 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치.
  3. 제 2 항에 있어서,
    상기 경계 계산 수단은,
    상태추정 확률분포를 대수결정도의 각 변수별로 주변화(marginalize)하여, 상기 상부경계를 계산하는 것을 특징으로 하는 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치.
  4. 제 3 항에 있어서,
    상기 경계 계산 수단은,
    대수결정도로 상태추정 확률분포 및 '가치함수를 결정하는 선형함수'를 표현하고 대수결정도 연산자를 적용하여 상기 상부경계를 계산하는 것을 특징으로 하는 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 정책 훈련 수단은,
    모든 상태추정 확률분포에 대응되는 상기 행동을 상기 정책으로 훈련하는 것을 특징으로 하는 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치.
  6. 제 5 항에 있어서,
    상기 정책 훈련 수단은,
    강화학습을 통해 매 단계의 상기 행동에 대한 보상을 통해 상기 정책을 평가하고, 상기 정책에 대한 누적 보상(cumulative reward)이 최대인 경우를 최적 정책으로 선택될 수 있도록 하는 것을 특징으로 하는 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치.
  7. 제 6 항에 있어서,
    상기 수학적 파라미터는,
    상기 부분 마코프 의사결정 과정을 해결하기 위한 HSVI(Heuristic Search Value Iteration)의 파라미터로서, 상태 집합, 행동 집합, 보상 함수, 상태 천이 확률, 관찰 집합, 관찰 확률에 대한 파라미터를 포함하는 것을 특징으로 하는 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치.
  8. 제 7 항에 있어서,
    상기 정책 출력 수단은,
    상기 정책을 외부의 대화 관리 시스템으로 제공하는 것을 특징으로 하는 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치.
  9. 정책 모델링 방법에 있어서,
    부분 마코프 의사결정 과정을 통해 해결하고자 하는 문제를 수학적 파라미터로 정의하고, 상/하부경계의 목표차이값을 입력받는 단계;
    대수결정도를 적용해 상기 상/하부경계를 계산하는 경계 계산 단계;
    상기 상/하부경계의 계산결과, 상기 수학적 파라미터, 상기 목표차이값을 이용하여 부분 마코프 의사결정 과정에 따라 행동을 결정해 정책을 훈련하는 훈련 단계; 및
    상기 정책을 외부 시스템으로 제공하는 제공 단계
    를 포함하는 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 방법.
  10. 제 9 항에 있어서,
    상기 경계 계산 단계는,
    대수결정도를 적용해 상부경계를 계산하는 경우에, 상태추정 확률분포에서의 톱니경계를 이용하여 계산하는 것을 특징으로 하는 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 방법.
  11. 제 10 항에 있어서,
    상기 경계 계산 단계는,
    상태추정 확률분포를 대수결정도의 각 변수별로 주변화(marginalize)하여, 상기 상부경계를 계산하는 것을 특징으로 하는 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 방법.
  12. 제 11 항에 있어서,
    상기 경계 계산 단계는,
    대수결정도로 상태추정 확률분포 및 '가치함수를 결정하는 선형함수'를 표현하고 대수결정도 연산자를 적용하여 상기 상부경계를 계산하는 것을 특징으로 하는 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 방법.
  13. 제 9 항 내지 제 12 항 중 어느 한 항에 있어서,
    상기 훈련 단계는,
    모든 상태추정 확률분포에 대응되는 상기 행동을 상기 정책으로 훈련하는 것을 특징으로 하는 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 방법.
  14. 제 13 항에 있어서,
    상기 훈련 단계는,
    강화학습을 통해 매 단계의 상기 행동에 대한 보상을 통해 상기 정책을 평가하고, 상기 정책에 대한 누적 보상(cumulative reward)이 최대인 경우를 최적 정책으로 선택될 수 있도록 하는 것을 특징으로 하는 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 방법.
  15. 제 14 항에 있어서,
    상기 수학적 파라미터는,
    상기 부분 마코프 의사결정 과정을 해결하기 위한 HSVI(Heuristic Search Value Iteration)의 파라미터로서, 상태 집합, 행동 집합, 보상 함수, 상태 천이 확률, 관찰 집합, 관찰 확률에 대한 파라미터를 포함하는 것을 특징으로 하는 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 방법.
  16. 제 15 항에 있어서,
    상기 제공 단계는,
    상기 정책을 외부의 대화 관리 시스템으로 제공하는 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 방법.
  17. 프로세스를 구비한 정책 모델링 장치에,
    부분 마코프 의사결정 과정을 통해 해결하고자 하는 문제를 수학적 파라미터로 정의하고, 상/하부경계의 목표차이값을 입력받는 기능;
    대수결정도를 적용해 상기 상/하부경계를 계산하는 기능;
    상기 상/하부경계의 계산결과, 상기 수학적 파라미터, 상기 목표차이값을 이용하여 부분 마코프 의사결정 과정에 따라 행동을 결정해 정책을 훈련하는 기능; 및
    상기 정책을 외부 시스템으로 제공하는 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020080076559A 2008-08-05 2008-08-05 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치및 그 방법 KR101002125B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080076559A KR101002125B1 (ko) 2008-08-05 2008-08-05 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080076559A KR101002125B1 (ko) 2008-08-05 2008-08-05 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치및 그 방법

Publications (2)

Publication Number Publication Date
KR20100016909A true KR20100016909A (ko) 2010-02-16
KR101002125B1 KR101002125B1 (ko) 2010-12-16

Family

ID=42088710

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080076559A KR101002125B1 (ko) 2008-08-05 2008-08-05 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치및 그 방법

Country Status (1)

Country Link
KR (1) KR101002125B1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9261880B2 (en) 2013-12-19 2016-02-16 Electronics And Telecommunications Research Institute Apparatus and method for controlling vessel deviating from anchorage
WO2016057001A1 (en) * 2014-10-09 2016-04-14 Cloudradigm Pte. Ltd. A computer implemented method and system for automatically modelling a problem and orchestrating candidate algorithms to solve the problem
CN107066444A (zh) * 2017-03-27 2017-08-18 上海奔影网络科技有限公司 基于多轮交互的语料生成方法和装置
WO2019027142A1 (ko) * 2017-07-31 2019-02-07 이화여자대학교 산학협력단 동적 네트워크에서 네트워크 형성 방법 및 장치
KR20190059201A (ko) * 2017-11-22 2019-05-30 서강대학교산학협력단 대화 정책 모델의 최적화 방법 및 이를 구현하는 대화 시스템
WO2021017227A1 (zh) * 2019-07-30 2021-02-04 北京邮电大学 无人机轨迹优化方法、装置及存储介质
KR20210038263A (ko) * 2019-09-30 2021-04-07 주식회사 니블스카이 Hmm 기반의 클릭스트림 데이터를 이용한 구매 여부 예측 시스템 및 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005049643A (ja) 2003-07-29 2005-02-24 Advanced Telecommunication Research Institute International Hmmの学習装置及び方法、コンピュータプログラム、及びコンピュータ

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9261880B2 (en) 2013-12-19 2016-02-16 Electronics And Telecommunications Research Institute Apparatus and method for controlling vessel deviating from anchorage
WO2016057001A1 (en) * 2014-10-09 2016-04-14 Cloudradigm Pte. Ltd. A computer implemented method and system for automatically modelling a problem and orchestrating candidate algorithms to solve the problem
CN107066444A (zh) * 2017-03-27 2017-08-18 上海奔影网络科技有限公司 基于多轮交互的语料生成方法和装置
CN107066444B (zh) * 2017-03-27 2020-11-03 上海奔影网络科技有限公司 基于多轮交互的语料生成方法和装置
WO2019027142A1 (ko) * 2017-07-31 2019-02-07 이화여자대학교 산학협력단 동적 네트워크에서 네트워크 형성 방법 및 장치
KR20190013156A (ko) * 2017-07-31 2019-02-11 이화여자대학교 산학협력단 동적 네트워크에서 네트워크 형성 방법 및 장치
KR20190059201A (ko) * 2017-11-22 2019-05-30 서강대학교산학협력단 대화 정책 모델의 최적화 방법 및 이를 구현하는 대화 시스템
WO2021017227A1 (zh) * 2019-07-30 2021-02-04 北京邮电大学 无人机轨迹优化方法、装置及存储介质
KR20210038263A (ko) * 2019-09-30 2021-04-07 주식회사 니블스카이 Hmm 기반의 클릭스트림 데이터를 이용한 구매 여부 예측 시스템 및 방법

Also Published As

Publication number Publication date
KR101002125B1 (ko) 2010-12-16

Similar Documents

Publication Publication Date Title
KR101002125B1 (ko) 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치및 그 방법
JP6828121B2 (ja) 優先順位付けされた経験メモリを使用したニューラルネットワークの訓練
KR20190069582A (ko) 보조 작업들을 통한 강화 학습
US20150228275A1 (en) Statistical Voice Dialog System and Method
CN110081893B (zh) 一种基于策略重用和强化学习的导航路径规划方法
Doshi et al. Efficient model learning for dialog management
CN114261400B (zh) 一种自动驾驶决策方法、装置、设备和存储介质
Meuleau et al. A heuristic search approach to planning with continuous resources in stochastic domains
KR20220130177A (ko) 학습된 은닉 상태를 사용한 에이전트 제어 플래닝
CN112686428A (zh) 基于地铁线网站点相似性的地铁客流预测方法及装置
CN112000088A (zh) 路径规划方法与装置
Bhatia et al. Tuning the hyperparameters of anytime planning: A metareasoning approach with deep reinforcement learning
Paek et al. Evaluating the Markov assumption in Markov Decision Processes for spoken dialogue management
US20100312561A1 (en) Information Processing Apparatus, Information Processing Method, and Computer Program
Charlin et al. Automated hierarchy discovery for planning in partially observable environments
Cuayáhuitl et al. Optimizing situated dialogue management in unknown environments
Undurti et al. A decentralized approach to multi-agent planning in the presence of constraints and uncertainty
CN116430842A (zh) 一种移动机器人避障方法、装置、设备及存储介质
Yoshino et al. Statistical dialogue management using intention dependency graph
Wei et al. Extended LTLvis motion planning interface
Fuentetaja et al. Anticipation of goals in automated planning
Klumpp et al. Combined set-theoretic and stochastic estimation: A comparison of the SSI and the CS filter
Sedlak et al. Active inference on the edge: A design study
CN114676471B (zh) 火星车的任务规划模型建立方法、装置、电子设备及介质
Vassev et al. Formalizing emobility with knowlang

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20131202

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20141201

Year of fee payment: 5