KR20110075632A - 다중 목적 영역의 통계적 대화 정책 추론 방법 - Google Patents

다중 목적 영역의 통계적 대화 정책 추론 방법 Download PDF

Info

Publication number
KR20110075632A
KR20110075632A KR1020090132132A KR20090132132A KR20110075632A KR 20110075632 A KR20110075632 A KR 20110075632A KR 1020090132132 A KR1020090132132 A KR 1020090132132A KR 20090132132 A KR20090132132 A KR 20090132132A KR 20110075632 A KR20110075632 A KR 20110075632A
Authority
KR
South Korea
Prior art keywords
slot
value
user
behavior
inferring
Prior art date
Application number
KR1020090132132A
Other languages
English (en)
Other versions
KR101212795B1 (ko
Inventor
성주원
은지현
김현정
장두성
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020090132132A priority Critical patent/KR101212795B1/ko
Publication of KR20110075632A publication Critical patent/KR20110075632A/ko
Application granted granted Critical
Publication of KR101212795B1 publication Critical patent/KR101212795B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 다중 목적 영역의 통계적 대화 정책 추론 방법에 관한 것이다. 본 발명은 다중 목적을 지원해야 하는 현실 세계의 대규모의 복합적인 영역에서 오류에 강인하고 신뢰도 높은 서비스를 제공하기 위한 것으로, 입력되는 사용자의 요청을 해석하고 추론에 필요한 의미 정보를 추출하고, 상기 추출한 의미 정보로 상위 목적을 추론하고 상기 상위 목적의 세부 목표값을 추론하는 두 단계의 추론을 하며 추론된 결과값을 이용하여 최종적인 시스템 행동을 추론한 후, 상기 시스템 행동을 사용자가 이해할 수 있는 자연어 응답으로 생성하여 제공하여, 사용자와 시스템(또는 장치) 간의 대화가 이루어지게 한다
대화 추론, 다중 목적, 부분관측 마르코프 의사결정 과정, CSPBVI, CRF

Description

다중 목적 영역의 통계적 대화 정책 추론 방법{METHOD OF STATISTICAL DIALOG MANAGEMENT POLICY FOR MULTI-GOAL DOMAINS}
본 발명은 대화 관리 시스템 및 대화 기반 서비스에 관한 것이다. 특히, 본 발명은 연속적으로 입력되는 사용자 발화(즉, 음성 또는 문자 질의)에 대응하여 각 사용자 요청이 타겟으로 하는 적어도 두 개 이상의 상위 목적(즉, 다중 목적)과 그 목적을 구성하는 슬롯별 믿음 상태 확률값을 추론하여 최종 시스템 행동(즉, 사용자 요청에 대한 시스템 발화)을 결정하는 다중 목적 영역의 통계적 대화 정책 추론 방법에 관한 것이다.
대화 시스템은 음성 혹은 텍스트로 주어지는 인간의 발화를 관찰하고 이해하여 시스템 발화를 제공하여 인간과 시스템간의 의사 소통을 가능하게 하며, 이를 통해 다양한 분야에 활용되어 인간과 시스템간의 의사 소통의 매개로 핵심적인 역할을 수행할 수 있게 한다.
그러나 음성 혹은 텍스트로 주어지는 인간의 발화를 기계가 관찰하고 이해하는 과정에는 한계가 따르게 되어 필연적으로 인식 오류의 가능성을 포함하게 되며, 이는 대화시스템과 이를 적용한 서비스 전체의 성능을 저하시키는 주요한 원인으로 작용한다.
이에, 기계가 부분적으로만 관측할 수 있는 현실과 이 과정에서 발생할 수 있는 오류의 가능성을 인정하고 이를 현실과 유사하게 모델링하여, 일일이 절차적인 규칙으로 기술하지 않고도 장기적으로 최대의 이익을 추구할 수 있도록 효과적으로 제어할 수 있는 정책을 얻어내기 위하여 부분관측 마르코프 의사결정 과정(POMDP, Partially Observable Markov Decision Process)에 기반한 대화 관리 시스템과 이 문제를 효율적으로 풀어내기 위한 여러 가지 훈련 기법이 제안되었다.
그러나, 이러한 장점에 반하여, POMDP에 기반한 대화 관리 시스템은 고려해야 할 경우의 수와 상태 공간이 방대한 규모의 문제로 인해 소규모 분야에서만 실험적으로 적용되어 왔을 뿐 실제 현실의 문제를 풀어내기 힘든 단점이 있다.
그리고 상기 단점을 보완하기 위해 제안된 여러 가지 개선된 모델링 및 훈련 기법 (Perseus, PBVI, HSVI, Symbolic HSVI )에도 불구하고 정책을 훈련하는 과정 및 실제 실시간 시스템 행동의 추론과 서비스의 제공 시에도 상당한 시간과 메모리가 요구된다.
특히, POMDP는 대화의 현재 상태를 표현하는 믿음 상태 공간을 갱신하고 유지하는데 많은 자원을 요구하게 되며 근본적으로 이를 효율적으로 제어하는 방안이 필요하다.
더구나, 현실의 문제들은 인간과 시스템간의 대화가 한 가지의 대화 영역(즉, 대화 목적이 이루어지는 서비스 영역)을 타겟으로 해도 여러 개의 대화 목적을 넘나드는 다중 목적 영역인 경우가 대부분이다.
또한, 이러한 다중 목적 영역은 예제 기반 대화 추론 등 오류를 감안하지 않은 대화 추론 방식을 사용할 때에는 영역의 규모에 크게 구애받지 않고 목적만을 판별해내어 진행하는데 기술적인 제약이 없으나, 오류의 요소를 고려하고 통계적 기반으로 모든 상황에 대한 최적의 대화 응답 추론을 도출하는 것은 기술적으로 어려움에 직면하게 된다.
즉, 복잡한 현상을 모델링하는 과정에서 대화 관리 시스템의 정책 결정 인자로서 작용하는 요소가 기하급수적으로 증가하게 되어 규모의 문제점은 더욱 대두되어, 일정 규모 이상의 대화 영역에서는 많은 자원을 활용하더라도 현실적으로 양질의 정책을 도출하는 것이 거의 불가능해진다.
그러므로, 대규모의 복잡한 현실 세계의 문제를 하나로 모델링하고 모든 경우의 해 공간을 탐색하려는 기존의 개념에서 벗어나, 문제를 적정한 계위로 나누어 분석하고 각 계위에서 추론하고자 하는 대상의 성격을 고려하여 가장 적합한 추론 방식을 활용하여 전략적으로 접근함으로써 궁극적인 최적의 시스템 행동을 추론할 수 있는 기법의 고안이 필수적으로 요구된다.
본 발명의 기술적 과제는 기계와 인간의 커뮤니케이션을 가능케 하는 시스템 혹은 서비스에서 사용자의 가변적인 다중 목적을 지원해야 하는 대규모 영역의 문제를 풀기 위해, 인식 오류에 강인한 부분관측 마르코프 의사결정 프로세스(POMDP)를 적용하되, 전체의 문제를 하나로 모델링하여 접근하는 기존의 방식에서 벗어나, 먼저 사용자의 상위 목적을 사용자의 행동(발화 내용) 및 대화 히스토리로부터 추론하고, 다음 단계에서 상위 목적을 구성하는 세부 목표의 값을 유추해 내며, 사용자의 목적 즉 의도의 변경에 탄력적으로 대응하고 믿음 상태 공간을 상속하여 다수의 목적 영역 간 공유하게 함으로써, 현실적으로 제한된 자원으로 양질의 대화 정책을 효율적으로 도출하고 오류에 강인하고 신뢰도 높은 대화 관리 장치 및 그 방법을 제공하는 것이다. 
본 발명의 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 본 발명의 다른 기술적 과제 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시 예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 기술적 과제 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상기 기술적 과제를 달성하기 위한 본 발명의 실시 예에 따른 다중 목적 영역의 통계적 대화 정책 추론 방법을 제공한다. 이 방법은 통계적 대화 정책 추론 장치에서 제공하는 순차적으로 입력되는 사용자 발화에 대응하여 상기 사용자 발화 각각에 대한 상기 시스템 행동을 추론하여 제공하는 다중 목적 영역의 통계적 대화 정책 추론 방법에 있어서, (a) 사용자로부터 입력되는 사용자 발화로부터 상기 시스템 행동을 추론하기 위한 의미 정보를 추출하는 단계, (b) 상기 의미 정보를 이용하여 상기 사용자 발화가 의도하는 제1 상위 목적을 추론하는 단계, (c) 상기 사용자 발화에 포함된 상기 제1 상위 목적의 슬롯 별 슬롯값과 상기 슬롯값의 믿음 상태 확률값을 추론하는 단계, (d) 상기 믿음 상태 확률값을 이용하여 상기 제1 상위 목적에 대응하는 설정된 슬롯에 대한 슬롯값의 신뢰도를 높이고 궁극적인 목적을 달성하기 위한 최적의 시스템 행동을 결정하는 단계, 그리고 (e) 상기 결정한 시스템 행동을 상기 사용자가 이해할 수 있는 자연어 응답으로 생성하여 제공하는 단계를 포함한다.
본 발명에 따르면, 다양한 목적을 지니는 대규모 문제 영역에서 절차적인 규칙의 기술 없이 오류의 가능성을 모델링하여 효과적으로 제어할 수 있으나 규모의 문제로 인해 실제 현실의 문제를 풀어내기 힘든 POMDP의 단점을 극복하고, 오류에 강인하고 상황에 탄력적인 시스템 행동의 정책을 추론할 수 있어 대화 관리 시스템의 품질을 제고하고 사용자의 만족도를 높일 수 있는 효과가 있다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
이제, 도면을 참조하여 본 발명의 실시 예에 따른 다중 목적 영역의 통계적 대화 정책 추론 방법에 대하여 상세히 설명하기로 한다.
우선 POMDP(부분관측 마르코프 의사결정 프로세스)에 대해 자세히 설명한다.
POMDP는 사용자의 행동 유형과 인식 오류 가능성에 따라 사용자의 발화에 대한 하나의 대화 상태만을 가정하지 않고 상태의 모든 가능성을 유지하면서 현재의 확률적인 대화 상태 분포 하에서 장기적으로 가장 많은 이득을 취할 수 있는 시스템 행동을 결정하는 방식으로서, 부분적으로만 관측될 수 있는 불확실한 상황을 <S, A, Z, T, O, R, b 0 > 로 정의한다. 여기서 각 요소는 다음을 의미한다.
여기서 대화 상태는 사용자 발화에 포함된 슬롯, 히스토리, 주행, 화행 등을 통해 사용자 발화가 의도하는 것이 무엇인지를 판단하는 상태이다.
S : 대화의 실제 상태(s)의 집합
A : 시스템이 취할 수 있는 행동(a)의 집합
T : 현재의 실제 상태(s)에서 시스템이 행동(a)를 취함으로써 변경 상태(s')로 천이할 확률 분포 P( s'/s,a)
O : 시스템이 관찰할 수 있는 관측 값(o)의 집합
Z : 오류 확률 P( o' / s' ,a) 의 분포
R : 상태(s)에서 시스템의 행동(a)에 따른 보상 값의 기대치 r(s,a)  의 분포
b 0 : 대화 시스템 상태의 초기 확률 분포
그리고, 대화가 진행되면서 대화의 상태(s)의 분포 확률은 갱신되는데, 이때 실제 상태의 분포 확률(b´(s´))은 다음의 수학식 1과 같이 나타낼 수 있다.
Figure 112009080891986-PAT00001
이러한 실제 상태의 분포 확률률(b´(s´))은 해당 대화 상태를 신뢰할 수 있는지에 대한 확률로서, 해당 대화 상태에 포함된 슬롯에 대한 신뢰 확률값(즉, 믿음 상태
Figure 112009080891986-PAT00002
확률값) 등이 포함된다.
그리고, POMDP는 시점 t 의 상태(s)의 분포 확률을 b t (s), 상태(s)에서 행위(a t )를 취함으로써 얻을 수 있는 보상을 r(s, a t ) 라 할 때, 궁극적으로 다음 식 2와 같이 표현되는 누적된 보상 값을 최대화할 수 있는 시스템의 행동을 도출해내는 것을 그 목적으로 한다.
Figure 112009080891986-PAT00003
이렇듯 POMDP는 통계적인 기반 하에 오류 및 서로 상충되는 관측치를 해석하여 최적의 정책을 도출할 수 있는 장점에도 불구하고, 다루어야 할 개념 혹은 슬롯의 개수가 더해질수록 산술적인 복잡도가 기하 급수적으로 증가하게 되어 적정한 리소스 내에서 다루기 어려운 한계가 있다.
이를 해결하기 위해 PBVI(Point Based Value Iteration), HSVI(Heuristic Search Value Iteration), Symblic HSVI, Factored POMDPs 등 많은 연구가 이루어 져 왔지만, 아직까지는 매우 작은 규모의 도메인에 한정되었다. 또한, 현실의 거의 모든 도메인이 다양한 사용자의 목적을 지원하는 다중 영역임에도 불구하고 이를 모델링 한 상용화 수준의 대화시스템의 구현은 전혀 이루어지지 못하고 있는 실정이다.
이러한 문제를 해결하고 최적의 대화 정책을 효과적으로 도출하기 위하여, 우선 다중 목적 대용량 도메인(대화 영역)의 특성을 고찰할 필요가 있다.
현실의 대규모 문제들의 특성을 철도 예약 영역을 예시로 기술하면 다음과 같다.
(1) 첫 번째 특성: “잔여석 조회”, “예약”, “취소” 등의 상위 목적은 주행(명사의 나열이나, 문형을 나누어 놓은 것)이나 화행(특정 조건에 따라 구분한 주행), 발화된 슬롯(상위 목적에 대응하여 설정된 키워드, 도 2 참조)의 정보, 대화 히스토리(도 3 참조) 등을 종합적으로 고려하여 사용자의 본래 의도를 유추하게 된다. 또한, 사용자의 상위 목적은 대화가 진행되면서 자연스럽게 변화될 수 있다.
(2) 두 번째 특성: 사용자의 상위 목적과 달리 사용자가 명시적으로 목표하는 바를 말하는 “출발역” 혹은 “시간” 등의 슬롯들은 비교적 슬롯 간 독립적이라고 가정할 수 있다.
(3) 세 번째 특성: 각 상위 목적 영역에서 필요로 하는 슬롯들은 상호 배제와 전체포괄(Mutually Exclusive and Collectively Exhaustive)의 특성을 지닐 수도 있지만, 공통으로 요구되는 슬롯을 공유하는 경우 또한 일반적이다.
상기 특성들을 고려할 때, 사용자의 상위 목적과 그 목적을 구성하는 세부 목표 값은 별개로 모델링하여 추론하는 것이 효율적이며, 각 단계별로 요소의 특성에 적합한 최적의 추론 기법을 활용하는 것이 중요하다.
우선 사용자의 상위 목적은 상기 첫 번째 특성을 고려하여, 대화의 주행, 화행, 슬롯의 발화 여부를 인자로 조건부 랜덤필드(CRF, Conditional Random Field)와 같은 특성분류기법(classifier)를 이용하여 추론해 낼 수 있다.
CRF는 조건부 확률을 최대로 하는 방향성이 없는 그래프 모델로서, 보다 일반화된 HMM(Hidden Markov Model)으로 볼 수 있다. 상위의 목적 영역이 정해지면 그 영역 내에서 필요로 하는 슬롯을 채우기 위해 Factored POMDP를 활용하여, 대화 상태(s)를 ( s u , a u , s d ) 의 세 가지 요소로 나누어 모델링 한다.
여기서 세 가지 요소는 사용자의 목적(즉, 상위 목적)(s u ), 사용자의 발화 유형(즉, 주행, 화행)(a u ), 대화의 이력(즉, 히스토리)(s d )을 각각 나타낸다. 또한 필요한 슬롯값(슬롯에 해당하는 발화에 포함된 단어)을 채워나가는 대화 방식에 적합하고, 방대한 문제를 슬롯별 정책 도출 문제로 나누고 근사화 시켜 풀어냄으로써 슬롯의 개수에 비교적 덜 민감한 CSPBVI(Composite Summary Point Based Value Iteration) 방식을 적용하는 것이 가장 효율적이다.
CSPBVI는 원문제(Master POMDP)를 슬롯별로 나눈 문제(Summary BMDP)에서 가장 신뢰도가 높은 값(best)과 그 나머지(rest)의 두 가지 값만을 고려하여 랜덤 샘플링으로 수집한 포인트를 탐색해서 최적의 해를 찾아내는 PBVI 방식의 일종이다.
각 슬롯 별로 보상 값을 최대로 하는 행동이 찾아지면, 최종적으로 어플리케 이션 시스템의 특성 및 대화시스템 설계자의 의도에 맞게 휴리스틱하게 전체의 시스템 행동을 결정한다.
세 번째의 특성으로 인해 대화가 진행되면서 사용자의 의도가 변경될 경우 이전 영역과 중복된 정보를 필요로 할 경우가 있다. 상위 목적의 각 영역별로 독립적인 정책을 도출하고 실행 시 대화의 상태를 별도로 유지하고 관리하지만, 목적 영역의 변경 시 처음부터 하위 목표에 새로운 값을 채워나가야 한다면 비효율적이고 사용자 만족도를 크게 저하시킬 수 있다. 그러므로, 실행 시에는 새로운 목적 영역으로 천이되더라도 공통된 슬롯의 인식 내역이 이미 존재하는 경우 이를 상속받아 활용하도록 한다.
이하에서는 도 1을 참조로 하여 본 발명의 실시 예에 따른 다중 목적 영역의 통계적 대화 정책 추론 장치를 설명한다. 도 1은 본 발명에 따른 다중 목적 영역의 통계적 대화 정책 추론 장치의 구성도이다.
도 1에 도시된 바와 같이, 본 발명의 실시 예에 따른 통계적 대화 정책 추론 장치는 언어 해석부(101), 응답 추론부(102)와, 응답 생성부(103)를 포함한다.
물론, 본 발명의 실시 예에 따른 통계적 대화 정책 추론 장치는 콘솔이나 키보드 등과 같이 사용자의 요청을 수신하는 사용자 입력부(미도시) 또는, 사용자의 음성을 입력하는 음성 입력부(미도시)와 음성 입력부를 통해 수신된 음성을 판독하는 음성 판독부(미도시)를 포함하고 있으나, 이러한 구성은 통상적인 것이고, 본 발명의 특징에 따른 동작 설명에는 큰 상관이 없으므로 설명을 생략한다.
언어 해석부(101)는 문자 또는 음성 등으로 입력되는 사용자의 발화를 받아 들여 해석하고 추론에 필요한 의미 정보를 추출한다. 이때 의미 정보는 사용자 발화에 포함된 슬롯, 히스토리, 주행, 화행을 포함하며, 구체적인 의미 정보는 수학식 7에 도시되어 있다.
예컨대, "부산가는 열차 조회해줘"라는 사용자 요청에 대해서 언어 해석부(101)는 부산, 열차라는 슬롯을 파악하고, "조회해줘"라는 문형과 어휘정보에 따라 주행과 화행을 파악하며, 이전 발화의 상위 목적에 대해 상위 목적이 변경되었는지에 대한 히스토리를 파악하며, 이때 슬롯, 주행, 화행과 히스토리 등을 의미 정보로 추출한다.
응답 추론부(102)는 언어 해석부(101)에 의해 추출한 의미 정보를 이용하고 CRF를 이용하여 상위 목적 영역을 추론하고 추론한 상위 목적 영역의 각 슬롯별 세부 목표 값(즉, 믿음 상태 확률값)을 POMDP를 이용하여 모델링하며, 모델링한 각 슬롯별 믿음 상태 확률값을 이용하여 각 슬롯별 시스템 행동(am ,1, am ,2 ,am ,3 등)을 추론하고, 추론된 각 슬롯별 시스템의 행동(am ,1,am ,2,am ,3 등)을 휴리스틱하게 조합하여 전체 시스템 행동(am)을 결정한다.
이때 응답 추론부(102)는 전체 시스템 행동의 결정을 위해 이전 대화 목적과 중복하는 슬롯의 중복 여부에 따라 믿음 상태의 확률 분포를 조절하며, 이렇게 조절한 믿음 상태를 전체 시스템 행동(am)의 결정시에 이용한다.
여기서, 응답 추론부(102)는 슬롯별 믿음 상태의 확률값에 대한 결정에 관측 값(ok,1,ok,2,ok,3 등)을 이용한다. 관측값(ok,1,ok,2,ok,3 등)은 현재 입력된 발화의 슬롯값에 대하여 이후 입력되는 발화 중에서 해당 슬롯값에 영향을 주는 값으로, 응답 추론부(102)가 관측자 입장에서 계속해서 관측하는 값이라는 의미이다.
예컨대, 사용자가 출발역에 대한 슬롯값으로 "부선"이라고 발화하는 경우에, 응답 추론부(102)는 "부선"에 대한 믿음 상태 확률값을 설정치보다 낮은 20% 정도로 한다. 이는 "부선역"이 "부산역"과 유사하고, "부산역"에 비해 이용객이 현저히 낮기 때문에 신뢰 정도를 낮게 한다.
이런 상태에서 "부선역"이 충청도에 있는 철도역인 경우에, 다음으로 입력된 사용자 발화에 충청도나 근접 지역에 대한 슬롯값이 입력되거나 "부산"이라는 슬롯값이 입력될 수 있는데, 전자의 경우는 출발역 슬롯에 대한 관측값은 충청도나 부선역에 근접한 지역명이고, 후자의 경우엔 "부산"이라는 슬롯값이다.
응답 추론부(102)는 관측값이 충청도나 근접 지역에 대한 슬롯값인 경우에 "부선"에 대한 믿음 상태 확률값을 20%보다 높여 설정치보다 높은 값으로 하고, 출발역이 "부산"이라는 슬롯값인 경우에 "부선"에 대한 믿음 상태 확률값을 20%보다 낮추게 된다. 물론 믿음 상태 확률값이 낮은 슬롯값에 대해서는 사용자에게 재차 확인을 하여 슬롯값을 변경하는 시스템 행동이 발생하게 될 것이다.
따라서, 응답 추론부(102)는 도 1에 도시된 바와 같이 사용자 요청에 포함된 각각의 대화 목적을 파악하고, 각 대화 목적의 영역(즉, 대화 목적 영역)(G1, G2, GK, 등)에 대한 슬롯값을 파악하며, 파악한 슬롯에 대한 믿음 상태 확률값을 파악한 다.
그리고 응답 추론부(102)는 사용자 발화가 계속적으로 입력될수록 각 믿음 상태 확률값을 관측자의 위치에서 관측한 관측값을 반영하여 변경 또는 결정하고, 이러한 결정된 슬롯값이 해당 상위 목적에 대응한 슬롯을 모두 채우면 최종 시스템 행동을 결정한다.
응답 생성부(103)는 응답 추론부(102)의 추론을 통해 얻어진 시스템 행동을 사용자가 이해하기 쉬운 자연어 응답으로 생성하여 제공한다.
이하에서는 본 발명의 실시 예에 따른 다중 목적 영역의 통계적 대화 정책 추론 방법을 통계적 대화 추론 장치가 철도 예약 시스템에 적용된 경우를 예로 하여 설명한다.
사용자가 소기의 목적을 달성하기 위해 유저인터페이스를 통해 철도 예약 시스템에 접속하여 텍스트 혹은 음성을 통해 요구사항을 발화하면, 언어해석부(101)는 이를 분석하여 필요한 의미 정보를 추출해 낸다.
이때, 열차 예약 영역에서의 사용자는 다양한 목적의 달성을 서비스에서 기대하게 되는데, 열차 예약 시스템(즉, 통계적 대화 정책 추론 장치)은 다양한 목적의 달성을 위해 단순한 “서비스 조회” 나 “도움말” 등 기타 영역을 제외하고 크게 도 2에서 같이 6가지 상위 목적과 그 목적을 달성하기 위한 슬롯을 필요로 한다.
도 2에 도시된 바와 같이, 철도 예약에 관련된 상위 목적은 열차 예약(Reserve), 잔여석 조회(Query_seat), 예약취소(Cancel), 예약내역조 회(Query_reservation), 결제(Pay)와 운임조회(Query_fare)과 같이 6개이다.
상위 목적이 열차 예약에는 출발역, 도착역, 출발시간, 열차유형, 객실유형, 예약매수, 아이디, 패스워드를 설정된 슬롯으로 하고 있으며, 잔여석 조회에는 출발역, 도착역, 출발일, 출발시각을 설정된 슬롯으로 하고 있다.
또한 예약취소에는 예약번호와 아이디, 패스워드를 설정된 슬롯으로 하고 있고, 예약내역조회에서는 아이디와 패스워드를, 결제에서는 결제방식, 예약번호, 아이디와, 패스워드를, 운임조회에서는 출발역, 도착역, 열차유형, 객실유형와, 승객유형을 설정 슬롯으로 하고 있다.
이때, 상위 목적 영역 간에는 중복되는 슬롯이 존재한다. 예컨대, 열차 예약과 잔여석 조회을 보면 출발역, 도착역, 출발일, 출발시각은 중복되는 슬롯이고, 예약취소와 예약내역조회를 보면 아이디와 패스워드가 중복되는 슬롯이다.
그리고 각 슬롯은 유효한 값의 범위를 가진다. 즉, 각 슬롯은 슬롯값의 범위를 가진다. 예컨대, 슬롯이 출발역과 도착역인 경우에 서울역, 용산역, 대전역, 부산역 등과 같이 역명을 나타내는 슬롯값의 범위가 있고, 출발일은 해당일로부터 예약이나 조회 가능한 날짜의 범위가 있으며, 승객유형은 어른, 아이, 청소년, 노인 등의 범위와, 열차유형은 KTX, 새마을호, 무궁화호 등의 슬롯값의 범위가 있다.
따라서, 목적 영역 공간을 G, 전제 슬롯의 공간을 W라 하고, 전체 대화의 상태(s)를 (su, au, sd) 로 팩토링하여 표현할 때, 사용자의 목표(su) 상위 목적 영역(mg)와 각 슬롯별 값(gw)을 계위 구조로 다음의 수학식 3으로 나타낼 수 있으며, 이를 상위 목적 영역(mg) 내에서 최적화 하는 과정에서 다시 다음과 같은 수학식 4로 추출된다.
Figure 112009080891986-PAT00004
Figure 112009080891986-PAT00005
이와 유사하게 대화의 이력(s d )과 사용자의 발화 유형(a u ) 관측치(o)는 다음의 수학식 5와 같이 표현된다.
Figure 112009080891986-PAT00006
여기서 h w 는 각 슬롯이 사용자에 의해 인식된 상태를 표현하는 히스토리 정보로서 u, k, c 의 세 가지 상태로 정의하고 이는 각각 발화하지 않은 상태(u), 인식된 상태(k), 사용자에 의해 확인된 상태(c)를 나타낸다.
사용자 발화 유형의 각 항목(a w ) 각 해당 슬롯값에 아무것도 발화되지 않은 nul, 시스템의 확인성 질문에 긍정의 대답을 할 yes, 부정의 대답을 할 no 의 유형이 추가된다.
사용자의 의도와 대화의 상태를 유추하는 근거가 되는 관측치(ow)는 사용자 발화 유형(aw)과 동일한 값의 범위를 가진다.  사용자는 주로 묻는 슬롯에 대해서만 주로 답변하고 추가 정보를 제공하는 경우가 거의 없다고 가정할 수 있다.
단, 특정 슬롯에 대한 요구나 확인이 아닌 단순 인사(예를 들면 Greet) 에 대해서는 각 슬롯에 대해 일정 비율로 랜덤하게 그 목표 값을 얘기할 수 있다.
슬롯값 간의 인식 오류는 훈련용 코퍼스의 자연어 입력 문장에 대해 각 슬롯에 대한 인식 실험을 통해 얻어진 평균 신뢰도(Cw)와, 널(null) 오류율(Pw null)을 활용하여, 신뢰도(Cw)를 실제 목표 값으로 정확히 인식되었을 확률(Pw succ)(즉, 믿음 상태 확률값)의 근사값으로 보아 다음의 수학식 6과 같이 P(o'|s') 를 정의하여 적용한다.
Figure 112009080891986-PAT00007
삽입 에러는 고려하지 않으며, 사용자의 응답 널(null)에 대한 관측치는 널(null), 예스(yes), 노(no)의 세 가지 슬롯값 간 일정한(uniform)한 에러 확률 즉, 일정한 믿음 상태 확률값을 부여한다.
대화가 진행되면서 상위 목적은 도 3에 예시된 바와 같이 자연스럽게 변화할 수 있으며, 사용자는 언제나 목적 및 목표에 따라 응답하고 행동하며, 시스템의 해석 오류에 의해 인식 오류가 발생할 수 있다.
예컨대, 도 3에 도시된 바와 같이, 처음 사용자는 잔여석조회(query_seat)에 대한 대화 목적으로 대화가 진행하다가 열차 예약(Reserve)에 대한 대화를 한 후 예약 취소(Cancel)를 하거나 결제를 하여 예약을 한다. 물론 사용자는 열차 운임(query_fare)에 대한 대화를 하다가 예약(reserve)에 대한 대화를 한 후 대화를 취소하거나 결제를 하여 열차 예약을 한다.
이상과 같이 대중 대화 목적에는 서로 다른 대화 영역을 타겟으로 하고 있으며, 이에 따라 대화 내용에는 서로 다른 목적에 따른 의미 정보가 있으며, 언어 해석부(101)는 이러한 의미 정보를 추출한 후, 응답 추론부(102)에 제공한다.
그러면, 응답 추론부(102)는 도 5에서 기술된 바와 같이, 언어 해석부(101)로부터 해석된 의미 정보를 받아, 두 단계에 걸쳐 시스템 행동을 추론한다.  
첫 번째 단계에서는, 사용자 발화에서 추출된 주행, 화행 및 슬롯의 발화 여부를 활용하여 사용자의 상위 목적의 영역을 CRF로 분류한다(S501).
여기서, sp 와 sa 를 각각 인식된 주행(sp)과 화행(sa)이라고 하고, 현재 발화에서의 슬롯(w) 의 존재 여부를 ufw, 대화 전체에 걸친 누적된 슬롯(w)의 인식 여부를 ifw 이라고 할 때, CRF에 입력되는 의미 정보는 다음의 수학식 7과 같다.
Figure 112009080891986-PAT00008
여기서 sp n sa n 은 주행과 화행의 3-best 중 n번째 값을 의미한다. 단, 신뢰도가 아주 낮거나 높을 경우 그 효과 및 영향도를 높이기 위하여, 1-best 값의 신뢰도가 일정 값 이상일 경우 나머지를 무시하고 3개의 자질로 중복 사용하며, n+1 번째의 신뢰도가 n번째의 신뢰도와 일정 차이 이하로 미미할 경우 n번째의 자질을 사용한다. 
응답 추론부(102)는 추론된 상위 목적이 이전 목적과 다른지를 판단하고(S502), 이전 상위 목적과 다른 상위 목적으로 변경되었을 경우에 슬롯값을 추론하기 위해 사용자에게 이미 발화한 슬롯값을 처음부터 다시 얘기할 것을 요구하는 것은 대화시스템의 성능과 사용자의 만족도를 매우 저하시키게 되므로, 이전 상위 목적과 공유하는 즉 슬롯이 존재할 경우에(S503), 해당 슬롯의 믿음 상태 확률값을 상속받아 현재의 믿음 상태의 분포 확률을 유지시킨다 (S504).
반면에, 상기 판단(S502)에서 이전 목적과 다른 목적으로 변경되었고 이전 목적과 공유되지 않는 새로운 슬롯이 요구될 경우에(S503), 대화를 처음 시작하는 초기 상태와 동일하게 모든 목표 값의 가능한 범위 내에서 일정한(uniform) 믿음 상태 확률값을 갖도록 해당 슬롯의 믿음 상태 확률값을 초기화 시킨다 (S505).
그리고, 응답 추론부(102)는 목적 영역이 변경되어 슬롯 별로 상속 및 초기 화 작업이 완료되거나 동일 목적 영역 내에서 새로운 사용자의 발화가 들어오면, 의미정보와 현재까지의 대화 히스토리, 바로 직전 시스템 행동 유형에 따라 각 슬롯별 믿음 상태 공간의 전체 확률 분포를 갱신한다(S506).
그런 다음, 믿음 상태 공간의 갱신이 완료되면, 응답 추론부(102)는 CSPBVI 기반으로 POMDP 추론 엔진을 활용하여 각 슬롯 별로 나눈 문제(Summary Space)에서 가장 신뢰도가 높은 값(best)과 그 나머지(rest)의 두 가지 값만을 고려하여 장기적으로 최대의 이익을 낼 수 있는 행동을 도출한다(S507)
이때 응답 추론부(102)는 각 슬롯 별로 도 3과 같은 시스템 행동(am ,1, am ,2 am,3 등)을 취할 수 있다.
Greet은 일반적인 인사, Specify는 사용자로부터 아직 인식되지 못한 슬롯 정보의 요구, Confirm은 인식된 슬롯이 맞는지를 확인하는 질문, Operate은 실제 서비스를 제공하는 행동 유형이다.
시스템 행동은 특정한 슬롯에 대해서만 행동이 취해지는지의 여부, 특정한 값을 함께 발화해야 하는지의 여부를 기준으로 그 유형이 구분될 수 있다. 이러한 구분은 CSPBVI에서 슬롯 별 정책의 도출 등과 최종적인 시스템 행동(am)을 휴리스틱하게 조합하고 결정하는 기준으로 작용한다.
시스템의 행동은 사용자의 실제 목표에 일치하는 서비스의 제공 여부에 따라 적절한 보상 혹은 패널티를 받게 되는데, 본 발명의 실시 예에서는 사용자가 이미 발화한 내용 혹은 컨펌된 슬롯을 다시 요구할 경우 +500, 인식되지 못한 슬롯을 컨펌할 경우 +500, 컨펌된 슬롯을 다시 컨펌할 경우 +500 의 패널티를 부여한다.
대화가 추가될 때마다 기본적인 +100의 패널티를 부여하고, 대화의 처음이 아닌 시점에서의 Greet 행동에 +100, 첫 시점의 Operate 행동에 +100을 준다. 최종적으로 Operate 은 각 슬롯에 대해 사용자의 의도와 일치하거나 일치하지 않을 경우 각각 -2000/+2000을 부여한다.
최종적으로는 이렇게 슬롯 별로 찾아진 행동(am ,1, am ,,2, am ,,3 등)을 기반으로 어플리케이션 시스템의 특성 및 대화시스템 설계자의 의도에 맞게 규칙 및 우선순위를 정하여 휴리스틱하게 전체의 시스템 행동(am)을 결정한다 (S508).
여기서 휴리스틱한 방법이라 함은 대화 설계자가 슬롯 별로 찾아진 행동의 유형 중 우선 순위를 부여하거나, 현재 상태에서 절대로 행해져서는 안 되는 금칙 행동 등을 미리 규칙으로 정해 놓고, 이 원칙에 따라 전체의 행동 유형을 결정함을 의미한다.
예를 들면, "출발역"은 Specify, "도착역" 등 다른 슬롯은 Confirm 의 행동이 도출되었을 경우, 모든 필요한 슬롯을 말하게 한 후 확인 작업에 들어가겠다는 원칙을 세울 경우 Confirm 보다 Specify 의 우선순위가 높아서 전체의 최종적인 시스템 행동은 "출발역"에 대한 Specify 로 결정되며, 슬롯 별로 확실한 값을 얻어내고 다음 슬롯으로 넘어가겠다는 원칙을 세울 경우 Confirm 의 우선순위가 높아진다.
혹은 동일한 행동이 도출된 슬롯 간에도 "출발시간" 보다는 "출발역"을 우 선 시 하는 등 우선 순위를 정할 수도 있다.
이와 같이 다중 목적의 대화로부터 시스템 행동을 결정한 응답 추론부(102)는 시스템 행동을 응답 생성부(103)에 제공하고, 응답 생성부(103)는 응답추론부(102)로부터 수신한 시스템 행동을 근거로 사용자가 이해하기 쉬운 자연어로 변환하여 화면상으로 표시되게 한다.
이와 같은 본 발명은 도 6에 도시된 바와 같이 종래의 기술에 비해 탁월한 효과를 가짐을 알 수 있다. 도 6은 본 발명의 실시 예에 따른 다중 목적 영역의 통계적 대화 정책 추론 방법에 의한 효과를 보인 표로서, 대화 영역이 철도 영역인 경우를 예로 한 것이다.
도 6을 보면, 본 발명(즉, 2단계 추론)은 종래의 일반통계모델에 비해 방대한 문제를 작은 규모로 근사화하고, 전체의 문제를 한 개의 POMDP로 모델링할 경우와 훈련에 필요한 크기를 비교하여 제시하고 있다.
한편 도 7은 본 발명의 실시 예에 따른 다중 목적 영역의 통계적 대화 정책 추론 방법에 따라 사용자와의 대화 내용을 보인 일 예이다. 도 7은 본 발명에 적용된 열차 예약 시스템에서 고객과의 대화 내용을 일 예를 보인 표로서, PDA(Personal Digital Assistant) 기반으로 구현된 모바일 열차 예약 서비스 시스템에 적용한 경우를 일 예로 한 것이다. 
도 7에 도시된 바와 같이, 시스템이 [안녕하세요 철도 예약 시스템입니다. 무엇을 도와드릴까요?]라는 시스템 행동에 대응하여, 사용자가 [부산가능 열차 조회해줘]라고 발화한다.
그러면 철도 예약 시스템은 "부산가는"을 통해 도착역에 대한 슬롯과 "부산"이라는 슬롯값을 파악하고, "조회해줘"를 통해 주행과 화행을 파악하여 의미 정보(슬롯, 주행, 화행 포함)를 추출한다.
그런 다음 철도 예약 시스템은 의미 정보를 통해 추출된 슬롯이 출발역이므로, 사용자의 발화가 "철도 예약", "잔여석 조회", "운임 조회' 중 하나라고 판단하며, 이 중 히스토리상(또는 경험치에 따라) 현재의 발화가 열차 예약이라고 판단한다.
이에 철도 예약 시스템은 "철도 예약"이라는 상위 목적의 슬롯 중 채워지지 않은 슬롯에서 우선 순위가 높은 출발역 슬롯에 대한 슬롯값을 획득하기 위해, [출발역을 말씀해 주십시오.]라는 시스템 행동을 한다.
사용자가 [서울에서 출발할 거야.]라고 발화하면, 철도 예약 시스템은 "서울"이라는 슬롯값이 서울역인지 서울에 있는 역인지를 정확히 알지 못하므로(즉, 해당 슬롯값에 대한 믿음 상태 확률값이 설정치보다 낮게 설정하므로), [서울역에서 출발하는 열차가 맞습니까?]라는 시스템 행동을 한다.
이에 사용자가 [응 맞아]라는 발화를 하면, 철도 예약 시스템은 해당 슬롯값에 대한 관측치가 "yes"에 해당하므로 서울이라는 슬롯값에 대한 믿음 상태 확률값을 높여 도착역 슬롯에 대한 슬롯값으로 결정한다.
그런 다음, 철도 예약 시스템은 "철도 예약" 상위 목적의 슬롯 중 채워지지 않은 슬롯에서 우선 순위가 다음으로 높은 철도 유형 슬롯에 대한 슬롯값을 획득하기 위해, [열차 유형을 선택해 주세요]라는 시스템 행동을 한다.
이에 사용자가 [KTX로 가고 싶은데. 참 요금이 얼마나 되지?]라고 하면, 철도 예약 시스템은 사용자 발화가 요금에 관련된 "운임 조회"의 상위 목적임을 판단함과 더불어, 상위 목적이 변경되었음을 히스토리 정보로 판단하며, KTX를 열차유형의 슬롯값으로 판단한다. 물론 KTX는 정확한 열차 유형을 가리키므로, KTX에 대한 믿음 상태 확률값은 매우 높은 값으로 하여 해당 슬롯의 슬롯값으로 결정한다.
이때 철도 예약 시스템은 상위 목적이 변경됨에 따라, 이전 상위 목적의 슬롯을 비교하여 중복되는 슬롯이 있는지를 확인하며, 출발열, 도착역이 열차 예약 상위 목적의 슬롯과 중복됨을 파악한다. 그런 다음 철도 예약 시스템은 이전 상위 목적시에 결정된 출발역과 도착역에 대한 각 슬롯값에 대한 믿음 상태 확률값을 그대로 가져(상속)온다.
그런 다음 철도 예약 시스템은 "운임 조회" 상위 목적의 슬롯의 채워지지 않은 객실유형과 승객유형 슬롯에서 우선 순위가 객실유형 슬롯에 대한 슬롯값을 획득하기 위해, [객실 유형을 선택해 주세요]라는 시스템 행동을 한다.
사용자가 [일반실로 갈거야]라고 하면, 철도 예약 시스템은 일반실을 객실 유형의 슬롯값으로 결정하고, 승객유형에 대한 슬롯값을 얻기 위해 [승객 유형을 말씀해 주세요]라는 시스템 행동을 한다.
이에 사용자가 [어른 1명]이라고 하면, 어른을 승객유형의 슬롯값으로 판단하며, 운임조회 상위 목적에 대한 설정 슬롯이 모두 채워졌으므로 [서울역에서 부산역으로 가는 KTX 어른 1명의 요금은 000원입니다]라는 시스템 행동을 한다.
이에 대응하여 사용자가 [그럼 1장 예약해줘]라고 하면, 철도 예약 시스템 은 사용자 발화가 철도 예약이라는 상위 목적이고, 상위 목적이 변경되었음을 판단한다. 이에 철도 예약 시스템은 중복되는 슬롯이 있는지를 확인하고, 이전에 사용자 발화로부터 획득한 각종 슬롯의 정보(출발역, 도착역, 열차유형, 객식유형, 승객유형 각각에 대한 슬롯값, 믿음 상태 확률값 등)를 가져오고, 철도 예약에 대한 슬롯 중 채워지지 않은 슬롯인 출발일에 대한 슬롯값을 얻기 위해 [출발 일자를 말씀해 주세요]라고 한다.
여기서, 중복되지 않은 슬롯에 대한 믿음 상태 확률값은 일정한 확률값이 되도록 초기화되는데, 예를 들어 출발시각인 경우에 출발시각은 24시간이므로 각 시각은 1/24라는 믿음 상태 확률값을 가지게 된다. 즉, 중복되지 않은 슬롯에 대한 각 슬롯별 믿음 상태 확률값은 1/(슬롯값의 범위 내의 슬롯값의 전체 개수)이다.
이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있으며, 이러한 구현은 앞서 설명한 실시예의 기재로부터 본 발명이 속하는 기술분야의 전문가라면 쉽게 구현할 수 있는 것이다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
도 1은 본 발명의 실시 예에 따른 다중 목적 영역의 통계적 대화 정책 추론 장치에 대한 구성도이다.
도 2는 본 발명의 일 실시예에 따른 열차 예약 영역에서의 대화 목적 및 세부 슬롯을 보인 표이다.
도 3은 본 발명의 실시 예에 따른 다중 목적 영역에서 사용자의 상위 목적이 대화가 진행되면서 자연스럽게 변화하는 시나리오를 표현한 예시도이다.
도 4는 본 발명의 실시 예에 따른 슬롯별 행동 및 식별값을 예를 보인 표이다.
도 5는 본 발명의 실시 예에 따른 응답 추론부의 동작 순서도이다.
도 6은 본 발명의 실시 예에 따른 다중 목적 영역의 통계적 대화 정책 추론 장치 및 방법에 의한 효과를 보인 표이다.
도 7은 본 발명에 적용된 열차 예약 시스템에서 고객과의 대화 내용을 일 예를 보인 표이다.

Claims (6)

  1. 통계적 대화 정책 추론 장치에서 제공하는 순차적으로 입력되는 사용자 발화에 대응하여 상기 사용자 발화 각각에 대한 상기 시스템 행동을 추론하여 제공하는 다중 목적 영역의 통계적 대화 정책 추론 방법에 있어서,
    (a) 사용자로부터 입력되는 사용자 발화로부터 상기 시스템 행동을 추론하기 위한 의미 정보를 추출하는 단계,
    (b) 상기 의미 정보를 이용하여 상기 사용자 발화가 의도하는 제1 상위 목적을 추론하는 단계,
    (c) 상기 사용자 발화에 포함된 상기 제1 상위 목적의 슬롯 별 슬롯값과 상기 슬롯값의 믿음 상태 확률값을 추론하는 단계,
    (d) 상기 믿음 상태 확률값을 이용하여 상기 제1 상위 목적에 대응하는 설정된 슬롯에 대한 슬롯값의 신뢰도를 높이고 궁극적인 목적을 달성하기 위한 최적의 시스템 행동을 결정하는 단계, 그리고
    (e) 상기 결정한 시스템 행동을 상기 사용자가 이해할 수 있는 자연어 응답으로 생성하여 제공하는 단계를 포함하는 다중 목적 영역의 통계적 대화 정책 추론 방법.
  2. 제1항에 있어서,
    상기 (b) 단계는 상기 사용자 발화를 통해 파악되는 상기 의미 정보인 슬롯, 주행, 화행과 히스토리를 이용하여 상기 상위 목적을 추론하는 것을 특징으로 하는 다중 목적 영역의 통계적 대화 정책 추론 방법.
  3. 제2항에 있어서,
    상기 (b) 단계는 상기 의미 정보를 입력으로 하는 조건부랜덤필드(CRF, Conditional Random Field)를 이용하여 상기 제1 상위 목적을 추론하는 것을 특징으로 하는 다중 목적 영역의 통계적 대화 정책 추론 방법.
  4. 제3항에 있어서,
    상기 (d) 단계는,
    상기 제1 상위 목적과 상기 제1 상위 목적을 구성하는 슬롯별 슬롯값을 CSPBVI(Composite Summary Point Based Value Iteration) 기반의 부분관측 마르코프 의사결정 과정(POMDP, Partially Observable Markov Decision Process)을 이용하여 계위 구조로 모델링하는 단계,
    상기 제1 상위 목적을 구성하는 상기 슬롯값별로 슬롯값별 시스템 응답을 추론하는 단계와,
    상기 슬롯값별 시스템의 행동을 휴리스틱하게 조합하여 상기 시스템 행동을 결정하는 단계를 포함하는 것을 특징으로 하는 다중 목적 영역의 통계적 대화 정책 추론 방법.
  5. 제4항에 있어서,
    상기 제1 슬롯값의 믿음 상태 확률값은 상기 제1 사용자 발화 이전에 입력된 사용자 발화를 통해 파악되는 상기 제1 슬롯값의 관측치에 따라 그 값을 변경하는 것을 특징으로 하는 다중 목적 영역의 통계적 대화 정책 추론 방법.
  6. 제5항에 있어서,
    상기 (b) 단계에서 파악한 상기 제1 상위 목적이 이전 상위 목적인 제2 상위 목적과 다른 경우에,
    상기 (c) 단계는 상기 제1 상위 목적의 슬롯과 상기 제2 상위 목적의 슬롯 중 중복되는 것이 있는지를 확인하는 단계,
    상기 제1 슬롯이 중복된 슬롯이면 상기 제1 슬롯값의 믿음 상태 확률값을 상기 제2 상위 목적의 제1 슬롯값의 믿음 상태 확률값으로 상속시키는 단계와,
    상기 제1 슬롯이 중복된 슬롯이 아니면 상기 제1 슬롯값의 믿음 상태 확률값을 1/(상기 제1 슬롯의 범위값 내 슬롯값의 전체 개수)로 초기화하는 단계를 포함하는 것을 특징으로 다중 목적 영역의 통계적 대화 정책 추론 방법.
KR1020090132132A 2009-12-28 2009-12-28 다중 목적 영역의 통계적 대화 정책 추론 방법 KR101212795B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090132132A KR101212795B1 (ko) 2009-12-28 2009-12-28 다중 목적 영역의 통계적 대화 정책 추론 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090132132A KR101212795B1 (ko) 2009-12-28 2009-12-28 다중 목적 영역의 통계적 대화 정책 추론 방법

Publications (2)

Publication Number Publication Date
KR20110075632A true KR20110075632A (ko) 2011-07-06
KR101212795B1 KR101212795B1 (ko) 2012-12-14

Family

ID=44915608

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090132132A KR101212795B1 (ko) 2009-12-28 2009-12-28 다중 목적 영역의 통계적 대화 정책 추론 방법

Country Status (1)

Country Link
KR (1) KR101212795B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101881744B1 (ko) * 2017-12-18 2018-07-25 주식회사 머니브레인 대화형 ai 에이전트 시스템을 위한 계층적 대화 흐름 관리 모델을 자동으로 구축 또는 갱신하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
WO2019132135A1 (ko) * 2017-12-26 2019-07-04 주식회사 머니브레인 사용자간 대화 세션에 대한 능동적 모니터링 및 개입을 제공하는 대화형 ai 에이전트 시스템, 방법 및 컴퓨터 판독가능 기록 매체
CN111984785A (zh) * 2020-08-14 2020-11-24 海南中智信信息技术有限公司 一种基于多领域多轮问答的对话状态跟踪方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9953648B2 (en) 2015-05-11 2018-04-24 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same
KR102136604B1 (ko) * 2018-09-17 2020-07-22 유진바이오소프트 주식회사 대화형 인터페이스를 이용한 통계 분석 시스템과 통계분석 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100446627B1 (ko) 2002-03-29 2004-09-04 삼성전자주식회사 음성대화 인터페이스를 이용한 정보제공장치 및 그 방법
US7937397B2 (en) 2006-08-22 2011-05-03 Fuji Xerox Co., Ltd. Apparatus and method for term context modeling for information retrieval

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101881744B1 (ko) * 2017-12-18 2018-07-25 주식회사 머니브레인 대화형 ai 에이전트 시스템을 위한 계층적 대화 흐름 관리 모델을 자동으로 구축 또는 갱신하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
WO2019124647A1 (ko) * 2017-12-18 2019-06-27 주식회사 머니브레인 대화형 ai 에이전트 시스템을 위한 계층적 대화 흐름 관리 모델을 자동으로 구축 또는 갱신하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
CN111837116A (zh) * 2017-12-18 2020-10-27 财富智慧股份有限公司 用于自动构建或更新对话式ai代理系统的分层对话流管理模型的方法、计算机装置及计算机可读存储介质
CN111837116B (zh) * 2017-12-18 2024-04-09 株式会社明芒科技 自动构建或更新对话式ai系统的对话流管理模型的方法
WO2019132135A1 (ko) * 2017-12-26 2019-07-04 주식회사 머니브레인 사용자간 대화 세션에 대한 능동적 모니터링 및 개입을 제공하는 대화형 ai 에이전트 시스템, 방법 및 컴퓨터 판독가능 기록 매체
CN111984785A (zh) * 2020-08-14 2020-11-24 海南中智信信息技术有限公司 一种基于多领域多轮问答的对话状态跟踪方法
CN111984785B (zh) * 2020-08-14 2022-03-18 海南中智信信息技术有限公司 一种基于多领域多轮问答的对话状态跟踪方法

Also Published As

Publication number Publication date
KR101212795B1 (ko) 2012-12-14

Similar Documents

Publication Publication Date Title
US11948563B1 (en) Conversation summarization during user-control task execution for assistant systems
JP6562982B2 (ja) 対話システム、対話方法、および対話システムを適合させる方法
US10878808B1 (en) Speech processing dialog management
Griol et al. A statistical approach to spoken dialog systems design and evaluation
US11562744B1 (en) Stylizing text-to-speech (TTS) voice response for assistant systems
US20240153489A1 (en) Data driven dialog management
US11551663B1 (en) Dynamic system response configuration
Shi et al. Recurrent neural network language model adaptation with curriculum learning
Mingote et al. Optimization of the area under the ROC curve using neural network supervectors for text-dependent speaker verification
WO2020263547A1 (en) Emotion detection using speaker baseline
US11605376B1 (en) Processing orchestration for systems including machine-learned components
KR101212795B1 (ko) 다중 목적 영역의 통계적 대화 정책 추론 방법
US11132994B1 (en) Multi-domain dialog state tracking
EP4172843A1 (en) Using a single request for multi-person calling in assistant systems
Mirhassani et al. Age Estimation Based on Children’s Voice: A Fuzzy‐Based Decision Fusion Strategy
Gao et al. Seamless equal accuracy ratio for inclusive CTC speech recognition
Young et al. Evaluation of statistical pomdp-based dialogue systems in noisy environments
US11544504B1 (en) Dialog management system
KR20230120790A (ko) 가변적 언어모델을 이용한 음성인식 헬스케어 서비스
Kosovan et al. Dialogue response generation using neural networks with attention and background knowledge
WO2021000403A1 (zh) 智能对话系统的语音匹配方法、电子装置、计算机设备
Griol et al. Modeling users emotional state for an enhanced human-machine interaction
Griol et al. Adaptive dialogue management using intent clustering and fuzzy rules
US11893984B1 (en) Speech processing system
Griol et al. Simulating heterogeneous user behaviors to interact with conversational interfaces

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant