KR20200060191A - 교차언어 환경에서의 대화 상태 추적 방법 및 시스템 - Google Patents

교차언어 환경에서의 대화 상태 추적 방법 및 시스템 Download PDF

Info

Publication number
KR20200060191A
KR20200060191A KR1020190022878A KR20190022878A KR20200060191A KR 20200060191 A KR20200060191 A KR 20200060191A KR 1020190022878 A KR1020190022878 A KR 1020190022878A KR 20190022878 A KR20190022878 A KR 20190022878A KR 20200060191 A KR20200060191 A KR 20200060191A
Authority
KR
South Korea
Prior art keywords
word vector
word
model
text data
vector
Prior art date
Application number
KR1020190022878A
Other languages
English (en)
Other versions
KR102183284B1 (ko
Inventor
김기응
장영수
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of KR20200060191A publication Critical patent/KR20200060191A/ko
Application granted granted Critical
Publication of KR102183284B1 publication Critical patent/KR102183284B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

일 실시예에 따른 대화 상태 추정 시스템에 의해 수행되는 대화 상태 추정 방법은, 음성 데이터를 텍스트 데이터로 변환하는 단계; 상기 변환된 텍스트 데이터를 다른 언어의 텍스트 데이터로 변환하기 위한 기계 번역을 수행하는 단계; 및 상기 변환된 텍스트 데이터와 상기 수행된 기계 번역의 결과를 대화 상태를 추적하기 위하여 구성된 모델에 입력하여 교차언어 환경에서의 대화 상태를 학습함에 따라 단어 벡터를 출력하는 단계를 포함할 수 있다.

Description

교차언어 환경에서의 대화 상태 추적 방법 및 시스템{SYSTEM AND METHOD FOR TRACKING DIALOG STATE IN A CROSS-LANGUAGE}
아래의 설명은 교차언어 환경에서의 대화 상태를 추적하는 기술에 관한 것이다.
대화 관리 시스템을 위해서는 음성 신호를 텍스트로 변환해주는 음성인식, 텍스트를 통해 발화의 목적을 알아내는 대화 상태 추적 그리고 적절한 응답 선택의 과정을 필요로 한다. 원활한 대화 관리 시스템을 위해서는 그 중에서도 대화가 현재 어떤 주제로 진행되고 있는지를 판단하는 대화 상태 추적 알고리즘이 중요한 역할을 한다.
일반적으로 대화의 주제는 매우 다양하며 대화를 구성하는 단어들은 무수히 많다. 이런 광범위한 대화를 다루기 위해서, 기존 대화 상태 추적 알고리즘들은 충분한 데이터를 필요로 하며, 같은 언어로 제공되는 데이터만을 사용할 수 있는 문제점이 있다. 또한, 기존의 대화 상태 추적 알고리즘들은 단순히 슬롯 채움(slot-filling) 방식을 기반으로 하기 때문에 학습 데이터에서 포함된 슬롯에 대해서만 예측이 가능한 단점이 있다.
한편, 한국공개특허 제10-2010-0081534호에 다중언어 대화시스템 및 그 제어방법이 개시되어 있으나, 번역기의 성능에 따라 대화 상태 추적 성능이 저하될 수 있다.
교차언어 환경에서의 대화 상태를 추적하여 단어 벡터를 출력하는 방법 및 시스템을 제공할 수 있다.
계층적 어텐션 메커니즘을 통하여 다른 언어로 주어지는 데이터의 기계번역 결과를 학습에 활용하여 의미를 가지는 단어 벡터를 출력하는 방법 및 시스템을 제공할 수 있다.
대화 상태 추정 시스템에 의해 수행되는 대화 상태 추정 방법은, 음성 데이터를 텍스트 데이터로 변환하는 단계; 상기 변환된 텍스트 데이터를 다른 언어의 텍스트 데이터로 변환하기 위한 기계 번역을 수행하는 단계; 및 상기 변환된 텍스트 데이터와 상기 수행된 기계 번역의 결과를 대화 상태를 추적하기 위하여 구성된 모델에 입력하여 교차언어 환경에서의 대화 상태를 학습함에 따라 단어 벡터를 출력하는 단계를 포함할 수 있다.
상기 단어 벡터를 출력하는 단계는, Bi-LSTM(Bidirectional Long Short Term Memory)을 이용하여 상기 변환된 텍스트의 각 단어에 대한 중요도를 계산하고, 상기 계산된 중요도에 기초하여 가중치 합을 통해 주어진 문장을 요약하는 단어 벡터를 출력하는 단계를 포함할 수 있다.
상기 단어 벡터를 출력하는 단계는, 주어진 슬롯의 정답으로 가능한 값들에 대한 중요도를 계산하고, 상기 계산된 값들의 단어 벡터에 대한 가중치 합을 통해 최종 단어 벡터를 출력하기 위한 다중 언어로 존재하는 데이터를 처리하는 제1 모델을 구성하는 단계를 포함할 수 있다.
상기 단어 벡터를 출력하는 단계는, 상기 제1 모델을 통하여 상기 변환된 텍스트와 기계번역의 결과에 대한 각각의 문장을 요약하는 단어 벡터를 출력하고, 상기 출력한 단어 벡터에 대한 슬롯의 값들에 대한 중요도를 결정하고, 상기 결정된 중요도에 기초하여 각각의 값들에 대한 단어 벡터를 가중치 합을 통해 최종적인 단어 벡터를 출력하는 단계를 포함할 수 있다.
상기 단어 벡터를 출력하는 단계는, 상기 변환된 텍스트 데이터를 요약하는 단어 벡터를 출력하기 위하여 OOV(Out-Of-Vocabulary) 단어를 처리하는 제2 모델을 구성하는 단계를 포함할 수 있다.
상기 단어 벡터를 출력하는 단계는, 상기 변환된 텍스트 데이터에 대한 기 설정된 기준 이상의 중요 정보가 존재하지 않을 경우, 별도로 구성된 뉴럴 네트워크 구조를 통해 단어 벡터를 출력하는 단계를 포함할 수 있다.
상기 단어 벡터를 출력하는 단계는, 상기 대화 상태를 추적하기 구성된 제1 모델 및 제2 모델을 통하여 학습된 결과를 통하여 최종적인 단어 벡터를 출력하는 단계를 포함하고, 상기 제1 모델에서 기 설정된 기준 이상의 중요도를 갖는 값들이 존재하지 않을 경우, 상기 제2 모델의 결과에 기 설정된 기준 이상의 가중치를 부여하여 최종적인 단어 벡터가 생성될 수 있다.
대화 상태 추정 시스템에 의해 수행되는 대화 상태 추정 방법을 실행시키기 위해 컴퓨터 판독 가능한 저장매체에 저장된 컴퓨터 프로그램은, 음성 데이터를 텍스트 데이터로 변환하는 단계; 상기 변환된 텍스트 데이터를 다른 언어의 텍스트 데이터로 변환하기 위한 기계 번역을 수행하는 단계; 및 상기 변환된 텍스트 데이터와 상기 수행된 기계 번역의 결과를 대화 상태를 추적하기 위하여 구성된 모델에 입력하여 교차언어 환경에서의 대화 상태를 학습함에 따라 단어 벡터를 출력하는 단계를 포함할 수 있다.
대화 상태 추정 시스템은, 음성 데이터를 텍스트 데이터로 변환하는 변환부; 상기 변환된 텍스트 데이터를 다른 언어의 텍스트 데이터로 변환하기 위한 기계 번역을 수행하는 번역부; 및 상기 변환된 텍스트 데이터와 상기 수행된 기계 번역의 결과를 대화 상태를 추적하기 위하여 구성된 모델에 입력하여 교차언어 환경에서의 대화 상태를 학습함에 따라 단어 벡터를 출력하는 추적부를 포함할 수 있다.
상기 추적부는, Bi-LSTM (Bidirectional Long Short Term Memory)을 이용하여 상기 변환된 텍스트의 각 단어에 대한 중요도를 계산하고, 상기 계산된 중요도에 기초하여 가중치 합을 통해 주어진 문장을 요약하는 단어 벡터를 출력할 수 있다.
상기 추적부는, 주어진 슬롯의 정답으로 가능한 값들에 대한 중요도를 계산하고, 상기 계산된 값들의 단어 벡터에 대한 가중치 합을 통해 최종 단어 벡터를 출력하기 위한 다중 언어로 존재하는 데이터를 처리하는 제1 모델을 구성할 수 있다.
상기 추적부는, 상기 제1 모델을 통하여 상기 변환된 텍스트와 기계번역의 결과에 대한 각각의 문장을 요약하는 단어 벡터를 출력하고, 상기 출력한 단어 벡터에 대한 슬롯의 값들에 대한 중요도를 결정하고, 상기 결정된 중요도에 기초하여 각각의 값들에 대한 단어 벡터를 가중치 합을 통해 최종적인 단어 벡터를 출력할 수 있다.
상기 추적부는, 상기 변환된 텍스트 데이터를 요약하는 단어 벡터를 출력하기 위하여 OOV(Out-Of-Vocabulary) 단어를 처리하는 제2 모델을 구성할 수 있다.
상기 추적부는, 상기 변환된 텍스트 데이터에 대한 기 설정된 기준 이상의 중요 정보가 존재하지 않을 경우, 별도로 구성된 뉴럴 네트워크 구조를 통해 단어 벡터를 출력할 수 있다.
상기 추적부는, 상기 대화 상태를 추적하기 구성된 제1 모델 및 제2 모델을 통하여 학습된 결과를 통하여 최종적인 단어 벡터를 출력하는 것을 포함하고, 상기 제1 모델에서 기 설정된 기준 이상의 중요도를 갖는 값들이 존재하지 않을 경우, 상기 제2 모델의 결과에 기 설정된 기준 이상의 가중치를 부여하여 최종적인 단어 벡터가 생성될 수 있다.
일 실시예에 따른 대화 상태 추적 시스템은 다른 언어에 대한 학습이 필요할 때, 별도의 데이터 수집 과정없이 기계 번역을 거친 데이터만으로도 다른 언어로 제공되는 사전 지식 정보들을 학습할 수 있다.
일 실시예에 따른 대화 상태 추적 시스템은 학습 데이터에 포함되지 않았던 대화 상태에 대해서도 추적이 가능하기 때문에 비교적 적은 양의 데이터만으로도 효과적인 상태 추적이 가능하다.
일 실시예에 따른 대화 상태 추적 시스템은 다중 언어로 존재하는 데이터를 학습에 사용할 수 있고, 학습 데이터에 등장하지 않았던 OOV 단어에 대해서도 상태 추적이 가능하다.
도 1은 일 실시예에 따른 대화 상태 추적 시스템의 구성을 설명하기 위한 블록도이다.
도 2는 일 실시예에 따른 대화 상태 추적 시스템에서 대화 상태를 추적하는 방법을 설명하기 위한 흐름도이다.
도 3은 일 실시예에 따른 키워드 추출 모델을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 슬롯-값 블록 조합 모델을 설명하기 위한 도면이다.
도 5는 일 실시예에 따른 말-단어 블록 조합 모델을 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 슬롯-값 블록 조합 모델과 말-단어 블록 조합 모델을 결합한 전체 구조를 설명하기 위한 도면이다.
이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.
도 1은 일 실시예에 따른 대화 상태 추적 시스템의 구성을 설명하기 위한 블록도이고, 도 2는 일 실시예에 따른 대화 상태 추적 시스템에서 대화 상태를 추적하는 방법을 설명하기 위한 흐름도이다.
대화 상태 추적 시스템의 프로세서는 변환부(110), 번역부(120) 및 추적부(130)를 포함할 수 있다. 이러한 프로세서의 구성요소들은 대화 상태 추적 시스템에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 프로세서 및 프로세서의 구성요소들은 도 2의 대화 상태 추적 방법이 포함하는 단계들(210 내지 230)을 수행하도록 대화 상태 추적 시스템을 제어할 수 있다. 이때, 프로세서 및 프로세서의 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다.
프로세서는 대화 상태 추적 방법을 위한 프로그램의 파일에 저장된 프로그램 코드를 메모리에 로딩할 수 있다. 예를 들면, 대화 상태 추적 시스템에서 프로그램이 실행되면, 프로세서는 운영체제의 제어에 따라 프로그램의 파일로부터 프로그램 코드를 메모리에 로딩하도록 대화 상태 추적 시스템을 제어할 수 있다. 이때, 프로세서 및 프로세서가 포함하는 변환부(110), 번역부(120) 및 추적부(130) 각각은 메모리에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(210 내지 230)을 실행하기 위한 프로세서의 서로 다른 기능적 표현들일 수 있다.
단계(210)에서 변환부(Speech-To-Text)(110)는 사용자로부터 발화되는 음성 데이터를 텍스트 데이터로 변환할 수 있다. 사용자로부터 음성(말)이 발화(speech)될 수 있다(101). 이때, 사용자로부터 발화된 음성 데이터를 실시간으로 녹음하여 저장될 수 있다. 변환부(110)는 사용자로부터 발화된 음성 데이터를 텍스트 변환(STT)에 기초하여 텍스트 데이터(102)로 변환할 수 있다. 예를 들면, 변환부(110)는 HMM(Hidden Markov Model)를 이용하여 다양한 화자들이 발성한 음성 데이터들을 통계적으로 모델링하여 구성된 음향 모델을 에 기초하여 말뭉치 수집을 통하여 텍스트 데이터로 변환할 수 있다.
단계(220)에서 번역부(Machine Translation)(120)는 변환된 텍스트 데이터를 다른 언어의 텍스트 데이터로 변환하기 위한 기계 번역을 수행할 수 있다. 예를 들면, 번역부(120)는 규칙 기반의 기계 번역, 통계 기반의 기계 번역 및 신경망 기반의 기계 번역과 같이 다양한 방법에 의하여 기계 번역을 수행할 수 있다. 규칙 기반의 기계 번역은 개발자가 직접 정의한 규칙에 따라 번역하는 방식이다. 통계 기반의 기계번역은 단어나 구 단위로 분할하여 번역한 후, 다른 언어의 어순에 맞춰 나열하는 방식이다. 신경망 기반의 기계번역은 문장 정보를 사용하여 전체 문맥을 파악한 후, 단어의 순서, 문맥의 의미 등을 반영할 수 있다. 번역부(120)는 이러한 번역 이외에도 다양한 방법에 의하여 텍스트 데이터를 다른 언어의 텍스트 데이터로 기계 번역할 수 있다.
단계(230)에서 추적부(Dialog State Tracking)(130)는 변환된 텍스트 데이터와 상기 수행된 기계 번역의 결과를 대화 상태를 추적하기 위하여 구성된 모델에 입력하여 교차언어 환경에서의 대화 상태를 추적함에 따라 단어 벡터(103)를 출력할 수 있다. 추적부(130)는 Bidirectional Long Short Term Memory(Bi-LSTM)을 이용하여 변환된 텍스트의 각 단어에 대한 중요도를 계산하고, 계산된 중요도에 기초하여 가중치 합을 통해 주어진 문장을 요약하는 단어 벡터를 출력할 수 있다. 구체적으로, 추적부(130)는 주어진 슬롯의 정답으로 가능한 값들에 대한 중요도를 계산하고, 계산된 값들의 단어 벡터에 대한 가중치 합을 통해 최종 단어 벡터를 출력하기 위한 다중 언어로 존재하는 데이터를 처리하는 제1 모델을 구성할 수 있다. 추적부(130)는 제1 모델을 통하여 변환된 텍스트와 기계번역의 결과에 대한 각각의 문장을 요약하는 단어 벡터를 출력하고, 출력한 단어 벡터에 대한 슬롯의 값들에 대한 중요도를 결정하고, 결정된 중요도에 기초하여 각각의 값들에 대한 단어 벡터를 가중치 합을 통해 최종적인 단어 벡터를 출력할 수 있다. 또한, 추적부(130)는 변환된 텍스트를 요약하는 단어 벡터를 출력하기 위하여 Out-Of-Vocabulary(OOV) 단어를 처리하는 제2 모델을 구성할 수 있다. 추적부(130)는 변환된 텍스트 데이터에 대한 기 설정된 기준 이상의 중요 정보가 존재하지 않을 경우, 별도로 구성된 뉴럴 네트워크 구조를 통해 단어 벡터를 출력할 수 있다. 이에, 제2 모델을 통하여 주어진 학습 데이터에서 등장하지 않았던 OOV 단어가 테스트에 등장할 때에도 정답을 예측할 수 있게 된다. 추적부(130)는 대화 상태를 추적하기 구성된 제1 모델 및 제2 모델을 통하여 학습된 결과를 통하여 최종적인 단어 벡터를 출력할 수 있다. 이때, 추적부(130)는 제1 모델에서 기 설정된 기준 이상의 중요도를 갖는 값들이 존재하지 않을 경우, 제2 모델의 결과에 기 설정된 기준 이상의 가중치를 부여하여 최종적인 단어 벡터를 생성할 수 있다.
도 3은 일 실시예에 따른 키워드 추출 모델을 설명하기 위한 도면이다.
대화 상태 추적 시스템은 어텐션 가중 단어 벡터에 대한 온톨로지에서 가장 가까운 키워드를 찾아 사용자의 의도를 예측할 수 있다. 사용자의 의도 예측과 같은 부족한 훈련 데이터로 인한 다양한 어려움을 극복할 수 있다. 실시예에 따른 계층적 어텐션 메커니즘을 이용해 단어(어휘) 내(IV) 값과 단어 외(OOV) 값을 모두 효과적으로 예측할 수 있는 슬롯-필링 다이얼로그(slot-filling dialog) 상태 추적기를 제공할 수 있다. 실시예에서 제안하는 모델은 사용자의 의도를 다른 방식으로 예측하는 두 가지의 주요 구성 요소로 되어 있다. 하나는 온톨로지에서 정의된 슬롯의 후보 값에서 선택하는 것이고, 반면에 다른 하나는 사용자의 말에서 선택하는 것이다. 첫 번째 구성요소는 온톨로지에 의해 정의된 슬롯-값에 주의를 사용해 어텐션 가중치 출력을 통해 IV 값을 예측한다. 다른 구성요소는 주어진 발언에 주의를 사용해 어텐션 가중치 출력을 통해 OOV 값을 예측한다. 상황에 따라 각 구성요소 출력의 가중치를 조정하기 위해 계층적 어텐션 메커니즘을 사용한다. 이러한 모델은 계층적 어텐션 메커니즘을 통해 어떤 요소의 출력이 더 신뢰할 수 있는지 학습해야 한다. 실시예에서 제안되는 모델은 단일-언어 대화와 교차-언어 대화 양쪽에서 모두 작동하도록 설계될 수 있다. 게다가, 상기 모델의 출력이 완전히 정확하지 않더라도, 모델이 의미론적인(semantic) 단어 벡터를 예측하고 온톨로지에서 가장 가까운 키워드를 선택하기 때문에, 그 예측은 여전히 의미론 측면에서 받아들여질 것이다.
대화 상태 추적 시스템은 처음부터 끝까지 학습시킬 수 있는 대화 상태를 추적하도록 모델을 구성할 수 있다. 대화 상태 추적 시스템은 다중 언어로 존재하는 데이터를 처리하는 모델과 OOV 단어를 처리하는 모델을 구성할 수 있다. 도 3을 참고하면, 대화 상태를 추적하기 위하여 구성된 모델의 전체적인 아키텍쳐를 나타낸 것이다. 모델은 입력으로서 주어진 말에 대한 단어 벡터를 예측하고, 예측된 단어 벡터를 통하여 요약 벡터를 출력할 수 있다. 이때, 주어진 말에서 요약 벡터를 생성하기 위해 두 가지 다른 방법을 사용할 수 있다. 첫째, 슬롯 값에 기초한 볼록 조합이고, 둘째, 주어진 말의 단어들에 기초한 볼록 조합이다. 실시예에서 제안하는 모델의 구조는 두 가지 기능적인 부분으로 나뉠 수 있다. 슬롯-값 볼록 조합 모델과 말-단어 볼록 결합 모델로서, 말의 단어와 슬롯-값의 임베딩 벡터의 가중치 합을 취하여 출력을 생성할 수 있다.
대화 상태 추적 시스템에서 제안하는 어텐션 기반 키워드 추출 모델에 대하여 구체적으로 설명하기로 한다. 어텐션 기반 키워드 추출 모델은 음성 데이터가 변환된 텍스트 데이터(X)를 입력으로 사용하며, 양방향 LSTM을 사용하여 단어 벡터를 요약하는 요약 벡터를 예측할 수 있다. 일례로, DSTC4와 DSTC 5에 배정된 세그먼트의 최대 길이는 최대 510자, 중국어 837자이다. 긴 세그먼트의 직접 인코딩은 그 자체로 매우 어려운 문제이기 때문에, 양방향 LSTM을 사용하는 지원자들의 볼록 조합으로부터 답을 선택하기 위해 어텐션 메커니즘이 사용될 수 있다. 이때, N(N은 자연수)개의 단어로 구성된 말
Figure pat00001
을 고려하였다. 각 단어는 단어-임베딩 벡터
Figure pat00002
와 온톨로지 힌트 벡터
Figure pat00003
로 표현된다. 양방향 LSTM(Bi-LSTM))의 입력은 각 단어의 단어-임베딩 벡터와 온톨로지 힌트 벡터의 결합으로 구성될 수 있다.
Figure pat00004
여기서,
Figure pat00005
는 벡터 결합을 나타낸다. 그런 다음, 각 단어는 양방향 LSTM의 셀 값을 갖는다.
Figure pat00006
셀 값은 각 슬롯에 대해 시간 분포 밀도 네트워크(가중치를 공유하는 네트워크도 셀 값에 동일하게 적용됨)로 전달되어, 해당 단어의 중요도를 나타내는 단어 당 하나의 스칼라를 출력할 수 있다. 이러한 스칼라들은 말의 단어에 소프트맥스 함수를 적용하여 표준화되며, 단어에 대해 어텐션 가중치로 표시될 수 있다.
Figure pat00007
여기서,
Figure pat00008
는 어텐션 가중 벡터,
Figure pat00009
는 밀도 네트워크의 가중 벡터,
Figure pat00010
는 소프트맥스 함수, s는 특정 슬롯을 나타낸다. 어텐션 메커니즘으로, 각 스롯의 밀도 네트워크에서 가중치를 가진 단어 벡터의 가중치 합을 사용하여 출력 벡터를 계산할 수 있다.
Figure pat00011
여기서,
Figure pat00012
Figure pat00013
의 인덱스(index) i에서의 스칼라 값이다. 어텐션 가중치는 모든 슬롯에 대하여 계산될 수 있으며, 모델은 모든 슬롯에 대한 벡터를 획득할 수 있다. 이제 상기 벡터는 각 말의 중요한 단어들의 조합인 필수적인 정보를 포함하고 있다. 이러한 모델에서, 출력은 사용자의 말에서 주어진 단어의 벡터의 블록 조합이다. 고유 명사에 대한 이해없이 문맥에서 키워드를 추출할 수 있기 대문에, 이러한 방법은 모델이 훈련 중에 보지 못한 OOV 값을 예측하는데 효과적이다. 이와 같이 제안된 어텐션 기반 키워드 추출 모델을 구성할 수 있다.
도 4는 일 실시예에 따른 슬롯-값 블록 조합 모델을 설명하기 위한 도면이다.
대화 상태 추적 시스템은 슬롯-값 조합 모델을 구성할 수 있다. 대화 상태 추적 시스템은 슬롯 값(Z)에 어텐션을 사용하는 요약 벡터를 예측할 수 있다. 텍스트 데이터(X)와 기계 번역의 결과(Y)가 서로 다른 언어 입력을 나타내는 교차 언어 영역에도 적용될 수 있다.
슬롯-값 조합 모델은 예를 들면, DSTC4와 DSTC 5의 작업에서 제공되는 각 슬롯에 대해 가능한 값의 리스트를 사용할 수 있다.
Figure pat00014
가 각 슬롯에 대해 가능한 값의 단어 벡터가 되게 한다.
Figure pat00015
(M은 슬롯 s에서 가능한 값의 수를 나타냄)
Figure pat00016
은 훈련된 단어 임베딩 모델을 통해 슬롯s에서의 값을 나타내는 임베딩 벡터 단어이다. 단, 다중 단어 값의 경우, 벡터의 정규화된 평균을 사용할 수 있다. 가능한 값의 발생 가능성에 기초하여 가중치 합계 벡터를 획득할 수 있다. 예를 들면, DSTC5는 영어와 중국어 두 가지 언어에 대한 데이터를 포함하고 있다. 각 영어로 된 말에는 단어 표현 벡터의 목록인 X가 있다. 마찬가지로, 각각의 중국어는 Y를 가지고 있는데, 이것은 성격 표현 벡터의 목록이다. 이때, 각 단어/문자 표현 벡터는 단어/문자 임베딩 벡터 및 온톨로지 힌트 벡터를 연결하여 만든다. X와 Y가 어텐션 기반 키워드 추출 모델을 통과할 때, 영어와 중국어 요약 벡터를 x와 y로 예측할 수 있다. 이때, 영어와 중국어는 서로 다른 임베딩 공간에 있기 때문에, 각 어텐션 기반 키워드 추출 모델의 가중치를 공유하지 않는다. 대화 상태 추적 시스템은 영어와 중국어에 대한 요약 벡터를 결합시키는 벡터 k를 특성 벡터로 사용하는데, 이는 관련된 말을 나타낸다.
Figure pat00017
는 벡터 결합을 나타낸다. 특성 벡터는 각 슬롯에 대해 완전히 연결된 레이어로 전달되어 해당 값의 중요도를 나타내는 슬롯-값 당 단일 스칼라를 형성할 수 있다. 이러한 스칼라는 소프트맥스 함수를 적용하여 표준화되며, 슬롯-값의 어텐션 가중치로 추가로 나타낼 수 있다.
Figure pat00018
여기서
Figure pat00019
은 어텐션 가중치 벡터,
Figure pat00020
는 밀도 네트워크의 가중치 매트릭스,
Figure pat00021
는 소프트맥스 함수, s는 특정 슬롯을 나타낸다. 슬롯-값 조합 모델의 최종 출력인
Figure pat00022
은 어텐션
Figure pat00023
와 슬롯-값 벡터
Figure pat00024
의 가중치 합으로 도출될 수 있다.
Figure pat00025
여기서,
Figure pat00026
Figure pat00027
의 index i에서 스칼라 값이고,
Figure pat00028
Figure pat00029
의 index i에서 슬롯-값 벡터이다. 출력은 슬롯-값 벡터에 대한 볼록 조합 결과로서, 훈련 데이터에 포함된 슬롯-값인 IV 값을 효과적으로 예측할 수 있다. 그러나 슬롯-값이 훈련 데이터에 존재하지 않는 경우 적절한 예측을 할 수 없다. 이에 따라, 슬롯-값이 훈련 데이터에 존재하지 않는 경우에 대한 예측을 보완하기 위해, 말-단어 볼록 조합 모델을 구성할 수 있다.
도 5는 일 실시예에 따른 말단어 블록 조합 모델을 설명하기 위한 도면이다.
대화 상태 추적 시스템은 말-단어 블록 조합 모델을 구성할 수 있다. 말-단어 블록 조합 모델은 음성 데이터로부터 변환된 텍스트 데이터(X)를 요약하는 단어 벡터를 예측할 수 있다. 어텐션 기반 키워드 추출 모델과의 차이는, 어텐션을 신뢰할 수 없을 때 센티널(sentinel) 벡터를 사용하면 요약 벡터가 의미 없는 요약을 출력하지 못하게 한다는 것이다.
대화 상태 추적 시스템은 슬롯-값에서 어텐션 기반 볼록 조합 방법을 사용하였으므로, 동일한 방법을 주어진 말의 단어에 적용하여 요약할 수 있다. 대화 상태 추적 시스템은 훈련 데이터에서 슬롯-값을 보지 못했더라도 다이얼로그 상태를 정확하게 예측할 수 있는 말-단어 블록 조합 모델을 구성할 수 있다. 말-단어 블록 조합 모델의 기본 구조는 도 3의 어텐션 기반 키워드 추출 모델에 기초하지만, 여기서는 특정 단어에 어텐션을 집중하지 않는 경우를 고려할 수 있도록 모델을 확장시켰다. 예를 들면, 사람과 사람 사이의 대화에서, 주제나 목적이 명확히 드러나지 않는 경우가 있다. 만약 주어진 말에 의미 있는 단어가 없다면, 주어진 단어들의 단순한 볼록 조합으로 의미 있는 벡터를 얻는 것은 불가능하다. 이에, 각 슬롯에 대해
Figure pat00030
,
Figure pat00031
가 어텐션 가중치 및 어텐션 기반 키워드 추출 모델의 출력 벡터가 되도록 한다. 어텐션 기반 키워드 추출 모델은 어텐션 가중치(
Figure pat00032
)분포에 관계없이 주어진 단어 벡터의 가중치 합을 무조건적으로 예측할 수 있다. 그러나, 최악의 경우, 모델이 어떤 단어도 중요하지 않다고 생각한다면, 어텐션 가중치는 단어보다 균일할 것이고 어텐션 기반 키워드 추출 모델의 결과는 모든 단어 벡터의 평균일 뿐이다. 이러한 경우를 방지하기 위해, 어텐션을 신뢰할 수 없는 경우에, 추가적인 구조의 출력물인 센티널 벡터가 입력 단어의 볼록 조합 대신 사용될 수 있도록 센티널 벡터 방법을 채택할 수 있다. 이때, 슬롯-값 블록 조합 모델에는 명시적으로 드러나는 슬롯-값만 캐치하기 위한 센티널 벡터가 없다. 센티널 벡터의 경우, 단어 벡터를 직접 예측하는 단순한 밀도 뉴럴 네트워크를 사용한다.
Figure pat00033
여기서
Figure pat00034
는 밀도 네트워크의 가중치 매트릭스,
Figure pat00035
는 양방향 LSTM의 출력, N은 말의 길이, s는 특정 슬롯을 나타낸다. 어텐션 기반 키워드 추출 모델의 어텐션이 신뢰할 수 있는지 여부를 결정하기 위해, 입력으로 어텐션 가중치
Figure pat00036
를 받는 LSTM를 사용할 수 있다. 이는 어텐션 기반 키워드 추출 모델과 센티널 벡터의 출력에 대한 가중치를 예측할 수 있다. 이러한 가중치는 도 5에서 각 슬롯에 대해
Figure pat00037
Figure pat00038
로 표시될 수 있다. 말-단어 블록 조합 모델의 최종 출력인
Figure pat00039
Figure pat00040
Figure pat00041
의 가중 합계로 획득될 수 있다. 말-단어 블록 조합 모델은 출력이 주로 사용자의 말에서 주어진 단어의 블록 조합이기 때문에 OOV 값을 예측하는데 효과적이다.
도 6은 일 실시예에 따른 슬롯-값 블록 조합 모델과 말-단어 블록 조합 모델을 결합한 전체 구조를 설명하기 위한 도면이다.
대화 상태 추적 시스템은 슬롯-값 블록 조합 모델을 사용하여 온톨로지의 슬롯-값의 어텐션을 기반으로 출력 벡터를 예측할 수 있다. 슬롯-값의 어텐션이 슬롯-값 블록 조합 모델에서 신뢰할 수 없는 경우, 센티널 벡터 방법을 사용했기 때문에 예측을 위해 말-단어 블록 조합 모델을 사용한다. LSTM은 입력으로 슬롯-값 블록 조합 모델의 어텐션 가중치(
Figure pat00042
)를 수신하며, 슬롯-값 블록 조합 모델과 말-단어 블록 조합 모델의 출력 간에 가중치를 예측할 수 있다. 이때, 각 슬롯(s)에 대해 각 가중치는
Figure pat00043
Figure pat00044
로 나타낼 수 있다. 슬롯-값 블록 조합 모델과 말-단어 블록 조합 모델을 결합한 모델의 최종 출력인
Figure pat00045
Figure pat00046
Figure pat00047
의 가중치 합계로 도출될 수 있다.
Figure pat00048
모든 슬롯 s에 대해,
Figure pat00049
를 슬롯-값 블록 조합 모델과 말-단어 블록 조합 모델을 결합한 모델의 최종 출력으로 사용하고, 슬롯-값 블록 조합 모델과 말-단어 블록 조합 모델을 결합한 모델은
Figure pat00050
의 코사인 유사성과 트루 라벨 값의 벡터를 최대화하는 방향으로 학습시킬 수 있다. 계층적 어텐션 메커니즘을 이용하여, 대화 상태를 예측하기 위한 적절한 모델을 선택하여 단어 내(IV)의 값 및 단어 외(OOV)의 값을 효과적으로 예측할 수 있다.
또한, 대화 상태 추적 시스템은 신뢰할 수 있는 예측을 제외할 수 있다. 모든 슬롯에 대한 예측을 제공하지만, 보통의 대화 상태를 추적함에 있어서 예측을 하지 않는 선택이 있다. 이는 사용자 의도가 충분히 명확하지 않음을 의미한다. 이에 따라, 각 슬롯에 대해 벡터를 출력할지 여부를 결정해야 한다. 대화 상태 추적 시스템은 신뢰할 수 없는 예측을 제외하기 위한 기준으로 어텐션 가중치의 엔트로피와 코사인 유사성을 사용할 수 있다. 구체적으로, 슬롯-값과 말에 어텐션을 사용하는 볼록 조합을 통해 출력이 결정될 수 있다. 이에 따라 출력 벡터는 두 어텐션 가중치가 분포되는 방법에 따라 달라질 수 있다. 예를 들면, 어텐션 분포가 특정 키워드에서 최고점에 도달한 경우, 거의 균일하게 분포되는 것보다 결과는 더 확실하게 된다. 이에, 어텐션 분배가 신뢰할 수 있는 정도에 대한 척도로 엔트로피를 사용할 수 있다. 어텐션의 엔트로피(
Figure pat00051
)는
Figure pat00052
로 정의되며, 각 어텐션
Figure pat00053
,
Figure pat00054
에 대해 엔트로피의 합을 사용한다.
Figure pat00055
어텐션 가중치가 특정 단어에 집중되면 엔트로피가 낮아진다. 어텐션 분포가 더 균일해짐에 따라 엔트로피는 증가한다.
대화 상태 추적 시스템은 출력 벡터와 트루 라벨 벡터 사이의 코사인 유사성을 최대화하는 것을 학습할 수 있다. 이에 따라 코사인 유사성 자체를 통해 출력 벡터가 신뢰성 있는지 판단할 수 있다. 각 슬롯에 대해 출력 벡터와 슬롯 값 사이의 최대 코사인 유사성을 계산하고, 계산된 코사인 유사성을 사용하여 해당 슬롯에 대한 출력 벡터를 제외할 것인지 여부를 결정할 수 있다. 이때, 각 슬롯에 대한 엔트로피 및 코사인 유사성에 대한 임계값을 결정하기 위해 검증 데이터를 사용할 수 있다. 코사인 유사성이 임계값보다 높은 반면에 엔트로피가 임계값보다 낮은 경우, 결과 벡터는 해당 슬롯에 대해 예측될 수 있다.
일 실시예에 따른 대화 상태 추적 시스템은 스마트 폰 혹은 음성인식 기기를 이용한 대화 처리 기술에 적용할 수 있다. 기존에 존재하는 음성 인식 기반 대화 시스템에서는 대화 상태를 추적하는 과정이 필수적이다. 대화 상태 추적의 경우, 해당 도메인에 대한 사전 지식을 필요로 하는 경우가 많다. 실시예에 따른 대화 상태 추적 시스템은 다른 언어에 대한 학습이 필요할 때, 별도의 데이터 수집 과정없이 기계 번역을 거친 데이터만으로도 다른 언어로 제공되는 사전 지식 정보들을 학습할 수 있다. 또한, 실시예에 따른 대화 상태 추적 시스템은 학습 데이터에 포함되지 않았던 대화 상태에 대해서도 추적이 가능하기 때문에 비교적 적은 양의 데이터만으로도 효과적인 상태 추적이 가능하다. 이와 같이, 실시예에 따른 대화 상태 추적 시스템은 사전 지식이 다른 언어로 제공되는 경우가 다수 존재하기 때문에 효과적으로 학습에 활용되지 못한다는 문제점을 해결할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (15)

  1. 대화 상태 추정 시스템에 의해 수행되는 대화 상태 추정 방법에 있어서,
    음성 데이터를 텍스트 데이터로 변환하는 단계;
    상기 변환된 텍스트 데이터를 다른 언어의 텍스트 데이터로 변환하기 위한 기계 번역을 수행하는 단계; 및
    상기 변환된 텍스트 데이터와 상기 수행된 기계 번역의 결과를 대화 상태를 추적하기 위하여 구성된 모델에 입력하여 교차언어 환경에서의 대화 상태를 학습함에 따라 단어 벡터를 출력하는 단계
    를 포함하는 대화 상태 추정 방법.
  2. 제1항에 있어서,
    상기 단어 벡터를 출력하는 단계는,
    Bi-LSTM(Bidirectional Long Short Term Memory)을 이용하여 상기 변환된 텍스트의 각 단어에 대한 중요도를 계산하고, 상기 계산된 중요도에 기초하여 가중치 합을 통해 주어진 문장을 요약하는 단어 벡터를 출력하는 단계
    를 포함하는 대화 상태 추정 방법.
  3. 제2항에 있어서,
    상기 단어 벡터를 출력하는 단계는,
    주어진 슬롯의 정답으로 가능한 값들에 대한 중요도를 계산하고, 상기 계산된 값들의 단어 벡터에 대한 가중치 합을 통해 최종 단어 벡터를 출력하기 위한 다중 언어로 존재하는 데이터를 처리하는 제1 모델을 구성하는 단계
    를 포함하는 대화 상태 추정 방법.
  4. 제3항에 있어서,
    상기 단어 벡터를 출력하는 단계는,
    상기 제1 모델을 통하여 상기 변환된 텍스트와 기계번역의 결과에 대한 각각의 문장을 요약하는 단어 벡터를 출력하고, 상기 출력한 단어 벡터에 대한 슬롯의 값들에 대한 중요도를 결정하고, 상기 결정된 중요도에 기초하여 각각의 값들에 대한 단어 벡터를 가중치 합을 통해 최종적인 단어 벡터를 출력하는 단계
    를 포함하는 대화 상태 추정 방법.
  5. 제2항에 있어서,
    상기 단어 벡터를 출력하는 단계는,
    상기 변환된 텍스트 데이터를 요약하는 단어 벡터를 출력하기 위하여 OOV(Out-Of-Vocabulary) 단어를 처리하는 제2 모델을 구성하는 단계
    를 포함하는 대화 상태 추정 방법.
  6. 제5항에 있어서,
    상기 단어 벡터를 출력하는 단계는,
    상기 변환된 텍스트 데이터에 대한 기 설정된 기준 이상의 중요 정보가 존재하지 않을 경우, 별도로 구성된 뉴럴 네트워크 구조를 통해 단어 벡터를 출력하는 단계
    를 포함하는 대화 상태 추정 방법.
  7. 제1항에 있어서,
    상기 단어 벡터를 출력하는 단계는,
    상기 대화 상태를 추적하기 구성된 제1 모델 및 제2 모델을 통하여 학습된 결과를 통하여 최종적인 단어 벡터를 출력하는 단계
    를 포함하고,
    상기 제1 모델에서 기 설정된 기준 이상의 중요도를 갖는 값들이 존재하지 않을 경우, 상기 제2 모델의 결과에 기 설정된 기준 이상의 가중치를 부여하여 최종적인 단어 벡터가 생성되는
    대화 상태 추정 방법.
  8. 대화 상태 추정 시스템에 의해 수행되는 대화 상태 추정 방법을 실행시키기 위해 컴퓨터 판독 가능한 저장매체에 저장된 컴퓨터 프로그램에 있어서,
    음성 데이터를 텍스트 데이터로 변환하는 단계;
    상기 변환된 텍스트 데이터를 다른 언어의 텍스트 데이터로 변환하기 위한 기계 번역을 수행하는 단계; 및
    상기 변환된 텍스트 데이터와 상기 수행된 기계 번역의 결과를 대화 상태를 추적하기 위하여 구성된 모델에 입력하여 교차언어 환경에서의 대화 상태를 학습함에 따라 단어 벡터를 출력하는 단계
    를 포함하는 컴퓨터 판독 가능한 저장매체에 저장된 컴퓨터 프로그램.
  9. 대화 상태 추정 시스템에 있어서,
    음성 데이터를 텍스트 데이터로 변환하는 변환부;
    상기 변환된 텍스트 데이터를 다른 언어의 텍스트 데이터로 변환하기 위한 기계 번역을 수행하는 번역부; 및
    상기 변환된 텍스트 데이터와 상기 수행된 기계 번역의 결과를 대화 상태를 추적하기 위하여 구성된 모델에 입력하여 교차언어 환경에서의 대화 상태를 학습함에 따라 단어 벡터를 출력하는 추적부
    를 포함하는 대화 상태 추정 시스템.
  10. 제9항에 있어서,
    상기 추적부는,
    Bi-LSTM (Bidirectional Long Short Term Memory)을 이용하여 상기 변환된 텍스트의 각 단어에 대한 중요도를 계산하고, 상기 계산된 중요도에 기초하여 가중치 합을 통해 주어진 문장을 요약하는 단어 벡터를 출력하는
    대화 상태 추정 시스템.
  11. 제10항에 있어서,
    상기 추적부는,
    주어진 슬롯의 정답으로 가능한 값들에 대한 중요도를 계산하고, 상기 계산된 값들의 단어 벡터에 대한 가중치 합을 통해 최종 단어 벡터를 출력하기 위한 다중 언어로 존재하는 데이터를 처리하는 제1 모델을 구성하는
    대화 상태 추정 시스템.
  12. 제11항에 있어서,
    상기 추적부는,
    상기 제1 모델을 통하여 상기 변환된 텍스트와 기계번역의 결과에 대한 각각의 문장을 요약하는 단어 벡터를 출력하고, 상기 출력한 단어 벡터에 대한 슬롯의 값들에 대한 중요도를 결정하고, 상기 결정된 중요도에 기초하여 각각의 값들에 대한 단어 벡터를 가중치 합을 통해 최종적인 단어 벡터를 출력하는
    대화 상태 추정 시스템.
  13. 제10항에 있어서,
    상기 추적부는,
    상기 변환된 텍스트 데이터를 요약하는 단어 벡터를 출력하기 위하여 OOV(Out-Of-Vocabulary) 단어를 처리하는 제2 모델을 구성하는
    대화 상태 추정 시스템.
  14. 제13항에 있어서,
    상기 추적부는,
    상기 변환된 텍스트 데이터에 대한 기 설정된 기준 이상의 중요 정보가 존재하지 않을 경우, 별도로 구성된 뉴럴 네트워크 구조를 통해 단어 벡터를 출력하는
    대화 상태 추정 시스템.
  15. 제9항에 있어서,
    상기 추적부는,
    상기 대화 상태를 추적하기 구성된 제1 모델 및 제2 모델을 통하여 학습된 결과를 통하여 최종적인 단어 벡터를 출력하는 것을 포함하고,
    상기 제1 모델에서 기 설정된 기준 이상의 중요도를 갖는 값들이 존재하지 않을 경우, 상기 제2 모델의 결과에 기 설정된 기준 이상의 가중치를 부여하여 최종적인 단어 벡터가 생성되는
    대화 상태 추정 시스템.
KR1020190022878A 2018-11-21 2019-02-27 교차언어 환경에서의 대화 상태 추적 방법 및 시스템 KR102183284B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20180144485 2018-11-21
KR1020180144485 2018-11-21

Publications (2)

Publication Number Publication Date
KR20200060191A true KR20200060191A (ko) 2020-05-29
KR102183284B1 KR102183284B1 (ko) 2020-11-26

Family

ID=70912053

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190022878A KR102183284B1 (ko) 2018-11-21 2019-02-27 교차언어 환경에서의 대화 상태 추적 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR102183284B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914710A (zh) * 2020-07-24 2020-11-10 合肥工业大学 一种铁路机务段场景描述方法及系统
CN113486924A (zh) * 2020-06-03 2021-10-08 谷歌有限责任公司 带有槽位关注的以对象为中心的学习

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180001889A (ko) * 2016-06-28 2018-01-05 삼성전자주식회사 언어 처리 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180001889A (ko) * 2016-06-28 2018-01-05 삼성전자주식회사 언어 처리 방법 및 장치

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
H. Shi et al., "A multichannel convolutional neural network for cross language dialog state tracking," CoRR, in IEEE Workshop Spoken Language Tech., Dec. 2016. *
M. Henderson et al., Word-based dialog state tracking with recurrent neural networks," in Proc. 15th Annu. Meeting Special Interest Group Discourse Dialogue, pp. 292-299, 2014. *
T. Hori et al., "Dialog state tracking with attention-based sequence-to-sequence learning," in Proc. IEEE Spoken Lang. Technol.Workshop, pp. 552-558, 2016 *
Y. Jang et al., Neural dialog state tracker for large ontologies by attention mechanism, Spoken Language Technology Workshop IEEE, pp.531-537 (2016.12.) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486924A (zh) * 2020-06-03 2021-10-08 谷歌有限责任公司 带有槽位关注的以对象为中心的学习
CN111914710A (zh) * 2020-07-24 2020-11-10 合肥工业大学 一种铁路机务段场景描述方法及系统
CN111914710B (zh) * 2020-07-24 2024-02-13 合肥工业大学 一种铁路机务段场景描述方法及系统

Also Published As

Publication number Publication date
KR102183284B1 (ko) 2020-11-26

Similar Documents

Publication Publication Date Title
KR102382499B1 (ko) 번역 방법, 타깃 정보 결정 방법, 관련 장치 및 저장 매체
US11403345B2 (en) Method and system for processing unclear intent query in conversation system
KR102565275B1 (ko) 병렬 처리에 기초한 번역 방법 및 장치
US11645470B2 (en) Automated testing of dialog systems
KR20180001889A (ko) 언어 처리 방법 및 장치
CN110377916B (zh) 词预测方法、装置、计算机设备及存储介质
KR102315830B1 (ko) 반지도 학습 기반 단어 단위 감정 임베딩과 lstm 모델을 이용한 대화 내에서 발화의 감정 분류 방법
US20220108080A1 (en) Reinforcement Learning Techniques for Dialogue Management
CN109754809A (zh) 语音识别方法、装置、电子设备及存储介质
JP6615736B2 (ja) 音声言語識別装置、その方法、及びプログラム
CN112673421A (zh) 训练和/或使用语言选择模型以自动确定用于口头话语的话音辨识的语言
CN112016275A (zh) 一种语音识别文本的智能纠错方法、系统和电子设备
US11748393B2 (en) Creating compact example sets for intent classification
Vu et al. An investigation of code-switching attitude dependent language modeling
KR20190136578A (ko) 음성 인식 방법 및 장치
KR102183284B1 (ko) 교차언어 환경에서의 대화 상태 추적 방법 및 시스템
CN114398899A (zh) 预训练语言模型的训练方法、装置、计算机设备和介质
CN112668317A (zh) 用于确定输出词法单元的方法和设备
Ostendorf Continuous-space language processing: Beyond word embeddings
US11610581B2 (en) Multi-step linear interpolation of language models
JP6788077B2 (ja) 対話破壊特徴量抽出装置、対話破壊特徴量抽出方法、プログラム
EP4064110A1 (en) Apparatus and method for training dialogue summary model
KR102501869B1 (ko) 문장 중요도에 기반한 문서 수준의 감성 분류 방법 및 장치
JP6962424B2 (ja) 対話破壊特徴量抽出装置、対話破壊特徴量抽出方法、プログラム
KR20230156425A (ko) 자체 정렬을 통한 스트리밍 asr 모델 지연 감소

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right