KR101590908B1 - 채팅 데이터 학습 및 서비스 방법 및 그에 따른 시스템 - Google Patents

채팅 데이터 학습 및 서비스 방법 및 그에 따른 시스템 Download PDF

Info

Publication number
KR101590908B1
KR101590908B1 KR1020130162902A KR20130162902A KR101590908B1 KR 101590908 B1 KR101590908 B1 KR 101590908B1 KR 1020130162902 A KR1020130162902 A KR 1020130162902A KR 20130162902 A KR20130162902 A KR 20130162902A KR 101590908 B1 KR101590908 B1 KR 101590908B1
Authority
KR
South Korea
Prior art keywords
data
information
user
sentence
system response
Prior art date
Application number
KR1020130162902A
Other languages
English (en)
Other versions
KR20150075191A (ko
Inventor
서정연
구명완
강상우
김학수
최맹식
송영길
전원표
Original Assignee
서강대학교산학협력단
강원대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서강대학교산학협력단, 강원대학교산학협력단 filed Critical 서강대학교산학협력단
Priority to KR1020130162902A priority Critical patent/KR101590908B1/ko
Priority to PCT/KR2014/012741 priority patent/WO2015099418A1/ko
Publication of KR20150075191A publication Critical patent/KR20150075191A/ko
Application granted granted Critical
Publication of KR101590908B1 publication Critical patent/KR101590908B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • G06Q50/40
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Abstract

본 발명은 사용자 발화 데이터와 시스템 응답 데이터로 이루어진 채팅 말뭉치 데이터를 학습 데이터로 입력받아 사용자 발화 데이터와 시스템 응답 데이터 사이의 색인정보를 생성하는 학습을 이행하며, 사용자 발화 데이터가 중문인 경우에는 그 중문을 구성하는 단문들 각각에 대해 시스템 응답 데이터와의 상호정보량을 산출하고, 그 상호정보량을 토대로 단문들 중 어느 하나를 선택하여 그 선택된 단문에 대한 데이터와 시스템 응답 데이터로 학습 데이터를 생성하여 재학습을 이행함으로써, 중문에 대해서도 신뢰할 수 있는 시스템 응답 데이터를 제공할 수 있게 한다.
또한 본 발명은 사용자 발화 데이터가 입력되면, 그 사용자 발화 데이터에 대응되는 시스템 응답 데이터를 검출하여 출력하거나, 시스템 응답 데이터가 검출되지 않으며 사용자 발화 데이터가 중문인 경우에는 그 중문을 구성하는 단문들 각각에 대해 대응되는 시스템 응답 데이터들을 검출하고, 그 검출된 시스템 응답 데이터들과 단문 사이의 상호정보량을 산출하고, 그 상호정보량을 토대로 시스템 응답 데이터들 중 어느 하나를 선택하여 출력함으로써, 중문에 대해서도 신뢰할 수 있는 시스템 응답 데이터를 제공할 수 있다.

Description

채팅 데이터 학습 및 서비스 방법 및 그에 따른 시스템{METHOD OF LEARNING CHATTING DATA AND SYSTEM THEREOF}
본 발명은 채팅 시스템에 관한 것으로, 더욱 상세하게는 채팅 데이터 학습 및 서비스 방법 및 그에 따른 시스템에 관한 것이다.
채팅 시스템에 관한 연구로는 패턴 매칭 방법, 키워드 인식, 마르코프 모델과 유전 알고리즘 등을 이용한 방법이 있다.
상기 패턴 매칭 방법은 사용자가 입력한 문장에 포함된 키워드로부터 미리 정의된 문장으로 응답하는 간단한 패턴 매칭 방법과 어휘를 치환하는 등의 방법을 이용한다. 이에 대한 대표적인 시스템으로는 최초의 채팅 시스템인 ELIZA가 있다. 상기한 패턴 매칭 방법은 구현이 쉬운 장점이 있지만 비슷하거나 동일한 대화가 계속되어 채팅의 유연성이 부족하고, 채팅의 수준을 향상시키기 위해서는 대량의 말뭉치가 필요하다는 단점이 있었다.
상기 마르코프 모델과 유전 알고리즘을 이용한 방법은 검색이 아닌 새로운 문장을 생성하는 방법이다. 상기 마르코프 모델을 이용한 방법은 인간의 대화 내용을 마르코프 모형으로 저장한 후에 사용자의 입력에 대해 데이터를 조회하여 가장 적절한 문장을 생성하는 문장 생성 기법 중 하나이다. 그리고 상기 유전 알고리즘은 데이터베이스에 저장되어 있는 데이터로부터 새로운 데이터를 생성하는 방법이다. 하지만 이 방법은 문법이 잘못된 문장을 생성할 수 있기 때문에 적절한 필터링이 요구되는 단점이 있었다.
한국특허공개 제10-2001-0026990호 한국특허공개 제10-2007-0058953호 한국특허공개 제10-2008-0005745호 한국특허공개 제10-2011-0094444호
본 발명은 사용자 발화 데이터와 시스템 응답 데이터로 이루어진 채팅 말뭉치 데이터를 학습 데이터로 입력받아 사용자 발화 데이터와 시스템 응답 데이터 사이의 색인정보를 생성하는 학습을 이행하며, 사용자 발화 데이터가 중문인 경우에는 그 중문을 구성하는 단문들 각각에 대해 시스템 응답 데이터와의 상호정보량을 산출하고, 그 상호정보량을 토대로 단문들 중 어느 하나를 선택하여 그 선택된 단문에 대한 데이터와 시스템 응답 데이터로 학습 데이터를 생성하여 재학습을 이행하는 채팅 데이터 학습 방법 및 그에 따른 시스템을 제공하는 것을 그 목적으로 한다.
또한 본 발명의 다른 목적은 사용자 발화 데이터가 입력되면, 그 사용자 발화 데이터에 대응되는 시스템 응답 데이터를 검출하여 출력하거나, 시스템 응답 데이터가 검출되지 않으며 사용자 발화 데이터가 중문인 경우에는 그 중문을 구성하는 단문들 각각에 대해 대응되는 시스템 응답 데이터들을 검출하고, 그 검출된 시스템 응답 데이터들과 단문 사이의 상호정보량을 산출하고, 그 상호정보량을 토대로 시스템 응답 데이터들 중 어느 하나를 선택하여 출력하는 채팅 데이터 서비스 방법 및 그에 따른 시스템을 제공하는 것이다.
상기한 목적을 달성하기 위한 본 발명에 따르는 색인 데이터베이스와 상호정보량 데이터베이스와 채팅 데이터 학습장치로 구성되는 채팅 데이터 학습 시스템에서의 채팅 데이터 학습 장치에 의해 구현되는 채팅 데이터 학습방법은, (a) 사용자 발화 데이터와 시스템 응답 데이터로 구성되는 학습 데이터를 입력받는 단계; (b) 상기 학습 데이터를 이용하여 학습하여, 사용자 발화 데이터의 문장 정보들과 이에 대응되는 시스템 응답 데이터의 색인 정보를 생성하여 색인 데이터베이스에 저장하고, 사용자 발화 데이터의 형태소들과 상기 시스템 응답 데이터의 형태소들 사이의 상호정보량을 산출하여 상호정보량 데이터베이스에 저장하는 단계; (c) 상기 학습 데이터의 사용자 발화 데이터가 중문인지 여부를 판단하는 단계; (d) 상기 사용자 발화 데이터가 중문이면, 사용자 발화 데이터를 단문으로 분할하고, 분할된 단문들을 이용하여 학습 데이터를 재구성하고, 재구성된 학습 데이터를 이용하여 재학습하여 색인 데이터베이스 및 상호정보량 데이터베이스를 갱신하는 단계;를 구비하는 것을 특징으로 한다.
또한 본 발명에 따르는 색인 데이터베이스와 상호 정보량 데이터베이스와 채팅 데이터 서비스 장치를 포함하는 채팅 데이터 서비스 시스템에서의 채팅 데이터 서비스 장치에 의해 구현되는 채팅 데이터 서비스 방법은, (a) 외부로부터 사용자 발화 데이터를 입력받는 단계; (b) 상기 입력된 사용자 발화 데이터의 문장정보를 추출하고, 그 문장정보에 대응되는 시스템 응답 데이터를 색인 데이터베이스에 저장된 색인정보에서 검출하여 출력하는 단계; (c) 상기 문장정보에 대응되는 시스템 응답 데이터가 검출되지 않으면, 그 사용자 발화 데이터가 중문인지 여부를 판별하는 단계; (d) 상기 사용자 발화 데이터가 중문이면, 사용자 발화 데이터를 단문들로 분할하고, 각 분할된 단문들의 문장정보를 추출하고, 그 문장정보에 대응되는 시스템 응답 데이터들을 상기 색인 데이터베이스에 저장된 색인정보에서 검출하고, 그 시스템 응답 데이터들과 단문들 사이의 상호정보량을 검출하고, 상기 상호정보량을 이용하여 시스템 응답 데이터를 선택하여 출력하는 단계;를 구비하는 것을 특징으로 한다.
본 발명은 사용자 발화 데이터와 시스템 응답 데이터로 이루어진 채팅 말뭉치 데이터를 학습 데이터로 입력받아 사용자 발화 데이터와 시스템 응답 데이터 사이의 색인정보를 생성하는 학습을 이행하며, 사용자 발화 데이터가 중문인 경우에는 그 중문을 구성하는 단문들 각각에 대해 시스템 응답 데이터와의 상호정보량을 산출하고, 그 상호정보량을 토대로 단문들 중 어느 하나를 선택하여 그 선택된 단문에 대한 데이터와 시스템 응답 데이터로 학습 데이터를 생성하여 재학습을 이행함으로써, 중문에 대해서도 신뢰할 수 있는 시스템 응답 데이터를 제공할 수 있게 학습할 수 있는 효과가 있다.
또한 본 발명은 사용자 발화 데이터가 입력되면, 그 사용자 발화 데이터에 대응되는 시스템 응답 데이터를 검출하여 출력하거나, 시스템 응답 데이터가 검출되지 않으며 사용자 발화 데이터가 중문인 경우에는 그 중문을 구성하는 단문들 각각에 대해 대응되는 시스템 응답 데이터들을 검출하고, 그 검출된 시스템 응답 데이터들과 단문 사이의 상호정보량을 산출하고, 그 상호정보량을 토대로 시스템 응답 데이터들 중 어느 하나를 선택하여 출력함으로써, 중문에 대해서도 신뢰할 수 있는 시스템 응답 데이터를 제공할 수 있는 효과가 있다.
도 1은 본 발명의 바람직한 실시예에 따른 채팅 데이터 학습 시스템의 구성도.
도 2는 본 발명의 바람직한 실시예에 따른 채팅 데이터 학습 방법의 절차도.
도 3은 본 발명의 바람직한 실시예에 따른 채팅 데이터 서비스 시스템의 구성도.
도 4는 본 발명의 바람직한 실시예에 따른 채팅 데이터 서비스 방법의 절차도.
본 발명은 사용자 발화 데이터와 시스템 응답 데이터로 이루어진 채팅 말뭉치 데이터를 학습 데이터로 입력받아 사용자 발화 데이터와 시스템 응답 데이터 사이의 색인정보를 생성하는 학습을 이행하며, 사용자 발화 데이터가 중문인 경우에는 그 중문을 구성하는 단문들 각각에 대해 시스템 응답 데이터와의 상호정보량을 산출하고, 그 상호정보량을 토대로 단문들 중 어느 하나를 선택하여 그 선택된 단문에 대한 데이터와 시스템 응답 데이터로 학습 데이터를 생성하여 재학습을 이행함으로써, 중문에 대해서도 신뢰할 수 있는 시스템 응답 데이터를 제공할 수 있게 한다.
또한 본 발명은 사용자 발화 데이터가 입력되면, 그 사용자 발화 데이터에 대응되는 시스템 응답 데이터를 검출하여 출력하거나, 시스템 응답 데이터가 검출되지 않으며 사용자 발화 데이터가 중문인 경우에는 그 중문을 구성하는 단문들 각각에 대해 대응되는 시스템 응답 데이터들을 검출하고, 그 검출된 시스템 응답 데이터들과 단문 사이의 상호정보량을 산출하고, 그 상호정보량을 토대로 시스템 응답 데이터들 중 어느 하나를 선택하여 출력함으로써, 중문에 대해서도 신뢰할 수 있는 시스템 응답 데이터를 제공할 수 있다.
<채팅 데이터 학습 시스템>
상기한 본 발명의 바람직한 실시예에 따른 채팅 데이터 학습 시스템의 구성을 도 1을 참조하여 상세히 설명한다.
상기 채팅 데이터 학습 시스템은 채팅 데이터 학습장치(100)와 색인 데이터베이스(200)와 상호 정보량 데이터베이스(202)로 구성된다.
상기 채팅 데이터 학습장치(100)는 문장정보 추출부(102)와 상호 정보량 산출부(104)와 중문 판별부(106)와 제1중문 처리부(108)와 제2중문 처리부(110)로 구성된다.
상기 문장정보 추출부(102)는 학습 데이터를 입력받아 학습 데이터 중 사용자 발화 데이터에서 문장정보를 추출하여 색인정보를 생성하고 그 색인정보를 색인 데이터베이스(200)에 저장한다.
상기 사용자 발화 데이터에서 추출하는 문장정보는 [모든 품사에 대한 형태소들], [체언 및 용언, 부사에 대한 형태소들], [명사류에 대한 형태소들], [ 문장 특성정보], [연결어미정보] 등으로 구성된다.
상기 문장정보는 축약수준에 따라 제1 내지 제3색인정보로 구성되며, 상기 제1색인정보는 모든 품사에 대한 형태소들로 구성되고, 제2색인정보는 체언 및 용언, 부사에 대한 형태소들과 문장특성정보로 구성되고, 상기 제3색인정보는 명사류에 대한 형태소들과 문장특성정보로 구성된다. 상기한 제1 내지 제3색인정보는 축약수준에 따라 구별된 것으로, 축약 수준이 높아질수록 색인되는 정보가 적게되어 검색속도를 향상시킬 수 있다.
상기 문장 특성정보는 문장 유형정보와 양상정보와 긍정 또는 부정정보 등으로 구성된다.
상기 문장 특성정보의 문장유형정보는 12개로 구성되며, 이는 표 1에 나타낸 바와 같다.
Figure 112013118586760-pat00001
상기 표 1을 참조하면, 상기 문장유형은 평서문, 명령문, 감탄문, 청유문, WH 의문문, YN 의문문, WH 의문문, WH 의문문, WH 의문문, WH 의문문, WH 의문문, WH 의문문으로 구성된다.
그리고 상기 문장 특성정보의 양상정보는 35개로 구성되며, 이는 표 2에 나타낸 바와 같다. 상기 양상정보는 의도, 확신, 시도, 가능, 사동, 원인, 종결, 완료, 희망, 불허, 요행, 가합, 추측, 습관, 일념, 불가능, 불가피, 극한, 부정, 당위, 피동, 시인, 가식, 진행, 규정, 재귀, 보유, 예정, 봉사, 시발, 처지, 강조, 경향, 가치, 기타로 구성된다.
Figure 112013118586760-pat00002
그리고 상기 연결어미정보는 사용자 발화 데이터가 중문인지 아닌지를 판별하기 위한 연결어미가 존재하는지, 그 연결어미가 중문을 구성하는 단문을 대등적으로 연결하는지, 종속적으로 연결하는지에 대한 식별정보로 구성된다. 즉, 연결어미가 존재하면 중문으로 판단하고, 그 연결어미가 -고, -며, -자, -면서,-지만, -락,-거나, 든지 등이면 대등적 연결 어미로 연결된 중문으로 판단하고, 그 연결어미가 -면, -니, -나, -려고, -러, -자, -뿐더러, -니까 등이면 종속적 연결어미로 연결된 중문으로 판단한다.
즉, 상기 문장정보 추출부(102)는 학습 데이터를 입력받아 학습 데이터 중 사용자 발화 데이터에 대한 제1 내지 제3색인정보와 연결어미정보와 그 사용자 발화 데이터에 대응되는 시스템 응답 데이터로 구성되는 색인정보를 생성하고 그 색인정보를 색인 데이터베이스(200)에 저장한다.
상기 상호정보량 산출부(104)는 상기 학습 데이터를 입력받아 사용자 발화 데이터와 시스템 응답 데이터를 구성하는 형태소들 사이의 상호정보량을 산출하고, 상기 학습 데이터에 속한 사용자 발화 데이터와 시스템 응답 데이터 사이의 상호 정보량 산출값에 대한 상호 정보량 정보를 상호 정보량 데이터베이스(202)에 저장한다. 여기서, 상기 상호 정보량 정보에는 해당 학습 데이터의 색인정보를 지시하는 어드레스정보가 포함되며, 이는 채팅 데이터 서비스시에 이용될 수 있다.
상기 상호 정보량 산출식은 수학식 1과 같다.
Figure 112013118586760-pat00003
상기 상호 정보량은 두 사건 사이에 얼마나 밀접한 관계가 있는지를 수치화한 값으로, 본 발명에서는 사용자 발화 데이터와 시스템 응답 데이터를 구성하는 형태소가 얼마나 밀접한 관계를 가지는지를 수치화하는 데에 사용된다.
상기 수학식 1에서 p(u)는 학습 데이터의 사용자 발화 데이터에서 ui(형태소)가 등장하는 확률로써, 학습 데이터의 사용자 발화 데이터 전체에 대해 형태소 분석하여, 현재 사용자 발화 데이터에서 해당 형태소가 나타난 수를 학습 데이터의 사용자 발화 데이터 전체의 형태소 수로 나눈 것이다.
그리고 p(f)는 학습 데이터의 시스템 응답 데이터에서 fi(형태소)가 등장하는 확률로써, 학습 데이터의 시스템 응답 데이터 전체에 대해 형태소 분석하여, 현재 시스템 응답 데이터에서 해당 형태소가 나타난 수를 학습 데이터의 시스템 응답 데이터 전체의 형태소 수로 나눈 것이다.
그리고 p(u∩f)는 학습 데이터의 사용자 발화 데이터와 시스템 응답 데이터 전체에서 구한 것으로, 전체 학습 데이터에서 사용자 발화 데이터에서 ui가 시스템 응답 데이터에서 fi가 동시에 출현할 확률을 의미한다. 따라서 사용자 발화 데이터에서 ui가 시스템 응답 데이터에서 fi가 동시에 나타난 수를 사용자 발화 데이터와 시스템 응답 데이터의 형태소 조합의 수로 나눈 것이다.
즉, 상기 수학식 1은 학습 데이터 전체에서 사용자 발화 데이터에 속한 제1형태소들과 시스템 응답 데이터에 속한 제2형태소들이 동시에 출연할 확률 p(u∩f)을, 현재 입력된 학습 데이터의 사용자 발화 데이터에서 제1형태소들이 등장할 확률 p(u)과 현재 입력된 학습 데이터의 시스템 응답 데이터에서 제2형태소들이 등장할 확률p(f)을 곱한 값으로 나누어, 상호 정보량을 산출하는 것을 나타낸다.
상기 중문 판별부(106)는 문장정보 추출부(102)로부터 학습 데이터 중 사용자 발화 데이터가 중문으로 판단된 학습 데이터를 제공받아 연결어미에 따라 제1중문처리부(108)에 제공하거나 제2중문처리부(110)에 제공한다.
상기 제1중문처리부(108)는 종속적 연결어미로 연결된 중문으로 판단된 학습 데이터의 사용자 발화 데이터를 연결어미를 기준으로 단문들로 분할하고, 그 분할된 단문들 각각에 대해 시스템 응답 데이터와의 상호 정보량을 산출하고, 그 상호 정보량 산출값이 가장 큰 단문과 시스템 응답 데이터를 결합하여 재학습 데이터를 생성하여 상기 문장 추출부(102)에 제공하여 재학습 데이터로 재학습되게 한다.
이와 같이 장문의 사용자 발화 데이터에 대해 문장을 분리하고, 밀접한 연관이 있는 것으로 판단되는 단문만으로 재학습하여 색인정보를 생성하는 것은, 시스템의 재현율을 높일 수 있는 효과를 야기한다.
상기 단문들 각각에 대한 상호 정보량 산출식은 수학식 2 및 수학식 3과 같다.
Figure 112013118586760-pat00004
상기 수학식 2는 사용자 발화 데이터에 포함된 형태소들(u1~un)과 시스템 응답 데이터에 포함된 형태소들(f1~fn) 사이의 상호 정보량을 나타낸 것이다.
Figure 112013118586760-pat00005
상기 수학식 3은 사용자 발화 데이터를 단문들로 분할하고, 분할된 단문들 각각에 포함된 형태소들과 시스템 응답 데이터에 포함된 형태소들 사이의 상호 정보량을 산출하여 더한 것을, 해당 단문에 포함된 형태소들의 수로 나눈 것을 의미한다. 즉 수학식 3에 따라 단문들 각각에 대해 시스템 응답 데이터와의 상호 정보량이 산출된다.
그리고 제2중문처리부(110)는 대등적 연결어미로 연결된 중문으로 판단된 학습 데이터를 입력받아, 그 학습 데이터의 사용자 발화 데이터를 연결어미를 기준으로 단문들로 분할하고, 그 분할된 단문들 각각과 학습 데이터의 시스템 응답 데이터를 결합하여 재학습 데이터들을 생성하여 상기 문장 추출부(102)에 제공하여 재학습 데이터들에 의해 재학습되게 한다. 이와 같이 대등적 연결어미로 연결된 중문으로 판단된 사용자 발화 데이터의 경우에는 주어진 학습 데이터를 최대한 활용할 수 있게 함으로써 시스템의 재현율을 높일 수 있다.
<채팅 데이터 학습 방법>
본 발명의 바람직한 실시예에 따른 채팅 데이터 학습 방법의 구성을 도 2를 참조하여 상세히 설명한다.
상기 채팅 데이터 학습 시스템은 채팅 데이터 학습장치(100)는 외부로부터 사용자 말뭉치 데이터가 학습 데이터로 입력되거나 내부에서 생성된 재학습 데이터가 학습 데이터로 재입력되는지를 체크한다(300단계).
상기 채팅 데이터 학습장치(100)는 상기 학습 데이터가 입력되면, 상기 학습 데이터에 포함된 사용자 발화 데이터의 문장정보를 추출하고, 그 문장정보와 시스템 응답 데이터를 매칭하는 색인정보를 구성하여 색인 데이터베이스(200)에 저장한다(302단계).
또한 상기 채팅 데이터 학습장치(100)는 상기 학습 데이터 또는 재학습 데이터에 포함된 사용자 발화 데이터와 시스템 응답 데이터를 이루는 형태소들 사이의 관계를 지시하는 상호 정보량을 산출하고, 그 상호 정보량 산출값과 상기 학습 데이터의 색인정보에 대한 식별정보로 상호 정보량 정보를 생성하고, 그 상호 정보량 정보를 상호 정보량 데이터베이스(202)에 저장한다(304단계).
또한 상기 채팅 데이터 학습장치(100)는 상기 학습 데이터의 사용자 발화 데이터가 중문인지를 체크하고, 상기 사용자 발화 데이터가 중문이면 종속적 연결어미로 연결된 중문인지 대등적 연결어미로 연결된 중문인지를 체크한다(306,308,312단계).
상기 사용자 발화 데이터가 종속적 연결어미로 연결된 중문이면, 상기 채팅 데이터 학습장치(100)는 사용자 발화 데이터를 단문들로 분할하고, 그 분할된 단문들 중 시스템 응답 데이터와 상호 정보량이 높은 단문을 검출하여 선택하고, 그 선택된 단문과 시스템 응답 데이터를 결합하여 재학습 데이터를 생성하고, 그 재학습 데이터를 다시 학습 데이터로 재입력하여 학습을 이행한다(310단계).
만일 상기 사용자 발화 데이터가 대등적 연결어미로 연결된 중문이면, 상기 채팅 데이터 학습장치(100)는 사용자 발화 데이터를 단문들로 분할하고, 그 분할된 단문들 각각과 시스템 응답 데이터를 결합하여 재학습 데이터를 생성하고, 그 재학습 데이터를 다시 학습 데이터로 재입력하여 학습을 이행한다(314단계). 이로서 색인 데이터베이스의 색인정보 및 상호정보량 데이터베이스의 상호정보량을 갱신한다.
<채팅 데이터 서비스 시스템>
이제 상기한 색인정보 및 상호정보량 정보를 이용하여 채팅 데이터 서비스를 제공하는 본 발명의 바람직한 실시예에 따른 채팅 데이터 서비스 시스템의 구성을 도 3을 참조하여 상세하게 설명한다.
상기 채팅 데이터 서비스 시스템은 채팅 데이터 서비스 장치(400)와 색인 데이터베이스(200)와 상호 정보량 데이터베이스(202)로 구성된다.
상기 채팅 데이터 서비스 장치(400)는 사용자 발화 데이터를 입력받아 색인 데이터베이스(200)와 상호 정보량 데이터베이스(202)에 저장된 색인정보와 상호 정보량 정보를 이용하여 사용자 발화 데이터에 대응되는 시스템 응답 데이터를 검출하고, 그 시스템 응답 데이터를 출력한다.
상기 색인 데이터베이스(202)에는 색인정보를 저장하며, 상기 색인정보에는 시스템 응답 데이터와 그에 대응되는 사용자 발화 데이터에 대한 제1 내지 제3색인정보가 포함된다. 상기 제1 내지 제3색인정보에 대해서는 상술되었으므로 상세한 설명을 생략한다.
상기 상호 정보량 데이터베이스(202)는 학습 데이터의 학습과정에서 산출된 시스템 응답 데이터의 형태소들과 그에 대응되는 사용자 발화 데이터의 형태소들 사이의 상호 정보량 산출값과 해당 학습 데이터에 대한 상호 정보량 정보가 저장된다.
상기 채팅 데이터 서비스 장치(400)는 문장정보 추출부(402)와 시스템 응답 데이터 검출부(404)와 중문 판별부(406)와 제1중문 처리부(408)와 제2중문 처리부(410)로 구성된다.
상기 문장정보 추출부(402)는 사용자 발화 데이터가 입력되면, 상기 사용자 발화 데이터로부터 문장정보를 추출하여, 그 문장정보를 시스템 응답 데이터 검출부(404)로 전송한다.
상기 시스템 응답 데이터 검출부(404)는 사용자 발화 데이터의 문장정보에 대응되는 시스템 응답 데이터를 색인 데이터베이스(200)에서 검출한다.
특히 상기 시스템 응답 데이터 검출부(404)는 축약수준에 따라 제1 내지 제3색인정보 중 어느 한 색인정보를 이용하여 사용자 발화 데이터에 대응되는 시스템 응답 데이터를 검출한다. 상기 제1 내지 제3색인정보의 선택은 사용자에 의한 정확도 설정에 대응되게 이루어질 수 있다. 즉 사용자가 엄밀한 응답을 원하는 경우에는 제1색인정보를 선택할 수 있고, 그렇지 않을 경우에는 제2색인정보 또는 제3색인정보를 선택할 수 있다.
상기한 바와 같이 시스템 응답 데이터 검출부(404)는 사용자 발화 데이터의 문장정보에 대응되는 시스템 응답 데이터가 색인 데이터베이스(200)에서 검출되면, 이를 출력한다.
그러나 상기 사용자 발화 데이터의 문장정보에 대응되는 시스템 응답 데이터가 존재하지 않으면, 상기 사용자 발화 데이터를 중문 판별부(406)에 제공한다.
상기 중문 판별부(406)는 상기 사용자 발화 데이터가 종속적 연결어미로 연결된 중문인지, 대등적 연결어미로 연결된 중문인지를 판별하고, 중문이 아닌 경우에는 시스템 응답 데이터 없음을 출력한다.
상기 중문 판별부(406)는 상기 사용자 발화 데이터가 종속적 연결어미로 연결된 중문이면 이를 제1중문 처리부(408)로 제공하고, 상기 사용자 발화 데이터가 대등적 연결어미로 연결된 중문이면 이를 제2중문처리부(410)로 제공한다.
상기 제1중문 처리부(408)는 상기 사용자 발화 데이터를 연결어미를 기준으로 단문들로 분할하고, 그 분할된 단문들에 대해 문장정보를 추출한다. 이후 상기 제1중문 처리부(408)는 단문들 각각에 대한 문장정보에 대응되는 시스템 응답 데이터들을 검출한다. 이후 상기 제1중문 처리부(408)는 상기 단문들 각각에 대한 시스템 응답 데이터들 사이의 상호정보량 산출값을 상기 상호정보량 데이터베이스(202)에서 독출하고, 그 상호정보량 산출값이 가장 높은 시스템 응답 데이터를 선택하여 출력한다.
상기 제2중문처리부(410)는 상기 사용자 발화 데이터를 연결어미를 기준으로 단문들로 분할하고, 그 분할된 단문들 각각에 대해 문장정보를 추출하고, 단문들 각각에 대해 단문들 각각의 문장정보에 대응되는 시스템 응답 데이터들을 검출하고, 이 시스템 응답 데이터들을 출력한다. 이와 같이 제2중문처리부(410)는 단문들 각각에 대한 시스템 응답 데이터를 모두 출력하는 OR 검색결과를 출력한다.
<채팅 데이터 서비스 방법>
상기한 채팅 데이터 서비스 장치의 동작을 도 4를 참조하여 설명한다.
상기 채팅 데이터 서비스 장치(400)는 사용자 발화 데이터가 입력되면(500단계), 사용자 발화 데이터의 문장정보를 추출함과 아울러 사용자 발화 데이터의 문장정보에 대응되는 시스템 응답 데이터를 색인 데이터베이스(200)에서 검출한다(502단계).
상기 채팅 데이터 서비스 장치(400)는 상기 시스템 응답 데이터가 검출되면 이를 출력한다(516단계).
이와달리 상기 시스템 응답 데이터가 검출되지 않으면, 상기 채팅 데이터 서비스 장치(400)는 입력된 사용자 발화 데이터가 중문인지를 체크한다(506단계). 상기 사용자 발화 데이터가 중문이면, 상기 채팅 데이터 서비스 장치(400)는 종속적 연결어미로 연결된 중문인지를 체크한다(508단계). 상기 사용자 발화 데이터가 종속적 연결어미로 연결된 중문이면, 상기 채팅 데이터 서비스 장치(400)는 사용자 발화 데이터를 단문들로 분할하고, 분할된 단문들에 대응되는 시스템 응답 데이터들을 검출하고, 그 단문들과 시스템 응답 데이터들 사이의 상호 정보량을 상호 정보량 데이터베이스(202)에서 독출하고, 그 독출한 상호 정보량 산출값이 가장 높은 시스템 응답 데이터를 선택하여 출력한다(510단계).
이와달리 상기 사용자 발화 데이터가 대등적 연결어미로 연결된 중문이면, 상기 채팅 데이터 서비스 장치(400)는 사용자 발화 데이터를 단문들로 분할하고, 분할된 단문들 각각에 대응되는 시스템 응답 데이터들을 검출하고, 그 시스템 응답 데이터들을 출력한다(512,514단계).
그러나 상기 사용자 발화 데이터에 대응되는 시스템 응답 데이터도 검출되지 않고, 그 사용자 발화 데이터가 중문도 아닌 경우에는 시스템 응답 없음을 출력한다(518단계).
상기한 본 발명의 바람직한 실시예에서는 학습 데이터에 포함된 사용자 발화 데이터가 중문인 경우에는 1차적으로 학습을 이행한 후에, 중문을 단문으로 분할하여 2차적으로 재학습하는 것만을 예시하였으나, 학습 데이터에 입력되었을 때에 중문을 가려내어 학습할 수도 있다.
이를 좀 더 설명하면, 채팅 데이터 학습장치는, 사용자 발화 데이터와 시스템 응답 데이터로 구성되는 학습 데이터를 입력받아, 상기 사용자 발화 데이터에 연결어미가 포함되었는지를 판별하고, 상기 사용자 발화 데이터에 연결어미가 포함되어 있지 않으면, 사용자 발화 데이터에서 형태소를 포함하는 문장정보를 추출하고, 그 문장정보와 학습 데이터에 포함된 시스템 응답 데이터를 매칭시킨 색인정보를 생성하여 색인 데이터베이스에 저장함과 아울러 사용자 발화 데이터의 형태소들과 시스템 응답 데이터의 형태소들 사이의 상호정보량을 산출하고, 그 상호정보량을 포함하는 상호정보량 정보를 상호정보량 데이터베이스에 저장하는 학습을 이행하고, 상기 사용자 발화 데이터에 연결어미가 포함되어 있고, 그 연결어미가 종속적 연결어미이면, 상기 종속적 연결어미를 기준으로 중문인 사용자 발화 데이터를 단문들로 분할하고, 각 분할된 단문들의 형태소들과 시스템 응답 데이터의 형태소들 사이의 상호정보량을 산출하고, 그 상호정보량 산출값이 큰 단문과 시스템 응답 데이터를 결합하여 학습 데이터를 재구성하고, 그 학습 데이터에 대한 색인정보를 생성하여 색인 데이터베이스에 저장함과 아울러 상호정보량 정보를 생성하여 상호정보량 데이터베이스에 저장하는 학습을 이행하고, 상기 사용자 발화 데이터에 연결어미가 포함되어 있고, 그 연결어미가 대등적 연결어미이면, 상기 대등적 연결어미를 기준으로 중문인 사용자 발화 데이터를 단문들로 분할하고, 각 분할된 단문들과 상기 시스템 응답 데이터를 결합하여 학습 데이터들을 재구성하고, 그 재구성된 학습 데이터들에 대한 색인정보들을 생성하여 색인 데이터베이스에 저장함과 아울러 상호정보량 정보들을 생성하여 상호정보량 데이터베이스에 저장하는 학습을 이행할 수 있다.
100 : 채팅 데이터 학습장치
200 : 색인 데이터베이스
202 : 상호 정보량 데이터베이스
400 : 채팅 데이터 서비스장치

Claims (16)

  1. 색인 데이터베이스와 상호정보량 데이터베이스와 채팅 데이터 학습장치로 구성되는 채팅 데이터 학습 시스템에서의 채팅 데이터 학습 장치에 의해 구현되는 채팅 데이터 학습방법에 있어서,
    (a) 사용자 발화 데이터와 시스템 응답 데이터로 구성되는 학습 데이터를 입력받는 단계;
    (b) 상기 학습 데이터를 이용하여 학습하여, 사용자 발화 데이터의 문장 정보들과 이에 대응되는 시스템 응답 데이터의 색인 정보를 생성하여 색인 데이터베이스에 저장하고, 사용자 발화 데이터의 형태소들과 상기 시스템 응답 데이터의 형태소들 사이의 상호정보량을 산출하여 상호정보량 데이터베이스에 저장하는 단계;
    (c) 상기 학습 데이터의 사용자 발화 데이터가 중문인지 여부를 판단하는 단계; 및
    (d) 상기 사용자 발화 데이터가 중문이면, 사용자 발화 데이터를 단문으로 분할하고, 분할된 단문들을 이용하여 학습 데이터를 재구성하고, 재구성된 학습 데이터를 이용하여 재학습하여 색인 데이터베이스 및 상호정보량 데이터베이스를 갱신하는 단계;를 구비하며,
    상기 (d) 단계는,
    (d1) 중문인 사용자 발화 데이터에 포함된 연결어미를 기준으로 하여 사용자 발화 데이터를 단문들로 분할하는 단계;
    (d2) 상기 연결어미가 종속적 연결어미이면, 상기 분할된 단문들의 형태소들과 시스템 응답 데이터의 형태소들 사이의 상호정보량들을 산출하고, 상기 산출된 상호정보량이 가장 큰 단문과 시스템 응답 데이터를 결합하여 학습 데이터를 재구성하는 단계;
    (d3) 상기 연결어미가 대등적 연결어미이면, 상기 분할된 각 단문들과 상기 시스템 응답 데이터를 결합하여 학습 데이터를 재구성하는 단계; 및
    (d4) 상기 재구성된 학습 데이터를 이용하여 학습하여 색인 데이터베이스 및 상호정보량 데이터베이스를 갱신하는 단계;를 구비함을 특징으로 하는 채팅 데이터 학습방법.
  2. 제1항에 있어서, 상기 (b) 단계는,
    (b1) 학습 데이터 중 사용자 발화 데이터에서 형태소를 포함하는 문장정보를 추출하고, 그 문장정보와 상기 시스템 응답 데이터를 매칭시킨 색인정보를 생성하여 색인 데이터베이스에 저장하는 단계; 및
    (b2) 상기 사용자 발화 데이터의 형태소들과 상기 시스템 응답 데이터의 형태소들 사이의 상호정보량을 산출하고, 그 상호정보량을 포함하는 상호정보량 정보를 상호정보량 데이터베이스에 저장하는 단계;
    를 포함하는 것을 특징으로 하는 채팅 데이터 학습 방법.
  3. 제1항에 있어서, 상기 (c) 단계는 사용자 발화 데이터에 연결 어미가 있는지 여부를 판별하고, 연결 어미가 있는 경우 중문이라고 판단하는 것을 특징으로 하는 채팅 데이터 학습 방법.
  4. 삭제
  5. 제1항에 있어서, 상기 (b) 단계에서의 상기 상호정보량은,
    전체 학습 데이터에 대해 사용자 발화 데이터에 속한 제1형태소들과 시스템 응답 데이터에 속한 제2형태소들이 동시에 출연할 확률을,
    현재 학습 데이터에 대해 사용자 발화 데이터에 속한 제1형태소들이 출연할 확률과, 현재 학습 데이터에 대해 시스템 응답 데이터에 속한 제2형태소들이 출연할 확률을 곱한 값으로 나누어 산출함을 특징으로 하는 채팅 데이터 학습방법.
  6. 제1항에 있어서,
    상기 문장정보는,
    모든 품사에 대한 형태소들, 체언 및 용언, 부사에 대한 형태소들, 명사류에 대한 형태소들, 문장특성정보, 연결어미정보가 포함되며,
    상기 색인정보는 제1 내지 제3색인정보로 구성되며,
    제1색인정보는 모든 품사에 대한 형태소들로 구성되고,
    제2색인정보는 체언 및 용언, 부사에 대한 형태소들과 문장특성정보로 구성되고,
    제3색인정보는 명사류에 대한 형태소들과 문장특성정보로 구성됨을 특징으로 하는 채팅 데이터 학습방법.
  7. 채팅 데이터 학습 시스템에 있어서,
    사용자 발화 데이터의 문장정보와 그에 대응되는 시스템 응답 데이터를 매칭시킨 색인정보를 저장하는 색인 데이터베이스;
    사용자 발화 데이터와 시스템 응답 데이터로 구성되는 학습 데이터들 전체에 대해 사용자 발화 데이터의 형태소들과 시스템 응답 데이터의 형태소들 사이의 상호정보량을 포함하는 상호정보량 정보를 저장하는 상호정보량 데이터베이스;
    사용자 발화 데이터와 시스템 응답 데이터로 구성되는 학습 데이터를 이용하여 학습하는 채팅 데이터 학습장치;를 구비하고,
    상기 채팅 데이터 학습 장치는,
    사용자 발화 데이터로부터 문장 정보를 추출하고 각 문장 정보와 이에 대응되는 시스템 응답 데이터에 대한 색인 정보를 생성하여 상기 색인 데이터베이스에 저장하는 문장 정보 추출부;
    사용자 발화 데이터 및 이에 대응되는 시스템 응답 데이터를 구성하는 형태소들 사이의 상호 정보량을 산출하여 상호정보량 데이터베이스에 저장하는 상호정보량 산출부;
    사용자 발화 데이터가 중문인지 여부를 판별하는 중문 판별부; 및
    상기 중문 판별부에 의해 중문으로 판별된 사용자 발화 데이터들에 대하여 단문으로 분할하고, 각 단문들을 이용하여 학습 데이터를 재구성하는 중문 처리부;를 구비하고,
    상기 채팅 데이터 학습 장치는
    상기 문장정보추출부 및 상기 상호정보량 산출부를 이용하여 학습 데이터에 대하여 학습하여 색인 정보 및 상호정보량을 각각 상기 색인 데이터베이스 및 상호정보량 데이터베이스에 저장하고,
    상기 중문 판별부를 이용하여 중문으로 구성된 사용자 발화 데이터를 판별하고, 상기 중문 처리부를 이용하여 학습 데이터를 재구성하고, 재구성된 학습 데이터에 대하여 다시 학습하여 상기 색인 데이터베이스 및 상호정보량 데이터베이스를 갱신하는 것이며,
    상기 중문 처리부는 제1 및 제2 중문 처리부로 구성되며,
    상기 중문 판별부는 사용자 발화 데이터에 종속적 연결어미가 포함된 경우 제1 중문 처리부를 구동하고, 사용자 발화 데이터에 대등적 연결어미가 포함된 경우제2 중문 처리부를 구동하며,
    상기 제1 중문 처리부는, 종속적 연결어미를 기준으로 하여 사용자 발화 데이터를 단문들로 분할하고, 각 단문들의 형태소들과 시스템 응답 데이터의 형태소들 사이의 상호정보량을 산출하고, 그 상호정보량이 가장 큰 단문과 이에 대응하는 시스템 응답 데이터를 결합하여 학습 데이터를 재구성하며,
    상기 제2 중문 처리부는, 대등적 연결어미를 기준으로 하여 사용자 발화 데이터를 단문들로 분할하고, 각 단문들과 상기 시스템 응답 데이터를 결합하여 학습 데이터들을 재구성함을 특징으로 하는 채팅 데이터 학습 시스템.
  8. 제7항에 있어서,
    상기 중문 판별부는 사용자 발화 데이터에 연결어미가 포함되었는지 여부를 판별하고, 연결어미가 포함된 경우 중문으로 판단하는 것을 특징으로 하는 채팅 데이터 학습 시스템.
  9. 삭제
  10. 제7항에 있어서, 상기 상호정보량 산출부는,
    전체 학습 데이터에 대해 사용자 발화 데이터에 속한 제1형태소들과 시스템 응답 데이터에 속한 제2형태소들이 동시에 출연할 확률을,
    현재 학습 데이터에 대해 사용자 발화 데이터에 속한 제1형태소들이 출연할 확률과, 현재 학습 데이터에 대해 시스템 응답 데이터에 속한 제2형태소들이 출연할 확률을 곱한 값으로 나누어 상호정보량을 산출함을 특징으로 하는 채팅 데이터 학습 시스템.
  11. 제7항에 있어서,
    상기 문장정보는,
    모든 품사에 대한 형태소들, 체언 및 용언, 부사에 대한 형태소들, 명사류에 대한 형태소들, 문장특성정보, 연결어미정보가 포함되며,
    상기 색인정보는 제1 내지 제3색인정보로 구성되며,
    제1색인정보는 모든 품사에 대한 형태소들로 구성되고,
    제2색인정보는 체언 및 용언, 부사에 대한 형태소들과 문장특성정보로 구성됨을 특징으로 하는 채팅 데이터 학습 시스템.
  12. 색인 데이터베이스와 상호 정보량 데이터베이스와 채팅 데이터 서비스 장치를 포함하는 채팅 데이터 서비스 시스템에서의 채팅 데이터 서비스 장치에 의해 구현되는 채팅 데이터 서비스 방법에 있어서,
    (a) 외부로부터 사용자 발화 데이터를 입력받는 단계;
    (b) 상기 입력된 사용자 발화 데이터의 문장정보를 추출하고, 그 문장정보에 대응되는 시스템 응답 데이터를 색인 데이터베이스에 저장된 색인정보에서 검출하여 출력하는 단계;
    (c) 상기 문장정보에 대응되는 시스템 응답 데이터가 검출되지 않으면, 그 사용자 발화 데이터가 중문인지 여부를 판별하는 단계; 및
    (d) 상기 사용자 발화 데이터가 중문이면, 사용자 발화 데이터를 단문들로 분할하고, 각 분할된 단문들의 문장정보를 추출하고, 그 문장정보에 대응되는 시스템 응답 데이터들을 상기 색인 데이터베이스에 저장된 색인정보에서 검출하고, 그 시스템 응답 데이터들과 단문들 사이의 상호정보량을 검출하고, 상기 상호정보량을 이용하여 시스템 응답 데이터를 선택하여 출력하는 단계;를 구비하며,
    상기 (d) 단계는
    (d1) 상기 사용자 발화 데이터가 종속적 연결 어미로 연결된 중문인지 대등적 연결어미로 연결된 중문인지 판별하는 단계;
    (d2) 상기 사용자 발화 데이터가 종속적 연결어미로 연결된 중문이면, 상기 종속적 연결어미를 기준으로 하여 사용자 발화 데이터를 단문들로 분할하고, 각 분할된 단문들의 문장정보를 추출하고, 그 문장정보에 대응되는 시스템 응답 데이터들을 상기 색인 데이터베이스에 저장된 색인정보에서 검출하고, 그 시스템 응답 데이터들과 단문들 사이의 상호정보량을 검출하고, 그 상호정보량이 가장 큰 시스템 응답 데이터를 선택하여 출력하는 단계; 및
    (d3) 상기 사용자 발화 데이터가 대등적 연결어미로 연결된 중문이면, 상기 대등적 연결어미를 기준으로 하여 사용자 발화 데이터를 단문들로 분할하고, 각 분할된 단문들의 문장정보를 추출하고, 그 문장정보들에 대응되는 시스템 응답 데이터들을 상기 색인 데이터베이스에 저장된 색인정보에서 검출하고, 상기 검출된 시스템 응답 데이터들을 출력하는 단계;를 구비함을 특징으로 하는 채팅 데이터 서비스 방법.
  13. 제12항에 있어서, 상기 (c) 단계는
    상기 사용자 발화 데이터에 연결어미가 있는지 여부를 판별하고, 연결어미가 있는 경우 중문으로 판단하는 것을 특징으로 하는 채팅 데이터 서비스 방법.
  14. 삭제
  15. 채팅 데이터 서비스 시스템에 있어서,
    사용자 발화 데이터의 문장정보와 그에 대응되는 시스템 응답 데이터를 매칭시킨 색인정보를 저장하는 색인 데이터베이스;
    사용자 발화 데이터와 시스템 응답 데이터로 구성되는 학습 데이터들 전체에 대해 사용자 발화 데이터의 형태소들과 시스템 응답 데이터의 형태소들 사이의 상호정보량을 산출한 상호정보량 정보를 저장하는 상호정보량 데이터베이스; 및
    외부로부터 사용자 발화 데이터가 입력되면, 색인 데이터베이스 및 상호정보량 데이터베이스를 이용하여, 상기 입력된 사용자 발화 데이터에 대응되는 시스템 응답 데이터를 추출하여 제공하는 채팅 데이터 서비스 장치;를 구비하고,
    상기 채팅 데이터 서비스 장치는,
    외부로부터 입력된 사용자 발화 데이터로부터 문장 정보를 추출하고, 추출된 문장정보에 대응되는 시스템 응답 데이터를 색인 데이터베이스에 저장된 색인정보에서 검출하여 출력하고,
    상기 문장정보에 대응되는 시스템 응답 데이터가 검출되지 않으면, 그 사용자 발화 데이터가 중문인지를 판별하고, 상기 사용자 발화 데이터가 중문이면, 상기 사용자 발화 데이터를 단문들로 분할하고, 각 분할된 단문들의 문장정보를 추출하고, 그 문장정보에 대응되는 시스템 응답 데이터들을 상기 색인 데이터베이스에 저장된 색인정보에서 검출하고, 상기 검출된 시스템 응답 데이터들 중 적어도 하나 이상을 출력하는 것이며,
    상기 채팅 데이터 서비스 장치가,
    상기 사용자 발화 데이터가 종속적 연결어미로 연결된 중문이면 상기 종속적 연결어미를 기준으로 하여 사용자 발화 데이터를 단문들로 분할하고, 각 분할된 단문들의 문장정보를 추출하고, 그 문장정보에 대응되는 시스템 응답 데이터들을 상기 색인 데이터베이스에 저장된 색인정보에서 검출하고, 그 시스템 응답 데이터들과 단문들 사이의 상호정보량을 상기 상호정보량 데이터베이스에서 검출하고, 상호정보량이 가장 큰 시스템 응답 데이터를 선택하여 출력하고,
    상기 사용자 발화 데이터가 대등적 연결어미로 연결된 중문이면, 상기 대등적 연결어미를 기준으로 하여 사용자 발화 데이터를 단문들로 분할하고, 각 분할된 단문들의 문장정보를 추출하고, 그 문장정보들에 대응되는 시스템 응답 데이터들을 상기 색인 데이터베이스에 저장된 색인정보에서 검출하고, 그 시스템 응답 데이터들을 출력함을 특징으로 하는 채팅 데이터 서비스 시스템.
  16. 삭제
KR1020130162902A 2013-12-24 2013-12-24 채팅 데이터 학습 및 서비스 방법 및 그에 따른 시스템 KR101590908B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020130162902A KR101590908B1 (ko) 2013-12-24 2013-12-24 채팅 데이터 학습 및 서비스 방법 및 그에 따른 시스템
PCT/KR2014/012741 WO2015099418A1 (ko) 2013-12-24 2014-12-23 채팅 데이터 학습 및 서비스 방법 및 그에 따른 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130162902A KR101590908B1 (ko) 2013-12-24 2013-12-24 채팅 데이터 학습 및 서비스 방법 및 그에 따른 시스템

Publications (2)

Publication Number Publication Date
KR20150075191A KR20150075191A (ko) 2015-07-03
KR101590908B1 true KR101590908B1 (ko) 2016-02-03

Family

ID=53479190

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130162902A KR101590908B1 (ko) 2013-12-24 2013-12-24 채팅 데이터 학습 및 서비스 방법 및 그에 따른 시스템

Country Status (2)

Country Link
KR (1) KR101590908B1 (ko)
WO (1) WO2015099418A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6218057B1 (ja) * 2017-07-14 2017-10-25 Jeインターナショナル株式会社 自動応答サーバー装置、端末装置、応答システム、応答方法、およびプログラム
KR102146031B1 (ko) * 2017-11-23 2020-08-28 주식회사 케이티 멀티 도메인 기반의 챗봇 시스템 및 챗봇 서비스 제공 방법
KR102199423B1 (ko) * 2018-04-27 2021-01-06 아토머스 주식회사 심리 상담 데이터를 기계 학습한 자동 대화 장치 및 그 방법
KR102119468B1 (ko) * 2018-08-20 2020-06-05 주식회사 부뜰정보시스템 상담원의 상담내용을 기반으로 상담 챗봇을 학습하는 시스템 및 방법
KR102381387B1 (ko) * 2019-12-03 2022-03-31 주식회사 리노스 챗봇 학습용 데이터 생성 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100818979B1 (ko) * 2006-09-14 2008-04-04 학교법인 포항공과대학교 채팅 에이전트를 위한 대화 관리 장치 및 그 방법

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3016779B1 (ja) * 1999-03-08 2000-03-06 株式会社エイ・ティ・アール音声翻訳通信研究所 音声理解装置及び音声理解システム
KR100399582B1 (ko) 1999-09-10 2003-09-26 한국전자통신연구원 한국어 구문 분석기 및 구문 분석 방법
WO2003100659A1 (fr) * 2002-05-28 2003-12-04 Vladimir Vladimirovich Nasypny Procede de synthese d'un systeme a auto-apprentissage d'extraction de connaissances a partir de documents textuels pour moteurs de recherche
KR100792208B1 (ko) 2005-12-05 2008-01-08 한국전자통신연구원 음성 대화 시스템에서 답변 문장 생성 방법 및 장치
KR100772660B1 (ko) * 2006-04-14 2007-11-01 학교법인 포항공과대학교 대화 관리 장치 및 그를 위한 대화 예제 기반의 대화모델링기법을 통한 대화 관리 방법
KR100807307B1 (ko) 2006-07-10 2008-02-28 한국전자통신연구원 대화형 음성 인터페이스 시스템 및 그 응답 방법
KR20090046280A (ko) * 2007-11-05 2009-05-11 포항공과대학교 산학협력단 기계 번역을 위한 문장 분할 방법
KR101168312B1 (ko) 2010-02-16 2012-07-25 모젼스랩(주) 가중치를 이용한 응답문 생성장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100818979B1 (ko) * 2006-09-14 2008-04-04 학교법인 포항공과대학교 채팅 에이전트를 위한 대화 관리 장치 및 그 방법

Also Published As

Publication number Publication date
WO2015099418A1 (ko) 2015-07-02
KR20150075191A (ko) 2015-07-03

Similar Documents

Publication Publication Date Title
CN110427617B (zh) 推送信息的生成方法及装置
US10977452B2 (en) Multi-lingual virtual personal assistant
CN108831439B (zh) 语音识别方法、装置、设备和系统
US10037758B2 (en) Device and method for understanding user intent
CN108288467B (zh) 一种语音识别方法、装置及语音识别引擎
JP5638948B2 (ja) インターネットコーパスを用いた、文脈依存言語の自動的な修正および改善
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
KR101590908B1 (ko) 채팅 데이터 학습 및 서비스 방법 및 그에 따른 시스템
WO2016067418A1 (ja) 対話制御装置および対話制御方法
Adel et al. Features for factored language models for code-Switching speech.
CN110556105B (zh) 语音交互系统、其处理方法及其程序
CN110675871B (zh) 一种语音识别方法及装置
US20220414332A1 (en) Method and system for automatically generating blank-space inference questions for foreign language sentence
JP2015219583A (ja) 話題決定装置、発話装置、方法、及びプログラム
CN111191450A (zh) 语料清洗方法、语料录入设备及计算机可读存储介质
CN112632242A (zh) 智能对话方法及装置、电子设备
KR101677859B1 (ko) 지식 베이스를 이용하는 시스템 응답 생성 방법 및 이를 수행하는 장치
Saija et al. Wordnet based sign language machine translation: from english voice to isl gloss
KR20190123093A (ko) 감정 온톨로지에 기반을 둔 이모티콘 추천 장치 및 방법
CN108021565B (zh) 一种基于对话的用户满意度的分析方法及装置
CN110503943B (zh) 一种语音交互方法以及语音交互系统
CN111428487B (zh) 模型训练方法、歌词生成方法、装置、电子设备及介质
US10248649B2 (en) Natural language processing apparatus and a natural language processing method
Deena et al. Exploring the use of acoustic embeddings in neural machine translation
KR101627402B1 (ko) 자연어를 점진적으로 분석하는 장치와 이를 이용한 적응적인 응답 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190107

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20200108

Year of fee payment: 5