KR101669339B1 - 채팅 말뭉치 구축 방법 및 채팅 말뭉치 구축 시스템 - Google Patents

채팅 말뭉치 구축 방법 및 채팅 말뭉치 구축 시스템 Download PDF

Info

Publication number
KR101669339B1
KR101669339B1 KR1020140167552A KR20140167552A KR101669339B1 KR 101669339 B1 KR101669339 B1 KR 101669339B1 KR 1020140167552 A KR1020140167552 A KR 1020140167552A KR 20140167552 A KR20140167552 A KR 20140167552A KR 101669339 B1 KR101669339 B1 KR 101669339B1
Authority
KR
South Korea
Prior art keywords
conversation
pair
metabolism
corpus
utterance
Prior art date
Application number
KR1020140167552A
Other languages
English (en)
Other versions
KR20160064335A (ko
Inventor
김학수
이성희
송영길
최맹식
이현구
Original Assignee
강원대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 강원대학교산학협력단 filed Critical 강원대학교산학협력단
Priority to KR1020140167552A priority Critical patent/KR101669339B1/ko
Publication of KR20160064335A publication Critical patent/KR20160064335A/ko
Application granted granted Critical
Publication of KR101669339B1 publication Critical patent/KR101669339B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/50Business processes related to the communications industry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

채팅 말뭉치 구축 방법 및 채팅 말뭉치 구축 시스템이 개시된다. 본 발명의 일실시예에 따른 채팅 말뭉치 구축 방법은, 대본 말뭉치로부터 대사를 추출하는 단계와, 상기 추출된 대사를 이용하여, 발화-응답 관계에 따라 대화쌍을 생성하는 단계와, 상기 대화쌍에 대해, 대화의 성립 여부에 따라 태깅하는 단계, 및 대화가 성립되어 상기 태깅된 대화쌍을, 채팅 말뭉치로 결정하여 말뭉치 데이터베이스에 저장하는 단계를 포함한다.

Description

채팅 말뭉치 구축 방법 및 채팅 말뭉치 구축 시스템{METHOD AND SYSTEM FOR CONSTRUCTING CORPUS FOR CHATTING SYSTEM}
본 발명은 자동 채팅 시스템을 위한 자원 구축에 관한 방법에 관한 것으로, 대본 말뭉치로부터 채팅 말뭉치를 자동으로 생성하는 채팅 말뭉치 구축 방법 및 채팅 말뭉치 구축 시스템에 관한 것이다.
최근 애플의 시리(Siri), 삼성의 S-보이스, LG의 Q-보이스 등과 같은 개인비서 서비스에 대한 관심이 높아짐에 따라 음성 기반의 대화 인터페이스에 관한 다양한 연구가 진행되고 있으며, 특히, 자동 채팅 시스템에 관한 연구는 사용자와 시스템 간의 상호작용에 중요한 역할을 한다.
이와 관련한 기존의 연구로서, 기존의 채팅 시스템에서의 어휘 불일치 문제를 해결하기 위한 문장 검색 방법에 대한 연구와, 인간이 사용하는 언어를 이용해 인간과 컴퓨터 간의 대화를 시뮬레이션하기 위해 핵심어와 화행을 입력으로 받아 자연스러운 채팅 문장을 생성하는 통계 모델 연구 등이 이루어지고 있다.
그러나 이러한 기존의 연구들은 대화 시스템의 성능 향상을 목표로 하고 있을 뿐, 채팅 시스템을 위한 자원 구축에 관한 연구는 아직 부족한 실정이다.
종래의 채팅 시스템 자원 구축에 관한 기술에서는 사람이 직접 대화쌍을 만들거나 메신저의 로그를 수정하여 사용하고 있어 인력과 시간이 많이 필요하고, 또한 사람이 직접 대화쌍을 만들기 때문에 대화 표현의 다양성이 적다는 단점을 가질 수 있다.
이에 따라, 다양한 대화 표현이 포함된 대본 말뭉치를 이용하여 자동 채팅 시스템을 위한 채팅 말뭉치를 자동으로 구축하기 위한 기술이 요구되고 있다.
본 발명의 실시예는 다양한 대본 말뭉치로부터 자동 채팅 시스템을 위한 채팅 말뭉치를 자동으로 생성 함으로써, 채팅 시스템 자원 구축을 위한 시간과 인력의 소비를 줄이고, 대화 표현의 다양성을 확보하며, 채팅 시스템 자원 부족 문제를 완화시키는 것을 목적으로 한다.
또한, 본 발명의 실시예는 대본 말뭉치로부터 채팅 말뭉치로 결정한 대화쌍의 형태소 분석 결과에 기초하여 대화성립 자질을 선정하고, 대화성립 자질을 대화 판별 모델에 추가 함으로써, 대본 말뭉치로부터 식별되는 임의의 대화쌍을, 상기 대화 판별 모델에 따라 자동 판단하여 채팅 말뭉치를 간편하게 구축하는 것을 목적으로 한다.
또한, 본 발명의 실시예는 채팅 말뭉치로 결정한 상기 임의의 대화쌍에 대해, 대화가 성립되지 않는 비율이 선정된 수준(예, '60%')을 초과하면, 상기 대화성립 자질을 상기 대화 판별 모델로부터 삭제 함으로써, 반복적인 평가 및 검증을 통해 대화 판별 모델의 성능을 향상시키는 것을 목적으로 한다.
본 발명의 일실시예에 따른 채팅 말뭉치 구축 방법은, 대본 말뭉치로부터 대사를 추출하는 단계와, 상기 추출된 대사를 이용하여, 발화-응답 관계에 따라 대화쌍을 생성하는 단계와, 상기 대화쌍에 대해, 대화의 성립 여부에 따라 태깅하는 단계, 및 대화가 성립되어 상기 태깅된 대화쌍을, 채팅 말뭉치로 결정하여 말뭉치 데이터베이스에 저장하는 단계를 포함한다.
본 발명의 다른 실시예에 따른 채팅 말뭉치 구축 방법은, 대본 말뭉치로부터 대화쌍을 식별하는 단계와, 상기 대화쌍 중에서, 대화가 성립되는 제1 대화쌍을 선별하는 단계와, 상기 제1 대화쌍에 대한 형태소 분석 결과에 기초하여, 대화성립 자질을 선정하는 단계와, 상기 제1 대화쌍과 연관시켜, 상기 대화성립 자질을 대화 판별 모델에 추가하는 단계, 및 상기 대화성립 자질의 추가에 따라, 상기 제1 대화쌍을 채팅 말뭉치로 결정하여 말뭉치 데이터베이스에 유지하는 단계를 포함한다.
또한, 본 발명의 일실시예에 따른 채팅 말뭉치 구축 시스템은, 대본 말뭉치로부터 대사를 추출하는 인터페이스와, 상기 추출된 대사를 이용하여, 발화-응답 관계에 따라 대화쌍을 생성하고, 상기 대화쌍에 대해, 대화의 성립 여부에 따라 태깅하는 컨트롤러, 및 대화가 성립되어 상기 태깅된 대화쌍을, 채팅 말뭉치로 결정하여 말뭉치 데이터베이스에 저장하는 프로세서를 포함한다.
본 발명의 일실시예에 따르면, 다양한 대본 말뭉치로부터 자동 채팅 시스템을 위한 채팅 말뭉치를 자동으로 생성 함으로써, 채팅 시스템 자원 구축을 위한 시간과 인력의 소비를 줄이고, 대화 표현의 다양성을 확보하며, 채팅 시스템 자원 부족 문제를 완화시킬 수 있다.
또한, 본 발명의 일실시예에 따르면, 대본 말뭉치로부터 채팅 말뭉치로 결정한 대화쌍의 형태소 분석 결과에 기초하여 대화성립 자질을 선정하고, 대화성립 자질을 대화 판별 모델에 추가 함으로써, 대본 말뭉치로부터 식별되는 임의의 대화쌍을, 상기 대화 판별 모델에 따라 자동 판단하여 채팅 말뭉치를 간편하게 구축할 수 있다.
또한, 본 발명의 일실시예에 따르면, 채팅 말뭉치로 결정한 상기 임의의 대화쌍에 대해, 대화가 성립되지 않는 비율이 선정된 수준(예, '60%')을 초과하면, 상기 대화성립 자질을 상기 대화 판별 모델로부터 삭제 함으로써, 반복적인 평가 및 검증을 통해 대화 판별 모델의 성능을 향상시킬 수 있다.
또한, 본 발명의 일실시예에 따르면, 채팅 시스템 개발에 필요한 다양한 자원 확보에 따른 시장 확대를 도모할 수 있다.
또한, 본 발명의 일실시예에 따르면, 스마트 기기에서 실행되는 음성 기반의 대화 인터페이스로서 개인비서 에이전트(예, 시리(Siri), Q-보이스, S-보이스 등)에 적용 가능하다.
도 1은 본 발명의 일실시예에 따른 채팅 말뭉치 구축 시스템에서, 대본 말뭉치를 이용하여 채팅 말뭉치를 구축하는 과정을 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 채팅 말뭉치 구축 시스템의 내부 구성을 도시한 블록도이다.
도 3은 대본 말뭉치로부터 대화쌍을 생성하는 일례를 도시한 도면이다.
도 4는 대화쌍에 대해, 대화의 성립 여부에 따라 태깅하는 일례를 도시한 도면이다.
도 5는 대화쌍에 포함되는 발화 대사 및 응답 대사 각각으로 형태소를 분석하는 일례를 도시한 도면이다.
도 6은 대화쌍에 대한 형태소 분석 결과에 기초하여, 대화성립 자질을 선정하는 일례를 도시한 도면이다.
도 7은 본 발명의 일실시예에 따른 채팅 말뭉치 구축 방법의 순서를 도시한 흐름도이다.
이하, 첨부된 도면들을 참조하여 본 발명의 일실시예에 따른 응용프로그램 업데이트 장치 및 방법에 대해 상세히 설명한다. 그러나, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 본 발명의 일실시예에 따른 채팅 말뭉치 구축 시스템에서, 대본 말뭉치를 이용하여 채팅 말뭉치를 구축하는 과정을 도시한 도면이다.
도 1을 참조하면, 본 발명의 일실시예에 따른 채팅 말뭉치 구축 시스템은, 대본 말뭉치(110)로부터 화자의 대사를 추출하고(120), 추출된 대사를 발화-응답의 쌍으로 정제하여(130), 발화-응답 말뭉치(이하, 대화쌍)(140)를 생성할 수 있다. 채팅 말뭉치 구축 시스템은, 대화의 성립 여부에 따라 대화쌍(140)에 태그를 부착하는 태깅을 실시하고(150), 대화가 성립되어 태깅된 대화쌍을, 채팅 말뭉치(160)로 결정할 수 있다.
여기서 대본 말뭉치(110)는 드라마, 영화, 연극 등의 대본에 포함된 다양한 대화 자료를 지칭할 수 있다. 채팅 말뭉치(160)는 사용자와의 자동 채팅 시스템(예컨대, 애플의 시리와 같은 개인비서 서비스)을 위한 대화 자료를 지칭할 수 있다.
이와 같이, 채팅 말뭉치 구축 시스템은 다양한 대본 말뭉치로부터 자동 채팅 시스템을 위한 채팅 말뭉치를 자동으로 생성 함으로써, 채팅 시스템 자원 구축을 위한 시간과 인력의 소비를 줄이고, 대화 표현의 다양성을 확보하며, 채팅 시스템 자원 부족 문제를 완화시킬 수 있다.
채팅 말뭉치 구축 시스템은 대본 정제 및 대화 판별 모델 구축을 통해 대본 말뭉치(110)로부터 채팅 말뭉치(160)를 구축할 수 있다. 여기서, 대본 정제는 주어진 대본을 발화-응답의 쌍 형태로 정제하고 대화 가능 여부에 따른 태그를 부착하는 것을 지칭할 수 있다. 대화 판별 모델 구축은 태그가 부착된 말뭉치(대화쌍)를 형태소 분석하고, 분석된 결과를 이용하여 대화성립 자질을 생성, 학습 데이터를 생성하고, 학습 데이터를 이용한 기계 학습을 실시하여 대화 판별 모델을 구축하는 것을 지칭할 수 있다.
예를 들어, 채팅 말뭉치 구축 시스템은 모델 구축을 위한 학습데이터 생성을 위해 대화쌍 일부를 사람이 직접 읽어 대화가 가능한 의미를 가졌는지, 또는 대화가 불가능한 의미를 가졌는지를 판단하고, 예컨대 'o' 또는 'x'와 같은 태그를 부착할 수 있다. 또한, 채팅 말뭉치 구축 시스템은 태그 'o'가 부착된 대화쌍의 형태소 분석 결과를 이용하여 대화성립 자질을 선정하고, 기계학습 방법을 이용하여 대화 판별 모델을 구축할 수 있다. 채팅 말뭉치 구축 시스템은 구축된 대화 판별 모델을 이용해, 다양한 종류의 대본 말뭉치(110)로부터 손쉽게 채팅 말뭉치(160)를 구축할 수 있다.
다시 말해, 채팅 말뭉치 구축 시스템은 대본을 일정한 형식에 맞게 정제하고, 정제된 대본을 이용하여 확률적으로 채팅이 가능한 문장인지를 판단할 수 있다. 채팅 말뭉치 구축 시스템은 채팅이 가능한 문장인지를 판단하기 위해 대본 전체에서 질문 문장과 대답 문장을 형태소 분석하여 각 문장의 특징을 대화성립 자질로서 추출하고, 대화성립 자질을 이용하여 기계학습을 통해 대화 판별 모델을 구축할 수 있다.
이에 따라, 채팅 말뭉치 구축 시스템은 대본 말뭉치로부터 식별되는 임의의 대화쌍을, 상기 대화 판별 모델에 따라 자동 판단하여 채팅 말뭉치를 간편하게 구축할 수 있다.
또한, 채팅 말뭉치 구축 시스템은 채팅 말뭉치로 결정한 임의의 대화쌍에 대해, 대화가 성립되지 않는 비율이 선정된 수준(예, '60%')을 초과하면, 상기 대화성립 자질을 상기 대화 판별 모델로부터 삭제 함으로써, 반복적인 평가 및 검증을 통해 대화 판별 모델의 성능을 향상시킬 수 있다.
본 발명의 다른 실시예에 따른 채팅 말뭉치 구축 시스템은, 대본 말뭉치로부터 대화쌍을 식별하고, 상기 대화쌍 중에서, 대화가 성립되는 제1 대화쌍을 선별하고, 제1 대화쌍에 대한 형태소 분석 결과에 기초하여, 대화성립 자질을 선정하고, 제1 대화쌍과 연관시켜, 상기 대화성립 자질을 대화 판별 모델에 추가하고, 상기 대화성립 자질의 추가에 따라, 제1 대화쌍을 채팅 말뭉치로 결정하여 말뭉치 데이터베이스에 유지할 수 있다.
도 2는 본 발명의 일실시예에 따른 채팅 말뭉치 구축 시스템의 내부 구성을 도시한 블록도이다.
도 2를 참조하면, 채팅 말뭉치 구축 시스템(200)은 인터페이스(210), 컨트롤러(220), 프로세서(230) 및 말뭉치 데이터베이스(240)를 포함하여 구성할 수 있다.
인터페이스(210)는 대본 말뭉치로부터 대사를 추출한다.
즉, 인터페이스(210)는 상기 대본 말뭉치에서 지문을 제외하고, 화자를 기준으로 발화 대사 및 응답 대사를 추출할 수 있다.
예를 들어, 도 3을 참조하면, 인터페이스(210)는 도 3의 (ⅰ)에 도시된 대본 말뭉치에서, 지문(301,302)을 제외한 화자 '서인숙'의 대사(303,306)와 화자 '도인'의 대사(305,307)를 도 3의 (ⅱ)와 같이 추출할 수 있다.
이때, 대화하는 각 화자의 대사가 이어짐에 따라, 인터페이스(210)는 화자 '서인숙'의 발화 대사(303)에 대해 화자 '도인'의 응답 대사(305)를 추출할 수 있고, 화자 '도인'의 발화 대사(305)에 대해 화자 '서인숙'의 응답 대사(306)를 추출할 수 있다.
여기서 대본 말뭉치는 드라마, 영화, 연극 등의 대본에 포함된 다양한 대화 자료를 지칭할 수 있다. 또한, 후술하는 채팅 말뭉치는 사용자와의 자동 채팅 시스템(예컨대, 애플의 시리와 같은 개인비서 서비스)을 위한 대화 자료를 지칭할 수 있다.
컨트롤러(220)는 상기 추출된 대사를 이용하여, 발화-응답 관계에 따라 대화쌍을 생성하고, 상기 대화쌍에 대해, 대화의 성립 여부에 따라 태깅한다.
일례로, 컨트롤러(220)는 상기 대화 중 발화에 속하는 발화 대사 내의 마지막 문장과, 상기 대화 중 응답에 속하는 응답 대사 내의 첫 문장을 포함하여, 상기 대화쌍을 생성할 수 있다. 즉, 컨트롤러(220)는 발화 대사와 응답 대사가 두 문장 이상으로 구성될 경우에는, 발화 대사의 마지막 문장과 응답 대사의 첫 문장을 추출하여 대화쌍을 생성할 수 있다.
예를 들어, 도 3을 참조하면, 컨트롤러(220)는 화자 '서인숙'의 발화 '욕심이라니요? 아들을 갖겠다는게 그게 어찌 욕심입니까?'(303)에서 마지막 문장 '아들을 갖겠다는게 그게 어찌 욕심입니까?'(304)를 발화 대사로 추출하여, 상기 발화 대사(304) 및 상기 발화 대사에 대한 화자 '도인'의 응답 대사(305)를 포함하여, 대화쌍 A를 생성할 수 있다.
또한, 컨트롤러(220)는 화자 '도인'의 발화 대사(305) 및 화자 '서인숙'의 응답 대사(306)를 포함하여 대화쌍 B를 생성하고, 화자 '서인숙'의 발화 대사(306) 및 화자 '도인'의 응답 대사(307)를 포함하여 대화쌍 C를 생성할 수 있다.
컨트롤러(220)는 상기 대화쌍 A,B,C 각각에 대해 대화의 성립 여부를 판단하고, 판단 결과에 따라 태깅할 수 있다.
여기서, 태깅은 대화의 성립 여부에 따른 태그를 부착하는 것을 지칭할 수 있다. 즉, 컨트롤러(220)는 대화쌍에 속하는 발화 대사 및 응답 대사 간에 대화 가능한 의미를 가지는 경우 대화쌍에 태그 'o'을 부착하여 태깅할 수 있다. 대화 가능한 의미를 가지지 못하는 경우 컨트롤러(220)는 대화쌍에 태그 'x'를 부착하여 태깅할 수 있다.
컨트롤러(220)는 상기 대화쌍을 구성하는 발화 대사와 응답 대사 간 대화 성립 여부를 사용자로부터 입력 받아, 대화쌍에 대해 태깅할 수 있다. 즉, 컨트롤러(220)는 모델 구축을 위한 학습데이터 생성을 위해 대화쌍을 사람이 직접 읽어 대화가 가능한 의미를 가졌는지, 또는 대화가 불가능한 의미를 가졌는지를 판단하여 대화쌍에 태그 'o' 또는 'x'를 부착할 수 있다.
예를 들어, 도 3의 (ⅲ)을 참조하면, 컨트롤러(220)는 사용자로부터 대화쌍 A에 대해 대화 성립으로 입력될 경우 대화쌍 A에 태그 'o'를 부착하고, 대화쌍 B,C에 대해 대화 불성립으로 입력될 경우 대화쌍 B,C에 태그 'x'를 부착할 수 있다.
실시예에 따라, 컨트롤러(220)는 고유명사를 공통적으로 갖는 발화 대사와 응답 대사를 포함하는 대화쌍에 대해 대화 성립으로 판단하여 태깅할 수 있다.
예를 들어, 도 6의 (ⅰ)을 참조하면, 컨트롤러(220)는 고유명사 '동경'을 공통적으로 갖는 발화 대사 '설마 이시간에 동경으로 간다는건 아니지?'와, 응답 대사 '동경 아니야'를 포함하는 대화쌍에 대해 대화 성립에 관한 태그 'o'를 부착할 수 있다.
또한, 컨트롤러(220)는 발화 대사가 의문문이고, 응답 대사가 감탄문 또는 평문일 경우 상기 발화 대사 및 상기 응답 대사를 포함하는 대화쌍을 대화 성립으로 판단하여 태깅할 수 있다. 즉, 컨트롤러(220)는 발화 대사가 물음표 기호 '?'를 포함하는 의문문이고, 응답 대사가 마침표 기호 '.'를 포함하는 평문일 경우 상기 발화 대사 및 상기 응답 대사를 포함하는 대화쌍에 대화 성립에 관한 태그를 부착할 수 있다.
예를 들어, 도 4 및 도 6의 (ⅰ)을 참조하면, 컨트롤러(220)는 발화 대사 '아들인가요?' 및 응답 대사 '따님입니다.'를 포함하는 대화쌍 '아들인가요?-따님입니다.'에 대해, 대화 성립에 관한 태그 'o'를 부착할 수 있다. 또한, 도 6의 (ⅱ)를 참조하면, 컨트롤러(220)는 대화쌍 '싫어어?-그래 싫다!'와, 대화쌍 '김탁구씨 맞습니까?-예, 제가 김탁군데요.'와, 대화쌍 '우리 기다렸어요?-기다리기는 누가!'에 대해, 대화 성립에 관한 태그 'o'를 부착할 수 있다.
또한, 컨트롤러(220)는 재질문, 일정 및 예약 중 적어도 하나와 연관되는 발화 대사 또는 응답 대사를 포함하는 대화쌍에 대해, 대화 불성립으로 판단할 수 있다.
예를 들어, 도 4를 참조하면, 컨트롤러(220)는 '오늘 경제인 모임이 몇시랬지?' 또는 '술자리가 길어질거야.'와 같은 일정과 연관되는 발화 대사 또는 응답 대사를 포함하는 각 대화쌍 '사모님께서 워낙 약한 체질이신지라..-오늘 경제인 모임이 몇시랬지?'와, '오늘 경제인 모임이 몇시랬지?-일곱십니다.'와, '그런데 병원에는..-술자리가 길어질거야.'에 대해, 대화 가능한 의미를 가지지 못하는 것으로 판단하여, 대화 불성립에 관한 태그 'x'를 부착할 수 있다.
프로세서(230)는 대화가 성립되어 상기 태깅된 대화쌍을, 채팅 말뭉치로 결정하여 말뭉치 데이터베이스(240)에 저장한다.
여기서, 말뭉치 데이터베이스(240)는 자동 채팅 시스템(예컨대, 애플의 시리와 같은 개인비서 서비스)을 위해 대본 말뭉치로부터 구축한 채팅 말뭉치(대화 자료)가 저장되는 공간일 수 있다. 말뭉치 데이터베이스(240)에 저장된 채팅 말뭉치는 사용자와의 자동 채팅 시스템에서 사용될 수 있다.
이와 같이, 본 발명의 일실시예에 따르면, 다양한 대본 말뭉치로부터 자동 채팅 시스템을 위한 채팅 말뭉치를 자동으로 생성 함으로써, 채팅 시스템 자원 구축을 위한 시간과 인력의 소비를 줄이고, 대화 표현의 다양성을 확보하며, 채팅 시스템 자원 부족 문제를 완화시킬 수 있다. 또한, 본 발명의 일실시예에 따르면, 채팅 시스템 개발에 필요한 다양한 자원 확보에 따른 시장 확대를 도모할 수 있다.
실시예에 따라, 프로세서(230)는 상기 채팅 말뭉치에 대한 분석 결과에 기초하여 대화성립 자질을 선정하고, 상기 채팅 말뭉치와 연관시켜, 상기 대화성립 자질을 대화 판별 모델에 추가할 수 있다.
여기서, 대화성립 자질은 대화가 성립되는 대화쌍이 갖는, 대화가 성립되지 않는 대화쌍과 구분되는 속성을 지칭할 수 있다.
예를 들어, 대화성립 자질은 대화가 성립되는 대화쌍에 속하는 발화 대사와 응답 대사에 공통으로 포함된 어휘에 대한 형태소(예컨대, 고유명사), 또는 공통으로 포함된 어휘의 개수일 수 있다.
또한, 대화 성립되는 대화쌍의 발화 대사가 의문문일 경우, 응답 대사에 포함된 형태소 중 감탄사(예컨대, '그래', '예', '아니', '응' 등)는 대화쌍의 대화성립 자질일 수 있다.
또한, 대화 성립되는 대화쌍의 발화 대사와 응답 대사 간 문장 관계(예컨대, 발화대사: 의문문, 응답 대사: 감탄문 또는 평문)는 대화쌍의 대화성립 자질일 수 있다.
일례로, 프로세서(230)는 대화쌍에 포함되는 발화 대사 및 응답 대사 각각으로 형태소를 분석하고, 상기 분석된 형태소 중에서, 상기 발화 대사 및 상기 응답 대사에 공통으로 포함된 어휘에 대한 형태소를 상기 대화성립 자질로 선정할 수 있다.
예를 들어, 프로세서(230)는 도 6의 (ⅱ)에 도시된 대화쌍 '김탁구씨 맞습니까?-예, 제가 김탁군데요.'를 참조하면, 발화 대사 '김탁구씨 맞습니까?'를, '김탁구'(NNP, 고유명사), '맞-'(VV, 동사), '습니까'(EF, 종결어미)와 같이 형태소 분석하고, 응답 대사 '예, 제가 김탁군데요.'를, '예'(IC, 감탄사), '김탁군데요.'(NA, 분석불능범주)와 같이 형태소 분석할 수 있다. 프로세서(230)는 형태소 분석 결과에 기초하여, 발화 대사 및 응답 대사에 공통으로 포함된 어휘 '김탁구'에 대한 형태소 '고유명사(NNP)'를 상기 대화쌍의 대화성립 자질로 선정할 수 있다.
또한, 프로세서(230)는 도 6의 (ⅰ)에 도시된 대화쌍 '설마 이시간에 동경으로 간다는건 아니지?-동경 아니야'에 대한 형태소 분석 결과에 기초하여, 발화 대사 및 응답 대사에 공통으로 포함된 어휘 '동경'에 대한 형태소 '고유명사(NNP)'를 상기 대화쌍의 대화성립 자질로 선정할 수 있다.
다른 일례로, 프로세서(230)는 상기 대화쌍에 포함되는 응답 대사로부터 분석한 형태소 중 감탄사(IC)가 포함되는 경우, 감탄사(IC)를 상기 대화성립 자질로 선정할 수 있다.
예를 들어, 프로세서(230)는 도 6의 (ⅱ)에 도시된 대화쌍 '김탁구씨 맞습니까?-예, 제가 김탁군데요.'에서, 응답 대사에 포함된 '예'에 대한 형태소 '감탄사(IC)'를 상기 대화쌍의 대화성립 자질로 선정할 수 있다.
다른 일례로, 프로세서(230)는 상기 대화쌍에 포함되는 발화 대사가 의문문이고, 상기 대화쌍에 포함되는 응답 대사가 감탄문 또는 평문일 경우, 상기 발화 대사와 상기 응답 대사 간 문장 관계를, 상기 대화성립 자질로 선정할 수 있다.
예를 들어, 프로세서(230)는 도 6에 도시된 대화쌍 '아들인가요?-따님입니다.', '싫어어?-그래 싫다!', '김탁구씨 맞습니까?-예, 제가 김탁군데요.', '우리 기다렸어요?-기다리기는 누가!'와 같이, 발화 대사가 물음표 기호 '?'를 포함하는 의문문이고, 응답 대사가 마침표 기호 '.' 또는 느낌표 기호 '!'를 포함하는 평문일 경우, 발화 대사와 응답 대사 간 문장 관계를, 상기 대화성립 자질로 선정할 수 있다.
또한, 프로세서(230)는 상기 대화쌍에 포함되는 발화 대사 및 응답 대사에 공통으로 포함된 어휘의 개수를, 상기 대화성립 자질로 선정할 수 있다. 예를 들어, 프로세서(230)는 대화 성립되는 발화 대사 '오늘 아침에 병문안 온 사람이 김탁구씨 맞습니까?'와 응답 대사 '네, 아침에 김탁구씨가 병문안 오셨습니다.'에 공통으로 포함된 어휘 '아침, 병문안, 김탁구'의 개수 '3'을 대화성립 자질로 선정할 수도 있다.
이때, 프로세서(230)는 상기 대화성립 자질을, 상기 대화쌍에 포함되는 발화 대사와 응답 대사를 구분해서 대화 판별 모델에 추가할 수 있다. 예를 들어, 프로세서(230)는 대화가 성립되는 대화쌍의 발화 대사로부터 분석한 형태소 '동사(VV), 종결어미(EF) 및 고유명사(NNP)'를 발화 대사의 대화성립 자질로 선정하여 대화 판별 모델에 추가하고, 상기 대화쌍의 응답 대사로부터 분석한 형태소 '감탄사(IC), 동사(VV), 종결어미(EF) 및 고유명사(NNP)'를, 응답 대사의 대화성립 자질로 선정하여 대화 판별 모델에 추가할 수 있다.
또한, 프로세서(230)는 대본 말뭉치으로부터 식별되는 임의의 대화쌍이, 상기 대화 판별 모델에 추가된 상기 대화성립 자질을 갖는 경우, 상기 임의의 대화쌍을, 상기 채팅 말뭉치로 결정하여 말뭉치 데이터베이스(240)에 저장할 수 있다. 즉, 프로세서(230)는 대본 말뭉치로부터 식별되는 임의의 대화쌍을, 사용자의 개입 없이 상기 대화 판별 모델에 따라 자동 판단하여 채팅 말뭉치를 간편하게 구축할 수 있다.
예를 들어, 프로세서(230)는 대본 말뭉치로부터 식별되는 임의의 대화쌍(예컨대, '어학연수는 동경으로 가니?-응, 동경 맞아')이, 대화 판별 모델에 추가된, 어휘 '동경'에 대한 대화성립 자질 '고유명사(NNP)'을 포함하고 있으므로, 상기 대화쌍을 자동으로 채팅 말뭉치로 결정하여 말뭉치 데이터베이스(240)에 저장할 수 있다.
또한, 실시예에 따라, 프로세서(230)는 상기 채팅 말뭉치로 결정한 임의의 대화쌍에 대해, 대화가 성립되지 않는 비율이 선정된 수준을 초과하면, 상기 대화성립 자질을, 상기 대화 판별 모델로부터 삭제 함으로써, 반복적인 평가 및 검증을 통해 대화 판별 모델의 성능을 향상시킬 수 있다.
예를 들어, 프로세서(230)는 대본 말뭉치로부터 식별되는 임의의 대화쌍(예컨대, '그 말씀은.. 제가 아들을 낳을수 없다는 뜻입니까?-운명을 알고자하는것도 욕심일세')이, 대화 판별 모델에 대화성립 자질로서 추가된 발화 대사와 응답 대사 간 문장 관계(발화대사: 의문문, 응답 대사: 평문)를 포함하고 있으나, 상기 대화쌍이 대화가 성립되지 않으면 채팅 말뭉치로 결정하지 않을 수 있다. 또한, 프로세서(230)는 상술한 평가 및 검증을 다수의 임의의 대화쌍에 대해 반복하여 실시 함으로써, 상기 대화성립 자질(발화대사: 의문문, 응답 대사: 평문)을 갖고 있으나 대화 성립되지 않는 비율을 구하고, 상기 비율이 선정된 수준(예컨대, '60%')을 초과할 경우, 상기 대화성립 자질을 대화 판별 모델로부터 삭제하여, 대화 판별 모델을 갱신할 수 있다.
도 3은 대본 말뭉치로부터 대화쌍을 생성하는 일례를 도시한 도면이다.
도 3을 참조하면, 채팅 말뭉치 구축 시스템은 도 3의 (ⅰ)에 도시된 대본 말뭉치에서 지문(301,302)을 제외한 화자 '서인숙'과 '도인'의 대사를 도 3의 (ⅱ)와 같이 추출하고, 추출된 대사를 이용하여 발화-응답 관계에 따라 도 3의 (ⅲ)과 같이 대화쌍을 생성할 수 있다.
즉, 채팅 말뭉치 구축 시스템은 화자 '서인숙'의 발화 '욕심이라니요? 아들을 갖겠다는게 그게 어찌 욕심입니까?'(303)에서 마지막 문장 '아들을 갖겠다는게 그게 어찌 욕심입니까?'(304)를 발화 대사로 추출하여, 상기 발화 대사(304) 및 상기 발화 대사에 대한 화자 '도인'의 응답 대사(305)를 포함하는 대화쌍 A를 생성할 수 있다. 또한, 채팅 말뭉치 구축 시스템은 화자 '도인'의 발화 대사(305) 및 화자 '서인숙'의 응답 대사(306)를 포함하여 대화쌍 B를 생성하고, 화자 '서인숙'의 발화 대사(306) 및 화자 '도인'의 응답 대사(307)를 포함하여 대화쌍 C를 생성할 수 있다.
또한, 채팅 말뭉치 구축 시스템은 대화쌍 A,B,C에 대해 사용자로부터 입력되는 대화의 성립 여부에 따라 태깅할 수 있다. 즉, 컨트롤러(220)는 사용자로부터 대화쌍 A에 대해 대화 성립으로 입력될 경우 대화쌍 A에 태그 'o'를 부착하고, 대화쌍 B,C에 대해 대화 불성립으로 입력될 경우 대화쌍 B,C에 태그 'x'를 부착할 수 있다.
채팅 말뭉치 구축 시스템은 대화 성립에 관한 태그 'o'가 부착된 대화쌍 A를 채팅 말뭉치로 결정하여 말뭉치 데이터베이스에 저장할 수 있다.
도 4는 대화쌍에 대해, 대화의 성립 여부에 따라 태깅하는 일례를 도시한 도면이다.
도 4를 참조하면, 채팅 말뭉치 구축 시스템은 대화쌍의 발화 대사 '아들인가요?'가 물음표 기호 '?'를 포함하는 의문문이고, 상기 발화 대사에 대한 응답 대사 '따님입니다.'가 마침표 기호 '.'를 포함하는 평문일 경우, 상기 대화쌍이 대화 가능한 의미를 가지는 것으로 판단하여 대화 성립에 관한 태그 'o'를 부착할 수 있다.
또한, 채팅 말뭉치 구축 시스템은 '오늘 경제인 모임이 몇시랬지?' 또는 '술자리가 길어질거야.'와 같은 일정과 연관되는 발화 대사 또는 응답 대사를 포함하는 각 대화쌍 '사모님께서 워낙 약한 체질이신지라..-오늘 경제인 모임이 몇시랬지?'와, '오늘 경제인 모임이 몇시랬지?-일곱십니다.'와, '그런데 병원에는..-술자리가 길어질거야.'에 대해, 대화 가능한 의미를 가지지 못하는 것으로 판단하여, 대화 불성립에 관한 태그 'x'를 부착할 수 있다.
도 5는 대화쌍에 포함되는 발화 대사 및 응답 대사 각각으로 형태소를 분석하는 일례를 도시한 도면이다.
도 5를 참조하면, 채팅 말뭉치 구축 시스템은 대화쌍 '아들인가요?-따님입니다.'에 포함되는 발화 대사 '아들인가요?'에 대해, '아들'(NNG, 일반명사), '이'(VCP, 긍정지정사), 'ㄴ가요'(EF, 종결어미), '?'(SF, 물음표)와 같이 형태소를 분석할 수 있다.
또한, 채팅 말뭉치 구축 시스템은 상기 대화쌍에 포함되는 응답 대사 '따님입니다.'에 대해, '따님'(NNG, 일반명사), '이'(VCP, 긍정지정사), 'ㅂ니다'(EF, 종결어미), '.'(SF, 마침표)와 같이 형태소를 분석할 수 있다.
도 6은 대화쌍에 대한 형태소 분석 결과에 기초하여, 대화성립 자질을 선정하는 일례를 도시한 도면이다.
도 6을 참조하면, 채팅 말뭉치 구축 시스템은 도 6의 (ⅰ)에 도시된 대화쌍 '설마 이시간에 동경으로 간다는건 아니지?-동경 아니야'에 대한 형태소 분석 결과에 기초하여, 발화 대사 및 응답 대사에 공통으로 포함된 어휘 '동경'에 대한 형태소 '고유명사(NNP)'를 상기 대화쌍의 대화성립 자질로 선정할 수 있다.
또한, 채팅 말뭉치 구축 시스템은 도 6의 (ⅰ)에 도시된 대화쌍 '아들인가요?-따님입니다.'에 대한 형태소 분석 결과에 기초하여, 발화 대사의 형태소 '물음표(SF)'와 응답 대사의 형태소 '마침표(SF)'를 상기 대화쌍의 대화성립 자질로 선정할 수 있다.
또한, 채팅 말뭉치 구축 시스템은 도 6의 (ⅱ)에 도시된 각 대화쌍 '아들인가요?-따님입니다.', '싫어어?-그래 싫다!', '김탁구씨 맞습니까?-예, 제가 김탁군데요.', '우리 기다렸어요?-기다리기는 누가!'에 대한 형태소 분석 결과에 기초하여, '물음표(SF)'와 응답 대사의 형태소 '마침표(SF) 또는 느낌표(SF)'를 각 대화쌍의 대화성립 자질로 선정할 수 있다.
즉, 채팅 말뭉치 구축 시스템은 발화 대사와 응답 대사 간 문장 관계 '발화대사: 의문문, 응답 대사: 평문 또는 감탄문'를 대화쌍의 대화성립 자질로 선정할 수 있다.
이하, 도 7에서는 본 발명의 실시예들에 따른 채팅 말뭉치 구축 시스템(200)의 작업 흐름을 상세히 설명한다.
도 7은 본 발명의 일실시예에 따른 채팅 말뭉치 구축 방법의 순서를 도시한 흐름도이다.
본 실시예에 따른 채팅 말뭉치 구축 방법은 상술한 채팅 말뭉치 구축 시스템(200)에 의해 수행될 수 있다.
도 7을 참조하면, 단계(710)에서 채팅 말뭉치 구축 시스템(200)은 대본 말뭉치로부터 대사를 추출한다. 여기서 대본 말뭉치는 드라마, 영화, 연극 등의 대본에 포함된 다양한 대화 자료를 지칭할 수 있다.
예를 들어, 채팅 말뭉치 구축 시스템(200)은 도 3의 (ⅰ)에 도시된 대본 말뭉치에서, 지문(301,302)을 제외한 화자 '서인숙'과 화자 '도인'의 대사를 도 3의 (ⅱ)와 같이 추출할 수 있다.
단계(720)에서 채팅 말뭉치 구축 시스템(200)은 상기 추출된 대사를 이용하여, 발화-응답 관계에 따라 대화쌍을 생성한다.
예를 들어, 도 3을 참조하면, 채팅 말뭉치 구축 시스템(200)은 화자 '서인숙'의 발화 '욕심이라니요? 아들을 갖겠다는게 그게 어찌 욕심입니까?'(303)에서 마지막 문장 '아들을 갖겠다는게 그게 어찌 욕심입니까?'(304)를 발화 대사로 추출하여, 상기 발화 대사(304) 및 상기 발화 대사에 대한 화자 '도인'의 응답 대사(305)를 포함하여, 대화쌍 A를 생성할 수 있다.
또한, 채팅 말뭉치 구축 시스템(200)은 화자 '도인'의 발화 대사(305) 및 화자 '서인숙'의 응답 대사(306)를 포함하여 대화쌍 B를 생성하고, 화자 '서인숙'의 발화 대사(306) 및 화자 '도인'의 응답 대사(307)를 포함하여 대화쌍 C를 생성할 수 있다.
단계(730)에서 채팅 말뭉치 구축 시스템(200)은 상기 대화쌍에 대해, 대화의 성립 여부에 따라 태깅한다. 여기서, 태깅은 대화의 성립 여부에 따른 태그를 부착하는 것을 지칭할 수 있다.
예를 들어, 도 3의 (ⅲ)을 참조하면, 채팅 말뭉치 구축 시스템(200)은 사용자로부터 대화쌍 A에 대해 대화 성립으로 입력될 경우 대화쌍 A에 태그 'o'를 부착하고, 대화쌍 B,C에 대해 대화 불성립으로 입력될 경우 대화쌍 B,C에 태그 'x'를 부착할 수 있다.
단계(740)에서 채팅 말뭉치 구축 시스템(200)은 대화가 성립되어 상기 태깅된 대화쌍을, 채팅 말뭉치로 결정하여 말뭉치 데이터베이스에 저장한다. 여기서, 채팅 말뭉치는 사용자와의 자동 채팅 시스템(예컨대, 애플의 시리와 같은 개인비서 서비스)을 위한 대화 자료를 지칭할 수 있다.
이와 같이, 본 발명의 일실시예에 따르면, 다양한 대본 말뭉치로부터 자동 채팅 시스템을 위한 채팅 말뭉치를 자동으로 생성 함으로써, 채팅 시스템 자원 구축을 위한 시간과 인력의 소비를 줄이고, 대화 표현의 다양성을 확보하며, 채팅 시스템 자원 부족 문제를 완화시킬 수 있다. 또한, 본 발명의 일실시예에 따르면, 채팅 시스템 개발에 필요한 다양한 자원 확보에 따른 시장 확대를 도모할 수 있다.
실시예에 따라, 채팅 말뭉치 구축 시스템(200)은 상기 채팅 말뭉치에 대한 분석 결과에 기초하여 대화성립 자질을 선정하고, 상기 채팅 말뭉치와 연관시켜, 상기 대화성립 자질을 대화 판별 모델에 추가할 수 있다.
또한, 채팅 말뭉치 구축 시스템(200)은 대본 말뭉치으로부터 식별되는 임의의 대화쌍이, 상기 대화 판별 모델에 추가된 상기 대화성립 자질을 갖는 경우, 상기 임의의 대화쌍을, 상기 채팅 말뭉치로 결정하여 말뭉치 데이터베이스에 저장할 수 있다. 즉, 채팅 말뭉치 구축 시스템(200)은 대본 말뭉치로부터 식별되는 임의의 대화쌍을, 사용자의 개입 없이 상기 대화 판별 모델에 따라 자동 판단하여 채팅 말뭉치를 간편하게 구축할 수 있다.
또한, 실시예에 따라, 채팅 말뭉치 구축 시스템(200)은 상기 채팅 말뭉치로 결정한 임의의 대화쌍에 대해, 대화가 성립되지 않는 비율이 선정된 수준(예컨대, '60%')을 초과하면, 상기 대화성립 자질을, 상기 대화 판별 모델로부터 삭제 함으로써, 반복적인 평가 및 검증을 통해 대화 판별 모델의 성능을 향상시킬 수 있다.
본 발명의 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
200: 채팅 말뭉치 구축 시스템
210: 인터페이스
220: 컨트롤러
230: 프로세서
240: 말뭉치 데이터베이스

Claims (17)

  1. 대화 판별 모델의 구축에 따라,
    대본 말뭉치로부터 대사를 추출하는 단계;
    상기 추출된 대사를 이용하여, 발화-응답 관계에 따라 대화쌍을 생성하는 단계;
    상기 대화쌍에 대해, 대화의 성립 여부에 따라 태깅하는 단계;
    대화가 성립되어 상기 태깅된 대화쌍을, 채팅 말뭉치로 결정하여 말뭉치 데이터베이스에 저장하는 단계;
    상기 채팅 말뭉치에 대한 분석 결과에 기초하여, 대화성립 자질을 선정하는 단계;
    상기 선정된 대화성립 자질을 상기 대화 판별 모델에 추가하는 단계;
    상기 대화쌍과 상이한 임의의 대화쌍이, 상기 대화 판별 모델에 추가된 상기 대화성립 자질을 갖는 경우, 상기 임의의 대화쌍을, 상기 채팅 말뭉치로 결정하여 상기 말뭉치 데이터베이스에 저장하는 단계; 및
    상기 임의의 대화쌍에 대해, 대화가 성립되지 않는 비율이 선정된 수준을 초과하면, 상기 대화성립 자질을, 상기 대화 판별 모델로부터 삭제하는 단계
    를 포함하고,
    상기 대화성립 자질을 선정하는 단계는,
    상기 대화쌍에 속하는 발화 대사가 의문문일 경우, 상기 대화쌍에 속하는 응답 대사에 포함된 형태소 중 감탄사를, 상기 대화쌍의 대화성립 자질로 선정하는 단계;
    상기 발화 대사가 의문문이고, 상기 응답 대사가 감탄문 또는 평문일 경우, 상기 발화 대사와 상기 응답 대사 간 문장 관계를, 상기 대화성립 자질로 선정하는 단계; 및
    상기 발화 대사가 의문문이 아닌 경우, 상기 발화 대사와 상기 응답 대사에 공통으로 포함된 어휘에 대한 형태소, 또는 공통으로 포함된 어휘의 개수를, 상기 대화성립 자질로 선정하는 단계
    를 포함하는 채팅 말뭉치 구축 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제1항에 있어서,
    상기 대화성립 자질을 선정하는 단계는,
    상기 대화쌍에 포함되는 발화 대사 및 응답 대사 각각으로 형태소를 분석하는 단계; 및
    상기 분석된 형태소 중에서, 상기 발화 대사 및 상기 응답 대사에 공통으로 포함된 어휘에 대한 형태소를 상기 대화성립 자질로 선정하는 단계
    를 더 포함하는 채팅 말뭉치 구축 방법.
  6. 제5항에 있어서,
    상기 대화성립 자질을 선정하는 단계는,
    상기 대화쌍에 포함되는 응답 대사로부터 분석한 형태소 중 감탄사(IC)가 포함되는 경우, 감탄사(IC)를 상기 대화성립 자질로 선정하는 단계
    를 더 포함하는 채팅 말뭉치 구축 방법.
  7. 삭제
  8. 제1항에 있어서,
    상기 대화성립 자질을 선정하는 단계는,
    상기 대화쌍에 포함되는 발화 대사 및 응답 대사에 공통으로 포함된 어휘의 개수를, 상기 대화성립 자질로 선정하는 단계
    를 더 포함하는 채팅 말뭉치 구축 방법.
  9. 제1항에 있어서,
    상기 대화성립 자질을 대화 판별 모델에 추가하는 단계는,
    상기 대화성립 자질을, 상기 대화쌍에 포함되는 발화 대사와 응답 대사를 구분해서 추가하는 단계
    를 포함하는 채팅 말뭉치 구축 방법.
  10. 제1항에 있어서,
    상기 대본 말뭉치로부터 대사를 추출하는 단계는,
    상기 대본 말뭉치에서 지문을 제외하고, 화자를 기준으로 발화 대사 및 응답 대사를 추출하는 단계
    를 포함하는 채팅 말뭉치 구축 방법.
  11. 제1항에 있어서,
    상기 대화쌍을 생성하는 단계는,
    상기 대화 중 발화에 속하는 발화 대사 내의 마지막 문장과, 상기 대화 중 응답에 속하는 응답 대사 내의 첫 문장을 포함하여, 상기 대화쌍을 생성하는 단계
    를 포함하는 채팅 말뭉치 구축 방법.
  12. 제1항에 있어서,
    상기 태깅하는 단계는,
    고유명사를 공통적으로 갖는 발화 대사와 응답 대사를 포함하는 대화쌍에 대해, 대화 성립으로 판단하여, 태깅하는 단계
    를 포함하는 채팅 말뭉치 구축 방법.
  13. 제1항에 있어서,
    상기 채팅 말뭉치 구축 방법은,
    재질문, 일정 및 예약 중 적어도 하나와 연관되는 발화 대사 또는 응답 대사를 포함하는 대화쌍에 대해, 대화 불성립으로 판단하는 단계
    를 더 포함하는 채팅 말뭉치 구축 방법.
  14. 제1항에 있어서,
    상기 채팅 말뭉치 구축 방법은,
    상기 대본 말뭉치로부터 대화쌍이 식별되는 경우,
    상기 대화쌍 중에서, 대화가 성립되는 제1 대화쌍을 선별하는 단계;
    상기 제1 대화쌍에 대한 형태소 분석 결과에 기초하여, 대화성립 자질을 선정하는 단계;
    상기 제1 대화쌍과 연관시켜, 상기 대화성립 자질을 상기 대화 판별 모델에 추가하는 단계; 및
    상기 대화성립 자질의 추가에 따라, 상기 제1 대화쌍을 채팅 말뭉치로 결정하여 상기 말뭉치 데이터베이스에 유지하는 단계
    를 더 포함하는 채팅 말뭉치 구축 방법.
  15. 대화 판별 모델의 구축에 따라,
    대본 말뭉치로부터 대사를 추출하는 인터페이스;
    상기 추출된 대사를 이용하여, 발화-응답 관계에 따라 대화쌍을 생성하고, 상기 대화쌍에 대해, 대화의 성립 여부에 따라 태깅하는 컨트롤러; 및
    대화가 성립되어 상기 태깅된 대화쌍을, 채팅 말뭉치로 결정하여 말뭉치 데이터베이스에 저장하고, 상기 채팅 말뭉치에 대한 분석 결과에 기초하여, 대화성립 자질을 선정하고, 상기 선정된 대화성립 자질을 상기 대화 판별 모델에 추가하고, 상기 대화쌍과 상이한 임의의 대화쌍이, 상기 대화 판별 모델에 추가된 상기 대화성립 자질을 갖는 경우, 상기 임의의 대화쌍을, 상기 채팅 말뭉치로 결정하여 상기 말뭉치 데이터베이스에 저장하고, 상기 임의의 대화쌍에 대해, 대화가 성립되지 않는 비율이 선정된 수준을 초과하면, 상기 대화성립 자질을, 상기 대화 판별 모델로부터 삭제하는 프로세서
    를 포함하고,
    상기 프로세서는,
    상기 대화쌍에 속하는 발화 대사가 의문문일 경우, 상기 대화쌍에 속하는 응답 대사에 포함된 형태소 중 감탄사를, 상기 대화쌍의 대화성립 자질로 선정하고,
    상기 발화 대사가 의문문이고, 상기 응답 대사가 감탄문 또는 평문일 경우, 상기 발화 대사와 상기 응답 대사 간 문장 관계를, 상기 대화성립 자질로 선정하며,
    상기 발화 대사가 의문문이 아닌 경우, 상기 발화 대사와 상기 응답 대사에 공통으로 포함된 어휘에 대한 형태소, 또는 공통으로 포함된 어휘의 개수를, 상기 대화성립 자질로 선정하는
    채팅 말뭉치 구축 시스템.
  16. 삭제
  17. 삭제
KR1020140167552A 2014-11-27 2014-11-27 채팅 말뭉치 구축 방법 및 채팅 말뭉치 구축 시스템 KR101669339B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140167552A KR101669339B1 (ko) 2014-11-27 2014-11-27 채팅 말뭉치 구축 방법 및 채팅 말뭉치 구축 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140167552A KR101669339B1 (ko) 2014-11-27 2014-11-27 채팅 말뭉치 구축 방법 및 채팅 말뭉치 구축 시스템

Publications (2)

Publication Number Publication Date
KR20160064335A KR20160064335A (ko) 2016-06-08
KR101669339B1 true KR101669339B1 (ko) 2016-10-25

Family

ID=56193358

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140167552A KR101669339B1 (ko) 2014-11-27 2014-11-27 채팅 말뭉치 구축 방법 및 채팅 말뭉치 구축 시스템

Country Status (1)

Country Link
KR (1) KR101669339B1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102109866B1 (ko) * 2018-10-05 2020-05-12 동아대학교 산학협력단 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치 및 방법
KR102426599B1 (ko) * 2018-11-29 2022-07-29 고려대학교 산학협력단 한국어 문법 변환 기반 가짜 뉴스 탐지 서버 및 그 방법
KR102131641B1 (ko) * 2018-11-30 2020-07-08 고려대학교 산학협력단 신경망 상의 문법 변형을 이용한 가짜뉴스 탐색 방법, 이를 수행하기 위한 기록매체 및 장치
KR102149917B1 (ko) * 2018-12-13 2020-08-31 줌인터넷 주식회사 스팸 문구가 포함된 스팸뉴스 탐지를 위한 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
KR102107502B1 (ko) * 2018-12-13 2020-05-07 줌인터넷 주식회사 거짓된 기사 제목이 포함된 스팸뉴스 탐지를 위한 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
KR102179025B1 (ko) * 2018-12-14 2020-11-16 (주)이스트소프트 문서의 컨텍스트 이상문장 검출장치, 이를 위한 방법 및 이 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
KR102211021B1 (ko) * 2019-01-22 2021-02-02 한국과학기술원 웹 콘텐츠의 일관성 결정 장치 및 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100818979B1 (ko) * 2006-09-14 2008-04-04 학교법인 포항공과대학교 채팅 에이전트를 위한 대화 관리 장치 및 그 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100818979B1 (ko) * 2006-09-14 2008-04-04 학교법인 포항공과대학교 채팅 에이전트를 위한 대화 관리 장치 및 그 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
채팅 시스템 구현을 위한 3단계 문장 검색 방법, 한국마린엔지니어링학회지 제37권 제2호, 2013.3, 205-212(8Pages)*

Also Published As

Publication number Publication date
KR20160064335A (ko) 2016-06-08

Similar Documents

Publication Publication Date Title
KR101669339B1 (ko) 채팅 말뭉치 구축 방법 및 채팅 말뭉치 구축 시스템
US11797772B2 (en) Word lattice augmentation for automatic speech recognition
Reitter et al. Predicting success in dialogue
US20190379791A1 (en) Classification of Transcripts by Sentiment
US7386440B2 (en) Method, system, and apparatus for natural language mixed-initiative dialogue processing
US20170140755A1 (en) Interaction assistant
US11315569B1 (en) Transcription and analysis of meeting recordings
CN109616096A (zh) 多语种语音解码图的构建方法、装置、服务器和介质
US20160365093A1 (en) System and method for automatic language model selection
JP6370962B1 (ja) 生成装置、生成方法および生成プログラム
JP2018073343A (ja) 感情推定方法
Van Dalen et al. Improving multiple-crowd-sourced transcriptions using a speech recogniser
JP2017125921A (ja) 発話選択装置、方法、及びプログラム
KR102358485B1 (ko) 도메인 자동 분류 대화 시스템
CN113505606B (zh) 一种培训信息获取方法、装置、电子设备及存储介质
KR102283134B1 (ko) 회의록 열람 문서 생성 방법 및 그 장치
CN111797599A (zh) 一种会议记录抽取与ppt插入方法与系统
JP2008204274A (ja) 会話解析装置および会話解析プログラム
US10248649B2 (en) Natural language processing apparatus and a natural language processing method
JP6380393B2 (ja) 文章分類装置、文章分類方法、及び文章分類プログラム
JP5158022B2 (ja) 対話処理装置、対話処理方法、及び対話処理プログラム
JP6709558B2 (ja) 会話処理装置
US12002460B2 (en) Information processing device, information processing system, and information processing method, and program
WO2020199590A1 (zh) 情绪检测分析方法及相关装置
JP3016779B1 (ja) 音声理解装置及び音声理解システム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20191001

Year of fee payment: 4

R401 Registration of restoration