KR102260558B1 - 챗봇용 학습 데이터 생성 시스템 및 그 방법 - Google Patents

챗봇용 학습 데이터 생성 시스템 및 그 방법 Download PDF

Info

Publication number
KR102260558B1
KR102260558B1 KR1020200150896A KR20200150896A KR102260558B1 KR 102260558 B1 KR102260558 B1 KR 102260558B1 KR 1020200150896 A KR1020200150896 A KR 1020200150896A KR 20200150896 A KR20200150896 A KR 20200150896A KR 102260558 B1 KR102260558 B1 KR 102260558B1
Authority
KR
South Korea
Prior art keywords
data
web page
unit
input
chatbot
Prior art date
Application number
KR1020200150896A
Other languages
English (en)
Inventor
김영호
민윤정
강혜령
Original Assignee
지의소프트 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 지의소프트 주식회사 filed Critical 지의소프트 주식회사
Priority to KR1020200150896A priority Critical patent/KR102260558B1/ko
Application granted granted Critical
Publication of KR102260558B1 publication Critical patent/KR102260558B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명은 챗봇용 학습 데이터 생성 시스템 및 그 방법 에 관한 것으로서, 더욱 상세하게는, 학습 데이터로의 변환을 원하는 웹 페이지 URL 정보를 입력받아, 해당하는 웹 페이지 내 데이터들을 출력하는 웹페이지 입력부(100), 사용자의 입력에 의해, 상기 웹페이지 입력부(100)를 통해서 출력되는 웹 페이지 데이터들 중 선택되는 영역의 데이터를 수집하는 데이터 수집부(200) 및 상기 데이터 수집부(200)에서 수집한 데이터를 분석하여, 텍스트 데이터 또는 이미지 데이터를 추출하여, 챗봇 답변용 학습 데이터로 생성 및 저장하는 데이터 생성부(300)를 포함하는 것을 특징으로 하는 챗봇용 학습 데이터 생성 시스템에 관한 것이다.

Description

챗봇용 학습 데이터 생성 시스템 및 그 방법 {Learning data generating system and method for chatbot}
본 발명은 챗봇용 학습 데이터 생성 시스템 및 그 방법에 관한 것으로, 더욱 상세하게는, 원하는 또는 설정된 웹 사이트를 입력받아 에뮬레이팅(emulating)시켜 웹 사이트 내 포함되어 있는 데이터들을 출력하고, 출력된 웹 사이트 데이터들 중 사용자의 입력을 통해 선택받은 데이터들에 대해서 챗봇 대화를 위한 학습 데이터로 변환시킬 수 있는 챗봇용 학습 데이터 생성 시스템 및 그 방법에 관한 것이다.
챗봇 서비스를 제공하기 위해서는, 챗봇 서비스를 통해서 제공할 수 있는 질문 리스트와 이에 매칭되는 답변 리스트를 생성하는 것이 우선되어야 하고, 이를 위한 다양한 데이터 수집 및 생성 기법이 개발되고 있다.
종래 기술로는, 관리자가 직접 질의와 이에 따른 답변을 작성하는 기법, 다량의 대화 데이터를 수집하여 머신러닝 알고리즘을 활용하여 적절한 데이터를 추출하는, 기존 활용되는 DB를 챗봇 서비스 제공용으로 변환하는 기법 등 다양하게 개발되고 있다. 그렇지만, 기술 측면에서는 사용자의 질문 의도를 파악하는 것도 중요하지만, 답변으로 제시할 정보들을 정리하고 추출하여 답변 리스트 데이터로 작성하는 것은 인공지능 기술로 불가능한 영역으로 담당자가 수동으로 지정하거나, 데이터베이스의 특정 부분을 답변으로 준비해야 하는 불편함이 있었다.
최근들어, 많은 기관 또는 기업에서 상담사의 업무를 챗봇 서비스로 대체하면서, 챗봇 서비스에 대한 수요가 많이 증가하고 있지만, 이를 대비하기 위한 질문 데이터와 답변 데이터가 DB 형태로 준비되어 있지 않거나, 데이터들의 품질이 좋지 않은 데이터가 포함되어 있어, 질문의 의도를 파악하거나, 정확한 답변을 추출하는데 한계가 존재하는 문제점이 있다.
뿐만 아니라, 업무 담당자 또는 고객센터 등에서 챗봇용 질문-답변 데이터를 신규로 만드는 것 또한 별도의 시간과 비용이 발생하고, 공공기관 등과 같이, 정보가 대체적으로 홈페이지 등을 통해서 투명하게 제공되는 경우, 이미 홈페이지를 통해서 대부분의 정보가 제공되고 있음에도 불구하고 챗봇용 데이터를 별도로 추가 생성하는데 거부감이 존재할 수 밖에 없다.
이와 관련해서, 국내등록특허 제10-2033175호("머신 러닝 기반의 챗봇용 데이터 추가 장치")에서는 입력되는 사용자 질문에 대한 챗봇의 인식률을 높이기 위하여 질문 데이터의 양을 자체적으로 생성하여 증가시키는 기술을 개시하고 있다.
국내등록특허 제10-2033175호(등록일 2019.10.10.)
본 발명은 상기한 바와 같은 종래 기술의 문제점을 해결하기 위하여 안출된 것으로, 웹 사이트 URL 정보를 입력받아, 해당하는 웹 사이트 내 포함되어 있는 데이터들을 별도의 출력수단으로 에뮬레이팅(emulating)시켜 웹 사이트 내 포함되어 있는 데이터들을 출력하고, 출력된 웹 사이트 데이터들 중 사용자의 입력을 통해 선택받은 데이터들에 대해서 챗봇 대화를 위한 학습 데이터로 변환시킬 수 있는 챗봇용 학습 데이터 생성 시스템 및 그 방법을 제공하는 것이다.
본 발명의 일 실시예에 따른 챗봇용 학습 데이터 생성 시스템은, 학습 데이터로의 변환을 원하는 웹 페이지 URL 정보를 입력받아, 해당하는 웹 페이지 내 데이터들을 출력하는 웹페이지 입력부(100), 사용자의 입력에 의해, 상기 웹페이지 입력부(100)를 통해서 출력되는 웹 페이지 데이터들 중 선택되는 영역의 데이터를 수집하는 데이터 수집부(200) 및 상기 데이터 수집부(200)에서 수집한 데이터를 분석하여, 텍스트 데이터 또는 이미지 데이터를 추출하여, 챗봇 답변용 학습 데이터로 생성 및 저장하는 데이터 생성부(300)를 포함하는 것이 바람직하다.
더 나아가, 상기 데이터 수집부(200)는 포함되어 있는 외부 입력수단을 통한 사용자의 드래그 입력에 의해, 출력되는 웹 페이지 데이터들 중 해당하는 영역이 선택되어 데이터를 수집하는 것이 바람직하다.
더 나아가, 상기 웹페이지 입력부(100)는 해당하는 웹 페이지 데이터를 파싱(parsing)하여, 상기 데이터 수집부(200)에서 웹 페이지 데이터에 대한 드래그 입력이 가능하도록 하는 것이 바람직하다.
더 나아가, 상기 데이터 생성부(300)는 상기 데이터 수집부(200)에 의한 사용자의 입력에 의해, 수집한 데이터를 분석하여 텍스트 데이터를 추출하여, 챗봇 질문용 학습 데이터로 생성 및 저장하는 것이 바람직하다.
더 나아가, 상기 데이터 수집부(200)는 포함되어 있는 외부 입력수단을 이용하여, 사용자로부터 질문 데이터 또는 답변 데이터를 입력받은 후, 데이터를 수집하는 것이 바람직하다.
더 나아가, 상기 데이터 생성부(300)는 상기 데이터 수집부(200)에 의해 전달되는 수집 데이터를 순차적으로 분석하되, 분석 순서에 따라 질문 데이터 또는 답변 데이터로 구분하여 데이터를 추출하는 것이 바람직하다.
더 나아가, 상기 챗봇용 학습 데이터 생성 시스템은 상기 웹페이지 입력부(100)를 통해서 출력되는 웹 페이지 데이터들 중 사용자가 선택 가능한 영역을 표시하는 데이터 수집 보조부(400)를 더 포함하는 것이 바람직하다.
더 나아가, 상기 데이터 수집 보조부(400)는 상기 웹페이지 입력부(100)를 통해서 출력되는 웹 페이지 데이터의 전체 영역의 텍스트 데이터를 추출하는 제1 분석부(410), 상기 제1 분석부(410)에서 추출한 텍스트 데이터를 기저장되어 있는 텍스트 분석 알고리즘에 적용하여, 적어도 하나의 핵심 키워드 데이터 또는 적어도 하나의 핵심 문장 데이터를 분석하는 제2 분석부(420) 및 상기 제1 분석부(410)에서 추출한 텍스트 데이터들 중 상기 제2 분석부(420)에서 분석한 데이터들에 해당하는 텍스트 데이터들을 매칭시켜, 상기 웹페이지 입력부(100)를 통해서 출력되는 웹 페이지 데이터들 중 사용자가 선택 가능한 영역으로 설정하는 제3 분석부(430)를 더 포함하여 구성되는 것이 바람직하다.
더 나아가, 상기 데이터 생성부(300)는 추출한 텍스트 데이터를 재분석하여 기설정된 금지 키워드를 제거한 후, 학습 데이터로 생성하는 것이 바람직하다.
본 발명의 일 실시예에 따른 챗봇용 학습 데이터 생성 방법은, 웹페이지 입력부에서, 학습 데이터로의 변환을 원하는 웹 페이지 URL 정보를 입력받는 URL 입력단계(S100), 웹페이지 입력부에서, 상기 URL 입력단계(S100)에 의해 입력받은 상기 웹 페이지 URL 정보를 이용하여, 해당하는 웹 페이지 데이터를 입력받아 출력하는 웹페이지 출력단계(S200), 데이터 수집부에서, 상기 웹페이지 출력단계(S200)에 의해 출력되는 웹 페이지 데이터들 중 사용자의 입력에 의해 선택되는 영역의 데이터를 수집하는 데이터 수집단계(S300), 데이터 생성부에서, 상기 데이터 수집단계(S300)에 의해 수집한 데이터를 분석하여, 텍스트 데이터 또는 이미지 데이터를 추출하는 데이터 추출단계(S400) 및 데이터 생성부에서, 상기 데이터 추출단계(S400)에 의해 추출한 상기 데이터를 챗봇 답변용 학습 데이터로 생성 및 저장하는 데이터 생성단계(S500)를 포함하여 구성되며, 상기 데이터 수집단계(S300)에서, 데이터 수집부에 포함되어 있는 외부 입력수단을 통한 사용자의 드래그 입력에 의해, 출력되는 웹 페이지 데이터들 중 소정 영역이 선택되고, 선택된 영역의 데이터를 수집하는 것이 바람직하다.
더 나아가, 상기 데이터 출력단계(S200)는 해당하는 웹 페이지 데이터를 파싱(parsing)하여, 상기 데이터 수집단계(S300)를 통해 웹 페이지 데이터에 대한 드래그 입력이 가능하도록 하는 것이 바람직하다.
더 나아가, 상기 데이터 추출단계(S400)는 상기 데이터 수집단계(S300)에서의 사용자의 입력에 의해, 상기 데이터 수집단계(S300)에서 수집한 데이터를 분석하여 텍스트 데이터를 추출하며, 상기 데이터 생성단계(S500)는 상기 데이터 추출단계(S400)에서 추출한 상기 텍스트 데이터를 챗봇 질문용 학습 데이터로 생성 및 저장하는 것이 바람직하다.
더 나아가, 상기 데이터 수집단계(S300)는 외부 입력수단을 이용하여, 사용자로부터 질문 데이터 또는 답변 데이터를 입력받은 후, 상기 웹페이지 출력단계(S200)에 의해 출력되는 웹 페이지 데이터들 중 사용자의 입력에 의해 선택되는 영역의 데이터를 수집하는 것이 바람직하다.
더 나아가, 상기 데이터 추출단계(S400)는 상기 데이터 수집단계(S300)에서의 사용자의 입력에 의해, 상기 데이터 수집단계(S300)에서 수집한 데이터를 순차적으로 분석하되, 분석 순서에 따라 질문 데이터 또는 답변 데이터로 구분하여 데이터를 추출하는 것이 바람직하다.
더 나아가, 상기 챗봇용 학습 데이터 생성 방법은, 상기 URL 입력단계(S100)를 수행하고 난 후, 데이터 수집 보조부에서, 상기 URL 입력단계(S100)에 의해 입력받은 상기 웹 페이지 URL 정보를 이용하여, 해당하는 웹 페이지 데이터를 입력받아 웹 페이지 데이터의 전체 영역의 텍스트 데이터를 추출하는 제1 세부 분석단계(S110), 데이터 수집 보조부에서, 상기 제1 세부 분석단계(S110)에 의해 추출한 텍스트 데이터들을 기저장되어 있는 텍스트 분석 알고리즘에 적용하여, 적어도 하나의 핵심 키워드 데이터 또는 적어도 하나의 핵심 문장 데이터를 분석하는 제2 세부 분석단계(S120) 및 데이터 수집 보조부에서, 상기 제1 세부 분석단계(S110)에서 추출한 전체 영역의 텍스트 데이터들 중 상기 제2 세부 분석단계(S120)에서 분석한 데이터들에 해당하는 텍스트 데이터들을 매칭시켜, 매칭된 텍스트 데이터들로 상기 웹페이지 출력단계(S200)에 의해 출력되는 상기 웹 페이지 데이터들 중 사용자가 선택 가능한 영역을 설정하는 제3 세부 분석단계(S130)를 더 포함하여 구성되는 것이 바람직하다.
상기와 같은 구성에 의한 본 발명의 챗봇용 학습 데이터 생성 시스템 및 그 방법은 기존의 복잡한 과정을 단순시켜 웹 페이지 내 포함되어 있는 내용을 기반으로 용이하게 챗봇용 학습 데이터(질문 학습 데이터, 답변 학습 데이터)를 생성할 수 있는 장점이 있다.
상세하게는, 원하는 또는 설정된 웹 사이트를 입력받아 에뮬레이팅(emulating)시켜 웹 사이트 내 포함되어 있는 데이터들을 출력하고, 출력된 웹 사이트 데이터들 중 드래그 입력 등의 사용자의 입력을 통해 선택받은 영역의 데이터들에 대해서 챗봇 대화를 위한 학습 데이터로 변환할 수 있는 장점이 있다.
이를 통해서, 챗봇 서비스를 도입하고자 하는 업체 등의 제공하는 웹 페이지 URL 정보를 토대로, 해당하는 웹 페이지 내 포함되어 있는 데이터들을 모방 출력하여, 사용자의 입력에 의해 원하는 영역의 데이터들을 수집하여 챗봇용 학습 데이터로 생성하여, 챗봇용 질문-답변 데이터 셋으로 용이하게 적용할 수 있는 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 챗봇용 학습 데이터 생성 시스템을 나타낸 구성 예시도이다.
도 2는 본 발명의 일 실시예에 따른 챗봇용 학습 데이터 생성 시스템을 통해 생성된 챗봇용 학습 데이터를 DB 형태로 나타낸 예시도이다.
도 3은 본 발명의 일 실시예에 따른 챗봇용 학습 데이터 생성 시스템을 통해 생성된 챗봇용 학습 데이터에 의한 챗봇의 동작 실시예이다.
도 4는 본 발명의 일 실시예에 따른 챗봇용 학습 데이터 생성 방법을 나타낸 순서 예시도이다.
이하 첨부한 도면들을 참조하여 본 발명의 챗봇용 학습 데이터 생성 시스템 및 그 방법을 상세히 설명한다. 다음에 소개되는 도면들은 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 예로서 제공되는 것이다. 따라서, 본 발명은 이하 제시되는 도면들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 또한, 명세서 전반에 걸쳐서 동일한 참조번호들은 동일한 구성요소들을 나타낸다.
이 때, 사용되는 기술 용어 및 과학 용어에 있어서 다른 정의가 없다면, 이 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 통상적으로 이해하고 있는 의미를 가지며, 하기의 설명 및 첨부 도면에서 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 설명은 생략한다.
더불어, 시스템은 필요한 기능을 수행하기 위하여 조직화되고 규칙적으로 상호 작용하는 장치, 기구 및 수단 등을 포함하는 구성 요소들의 집합을 의미한다.
본 발명의 일 실시예에 따른 챗봇용 학습 데이터 생성 시스템 및 그 방법은, 기존의 복잡한 과정을 단순시켜 웹 페이지 내 포함되어 있는 내용을 기반으로 용이하게 챗봇용 학습 데이터(질문 학습 데이터, 답변 학습 데이터)를 생성할 수 있는 시스템 및 방법에 관한 것이다.
도 1은 본 발명의 일 실시예에 따른 챗봇용 학습 데이터 생성 시스템을 나타낸 구성 예시도이다. 도 1을 참조로 하여 본 발명의 일 실시예에 따른 챗봇용 학습 데이터 생성 시스템을 상세히 설명한다.
본 발명의 일 실시예에 따른 챗봇용 학습 데이터 생성 시스템은 도 1에 도시된 바와 같이, 웹페이지 입력부(100), 데이터 수집부(200) 및 데이터 생성부(300)를 포함하여 구성되는 것이 바람직하며, 각 구성은 하나의 연산처리수단 또는 각각의 연산처리수단에 구비되어 동작을 수행하는 것이 바람직하며, 이에 대해 한정하는 것은 아니다.
각 구성에 대해서 상세히 알아보자면,
상기 웹페이지 입력부(100)는 챗봇용 학습 데이터로의 변환을 원하는 웹 페이지 URL 정보를 입력받아, 해당하는 웹 페이지 내 데이터들을 출력하는 것이 바람직하다.
상세하게는, 상기 웹페이지 입력부(100)는 챗봇용 학습 데이터로의 변환을 원하는 웹 페이지 URL 정보를 입력받은, 해당 웹 페이지에 접속하여 웹 페이지 내 데이터들을 수집하는 것이 아니라, 챗봇용 학습 데이터로의 변환을 원하는 웹 페이지 URL 정보를 입력받은 후, 해당하는 웹 페이지 내 데이터들을 수집하기 용이하도록 에뮬레이팅(emulating)하여 포함되어 있는 별도의 출력수단을 통해서 웹 페이지 내 데이터들을 그대로 모방 출력하는 것이 바람직하다.
이는, 웹 페이지 생성시, 생성 관리자의 설정에 따라, 웹 페이지의 접속자의 드래그 등의 입력을 통해서 웹 페이지 내 데이터가 선택될 수도, 선택되지 않을 수도 있기 때문에, 추후에 상기 데이터 수집부(200) 및 데이터 생성부(300)에 의한 용이한 데이터 수집을 위해 상기 웹페이지 입력부(100)는 해당하는 웹 페이지 내 데이터들을 그대로 모방 출력하는 것이 바람직하다.
이를 위해, 상기 웹페이지 입력부(100)는 해당하는 웹 페이지 데이터를 파싱(parsing)하여, 에뮬레이션을 거쳐서 웹 페이지 데이터 내 HTML 코드 내에 포함되어 있는 텍스트 데이터와 이미지 데이터만을 추출하여 이를 다시 웹 페이지 형태로 모방 출력하는 것이 바람직하다.
물론, 이러한 웹 페이지 데이터의 파싱을 통한 모방 출력은, 상술한 바와 같이, 해당 웹 페이지를 기반으로 챗봇용 학습 데이터로의 변환을 원하는 웹 페이지 생성 관리자의 승인 하에 이루어지는 것이 바람직하다.
상기 데이터 수집부(200)는 상기 웹페이지 입력부(100)를 통해서 출력되는 상기 웹 페이지 데이터들 중 사용자(학습 데이터 생성자 등)의 입력에 의해, 선택되는 영역의 데이터를 수집하는 것이 바람직하다.
상세하게는, 상기 데이터 수집부(200)는 포함되어 있는 외부 입력수단을 통해서 사용자의 드래그 입력에 의해, 상기 웹페이지 입력부(100)를 통해서 출력되는 웹 페이지 데이터들 중 입력되는 영역의 데이터들을 수집하는 것이 바람직하다.
이 때, 상기 데이터 수집부(200)는 상기 웹페이지 입력부(100)를 통해서 출력되는 상기 웹 페이지 데이터들의 출력 양식(형태 등)에 따라, 포함되어 있는 외부 입력수단을 통해서 사용자의 드래그 입력, 클릭 입력 등의 출력되는 웹 페이지 데이터들 중 소정 영역을 선택할 수 있는 동작으로 선택되는 데이터들을 수집하는 것이 바람직하며, 반드시 드래그 입력으로 한정하는 것은 아니다.
일 예를 들자면, 출력되는 웹 페이지 데이터들 중 일부 문단 전체 또는 문장 만을 드래그 입력하여 수집하고자 하는 데이터를 선택할 수 있으며, 이 외에도 문단마다 또는 문장마다 선택할 수 있도록 상기 웹페이지 입력부(100)를 통해서 출력될 경우, 드래그 입력이 아닌 클릭 입력 등을 통해서 선택할 수도 있다.
이와 같이, 상기 웹페이지 입력부(100)를 통해서 출력되는 상기 웹 페이지 데이터의 출력 형태 또는 상기 데이터 수집부(200)를 통한 영역 선택 등의 동작은 GUI 설정을 통해서 용이하게 선택 변경되는 것이 바람직하다.
상기 데이터 생성부(300)는 상기 데이터 수집부(200)에서 수집한 데이터들을 분석하여, 수집한 데이터에 포함되어 있는 텍스트 데이터 또는 이미지 데이터를 추출하여, 챗봇 답변용 학습 데이터로 생성하고 이를 저장 및 관리하는 것이 바람직하다.
물론, 본 발명의 일 실시예에 따른 챗봇용 학습 데이터 생성 시스템은, 챗봇 답변용 학습 데이터 뿐 아니라, 챗봇 질문용 학습 데이터도 생성할 수 있다.
이를 위해, 상기 데이터 생성부(300)는 상기 데이터 수집부(200)에 의한 사용자의 입력에 의해, 수집한 데이터들을 분석하여, 수집한 데이터에 포함되어 있는 텍스트 데이터를 추출하여, 챗봇 질문용 학습 데이터로 생성하고, 이를 저장 및 관리하는 것이 바람직하다.
이 때, 상기 데이터 생성부(300)에서 챗봇 답변용 학습 데이터와 챗봇 질문용 학습 데이터를 구분하여 생성하기 위하여, 상기 데이터 수집부(200)를 통해서 포함되어 있는 외부 입력수단을 이용하여 사용자로부터 질문 데이터 또는 답변 데이터의 입력 여부에 대한 지시 입력을 받은 후, 해당하는 질문 데이터 또는 답변 데이터로 학습 데이터를 생성하는 것이 바람직하다.
일 예를 들자면, 상기 데이터 수집부(200)에서, 상기 웹페이지 입력부(100)를 통해서 출력되는 상기 웹 페이지 데이터의 출력 형태를 이용하여, 질문 데이터를 수집하기 위한 동작인지 답변 데이터를 수집하기 위한 동작인지 지시 입력을 선 수행한 후, 출력되는 웹 페이지 데이터들 중 선택되는 데이터를 수집하는 것이 바람직하다.
또는, 상기 데이터 생성부(300)에서 상기 데이터 수집부(200)에 의해 전달되는 수집 데이터를 순차적으로 분석하여, 분석 순서에 따라 질문 데이터 또는 답변 데이터로 순차적으로 구분하여 학습 데이터를 생성하는 것이 바람직하다.
이 때, 통상적으로 데이터 생성 관점에서, 질문에 대한 데이터를 수집하는 것보다 답변에 대한 데이터를 선수집한 후, 이에 대응하는 질문 데이터를 수집하는 것이 더 용이하다. 일 예를 들자면, 특정 질문에 대한 답변을 준비하는 것을 한계가 있으나, 이미 보유하고 있는 정보들(웹 페이지 내 데이터들)을 기준으로 질문을 지정하는 것은 보다 손쉽게 질문을 뽑아낼 수 있기 때문에, 상기 데이터 생성부(300)에서도 상기 데이터 수집부(200)에 의해 전달되는 수집 데이터를 순차적으로 분석하여, 분석 순서에 따라 답변 데이터로 먼저 설정하여 학습 데이터를 생성한 후, 다음으로 수집되는 데이터를 먼저 수집한 답변 데이터의 질문 데이터로 설정하여 학습 데이터를 생성하는 것이 바람직하다.
상기 데이터 생성부(300)를 통해서 이렇게 생성한 학습 데이터들은 도 2에 도시된 바와 같이, 데이터베이스화하여 도 3과 같이, 챗봇 서비스에 적용하는 것이 바람직하다. 이러한 과정에 대해서 자세하게는, 생성된 학습 데이터들에 대한 키워드 추출 및 임베딩 과정을 거치는 것이 바람직하며, 키워드 추출은 형태소 분석을 의미하며, 임베딩 알고리즘으로는 word2vec 알고리즘이 가장 적절하나, 이에 대해서 한정하는 것은 아니다.
더불어, 상기 데이터 생성부(300)는 추출한 텍스트 데이터들을 재분석하여 미리 설정되어 있는 금지 키워드를 제거한 후, 학습 데이터를 생성하는 것이 바람직하다. 이를 통해서, 질문 또는 답변으로 부적절한 부호, 기호, 기타 키워드 등을 제거할 수 있어 챗봇 서비스를 통해서 제공되는 텍스트의 품질을 향상시킬 수 있다.
또한, 상기 데이터 생성부(300)는 중복 처리부 및 유사 질의 처리부를 더 포함하여 구성되는 것이 바람직하다.
상기 중복 처리부는 추출한 데이터들을 재분석하여, 기존에 학습 데이터로 생성한 질문 데이터와의 중복 여부를 판단하여, 중복으로 판단될 경우, 질문 데이터로의 학습 데이터 생성을 수행하지 않는 것이 바람직하다. 단, 답변 데이터의 경우, 도 2에 도시된 바와 같이, 상이한 질문에 동일한 답변이 제공될 수 있기 때문에, 중복 여부를 판단하지 않는 것이 바람직하다.
또한, 상기 유사 질의 처리부는 추출한 데이터들을 형태소 분석 등을 통한 재분석하여, 기존에 학습 데이터로 생성한 대답 데이터와의 유사도를 분석하여, 유사도가 소정값 이상일 경우, 답변 데이터를 병합하여 보다 풍성하게 답변 데이터를 보정하는 것이 바람직하다.
상기 데이터 생성부(300)는 이외에도 구어체 변환부 및 통계 분석부를 더 포함하여 구성되는 것이 바람직하다.
상기 구어체 변환부는 미리 저장되어 있는 구어체 변환 알고리즘을 이용하여, 수집된 데이터들을 구어체 표현으로 변환하여 학습 데이터로 생성하는 것이 바람직하다. 이는 웹 사이트 특성상, 동일한 표현일지라도 간결하게 표현하는 과정에서 실제 대화로는 사용되지 않는 또는 대화로는 잘 사용되지 않는 어투로 텍스트가 이루어져있을 수 있기 때문에, 대화형 서비스인 챗봇 서비스에 알맞게 구어체로 변환하는 것이 바람직하다.
상기 통계 분석부는 상기 웹페이지 입력부(100)를 통해서 출력되는 웹 페이지 데이터들을 이용하여 몇 개의 학습 데이터가 생성되었는지 분석하여, 각 웹 페이지별로 통계 분석을 수행하는 것이 바람직하다. 이는, 학습 데이터로의 변환을 요청한 외부자가 각 웹 페이지별로 학습 데이터가 몇 개나 생성되었는지 손쉽게 확인할 수 있어, 챗봇 서비스를 지원하기 위한 충분한 학습 데이터가 생성되었는지 확인할 수 있는 장점이 있다.
또한, 상기 데이터 생성부(300)는 언어 변환부를 더 포함하여 구성될 수 있다.
일 예를 들자면, 상기 언어 변환부는 학습 데이터로의 변환을 요청하는 웹 페이지별 특성에 따라, 영문과 국문 텍스트가 동일한 영역에 위치하고 있을 경우, 상기 텍스트 수집부(200)에 의해서 선택되는 웹 페이지 내 영역을 이용하여, 동일한 영역의 다른 언어의 데이터를 재수집하여 새롭게 학습 데이터로 생성할 수 있다.
이 때, 상기 언어 변환부의 동작 수행 가능 여부는 웹 페이지 관리자 등을 통해서 이 경우에 해당하는지 확인받는 것이 바람직하다.
더불어, 본 발명의 일 실시예에 따른 챗봇용 학습 데이터 생성 시스템은 도 1에 도시된 바와 같이, 데이터 수집 보조부(400)를 더 포함하여 구성되는 것이 바람직하다.
상기 데이터 수집 보조부(400)는 상기 웹페이지 입력부(100)를 통해서 출력되는 웹 페이지 데이터들 중 사용자가 선택 가능한 영역을 별도의 표식 등을 통해서 표시하는 것이 바람직하다.
이를 위해, 상기 데이터 수집 보조부(400)는 제1 분석부(410), 제2 분석부(420) 및 제3 분석부(430)를 더 포함하여 구성되는 것이 바람직하다.
상기 제1 분석부(410)는 상기 웹페이지 입력부(100)를 통해서 출력되는 웹 페이지 데이터의 전체 영역의 텍스트 데이터를 추출하는 것이 바람직하며, 상기 제2 분석부(420)는 상기 제1 분석부(410)에서 추출한 웹 페이지 데이터의 전체 영역에 대한 텍스트 데이터들을 미리 저장되어 있는 텍스트 분석 알고리즘에 적용하여, 적어도 하나의 핵심 키워드 데이터 또는 적어도 하나의 핵심 문장 데이터를 분석하는 것이 바람직하다.
상세하게는, 상기 제2 분석부(420)는 상기 제1 분석부(410)에서 추출한 웹 페이지 데이터의 전체 영역에 대한 텍스트 데이터들을 문서 요약 알고리즘 등에 적용하여, 웹 페이지 데이터의 전체 영역에 대한 텍스트 데이터들 중 질문 또는 답변이 될 만한 핵심 텍스트를 추출하는 것이 바람직하다.
즉, 홈페이지에는 다양한 웹 페이지로 구성되어 있으며, 그 안에서 문장을 분리하고 문장의 출현 빈도 등을 고려하여 요약된 문장을 중요 문장, 즉 핵심 텍스트로 추출하는 것이 바람직하다. 이를 통해서, 모든 문장에서 핵심 문장만을 추출하여 추출한 핵심 문장을 질문의 답변으로 제공하는 것이 바람직하다.
일 예를 들자면, 웹 페이지 데이터의 전체 영역에 대한 텍스트 크롤링을 통해서 텍스트 데이터들을 추출하고, 이에 대한 자연어 처리를 수행한 후, TF-IDF 모델을 적용하여 각 단어의 가중치를 계산하여 등장하는 단어들에 대한 출현 빈도를 산출할 수 있다. 이를 통해서, 해당하는 웹 페이지 데이터의 문서 요약인 핵심 문장의 추출이 이루어지게 된다.
또는, 상기 데이터 생성부(300)는 홈페이지 내 포함되어 있는 모든 문장 중 육하원칙(5W1H) 구조에 맞는 문장을 추출하여, 질문 또는 답변 문장으로 생성할 수 있따.
상세하게는, 딥러닝 학습에 의한 방법으로, 육하원칙 구조에 맞는 다양한 학습 문장들을 확보하여 이를 딥러닝 학습한 후, 홈페이지 내 포함되어 있는 모든 문장 중 육하원칙 구조에 맞는 문장들을 추출한 후, 룰(rule) 사전을 이용하여, 육하원칙 구조에 맞는 문장들에 대해서 룰을 적용하여 완성 문장을 생성할 수 있다.
일 예를 들자면, 홈페이지 내 포함되어 있는 문장을 크롤링을 통해서 '선박검사는 선박이 법으로 정한 최소기준에 적합하도록 하게 하여 해상에서 예기치 못하게 만날 수 있는 각종 위험으로부터 선원 및 선박을 최대한으로 보고하기 위한 것입니다.'라는 문장을 추출하고, 딥러닝 학습을 통해서 육하원칙 구조에 맞는 상기 문장을 추출하게 된다. 이 후, 룰 사전을 이용하여 What에 해당하는 '선박검사'를 통해서 질문 데이터로 '선박검사는 무엇입니까?'를 생성할 수 있으며, 답변 데이터로 '선박검사는 선박이 법으로 정한 최소기준에 적합하도록 하게 하여 해상에서 예기치 못하게 만날 수 있는 각종 위험으로부터 선원 및 선박을 최대한으로 보고하기 위한 것입니다.'로 생성할 수 있다.
또한, 상기 제3 분석부(430)는 상기 제1 분석부(410)에서 추출한 텍스트 데이터들 중 상기 제2 분석부(420)에서 분석한 데이터들에 해당하는 텍스트 데이터들을 매칭시켜, 상기 웹페이지 입력부(100)를 통해서 출력되는 웹 페이지 데이터들 중 사용자가 선택 가능한 영역으로 설정하는 것이 바람직하다.
즉, 사용자가 웹 페이지 내 존재하는 전체 텍스트를 읽고, 질문 또는 답변 데이터로 판단하는 것이 아니라, 핵심이 되는 텍스트 데이터들을 가이드 받아 상기 데이터 수집부(200)를 통해서 웹 페이지 데이터들 중 소정 영역을 선택하는 것이 바람직하다.
도 4는 본 발명의 일 실시예에 따른 챗봇용 학습 데이터 생성 방법을 나타낸 순서 예시도이다. 도 4를 참조로 하여 본 발명의 일 실시예에 따른 챗봇용 학습 데이터 생성 방법을 상세히 설명한다.
본 발명의 일 실시예에 따른 챗봇용 학습 데이터 생성 방법은 도 4에 도시된 바와 같이, URL 입력단계(S100), 웹페이지 출력단계(S200), 데이터 수집단계(S300), 데이터 추출단계(S400) 및 데이터 생성단계(S500)를 포함하여 구성되는 것이 바람직하다.
각 단계에 대해서 자세히 알아보자면,
상기 URL 입력단계(S100)는 상기 웹페이지 입력부(100)에서, 외부로부터 챗봇용 학습 데이터로의 변환을 원하는 웹 페이지 URL 정보를 입력받는 것이 바람직하다.
상기 웹페이지 출력단계(S200)는 상기 웹페이지 입력부(100)에서, 상기 URL 입력단계(S100)에 의해 입력받은 상기 웹 페이지 URL 정보를 이용하여, 해당 웹 페이지에 접속하여 웹 페이지 내 데이터를 입력받아 출력하는 것이 바람직하다.
이 때, 상기 웹페이지 출력단계(S200)는 단순하게 입력받은 상기 웹 페이지 URL 정보를 이용하여, 해당 웹 페이지 내 모든 데이터를 수집하거나,(이러한 크롤링의 경우, 불필요한 데이터가 대량 포함되어 있어 문제점이 발생함.) 입력받은 상기 웹 페이지 URL 정보를 이용하여, 해당 웹 페이지에 접속하여 해당 웹 페이지를 출력하는 것이 아니라, 챗봇용 학습 데이터로의 변환을 원하는 웹 페이지 URL 정보를 입력받은 후, 해당하는 웹 페이지 내 데이터들을 수집하기 용이하도록 에뮬레이팅(emulating)하여 포함되어 있는 별도의 출력수단을 통해서 웹 페이지 내 데이터들을 그대로 모방 출력하는 것이 바람직하다.
이는, 웹 페이지 생성시, 생성 관리자의 설정에 따라, 웹 페이지의 접속자의 드래그 등의 입력을 통해서 웹 페이지 내 데이터가 선택될 수도, 선택되지 않을 수도 있기 때문에, 추후에 상기 데이터 수집단계(S300)에서의 용이한 데이터 수집을 위해 상기 웹페이지 출력단계(S200)는 해당하는 웹 페이지 내 데이터들을 그대로 모방 출력하는 것이 바람직하다.
상세하게는, 상기 웹페이지 출력단계(S200)는 해당하는 웹 페이지 데이터를 파싱(parsing)하여, 에뮬레이션을 거쳐서 웹 페이지 데이터 내 HTML 코드 내에 포함되어 있는 텍스트 데이터와 이미지 데이터만을 추출하여 이를 다시 웹 페이지 형태로 모방 출력하는 것이 바람직하다.
물론, 이러한 웹 페이지 데이터의 파싱을 통한 모방 출력은, 상술한 바와 같이, 해당 웹 페이지를 기반으로 챗봇용 학습 데이터로의 변환을 원하는 웹 페이지 생성 관리자의 승인 하에 이루어지는 것이 바람직하다.
상기 데이터 수집단계(S300)는 상기 데이터 수집부(200)에서, 상기 웹페이지 출력단계(S200)에 의해 출력되는 웹페이지 데이터들 중 사용자(학습 데이터 생성자 등)의 입력에 의해 선택되는 영역의 데이터를 수집하는 것이 바람직하다.
이를 위해, 상기 데이터 수집단계(S300)는 외부 입력수단을 통해서 사용자의 드래그 입력에 의해, 출력되는 웹 페이지 데이터들 중 입력되는 영역의 데이터들을 수집하는 것이 바람직하다.
이 때, 상기 데이터 수집단계(S300)는 출력되는 상기 웹 페이지 데이터들의 출력 양식(형태 등)에 따라, 포함되어 있는 외부 입력수단을 통해서 사용자의 드래그 입력, 클릭 입력 등의 출력되는 웹 페이지 데이터들 중 소정 영역을 선택할 수 있는 동작으로 선택되는 데이터들을 수집하는 것이 바람직하며, 반드시 드래그 입력으로 한정하는 것은 아니다.
일 예를 들자면, 출력되는 웹 페이지 데이터들 중 일부 문단 전체 또는 문장 만을 드래그 입력하여 수집하고자 하는 데이터를 선택할 수 있으며, 이 외에도 문단마다 또는 문장마다 선택할 수 있도록 출력될 경우, 드래그 입력이 아닌 클릭 입력 등을 통해서 선택할 수도 있다.
이와 같이, 출력되는 상기 웹 페이지 데이터의 출력 형태 또는 영역 선택 등의 동작은 GUI 설정을 통해서 용이하게 선택 변경되는 것이 바람직하다.
상기 데이터 추출단계(S400)는 상기 데이터 생성부(300)에서, 상기 데이터 수집단계(S300)에 의해 수집한 데이터를 분석하여, 텍스트 데이터 또는 이미지 데이터를 추출하는 것이 바람직하다.
더불어, 상기 데이터 생성단계(S500)를 통해서, 상기 데이터 생성부(300)에서, 상기 데이터 추출단계(S400)에 의해 추출한 상기 데이터를 챗봇 답변용 학습 데이터로 생성하고, 저장 및 관리하는 것이 바람직하다.
이 때, 상기 데이터 생성단계(S500)는 챗봇 답변용 학습 데이터 뿐 아니라, 챗봇 질문용 학습 데이터도 생성할 수 있다.
이를 위해, 상기 데이터 추출단계(S400)는 상기 데이터 생성부(300)에서, 상기 데이터 수집단계(S300)에 의해 수집한 데이터를 분석하여, 텍스트 데이터를 추출하는 것이 바람직하며, 상기 데이터 생성단계(S500)를 통해서 수집한 데이터에 포함되어 있는 텍스트 데이터를 추출하여, 챗봇 질문용 학습 데이터로 생성하고, 이를 저장 및 관리하는 것이 바람직하다.
이 때, 상기 데이터 생성단계(S500)에서는 챗봇 답변용 학습 데이터와 챗봇 질문용 학습 데이터를 구분하여 생성하는 것이 가장 중요하다.
이를 구분하기 위하여, 상기 데이터 수집단계(S300)를 통해서, 외부 입력수단을 이용하여 사용자로부터 질문 데이터 또는 답변 데이터의 입력 여부에 대한 지시 입력을 받은 후, 해당하는 질문 데이터 또는 답변 데이터로 학습 데이터를 생성하는 것이 바람직하다.
일 예를 들자면, 출력되는 웹 페이지 데이터의 출력 형태를 이용하여, 질문 데이터를 수집하기 위한 동작인지 답변 데이터를 수집하기 위한 동작인지 지시 입력을 선 수행한 후, 출력되는 웹 페이지 데이터들 중 선택되는 데이터를 수집하는 것이 바람직하다.
또다른 예를 들자면, 상기 데이터 생성단계(S500)에서 전달되는 수집 데이터를 순차적으로 분석하여, 분석 순서에 따라 질문 데이터 또는 답변 데이터로 순차적으로 구분하여 학습 데이터를 생성하는 것이 바람직하다.
이 때, 통상적으로 데이터 생성 관점에서, 질문에 대한 데이터를 수집하는 것보다 답변에 대한 데이터를 선수집한 후, 이에 대응하는 질문 데이터를 수집하는 것이 더 용이하다. 일 예를 들자면, 특정 질문에 대한 답변을 준비하는 것을 한계가 있으나, 이미 보유하고 있는 정보들(웹 페이지 내 데이터들)을 기준으로 질문을 지정하는 것은 보다 손쉽게 질문을 뽑아낼 수 있기 때문에, 상기 데이터 생성단계(S500) 역시도 전달되는 수집 데이터를 순차적으로 분석하여, 분석 순서에 따라 답변 데이터로 먼저 설정하여 학습 데이터를 생성한 후, 다음으로 수집되는 데이터를 먼저 수집한 답변 데이터의 질문 데이터로 설정하여 학습 데이터를 생성하는 것이 바람직하다.
더불어, 상기 데이터 생성단계(S500)는 생성된 학습 데이터들에 대한 키워드 추출 및 임베딩 과정을 거치는 것이 바람직하며, 키워드 추출은 형태소 분석을 의미하며, 임베딩 알고리즘으로는 word2vec 알고리즘이 가장 적절하나, 이에 대해서 한정하는 것은 아니다.
또한, 상기 데이터 생성단계(S500)는 추출한 텍스트 데이터들을 재분석하여 미리 설정되어 있는 금지 키워드를 제거한 후, 학습 데이터를 생성함으로써, 질문 또는 답변으로 부적절한 부호, 기호, 기타 키워드 등을 제거할 수 있어 챗봇 서비스를 통해서 제공되는 텍스트의 품질을 향상시킬 수 있다.
또한, 추출한 데이터들을 재분석하여, 기존에 학습 데이터로 생성한 질문 데이터와의 중복 여부를 판단하여, 중복으로 판단될 경우, 질문 데이터로의 학습 데이터 생성을 수행하지 않는 것이 바람직하다. 단, 답변 데이터의 경우, 도 2에 도시된 바와 같이, 상이한 질문에 동일한 답변이 제공될 수 있기 때문에, 중복 여부를 판단하지 않는 것이 바람직하다.
또한, 추출한 데이터들을 형태소 분석 등을 통한 재분석하여, 기존에 학습 데이터로 생성한 대답 데이터와의 유사도를 분석하여, 유사도가 소정값 이상일 경우, 답변 데이터를 병합하여 보다 풍성하게 답변 데이터를 보정하는 것이 바람직하다.
또한, 미리 저장되어 있는 구어체 변환 알고리즘을 이용하여, 수집된 데이터들을 구어체 표현으로 변환하여 학습 데이터로 생성하는 것이 바람직하다. 이는 웹 사이트 특성상, 동일한 표현일지라도 간결하게 표현하는 과정에서 실제 대화로는 사용되지 않는 또는 대화로는 잘 사용되지 않는 어투로 텍스트가 이루어져있을 수 있기 때문에, 대화형 서비스인 챗봇 서비스에 알맞게 구어체로 변환하는 것이 바람직하다.
또한, 상기 웹페이지 출력단계(S200)를 통해서 출력되는 웹 페이지 데이터들을 이용하여 몇 개의 학습 데이터가 생성되었는지 분석하여, 각 웹 페이지별로 통계 분석을 수행하는 것이 바람직하다. 이는, 학습 데이터로의 변환을 요청한 외부자가 각 웹 페이지별로 학습 데이터가 몇 개나 생성되었는지 손쉽게 확인할 수 있어, 챗봇 서비스를 지원하기 위한 충분한 학습 데이터가 생성되었는지 확인할 수 있는 장점이 있다.
또한, 학습 데이터로의 변환을 요청하는 웹 페이지별 특성에 따라, 영문과 국문 텍스트가 동일한 영역에 위치하고 있을 경우, 상기 데이터 수집단계(S300)에 의해서 선택되는 웹 페이지 내 영역을 이용하여, 동일한 영역의 다른 언어의 데이터를 재수집하여 새롭게 학습 데이터로 생성할 수 있다. 이러한 언어 변환 수행 가능 여부는 웹 페이지 관리자 등을 통해서 웹 페이지 상 각 언어별로 동일한 텍스트 내용이 동일한 영역에 위치하고 있는지 확인 입력을 받는 것이 바람직하다.
또한, 본 발명의 일 실시예에 따른 챗봇용 학습 데이터 생성 방법은, 사용자가 웹 페이지 내 존재하는 전체 텍스트를 읽고, 질문 또는 답변 데이터로 판단하는 것이 아니라, 핵심이 되는 텍스트 데이터들의 선택이 유도될 수 있도록 가이드를 제공하여 상기 데이터 수집단계(S300)에서 해당 영역이 선택될 수 있도록 하는 것이 바람직하다.
이를 위해서, 상기 URL 입력단계(S100)를 수행하고 난 후, 제1 세부 분석단계(S110), 제2 세부 분석단계(S120) 및 제3 세부 분석단계(S130)를 더 포함하여 구성되는 것이 바람직하다.
상기 제1 세부 분석단계(S110)는 상기 데이터 수집 보조부(400)에서, 상기 URL 입력단계(S100)에 의해 입력받은 상기 웹 페이지 URL 정보를 이용하여, 해당하는 웹 페이지에 접속하여, 해당하는 웹 페이지 데이터를 입력받아 웹 페이지 데이터의 전체 영역의 텍스트 데이터를 추출하는 것이 바람직하다.
상기 제2 세부 분석단계(S120)는 상기 데이터 수집 보조부(400)에서, 상기 제1 세부 분석단계(S110)에 의해 추출한 웹 페이지 데이터의 전체 영역에 대한 텍스트 데이터들을 미리 저장되어 있는 텍스트 분석 알고리즘에 적용하여, 적어도 하나의 핵심 키워드 데이터 또는 적어도 하나의 핵심 문장 데이터를 분석하는 것이 바람직하다.
상세하게는, 상기 제2 세부 분석단계(S120)는 상기 제1 세부 분석단계(S110)에 의해 추출한 웹 페이지 데이터의 전체 영역에 대한 텍스트 데이터들을 문서 요약 알고리즘 등에 적용하여, 웹 페이지 데이터의 전체 영역에 대한 텍스트 데이터들 중 질문 또는 답변이 될 만한 핵심 텍스트를 추출하는 것이 바람직하다.
상기 제3 세부 분석단계(S130)는 상기 데이터 수집 보조부(400)에서, 상기 제1 세부 분석단계(S110)에서 추출한 전체 영역의 텍스트 데이터들 중 상기 제2 세부 분석단계(S120)에서 분석한 데이터들에 해당하는 텍스트 데이터들을 매칭시켜, 매칭된 텍스트 데이터들로 상기 웹페이지 출력단계(S200)에 의해 출력되는 상기 웹 페이지 데이터들 중 사용자가 선택 가능한 영역을 설정하는 것이 바람직하다.
즉, 사용자가 상기 웹페이지 출력단계(S200)에 의해 출력되는 웹 페이지 데이터 내 존재하는 전체 텍스트를 읽고, 질문 또는 답변 데이터로 판단하는 것이 아니라, 웹 페이지 전체 데이터들 중 핵심이 되는 텍스트 데이터들을 별도의 표식 등을 통해서 표시받아, 데이터 수집을 가이드받을 수도 있다.
즉, 다시 말하자면, 본 발명의 일 실시예에 따른 챗봇용 학습 데이터 생성 시스템 및 그 방법은, 챗봇 서비스를 도입하고자 하는 업체 등의 제공하는 웹 페이지 URL 정보를 토대로, 해당하는 웹 페이지 내 포함되어 있는 데이터들을 모방 출력하여, 사용자의 입력에 의해 원하는 영역의 데이터들을 수집하여 챗봇용 학습 데이터로 생성하여, 챗봇용 질문-답변 데이터 셋으로 용이하게 적용할 수 있는 장점이 있다.
한편, 본 발명의 실시예에 따른 챗봇용 학습 데이터 생성 방법은 다양한 전자적으로 정보를 처리하는 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 저장 매체에 기록될 수 있다. 저장 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.
저장 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 소프트웨어 분야 당업자에게 공지되어 사용 가능한 것일 수도 있다. 저장 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 전자적으로 정보를 처리하는 장치, 예를 들어, 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 본 발명에서는 구체적인 구성 소자 등과 같은 특정 사항들과 한정된 실시예 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것 일 뿐, 본 발명은 상기의 일 실시예에 한정되는 것이 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허 청구 범위뿐 아니라 이 특허 청구 범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
100 : 웹페이지 입력부
200 : 데이터 수집부
300 : 데이터 생성부
400 : 데이터 수집 보조부

Claims (15)

  1. 학습 데이터로의 변환을 원하는 웹 페이지 URL 정보를 입력받아, 해당하는 웹 페이지 내 데이터들을 출력하되, 해당하는 웹 페이지 데이터를 파싱(parsing)하여 웹 페이지 데이터에 대한 드래그 입력이 가능하도록 하는 웹페이지 입력부(100);
    포함되어 있는 외부 입력수단을 통한 사용자의 드래그 입력에 의해, 상기 웹페이지 입력부(100)를 통해서 출력되는 웹 페이지 데이터들 중 선택되는 영역의 데이터를 수집하는 데이터 수집부(200);
    상기 데이터 수집부(200)에서 수집한 데이터를 분석하여, 텍스트 데이터 또는 이미지 데이터를 추출하여, 챗봇 답변용 학습 데이터로 생성 및 저장하는 데이터 생성부(300); 및
    상기 웹페이지 입력부(100)를 통해서 출력되는 웹 페이지 데이터들 중 상기 데이터 수집부(200)를 통해 사용자가 선택 가능한 영역을 표시하는 데이터 수집 보조부(400);
    를 포함하며,
    상기 데이터 수집 보조부(400)는
    상기 웹 페이지 입력부(100)를 통해서 출력되는 웹 페이지 데이터의 전체 영역의 텍스트 데이터들을 추출하는 제1 분석부(410);
    상기 제1 분석부(410)에서 추출한 텍스트 데이터들을 기저장되어 있는 텍스트 분석 알고리즘에 적용하여, 적어도 하나의 핵심 키워드 데이터 또는 적어도 하나의 핵심 문장 데이터를 분석하는 제2 분석부(420); 및
    상기 제1 분석부(410)에서 추출한 텍스트 데이터들 중 상기 제2 분석부(420)에서 분석한 데이터들에 해당하는 텍스트 데이터들을 매칭시켜, 상기 웹페이지 입력부(100)를 통해서 출력되는 웹 페이지 데이터들 중 사용자가 선택 가능한 영역으로 설정하는 제3 분석부(430);
    를 더 포함하는 것을 특징으로 하는 챗봇용 학습 데이터 생성 시스템.
  2. 삭제
  3. 삭제
  4. 제 1항에 있어서,
    상기 데이터 생성부(300)는
    상기 데이터 수집부(200)에 의한 사용자의 입력에 의해, 수집한 데이터를 분석하여 텍스트 데이터를 추출하여, 챗봇 질문용 학습 데이터로 생성 및 저장하는 것을 특징으로 하는 챗봇용 학습 데이터 생성 시스템.
  5. 제 4항에 있어서,
    상기 데이터 수집부(200)는
    포함되어 있는 외부 입력수단을 이용하여, 사용자로부터 질문 데이터 또는 답변 데이터를 입력받은 후, 데이터를 수집하는 것을 특징으로 하는 챗봇용 학습 데이터 생성 시스템.
  6. 제 4항에 있어서,
    상기 데이터 생성부(300)는
    상기 데이터 수집부(200)에 의해 전달되는 수집 데이터를 순차적으로 분석하되, 분석 순서에 따라 질문 데이터 또는 답변 데이터로 구분하여 데이터를 추출하는 것을 특징으로 하는 챗봇용 학습 데이터 생성 시스템.
  7. 삭제
  8. 삭제
  9. 제 4항에 있어서,
    상기 데이터 생성부(300)는
    추출한 텍스트 데이터를 재분석하여 기설정된 금지 키워드를 제거한 후, 학습 데이터로 생성하는 것을 특징으로 하는 챗봇용 학습 데이터 생성 시스템.
  10. 웹페이지 입력부에서, 학습 데이터로의 변환을 원하는 웹 페이지 URL 정보를 입력받는 URL 입력단계(S100);
    웹페이지 입력부에서, 상기 URL 입력단계(S100)에 의해 입력받은 상기 웹 페이지 URL 정보를 이용하여, 해당하는 웹 페이지 데이터를 입력받아 출력하되, 해당하는 웹 페이지 데이터를 파싱(parsing)하여 웹 페이지 데이터에 대한 드래그 입력이 가능하도록 하는 웹페이지 출력단계(S200);
    데이터 수집부에서, 상기 웹페이지 출력단계(S200)에 의해 출력되는 웹 페이지 데이터들 중 사용자의 드래그 입력에 의해 선택되는 영역의 데이터를 수집하는 데이터 수집단계(S300);
    데이터 생성부에서, 상기 데이터 수집단계(S300)에 의해 수집한 데이터를 분석하여, 텍스트 데이터 또는 이미지 데이터를 추출하는 데이터 추출단계(S400); 및
    데이터 생성부에서, 상기 데이터 추출단계(S400)에 의해 추출한 상기 데이터를 챗봇 답변용 학습 데이터로 생성 및 저장하는 데이터 생성단계(S500);
    를 포함하여 구성되며,
    상기 URL 입력단계(S100)를 수행하고 난 후,
    데이터 수집 보조부에서, 상기 URL 입력단계(S100)에 의해 입력받은 상기 웹 페이지 URL 정보를 이용하여, 해당하는 웹 페이지 데이터를 입력받아 웹 페이지 데이터의 전체 영역의 텍스트 데이터를 추출하는 제1 세부 분석단계(S110);
    데이터 수집 보조부에서, 상기 제1 세부 분석단계(S110)에 의해 추출한 텍스트 데이터들을 기저장되어 있는 텍스트 분석 알고리즘에 적용하여, 적어도 하나의 핵심 키워드 데이터 또는 적어도 하나의 핵심 문장 데이터를 분석하는 제2 세부 분석단계(S120); 및
    데이터 수집 보조부에서, 상기 제1 세부 분석단계(S110)에서 추출한 전체 영역의 텍스트 데이터들 중 상기 제2 세부 분석단계(S120)에서 분석한 데이터들에 해당하는 텍스트 데이터들을 매칭시켜, 매칭된 텍스트 데이터들로 상기 웹페이지 출력단계(S200)에 의해 출력되는 상기 웹 페이지 데이터들 중 사용자가 선택 가능한 영역을 설정하는 제3 세부 분석단계(S130);
    를 더 포함하여 구성되며,
    상기 데이터 수집단계(S300)에서,
    데이터 수집부에 포함되어 있는 외부 입력수단을 통한 사용자의 드래그 입력에 의해, 출력되는 웹 페이지 데이터들 중 상기 제3 세부 분석단계(S130)에 의해 설정된 선택 가능한 영역에 대한 소정 영역이 선택되고, 선택된 영역의 데이터를 수집하는 것을 특징으로 하는 챗봇용 학습 데이터 생성 방법.
  11. 삭제
  12. 제 10항에 있어서,
    상기 데이터 추출단계(S400)는
    상기 데이터 수집단계(S300)에서의 사용자의 입력에 의해, 상기 데이터 수집단계(S300)에서 수집한 데이터를 분석하여 텍스트 데이터를 추출하며,
    상기 데이터 생성단계(S500)는
    상기 데이터 추출단계(S400)에서 추출한 상기 텍스트 데이터를 챗봇 질문용 학습 데이터로 생성 및 저장하는 것을 특징으로 하는 챗봇용 학습 데이터 생성 방법.
  13. 제 12항에 있어서,
    상기 데이터 수집단계(S300)는
    외부 입력수단을 이용하여, 사용자로부터 질문 데이터 또는 답변 데이터를 입력받은 후, 상기 웹페이지 출력단계(S200)에 의해 출력되는 웹 페이지 데이터들 중 사용자의 입력에 의해 선택되는 영역의 데이터를 수집하는 것을 특징으로 하는 챗봇용 학습 데이터 생성 방법.
  14. 제 12항에 있어서,
    상기 데이터 추출단계(S400)는
    상기 데이터 수집단계(S300)에서의 사용자의 입력에 의해, 상기 데이터 수집단계(S300)에서 수집한 데이터를 순차적으로 분석하되, 분석 순서에 따라 질문 데이터 또는 답변 데이터로 구분하여 데이터를 추출하는 것을 특징으로 하는 챗봇용 학습 데이터 생성 방법.
  15. 삭제
KR1020200150896A 2020-11-12 2020-11-12 챗봇용 학습 데이터 생성 시스템 및 그 방법 KR102260558B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200150896A KR102260558B1 (ko) 2020-11-12 2020-11-12 챗봇용 학습 데이터 생성 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200150896A KR102260558B1 (ko) 2020-11-12 2020-11-12 챗봇용 학습 데이터 생성 시스템 및 그 방법

Publications (1)

Publication Number Publication Date
KR102260558B1 true KR102260558B1 (ko) 2021-06-07

Family

ID=76374524

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200150896A KR102260558B1 (ko) 2020-11-12 2020-11-12 챗봇용 학습 데이터 생성 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR102260558B1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040094237A (ko) * 2003-05-02 2004-11-09 에스케이 텔레콤주식회사 채팅 아바타의 학습 방법
KR101945297B1 (ko) * 2017-11-10 2019-02-07 (주)페르소나시스템 메신저 연동형 챗봇의 제작 및 제공 서버
KR102033175B1 (ko) 2017-11-15 2019-10-16 (주)페르소나시스템 머신 러닝 기반의 챗봇용 데이터 추가 장치
KR20200032893A (ko) * 2018-09-19 2020-03-27 좌우지간 주식회사 챗봇 서비스를 위한 커뮤니케이션 정보 처리 시스템 및 그 제어 방법
KR20200114173A (ko) * 2019-03-27 2020-10-07 주식회사 카카오 자연어 처리 엔진을 관리하는 방법, 서버 및 컴퓨터 프로그램

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040094237A (ko) * 2003-05-02 2004-11-09 에스케이 텔레콤주식회사 채팅 아바타의 학습 방법
KR101945297B1 (ko) * 2017-11-10 2019-02-07 (주)페르소나시스템 메신저 연동형 챗봇의 제작 및 제공 서버
KR102033175B1 (ko) 2017-11-15 2019-10-16 (주)페르소나시스템 머신 러닝 기반의 챗봇용 데이터 추가 장치
KR20200032893A (ko) * 2018-09-19 2020-03-27 좌우지간 주식회사 챗봇 서비스를 위한 커뮤니케이션 정보 처리 시스템 및 그 제어 방법
KR20200114173A (ko) * 2019-03-27 2020-10-07 주식회사 카카오 자연어 처리 엔진을 관리하는 방법, 서버 및 컴퓨터 프로그램

Similar Documents

Publication Publication Date Title
US7962842B2 (en) Method and systems for accessing data by spelling discrimination letters of link names
Juola et al. A prototype for authorship attribution studies
US9268753B2 (en) Automated addition of accessiblity features to documents
US20040111272A1 (en) Multimodal speech-to-speech language translation and display
JP7297458B2 (ja) 対話コンテンツ作成支援方法
Mejía et al. A survey on mathematical software tools for visually impaired persons: A practical perspective
KR20040024619A (ko) 복수 언어의 대역 텍스트 입력에 의한 제 3 언어 텍스트생성 알고리즘, 장치 및 프로그램
WO2014000764A1 (en) A system and method for automatic generation of a reference utility
Al-Shawakfa A rule-based approach to understand questions in Arabic question answering
KR102126342B1 (ko) 접근성 태그를 이용하여 표와 서식이 포함된 전자문서를 점자로 변환하는 점자 변환방법
KR102260558B1 (ko) 챗봇용 학습 데이터 생성 시스템 및 그 방법
JP5690829B2 (ja) 表現および説明抽出のための文書処理装置および方法
Devi et al. Steps of pre-processing for english to mizo smt system
Samanta et al. Development of multimodal user interfaces to Internet for common people
KR20090055932A (ko) 태그 정보에 기초하여 텍스트를 추출하기 위한 방법,시스템 및 컴퓨터 판독 가능한 기록 매체
Boon et al. An examination question paper preparation system with content-style separation and bloom’s taxonomy categorisation
JP2008171164A (ja) 分類付与支援装置及び方法及びプログラム
Popovych et al. Ukrainian Redaction of Church Slavonic (URCS): Needs for Digitalization and Text Corpora Platform Generation. Part I.
US20240184985A1 (en) Information representation structure analysis device, and information representation structure analysis method
EP1729284A1 (en) Method and systems for a accessing data by spelling discrimination letters of link names
KR102640887B1 (ko) 다국어 웹사이트 콘텐츠를 생성하는 방법 및 전자 장치
Kienle et al. Ten years of access for all from WSE 2001 to WSE 2011
Park et al. Korean language math-to-speech rules for digital books for people with reading disabilities and their usability evaluation
Іванова et al. Ukrainian Redaction of Church Slavonic (URCS): Needs for Digitilization and Text Corpora Platform Generation. Part 1
Isaila et al. The access of persons with visual disabilities at the scientific content

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant