KR20220155785A - 챗봇 운영 방법 및 장치 - Google Patents

챗봇 운영 방법 및 장치 Download PDF

Info

Publication number
KR20220155785A
KR20220155785A KR1020210063485A KR20210063485A KR20220155785A KR 20220155785 A KR20220155785 A KR 20220155785A KR 1020210063485 A KR1020210063485 A KR 1020210063485A KR 20210063485 A KR20210063485 A KR 20210063485A KR 20220155785 A KR20220155785 A KR 20220155785A
Authority
KR
South Korea
Prior art keywords
query data
data
neural network
model
natural language
Prior art date
Application number
KR1020210063485A
Other languages
English (en)
Other versions
KR102589074B1 (ko
Inventor
이병준
오경모
윤소라
Original Assignee
삼성생명보험주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성생명보험주식회사 filed Critical 삼성생명보험주식회사
Priority to KR1020210063485A priority Critical patent/KR102589074B1/ko
Publication of KR20220155785A publication Critical patent/KR20220155785A/ko
Application granted granted Critical
Publication of KR102589074B1 publication Critical patent/KR102589074B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06Q50/30
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/02User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 개시의 일 실시예에 따라 적어도 하나의 프로세서를 포함하는 컴퓨팅 장치에 의해 수행되는 챗봇 운영 방법이 개시된다. 상기 방법은: 오답 선별을 위한 유사도 임계값을 갖도록 설정된 뉴럴 네트워크 기반 자연어 처리 모델에 복수의 미분류 질의 데이터를 입력하는 단계; 상기 자연어 처리 모델의 출력에 기초하여 복수의 제 1 미응답 질의 데이터를 획득하는 단계; 뉴럴 네트워크 기반 제 1 서브 모델에 상기 복수의 제 1 미응답 질의 데이터를 입력하는 단계; 및 상기 제 1 서브 모델의 출력에 기초하여 적어도 하나의 제 2 미응답 질의 데이터를 획득하는 단계를 포함할 수 있다.

Description

챗봇 운영 방법 및 장치 {METHOD AND APPARATUS FOR OPERATING CHATBOT}
본 발명은 챗봇을 운영하는 방법에 관한 것으로서, 보다 구체적으로는 인공 신경망을 이용하여 챗봇을 운영하는 방법에 관한 것이다.
인공 신경망 기술의 발전에 따라 과거 정해진 형식의 문장에 대해서만 답변할 수 있었던 챗봇 서비스가 최근에는 뉴럴 네트워크 기반의 챗봇 서비스로 대체되고 있다.
한 편 챗봇 서비스의 운영 과정에서는 응답률 및 응답 정확도가 모두 요구된다. 응답률만 높을 경우 잘못된 정보가 제공될 수 있고, 정확도만 높을 경우 미응답 되는 질문의 비율이 높아 서비스를 안정적으로 제공하지 못할 수 있다. 즉, 챗봇 서비스의 운영 과정에서는 사용자에게 즉각적으로 답변을 주는 것 뿐만 아니라 주어진 답변이 질문에 대응되는 적절한 답변인지 여부 또한 중요하며 이로 인해 챗봇 서비스 관련 업계는 사실상 응답된 데이터나 미응답된 데이터나 모든 데이터에 대한 검수가 요구될 수 있다. 그러나, 이 경우 모든 데이터를 검수하는 것은 비용과 인력이 지나치게 낭비된다는 문제점이 있었다.
따라서 당업계에서는 보다 효과적인 챗봇 운영 방법에 대한 수요가 지속적으로 존재해왔다.
한국 등록특허 KR10-2169397은 "챗봇과 상담원을 이용한 반자동 대화 제공 방법 및 서버"를 개시한다.
본 개시는 전술한 배경기술에 대응하여 안출 된 것으로, 인공 신경망을 이용하여 챗봇을 운영하는 방법의 제공을 목적으로 한다.
전술한 바와 같은 과제를 실현하기 위한 본 개시의 일 실시예에 따라 적어도 하나의 프로세서를 포함하는 컴퓨팅 장치에 의해 수행되는 챗봇 운영 방법이 개시된다. 상기 방법은: 오답 선별을 위한 유사도 임계값을 갖도록 설정된 뉴럴 네트워크 기반 자연어 처리 모델에 복수의 미분류 질의 데이터를 입력하는 단계; 상기 자연어 처리 모델의 출력에 기초하여 복수의 제 1 미응답 질의 데이터를 획득하는 단계; 뉴럴 네트워크 기반 제 1 서브 모델에 상기 복수의 제 1 미응답 질의 데이터를 입력하는 단계; 및 상기 제 1 서브 모델의 출력에 기초하여 적어도 하나의 제 2 미응답 질의 데이터를 획득하는 단계를 포함할 수 있다.
대안적인 실시예에서, 상기 뉴럴 네트워크 기반 자연어 처리 모델은, 둘 이상의 학습 데이터를 포함하는 학습 데이터 셋에 기초하여 학습되고, 둘 이상의 학습 데이터에 각각에 포함된 학습 질의 데이터 사이의 유사도에 기초하여 학습될 수 있다.
대안적인 실시예에서, 상기 뉴럴 네트워크 기반 자연어 처리 모델은, 상기 자연어 처리 모델을 학습시키기 위해 사용된 학습 데이터 셋에 포함된 적어도 하나의 학습 질의 데이터와 상기 미분류 질의 데이터 사이의 유사도를 산출할 수 있다.
대안적인 실시예에서, 상기 복수의 제 1 미응답 질의 데이터를 획득하는 단계는, 상기 자연어 처리 모델의 출력에 기초하여, 상기 오답 선별을 위한 유사도 임계값보다 작은 유사도를 가지는 것으로 산출된 미분류 질의 데이터를 제 1 미응답 질의 데이터로 결정하는 단계를 포함할 수 있다.
대안적인 실시예에서, 상기 자연어 처리 모델 및 상기 제 1 서브 모델은, 각각 서로 다른 학습 데이터 셋에 기초하여 학습될 수 있다.
대안적인 실시예에서, 상기 뉴럴 네트워크 기반 제 1 서브 모델은, 상기 뉴럴 네트워크 기반 자연어 처리 모델이 오답 선별을 위한 유사도 임계값을 갖도록 설정된 상태에서 출력한 적어도 하나의 미응답 질의 데이터에 기초하여 학습될 수 있다.
대안적인 실시예에서, 상기 제 1 서브 모델을 학습시키기 위한 학습 데이터 셋은, 학습이 완료된 뉴럴 네트워크 기반 자연어 처리 모델의 성능 테스트를 위한 테스트 데이터 셋에 기초하여 생성될 수 있다.
대안적인 실시예에서, 상기 적어도 하나의 제 2 미응답 질의 데이터를 획득하는 단계는, 상기 제 1 서브 모델이 산출하는 복수의 제 1 미응답 질의 데이터 각각에 대한 유사도에 기초하여 수행될 수 있다.
대안적인 실시예에서, 상기 제 2 미응답 질의 데이터에 기초하여 추가 학습 데이터 셋을 구성하는 단계; 상기 추가 학습 데이터 셋에 기초하여 상기 뉴럴 네트워크 기반 자연어 처리 모델을 학습시키는 단계를 더 포함할 수 있다.
대안적인 실시예에서, 신규 질의 데이터를 수신하는 단계; 챗봇 서비스 제공을 위한 유사도 임계값을 갖도록 설정된 상기 뉴럴 네트워크 기반 자연어 처리 모델에 상기 신규 질의 데이터를 입력하는 단계; 및 상기 자연어 처리 모델의 출력에 기초하여 상기 신규 질의 데이터에 대한 응답 데이터를 획득하는 단계를 더 포함할 수 있다.
대안적인 실시예에서, 뉴럴 네트워크 기반 제 2 서브 모델에 복수의 제 2 미응답 질의 데이터를 입력하는 단계; 및 상기 제 2 서브 모델의 출력에 기초하여 적어도 하나의 제 3 미응답 질의 데이터를 획득하는 단계를 더 포함하며, 상기 제 1 서브 모델과 상기 제 2 서브 모델은 서로 다른 학습 데이터 셋에 기초하여 학습되는 상이한 모델일 수 있다.
대안적인 실시예에서, 상기 제 2 서브 모델을 학습시키기 위한 학습 데이터 셋은 학습이 완료된 뉴럴 네트워크 기반 제 1 서브 모델의 성능 테스트를 위한 테스트 데이터 셋에 기초하여 생성될 수 있다.
전술한 바와 같은 과제를 실현하기 위한 본 개시의 일 실시예에 따라 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램이 개시된다. 상기 컴퓨터 프로그램은 하나 이상의 프로세서에서 실행되는 경우, 챗봇을 운영하기 위한 이하의 동작들을 수행하도록 하며, 상기 동작들은: 오답 선별을 위한 유사도 임계값을 갖도록 설정된 뉴럴 네트워크 기반 자연어 처리 모델에 복수의 미분류 질의 데이터를 입력하는 동작; 상기 자연어 처리 모델의 출력에 기초하여 복수의 제 1 미응답 질의 데이터를 획득하는 동작; 뉴럴 네트워크 기반 제 1 서브 모델에 상기 복수의 제 1 미응답 질의 데이터를 입력하는 동작; 및 상기 제 1 서브 모델의 출력에 기초하여 적어도 하나의 제 2 미응답 질의 데이터를 획득하는 동작을 포함할 수 있다.
전술한 바와 같은 과제를 실현하기 위한 본 개시의 일 실시예에 따라 챗봇 운영 장치가 개시된다. 상기 장치는 하나 이상의 프로세서; 메모리; 및 네트워크부를 포함하며, 그리고 상기 하나 이상의 프로세서는, 오답 선별을 위한 유사도 임계값을 갖도록 설정된 뉴럴 네트워크 기반 자연어 처리 모델에 복수의 미분류 질의 데이터를 입력하고, 상기 자연어 처리 모델의 출력에 기초하여 복수의 제 1 미응답 질의 데이터를 획득하고, 뉴럴 네트워크 기반 제 1 서브 모델에 상기 복수의 제 1 미응답 질의 데이터를 입력하고, 그리고 상기 제 1 서브 모델의 출력에 기초하여 적어도 하나의 제 2 미응답 질의 데이터를 획득할 수 있다.
본 개시는 인공 신경망을 이용하여 챗봇을 운영하는 방법을 제공할 수 있다.
도 1은 본 개시의 일 실시예에 따라 챗봇을 운영하기 위한 컴퓨팅 장치의 블록 구성도이다.
도 2는 본 개시의 일 실시예에 따라 뉴럴 네트워크를 나타낸 개략도이다.
도 3은 본 개시의 일 실시예에 따른 뉴럴 네트워크에 의한 입출력 데이터의 흐름을 도시한 개념도이다.
도 4는 본 개시의 일 실시예에 따른 챗봇 운영 방법에 대한 흐름도이다.
도 5은 본 개시의 다른 일 실시예에 따른 챗봇 운영 방법에 대한 흐름도이다.
도 6은 본 개시의 실시예들이 구현될 수 있는 예시적인 컴퓨팅 환경에 대한 간략하고 일반적인 개략도이다.
다양한 실시예들이 이제 도면을 참조하여 설명된다. 본 명세서에서, 다양한 설명들이 본 개시의 이해를 제공하기 위해서 제시된다. 그러나, 이러한 실시예들은 이러한 구체적인 설명 없이도 실행될 수 있음이 명백하다.
본 명세서에서 사용되는 용어 "컴포넌트", "모듈", "시스템" 등은 컴퓨터-관련 엔티티, 하드웨어, 펌웨어, 소프트웨어, 소프트웨어 및 하드웨어의 조합, 또는 소프트웨어의 실행을 지칭한다. 예를 들어, 컴포넌트는 프로세서상에서 실행되는 처리과정(procedure), 프로세서, 객체, 실행 스레드, 프로그램, 및/또는 컴퓨터일 수 있지만, 이들로 제한되는 것은 아니다. 예를 들어, 컴퓨팅 장치에서 실행되는 애플리케이션 및 컴퓨팅 장치 모두 컴포넌트일 수 있다. 하나 이상의 컴포넌트는 프로세서 및/또는 실행 스레드 내에 상주할 수 있다. 일 컴포넌트는 하나의 컴퓨터 내에 로컬화 될 수 있다. 일 컴포넌트는 2개 이상의 컴퓨터들 사이에 분배될 수 있다. 또한, 이러한 컴포넌트들은 그 내부에 저장된 다양한 데이터 구조들을 갖는 다양한 컴퓨터 판독가능한 매체로부터 실행할 수 있다. 컴포넌트들은 예를 들어 하나 이상의 데이터 패킷들을 갖는 신호(예를 들면, 로컬 시스템, 분산 시스템에서 다른 컴포넌트와 상호작용하는 하나의 컴포넌트로부터의 데이터 및/또는 신호를 통해 다른 시스템과 인터넷과 같은 네트워크를 통해 전송되는 데이터)에 따라 로컬 및/또는 원격 처리들을 통해 통신할 수 있다.
더불어, 용어 "또는"은 배타적 "또는"이 아니라 내포적 "또는"을 의미하는 것으로 의도된다. 즉, 달리 특정되지 않거나 문맥상 명확하지 않은 경우에, "X는 A 또는 B를 이용한다"는 자연적인 내포적 치환 중 하나를 의미하는 것으로 의도된다. 즉, X가 A를 이용하거나; X가 B를 이용하거나; 또는 X가 A 및 B 모두를 이용하는 경우, "X는 A 또는 B를 이용한다"가 이들 경우들 어느 것으로도 적용될 수 있다. 또한, 본 명세서에 사용된 "및/또는"이라는 용어는 열거된 관련 아이템들 중 하나 이상의 아이템의 가능한 모든 조합을 지칭하고 포함하는 것으로 이해되어야 한다.
또한, "포함한다" 및/또는 "포함하는"이라는 용어는, 해당 특징 및/또는 구성요소가 존재함을 의미하는 것으로 이해되어야 한다. 다만, "포함한다" 및/또는 "포함하는"이라는 용어는, 하나 이상의 다른 특징, 구성요소 및/또는 이들의 그룹의 존재 또는 추가를 배제하지 않는 것으로 이해되어야 한다. 또한, 달리 특정되지 않거나 단수 형태를 지시하는 것으로 문맥상 명확하지 않은 경우에, 본 명세서와 청구범위에서 단수는 일반적으로 "하나 또는 그 이상"을 의미하는 것으로 해석되어야 한다.
그리고, “A 또는 B 중 적어도 하나”이라는 용어는, “A만을 포함하는 경우”, “B 만을 포함하는 경우”, “A와 B의 구성으로 조합된 경우”를 의미하는 것으로 해석되어야 한다.
당업자들은 추가적으로 여기서 개시된 실시예들과 관련되어 설명된 다양한 예시적 논리적 블록들, 구성들, 모듈들, 회로들, 수단들, 로직들, 및 알고리즘 단계들이 전자 하드웨어, 컴퓨터 소프트웨어, 또는 양쪽 모두의 조합들로 구현될 수 있음을 인식해야 한다. 하드웨어 및 소프트웨어의 상호교환성을 명백하게 예시하기 위해, 다양한 예시적 컴포넌트들, 블록들, 구성들, 수단들, 로직들, 모듈들, 회로들, 및 단계들은 그들의 기능성 측면에서 일반적으로 위에서 설명되었다. 그러한 기능성이 하드웨어로 또는 소프트웨어로서 구현되는지 여부는 전반적인 시스템에 부과된 특정 어플리케이션(application) 및 설계 제한들에 달려 있다. 숙련된 기술자들은 각각의 특정 어플리케이션들을 위해 다양한 방법들로 설명된 기능성을 구현할 수 있다. 다만, 그러한 구현의 결정들이 본 개시내용의 영역을 벗어나게 하는 것으로 해석되어서는 안 된다.
제시된 실시예들에 대한 설명은 본 개시의 기술 분야에서 통상의 지식을 가진 자가 본 발명을 이용하거나 또는 실시할 수 있도록 제공된다. 이러한 실시예들에 대한 다양한 변형들은 본 개시의 기술 분야에서 통상의 지식을 가진 자에게 명백할 것이다. 여기에 정의된 일반적인 원리들은 본 개시의 범위를 벗어남이 없이 다른 실시예들에 적용될 수 있다. 그리하여, 본 발명은 여기에 제시된 실시예 들로 한정되는 것이 아니다. 본 발명은 여기에 제시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위에서 해석되어야 할 것이다.
도 1은 본 개시의 일 실시예에 따라 챗봇을 운영하기 위한 컴퓨팅 장치의 블록 구성도이다.
도 1에 도시된 컴퓨팅 장치(100)의 구성은 간략화 하여 나타낸 예시일 뿐이다. 본 개시의 일 실시예에서 컴퓨팅 장치(100)는 컴퓨팅 장치(100)의 컴퓨팅 환경을 수행하기 위한 다른 구성들이 포함될 수 있고, 개시된 구성들 중 일부만이 컴퓨팅 장치(100)를 구성할 수도 있다.
컴퓨팅 장치(100)는 프로세서(110), 메모리(130), 네트워크부(150)를 포함할 수 있다.
프로세서(110)는 하나 이상의 코어로 구성될 수 있으며, 컴퓨팅 장치의 중앙 처리 장치(CPU: central processing unit), 범용 그래픽 처리 장치 (GPGPU: general purpose graphics processing unit), 텐서 처리 장치(TPU: tensor processing unit) 등의 데이터 분석, 딥러닝을 위한 프로세서를 포함할 수 있다. 프로세서(110)는 메모리(130)에 저장된 컴퓨터 프로그램을 판독하여 본 개시의 챗봇 운영을 위한 데이터 처리를 수행할 수 있다.
본 개시의 일 실시예에 따르면, 메모리(130)는 프로세서(110)가 생성하거나 결정한 임의의 형태의 정보 및 네트워크부(150)가 수신한 임의의 형태의 정보를 저장할 수 있다.
본 개시의 일 실시예에 따르면, 메모리(130)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 컴퓨팅 장치(100)는 인터넷(internet) 상에서 상기 메모리(130)의 저장 기능을 수행하는 웹 스토리지(web storage)와 관련되어 동작할 수도 있다. 전술한 메모리에 대한 기재는 예시일 뿐, 본 개시는 이에 제한되지 않는다.
본 개시에서 네트워크부(150)는 유선 및 무선 등과 같은 그 통신 양태를 가리지 않고 다양한 통신 시스템들을 사용할 수 있다.
도 1에 도시된 컴퓨팅 장치(100)에 관한 구성은 컴퓨팅 장치 구성을 간략화 하여 나타낸 예시일 뿐이다. 본 개시의 일 실시예에서 컴퓨팅 장치(100)는 컴퓨팅 장치(100)의 컴퓨팅 환경을 수행하기 위한 다른 구성들이 포함될 수 있고, 개시된 구성들 중 일부만이 컴퓨팅 장치(100)를 구성할 수도 있다.
본 개시에 따른 프로세서(110)는 뉴럴 네트워크 기반 자연어 처리 모델에 복수의 미분류 질의 데이터를 입력할 수 있다.
본 개시에 있어서 "질의 데이터"는 답변이 요구되는 문장에 기반하여 생성된 데이터일 수 있다. 답변이 요구되는 문장은 예를 들어, “삼성생명 본사가 어디야?”, “지금 내 생애주기에 따른 보험 상품 추천 해줄래?” 등과 같은 자연어로 구성된 문장일 수 있다. 본 개시에 있어서 “응답 데이터”는 “질의 데이터”가 기초하는 답변이 요구되는 문장에 대응되는 답변 문장에 기반하여 생성된 데이터일 수 있다. 답변이 요구되는 문장에 대응되는 답변 문장은 예를 들어, “서울특별시 서초구 서초대로74길 11 삼성생명보험주식회사”, “삼성생명 통합유니버설 종신보험 6.0” 등의 문장일 수 있다. 프로세서(110)는 각각의 문장에 대해 전처리 작업을 수행하여 "질의 데이터" 및 “응답 데이터”를 생성할 수 있다. “질의 데이터” 및 “응답 데이터”를 생성하기 위한 전처리 작업은, 예를 들어, 자연어로 구성된 문장을 수치 해석이 가능한 벡터로 변환하는 작업을 포함할 수 있다. 본 개시내용에 있어서 “수치 해석이 가능한 벡터”라는 용어는 “임베딩 벡터”라는 용어와 상호 교환적으로 사용될 수 있다. “질의 데이터”는 답변이 요구되는 문장을 표현하는 임베딩 벡터일 수 있다. “응답 데이터”는 각각 “질의 데이터”와 매칭되고, 답변이 요구되는 문장에 상응하는 답변 문장을 표현하는 임베딩 벡터일 수 있다.
임베딩 벡터는 문자 또는 문장 단위의 자연어를 벡터로 표현하기 위한 임의의 방법에 기초하여 산출될 수 있다. 구체적인 일 실시예에 있어서, 자연어를 벡터로 표현하기 위한 방법은 희소 표현(Sparse Representation) 방법일 수 있다. 희소 표현 방법은 원-핫 인코딩(One-Hot Encoding) 방식의 벡터 표현 방법을 포함할 수 있다. 다른 일 실시예에 있어서, 자연어를 벡터로 표현하기 위한 임의의 방법은 밀집 표현(Dense Representation) 방법일 수 있다. 밀집 표현 방법은, 벡터의 원소 값이 실수 값을 가질 수 있다. 밀집 표현 방법은 뉴럴 네트워크 기반의 벡터 연산 방법을 포함할 수 있다. 밀집 표현 방법에는 예를 들어, word2vec, Skip-gram, CBOW, FastText, Glove, ELMo, Masked language model 등의 기법이 사용될 수 있다. 전술한 임베딩 벡터에 관한 구체적인 기재는 자연어를 벡터로 표현하는 다양한 실시예를 예시적으로 기재한 것일 뿐, 본 개시는 자연어를 벡터로 변환하는 다양한 전처리 작업을 제한없이 포함할 수 있다.
본 개시내용에 있어서, "미분류 질의 데이터"는 컴퓨팅 장치(100)에 기 입력된 질의 데이터일 수 있다. "미분류 질의 데이터"는 상응하는 응답 데이터의 존재 여부 또는 상응하는 것으로 판단된 응답 데이터가 실제 정답인지 여부 등이 확인되지 않은 질의 데이터일 수 있다. "미분류 질의 데이터"는 자연어 처리 모델 또는 자연어 처리 모델을 포함하는 챗봇 기반의 서비스 제공 과정에서 사용자로부터 획득된 데이터일 수 있다. 본 개시는 미분류 질의 데이터를 정제하고 자연어 처리 모델을 업데이트하여 효율적으로 챗봇을 운영할 수 있는 방법을 개시한다.
도 2는 본 개시의 일 실시예에 따라 뉴럴 네트워크를 나타낸 개략도이다. 본 개시내용에 있어서, '뉴럴 네트워크','신경망', '인공 신경망', '네트워크 함수' 등의 용어들은 상호 교환적으로 사용될 수 있다. 뉴럴 네트워크는 일반적으로 노드라 지칭될 수 있는 상호 연결된 계산 단위들의 집합으로 구성될 수 있다. 이러한 노드들은 뉴런(neuron)들로 지칭될 수도 있다. 뉴럴 네트워크는 적어도 하나의 노드들을 포함하여 구성된다. 뉴럴 네트워크를 구성하는 노드(또는 뉴런)들은 하나 이상의 링크에 의해 상호 연결될 수 있다.
뉴럴 네트워크 내에서, 링크를 통해 연결된 하나 이상의 노드들은 상대적으로 입력 노드 및 출력 노드의 관계를 형성할 수 있다. 입력 노드 및 출력 노드의 개념은 상대적인 것으로서, 하나의 노드에 대하여 출력 노드 관계에 있는 임의의 노드는 다른 노드와의 관계에서 입력 노드 관계에 있을 수 있으며, 그 역도 성립할 수 있다. 상술한 바와 같이, 입력 노드 대 출력 노드 관계는 링크를 중심으로 생성될 수 있다. 하나의 입력 노드에 하나 이상의 출력 노드가 링크를 통해 연결될 수 있으며, 그 역도 성립할 수 있다.
하나의 링크를 통해 연결된 입력 노드 및 출력 노드 관계에서, 출력 노드의 데이터는 입력 노드에 입력된 데이터에 기초하여 그 값이 결정될 수 있다. 여기서 입력 노드와 출력 노드를 상호 연결하는 링크는 가중치(weight)를 가질 수 있다. 가중치는 가변적일 수 있으며, 뉴럴 네트워크가 원하는 기능을 수행하기 위해, 사용자 또는 알고리즘에 의해 가변(i.e. 업데이트)될 수 있다. 예를 들어, 하나의 출력 노드에 하나 이상의 입력 노드가 각각의 링크에 의해 상호 연결된 경우, 출력 노드는 상기 출력 노드와 연결된 입력 노드들에 입력된 값들 및 각각의 입력 노드들에 대응하는 링크에 설정된 가중치에 기초하여 출력 노드 값을 결정할 수 있다.
상술한 바와 같이, 뉴럴 네트워크는 하나 이상의 노드들이 하나 이상의 링크를 통해 상호 연결되어 신경망 내에서 입력 노드 및 출력 노드 관계를 형성한다. 뉴럴 네트워크 내에서 노드들과 링크들의 개수 및 노드들과 링크들 사이의 연관관계, 링크들 각각에 부여된 가중치의 값에 따라, 뉴럴 네트워크의 특성이 결정될 수 있다. 예를 들어, 동일한 개수의 노드 및 링크들이 존재하고, 링크들의 가중치 값이 상이한 두 뉴럴 네트워크가 존재하는 경우, 두 개의 뉴럴 네트워크들은 서로 상이한 것으로 인식될 수 있다.
뉴럴 네트워크는 하나 이상의 레이어(layer)를 포함할 수 있다. 레이어는 하나 이상의 노드를 포함할 수 있다. 뉴럴 네트워크를 구성하는 노드들 중 일부는, 최초 입력 노드로부터의 거리들에 기초하여, 하나의 레이어(layer)를 구성할 수 있다. 예를 들어, 최초 입력 노드로부터 거리가 n인 노드들의 집합은, n번째 레이어를 구성할 수 있다. 최초 입력 노드로부터 거리는, 최초 입력 노드로부터 해당 노드까지 도달하기 위해 거쳐야 하는 링크들의 최소 개수에 의해 정의될 수 있다. 그러나, 이러한 레이어의 정의는 설명을 위한 임의적인 것으로서, 뉴럴 네트워크 내에서 레이어의 차수는 상술한 것과 상이한 방법으로 정의될 수 있다. 예를 들어, 노드들의 레이어는 최종 출력 노드로부터 거리에 의해 정의될 수도 있다.
최초 입력 노드는 뉴럴 네트워크 내의 노드들 중 다른 노드들과의 관계에서 링크를 거치지 않고 데이터가 직접 입력되는 하나 이상의 노드들을 의미할 수 있다. 또는, 뉴럴 네트워크 내에서, 링크를 기준으로 한 노드 간의 관계에 있어서, 링크로 연결된 다른 입력 노드들을 가지지 않는 노드들을 의미할 수 있다. 이와 유사하게, 최종 출력 노드는 뉴럴 네트워크 내의 노드들 중 다른 노드들과의 관계에서, 출력 노드를 가지지 않는 하나 이상의 노드들을 의미할 수 있다. 또한, 히든 노드는 최초 입력 노드 및 최후 출력 노드가 아닌 뉴럴 네트워크를 구성하는 노드들을 의미할 수 있다.
본 개시의 일 실시예에 따른 뉴럴 네트워크는 입력 레이어의 노드의 개수가 출력 레이어의 노드의 개수와 동일할 수 있으며, 입력 레이어에서 히든 레이어로 진행됨에 따라 노드의 수가 감소하다가 다시 증가하는 형태의 뉴럴 네트워크일 수 있다. 또한, 본 개시의 다른 일 실시예에 따른 뉴럴 네트워크는 입력 레이어의 노드의 개수가 출력 레이어의 노드의 개수 보다 적을 수 있으며, 입력 레이어에서 히든 레이어로 진행됨에 따라 노드의 수가 감소하는 형태의 뉴럴 네트워크일 수 있다. 또한, 본 개시의 또 다른 일 실시예에 따른 뉴럴 네트워크는 입력 레이어의 노드의 개수가 출력 레이어의 노드의 개수보다 많을 수 있으며, 입력 레이어에서 히든 레이어로 진행됨에 따라 노드의 수가 증가하는 형태의 뉴럴 네트워크일 수 있다. 본 개시의 또 다른 일 실시예에 따른 뉴럴 네트워크는 상술한 뉴럴 네트워크들이 조합된 형태의 뉴럴 네트워크일 수 있다.
딥 뉴럴 네트워크(DNN: deep neural network)는 입력 레이어와 출력 레이어 외에 복수의 히든 레이어를 포함하는 신경망을 의미할 수 있다. 딥 뉴럴 네트워크를 이용하면 데이터의 잠재적인 구조(latent structures)를 파악할 수 있다. 즉, 텍스트의 잠재적인 구조(예를 들어, 글의 내용과 감정이 무엇인지 등)를 파악할 수 있다. 딥 뉴럴 네트워크는 컨볼루션 뉴럴 네트워크(CNN: convolutional neural network), 리커런트 뉴럴 네트워크(RNN: recurrent neural network), 오토 인코더(auto encoder), GAN(Generative Adversarial Networks), 제한 볼츠만 머신(RBM: restricted boltzmann machine), 심층 신뢰 네트워크(DBN: deep belief network), Q 네트워크, U 네트워크, 샴 네트워크, 적대적 생성 네트워크(GAN: Generative Adversarial Network) 등을 포함할 수 있다. 전술한 딥 뉴럴 네트워크의 기재는 예시일 뿐이며 본 개시는 이에 제한되지 않는다.
본 개시의 일 실시예에서 뉴럴 네트워크는 오토 인코더(autoencoder)를 포함할 수도 있다. 오토 인코더는 입력 데이터와 유사한 출력 데이터를 출력하기 위한 인공 신경망의 일종일 수 있다. 오토 인코더는 적어도 하나의 히든 레이어를 포함할 수 있으며, 홀수 개의 히든 레이어가 입출력 레이어 사이에 배치될 수 있다. 각각의 레이어의 노드의 수는 입력 레이어의 노드의 수에서 병목 레이어(인코딩)라는 중간 레이어로 축소되었다가, 병목 레이어에서 출력 레이어(입력 레이어와 대칭)로 축소와 대칭되어 확장될 수도 있다. 오토 인코더는 비선형 차원 감소를 수행할 수 있다. 입력 레이어 및 출력 레이어의 수는 입력 데이터의 전처리 이후에 차원과 대응될 수 있다. 오토 인코더 구조에서 인코더에 포함된 히든 레이어의 노드의 수는 입력 레이어에서 멀어질수록 감소하는 구조를 가질 수 있다. 병목 레이어(인코더와 디코더 사이에 위치하는 가장 적은 노드를 가진 레이어)의 노드의 수는 너무 작은 경우 충분한 양의 정보가 전달되지 않을 수 있으므로, 특정 수 이상(예를 들어, 입력 레이어의 절반 이상 등)으로 유지될 수도 있다.
뉴럴 네트워크는 교사 학습(supervised learning), 비교사 학습(unsupervised learning), 반교사학습(semi supervised learning), 또는 강화학습(reinforcement learning) 중 적어도 하나의 방식으로 학습될 수 있다. 뉴럴 네트워크의 학습은 뉴럴 네트워크가 특정한 동작을 수행하기 위한 지식을 뉴럴 네트워크에 적용하는 과정일 수 있다.
뉴럴 네트워크는 출력의 오류를 최소화하는 방향으로 학습될 수 있다. 뉴럴 네트워크의 학습에서 반복적으로 학습 데이터를 뉴럴 네트워크에 입력시키고 학습 데이터에 대한 뉴럴 네트워크의 출력과 타겟의 에러를 계산하고, 에러를 줄이기 위한 방향으로 뉴럴 네트워크의 에러를 뉴럴 네트워크의 출력 레이어에서부터 입력 레이어 방향으로 역전파(backpropagation)하여 뉴럴 네트워크의 각 노드의 가중치를 업데이트 하는 과정이다. 교사 학습의 경우 각각의 학습 데이터에 정답이 라벨링 되어있는 학습 데이터를 사용하며(즉, 라벨링된 학습 데이터), 비교사 학습의 경우는 각각의 학습 데이터에 정답이 라벨링되어 있지 않을 수 있다. 즉, 예를 들어 데이터 분류에 관한 교사 학습의 경우의 학습 데이터는 학습 데이터 각각에 카테고리가 라벨링 된 데이터 일 수 있다. 라벨링된 학습 데이터가 뉴럴 네트워크에 입력되고, 뉴럴 네트워크의 출력(카테고리)과 학습 데이터의 라벨을 비교함으로써 오류(error)가 계산될 수 있다. 다른 예로, 데이터 분류에 관한 비교사 학습의 경우 입력인 학습 데이터가 뉴럴 네트워크 출력과 비교됨으로써 오류가 계산될 수 있다. 계산된 오류는 뉴럴 네트워크에서 역방향(즉, 출력 레이어에서 입력 레이어 방향)으로 역전파 되며, 역전파에 따라 뉴럴 네트워크의 각 레이어의 각 노드들의 연결 가중치가 업데이트 될 수 있다. 업데이트 되는 각 노드의 연결 가중치는 학습률(learning rate)에 따라 변화량이 결정될 수 있다. 입력 데이터에 대한 뉴럴 네트워크의 계산과 에러의 역전파는 학습 사이클(epoch)을 구성할 수 있다. 학습률은 뉴럴 네트워크의 학습 사이클의 반복 횟수에 따라 상이하게 적용될 수 있다. 예를 들어, 뉴럴 네트워크의 학습 초기에는 높은 학습률을 사용하여 뉴럴 네트워크가 빠르게 일정 수준의 성능을 확보하도록 하여 효율성을 높이고, 학습 후기에는 낮은 학습률을 사용하여 정확도를 높일 수 있다.
뉴럴 네트워크의 학습에서 일반적으로 학습 데이터는 실제 데이터(즉, 학습된 뉴럴 네트워크를 이용하여 처리하고자 하는 데이터)의 부분집합일 수 있으며, 따라서, 학습 데이터에 대한 오류는 감소하나 실제 데이터에 대해서는 오류가 증가하는 학습 사이클이 존재할 수 있다. 과적합(overfitting)은 이와 같이 학습 데이터에 과하게 학습하여 실제 데이터에 대한 오류가 증가하는 현상이다. 예를 들어, 노란색 고양이를 보여 고양이를 학습한 뉴럴 네트워크가 노란색 이외의 고양이를 보고는 고양이임을 인식하지 못하는 현상이 과적합의 일종일 수 있다. 과적합은 머신러닝 알고리즘의 오류를 증가시키는 원인으로 작용할 수 있다. 이러한 과적합을 막기 위하여 다양한 최적화 방법이 사용될 수 있다. 과적합을 막기 위해서는 학습 데이터를 증가시키거나, 레귤라이제이션(regularization), 학습의 과정에서 네트워크의 노드 일부를 비활성화하는 드롭아웃(dropout), 배치 정규화 레이어(batch normalization layer)의 활용 등의 방법이 적용될 수 있다.
본 개시내용에 있어서, "뉴럴 네트워크 기반 X 모델", "뉴럴 네트워크 기반 Y 모델" 등의 용어는, 입력 데이터에 대하여 뉴럴 네트워크에 포함된 노드들 중 적어도 일부에 의해 연산이 이뤄지고 상기 연산의 결과에 기초하여 출력 데이터를 생성하는 뉴럴 네트워크 기반 모델을 지칭하기 위해 사용될 수 있다. "뉴럴 네트워크 기반 X 모델", "뉴럴 네트워크 기반 Y 모델"의 용어들에 있어서, "X", "Y"는 뉴럴 네트워크의 구조를 모델을 서로 구별하기 위해 사용될 수 있다. 본 명세서에 걸쳐, "뉴럴 네트워크 기반 X 모델", "뉴럴 네트워크 기반 Y 모델"은 간략히 "X 모델", "Y 모델"로 각각 상호 교환적으로 사용될 수 있다. 또한, 본 명세서에 걸쳐 "뉴럴 네트워크" 또는 "뉴럴 네트워크 기반 모델"등의 용어는"뉴럴 네트워크 기반 X 모델", "뉴럴 네트워크 기반 Y 모델"을 구분없이 통칭하기 위해 사용될 수 있다.
이하에서는 본 개시에 따른 자연어 처리 모델의 및 학습 방법에 대하여 서술한다. 본 개시에 따른 뉴럴 네트워크 기반 자연어 처리 모델은, 둘 이상의 학습 데이터를 포함하는 학습 데이터 셋에 기초하여 학습될 수 있다. 뉴럴 네트워크 기반 자연어 처리 모델을 학습시키기 위한 학습 데이터는 학습 질의 데이터 및 각 학습 응답 데이터를 포함할 수 있다.
본 개시내용에 있어서 "학습 질의 데이터"는 뉴럴 네트워크 기반 자연어 처리모델의 학습을 위해 입력되는 질의 데이터일 수 있다. "학습 질의 데이터"는 질의 데이터 중에서도 상응하는 학습 응답 데이터가 사전에 매칭된 질의 데이터일 수 있다. 여기서 "학습 응답 데이터"는 각각의 학습 질의 데이터에 상응되는 답변에 관한 데이터일 수 있다. 예를 들어, 'X' 학습 질의 데이터가 "계약 만료일이 언제인가요?"라는 문장에 관한 데이터일 때, 상응하는 'Y' 학습 응답 데이터는 "0000년 00월 00일"를 표현한 데이터일 수 있다. 학습 질의 데이터와 학습 응답 데이터는 각각 일대일(one-to-one) 관계로 매칭될 수 있다. 또한, 학습 질의 데이터와 학습 응답 데이터는 다대일(many-to-one) 관계로 매칭될 수 있다. 학습 질의 데이터 : 학습 응답 데이터의 관계가 다대일일 경우, 하나의 학습 응답 데이터에 매칭된 복수의 학습 질의 데이터는 유사한 의미를 갖는 질문 문장들에 기초하여 생성된 데이터일 수 있다. 일례로, "계약이 언제 끝나나요?", "언제까지 계약되어 있나요?" 등의 문장들에 관한 학습 질의 데이터는 전술한 "계약 만료일이 언제인가요?"라는 문장에 관한 'X' 학습 질의 데이터와 함께 'Y' 학습 응답 데이터에 다대일의 관계로서 매칭될 수 있다. 전술한 학습 데이터 셋에 관한 서술은 본 개시의 실시를 위한 설명일 뿐 본 개시를 제한하지 않으며 본 개시는 뉴럴 네트워크 기반 자연어 처리 모델을 학습시키기 위한 다양한 실시예를 포함할 수 있다.
뉴럴 네트워크 기반 자연어 처리 모델은 학습 질의 데이터를 입력받아 상응하는 학습 응답 데이터를 출력하도록 학습될 수 있다. 뉴럴 네트워크 기반 자연어 처리 모델의 학습과정에서는 자연어 처리 모델에 포함된 적어도 하나의 파라미터의 값이 변경될 수 있다. 예를 들어, "가입을 하고 몇 달 후에 사망한 경우에도 보장되나요?"라는 문장에 대응되는 학습 질의 데이터는 [3.5, 2.1, 12.5, 9.6, 4.7]과 같은 임베딩 벡터로 표현될 수 있다. 이 때, "제 1 회 보험료를 납입하신 시점부터 보장이 시작됩니다."라는 문장에 대응되는 학습 응답 데이터의 임베딩 벡터가 [1, 2.5, 3.6, 0, 7.8]과 같을 경우에 자연어 처리 모델은 [3.5, 2.1, 12.5, 9.6, 4.7]라는 임베딩 벡터를 입력받아 출력으로 [1, 2.5, 3.6, 0, 7.8]와 유사한 출력 벡터를 생성하기 위해 학습될 수 있다. 학습 질의 데이터 및 학습 응답 데이터의 표현 형태인 임베딩 벡터는 자연어 처리 모델의 학습 이전에 별도의 학습을 통해 확정되었을 수 있다. 또한 임베딩 벡터를 생성하기 위한 임베딩 모델은 자연어 처리 모델의 학습 과정에서 일련의 연결을 통해 동시에 학습될 수도 있다. 전술한 학습 대상 문장 및 임베딩 벡터에 관한 구체적인 기재는 이해를 돕기 위한 예시적 기재일 뿐 본 개시를 제한하지 않는다.
본 개시에 따른 뉴럴 네트워크 기반 자연어 처리 모델은 둘 이상의 학습 데이터에 각각에 포함된 학습 질의 데이터 사이의 유사도에 기초하여 학습될 수 있다. 여기서 '학습 질의 데이터 사이의 유사도'는 임베딩 벡터 사이의 유사도에 기초하여 산출될 수 있다. 일례로, 뉴럴 네트워크 기반 자연어 처리 모델은 둘 이상의 학습 질의 데이터 사이의 유사도를 각각의 임베딩 벡터 간의 코사인 유사도에 기초하여 연산할 수 있다. 코사인 유사도는 -1에서 1사이의 값을 가지며, 그 값이 클수록 두 벡터는 유사한 벡터임을 의미한다. 본 개시에 따른 뉴럴 네트워크 기반 자연어 처리 모델은 둘 이상의 문장간 의미적 유사 여부를 판단하기 위해 학습될 수 있다.
본 개시의 일 실시예에 따른 뉴럴 네트워크 기반 자연어 처리 모델은 서로 유사한 A 문장 및 B 문장을 입력 받아 유사 여부에 관한 확신도를 산출할 수 있다. A 문장 및 B 문장 사이에서 산출된 확신도는 실제 정답(e.g. 1) 레이블과 비교될 수 있고, 뉴럴 네트워크 기반 자연어 처리 모델은 상기 비교 결과에 관한 역전파(back propagation) 기법을 통해 학습될 수 있다. 또한 자연어 처리 모델은 서로 의미적으로 유사하지 않은 C 문장 및 D 문장을 입력 받아 유사 여부에 관한 확신도를 산출할 수 있다. 뉴럴 네트워크 기반 자연어 처리 모델은 C 문장 및 D 문장 사이의 유사도를 산출할 수 있으며 이를 실제 정답(e.g. 0) 레이블과 비교한 뒤 역전파(back propagation) 기법을 통해 학습될 수 있다.
본 개시에 있어서 학습된 뉴럴 네트워크 기반 자연어 처리 모델은 자연어 처리 모델을 학습시키기 위해 사용된 학습 데이터 셋에 포함된 적어도 하나의 학습 질의 데이터와 미분류 질의 데이터 사이의 유사도를 산출할 수 있다. 뉴럴 네트워크 기반 자연어 처리 모델은 학습 데이터 셋에 포함된 적어도 하나의 학습 질의 데이터와 미분류 질의 데이터 사이에서 산출된 유사도 및 설정된 유사도 임계값을 비교하여 미분류 질의 데이터를 처리할 수 있다. 본 개시에 있어서 "유사도 임계값"은 뉴럴 네트워크 기반 자연어 처리 모델의 사용 목적 등에 따라 둘 이상의 값을 가질 수 있다. 둘 이상의 유사도 임계값은 그 구분을 위해 서로 다르게 명명될 수 있다. 일례로 "오답 선별을 위한 유사도 임계값" 및 "챗봇 서비스 제공을 위한 유사도 임계값"은 각각 뉴럴 네트워크 기반 자연어 처리 모델의 사용 목적에 따라 구별되는 유사도 임계값의 호칭을 나타낸다.
본 개시에 있어서 "챗봇 서비스 제공을 위한 유사도 임계값"은 정확도와 응답성을 동시에 만족하기 위해 적절한 값으로 설정될 수 있다. 챗봇 서비스 제공을 위한 유사도 임계값은 뉴럴 네트워크 기반 자연어 처리 모델의 학습 결과에 따라 적절한 값으로 설정될 수 있다. 자연어 처리 모델의 학습 결과 특정 임계값을 기준으로 자연어 처리 모델의 응답률 또는 정확성이 크게 변화하는 경우, 이러한 특정 임계값에 기초하여 챗봇 서비스 제공을 위한 유사도 임계값이 설정될 수 있다. 챗봇 서비스 제공을 위한 유사도 임계값은 예를 들어 0.7, 0.8 등과 같은 실수일 수 있다.
본 개시에 있어서, "오답 선별을 위한 유사도 임계값"은 정확도만을 고려한 값으로 설정될 수 있다. 오답 선별을 위한 유사도 임계값은 챗봇 서비스 제공을 위한 유사도 임계값보다 큰 값으로 설정될 수 있다. 오답 선별을 위한 유사도 임계값은 자연어 처리 모델의 응답률이 낮더라도 응답된 질의 데이터에 대해서는 정답을 출력할 수 있도록 설정될 수 있다. 예를 들어 오답 선별을 위한 유사도 임계값은 0.99 등과 같은 실수일 수 있다.
본 개시에 따른 뉴럴 네트워크 기반 자연어 처리 모델은 입력된 미분류 질의 데이터에 대해 산출된 유사도를 설정된 유사도 임계값과 비교할 수 있다.
본 개시의 제 1 실시예에 있어서 뉴럴 네트워크 기반 자연어 처리 모델은 입력된 미분류 질의 데이터에 대해 산출된 유사도가 사전 설정된 유사도 임계값보다 크거나 같을 경우, 미분류 질의 데이터를 위한 응답 데이터를 출력할 수 있다. 미분류 질의 데이터를 위한 응답 데이터는, 미분류 질의 데이터와 유사하다고 산출된 학습 질의 데이터들 중 산출된 유사도가 가장 높은 학습 질의 데이터와 매칭되어 있는 응답 데이터일 수 있다. 본 개시에 따른 자연어 처리 모델은 상술한 바와 같이 기존의 학습 데이터 셋에 기초하여 미분류 질의 데이터와 가장 유사한 학습 질의 데이터를 탐색하고 산출된 유사도 및 설정된 유사도 임계값을 비교함으로써 미분류 질의 데이터에 대한 응답 데이터를 출력할 수 있다.
본 개시의 제 2 실시예에 있어서 뉴럴 네트워크 기반 자연어 처리 모델은 입력된 미분류 질의 데이터에 대해 산출된 유사도가 사전 설정된 유사도 임계값보다 작을 경우, 미분류 질의 데이터에 대해 응답 데이터를 출력하지 않을 수 있다. 이 경우, 뉴럴 네트워크 기반 자연어 처리 모델은 입력된 미분류 질의 데이터를 그대로 출력하거나 입력된 미분류 질의 데이터를 미응답 질의 데이터로 결정할 수 있다.
본 개시에 있어서 미응답 질의 데이터는 뉴럴 네트워크에 입력된 질의 데이터들 중 뉴럴 네트워크 학습의 기초가 된 학습 데이터 셋과의 비교 결과 유사한 학습 질의 데이터를 찾을 수 없어 응답 데이터를 산출할 수 없는 질의 데이터를 의미할 수 있다. 이 때 "응답 데이터를 산출할 수 없다"의 판단기준은 각 뉴럴 네트워크마다 설정된 유사도 임계값에 기초할 수 있다.
본 개시에 따른 프로세서(110)는 자연어 처리 모델의 출력에 기초하여 복수의 제 1 미응답 질의 데이터를 획득할 수 있다. 본 개시에 따른 프로세서(110)는 자연어 처리 모델의 출력에 기초하여, 오답 선별을 위한 유사도 임계값보다 작은 유사도를 가지는 것으로 산출된 미분류 질의 데이터를 제 1 미응답 질의 데이터로 결정할 수 있다. 제 1 미응답 질의 데이터들로 구성된 집합은 미분류 질의 데이터들로 구성된 집합의 부분 집합일 수 있다.
본 개시에 따른 프로세서(110)는 뉴럴 네트워크 기반 제 1 서브 모델에 복수의 제 1 미응답 질의 데이터를 입력할 수 있다.
본 개시내용에 있어서, 뉴럴 네트워크 기반 제 1 서브 모델의 구조 및 학습 방법은 뉴럴 네트워크에 기초한다는 점에서 도 2를 참조하여 전술한 내용과 동일하거나 유사하게 이해될 수 있다. 따라서 뉴럴 네트워크 기반 제 1 서브 모델이 뉴럴 네트워크 구조를 가짐에 따라 서술되어야 하는 내용은 중복되는 바 생략하고, 이하 차이점에 관하여 구체적으로 서술한다.
본 개시내용에 있어서, "제 1", "제 2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 명세서 전체적으로 지시 대상의 일관성을 유지하기 위해 사용될 뿐 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 따라서 필요에 따라 “제 1 미응답 질의 데이터”는 “제 2 미응답 질의 데이터”, “제 2 미응답 질의 데이터”는 “제 1 미응답 질의 데이터”로, 명세서 전체로서 지시 대상의 일관성을 유지하되 서로 변경되어 명명될 수도 있다. 또한 “제 1 서브 모델” 및 “제 2 서브 모델”의 용어도 같은 방식으로 해석되어야 한다.
본 개시에 따른 자연어 처리 모델 및 제 1 서브 모델은, 각각 서로 다른 학습 데이터 셋에 기초하여 학습될 수 있다. 언어를 다루는 인공 신경망을 학습 시키기 위해서는 학습을 위한 학습 데이터 셋의 구성이 중요할 수 있다. 본 개시에 따른 자연어 처리 모델 및 제 1 서브 모델은 각기 서로 다른 학습 데이터 셋에 기초하여 학습됨으로써 보다 정확한 유사도 산출의 대상이 되는 문장 유형이 서로 다를 수 있다.
본 개시에 따른 뉴럴 네트워크 기반 제 1 서브 모델은 뉴럴 네트워크 기반 자연어 처리 모델이 오답 선별을 위한 유사도 임계값을 갖도록 설정된 상태에서 출력한 적어도 하나의 미응답 질의 데이터에 기초하여 학습될 수 있다. 오답 선별을 위한 유사도 임계값은, 예를 들어, 0.99 등과 같은 실수일 수 있다.
자연어 처리 모델을 이용한 챗봇 서비스 운영 과정에서는 응답률을 높이는 것 뿐만 아니라 응답된 데이터에 대해 적절한 답변이 제공되었는지 여부가 매우 중요하며 이로 인해 모든 데이터에 대한 검수가 요구될 수 있다. 본 개시에 따른 챗봇 운영 방법은 자연어 처리 모델이 갖는 유사도 임계값을 조절함에 따라 미응답 데이터만을 검수 대상 데이터로 결정하는 방법을 개시한다. 즉, 본 개시에 따른 챗봇 운영 방법은 자연어 처리 모델이 오답 선별을 위한 유사도 임계값(e.g. 0.99 등)을 갖도록 설정한 후 복수의 미분류 질의 데이터를 입력함으로써, 최소한 자연어 처리 모델에 의해 응답이 이루어진 질의 데이터에는 제대로 된 응답 데이터가 출력되었음을 보장한다. 그 결과 본 개시에 따른 챗봇 운영 방법은, 자연어 처리 모델에 입력된 미분류 질의 데이터 중 미응답 질의 데이터로 결정된 질의 데이터만 검수 대상 데이터로 결정할 수 있도록 한다. 이는 응답된 질의 데이터의 응답 정확성을 향상시킴으로써 사용자에 의해 검수 작업이 요구되는 미분류 질의 데이터의 수가 감소되는 효과를 갖는다.
본 개시에 따른 뉴럴 네트워크 기반 제 1 서브 모델을 학습시키기 위한 학습 데이터 셋은, 학습이 완료된 뉴럴 네트워크 기반 자연어 처리 모델의 성능 테스트를 위한 테스트 데이터 셋에 기초하여 생성될 수 있다. 본 개시에 있어서 학습 데이터 셋과 테스트 데이터 셋은 그 사용 목적 및 데이터 개수에만 차이가 있을 뿐, 각각의 데이터 셋을 구성하는 데이터의 유형 및 형태는 동일할 수 있다. 따라서 테스트 데이터 셋에 포함된 테스트 데이터 또한 학습 데이터와 유사하게 테스트 질의 데이터 및 상응하는 테스트 응답 데이터를 포함할 수 있다.
일반적으로 뉴럴 네트워크를 학습시키기 위한 학습 데이터 셋과 테스트 데이터 셋은 서로 구분된다. 자연어 처리 모델의 테스트 데이터 셋은 자연어 처리 모델의 성능을 평가하는 과정에서만 사용되는 데이터 셋일 수 있다. 본 개시에 따른 제 1 서브 모델은 자연어 처리 모델에 대한 테스트 데이터 셋에 기초하여 학습될 수 있다. 구체적으로, 뉴럴 네트워크 기반 자연어 처리 모델은 약 50만 개의 학습 데이터를 포함하는 학습 데이터 셋에 기초하여 학습될 수 있다. 그 후 학습 결과를 확인하기 위해 자연어 처리 모델은 약 1 만개의 테스트 데이터를 포함하는 테스트 데이터 셋에 기초하여 성능 테스트가 수행될 수 있다. 성능 테스트를 위한 자연어 처리 모델은 오답 선별을 위한 유사도 임계값으로 설정될 수 있다. 이 때 자연어 처리 모델은 테스트 데이터 셋에 포함된 약 1 만개의 테스트 데이터 중 5 천개의 테스트 데이터를 각각 제 1 미응답 데이터로 결정할 수 있다. 뉴럴 네트워크 기반 제 1 서브 모델은 자연어 처리 모델에 의해 결정된 약 5 천개의 제 1 미응답 데이터들에 기초하여 학습될 수 있다. 전술한 학습 데이터의 수 및 미응답 데이터 비율 등에 관한 구체적인 기재는 설명을 위한 서술일 뿐 본 개시 내용을 제한하지 않는다. 본 개시에 따른 제 1 서브 모델은 자연어 처리 모델의 성능을 테스트하기 위한 테스트 데이터 셋의 적어도 일부에 기초하여 학습되므로 자연어 처리 모델이 제대로 응답하지 못하는 질의 데이터에 대하여 응답하기 위해 학습될 수 있다.
본 개시에 따른 프로세서(110)는 제 1 서브 모델의 출력에 기초하여 적어도 하나의 제 2 미응답 질의 데이터를 획득할 수 있다. 프로세서(110)는 제 1 서브 모델이 산출하는 복수의 제 1 미응답 질의 데이터 각각에 대한 유사도에 기초하여 적어도 하나의 제 2 미응답 질의 데이터를 획득할 수 있다. 제 2 미응답 질의 데이터들로 구성된 집합은 제 1 미응답 질의 데이터들로 구성된 집합의 부분 집합일 수 있다. 본 개시에 따른 챗봇 운영 방법은 복수의 서로 다른 뉴럴 네트워크 모델을 이용하여 수행되는 복수의 선별 작업을 통해 검수 대상 데이터의 수가 감소되는 효과를 갖는다. 구체적으로, 오답 선별을 위한 유사도 임계값(e.g. 0.99 등)을 갖도록 설정된 자연어 처리 모델은 복수의 미분류 질의 데이터에 대해 1차적으로 선별 작업을 수행하고 제 1 미응답 질의 데이터를 분류해 낼 수 있다. 그 후, 학습된 뉴럴 네트워크 기반 제 1 서브 모델은 복수의 제 1 미응답 질의 데이터에 대해 2차적으로 선별 작업을 수행하여 제 2 미응답 질의 데이터들을 분류해낼 수 있다. 이하 도 3을 참조하여 본 개시내용을 설명한다.
도 3은 본 개시의 일 실시예에 따른 뉴럴 네트워크에 의한 입출력 데이터의 흐름을 도시한 개념도이다. 참조번호 330은 뉴럴 네트워크 기반 자연어 처리 모델, 참조번호 331은 뉴럴 네트워크 기반 제 1 서브 모델을 나타낸다. 자연어 처리 모델(330)은 입력된 미분류 질의 데이터(311) 중 산출된 유사도가 설정된 유사도 임계값을 초과하는 미분류 질의 데이터(311)를 제 1 응답 질의 데이터(333)로 결정할 수 있다. 본 개시에 있어서 응답 질의 데이터는 미분류 질의 데이터들 중 뉴럴 네트워크 모델에 의해 산출된 유사도가 유사도 임계값을 넘는 미분류 질의 데이터를 의미할 수 있다. “응답 질의 데이터”라는 용어는 “응답된 질의 데이터”라는 용어와 상호 교환적으로 사용될 수 있다. 자연어 처리 모델(330)은 입력된 미분류 질의 데이터(311) 중 산출된 유사도가 유사도 임계값을 넘지 못한 미분류 질의 데이터(311)를 제 1 미응답 질의 데이터(331)로 결정할 수 있다. 제 1 서브 모델(350)은 제 1 미응답 질의 데이터(331)를 다시 제 2 응답 질의 데이터(353) 또는 제 2 미응답 질의 데이터(351)로 구별할 수 있다. 제 1 서브 모델(350)은 입력된 제 1 미응답 질의 데이터(331) 중 산출된 유사도가 설정된 유사도 임계값을 초과하는 제 1 미응답 질의 데이터(331)를 제 2 응답 질의 데이터(353)로 결정할 수 있다. 제 1 서브 모델(350)은 입력된 제 1 미응답 질의 데이터(331) 중 산출된 유사도가 설정된 유사도 임계값을 초과하지 못하는 제 1 미응답 질의 데이터(331)를 제 2 미응답 질의 데이터(351)로 결정할 수 있다.
도 3을 참조한 예시에 있어서, 일례로 미분류 질의 데이터(311) 중 자연어 처리 모델(330)에 의해 제 1 미응답 질의 데이터(331)로 결정되었으나 제 1 서브 모델(350)에 의해 제 2 미응답 질의 데이터(351)로 결정되지 않은(i.e. 제 2 응답 질의 데이터(353)로 결정된) 질의 데이터는, 자연어 처리 모델(330)이 챗봇 서비스 제공을 위한 유사도 임계값이 아닌, 오답 선별을 위한 유사도 임계값을 가짐에 따라 제 1 미응답 질의 데이터(331)로 결정되었던 질의 데이터일 수 있다. 즉, 이러한 경우에 미분류 질의 데이터(311)는 자연어 처리 모델(330)이 챗봇 서비스 제공을 위한 유사도 기준보다 엄격한 기준(즉, 보다 높은 유사도 임계값)을 적용하게 되어 제 1 미응답 질의 데이터(331)로 결정되었으나, 제 1 서브 모델(350)에 의하여는 응답이 가능한 질의 데이터일 수 있다. 다른 예를 들어, 미분류 질의 데이터(311) 중 자연어 처리 모델(330) 및 제 1 서브 모델(350) 모두에 의해 미응답 질의 데이터로 결정됨으로써 최종적으로 제 2 미응답 질의 데이터(351)로 결정된 질의 데이터는, 자연어 처리 모델(330) 및 제 1 서브 모델(350) 모두에 기초하더라도 정확한 응답을 도출할 수 없는 질의 데이터일 수 있다. 이러한 미분류 질의 데이터(311)는 자연어 처리 모델(330) 및 제 1 서브 모델(350) 각각의 학습의 기초가 된 학습 데이터 셋 내에 존재하지 않는 신규한 질의 데이터일 수 있다.
본 개시에 따른 제 2 미응답 질의 데이터(351)로 구성된 집합은 제 1 미응답 질의 데이터(331)로 구성된 집합보다 검수의 중요성이 높은 질의 데이터의 비율(ratio)이 높을 수 있다. 예를 들어, "제 2 미응답 질의 데이터의 전체 개수" 대비 "제 2 미응답 질의 데이터 중 신규한 질의 데이터의 수" 의 크기는, "제 1 미응답 질의 데이터의 전체 개수" 대비 "제 1 미응답 질의 데이터 중 신규한 질의 데이터의 수" 의 크기보다 클 수 있다. 이처럼 본 개시에 따른 챗봇 운영 방법은 검수의 우선순위가 높은 데이터가 많이 포함된 순도 높은 검수 대상 데이터 집합을 제 2 미응답 질의 데이터에 기초하여 구성할 수 있다. 전술한 바와 같이 본 개시에 따른 자연어 처리 모델과 제 1 서브 모델은 서로 다른 학습 데이터 셋에 기초하여 학습된 바, 보다 정확한 유사도 산출의 대상이 되는 문장 유형이 다를 수 있고, 그 결과 본 개시에 따른 챗봇 운영 방법은 다수의 미분류 질의 데이터 중 검수가 필요한 질의 데이터를 효과적으로 선별하는 효과를 갖는다.
본 개시에 따른 프로세서(110)는 제 2 미응답 질의 데이터에 기초하여 추가 학습 데이터 셋을 구성할 수 있다. 프로세서(110)는 구성된 추가 학습 데이터 셋에 기초하여 뉴럴 네트워크 기반 자연어 처리 모델을 추가적으로 학습시킬 수 있다. 본 개시내용에 따라 획득된 제 2 미응답 질의 데이터는 검수의 중요성이 높은 질의 데이터일 수 있다. 뉴럴 네트워크 기반 자연어 처리 모델은 검수의 중요성이 높은 질의 데이터로 구성된 추가 학습 데이터 셋에 기초하여 재학습됨으로써 챗봇 서비스를 안정적으로 제공하기 위해 갱신될 수 있다. 본 개시에 따른 챗봇 운영 방법은 다수의 미분류 질의 데이터 중 검수가 필요한 질의 데이터를 효과적으로 선별할 뿐만 아니라 이에 기초하여 자연어 처리 모델이 향상된 성능을 갖도록 지속적으로 관리할 수 있는 효과를 갖는다.
본 개시에 따른 프로세서(110)는 신규 질의 데이터를 수신하고 뉴럴 네트워크 기반 자연어 처리 모델을 이용하여 신규 질의 데이터에 대한 응답 데이터를 획득할 수 있다. 프로세서(110)는 신규 질의 데이터에 대한 응답 데이터를 네트워크부(150) 또는 출력부(미도시)를 통해 사용자에게 전달할 수 있다. 본 개시에 있어서 “신규 질의 데이터”는 챗봇 서비스의 제공 과정에서 사용자에 의해 자연어 처리 모델로 입력되는 질의 데이터일 수 있다. “신규 질의 데이터”는 자연어 처리 모델을 학습시킨 학습 데이터 셋에 존재하는 질의 데이터와 유사한 질의 데이터일 수 있다. “신규 질의 데이터”는 자연어 처리 모델을 학습시킨 학습 데이터 셋에 존재하지 않는 유형의 질의 데이터일 수도 있다. 신규 질의 데이터에 대한 응답 데이터를 획득하기 위해 프로세서(110)는 뉴럴 네트워크 기반 자연어 처리 모델이 챗봇 서비스 제공을 위한 유사도 임계값을 갖도록 설정할 수 있다. 챗봇 서비스 제공을 위한 유사도 임계값은 응답률을 높이기 위한 값으로 설정될 수 있다. 챗봇 서비스 제공을 위한 유사도 임계값은 오답 선별을 위한 유사도 임계값 보다 작을 수 있다. 예를 들어, 챗봇 서비스 제공을 위한 유사도 임계값은 0.5, 0.7 등의 실수로 설정될 수 있다. 프로세서(110)는 학습된 뉴럴 네트워크 기반 자연어 처리 모델을 이용하여 신규 질의 데이터에 적합한 응답 데이터를 생성하고 이를 사용자에게 전달할 수 있다. 프로세서(110)는 신규 질의 데이터를 메모리(130)에 저장하여 미분류 질의 데이터 집합의 원소를 구성하도록 할 수 있다.
본 개시에 따른 프로세서(110)는 추가적인 과정을 통해 제 2 미응답 질의 데이터에서 검수 대상 데이터를 더욱 선별할 수 있다. 프로세서(110)는 제 2 미응답 질의 데이터로부터 제 3 미응답 질의 데이터를 획득할 수 있다. 프로세서(110)는 뉴럴 네트워크 기반 제 2 서브 모델에 복수의 제 2 미응답 질의 데이터를 입력한 결과로 제 2 서브 모델의 출력에 기초하여 적어도 하나의 제 3 미응답 질의 데이터를 획득할 수 있다.
본 개시에 따른 뉴럴 네트워크 기반 제 2 서브 모델은 전술한 자연어 처리 모델 및 제 1 서브 모델과 동일 또는 유사한 구조를 가질 수 있다. 뉴럴 네트워크 기반 제 2 서브 모델은 자연어 처리 모델 또는 제 1 서브 모델과는 상이한 학습 데이터 셋에 기초하여 학습될 수 있다. 본 개시에 있어서 둘 이상의 뉴럴 네트워크 모델은 서로 같은 파라미터 구조를 가지더라도 학습 데이터 셋이 다를 경우 서로 다른 모델로 구별될 수 있다.
본 개시에 따른 뉴럴 네트워크 기반 제 2 서브 모델을 학습시키기 위한 학습 데이터 셋은 학습이 완료된 뉴럴 네트워크 기반 제 1 서브 모델의 성능 테스트를 위한 테스트 데이터 셋에 기초하여 생성될 수 있다. 구체적으로, 뉴럴 네트워크 기반 제 1 서브 모델은 약 5 천개의 학습 데이터를 포함하는 학습 데이터 셋에 기초하여 학습될 수 있다. 여기서 약 5 천개의 학습 데이터를 포함하는 학습 데이터 셋은 상술한 자연어 처리 모델의 테스트 데이터 셋의 적어도 일부에 기초하여 생성될 수 있다. 제 1 서브 모델에 대한 학습 이후 제 1 서브 모델은 약 1 천개의 테스트 데이터를 포함하는 테스트 데이터 셋에 기초하여 성능 테스트가 수행될 수 있다. 이 때 제 1 서브 모델은 테스트 데이터 셋에 포함된 약 1 천개의 테스트 데이터 중 5백 개의 테스트 데이터를 각각 제 2 미응답 데이터로 결정할 수 있다. 뉴럴 네트워크 기반 제 2 서브 모델은 제 1 서브 모델에 의해 제 2 미응답 데이터로 결정된 약 5 백 개의 제 2 미응답 데이터들에 기초하여 학습될 수 있다. 전술한 학습 데이터의 수 및 미응답 데이터 비율 등에 관한 구체적인 기재는 설명을 위한 서술일 뿐 본 개시 내용을 제한하지 않는다.
본 개시의 챗봇 운영 방법에 따를 경우, 적어도 둘 이상의 뉴럴 네트워크 기반 서브 모델(i.e. 제 1 서브 모델, 제 2 서브 모델)을 이용하여 미분류 질의 데이터에서 검수 대상이 되는 데이터를 보다 정교하게 선별할 수 있다.
본 개시에 따른 챗봇 운영 방법의 효과를 서술하기 위해 자연어 처리 모델의 답변 정확도를 90%라 가정하자. 답변 정확도란, 유사도 임계값의 제한이 없는 상태(i.e. 설정된 유사도 임계값이 '0'인 상태)에 있어서 자연어 처리 모델이 입력된 질의 데이터에 대해 모두 응답 데이터를 출력할 경우의 정확도를 말한다. 본 개시에 있어서 질의 데이터에 대한 응답 데이터가 잘못 연결될 경우, 해당 질의 데이터는 '오답 데이터'로 호칭될 수 있다. 답변 정확도가 90%라는 것은, 10000개의 질의 데이터가 자연어 처리 모델에 입력되어 10000개의 응답 데이터가 출력되었을 때 그 중 1000개의 응답은 잘못 결정된 응답임을 의미할 수 있다.
추가적으로, 오답 선별을 위해 설정된 자연어 처리 모델의 유사도 임계값이 0.99라고 가정하고, 유사도 임계값이 0.99일 때 응답률은 50%, 응답된 데이터 중의 오답율은 2%이라고 가정한다. 위와 같은 추가적인 가정 하에서, 10000개의 미분류 질의 데이터가 자연어 처리 모델에 입력될 경우 미응답은 5천 개일 수 있다. 그리고 응답이 출력된 미분류 질의 데이터는 5천 개일 수 있으며 그 중 2%인 100개는 오답일 수 있다. 그렇다면 미응답된 5천 개의 미분류 질의 데이터에는 확률 가정상 900개의 오답 데이터가 포함될 수 있다.
이 때, 기존의 미분류 질의 데이터 10000개를 검사할 때 실질적인 검사가 요구되는 검사 대상 데이터인 오답 데이터는 1000 개이므로, 오답율은 10%이다. 반면 미응답된 5천 개의 미분류 질의 데이터에는 900개의 오답 데이터가 포함되므로 오답율이 18%로 상승될 수 있다. 그 결과 본 개시에 따른 챗봇 운영 방법은 노이즈를 줄이고 사용자의 검사가 요구되는 데이터 집합 내에 실질적인 검사 대상 데이터의 비율을 높이는 효과를 갖는다.
본 개시에 따른 챗봇 운영 방법에 있어서 미응답된 데이터들 중 오답 데이터의 비율을 높이기 위해 복수의 서브 모델을 사용할 경우 오답율은 지속적으로 향상될 수 있다. 이에 대한 설명은 아래의 표 1을 참조하여 설명한다.
모집단 (가정) 전체 미분류 질의 데이터의 총 수: 10000
(가정) 전체 미분류 질의 데이터 중 오답 개수 : 1000
자연어 처리 모델 (가정) 유사도 임계값: 0.99, 응답률: 50%, 응답 시 오답 비율 2%
응답된 질의 데이터의 수 5000 미응답된 질의 데이터의 수 5000
응답된 질의 데이터 중 오답 개수 100 미응답된 질의 데이터 중 오답 개수 900
응답된 질의 데이터 중 오답 비율 2% 미응답된 질의 데이터 중 오답 비율 18%
제 1 서브 모델 (가정) 유사도 임계값: 0.99, 응답률: 50%, 응답 시 오답 비율 2%
응답된 질의 데이터의 수 2500 미응답된 질의 데이터의 수 2500
응답된 질의 데이터 중 오답 개수 50 미응답된 질의 데이터 중 오답 개수 850
응답된 질의 데이터 중 오답 비율 5% 미응답된 질의 데이터 중 오답 비율 34%
제 2 서브 모델 (가정) 유사도 임계값: 0.99, 응답률: 10%, 응답 시 오답 비율 6%
응답된 질의 데이터의 수 250 미응답된 질의 데이터의 수 2250
응답된 질의 데이터 중 오답 개수 15 미응답된 질의 데이터 중 오답 개수 835
응답된 질의 데이터 중 오답 비율 6% 미응답된 질의 데이터 중 오답 비율 37.1%
표 1을 참조할 경우, 자연어 처리 모델 및 제 1 서브 모델은 유사도 임계값을 0.99를 가진다고 가정한다. 또한 그 때의 응답률이 각각 50%, 응답 데이터에 포함된 오답 데이터 비율이 2%라고 가정한다. 추가적으로 제 2 서브 모델의 경우 유사도 임계값이 0.99이고 그 때의 응답률이 10%, 응답 시 응답 데이터에 포함되는 오답 데이터의 비율이 6%라고 가정한다. 이와 같은 가정 아래에서도 복수의 뉴럴 네트워크 모델을 거칠 때마다 미응답된 질의 데이터 중 오답의 비율이 18%, 34%, 37.1%로 순차적으로 증가하는 것을 확인할 수 있다. 즉, 본 개시의 챗봇 운영 방법에 따를 경우 모든 미분류 질의 데이터를 수작업으로 채점하지 않더라도 챗봇의 운영과 자연어 처리 모델의 개선을 효율적으로 진행할 수 있는 장점이 있다.
도 4는 본 개시의 일 실시예에 따른 챗봇 운영 방법에 대한 흐름도이다. 도 4에서 도시되는 단계들은 예시적인 것이며, 추가적인 단계 또한 본 개시의 권리범위 내에 포함될 수 있다. 프로세서(110)는 오답 선별을 위한 유사도 임계값을 갖도록 설정된 뉴럴 네트워크 기반 자연어 처리 모델에 복수의 미분류 질의 데이터를 입력(S510)할 수 있다. “질의 데이터”는 답변이 요구되는 문장에 관한 벡터 형태의 데이터일 수 있다. "미분류 질의 데이터"는 상응하는 응답 데이터의 존재 여부 또는 상응하는 것으로 판단된 응답 데이터가 실제 정답인지 여부 등이 확인되지 않은 질의 데이터일 수 있다. 뉴럴 네트워크 기반 자연어 처리 모델은 입력된 미분류 질의 데이터와 가장 유사한 질의 데이터를 학습 데이터 셋 내에서 탐색한 후, 가장 유사한 학습 질의 데이터에 대응되는 응답 데이터를 입력된 미분류 질의 데이터에 대한 응답 데이터로 출력할 수 있다. 자연어 처리 모델은 두 질의 데이터 사이의 유사도에 기초하여 학습될 수 있다. 프로세서(110)는 자연어 처리 모델의 출력에 기초하여 복수의 제 1 미응답 질의 데이터를 획득(S530)할 수 있다. 자연어 처리 모델은 입력된 미분류 질의 데이터와 학습 데이터 셋에 포함된 적어도 하나의 학습 질의 데이터와의 유사도를 산출하고, 산출된 유사도가 사전 결정된 유사도 임계값보다 작은 경우 입력된 미분류 질의 데이터를 제 1 미응답 질의 데이터로 결정할 수 있다. 프로세서(110)는 이러한 자연어 처리 모델의 출력에 기초하여 제 1 미응답 질의 데이터를 획득할 수 있다. 프로세서(110)는 뉴럴 네트워크 기반 제 1 서브 모델에 상기 복수의 제 1 미응답 질의 데이터를 입력(S550)할 수 있다. 뉴럴 네트워크 기반 제 1 서브 모델은 뉴럴 네트워크 구조를 포함한다는 점에서 뉴럴 네트워크 기반 자연어 처리 모델과 유사하게 설명될 수 있다. 제 1 서브 모델은 자연어 처리 모델과 서로 다른 학습 데이터 셋에 기초하여 학습될 수 있다. 제 1 서브 모델은 자연어 처리 모델의 성능을 테스트하기 위한 테스트 데이터 셋에 기초하여 생성된 학습 데이터 셋을 이용하여 학습될 수 있다. 제 1 서브 모델은 자연어 처리 모델이 제대로 응답하지 못한 미분류 질의 데이터들에 기초하여 학습될 수 있다. 프로세서(110)는 제 1 서브 모델의 출력에 기초하여 적어도 하나의 제 2 미응답 질의 데이터를 획득(S570)할 수 있다. 제 2 미응답 질의 데이터로 구성된 집합은, 단계 S510에 있어서 자연어 처리 모델에 입력된 복수의 미분류 질의 데이터 집합의 부분집합일 수 있다. 제 2 미응답 질의 데이터는 미분류 질의 데이터들 중 검수의 중요성이 높은 데이터일 수 있다.
도 5은 본 개시의 다른 일 실시예에 따른 챗봇 운영 방법에 대한 흐름도이다. 도 5에서 도시되는 단계들은 예시적인 것이며, 추가적인 단계 또한 본 개시의 권리범위 내에 포함될 수 있다. 프로세서(110)는 오답 선별을 위한 유사도 임계값을 갖도록 설정된 뉴럴 네트워크 기반 자연어 처리 모델에 복수의 미분류 질의 데이터를 입력(S610)할 수 있다. 프로세서(110)는 자연어 처리 모델의 출력에 기초하여 복수의 제 1 미응답 질의 데이터를 획득(S620)할 수 있다. 프로세서(110)는 뉴럴 네트워크 기반 제 1 서브 모델에 상기 복수의 제 1 미응답 질의 데이터를 입력(S630)할 수 있다. 프로세서(110)는 제 1 서브 모델의 출력에 기초하여 적어도 하나의 제 2 미응답 질의 데이터를 획득(S640)할 수 있다. 상술한 단계 S610 내지 S640의 경우, 프로세서(110)에 의해 도 4를 참조하여 서술된 복수의 단계들과 동일한 순서로 수행될 수 있다. 프로세서(110)는 제 2 미응답 질의 데이터에 기초하여 추가 학습 데이터 셋을 구성(S650)할 수 있다. 제 2 미응답 질의 데이터는 미분류 질의 데이터들 중 검수의 중요성이 높은 데이터로서 자연어 처리 모델에 대한 추가 학습의 우선순위가 높은 데이터일 수 있다. 프로세서(110)는 추가 학습 데이터 셋에 기초하여 뉴럴 네트워크 기반 자연어 처리 모델을 학습(S660)시킬 수 있다. 추가 학습 데이터 셋에 기초하여 재학습된 자연어 처리 모델은 재학습 이전의 자연어 처리 모델보다 성능이 향상된 모델일 수 있다.
도 6은 본 개시의 실시예들이 구현될 수 있는 예시적인 컴퓨팅 환경에 대한 간략하고 일반적인 개략도이다. 본 개시가 일반적으로 컴퓨팅 장치에 의해 구현될 수 있는 것으로 전술되었지만, 당업자라면 본 개시가 하나 이상의 컴퓨터 상에서 실행될 수 있는 컴퓨터 실행가능 명령어 및/또는 기타 프로그램 모듈들과 결합되어 및/또는 하드웨어와 소프트웨어의 조합으로써 구현될 수 있다는 것을 잘 알 것이다.
컴퓨터는 통상적으로 다양한 컴퓨터 판독가능 매체를 포함한다. 컴퓨터에 의해 액세스 가능한 매체는 그 어떤 것이든지 컴퓨터 판독가능 매체가 될 수 있고, 이러한 컴퓨터 판독가능 매체는 휘발성 및 비휘발성 매체, 일시적(transitory) 및 비일시적(non-transitory) 매체, 이동식 및 비-이동식 매체를 포함한다. 제한이 아닌 예로서, 컴퓨터 판독가능 매체는 컴퓨터 판독가능 저장 매체 및 컴퓨터 판독가능 전송 매체를 포함할 수 있다. 컴퓨터 판독가능 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보를 저장하는 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성 매체, 일시적 및 비-일시적 매체, 이동식 및 비이동식 매체를 포함한다. 컴퓨터 판독가능 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital video disk) 또는 기타 광 디스크 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 컴퓨터에 의해 액세스될 수 있고 원하는 정보를 저장하는 데 사용될 수 있는 임의의 기타 매체를 포함하지만, 이에 한정되지 않는다.
컴퓨터 판독가능 전송 매체는 통상적으로 반송파(carrier wave) 또는 기타 전송 메커니즘(transport mechanism)과 같은 피변조 데이터 신호(modulated data signal)에 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터 등을 구현하고 모든 정보 전달 매체를 포함한다.
본 개시의 기술 분야에서 통상의 지식을 가진 자는 정보 및 신호들이 임의의 다양한 상이한 기술들 및 기법들을 이용하여 표현될 수 있다는 것을 이해할 것이다. 예를 들어, 위의 설명에서 참조될 수 있는 데이터, 지시들, 명령들, 정보, 신호들, 비트들, 심볼들 및 칩들은 전압들, 전류들, 전자기파들, 자기장들 또는 입자들, 광학장들 또는 입자들, 또는 이들의 임의의 결합에 의해 표현될 수 있다.
본 개시의 기술 분야에서 통상의 지식을 가진 자는 여기에 개시된 실시예들과 관련하여 설명된 다양한 예시적인 논리 블록들, 모듈들, 프로세서들, 수단들, 회로들 및 알고리즘 단계들이 전자 하드웨어, (편의를 위해, 여기에서 소프트웨어로 지칭되는) 다양한 형태들의 프로그램 또는 설계 코드 또는 이들 모두의 결합에 의해 구현될 수 있다는 것을 이해할 것이다. 하드웨어 및 소프트웨어의 이러한 상호 호환성을 명확하게 설명하기 위해, 다양한 예시적인 컴포넌트들, 블록들, 모듈들, 회로들 및 단계들이 이들의 기능과 관련하여 위에서 일반적으로 설명되었다. 이러한 기능이 하드웨어 또는 소프트웨어로서 구현되는지 여부는 특정한 애플리케이션 및 전체 시스템에 대하여 부과되는 설계 제약들에 따라 좌우된다. 본 개시의 기술 분야에서 통상의 지식을 가진 자는 각각의 특정한 애플리케이션에 대하여 다양한 방식들로 설명된 기능을 구현할 수 있으나, 이러한 구현 결정들은 본 개시의 범위를 벗어나는 것으로 해석되어서는 안 될 것이다.
제시된 실시예들에 대한 설명은 임의의 본 개시의 기술 분야에서 통상의 지식을 가진 자가 본 개시를 이용하거나 또는 실시할 수 있도록 제공된다. 이러한 실시예들에 대한 다양한 변형들은 본 개시의 기술 분야에서 통상의 지식을 가진 자에게 명백할 것이며, 여기에 정의된 일반적인 원리들은 본 개시의 범위를 벗어남이 없이 다른 실시예들에 적용될 수 있다. 그리하여, 본 개시는 여기에 제시된 실시예들로 한정되는 것이 아니라, 여기에 제시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위에서 해석되어야 할 것이다.

Claims (14)

  1. 적어도 하나의 프로세서를 포함하는 컴퓨팅 장치에 의해 수행되는 챗봇 운영 방법으로서,
    오답 선별을 위한 유사도 임계값을 갖도록 설정된 뉴럴 네트워크 기반 자연어 처리 모델에 복수의 미분류 질의 데이터를 입력하는 단계;
    상기 자연어 처리 모델의 출력에 기초하여 복수의 제 1 미응답 질의 데이터를 획득하는 단계;
    뉴럴 네트워크 기반 제 1 서브 모델에 상기 복수의 제 1 미응답 질의 데이터를 입력하는 단계; 및
    상기 제 1 서브 모델의 출력에 기초하여 적어도 하나의 제 2 미응답 질의 데이터를 획득하는 단계;
    를 포함하는,
    챗봇 운영 방법.
  2. 제 1 항에 있어서,
    상기 뉴럴 네트워크 기반 자연어 처리 모델은,
    둘 이상의 학습 데이터를 포함하는 학습 데이터 셋에 기초하여 학습되고,
    둘 이상의 학습 데이터에 각각에 포함된 학습 질의 데이터 사이의 유사도에 기초하여 학습되는,
    챗봇 운영 방법.
  3. 제 1 항에 있어서,
    상기 뉴럴 네트워크 기반 자연어 처리 모델은,
    상기 자연어 처리 모델을 학습시키기 위해 사용된 학습 데이터 셋에 포함된 적어도 하나의 학습 질의 데이터와 상기 미분류 질의 데이터 사이의 유사도를 산출하는,
    챗봇 운영 방법.
  4. 제 1 항에 있어서,
    상기 복수의 제 1 미응답 질의 데이터를 획득하는 단계는,
    상기 자연어 처리 모델의 출력에 기초하여, 상기 오답 선별을 위한 유사도 임계값보다 작은 유사도를 가지는 것으로 산출된 미분류 질의 데이터를 제 1 미응답 질의 데이터로 결정하는 단계;
    를 포함하는,
    챗봇 운영 방법.
  5. 제 1 항에 있어서,
    상기 자연어 처리 모델 및 상기 제 1 서브 모델은,
    각각 서로 다른 학습 데이터 셋에 기초하여 학습되는 것을 특징으로 하는,
    챗봇 운영 방법.
  6. 제 1 항에 있어서,
    상기 뉴럴 네트워크 기반 제 1 서브 모델은,
    상기 뉴럴 네트워크 기반 자연어 처리 모델이 오답 선별을 위한 유사도 임계값을 갖도록 설정된 상태에서 출력한 적어도 하나의 미응답 질의 데이터에 기초하여 학습되는,
    챗봇 운영 방법.
  7. 제 1 항에 있어서,
    상기 제 1 서브 모델을 학습시키기 위한 학습 데이터 셋은, 학습이 완료된 뉴럴 네트워크 기반 자연어 처리 모델의 성능 테스트를 위한 테스트 데이터 셋에 기초하여 생성되는 것을 특징으로 하는,
    챗봇 운영 방법.
  8. 제 1 항에 있어서,
    상기 적어도 하나의 제 2 미응답 질의 데이터를 획득하는 단계는,
    상기 제 1 서브 모델이 산출하는 복수의 제 1 미응답 질의 데이터 각각에 대한 유사도에 기초하여 수행되는,
    챗봇 운영 방법.
  9. 제 1 항에 있어서,
    상기 제 2 미응답 질의 데이터에 기초하여 추가 학습 데이터 셋을 구성하는 단계;
    상기 추가 학습 데이터 셋에 기초하여 상기 뉴럴 네트워크 기반 자연어 처리 모델을 학습시키는 단계;
    를 더 포함하는,
    챗봇 운영 방법.
  10. 제 1 항에 있어서,
    신규 질의 데이터를 수신하는 단계;
    챗봇 서비스 제공을 위한 유사도 임계값을 갖도록 설정된 상기 뉴럴 네트워크 기반 자연어 처리 모델에 상기 신규 질의 데이터를 입력하는 단계; 및
    상기 자연어 처리 모델의 출력에 기초하여 상기 신규 질의 데이터에 대한 응답 데이터를 획득하는 단계;
    를 더 포함하는,
    챗봇 운영 방법.
  11. 제 1 항에 있어서,
    뉴럴 네트워크 기반 제 2 서브 모델에 복수의 제 2 미응답 질의 데이터를 입력하는 단계; 및
    상기 제 2 서브 모델의 출력에 기초하여 적어도 하나의 제 3 미응답 질의 데이터를 획득하는 단계;
    를 더 포함하며,
    상기 제 1 서브 모델과 상기 제 2 서브 모델은 서로 다른 학습 데이터 셋에 기초하여 학습되는 상이한 모델인,
    챗봇 운영 방법.
  12. 제 11 항에 있어서,
    상기 제 2 서브 모델을 학습시키기 위한 학습 데이터 셋은 학습이 완료된 뉴럴 네트워크 기반 제 1 서브 모델의 성능 테스트를 위한 테스트 데이터 셋에 기초하여 생성되는 것을 특징으로 하는,
    챗봇 운영 방법.
  13. 컴퓨터 판독가능 저장 매체 저장된 컴퓨터 프로그램으로서, 상기 컴퓨터 프로그램은 하나 이상의 프로세서에서 실행되는 경우, 챗봇을 운영하기 위한 이하의 동작들을 수행하도록 하며, 상기 동작들은:
    오답 선별을 위한 유사도 임계값을 갖도록 설정된 뉴럴 네트워크 기반 자연어 처리 모델에 복수의 미분류 질의 데이터를 입력하는 동작;
    상기 자연어 처리 모델의 출력에 기초하여 복수의 제 1 미응답 질의 데이터를 획득하는 동작;
    뉴럴 네트워크 기반 제 1 서브 모델에 상기 복수의 제 1 미응답 질의 데이터를 입력하는 동작; 및
    상기 제 1 서브 모델의 출력에 기초하여 적어도 하나의 제 2 미응답 질의 데이터를 획득하는 동작;
    을 포함하는,
    컴퓨터 판독가능 저장매체에 저장된 컴퓨터 프로그램.
  14. 챗봇 운영 장치로서,
    하나 이상의 프로세서;
    메모리; 및
    네트워크부;
    를 포함하며, 그리고
    상기 하나 이상의 프로세서는,
    오답 선별을 위한 유사도 임계값을 갖도록 설정된 뉴럴 네트워크 기반 자연어 처리 모델에 복수의 미분류 질의 데이터를 입력하고,
    상기 자연어 처리 모델의 출력에 기초하여 복수의 제 1 미응답 질의 데이터를 획득하고,
    뉴럴 네트워크 기반 제 1 서브 모델에 상기 복수의 제 1 미응답 질의 데이터를 입력하고, 그리고
    상기 제 1 서브 모델의 출력에 기초하여 적어도 하나의 제 2 미응답 질의 데이터를 획득하는,
    챗봇 운영 장치.

KR1020210063485A 2021-05-17 2021-05-17 챗봇 운영 방법 및 장치 KR102589074B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210063485A KR102589074B1 (ko) 2021-05-17 2021-05-17 챗봇 운영 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210063485A KR102589074B1 (ko) 2021-05-17 2021-05-17 챗봇 운영 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20220155785A true KR20220155785A (ko) 2022-11-24
KR102589074B1 KR102589074B1 (ko) 2023-10-12

Family

ID=84235516

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210063485A KR102589074B1 (ko) 2021-05-17 2021-05-17 챗봇 운영 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102589074B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117544508A (zh) * 2023-10-13 2024-02-09 北京六方云信息技术有限公司 网络设备配置查询方法、装置、终端设备以及存储介质
GR1010706B (el) * 2023-05-31 2024-06-10 My Company Projects Ο.Ε., Μεθοδος για την αυτοματη μετατροπη γραπτου διαλογου ανθρωπου-μηχανης σε σαφες σημα και την εκπαιδευση νευρωνικου δικτυου βαθιας μαθησης για την εξυπηρετηση πελατων ηλεκτρονικων καταστηματων

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200003132A (ko) * 2017-04-29 2020-01-08 구글 엘엘씨 훈련된 생성 모델을 사용하여 질의 변형들을 생성

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200003132A (ko) * 2017-04-29 2020-01-08 구글 엘엘씨 훈련된 생성 모델을 사용하여 질의 변형들을 생성

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GR1010706B (el) * 2023-05-31 2024-06-10 My Company Projects Ο.Ε., Μεθοδος για την αυτοματη μετατροπη γραπτου διαλογου ανθρωπου-μηχανης σε σαφες σημα και την εκπαιδευση νευρωνικου δικτυου βαθιας μαθησης για την εξυπηρετηση πελατων ηλεκτρονικων καταστηματων
CN117544508A (zh) * 2023-10-13 2024-02-09 北京六方云信息技术有限公司 网络设备配置查询方法、装置、终端设备以及存储介质

Also Published As

Publication number Publication date
KR102589074B1 (ko) 2023-10-12

Similar Documents

Publication Publication Date Title
US20210342699A1 (en) Cooperative execution of a genetic algorithm with an efficient training algorithm for data-driven model creation
EP3711000B1 (en) Regularized neural network architecture search
US10410121B2 (en) Adjusting automated neural network generation based on evaluation of candidate neural networks
US11620487B2 (en) Neural architecture search based on synaptic connectivity graphs
US11087086B2 (en) Named-entity recognition through sequence of classification using a deep learning neural network
US20230229891A1 (en) Reservoir computing neural networks based on synaptic connectivity graphs
KR102313626B1 (ko) 신경망을 학습시키는 방법
EP3893163A1 (en) End-to-end graph convolution network
US11568201B2 (en) Predicting neuron types based on synaptic connectivity graphs
KR102295805B1 (ko) 학습 데이터 관리 방법
US11334791B2 (en) Learning to search deep network architectures
CN109766557B (zh) 一种情感分析方法、装置、存储介质及终端设备
US20210201119A1 (en) Artificial neural network architectures based on synaptic connectivity graphs
US11475220B2 (en) Predicting joint intent-slot structure
US11631000B2 (en) Training artificial neural networks based on synaptic connectivity graphs
KR20210107458A (ko) 모델의 성능 테스트를 위한 컴퓨터 프로그램
Soyalp et al. Improving text classification with transformer
KR20220155785A (ko) 챗봇 운영 방법 및 장치
US20230196022A1 (en) Techniques For Performing Subject Word Classification Of Document Data
US20220269718A1 (en) Method And Apparatus For Tracking Object
CN116992942B (zh) 自然语言模型优化方法、装置、自然语言模型、设备和介质
KR20200063041A (ko) 아키텍처 변이 기반 비지도 학습 및 선택적 오류 전파 기반 지도 학습을 이용한 신경망 학습 방법 및 장치
KR102310450B1 (ko) 보험 문서 분석 방법을 제공하기 위한 컴퓨터 프로그램
WO2023107207A1 (en) Automated notebook completion using sequence-to-sequence transformer
WO2020190951A1 (en) Neural network trained by homographic augmentation

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant