KR102640798B1

KR102640798B1 - 기업용 챗봇 서비스 제공 방법 및 장치

Info

Publication number: KR102640798B1
Application number: KR1020230111848A
Authority: KR
Inventors: 백진성
Original assignee: 망고클라우드 주식회사
Priority date: 2023-08-25
Filing date: 2023-08-25
Publication date: 2024-02-28

Abstract

기업용 챗봇 서비스 제공 방법 및 장치가 개시된다. 본 발명의 일 실시예에 따른 기업용 챗봇 서비스 제공 방법은, 네트워크를 통해 기업 내부의 전자문서를 수집하여 데이터베이스에 저장하는 단계; 상기 전자문서에 포함된 텍스트를 형태소 별로 구분한 뒤 자연어 처리하는 단계; 상기 전자문서에 포함된 텍스트로부터 질의와 답변의 쌍을 갖는 학습 데이터를 구축하는 단계; 상기 학습 데이터를 딥러닝 모델에 입력하여 기계 독해(Machine Reading Comprehension) 학습을 수행하는 단계; 상기 딥러닝 모델이 사용자 단말로부터 질의를 입력받아, 상기 질의에 대한 응답을 생성하여 사용자 단말로 제공하는 단계;를 포함한다. 본 발명의 일 실시예에 따른 기업용 챗봇 서비스 제공 방법 및 장치에 의하면, 기업 내부의 임직원들의 업무, 기업의 규정 등에 관한 질의에 대응하여 정답을 응답으로 생성하여 질의자에게 제공하는 기업용 챗봇 서비스 제공 방법 및 장치가 제공된다.

Description

기업용 챗봇 서비스 제공 방법 및 장치{METHOD AND APPARATUS FOR PROVIDING CHATBOT SERVICE FOR CORPORATE}

본 발명은 챗봇 서비스 제공 방법 및 장치에 관한 것으로서, 보다 상세하게는, 기업 내부의 임직원들의 업무, 기업의 규정 등에 관한 질의에 대응하여 정답을 응답으로 생성하여 질의자에게 제공하는 기업용 챗봇 서비스 제공 방법 및 장치에 관한 것이다.

챗봇(chatbot)은 입력창에 사용자가 채팅하듯 자연어로 질문을 입력하면, 질문에 알맞은 답이나 각종 연관 정보를 제공하는 인공지능 기반의 커뮤니케이션 소프트웨어를 의미한다. 챗봇은 미리 입력된 알고리즘에 따라 정해진 답변을 제공하는 수준에서 서비스가 되었으나, 최근에는 빅데이터 처리 기술과 함께 자연어 분석 및 처리 기술이 발전함에 따라 다양한 변수를 고려한 답변을 제공할 수 있다.

딥러닝 등 머신 러닝 기술이 주목받음에 따라, 머신 러닝을 이용한 자연 언어 처리(Natural Language Processing, NLP)에 대한 관심도 높아지고 있다. 자연 언어 처리란 언어를 컴퓨터가 인식하고 이를 처리할 수 있도록 하는 기술로서, 자동 번역, 검색 엔진 등에 사용되는데, 대표적인 알고리즘으로는 BERT(Bidirectional Encoder Representations from Transformers), GPT(Generative Pre-Training model) 등이 있다.

이 중 BERT 모델은 구글社가 2018년에 공개한 자연어 처리 모델을 말하는데, 트랜스포머(Transformer) 신경망 구조를 활용한 언어 표현(Language Representation) 관련 논문에서 처음 등장하였다. 여기서, 언어 표현(Language Representation)이란 인간의 언어를 다차원 벡터로 표현하여 컴퓨터가 이해할 수 있도록 하는 것을 말한다.

BERT 모델은 대규모 데이터 세트를 사전 학습하여 간단한 미세조정(Fine-tuning)을 통해 여러가지 자연어 처리 문제를 해결하도록 고안되었다. BERT 모델은 트랜스포머(transformer)의 인코더 부분을 활용한 모델이며, 자연어 처리의 여러 태스크에서 강점을 가지고 있다. BERT의 한국어 모델로서 KorBERT(Korean Bidirectional Encoder Representations from Transformers)가 개시된 바 있다.

기계(챗봇)이 사용자의 질문을 이해하고 답변하기 위해서는 대규모의 자연어 처리를 위한 데이터셋이 필수이며, 이를 위한 다양한 오픈 데이터셋(korQuAD 등)이 존재하는데, 기업의 업무로 활용하기 정보가 포함되어 있지 않다. 즉 BERT, KorBERT 기반의 챗봇 시스템이 개시되어 있으나, 데이터셋으로 인해 사용의 한계가 있다.

대한민국 등록특허 제10-2334583호 (2021.11.30.) "대화식 질의 시스템에서 교육 컨텐츠에 관한 학습자 질의에 응답하기 위한 질의 응답 방법 및 질의 응답 시스템" 대한민국 등록특허 제10-2278020호 (2021.07.09.) "챗봇을 이용한 질의응답 처리 장치 및 방법"

본 발명의 일 실시예에 따른 기업용 챗봇 서비스 제공 방법 및 장치는, 기업 내부의 임직원들의 업무, 기업의 규정 등에 관한 질의에 대응하여 정답을 응답으로 생성하여 질의자에게 제공하는 기업용 챗봇 서비스 제공 방법 및 장치를 제공하는 것을 목적으로 한다.

또한, 본 발명의 일 실시예에 따른 기업용 챗봇 서비스 제공 방법 및 장치는, 기업 내부의 임직원들의 업무, 기업의 규정 등에 관한 질의에 대응하여 높은 정확도를 갖는 응답을 생성하여 질의자에게 제공하는 기업용 챗봇 서비스 제공 방법 및 장치를 제공하는 것을 목적으로 한다.

본 발명의 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시예에 따른 기업용 챗봇 서비스 제공 방법은, 기업 내부의 전자문서가 수집되어 데이터베이스에 저장되는 단계; 상기 전자문서에 포함된 텍스트가 형태소 별로 구분된 뒤 자연어 처리되는 단계; 상기 전자문서에 포함된 텍스트로부터 질의와 답변의 쌍을 갖는 학습 데이터를 구축하는 단계; 상기 학습 데이터를 딥러닝 모델에 입력하여 기계 독해(Machine Reading Comprehension) 학습을 수행하는 단계; 상기 딥러닝 모델이 사용자 단말로부터 질의를 입력받아, 상기 질의에 대한 응답을 생성하여 사용자 단말로 제공하는 단계;를 포함한다.

여기서, 상기 딥러닝 모델은, 오픈 데이터셋을 이용하여 사전 학습된 인공지능 언어모델일 수 있다.

여기서, 상기 학습을 수행하는 단계는, 사전 학습된 상기 딥러닝 모델에 대해 미세 조정(fine-tuning)이 수행될 수 있다.

여기서, 상기 미세 조정 시 기업 구성원들의 인사 정보가 반영될 수 있다.

여기서, 응답 단계는, 상기 질의로부터 키워드를 추출하고, 기 색인된 단락을 검색하는 단계; 상기 사용자 단말로부터 질의를 입력산 사용자의 인사 정보를 수신하는 단계; 상기 인사 정보에 가중치를 부여하는 단계; 검색된 상기 단락을 기반으로 응답을 생성하고 상기 사용자 단말로 제공하는 단계;를 포함할 수 있다.

여기서, 상기 자연어 처리하는 단계는, 상기 텍스트에 품사 태깅을 수행하며, 상기 학습 데이터를 구축하는 단계는, 상기 전자문서 내에서 기 색인된 단락을 검색하는 단계; 상기 검색된 단락으로부터 구문 추출기를 이용하여 응답 구문을 추출하는 단계; 상기 추출된 응답 구문에 대응하는 질의 구문을 질의 생성기가 생성하는 단계; 상기 응답 구문과 상기 질의 구문을 포함하는 학습 데이터를 생성하는 단계;를 포함할 수 있다.

여기서, 상기 질의 구문은, 품사 태깅된 상기 텍스트들 중 서로 다른 품사가 태깅된 텍스트를 조합하여 생성될 수 있다.

여기서, 상기 질의 구문은, 기 저장된 의문사 리스트 중 어느 하나의 의문사가 선택적으로 조합되어 생성될 수 있다.

본 발명의 일 실시예에 따른 기업용 챗봇 서비스 제공 장치는, 프로세서; 및 상기 프로세서와 결합되어 작동되는 메모리를 포함하는 기업용 챗봇 서비스를 제공하는 장치로서, 상기 프로세서는, 기업 내부의 전자문서가 수집되어 데이터베이스에 저장되는 단계; 상기 전자문서에 포함된 텍스트가 형태소 별로 구분된 뒤 자연어 처리되는 단계; 상기 전자문서에 포함된 텍스트로부터 질의와 답변의 쌍을 갖는 학습 데이터를 구축하는 단계; 상기 학습 데이터를 딥러닝 모델에 입력하여 기계 독해(Machine Reading Comprehension) 학습을 수행하는 단계; 상기 딥러닝 모델이 사용자 단말로부터 질의를 입력받아, 상기 질의에 대한 응답을 생성하여 사용자 단말로 제공하는 단계;를 수행한다.

본 발명의 실시예들에 의하면 적어도 다음과 같은 효과가 있다.

본 발명의 일 실시예에 따른 기업용 챗봇 서비스 제공 방법 및 장치에 의하면, 기업 내부의 임직원들의 업무, 기업의 규정 등에 관한 질의에 대응하여 정답을 응답으로 생성하여 질의자에게 제공하는 기업용 챗봇 서비스 제공 방법 및 장치가 제공된다.

또한, 사용자의 질의에 대해 딥러닝 모델에 의해 생성되는 응답의 정확도가 우수하다.

또한, 딥러닝 모델을 위한 학습 데이터셋의 구축이 용이하다.

본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.

도 1은 본 발명의 일 실시예에 따른 기업용 챗봇 서비스 제공 방법의 순서도
도 2는 본 발명의 일 실시예에 따른 기업용 챗봇 서비스 제공 방법의 전자문서 수집단계의 설명도
도 3은 본 발명의 일 실시예에 따른 기업용 챗봇 서비스 제공 방법의 자연어 처리단계의 순서도
도 4는 본 발명의 일 실시예에 따른 기업용 챗봇 서비스 제공 방법의 데이터셋 구축단계의 설명도
도 5는 본 발명의 일 실시예에 따른 기업용 챗봇 서비스 제공 방법의 학습단계의 설명도
도 6은 본 발명의 일 실시예에 따른 기업용 챗봇 서비스 제공 장치의 개략적인 구조도이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예를 도면에 예시하고 이에 대해 상세한 설명에 상세하게 설명한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예를 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예에 한정되는 것이 아니라 다양한 형태로 구현될 수 있으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

설명에 앞서 상세한 설명에 기재된 용어에 대해 설명한다. 이하의 실시예에서, 제1, 제2 등의 용어는 한정적인 의미가 아니라 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용되었다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다. 또한, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, '포함하다' 또는 '가지다' 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다.

또한, 도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다.

이하, 본 발명에 따른 일 실시예를 첨부된 도면을 참조하여 상세히 설명한다. 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성요소는 동일한 도면 부호를 부여하고 이에 대해 중복되는 설명은 생략한다.

본 발명의 일 실시예에 따른 기업용 챗봇 서비스 제공 방법 및 장치는, 기업 내부의 임직원들의 업무, 기업의 규정 등에 관한 질의에 대응하여 정답을 응답으로 생성하여 질의자에게 제공하는 기업용 챗봇 서비스 제공 방법 및 장치에 관한 것이다.

도 1은 본 발명의 일 실시예에 따른 기업용 챗봇 서비스 제공 방법의 순서도이며, 도 2는 본 발명의 일 실시예에 따른 기업용 챗봇 서비스 제공 방법의 전자문서 수집단계의 설명도이다.

본 발명의 일 실시예에 따른 기업용 챗봇 서비스 제공 방법(S1000)은, 전자문서 수집단계(S100)와, 자연어 처리단계(S200)와, 데이터셋 구축단계(S300)와, 학습 단계(S400) 및 응답 생성단계(S500)를 포함한다.

전자문서 수집단계(S100)는, 네트워크를 통해 기업 내의 전자문서를 수집하는 단계이다. 즉 기업 내부에서 사용되는 규정, 지침 등의 기업 내부의 전자문서를 수집한다. 전자문서의 수집은 사용자가 사용자 단말(PC 등)을 통해 전자문서를 데이터베이스(100)에 직접 업로드하여 저장되거나, API(Application Programming Interface)를 통해 수집되어 데이터베이스(100)에 저장될 수 있다.

이 때 저장되는 전자문서는 속성태그가 부여될 수 있다. 기업은 일반적으로 회계, 인사, 경영, 생산, 품질 등 다양한 부서가 존재하며, 각 부서에서 작성된 전자문서에는 해당 부서에 관한 정보(부서명 등)가 속성태그로 저장될 수 있다. 이를 통해 추후 응답 데이터 생성 시 보다 정확도가 높아질 수 있다.

데이터베이스(100)는 전자문서를 수신하여 텍스트들을 저장한다. 텍스트들에서 상기의 속성태그가 부여될 수 있다. 즉, 각 부서에서 수집된 전자문서와, 전자문서의 텍스트들에는 속성태그가 부여될 수 있다. 전자문서가 텍스트를 추출할 수 있는 확장가능 마크업 언어(Extensible Mark-up Language; XML) 포맷인 경우에는 XML파싱을 수행하여 텍스트를 추출하여 저장한다. 전자문서가 XML포맷이 아닌 경우에는 전자문서의 본문에 포함된 텍스트들이 검색될 수 있도록 제2전자문서를 생성하고, 제2전자문서에 포함된 텍스트들을 저장한다.

전자문서는 일반적인 문서 작업 시 사용하는 소프트웨어를 통해 작성된 문서일 수 있다. 따라서 전자문서의 포맷은 한글문서(HWP), 워드(DOC), 파워포인트(PPT) 및 엑셀(XLS) 파일 PDF파일 중 적어도 어느 하나일 수 있다.

전자문서에는 사용자가 직접 입력한 텍스트들이 포함되며, 나아가 사용자가 직접 입력한 이미지 컨텐츠와 도표 컨텐츠를 포함할 수 있다.

데이터베이스(100)는 전자문서를 수신한 뒤, 전자문서와는 별도의, 텍스트를 추출할 수 있는 제2전자문서를 생성할 수 있다. 본 실시예에서 제2전자문서는 XML포맷이다.

따라서 전자문서의 포맷이 한글문서(HWP), 워드(DOC), 파워포인트(PPT) 및 엑셀(XLS) 파일 중 어느 하나인 경우, 제2전자문서는 오피스 오픈 XML(OOXML), 오픈 도큐먼트(Open Document) 및 개방형 워드프로세서 마크업 언어(OWPML) 포맷일 수 있다. 구체적으로 제2전자문서는 XML포맷으로서, 사용된 프로그램에 따라 워드 프로세서(DOCX, ODT, HWPX), 스프레드시트(XLSX, ODS, CELL) 및 프레젠테이션(PPTX, ODP, SHOW) 문서 중 적어도 어느 하나일 수 있다.

데이터베이스(100)는 전자문서(제2전자문서를 포함함)에 포함된 텍스트들을 추출하여 데이터베이스(100)에 저장한다. XML포맷의 전자문서를 XML 파싱을 수행하여 텍스트들을 추출할 수 있다. 구체적으로 전자문서는 문서 본문 내용을 XML로 기술하며, 문서 본문 내용의 루트로서 Contents 폴더 즉, 문서의 실제 콘텐츠 데이터를 담은 XML 파일을 담는 폴더로서, content.hpf, header.xml, section0.xml 등의 파일이 저장되며, 이를 분석하여 텍스트들을 추출할 수 있다. 추출된 텍스트들은 데이터베이스(100)에 저장된다.

그리고, 데이터베이스(100)는 전자문서 내에서 단락들을 색인하고 저장할 수 있다.

도 3은 본 발명의 일 실시예에 따른 기업용 챗봇 서비스 제공 방법의 자연어 처리단계의 순서도이다.

자연어 처리단계(S200)에서는 데이터베이스(100)에 저장된 텍스트들로부터 자연어 처리를 수행한다. 자연어 처리는 정규화단계(S210), 토큰화단계(S220), 품사 태깅단계(S230)를 포함하며, 자연어 처리부(200)에 의해 수행될 수 있다.

정규화단계(S210)는 전자문서에 포함된 텍스트 중 검색과 관련없는 정보 예를 들어 특수 문자(-, + 등)와 같은 구문이 제거된다.

토큰화단계(S220)에서는 정규화 처리 된 텍스트들에 대해 형태소 단위로 토큰화 처리를 수행한다. 이 때 형태소이지만 한 단어로 이루어진 의존명사(예컨대, '것', '수', '때' 등)를 제외할 수 있다.

품사 태깅단계(S230)에서는 텍스트들에 대해 자연어를 처리하는 구문 분석기인 자연어 처리 파서(Parser)를 사용하여 각각의 토큰에 품사를 붙이는 품사(Part of Speech, POS) 태깅이 수행된다. 즉 정규화 처리 및 형태소 단위로 토큰화 처리가 수행 된 텍스트들에 대해 품사 태깅을 수행하여, 토큰화된 텍스트들에 대해 각각 명사, 형용사, 동사, 부사 등의 품사를 태깅한다.

도 4는 본 발명의 일 실시예에 따른 기업용 챗봇 서비스 제공 방법의 데이터셋 구축단계의 설명도이다.

데이터셋 구축단계(S300)는 챗봇 로봇(딥러닝 모델)이 사용자의 질의에 대한 응답을 생성할 수 있도록, 딥러닝 모델을 학습시키기 위한 질의응답 학습용 데이터(Question Answering Data)를 구축하는 단계이다.

기업 업무를 위한 학습 데이터셋 구축을 위해, 수집된 전자문서가 정제되어 질의/정답 쌍으로 가공되어 학습 데이터셋이 구축된다. 또는 학습 데이터셋은 질의/정답/단락으로 구성될 수도 있다.

이러한 질의응답 딥러닝 모델 학습을 위한 데이터셋 구축에는 막대한 시간과 인력 등의 비용이 발생한다. 이에 본 실시예에서는 딥러닝 모델이 학습할 학습 데이터셋을 전자문서로부터 자동으로 생성될 수 있다.

데이터셋 구축부(300)는 데이터베이스(100)에 저장된 전자문서들의 기 색인된 단락을 검색한다. 단락은 질의에 대한 정답(답변) 및 근거 등의 내용이 포함되기 때문이다. 나아가 단락으로부터 데이터셋 구축부(300) 중 구문 추출기(310)로부터 응답 구문을 추출할 수 있다. 구문 추출기(310)는 BERT 등의 사전 훈련된 트랜스포머 인코더(Transformer encoder) 구조의 언어 모델을 사용할 수 있다. 또한, CNN(Convolutional Neural Network), RNN(Recurrent Neural Network), 트랜스포머(Transformer) 등의 신경망 모델을 사용할 수 있다. 예를 들어, BERT 등의 사전 훈련된 트랜스포머 인코더 구조의 언어 모델을 사용하며, CNN, RNN, Transformer 등의 신경망 모델을 사용할 수 있다.

데이터셋 구축부(300)는 해당 단락에 포함된 텍스트들 중 품사 태깅이 수행된 텍스트들을 조합하여 질의를 생성한다. 이는 데이터셋 구축부(300) 중 질의 생성기(320)를 통해 수행될 수 있다. 이 때, 서로 다른 품사를 조합하여 생성하며, 이 중 명사는 반드시 포함된다. 즉 명사와 형용사, 명사와 동사, 명사와 부사 또는 명사와 형용사/동사/부사를 조합하여 질의를 생성한다.

보다 구체적으로, 데이터셋 구축부(300)는 전자문서들의 내용 중 단락을 검색하고, 해당 단락에 포함된 텍스트들 중 서로 다른 품사가 태깅된 텍스트들을 조합하여, 질의/정답 쌍을 자동으로 생성한다. 또는 질의/정답/단락 쌍을 자동으로 생성할 수도 있다.

이 때 한글은 다양한 의문사를 갖는데, 질의 생성 시 텍스트들을 조합할 때 의문사들도 함께 조합할 수 있다. 의문사 리스트는 데이터베이스(100) 또는 데이터셋 구축부(300)에 기 저장될 수 있다.

즉, 단락에 포함된 텍스트로부터 상술한 바와 같이 질의를 생성하는데, 이 때 단락에 포함되지 않는 의문사들도 조합하여 질의를 생성할 수 있다.

따라서 한 단락으로부터 생성되는 질의의 양은 매우 다양할 수 있으며(즉 질의-정답의 쌍인 학습 데이터가 매우 다양해짐), 사용자가 수동으로 학습 데이터셋을 구축하는 것이 아니라, 단락 내에 포함되는 텍스트들로부터 자동으로 질의들을 생성하고 답변과 쌍을 이루므로 보다 효율적으로 학습 데이터셋을 구축할 수 있다.

도 5는 본 발명의 일 실시예에 따른 기업용 챗봇 서비스 제공 방법의 학습단계의 설명도이다.

학습단계(S400)는, 학습 데이터셋이 딥러닝 모델에 입력되어 기계 독해(Machine Reading Comprehension) 학습을 수행하는 단계이다.

기계독해(Machine Reading Comprehension)는 기계가 문서를 읽고 이해하는 능력을 질의를 통해 학습하고 새로운 질의가 주어졌을 때 문서 내에 존재하는 적절한 응답을 이해를 바탕으로 추론하여 출력하는 방법이다.

딥러닝 모델은 사전 학습된 딥러닝 모델에 대해 미세 조정(fine-tuning)이 수행된 것일 수 있다.

사전 학습된 딥러닝 모델은, 사전 학습된 인공지능 언어모델로서 KoBERT 모델이 적용될 수 있다.

BERT 모델은 대규모 데이터 세트를 사전 학습하여 간단한 미세조정(Fine-tuning)을 통해 여러가지 자연어 처리 문제를 해결하도록 고안되었다. BERT 모델은 트랜스포머(transformer)의 인코더 부분을 활용한 모델이며, 자연어 처리의 여러 태스크에서 강점을 가지고 있다. 본 발명에서는, 한국어 BERT 모델인 KoBERT 모델을 이용할 수 있다.

상술한 딥러닝 모델인 KoBERT는 사전 학습될 수 있다. 기계 독해를 위한 사전 학습 데이터셋으로는 오픈 데이터셋인 KorQuAD가 이용될 수 있다. 일 예시로 KorQuAD 1.0이 있으며, 위키피디아 문서에서 추출한 지문과 질의, 그리고 질의에 대한 답이 제공된다. 또는 최근 다양한 구조와 길이를 가지는 문서에서 긴 문단이나 리스트나 표로 이루어진 정답을 찾는 기계독해 모형을 평가할 수 있는 KorQuAD 2.0 데이터셋일 수 있다. KorQuAD 2.0은 전체 103,193개의 질의-응답 쌍을 포함하는 기계독해 데이터로서, 47,971건의 문서에서 평균 215개의 질의-정답 쌍을 갖는다.

즉 사전 학습된 딥러닝 모델에 상술한 데이터셋 구축단계(S300)에서 구축된 학습 데이터셋을 입력하여 학습한다. KorQuAD의 데이터 셋은 위키피디아 기사(Wikipedia Article) 문단의 일부 하위 영역으로 구축된 일반상식분야에 대한 내용인데, 본 발명의 실시예는 기업 내부의 전자문서에 대한 기계독해를 위한 데이터셋이 필요하며, 이 데이터셋은 데이터셋 구축단계(S300)에서 구축된 데이터셋이다. 즉, 전자문서의 단락에 포함된 텍스트들 중 품사 태깅이 수행된 텍스트들을 조합하여 생성된 질의와 정답의 쌍 또는 질의와 정답, 단락의 쌍이다.

한편, 학습 데이터셋을 사전 학습된 딥러닝 모델에 적용하기 위해 딥러닝 모델의 미세 조정(fing-tuning)이 필요하다. 미세 조정(fine tuning)은 기존의 사전학습된 모델을 기반으로 새로운 모델을 학습하는 과정에 해당할 수 있다. 보다 구체적으로, 미세 조정은 사전학습된 모델을 새로운 목적에 따라 재정의하기 위한 것으로서, 본 실시예에 따른 태스크(task)를 위한 것이다.

미세 조정은 사전학습된 모델을 새로운 목적에 따라 재정의하기 위해 원래의 모델에 존재하는 분류기(classifier)를 제거하고 새로운 목적에 맞는 분류기를 추가하는 동작을 포함할 수 있다. 그리고 미세 조정 과정은 수정된 모델의 전체를 전부 학습하는 방식으로 진행될 수 있고, 컨볼루션 베이스(Convolutional base)의 일부분은 고정시킨 상태에서 나머지 계층(layer)과 분류기만을 학습하는 방식으로 진행될 수 있으며, 컨볼루션 베이스는 고정시킨 상태에서 분류기만을 학습하는 방식으로 진행될 수 있다. 또한 본 실시예에 따른 태스크를 위한 출력층을 추가할 수 있다.

본 실시예에서는 미세 조정 시 기업 구성원들의 인사 정보가 반영된다. 그리고 속성태그 정보가 반영될 수 있다. 인사정보와 속성태그 정보는 가중치가 부여될 수 있다. 이를 통해 응답의 정확도가 매우 높아질 수 있다.

즉, 딥러닝 모델이 학습을 할 때, 단순히 질의-응답과 같은 학습 데이터셋만으로 학습을 하는 것이 아니라, 학습 데이터에 더하여 사용자의 인사정보와, 전자문서의 속성태그(즉 전자문서 자체의 속성태그와 텍스트의 속성태그 등을 포함함)를 반영하여 학습을 수행한다.

그리고 전이학습(Transfer Learning)이 수행될 수 있다. 본 실시예에 따른 태스크 수행을 위해, 사전학습 모델의 성질에 추가 데이터의 성질이 합성되도록 전이학습(Transfer Learning)을 진행할 수 있다.

전이학습과 기계학습과의 차이는, 기계학습은 주어진 데이터에 대해서 각각의 모델이 독립적으로 구현되기 때문에 서로 다른 모델간의 연관관계는 없다. 즉, 특정 데이터를 이용하여 구현된 모델은 다른 유형의 데이터를 적용하였을 때 성능을 보장할 수 없다. 이에 반하여, 전이학습은 대상 데이터와 다른 유형의 학습 데이터를 이용하여 모델의 선행학습을 수행하고, 지식 이전(Knowledge Transfer)을 통해서 새로운 모델을 구현하는 방식이 적용된다는 점이 가장 큰 차이점이다.

응답 생성단계(S500)는 딥러닝 모델이 사용자 단말로부터 질의를 입력받을 수 있다. 딥러닝 모델은, 사용자 단말로부터 질의를 입력받고, 입력된 질의에 대해 키워드를 추출한다. 키워드 추출 시 입력된 질의에 대해 용어 단위로 토큰화(Tokenization)할 수 있다. 이때, 입력된 질의 텍스트를 단순히 입력만 받는 것이 아니라, 용어 단위를 확정하기 위하여, 의문문 형태를 토크나이저(Tokenizer)를 이용하여 용어 단위로 토큰화할 수 있다.

그리고 입력된 질의로부터 기 색인된 단락을 검색한다. 일 예시로, TF-IDF(Term Frequency-Inverse Document Frequency) 알고리즘 기반의 유사도 기반으로 단락 검색을 수행할 수 있다. 그리고 유사도가 높은 순으로 단락을 순서화시킬 수 있다.

이 때, 사용자 단말을 통해 질의를 입력한 사용자의 인사 정보를 수신한다. 즉 소속, 직급 등의 인사정보를 사용자 단말의 정보로부터 수신(확인)하고, 단락 검색 시 인사 정보에 가중치를 반영한다. 예를 들어 사용자가 기업의 휴가 규정에 대해 질의를 한 경우, 직급에 따라 휴가 규정이 상이할 수 있는데, 질의한 사용자의 직급과 다른 직급에 대한 규정을 답안으로 하여 응답을 생성하는 것은 응답 정확도가 매우 낮기 때문이다.

또한, 입력된 질의를 통해 속성태그 정보를 확인할 수 있으며, 해당 속성태그 정보에 대응되는 전자문서, 단락에 가중치를 두고 검색하여 응답 정확도를 보다 향상시킬 수 있다. 즉 질의의 내용이 어떠한 부서와 관련된 것인지를 알 수 있으며, 이에 따라 해당 부서의 속성태그가 부여된 전자문서 등에 가중치를 부여할 수 있다.

그리고 검색된 단락을 기반으로 응답을 생성하고 사용자 단말로 제공한다.

도 6은 본 발명의 일 실시예에 따른 기업용 챗봇 서비스 제공 장치의 개략적인 구조도이다.

본 발명의 실시예에 따른 기업용 챗봇 서비스 제공 장치는, 프로세서(10), 메모리(20), 통신부(30) 및 인터페이스부(40)를 포함한다.

프로세서(10)는 메모리(20)에 저장된 처리 명령어를 실행시키는 CPU 또는 반도체 소자일 수 있다.

메모리(20)는 다양한 유형의 휘발성 또는 비휘발성 기억 매체를 포함할 수 있다. 예를 들어, 메모리(20)는 ROM, RAM 등을 포함할 수 있다. 예를 들어, 메모리(20)는 본 발명의 실시예에 따른 기업용 챗봇 서비스 제공 방법(S1000)을 수행하는 명령어들을 저장할 수 있다.

통신부(30)는 통신망을 통해 다른 장치들과 데이터를 송수신하기 위한 수단이다.

인터페이스부(40)는 네트워크에 접속하기 위한 네트워크 인터페이스 및 사용자 인터페이스를 포함할 수 있다.

한편, 전술된 실시예의 구성 요소는 프로세스적인 관점에서 용이하게 파악될 수 있다. 즉, 각각의 구성 요소는 각각의 프로세스로 파악될 수 있다. 또한 전술된 실시예의 프로세스는 장치의 구성 요소 관점에서 용이하게 파악될 수 있다.

또한 앞서 설명한 기술적 내용들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예들을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 하드웨어 장치는 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

본 발명에서 모든 예들 또는 예시적인 용어(예를 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한 해당 기술 분야의 통상의 기술자는 다양한 수정, 조합 및 변경이 부가된 청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터(factor)에 따라 구성될 수 있음을 알 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 청구범위 뿐만 아니라, 이 청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

S1000 : 기업용 챗봇 서비스 제공 방법
S100 : 전자문서 수집단계 S200 : 자연어 처리단계
S300 : 데이터셋 구축단계 S400 : 학습단계
S500 : 응답 생성단계 100 : 데이터베이스
200 : 자연어 처리부 300 : 데이터셋 구축부

Claims

기업 내부의 전자문서가 수집되어 데이터베이스에 저장되는 단계;
상기 전자문서에 포함된 텍스트가 형태소 별로 구분된 뒤 자연어 처리되는 단계;
상기 전자문서에 포함된 텍스트로부터 질의와 답변의 쌍을 갖는 학습 데이터를 구축하는 단계;
상기 학습 데이터를 딥러닝 모델에 입력하여 기계 독해(Machine Reading Comprehension) 학습을 수행하는 단계;
상기 딥러닝 모델이 사용자 단말로부터 질의를 입력받아, 상기 질의에 대한 응답을 생성하여 사용자 단말로 제공하는 응답 생성단계;를 포함하며,
상기 딥러닝 모델은, 오픈 데이터셋을 이용하여 사전 학습된 인공지능 언어모델이며,
상기 학습을 수행하는 단계는, 사전 학습된 상기 딥러닝 모델에 대해 미세 조정(fine-tuning)이 수행되며, 상기 미세 조정 시 기업 구성원들의 인사 정보가 반영되고,
상기 응답 생성 단계는,
상기 질의로부터 키워드를 추출하고, 기 색인된 단락을 검색하는 단계;
상기 사용자 단말로부터 질의를 입력한 사용자의 인사 정보를 수신하는 단계;
상기 인사 정보에 가중치를 부여하는 단계;
검색된 상기 단락을 기반으로 응답을 생성하고 상기 사용자 단말로 제공하는 단계;를 포함하는
기업용 챗봇 서비스 제공 방법.
삭제
삭제
삭제
삭제
제1항에 있어서,
상기 자연어 처리하는 단계는, 상기 텍스트에 품사 태깅을 수행하며,
상기 학습 데이터를 구축하는 단계는,
상기 전자문서 내에서 기 색인된 단락을 검색하는 단계;
상기 검색된 단락으로부터 구문 추출기를 이용하여 응답 구문을 추출하는 단계;
상기 추출된 응답 구문에 대응하는 질의 구문을 질의 생성기가 생성하는 단계;
상기 응답 구문과 상기 질의 구문을 포함하는 학습 데이터를 생성하는 단계;를 포함하는
기업용 챗봇 서비스 제공 방법.
제6항에 있어서,
상기 질의 구문은,
품사 태깅된 상기 텍스트들 중 서로 다른 품사가 태깅된 텍스트를 조합하여 생성되는
기업용 챗봇 서비스 제공 방법.
제7항에 있어서,
상기 질의 구문은,
기 저장된 의문사 리스트 중 어느 하나의 의문사가 선택적으로 조합되어 생성되는
기업용 챗봇 서비스 제공 방법.
프로세서; 및
상기 프로세서와 결합되어 작동되는 메모리를 포함하는 기업용 챗봇 서비스를 제공하는 장치로서,
상기 프로세서는,
기업 내부의 전자문서가 수집되어 데이터베이스에 저장되는 단계;
상기 전자문서에 포함된 텍스트가 형태소 별로 구분된 뒤 자연어 처리되는 단계;
상기 전자문서에 포함된 텍스트로부터 질의와 답변의 쌍을 갖는 학습 데이터를 구축하는 단계;
상기 학습 데이터를 딥러닝 모델에 입력하여 기계 독해(Machine Reading Comprehension) 학습을 수행하는 단계;
상기 딥러닝 모델이 사용자 단말로부터 질의를 입력받아, 상기 질의에 대한 응답을 생성하여 사용자 단말로 제공하는 응답 생성단계;를 수행하며,
상기 딥러닝 모델은, 오픈 데이터셋을 이용하여 사전 학습된 인공지능 언어모델이며,
상기 학습을 수행하는 단계는, 사전 학습된 상기 딥러닝 모델에 대해 미세 조정(fine-tuning)이 수행되며, 상기 미세 조정 시 기업 구성원들의 인사 정보가 반영되고,
상기 응답 생성 단계는,
상기 질의로부터 키워드를 추출하고, 기 색인된 단락을 검색하는 단계;
상기 사용자 단말로부터 질의를 입력한 사용자의 인사 정보를 수신하는 단계;
상기 인사 정보에 가중치를 부여하는 단계;
검색된 상기 단락을 기반으로 응답을 생성하고 상기 사용자 단말로 제공하는 단계;를 포함하는
기업용 챗봇 서비스 제공 장치.