WO2022114325A1

WO2022114325A1 - 자연어 대화에서 질문의 유사성을 분석하기 위한 질의 자질 추출 장치 및 방법

Info

Publication number: WO2022114325A1
Application number: PCT/KR2020/017277
Authority: WO
Inventors: 최호진; 오교중; 박수환
Original assignee: 한국과학기술원
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2022-06-02

Abstract

유사한 질문-답변 지식(질문)을 탐색하는데 있어서 유사성을 분석할 수 있는 자질을 자동으로 추출하는 방법으로 데이터와 시스템에 맞춰 분류체계를 정리할 필요 없이 범용적으로 적용하여 성능 개선이나 모델 피팅 작업에 선행하여 초기 개발을 원활히 수행하도록 한 질의 자질 추출 장치 및 방법을 제시한다. 제시된 자질 추출 장치는 전처리된 질의 문장 및 비교 대상 문장의 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터 및 형태소 등장 여부 자질 벡터를 추출하고, 추출한 자질 벡터를 근거로 질의 문장과 비교 대상 문장의 유사성을 분석한다.

Description

자연어 대화에서 질문의 유사성을 분석하기 위한 질의 자질 추출 장치 및 방법

본 발명은 자연어 대화에서 질의 자질을 추출하기 위한 장치 및 방법에 관한 것으로, 더욱 상세하게는 고객 상담 서비스를 위한 챗봇이나 현장 전문가용 어시스턴트 개발을 위한 인공지능 자연어 이해 기술 중 하나인 질의 문장 유사도 분석을 위해 자연어 대화로부터 질의 자질을 자동 추출하는 질의 자질 추출 장치 및 방법에 관한 것이다.

최근 기업에서는 고객상담의 자동화를 위해 챗봇, 대화형 시스템 등과 같은 고객상담 자동화 시스템을 도입하고 있다.

고객상담 자동화 시스템은 입력된 문장(질의)의 의미와 의도가 유사한 질문-답변 지식(질문)을 탐색하여 관련된 답변을 고객에게 제공한다.

메신저 또는 대화형 플랫폼에서의 사용자의 입력은 매우 다양한 자연어 표현으로 입력된다. 다양한 표현으로 입력된 질문에 대하여 답변을 제공하기 위해서는 고도화된 자연어 처리와 이해 기술을 이용하여 입력 질문을 이해하는 과정이 반드시 필요하다.

이를 위해 종래에는 질문 문장의 중요 키워드 인식 및 패턴 추출 단계, 세부 카테고리 화행 분류 단계, 유사 질문 분석 단계, 유사 질문 답변 제공 단계를 거쳐 입력된 질문에 대한 답변을 제공한다.

종래에는 응용 도메인(분야)과 개발 시스템에 맞추어 어휘 사전을 구축하고 분류 체계를 정의해야 하며, 분류 모델을 학습하는데 필요한 태깅 데이터를 도메인 전문가의 판단 아래 정해진 분류 체계에 맞게 태깅하는 과정이 필요하다.

기존 고객상담 자동화 시스템에서는 입력문장과 답변 지식이 구축된 질의 문장의 구조/의미적 유사성을 분석하여 입력된 질문과 가장 유사한 질문의 답변을 제공한다. 기존에는 개발 시스템에 맞춰 분류 자질을 정하고 분류 모델을 구축하여 입력된 문장의 유사성을 비교할 수 있는 자질을 분석하였다.

그러나 이 같은 방법은 구축하려는 시스템이 달라지거나 적용 도메인에 따라 별도의 분류 체계를 정의하고 분류 모델을 별도로 구축해야 하는 한계가 있다. 학습 문장에 대하여 도메인, 카테고리, 화행 등의 추가적인 분류 자질을 함께 학습한 문장 임베딩 방법을 적용하였으며, 기존 연구의 추가 자질은 정교한 분류 체계 정의와 주석 태깅 및 검증 작업이 필요하며, 기술을 적용함에 있어서 도메인과 화행 분류 자질을 수동으로 태깅한 정제된 학습데이터를 필요로 하다,

또한 시스템마다 학습 데이터를 구축하는데 시간과 노력을 필요로 한다. 또한 특정 도메인에 특화하여 질의 문장의 자질을 분류하고 학습 모델을 구축하다 보니 범용적인 도메인과 일반 문장에서 쉽게 적용할 수 없는 문제점도 있다.

따라서 적용 시스템이나 응용 도메인에 관계없이 범용적으로 사용할 수 있는 문장 유사성 분석 방법이 필요하며, 이를 위해서 질의 문장의 의미적 구조적 유사성 분석을 위한 언어학적 자질을 자동으로 추출하는 방법이 필요하다.

본 발명은 상기한 사정을 감안하여 제안된 것으로, 유사한 질문-답변 지식(질문)을 탐색하는데 있어서 유사성을 분석할 수 있는 자질을 자동으로 추출하는 방법으로 데이터와 시스템에 맞춰 분류체계를 정리할 필요 없이 범용적으로 적용하여 성능 개선이나 모델 피팅 작업에 선행하여 초기 개발을 원활히 수행하도록 한 질의 자질 추출 장치 및 방법을 제공하는 것을 목적으로 한다.

본 발명은 자연어 이해 기술 중에서 자연어 패러프레이즈 인식과 관련된 것으로, 입력 질의 문장의 다양한 변형에도 유사한 질문을 탐색하여 답변을 제공하는 방법을 구현함에 있어서, 문장 간 의미/구조적 유사성을 분석하는 모델의 구현 과정을 개선하기 위한 질의 자질 추출 장치 및 방법을 제공하는 것을 목적으로 한다.

상기한 목적을 달성하기 위하여 본 발명의 실시 예에 따른 질의 자질 추출 장치는 자연어 문장으로 구성된 질의 문장을 입력받는 입력부, 질의 문장을 전처리하는 전처리부, 질의 문장 및 비교 대상 문장의 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터 및 형태소 등장 여부 자질 벡터를 추출하는 자질 벡터 추출부 및 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터 및 형태소 등장 여부 자질 벡터를 근거로 질의 문장과 비교 대상 문장의 유사성을 분석하는 유사성 분석부를 포함한다.

자질 벡터 추출부는 음절 단위로 분해한 질의 문장을 음절 단위 언어모델 및 학습 모델과 비교하여 질의 문장의 한글 음절 등장 패턴 자질 벡터를 추출하고, 음절 단위로 분해한 비교 대상 문장을 각각 음절 단위 언어모델 및 학습 모델과 비교하여 비교 대상 문장의 한글 음절 등장 패턴 자질 벡터를 추출하고, 자질 벡터 추출부는 한글 말뭉치로부터 검출한 한글 문장을 음절 단위로 분해하여 음절 단위 언어모델을 학습할 수 있다.

자질 벡터 추출부는 전처리부의 형태소 분석 결과를 근거로 의미 형태소 단위로 분해한 질의 문장을 의미 형태소 언어모델 및 학습 모델과 비교하여 질의 문장의 의미 형태소 패턴 자질 벡터를 추출하고, 전처리부의 형태소 분석 결과를 근거로 의미 형태소 단위로 분해한 비교 대상 문장을 의미 형태소 언어모델 및 학습 모델과 비교하여 비교 대상 문장의 의미 형태소 패턴 자질 벡터를 추출하고, 전처리부의 형태소 분석 결과를 근거로 한글 말뭉치로부터 검출한 한글 문장을 의미 형태소 단위로 분해하여 의미 형태소 언어모델로 학습할 수 있다.

자질 벡터 추출부는 형태소 단위로 분해한 질의 문장을 형태소 워드 매트릭스 및 문장 분류 모델과 비교하여 질의 문장의 형태소 등장 여부 자질 벡터를 추출하고, 형태소 단위로 분해한 비교 대상 문장을 형태소 워드 매트릭스 및 문장 분류 모델과 비교하여 비교 대상 문장의 형태소 등장 여부 자질 벡터를 추출하고, 학습데이터를 화행 분류 자질 태깅하여 문장 분류 모델을 생성할 수 있다.

유사성 분석부는 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터 및 형태소 등장 여부 자질 벡터를 합쳐 문장 벡터를 정의하고, 질의 문장 및 비교 대상 문장의 문장 벡터를 비교하여 유사성 점수를 수치화하고, 유사성 점수가 설정 점수 이하이면 다른 비교 대상 문장을 설정할 수 있다.

본 발명의 실시 예에 따른 질의 자질 추출 장치는 유사성 분석부에서 수치화한 유사성 점수가 설정 점수를 초과하면 질의 문장에 대한 답변을 제공하는 답변 처리부를 더 포함할 수 있다.

상기한 목적을 달성하기 위하여 본 발명의 실시 예에 따른 질의 자질 추출 방법은 자연어 문장으로 구성된 질의 문장을 입력받는 단계, 질의 문장을 전처리하는 단계, 질의 문장 및 비교 대상 문장의 한글 음절 등장 패턴 자질 벡터를 추출하는 단계, 질의 문장 및 비교 대상 문장의 의미 형태소 패턴 자질 벡터를 추출하는 단계, 질의 문장 및 비교 대상 문장의 형태소 등장 여부 자질 벡터를 추출하는 단계 및 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터 및 형태소 등장 여부 자질 벡터를 근거로 질의 문장과 비교 대상 문장의 유사성을 분석하는 단계를 포함한다.

한글 음절 등장 패턴 자질 벡터를 추출하는 단계는 음절 단위로 분해한 질의 문장을 음절 단위 언어모델 및 학습 모델과 비교하여 질의 문장의 한글 음절 등장 패턴 자질 벡터를 추출하는 단계, 절 단위로 분해한 비교 대상 문장을 각각 음절 단위 언어모델 및 학습 모델과 비교하여 비교 대상 문장의 한글 음절 등장 패턴 자질 벡터를 추출하는 단계 및 한글 말뭉치로부터 검출한 한글 문장을 음절 단위로 분해하여 음절 단위 언어모델을 학습하는 단계를 포함할 수 있다.

의미 형태소 패턴 자질 벡터를 추출하는 단계는 전처리부의 형태소 분석 결과를 근거로 의미 형태소 단위로 분해한 질의 문장을 의미 형태소 언어모델 및 학습 모델과 비교하여 질의 문장의 의미 형태소 패턴 자질 벡터를 추출하는 단계, 전처리부의 형태소 분석 결과를 근거로 의미 형태소 단위로 분해한 비교 대상 문장을 의미 형태소 언어모델 및 학습 모델과 비교하여 비교 대상 문장의 의미 형태소 패턴 자질 벡터를 추출하는 단계 및 전처리하는 단계의 형태소 분석 결과를 근거로 한글 말뭉치로부터 검출한 한글 문장을 의미 형태소 단위로 분해하여 의미 형태소 언어모델로 학습하는 단계를 포함할 수 있다.

형태소 등장 여부 자질 벡터를 추출하는 단계는 형태소 단위로 분해한 질의 문장을 형태소 워드 매트릭스 및 문장 분류 모델과 비교하여 질의 문장의 형태소 등장 여부 자질 벡터를 추출하는 단계, 형태소 단위로 분해한 비교 대상 문장을 형태소 워드 매트릭스 및 문장 분류 모델과 비교하여 비교 대상 문장의 형태소 등장 여부 자질 벡터를 추출하는 단계 및 학습데이터를 화행 분류 자질 태깅하여 문장 분류 모델을 생성하는 단계를 포함할 수 있다.

유사성을 분석하는 단계는 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터 및 형태소 등장 여부 자질 벡터를 합쳐 문장 벡터를 정의하는 단계, 질의 문장 및 비교 대상 문장의 문장 벡터를 비교하여 유사성 점수를 수치화하는 단계 및 유사성 점수가 설정 점수 이하이면 다른 비교 대상 문장을 설정하는 단계를 포함할 수 있다.

본 발명의 실시 예에 따른 질의 자질 추출 방법은 유사성을 분석하는 단계에서 수치화한 유사성 점수가 설정 점수를 초과하면 질의 문장에 대한 답변을 제공하는 단계를 더 포함할 수 있다.

본 발명에 의하면, 질의 자질 추출 장치 및 방법은 질의응답(Q&A) 시스템, 대화 시스템(dialog system), 챗봇(chatter bot 또는 chatbot) 등의 자동 상담 시스템에서 상담 업무의 응답률을 개선하고, 상담원의 업무 효율을 향상시킬 수 있는 효과가 있다.

도 1은 한글 자연어 문장 분류 모델을 설명하기 위한 도면.

도 2는 본 발명의 실시 예에 따른 자질 추출 장치를 설명하기 위한 도면.

도 3 내지 도 6은 도 2의 자질 벡터 추출부를 설명하기 위한 도면.

도 7은 도 2의 유사성 분석부를 설명하기 위한 도면.

도 8은 본 발명의 다양한 실시예에 따른 입력 문장 간의 유사도를 측정하는 개념을 설명하기 위한 도면.

도 9는 본 발명의 실시 예에 따른 자질 추출 방법을 설명하기 위한 흐름도.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 가장 바람직한 실시 예를 첨부 도면을 참조하여 설명하기로 한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

도 1을 참조하면, 종래에는 문장 인코더 모델을 구성하여, 학습 문장에 대한 도메인, 세부 카테고리, 화행 분류와 같은 자질을 문장과 함께 학습한다. 이 모델은 분류 태깅 정보를 MLP stage를 통해 인코더 모델의 학습 시 함께 반영될 수 있게 구성되었다. 이 모델을 통해 새로운 입력 질의 문장의 문장 벡터를 생성할 수 있고, 이 벡터에 기반하여 도메인과 화행 자질을 분류할 수 있다.

본 발명의 실시 예에 따른 질의 자질 추출 장치(100) 및 방법은 종래와 같이 질문 간 유사성 분석을 위한 질의 자질을 추출하는 과정은 딥러닝 기술을 활용하며 자연어 문장의 음절과 형태소 정보를 정해진 길이의 실수 벡터 형태의 정보로 변환하는 임베딩(인코딩) 모델을 학습하고 이를 적용하는 과정을 거친다.

본 발명의 실시 예에 따른 질의 자질 추출 장치(100) 및 방법은 응용 도메인과 적용 시스템에 특화된 분류 체계가 아닌 한국어 음절의 등장 패턴 정보를 반영하는 벡터, 언어모델에 의해 의미적으로 유사한 형태소의 등장 패턴 정보를 반영하는 벡터, 어순에 상관없이 문장 내 형태소 등장 정보를 반영하는 벡터를 자연어 문장의 유사성을 분석할 수 있는 자질로써 활용하는 점에서 종래와 차이가 있다.

즉, 본 발명의 실시 예에 따른 질의 자질 추출 장치(100) 및 방법은 자동 추출 자질을 이용하여 문장의 유사성을 분석하는 기술로, 자동 추출 자질은 딥러닝 기술을 이용하여 구현된 문장 임베딩 모델에서 분석된 자질 벡터들을 의미하며, 응용 도메인이나 적용 시스템에 상관없이 한국어 문장에 대해 범용적으로 사용할 수 있다.

본 발명의 실시 예에 따른 질의 자질 추출 장치(100) 및 방법에서는 크게 3가지의 자질 벡터를 자동 추출하는데, 음절 등장 패턴 정보, 의미 정보를 반영한 형태소 등장 패턴 정보, 어순에 상관없이 형태소 등장 여부 정보와 같이 응용 도메인과 적용 시스템에 독립적으로 실수 벡터 형태의 자질 정보를 생성한다. 이를 이용하여 분류 모델과 유사도 예측 모델에서 분석된 문장 벡터를 문장 유사성 분석을 위한 자질로써 사용한다.

도 2를 참조하면, 질의 자질 추출 장치(100)는 입력부(110), 전처리부(130), 자질 벡터 추출부(150), 유사성 분석부(170), 답변 처리부(190)를 포함하여 구성된다.

입력부(110)는 사용자(고객)으로부터 질의 문장을 입력받는다. 입력부(110)는 자연어 문장으로 구성된 질의 문장을 입력받는다.

전처리부(130)는 입력부(110)에서 입력받은 질의 문장을 전처리한다. 전처리부(130)는 질의 문장에 대해 오타, 띄어쓰기 수정, 경계 인식, 형태소 인식 등의 자연어 문장 전처리를 기술을 이용하여 질의 문장을 전처리한다. 여기서, 질의 문장의 전처리는 공지된 다양한 기술이 적용될 수 있으므로 상세한 설명을 생략하기로 한다.

자질 벡터 추출부(150)는 한글 말뭉치(200)를 이용하여 전처리된 질의 문장으로부터 자질 벡터를 추출한다. 자질 벡터 추출부(150)는 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터, 및 형태소 등장 여부 자질 벡터를 추출한다.

자질 벡터 추출부(150)는 한글 음절의 등장 패턴 정보에 기반하여 질의 문장으로부터 한글 음절 등장 패턴 자질 벡터를 추출한다.

도 3을 참조하면, 자질 벡터 추출부(150)는 한글 문장을 음절단위로 분해하여 음절의 패턴을 언어모델로 학습한다. 자질 벡터 추출부(150)는 언어모델 학습을 통해 학습모델을 생성한다. 자질 벡터 추출부(150)는 학습모델을 이용하여 한글 음절 등장 패턴 자질 벡터를 추출한다.

이를 위해, 자질 벡터 추출부(150)는 한글 문장을 음절 단위 문장으로 분해한다. 자질 벡터 추출부(150)는 학습 문장, 질의 문장, 유사성 분석 대상 질문의 음절을 딥러닝이 학습할 수 있는 실수 형태의 벡터로 변환한다. 현대 한글 조합형의 경우 11,172자를 표현할 수 있으며, 이를 원-핫 인코딩(one-hot encoding)한 결과를 입력 배치와 학습 배치로 변환한다. 예를 들어 'ㄱ'의 경우 첫 번째 값이 1이고 나머지가 0인 크기가 11,172인 벡터가 될 수 있다. 여기서, 본 발명의 실시 예에서는 딥러닝 모델을 사용하기 때문에 음절 단위 문장으로 분해하는 구성이 필요하지만 적용 모델에 따라 음절 단위 문장으로 분해하는 구성이 생략될 수 있다.

자질 벡터 추출부(150)는 변환된 벡터의 순차 리스트를 음절 단위 언어모델 및 학습 모델을 통해 학습을 수행한다. 이때, 문장 인코더와 문장 디코더로 구성되어 있기 때문에 추후 모델 사용 단계에서는 문장 인코더만을 사용한다.

도 3의 학습 모델은 충분한 양의 한글 문장 말뭉치만 있으면 학습할 수 있으며, 형태소 분석 정보도 필요하지 않다. 도메인에 특화된 말뭉치를 사용하여 학습하는 경우, 도메인에서 전용적으로 쓰이는 단어의 언어모델이 학습되므로 한글 음절 등장 패턴 자질 벡터의 추출 결과가 응용 도메인과 적용 시스템에 따라 성능을 개선시킬 수 있다. 본 발명의 실시 예는 딥러닝 모델을 사용하여 구현된 실시 예이며, 자연어 문장을 실수 벡터 형태로 바꾸는 다른 방법과 알고리즘을 사용할 수 있다.

자질 벡터 추출부(150)는 의미 형태소 패턴 정보에 기반하여 질의 문장으로부터 의미 형태소 패턴 자질 벡터를 추출한다.

도 4를 참조하면, 자질 벡터 추출부(150)는 도 3과 유사한 학습 모델을 구현하여 학습하는데 입력 형태가 음절 정보에서 의미(실질) 형태소로 바뀐다. 이를 위해, 자질 벡터 추출부(150)는 전처리부(130)로부터 형태소 분석 결과를 수집한다. 자질 벡터 추출부(150)는 추가적으로 도메인 어휘사전에서 상품명, 회사명 등과 같이 복합명사를 포함하는 특정 개체명 정보를 입력 형태소 조합에 사용한다.

자질 벡터 추출부(150)는 조사, 어미, 조동사 등을 제외한 의미적으로 영향을 주는 의미(실질) 형태소만을 입력으로 사용한다. 따라서, 자질 벡터 추출부(150)는 문장 내의 의미(형태소)의 언어모델을 학습한다. 이를 통해 문장 내 함께 등장하는 확률이 높은 형태소 패턴 정보가 문장 인코더에서 의미 형태소 패턴 자질 벡터로 추출된다.

자질 벡터 추출부(150)는 문장 내 형태소 등장 여부를 반영하여 질의 문장으로부터 형태소 등장 여부 자질 벡터를 추출한다. 즉, 자질 벡터 추출부(150)는 어순에 상관없이 문장 내 형태소 등장 여부를 반영하는 자질 벡터를 추출한다.

도 5를 참조하면, 자질 벡터 추출부(150)는 형태소의 등장 여부 정보를 전달하는 자질 벡터를 추출하는 모델을 학습한 후, 해당 모델에서 뽑히는 문장 벡터를 자질 벡터로써 추출한다. 이 모델을 학습시키는데 필요한 입력으로는 문장에서 뽑힌 형태소 word matrix와 학습데이터 문장의 화행 분류 자질 태깅 결과가 필요하다. 형태소 word matrix에 입력되는 벡터 행렬은 전처리 과정으로 워드임베딩 방법을 통해 얻어진다. 워드임베딩은 비지도 학습 기술로 문장 말뭉치만을 사용하여 얻을 수 있으며, 형태소 별로 워드 임베딩 벡터가 생성되며 word matrix를 만들 때 해당 형태소 벡터를 불러와서 사용한다.

CNN 기반의 문장 분류 모델은 비지도 학습이 불가능하기 때문에 일부 학습데이터를 구축하여 이를 Semi-supervised learning 방식을 적용하여 씨앗 학습 데이터로 활용하여 모델을 학습한다. 그리고 태깅되지 않은 문장에 자동 태깅과 정제 과정을 거쳐 학습데이터를 확장한다. 화행 분류 자질은 일반 대화 (8개: 정의, 설명, 상황, 이유, 방법, 확인/조회, 가능, 요청) 화행에 대해 태깅한 자질을 사용한다. 응용 도메인과 적용 시스템에 맞게 화행 분류체계를 정리하는 경우 더 좋은 결과를 얻을 수 있다. 본 발명의 실시 예에서는 도메인 특화(7개: 신규/등록, 탈퇴/상환, 진행/변경, 가입/추천, 취소/해지, 기간, 오류)를 추가로 더 태깅하여 사용한다.

유사성 분석부(170)는 자질 벡터 추출부(150)에서 추출한 자질 벡터를 기반으로 문장 간 유사도를 산출한다.

도 6을 참조하면, 자질 벡터 추출부(150)에서 추출한 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터, 형태소 등장 여부 자질 벡터는 각각 순차적 표현 정보와, 의미적 정보, 유사표현 사용 정보 등을 나타낸다. 유사성 분석부(170)는 세 종류의 자질 벡터를 합쳐 유사성 분석을 위한 문장 벡터로 정의한다. 유사성 분석부(170)는 질의 문장과 유사성을 비교할 대상 문장과의 벡터의 유사도를 측정하여 유사성 점수를 수치화한다.

유사성 분석부(170)는 추출한 자질 벡터와 질문-답변 지식베이스(300)를 근거로 유사성 점수를 수치화한다. 도 7에서는 유사성 분석부(170)에서 질의 문장과 유사 문장 간의 분석을 통해 유사성 점수를 수치화한 일례를 도시한다. 예를 들어, 유사성 분석부(170)는 입력 질의 문장인 “1회 한도 1일한도 증액 어떻게 하나요”와 질문-답변 지식베이스(300)에 저장된 유사 문장 “대출 한도 증액 어떻게 하나요?” 간의 유사도를 0.873로 수치화할 수 있다.

유사성 분석부(170)는 추출한 자질 벡터와 질문-답변 지식베이스(300)에 저장된 질문의 자질 벡터 사이의 유사성을 분석하여 자질 벡터 추출부(150)에서 추출한 자질 벡터의 유사성 점수를 설정한다. 유사성 분석부(170)는 설정한 유사성 점수가 설정 점수 이하이면 질문-답변 지식베이스(300)에 저장된 다른 질문과의 분석으로 들어간다.

답변 처리부(190)는 유사성 점수가 설정 점수를 초과하면 유사성 점수에 따른 정렬이나 Ranking 알고리즘을 통해 해당 질문의 답변을 제공한다.

이상의 질의 자질 추출 장치(100)에서 문장 경계 인식(sentence boundary detection), 형태소 분석(Part of Speech tagging) 등 자연어 전처리 과정과 답변 제공 단계는 실시예에 따라 응용 도메인과 적용 시스템의 성능에 영향을 줄 수 있으며, 이 부분은 공학적인 접근으로 다양한 이형의 실시예가 구현될 수 있다.

일례로, 도 8에 도시된 바와 같이, 질의 자질 추출 장치(100)는 자연어 입력 문장 간의 유사도를 측정할 수 있다. 도 8은 본 발명의 다양한 실시예에 따른 입력 문장 간의 유사도를 측정하는 개념을 설명하기 위한 도면으로, 구체적으로, 뉴스 기사에서 유사성이 높은 문장 쌍을 찾기 위한 예시이다.도 8에 도시된 질의 자질 추출 장치(100)는 딥러닝 기술이 적용된 문장 임베딩 모델을 이용하여 자질 벡터를 추출한다. 예를 들어, 음절의 패턴과 의미 형태소의 패턴에 대해서는 RNN 기반의 문장 임베딩 모델(810)을 이용하고, 유사 형태소 등장 여부에 대해서는 CNN 기반의 문장 임베딩 모델(820)을 이용하여, 자질 벡터를 추출할 수 있다. RNN 기반의 문장 임베딩 모델(810)은, 음절 별로 원-핫(one-hot) 인코딩을 수행하거나 또는 언어모델 학습을 통해 생성된 글자 벡터를 RNN 모델의 입력으로 사용하여 음절의 순서 정보를 학습한 인코더 모델일 수 있다. RNN 기반의 문장 임베딩 모델(810)을 이용할 경우, 문장 내의 음절 표현만을 이용하여 문장 벡터를 생성하므로, 유사한 표현(글자 또는 단어)이 순차적으로 등장한 경우, 유사성이 높은 문장 벡터가 생성될 수 있다. CNN 기반의 문장 임베딩 모델(820)은, 문장 내 단어나 의미 형태소들의 단어 벡터를 여러 층으로 쌓은 문장 행렬을 입력으로 사용하여, 평면화 과정 없이 단어의 공간 정보를 유지하면서 인접 단어들 간의 특징(언어 모델)을 학습하는 모델일 수 있다. CNN 기반의 문장 임베딩 모델(820)을 이용할 경우, 어순에 관계없는 표현의 등장 여부에 관한 정보가 반영된 문장 벡터가 생성될 수 있다. CNN 모델로 생성한 문장 벡터를 추가 자질로 사용하는 경우에는 문장의 어순이 변화되더라도 같은 표현이 사용되면, RNN 모델에 비해 높은 유사도 값을 얻을 수 있다.

질의 자질 추출 장치(100)에서 RNN 기반의 Seq2Seq 모델인 문장 임베딩 모델(인코더)을 이용하는 경우 형태소의 등장 패턴만을 반영하여 유사성을 분석할 수 있는 자질 벡터를 추출하기 때문에, 단순히 어순이 변형된 경우에도 유사성 점수가 낮게 나오는 문제가 있다.

이에, 질의 자질 추출 장치(100)는 CNN 모델을 이용하여 문장 자질 벡터를 추출하는 모델을 추가로 포함할 수 있다. 또한 기존에는 의미 형태소 벡터 패턴 정보만을 사용하고 도메인에 특화된 도메인 화행 분류 자질을 학습 자질로 사용하였으나, 본 발명에서는 음절 패턴 정보와 일반 도메인 화행 분류 자질을 사용함으로써 응용 도메인과 적용 시스템에 상관없이 한글 문장이기만 하면 유사성 분석을 위한 문장 자질 벡터를 추출할 수 있게 모델을 개선할 수 있다.

도 8을 참조하면, 본 발명의 실시 예에 따른 질의 자질 추출 방법은 질의 문장 입력 단계(S100), 전처리 단계(S200), 자질 벡터 추출 단계(S300), 유사성 분석 단계(S400), 답변 제공 단계(S500)를 포함한다.

질의 문장 입력 단계(S100)에서는 사용자(고객)으로부터 질의 문장을 입력받는다. 질의 문장 입력 단계(S100)에서는 자연어 문장으로 구성된 질의 문장을 입력받는다.

전처리 단계(S200)에서는 질의 문장을 전처리한다. 전처리 단계(S200)에서는 질의 문장에 대해 오타, 띄어쓰기 수정, 경계 인식, 형태소 인식 등의 자연어 문장 전처리를 기술을 이용하여 질의 문장을 전처리한다.

한글 음절 등장 패턴 자질 벡터 추출 단계(S300)에서는 한글 말뭉치(200)를 이용하여 S200 단계에서 전처리된 질의 문장으로부터 한글 음절 등장 패턴 자질 벡터를 추출한다.

한글 음절 등장 패턴 자질 벡터 추출 단계(S300)에서는 한글 음절의 등장 패턴 정보에 기반하여 질의 문장으로부터 한글 음절 등장 패턴 자질 벡터를 추출한다. 한글 음절 등장 패턴 자질 벡터 추출 단계(S300)에서는 한글 문장을 음절단위로 분해하여 음절의 패턴을 언어모델로 학습한다. 한글 음절 등장 패턴 자질 벡터 추출 단계(S300)에서는 언어모델 학습을 통해 학습모델을 생성한다. 한글 음절 등장 패턴 자질 벡터 추출 단계(S300)에서는 학습모델을 이용하여 한글 음절 등장 패턴 자질 벡터를 추출한다.

이를 위해, 한글 음절 등장 패턴 자질 벡터 추출 단계(S300)에서는 한글 문장을 음절 단위 문장으로 분해한다. 한글 음절 등장 패턴 자질 벡터 추출 단계(S300)에서는 학습 문장, 질의 문장, 유사성 분석 대상 질문의 음절을 딥러닝이 학습할 수 있는 실수 형태의 벡터로 변환한다. 현대 한글 조합형의 경우 11,172자를 표현할 수 있으며, 이를 원-핫 인코딩(one-hot encoding)한 결과를 입력 배치와 학습 배치로 변환한다. 예를 들어 'ㄱ'의 경우 첫 번째 값이 1이고 나머지가 0인 크기가 11,172인 벡터가 될 수 있다. 여기서, 본 발명의 실시 예에서는 딥러닝 모델을 사용하기 때문에 음절 단위 문장으로 분해하는 구성이 필요하지만 적용 모델에 따라 음절 단위 문장으로 분해하는 구성이 생략될 수 있다.

한글 음절 등장 패턴 자질 벡터 추출 단계(S300)에서는 변환된 벡터의 순차 리스트를 음절 단위 언어모델 및 학습 모델을 통해 학습을 수행한다. 이때, 문장 인코더와 문장 디코더로 구성되어 있기 때문에 추후 모델 사용 단계에서는 문장 인코더만을 사용한다. 여기서, 학습 모델은 충분한 양의 한글 문장 말뭉치만 있으면 학습할 수 있으며, 형태소 분석 정보도 필요하지 않다. 도메인에 특화된 말뭉치를 사용하여 학습하는 경우, 도메인에서 전용적으로 쓰이는 단어의 언어모델이 학습되므로 한글 음절 등장 패턴 자질 벡터의 추출 결과가 응용 도메인과 적용 시스템에 따라 성능을 개선시킬 수 있다. 본 발명의 실시 예는 딥러닝 모델을 사용하여 구현된 실시 예이며, 자연어 문장을 실수 벡터 형태로 바꾸는 다른 방법과 알고리즘을 사용할 수 있다.

의미 형태소 패턴 자질 벡터 추출 단계(S400)에서는 한글 말뭉치(200)를 이용하여 S200 단계에서 전처리된 질의 문장으로부터 의미 형태소 패턴 자질 벡터를 추출한다. 의미 형태소 패턴 자질 벡터 추출 단계(S400)에서는 의미 형태소 패턴 정보에 기반하여 질의 문장으로부터 의미 형태소 패턴 자질 벡터를 추출한다.

의미 형태소 패턴 자질 벡터 추출 단계(S400)에서는 자질 벡터 추출부(150)는 S300 단계와 유사한 학습 모델을 구현하여 학습하는데 입력 형태가 음절 정보에서 의미(실질) 형태소로 바뀐다. 이를 위해, 의미 형태소 패턴 자질 벡터 추출 단계(S400)에서는 전처리부(130)로부터 형태소 분석 결과를 수집한다. 의미 형태소 패턴 자질 벡터 추출 단계(S400)에서는 추가적으로 도메인 어휘사전에서 상품명, 회사명 등과 같이 복합명사를 포함하는 특정 개체명 정보를 입력 형태소 조합에 사용한다.

의미 형태소 패턴 자질 벡터 추출 단계(S400)에서는 조사, 어미, 조동사 등을 제외한 의미적으로 영향을 주는 의미(실질) 형태소만을 입력으로 사용한다.

따라서, 의미 형태소 패턴 자질 벡터 추출 단계(S400)에서는 문장 내의 의미(형태소)의 언어모델을 학습한다. 이를 통해 문장 내 함께 등장하는 확률이 높은 형태소 패턴 정보가 문장 인코더에서 의미 형태소 패턴 자질 벡터로 추출된다.

의미 형태소 패턴 자질 벡터 추출 단계(S400)에서는 문장 내 형태소 등장 여부를 반영하여 질의 문장으로부터 형태소 등장 여부 자질 벡터를 추출한다. 즉, 의미 형태소 패턴 자질 벡터 추출 단계(S400)에서는 어순에 상관없이 문장 내 형태소 등장 여부를 반영하는 자질 벡터를 추출한다.

형태소 등장 여부 자질 벡터 추출 단계(S500)에서는 한글 말뭉치(200)를 이용하여 S200 단계에서 전처리된 질의 문장으로부터 형태소 등장 여부 자질 벡터를 추출한다.

형태소 등장 여부 자질 벡터 추출 단계(S500)에서는 문장 내 형태소 등장 여부를 반영하여 질의 문장으로부터 형태소 등장 여부 자질 벡터를 추출한다. 즉, 형태소 등장 여부 자질 벡터 추출 단계(S500)에서는 어순에 상관없이 문장 내 형태소 등장 여부를 반영하는 자질 벡터를 추출한다.

형태소 등장 여부 자질 벡터 추출 단계(S500)에서는 형태소의 등장 여부 정보를 전달하는 자질 벡터를 추출하는 모델을 학습한 후, 해당 모델에서 뽑히는 문장 벡터를 자질 벡터로써 추출한다. 이 모델을 학습시키는데 필요한 입력으로는 문장에서 뽑힌 형태소 word matrix와 학습데이터 문장의 화행 분류 자질 태깅 결과가 필요하다. 형태소 word matrix에 입력되는 벡터 행렬은 전처리 과정으로 워드임베딩 방법을 통해 얻어진다. 워드임베딩은 비지도 학습 기술로 문장 말뭉치만을 사용하여 얻을 수 있으며, 형태소 별로 워드 임베딩 벡터가 생성되며 word matrix를 만들 때 해당 형태소 벡터를 불러와서 사용한다.

유사성 분석 단계(S400)에서는 S300 단계 내지 S500 단계를 통해 추출한 자질 벡터를 근거로 질의 문장과 유사성 분석 대상 질문에 대한 유사성을 분석한다.

S300 단계 내지 S500 단계를 통해 추출된 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터 및 형태소 등장 여부 자질 벡터는 각각 순차적 표현 정보와, 의미적 정보, 유사표현 사용 정보 등을 나타낸다.

유사성 분석 단계(S400)에서는 세 종류의 자질 벡터를 합쳐 유사성 분석을 위한 문장 벡터로 정의한다. 유사성 분석 단계(S400)에서는 질의 문장과 유사성을 비교할 대상 문장과의 벡터의 유사도를 측정하여 유사성 점수를 수치화한다.

유사성 점수가 설정 점수를 초과하면(S450; 예), 답변 제공 단계(S500)에서는 유사성 점수에 따른 정렬이나 Ranking 알고리즘을 통해 해당 질문의 답변을 제공한다. 한편, 유사성 분석 단계(S400)에서는 유사성 점수가 설정 점수 이하이면 다른 질문과의 분석으로 들어간다.

이상에서 본 발명에 따른 바람직한 실시 예에 대해 설명하였으나, 다양한 형태로 변형이 가능하며, 본 기술분야에서 통상의 지식을 가진자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형 예 및 수정 예를 실시할 수 있을 것으로 이해된다.

Claims

자연어 문장으로 구성된 질의 문장을 입력받는 입력부;

상기 질의 문장을 전처리하는 전처리부;

상기 질의 문장 및 비교 대상 문장의 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터, 및 형태소 등장 여부 자질 벡터를 추출하는 자질 벡터 추출부; 및

상기 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터 및 형태소 등장 여부 자질 벡터를 근거로 상기 질의 문장과 비교 대상 문장의 유사성을 분석하는 유사성 분석부를 포함하는 질의 자질 추출 장치.
제1항에 있어서,

상기 자질 벡터 추출부는,

음절 단위로 분해한 질의 문장을 음절 단위 언어모델 및 학습 모델과 비교하여 상기 질의 문장의 한글 음절 등장 패턴 자질 벡터를 추출하고,

음절 단위로 분해한 비교 대상 문장을 각각 음절 단위 언어모델 및 학습 모델과 비교하여 상기 비교 대상 문장의 한글 음절 등장 패턴 자질 벡터를 추출하는 질의 자질 추출 장치.
제2항에 있어서,

상기 자질 벡터 추출부는 한글 말뭉치로부터 검출한 한글 문장을 음절 단위로 분해하여 음절 단위 언어모델을 학습하는 질의 자질 추출 장치.
제1항에 있어서,

상기 자질 벡터 추출부는,

상기 전처리부의 형태소 분석 결과를 근거로 의미 형태소 단위로 분해한 질의 문장을 의미 형태소 언어모델 및 학습 모델과 비교하여 상기 질의 문장의 의미 형태소 패턴 자질 벡터를 추출하고,

상기 전처리부의 형태소 분석 결과를 근거로 의미 형태소 단위로 분해한 비교 대상 문장을 의미 형태소 언어모델 및 학습 모델과 비교하여 상기 비교 대상 문장의 의미 형태소 패턴 자질 벡터를 추출하는 질의 자질 추출 장치.
제1항에 있어서,

상기 자질 벡터 추출부는 상기 전처리부의 형태소 분석 결과를 근거로 한글 말뭉치로부터 검출한 한글 문장을 의미 형태소 단위로 분해하여 의미 형태소 언어모델로 학습하는 질의 자질 추출 장치.
제1항에 있어서,

상기 자질 벡터 추출부는

형태소 단위로 분해한 질의 문장을 형태소 워드 매트릭스 및 문장 분류 모델과 비교하여 상기 질의 문장의 형태소 등장 여부 자질 벡터를 추출하고,

형태소 단위로 분해한 비교 대상 문장을 형태소 워드 매트릭스 및 문장 분류 모델과 비교하여 상기 비교 대상 문장의 형태소 등장 여부 자질 벡터를 추출하는 질의 자질 추출 장치.
제6항에 있어서,

상기 자질 벡터 추출부는 학습데이터를 화행 분류 자질 태깅하여 문장 분류 모델을 생성하는 질의 자질 추출 장치.
제1항에 있어서,

상기 유사성 분석부는,

상기 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터 및 형태소 등장 여부 자질 벡터를 합쳐 문장 벡터를 정의하고, 상기 질의 문장 및 비교 대상 문장의 문장 벡터를 비교하여 유사성 점수를 수치화하는 질의 자질 추출 장치.
제8항에 있어서,

상기 유사성 분석부는 상기 유사성 점수가 설정 점수 이하이면 다른 비교 대상 문장을 설정하는 질의 자질 추출 장치.
제1항에 있어서,

상기 유사성 분석부에서 수치화한 유사성 점수가 설정 점수를 초과하면 상기 질의 문장에 대한 답변을 제공하는 답변 처리부를 더 포함하는 질의 자질 추출 장치.
질의 자질 추출 장치를 이용한 질의 자질 추출 방법에 있어서,

자연어 문장으로 구성된 질의 문장을 입력받는 단계;

상기 질의 문장을 전처리하는 단계;

상기 질의 문장 및 비교 대상 문장의 한글 음절 등장 패턴 자질 벡터를 추출하는 단계;

상기 질의 문장 및 비교 대상 문장의 의미 형태소 패턴 자질 벡터를 추출하는 단계;

상기 질의 문장 및 비교 대상 문장의 형태소 등장 여부 자질 벡터를 추출하는 단계; 및

상기 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터 및 형태소 등장 여부 자질 벡터를 근거로 상기 질의 문장과 비교 대상 문장의 유사성을 분석하는 단계를 포함하는 질의 자질 추출 방법.
제11항에 있어서,

상기 한글 음절 등장 패턴 자질 벡터를 추출하는 단계는,

음절 단위로 분해한 질의 문장을 음절 단위 언어모델 및 학습 모델과 비교하여 상기 질의 문장의 한글 음절 등장 패턴 자질 벡터를 추출하는 단계; 및

음절 단위로 분해한 비교 대상 문장을 각각 음절 단위 언어모델 및 학습 모델과 비교하여 상기 비교 대상 문장의 한글 음절 등장 패턴 자질 벡터를 추출하는 단계를 포함하는 질의 자질 추출 방법.
제12항에 있어서,

상기 한글 음절 등장 패턴 자질 벡터를 추출하는 단계는,

한글 말뭉치로부터 검출한 한글 문장을 음절 단위로 분해하여 음절 단위 언어모델을 학습하는 단계를 더 포함하는 질의 자질 추출 방법.
제11항에 있어서,

상기 의미 형태소 패턴 자질 벡터를 추출하는 단계는,

상기 전처리하는 단계의 형태소 분석 결과를 근거로 의미 형태소 단위로 분해한 질의 문장을 의미 형태소 언어모델 및 학습 모델과 비교하여 상기 질의 문장의 의미 형태소 패턴 자질 벡터를 추출하는 단계; 및

상기 전처리하는 단계의 형태소 분석 결과를 근거로 의미 형태소 단위로 분해한 비교 대상 문장을 의미 형태소 언어모델 및 학습 모델과 비교하여 상기 비교 대상 문장의 의미 형태소 패턴 자질 벡터를 추출하는 단계를 포함하는 질의 자질 추출 방법.
제14항에 있어서,

상기 의미 형태소 패턴 자질 벡터를 추출하는 단계는,

상기 전처리하는 단계의 형태소 분석 결과를 근거로 한글 말뭉치로부터 검출한 한글 문장을 의미 형태소 단위로 분해하여 의미 형태소 언어모델로 학습하는 단계를 더 포함하는 질의 자질 추출 방법.
제11항에 있어서,

상기 형태소 등장 여부 자질 벡터를 추출하는 단계는

형태소 단위로 분해한 질의 문장을 형태소 워드 매트릭스 및 문장 분류 모델과 비교하여 상기 질의 문장의 형태소 등장 여부 자질 벡터를 추출하는 단계; 및

형태소 단위로 분해한 비교 대상 문장을 형태소 워드 매트릭스 및 문장 분류 모델과 비교하여 상기 비교 대상 문장의 형태소 등장 여부 자질 벡터를 추출하는 단계를 포함하는 질의 자질 추출 방법.
제16항에 있어서,

상기 형태소 등장 여부 자질 벡터를 추출하는 단계는 학습데이터를 화행 분류 자질 태깅하여 문장 분류 모델을 생성하는 단계를 더 포함하는 질의 자질 추출 방법.
제11항에 있어서,

상기 유사성을 분석하는 단계는,

상기 한글 음절 등장 패턴 자질 벡터

상기 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터 및 형태소 등장 여부 자질 벡터를 합쳐 문장 벡터를 정의하는 단계; 및

상기 질의 문장 및 비교 대상 문장의 문장 벡터를 비교하여 유사성 점수를 수치화하는 단계를 포함하는 질의 자질 추출 방법.
제18항에 있어서,

상기 유사성을 분석하는 단계는 상기 유사성 점수가 설정 점수 이하이면 다른 비교 대상 문장을 설정하는 단계를 더 포함하는 질의 자질 추출 방법.
제11항에 있어서,

상기 유사성을 분석하는 단계에서 수치화한 유사성 점수가 설정 점수를 초과하면 상기 질의 문장에 대한 답변을 제공하는 단계를 더 포함하는 질의 자질 추출 방법.