WO2021100902A1

WO2021100902A1 - 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법

Info

Publication number: WO2021100902A1
Application number: PCT/KR2019/015953
Authority: WO
Inventors: 최호진; 오교중; 이영준; 박수환
Original assignee: 한국과학기술원
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2021-05-27
Also published as: US20230069935A1

Abstract

문장 패러프레이즈 인식 기반 대화 시스템 답변 방법에 따르면, 전처리 과정에서 분석된 형태소 분석 결과를 기반으로 기술 적용 도메인의 중요 키워드 인식 및 패턴 추출한다. 전처리 과정에서 분석된 형태소 분석 결과와 상기 추출한 중요 키워드 및 패턴을 이용한 질문 도메인/세부카테고리/화행의 분류한다. 분류한 질문 도메인 세부카테고리 화행 분류 자질을 질의 문장의 의미적 자질로 사용하여 모델을 학습하고 문장 의미 벡터를 추출하여 벡터간 유사성을 측정한다. 글자의 언어 모델을 학습하고 글자에 기반한 문장 표현 벡터를 추출하여 표현과 구조의 유사성을 분석한다. 분석된 의미적 유사도, 표현상 유사도에 기반하여 다양한 형태로 입력될 수 있는 입력 질의 문장에 대한 의미적, 표현적 정보를 내재한 벡터를 생성하고, FAQ 지식 속에 유사 질의 문장을 패러프레이즈 인식 기술로 찾아 답변을 제공한다. 고객 상담용 챗봇과 같은 자동 Q&A 서비스를 위한 대화 시스템에서 패러프레이징 인식 기술을 통해 입력된 문장(질의)의 의미와 의도가 유사한 질문-답변 지식(질문)을 탐색하여 관련된 답변을 제공할 수 있다.

Description

문장 패러프레이즈 인식 기반 대화 시스템 답변 방법

본 발명은 패러프레이징 인식(paraphrase recognition) 기술을 통해 입력된 문장(질의)의 의미와 의도가 유사한 질문-답변 지식(질문)을 탐색하여 관련된 답변을 제공하는 방법에 관한 내용이다.

본 발명은 FAQ, 고객상담 서비스 등에서 활용될 수 있는 발명이며, 자동 Q&A를 위한 대화 시스템에 적용된다. 문장임베딩 기술에 기반한 자연어 처리 및 이해 기술을 활용하고 있으며, 이를 통해 입력된 질문과 의미와 의도가 유사한 질문을 탐색할 수 있다.

Q&A 서비스(intelligence question and answering service)는 사용자가 입력한 질문에 대해 답변을 제공해주는 서비스이다. 네이버 지식인, Quora, Yahoo! answers 와 같이 전문가나 다른 사용자가 답변을 제공하는 커뮤니티형 온라인 플랫폼부터 IBM Watson, ETRI의 Exobrain 과 같이 고도화된 자연어 처리 기술과 구축된 지식베이스에 기반하여 자동으로 답변을 제공하는 지능형 Q&A 시스템까지 다양한 형태의 시스템으로 사용자의 질의에 대한 응답을 제공한다.

대화 시스템(dialog system)은 구체적인 목적을 가지며(goal oriented) 사용자와 대화를 하는(conversational) 컴퓨터 시스템을 말하며 일반적으로 사용자와 컴퓨터 간에 주고받는 질의와 응답의 과정이 대화와 같은 형식으로 이루어진다. 주로 사용자의 질의 입력 시 즉시 처리하여 요구에 적합한 응답을 하는 식으로 이루어지며, 최근에는 여러 턴에 걸쳐 이루어진 대화를 분석하여 응답을 제공하는 문맥 기반 대화 분석, 비동기 방식의 응답 제공 방법 등이 연구되고 있다. 본 발명에서는 이 대화 시스템을 이용하여 자동 Q&A 서비스를 제공하는 방법에 대해 기술한다.

대화 시스템에서 사용자와 컴퓨터 간에 대화로 소통(interaction)하기 위해서는 고차원의 자연어 처리 및 이해(natural language processing and understanding) 기술이 필요하다. 본 발명에서는 기본적으로 수행되는 형태소 분석과 POS 태깅부터 개체명 추출 및 인식과 같은 자연어 처리 과정과, 문장 임베딩, 도메인/의도 분류, 패러프레이즈 인식과 같은 자연어 이해 과정이 수행된다.

본 발명에서 문장 임베딩(sentence embedding) 기술은 질의 문장의 도메인/의도 분류, 문장 유사도 분석, 패러프레이즈 인식 파트에서 활용되는 방법이다. 기존에 잘 알려진 워드 임베딩 기술과 유사하게 자연어 표현을 벡터화(vector representation)하여 문장을 정해진 크기의 실수 벡터로 표현한다. 이를 위해 딥러닝 기반의 기계학습 모델을 이용하며, 추가적으로 적용 도메인에 맞춘 도메인 및 화행 분류 체계를 학습 자질로 함께 활용하여 문장을 벡터로 임베딩 한다. 문장을 벡터화 함으로써 의미/구조적 정보를 수치적 공간적 정보로 표현할 수 있으며, 이벡터를 통해 분류(classification), 군집화(clustering), 유사성 측정(similarity measuring)을 수행 할 수 있다.

본 발명은 고객 상담용 챗봇과 같은 자동 Q&A 서비스를 위한 대화 시스템에서 패러프레이징 인식 기술을 통해 입력된 문장(질의)의 의미와 의도가 유사한 질문-답변 지식(질문)을 탐색하여 관련된 답변을 제공할 수 있는 답변 방법을 제공하기 위한 것이다.

본 발명의 예시적인 실시예들에 따른 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법은, 컴퓨터 장치의 프로세서에 의해 실행되는 방법으로서, 전처리 과정에서 분석된 형태소 분석 결과를 기반으로 기술 적용 도메인의 중요 키워드 인식 및 패턴 추출 단계; 전처리 과정에서 분석된 형태소 분석 결과와 상기 추출한 중요 키워드 및 패턴을 이용한 질문 도메인/세부카테고리/화행의 분류 단계; 상기 분류한 질문 도메인 세부카테고리 화행 분류 자질을 질의 문장의 의미적 자질로 사용하여 모델을 학습하고 문장 의미 벡터를 추출하여 벡터간 유사성을 측정하는 의미적 유사 질문 분석 단계; 글자의 언어 모델을 학습하고 글자에 기반한 문장 표현 벡터를 추출하여 표현과 구조의 유사성을 분석하는 표현상 유사 질문 분석 단계; 및 상기 분석된 의미적 유사도, 표현상 유사도에 기반하여, 다양한 형태로 입력될 수 있는 입력 질의 문장에 대한 의미적, 표현적 정보를 내재한 벡터를 생성하고, FAQ 지식 속에 유사 질의 문장을 패러프레이즈 인식 기술로 찾아 답변을 제공하는 유사질문 답변 제공 단계를 포함한다.

일 실시예에 있어서, 상기 '기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계'는, 기술 적용 도메인 전용 개체명을 인식하는 단계; 형태소 분석 결과를 활용하여 적용 도메인에 특화된 복합어 정보를 추가로 추출하는 복합어 추출 단계; 특정 용어 표현을 정규화 하거나 특정 표현의 동의어 정보나 상위 개념 정보를 분석하는 동의어/상위어 분석 단계; 그리고 이전 단계에서 추출한 입력 질의에 대한 개체명, 복합어, 동의어, 상위어의 질문 표현들을 연결 관계에 따라 패턴화 하는 질문 표현 패턴 추출 단계를 포함할 수 있다.

일 실시예에 있어서, 상기 '기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계'는 전처리 과정에서 분석된 형태소 분석 결과를 기반으로 도메인에 특화된 개체명 및 복합어 사전을 구축하고, 구축된 개체명 및 복합어 사전의 어휘들을 동의어와 상위어의 시소러스나 어휘망으로 관계를 구축하는 것을 포함할 수 있다.

일 실시예에 있어서, 상기 '질문 도메인/세부카테고리/화행의 분류 단계'는 제1 학습 단계와 분류 단계를 포함할 수 있다. 상기 제1 학습 단계는, 시스템 적용 도메인에 특화된 Q&A를 위한 질의 문장 분류 체계 자질을 질문마다 태깅을 하는 학습 데이터 태깅 및 구축 단계; 및 구축된 학습 데이터를 딥러닝 기반의 분류 모델에 학습을 시키는 질문의도 분류 모델 학습 단계를 포함할 수 있다. 상기 분류 단계는, 학습된 분류 모델을 사용하여 새로운 입력 질의 문장에 대한 자질 분석을 수행하는 '질문 의도 분류 단계'; 및 학습된 모델을 통해 추가 테스트 질의 문장의 자질 분석 과정과 검토를 통한 학습데이터 수정 및 추가 구축하는 '분석 결과 텍스트화 및 추가 학습 데이터 반자동 태깅 단계'를 포함할 수 있다.

일 실시예에 있어서, 상기 '질문 도메인/세부카테고리/화행의 분류 단계'는, 전처리 과정에서 분석된 형태소 분석 결과와 상기 추출한 중요 키워드 및 패턴을 이용하여 학습데이터를 만들고 분류 모델을 학습하여 새로운 질의 문장에 대해 해당 분류자질들을 추출하는 것을 포함할 수 있다.

일 실시예에 있어서, 상기 의미적 유사 질문 분석 단계는 제2 학습 단계와 제1 유사도 분석 단계를 포함할 수 있다. 상기 제2 학습 단계는, 언어분석기(형태소태깅)에서 분석된 결과로 학습한 문장 형태소의 워드임베딩 벡터와 분류 모델을 통해 분석된 분류 자질을 의미 자질로 활용하며, 입력 구조체로 구조화하는 '문장 형태소 태깅, 의미 자질 (도메인, 화행) 분류 단계'; 및 Seq2Seq 기반의 인코더-디코더 모델과 학습한 분류 모델을 결합한 딥러닝 모델에 학습시키는 '의미자질 기반 문장 임베딩 모델 학습 단계'를 포함할 수 있다. 상기 제1 유사도 분석 단계는, 학습된 인코더 모델을 이용하여 새로운 입력 질의 문장을 문장 의미 벡터로 임베딩하는 질문 의도 임베딩 수행 단계; 및 변환한 문장 의미 벡터를 이용하여, 벡터 간 유사도 측정 방법을 통해 질의 문장과 정제된 답변 지식이 있는 FAQ 질문과의 유사도를 측정하는 '임베딩 벡터 기반 의미적 유사도 측정 단계'를 포함할 수 있다.

일 실시예에 있어서, 상기 '질문 의도 임베딩 수행 단계'는 상기 입력 질의 문장을 원하는 차원의 실수 벡터로 질문 변환을 수행하는 것을 포함할 수 있다.

일 실시예에 있어서, 상기 '표현상 유사 질문 분석 단계'는 제3 학습단계와 제2 유사도 분석 단계를 포함할 수 있다. 상기 '제3 학습 단계'는 질의 문장에 등장한 글자의 언어모델을 학습하는 인코더-디코더 모델을 구현하기 위해서 글자 수준(character-level)으로 입력 벡터를 만드는 '글자 단위로 토큰화 하는 단계'; 및 질의 문장에 등장한 글자의 언어모델을 학습하는 인코더-디코더 모델을 학습하는 '글자 표현 기반 임베딩 모델 학습 단계'를 포함할 수 있다. 상기 '제2 유사도 분석 단계'는 학습된 글자 수준 임베딩 모델을 사용하며, 글자만 이용해서 문장의 표현 정보만을 가진 문장 표현 벡터를 생성하는 글자 수준의 임베딩 수행 단계; 및 분석된 문장 표현 벡터를 이용하여 입력 문장의 글자와 구조와 같은 외재적(explicit)인 유사성을 측정하는 임베딩 벡터 기반 표현적 유사도 측정 단계를 포함할 수 있다.

일 실시예에 있어서, 상기 '표현상 유사 질문 분석 단계'는 글자의 언어 모델을 학습하고 글자에 기반한 문장 표현 벡터를 추출하여 표현과 구조의 유사성을 분석하는 것을 포함할 수 있다.

일 실시예에 있어서, 상기 '유사질문 답변 제공 단계'는 의미적 유사도 질문 분석 단계와 표현상 유사질문 분석 단계를 포함할 수 있으며, 분석된 유사도 결과를 이용하여 입력된 질문과 유사한 FAQ 질문을 탐색하고, 답변을 제공할지 말지를 결정하는 것을 포함할 수 있다.

일 실시예에 있어서, 상기 '유사질문 답변 제공 단계'는 상기 분석된 의미적 유사도, 표현상 유사도에 기반하여 정제된 FAQ 질의 문장의 패러프레이즈 문장임을 인식하고 유사도 점수에 따라 해당 FAQ 질의 문장의 답변을 제공하는 것을 포함할 수 있다.

본 발명은 고객 상담용 챗봇과 같은 자동 Q&A 서비스를 위한 대화 시스템에서 답변을 제공하기 위한 원천 기술로서 제공한다. 이 기술을 통해 다양한 표현으로 변형하여 입력될 수 있는 자연어 질의 문장을 의미적, 구조적 정보를 담아 벡터로 변환할 수 있으며, 이를 이용하여 입력 질의와 기 구축된 지식의 문장과 유사 여부를 판단 할 수 있다. 그리고 유사도 점수에 따라 해당 입력의 답변을 제공할지 말지를 판단하여 질의에 대한 답변을 제공 할 수 있다. 금융 도메인과 같이 기술 적용 도메인에 따라 엄격히 정제된 답변을 제공하길 희망하는 경우, 문장 생성 모델을 이용하는 방법에 비해 신뢰할 답변을 제공 할 수 있는 장점이 있다.

도 1은 본 발명의 실시예에 따른 문장 임베딩 유사도에 기반한 패러프레이즈 인식에 따른 자동 Q&A 대화 시스템의 답변 방법을 나타내는 흐름도이다.

도 2는 본 발명의 실시예에 따른 기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계에 관한 상세 흐름도이다.

도 3은 본 발명의 실시예에 따른 질문 도메인/세부카테고리/화행 분류 단계에 관한 상세 흐름도이다.

도 4는 본 발명의 실시예에 따른 의미적 유사 질문 분석 단계에 관한 상세 흐름도이다.

도 5는 본 발명의 실시예에 따른 표현상 유사 질문 분석 단계에 관한 상세 흐름도이다.

도 6은 본 발명의 실시예에 따른 유사 질문 답변 제공 단계에 관한 상세 흐름도이다.

도 7은 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법에 대한 개념도이다.

도 8은 본 발명에서 의미적 유사 질문 분석에 사용한 질의 문장 임베딩을 위한 학습 모델의 구성도이다. 문장 의미 벡터를 생성하기 위해 입력된 질의 문장, 도메인, 세부 카테고리, 화행 정보가 필요하며 본 모델의 입력과 출력으로 활용된다.

도 9는 본 발명에서 표현상 유사 질문 분석에 사용한 글자 임베딩 모델의 구성도이다. 각 글자는 각 신경망의 입력이 되며 한 문장에 함께 등장하는 글자, 표현, 구조 정보를 학습하며, 이 정보를 임베딩 벡터에 반영한다.

도 10은 입력 질의 문장과 패러프레이즈로 인식된 유사 문장과 유사도 측정 결과를 예시한다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 첨부되는 도면을 참조하여 본 발명의 실시 형태에 따른 패러프레이징 인식 기술을 통해 입력된 문장(질의)의 의미와 의도가 유사한 질문-답변 지식(질문)을 탐색하여 관련된 답변을 제공하는 방법을 설명한다.

도 1을 참조하면, 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법은 기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계(S100), 질문 도메인/세부카테고리/화행 분류 단계(S200), 의미적 유사 질문 분석 단계(S300), 표현상 유사 질문 분석 단계(S400), 유사질문 답변 제공 단계(S500)를 포함할 수 있다.

도 7은 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법에 대한 개념도이다. 도 7을 참조하면, 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법에 대한 예시적인 실시예가 제시되어 있다.

상기 기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계(S100)는 전처리 과정에서 분석된 형태소 분석 결과에 기초하여 수행될 수 있다. 이 단계는 입력된 질의 문장에서 적용 도메인과 관련된 개체명, 복합어, 동의어, 상위어 등을 분석하고, 이를 패턴화 하여 답변과 질문을 매핑할 수 있게 자질을 추출하는 과정이다. 도메인에 특화된 개체명 사전과 복합어 사전을 개체명/복합어 후보 추출을 위한 기계학습 모델을 통해 반자동 방식으로 구축하고, 사전 어휘(vocabrary)의 동의어, 상위어 개념 정보들을 어휘망 또는 시소러스로 구축한다. 이를 통해 입력된 질의에서 답변을 찾을 수 있는 중요 키워드들을 추출할 수 있고, 일부 용언 표현도 동의 또는 상위 개념으로 표현 할 수 있다.

상기 질문 도메인/세부카테고리/화행 분류 단계(S200)는 새로운 입력 질의 문장의 질문 도메인/세부카테고리/화행 자질을 분석하는 과정이다. 이 단계는 전처리 과정에서 분석된 형태소 분석 결과와 상기 추출한 중요 키워드 및 패턴을 이용하여 수행될 수 있다. 단계 S100에서 추출된 패턴 정보와 함께, 도메인, 카테고리, 화행 정보를 질문-답변 지식을 구축하거나 답변을 찾는 데 활용한다. 이 단계(S200)의 학습 과정에서는 학습 질문 데이터마다 도메인, 세부카테고리, 화행 정보를 태깅하는 과정이 필요하다. 본 발명에 따른 실시예에서는 질문 의도 분류 모델은 딥러닝 기반의 신경망 모델을 사용할 수 있다. 이와 달리, 질문 의도 분류 모델은 다른 학습 기반의 분류 모델을 대체 사용할 수도 있다. 또한 새로운 질의 문장의 분류 결과를 검토하여 추가 학습데이터 반자동 구축에 활용 할 수 있다.

상기 의미적 유사 질문 분석 단계(S300)는 상기 단계 S200에서 분류한 질문 도메인 세부카테고리 화행 분류 자질을 질의 문장의 의미적 자질로 사용하여 모델을 학습하고 문장 의미 벡터를 추출하여 벡터간 유사성을 측정하는 단계이다. 즉, 이 단계(S300)는 입력 질의 문장을 정해진 길이로 벡터화하는 문장 임베딩을 수행하고, FAQ 지식의 질문과의 의미적 유사도를 측정하는 과정이다. 이를 위해 문장 임베딩 모델 학습 과정이 선행될 수 있으며, S200에서 구축한 도메인, 세부카테고리, 화행 자질과 질의 문장을 도 8의 학습 모델에 학습시킬 수 있다.

상기 표현상 유사 질문 분석 단계(S400)는 입력 문장의 글자와 구조 정보만 이용하여 문장을 벡터로 임베딩 하는 과정이다. 이 단계(S400)는 글자의 언어 모델을 학습하고 글자에 기반한 문장 표현 벡터를 추출하여 표현과 구조의 유사성을 분석하는 단계이다. 문장에서 키워드 패턴 추출이 안 되었거나, 도메인이나 세부카테고리 자질이 분류되지 않아서 앞선 단계에서 답변을 제공할 수 없는 경우에, 본 단계를 통해 입력 문장과 유사한 표현에 대한 답변이나 반응을 제공할 수 있다.

상기 유사질문 답변 제공 단계(S500)는 단계 S300과 S400에서 분석된 유사 문장 분석 결과를 유사도 점수로 활용하여 입력된 질의 문장에 대한 답변의 제공 여부를 결정하는 과정이다. 즉, 이 단계(S500)는 단계 S300에서 얻을 수 있는 분석된 의미적 유사도, 단계 S400에서 얻을 수 있는 표현상 유사도에 기반하여, 다양한 형태로 입력될 수 있는 입력 질의 문장에 대한 의미적, 표현적 정보를 내재한 벡터를 생성하고, FAQ 지식 속에 유사 질의 문장을 패러프레이즈 인식 기술로 찾아 답변을 제공하는 단계이다.

도 2는 본 발명의 실시예에 따른 기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계(S100)에 관한 상세 흐름도이다.

도 2를 참조하면, 일 실시예에 따른 '기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계'(S100)는, 기술 적용 도메인 전용 개체명 인식 단계(S110)와, 복합어 추출 단계(S120), 동의어/상위어 분석 단계(S130), 질문 표현 패턴 추출 단계(S140) 등을 포함할 수 있다.

예시적인 실시예에 따른 상기 기술 적용 도메인 전용 개체명 인식 단계(S110)는 기술 적용 도메인 전용 개체명을 인식하는 과정이다. 예시적인 실시예에서, 상기 기술 적용 도메인 전용 개체명은 금융 기관명, 특정 상품명, 지명(지점명), 금액 정보, 날짜 정보, 비식별 표현 등을 포함할 수 있다. 이 단계에서, 기존의 개체명 인식 기술을 이용하여 특정 도메인 특화된 개체명 사전, 복합어 사전을 구축할 수 있다.

예시적인 실시예에 따른 상기 복합어 추출 단계(S120)는 형태소 분석 결과를 활용하여 적용 도메인에 특화된 복합어 정보를 추가로 추출하는 과정으로서, 입력 문장 내의 특정 상품명이나 중요 키워드를 잡는 데 활용될 수 있다. 개체명 사전과 유사하게, 적용 도메인에 따라 별도의 사전이 구축될 수 있는데, 이 과정에서 기계학습 모델을 이용하여 개체명/복합어 후보를 추출할 수 있다. 이를 시스템 개발자가 반자동으로 사전에 등록할지 말지를 결정할 수 있다.

예시적인 실시예에 따른 상기 동의어/상위어 분석 단계(S130)는 특정 용어 표현을 정규화 하거나 특정 표현의 동의어 정보나 상위 개념 정보를 분석하는 과정이다. 이전 단계에서 구축된 개체명 및 복합어 사전의 어휘들을 동의의와 상위어의 시소러스 또는 어휘망으로 관계를 구축할 수 있다.

예시적인 실시예에 따른 상기 질문 표현 패턴 추출 단계(S140)는 이전 단계에서 추출한 입력 질의에 대한 개체명, 복합어, 동의어, 상위어 등의 질문 표현들을 연결 관계에 따라 패턴화 하는 과정일 수 있다.

도 3은 본 발명의 실시예에 따른 질문 도메인/세부카테고리/화행 분류 단계(S200)에 관한 상세 흐름도이다.

도 3을 참조하면, 예시적인 일 실시예에 따른 상기 질문 도메인/세부카테고리/화행 분류 단계(S200)는, 크게 학습 단계와 분류 단계로 구분될 수 있다. 학습 단계에서는 학습 데이터 태깅 및 구축 단계(S210), 질문의도 분류 모델 학습 단계(S220) 등을 포함할 수 있다. 분류 단계에서는 질문 의도 분류 단계(S230), 분석 결과 텍스트화 및 추가 학습 데이터 반자동 태깅 단계(S240)를 포함 할 수 있다.

예시적인 실시예에 따른 상기 학습 데이터 태깅 및 구축 단계(S210)는 시스템 적용 도메인에 특화된 Q&A를 위한 질의 문장 분류 체계 자질을 질문마다 태깅을 하는 과정이다. 이 단계에서는, 도메인, 세부 카테고리, 화행 등의 자질을 태깅하여 분류 모델을 학습 및 평가하기 위한 데이터를 만든다,

예시적인 실시예에 따른 상기 질문의도 분류 모델 학습 단계(S220)는 이전 단계(S210)에서 구축된 학습 데이터를 딥러닝 기반의 분류 모델에 학습을 시키는 과정이다. 4종의 학습 기반 분류 모델(SVM, RF, FC-MLP, ELM)을 구현하여 분류 성능을 비교하였다. 예시적인 실시예에서는 FC-MLP 기반의 분류 모델을 채용하여 사용하고 있다.

예시적인 실시예에 따른 상기 질문 의도 분류 단계(S230)는 학습된 분류 모델을 사용하여 새로운 입력 질의 문장에 대한 자질 분석을 수행하는 과정으로, 규칙 기반 답변 제공에 활용하고 분류기 자체의 분류 정확도를 평가하는데 이용된다. 또한 분석 과정을 통해 분류 예측율과 분류 정확도를 기반으로 추후 답변 제공 기준 점수(threshold)를 결정하는데 활용되었다.

예시적인 실시예에 따른 상기 분석 결과 텍스트화 및 추가 학습 데이터 반자동 태깅 단계(S240)는 학습데이터를 추가 구축하기 위한 과정으로, 학습된 모델을 통해 추가 테스트 질의 문장의 자질 분석 과정과 검토를 통한 학습데이터 수정 및 추가 구축 과정을 수행한다. 기계학습 기반의 분류 모델의 자질 추출 성능을 향상하기 위해서는 보다 많은 정제된 학습데이터가 필요하다.

도 4를 참조 하면 일 실시예에 따르면, 의미적 유사 질문 분석 단계는, 학습 단계와 유사도 분석 단계로 구분될 수 있다. 상기 학습 단계는 문장 형태소 태깅, 의미 자질 (도메인, 화행) 분류 단계(S310), 의미자질 기반 문장 임베딩 모델 학습 단계(S320)를 포함할 수 있다. 상기 유사도 분석 단계는 질문 의도 임베딩 수행 단계(S330), 임베딩 벡터 기반 의미적 유사도 측정 단계(S340)를 포함할 수 있다.

예시적인 실시예에 따른 상기 문장 형태소 태깅, 의미 자질 (도메인, 화행) 분류 단계(S310)는 이전의 단계에서 분석된 결과를 모아서 모델에 학습시킬 데이터를 정리하는 과정이다. 이 과정에서는 언어분석기(형태소태깅)에서 분석된 결과로 학습한 문장 형태소의 워드임베딩 벡터와 분류 모델을 통해 분석된 분류 자질을 의미 자질로 활용하며, 입력 구조체로 구조화한다.

예시적인 실시예에 따른 상기 의미 자질 기반 문장 임베딩 모델 학습 단계(S320)는 Seq2Seq 기반의 인코더-디코더 모델과 이전 단계(S200)에서 학습한 분류 모델을 결합한 딥러닝 모델에 학습시키는 과정이다. 이 모델을 통해 문장의 언어 모델을 학습하며 동시에 도메인, 카테고리, 화행 분류와 같은 의미적 정보를 담는 문장 의미 벡터를 생성하는 인코더 모델을 구축할 수 있다.

예시적인 실시예에 따른 상기 질문 의도 임베딩 수행 단계(S330)는 이전 단계(S320)에서 학습된 인코더 모델을 이용하여 새로운 입력 질의 문장을 문장 의미 벡터로 임베딩하는 과정이다. 이 과정에서는, 입력된 질의 문장에 대하여 원하는 차원의 실수 벡터로 질문을 변환한다.

예시적인 실시예에 따른 상기 임베딩 벡터 기반 의미적 유사도 측정 단계(S340)는 이전 단계에서 변환한 문장 의미 벡터를 이용하여, 벡터 간 유사도 측정 방법을 통해 질의 문장과 정제된 답변 지식이 있는 FAQ 질문과의 유사도를 측정하는 과정이다. 본 발명의 실시예에서는 벡터 간 유사도를 측정할 수 있는 코사인 유사도(cosine similarity)를 이용하였으며 유사한 벡터 간 유사도 측정 방법으로 대체할 수 있다.

도 8은 본 발명에서 의미적 유사 질문 분석에 사용한 질의 문장 임베딩을 위한 학습 모델의 실시예를 도시한다. 문장 의미 벡터를 생성하기 위해 입력된 질의 문장, 도메인, 세부 카테고리, 화행 정보가 필요하며 도 8에 예시된 학습 모델의 입력으로 활용될 수 있다.

다음으로, 도 5는 본 발명의 실시예에 따른 표현상 유사 질문 분석 단계(S400)에 관한 상세 흐름도이다.

도 5를 참조하면 일 실시예에 따른 상기 표현상 유사 질문 분석 단계(S400) 역시 학습 단계와 유사도 분석 단계를 포함할 수 있다. 상기 학습 단계는 글자 단위로 토큰화 하는 단계(S410)와 글자 표현 기반 임베딩 모델 학습 단계(S420)를 포함할 수 있다. 상기 유사도 분석 단계는 글자 수준의 임베딩 수행 단계(S430)와 임베딩 벡터 기반 표현적 유사도 측정 단계(S440)를 포함할 수 있다.

예시적인 실시예에 따른 상기 글자 단위로 토큰화 하는 단계(S410)는 질의 문장에 등장한 글자의 언어모델을 학습하는 인코더-디코더 모델을 구현하기 위해서 글자 수준(character-level)으로 입력 벡터를 만드는 과정으로서, 워드임베딩 벡터가 쓰였던 이전 단계(S300)와는 다르게 글자 어휘의 One-hot encoding 벡터를 이용할 수 있다.

예시적인 실시예에 따른 상기 글자 표현 기반 임베딩 모델 학습 단계(S420)는 질의 문장에 등장한 글자의 언어모델을 학습하는 인코더-디코더 모델을 학습하는 과정일 수 있다. 이 단계에서는 본 학습 과정을 통해 문장 내에 함께 등장하는 글자 간의 언어 모델이 학습될 수 있다. 이를 통해 문장을 구성하는 글자들의 관계를 벡터화 할 수 있다. 또한 디코더를 통해 문장을 구성하는 글자를 예측할 수 있게 된다.

예시적인 실시예에 따른 상기 글자 수준의 임베딩 수행 단계(S430)는 이전 단계(S300)의 의미적 자질을 이용하여 질의 문장을 임베딩 하는 과정과 유사하게 글자만 이용해서 문장의 표현 정보만을 가진 문장 표현 벡터를 생성하는 과정일 수 있다.

예시적인 실시예에 따른 상기 임베딩 벡터 기반 표현적 유사도 측정 단계(S440)는 분석된 문장 표현 벡터를 이용하여 입력 문장의 글자와 구조와 같은 외재적(explicit)인 유사성을 측정하는 과정일 수 있다. 이 단계는 의미적 유사성을 측정하기가 어렵거나 적용한 도메인에 관련이 없는 입력 대화에 대해 반응하기 위해서 개발된 단계로서, 주로 인사말, 욕설 등의 감정 표현에 대한 반응을 제공할 수 있다. 이전 단계(S300)와 마찬가지로 벡터 간 유사성을 측정하는 방법을 사용할 수 있고, 예시적인 실시예에서는 코사인 유사도를 사용할 수 있다.

도 9는 본 발명에서 표현상 유사 질문 분석에 사용한 글자 임베딩 모델의 실시예이다. 각 글자는 각 신경망의 입력이 되며 한 문장에 함께 등장하는 글자, 표현, 구조 정보를 학습하며, 이 정보를 임베딩 벡터에 반영한다.

도 6은 본 발명의 실시예에 따른 유사 질문 답변 제공 단계(S500)에 관한 상세 흐름도이다.

도 6를 참조 하면 일 실시예에 따른 상기 유사질문 답변 제공 단계(S500)는 의미적 유사도 질문 분석 단계(S510)와 표현상 유사질문 분석 단계(S520)를 포함할 수 있다. 상기 유사질문 답변 제공 단계(S500)는 또한 선행 단계를 통해 분석된 유사도 결과를 이용하여 입력된 질문과 유사한 질문 FAQ 질문을 탐색하고, 답변을 제공할지 말지를 결정하는 단계(S530)를 포함 할 수 있다.

예시적인 실시예에 따른 의미적 유사도 질문 분석 단계(S510)와 표현상 유사질문 분석 단계(S520)는 이전 단계(S300, S400)에서 분석된 유사도 측정값(점수)에 기준하여 기준 점수를 넘는지 또는 안 넘는지를 판단하여 유사도 답변을 제공할지 말지를 결정하는 단계(S530)에서 답변을 제공하는 과정일 수 있다. 본 발명의 예시적인 실시예에서는, 의미적 유사도는 예컨대 0.7을 유사도 판단의 기준치로 삼을 수 있다. 즉, 0.7 이상의 유사도를 보이는 FAQ 질문의 답변을 제공하고, 표현상 유사도의 경우는 예컨대 0.6을 유사도 판단의 기준치로 삼을 수 있다. 즉, 0.6 이상의 유사도를 보이는 일반 대화 지식의 답변을 제공할 수 있다.

도 10은 입력 질의 문장과 패러프레이즈로 인식된 유사 문장과 유사도 측정 결과에 대한 실시예이다.

이와 같이 본 발명은 자연어로 이루어지는 상담내용을 이해하고 적합한 응답을 해줄 수 있는 챗봇을 개발하는 원천 기술을 제공할 수 있다. 이상에서 설명한 본 발명의 실시예들은 컴퓨터 장치에서 실행될 수 있는 컴퓨터 프로그램으로 구현될 수 있다. 그 컴퓨터 프로그램은 실행 파일로 만들어질 수 있고, 그 실행 파일을 컴퓨터 장치에서 실행함으로써 위에서 설명한 여러 가지 기능들이 수행되어 원하는 결과를 얻을 수 있다. 그리고 그 실행 파일은 컴퓨터 장치에 의해 읽을 수 있는 비일시적 내지 비휘발성 기록매체(예컨대 하드디스크, 플래시메모리, CD-ROM 등)에 저장될 수 있다. 그 실행파일은 예컨대 범용 컴퓨터 장치에 마련되는 프로세서에 의해 실행되어 각각의 기능이 발현될 수 있다.

이상에서 실시예들에 설명된 특징, 구조, 효과 등은 본 발명의 하나의 실시예에 포함되며, 반드시 하나의 실시예에만 한정되는 것은 아니다. 나아가, 각 실시예에서 예시된 특징, 구조, 효과 등은 실시예들이 속하는 분야의 통상의 지식을 가지는 자에 의해 다른 실시예들에 대해서도 조합 또는 변형되어 실시 가능하다. 따라서 이러한 조합과 변형에 관계된 내용들은 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

또한, 이상에서 실시예를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 실시예에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

컴퓨터 장치의 프로세서에 의해 실행되는 방법으로서,

전처리 과정에서 분석된 형태소 분석 결과를 기반으로 기술 적용 도메인의 중요 키워드 인식 및 패턴 추출 단계;

전처리 과정에서 분석된 형태소 분석 결과와 상기 추출한 중요 키워드 및 패턴을 이용한 질문 도메인/세부카테고리/화행의 분류 단계;

상기 분류한 질문 도메인 세부카테고리 화행 분류 자질을 질의 문장의 의미적 자질로 사용하여 모델을 학습하고 문장 의미 벡터를 추출하여 벡터간 유사성을 측정하는 의미적 유사 질문 분석 단계;

글자의 언어 모델을 학습하고 글자에 기반한 문장 표현 벡터를 추출하여 표현과 구조의 유사성을 분석하는 표현상 유사 질문 분석 단계; 및

상기 분석된 의미적 유사도, 표현상 유사도에 기반하여, 다양한 형태로 입력될 수 있는 입력 질의 문장에 대한 의미적, 표현적 정보를 내재한 벡터를 생성하고, FAQ 지식 속에 유사 질의 문장을 패러프레이즈 인식 기술로 찾아 답변을 제공하는 유사질문 답변 제공 단계를 포함하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.
제1항에 있어서, 상기 '기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계'는, 기술 적용 도메인 전용 개체명을 인식하는 단계; 형태소 분석 결과를 활용하여 적용 도메인에 특화된 복합어 정보를 추가로 추출하는 복합어 추출 단계; 특정 용어 표현을 정규화 하거나 특정 표현의 동의어 정보나 상위 개념 정보를 분석하는 동의어/상위어 분석 단계; 그리고 이전 단계에서 추출한 입력 질의에 대한 개체명, 복합어, 동의어, 상위어의 질문 표현들을 연결 관계에 따라 패턴화 하는 질문 표현 패턴 추출 단계를 포함하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.
제2항에 있어서, 상기 '기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계'는 전처리 과정에서 분석된 형태소 분석 결과를 기반으로 도메인에 특화된 개체명 및 복합어 사전을 구축하고, 구축된 개체명 및 복합어 사전의 어휘들을 동의어와 상위어의 시소러스나 어휘망으로 관계를 구축하는 것을 포함하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.
제1항에 있어서, 상기 '질문 도메인/세부카테고리/화행의 분류 단계'는 제1 학습 단계와 분류 단계를 포함하며,

상기 제1 학습 단계는, 시스템 적용 도메인에 특화된 Q&A를 위한 질의 문장 분류 체계 자질을 질문마다 태깅을 하는 학습 데이터 태깅 및 구축 단계; 및 구축된 학습 데이터를 딥러닝 기반의 분류 모델에 학습을 시키는 질문의도 분류 모델 학습 단계를 포함하며,

상기 분류 단계는, 학습된 분류 모델을 사용하여 새로운 입력 질의 문장에 대한 자질 분석을 수행하는 '질문 의도 분류 단계'; 및 학습된 모델을 통해 추가 테스트 질의 문장의 자질 분석 과정과 검토를 통한 학습데이터 수정 및 추가 구축하는 '분석 결과 텍스트화 및 추가 학습 데이터 반자동 태깅 단계'를 포함하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.
제1항에 있어서, 상기 '질문 도메인/세부카테고리/화행의 분류 단계'는, 전처리 과정에서 분석된 형태소 분석 결과와 상기 추출한 중요 키워드 및 패턴을 이용하여 학습데이터를 만들고 분류 모델을 학습하여 새로운 질의 문장에 대해 해당 분류자질들을 추출하는 것을 포함하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.
제1항에 있어서, 상기 의미적 유사 질문 분석 단계는 제2 학습 단계와 제1 유사도 분석 단계를 포함하며,

상기 제2 학습 단계는, 언어분석기(형태소태깅)에서 분석된 결과로 학습한 문장 형태소의 워드임베딩 벡터와 분류 모델을 통해 분석된 분류 자질을 의미 자질로 활용하며, 입력 구조체로 구조화하는 '문장 형태소 태깅, 의미 자질 (도메인, 화행) 분류 단계'; 및 Seq2Seq 기반의 인코더-디코더 모델과 학습한 분류 모델을 결합한 딥러닝 모델에 학습시키는 '의미자질 기반 문장 임베딩 모델 학습 단계'를 포함하며,

상기 제1 유사도 분석 단계는, 학습된 인코더 모델을 이용하여 새로운 입력 질의 문장을 문장 의미 벡터로 임베딩하는 질문 의도 임베딩 수행 단계; 및 변환한 문장 의미 벡터를 이용하여, 벡터 간 유사도 측정 방법을 통해 질의 문장과 정제된 답변 지식이 있는 FAQ 질문과의 유사도를 측정하는 '임베딩 벡터 기반 의미적 유사도 측정 단계'를 포함하는 것을 특징으로 하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.
제1항에 있어서, 상기 '질문 의도 임베딩 수행 단계'는 상기 입력 질의 문장을 원하는 차원의 실수 벡터로 질문 변환을 수행하는 것을 포함하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.
제1항에 있어서, 상기 '표현상 유사 질문 분석 단계'는 제3 학습단계와 제2 유사도 분석 단계를 포함하며,

상기 '제3 학습 단계'는 질의 문장에 등장한 글자의 언어모델을 학습하는 인코더-디코더 모델을 구현하기 위해서 글자 수준(character-level)으로 입력 벡터를 만드는 '글자 단위로 토큰화 하는 단계'; 및 질의 문장에 등장한 글자의 언어모델을 학습하는 인코더-디코더 모델을 학습하는 '글자 표현 기반 임베딩 모델 학습 단계'를 포함하고,

상기 '제2 유사도 분석 단계'는 학습된 글자 수준 임베딩 모델을 사용하며, 글자만 이용해서 문장의 표현 정보만을 가진 문장 표현 벡터를 생성하는 글자 수준의 임베딩 수행 단계; 및 분석된 문장 표현 벡터를 이용하여 입력 문장의 글자와 구조와 같은 외재적(explicit)인 유사성을 측정하는 임베딩 벡터 기반 표현적 유사도 측정 단계를 포함하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.
제1항에 있어서, 상기 '표현상 유사 질문 분석 단계'는 글자의 언어 모델을 학습하고 글자에 기반한 문장 표현 벡터를 추출하여 표현과 구조의 유사성을 분석하는 것을 포함하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.
제1항에 있어서, 상기 '유사질문 답변 제공 단계'는 의미적 유사도 질문 분석 단계와 표현상 유사질문 분석 단계를 포함할 수 있으며, 분석된 유사도 결과를 이용하여 입력된 질문과 유사한 FAQ 질문을 탐색하고, 답변을 제공할지 말지를 결정하는 것을 포함하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.
제1항에 있어서, 상기 '유사질문 답변 제공 단계'는 상기 분석된 의미적 유사도, 표현상 유사도에 기반하여 정제된 FAQ 질의 문장의 패러프레이즈 문장임을 인식하고 유사도 점수에 따라 해당 FAQ 질의 문장의 답변을 제공하는 것을 포함하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.