KR20190133931A - Method to response based on sentence paraphrase recognition for a dialog system - Google Patents

Method to response based on sentence paraphrase recognition for a dialog system Download PDF

Info

Publication number
KR20190133931A
KR20190133931A KR1020180058935A KR20180058935A KR20190133931A KR 20190133931 A KR20190133931 A KR 20190133931A KR 1020180058935 A KR1020180058935 A KR 1020180058935A KR 20180058935 A KR20180058935 A KR 20180058935A KR 20190133931 A KR20190133931 A KR 20190133931A
Authority
KR
South Korea
Prior art keywords
sentence
question
similarity
answer
learning
Prior art date
Application number
KR1020180058935A
Other languages
Korean (ko)
Inventor
최호진
오교중
이영준
박수환
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020180058935A priority Critical patent/KR20190133931A/en
Publication of KR20190133931A publication Critical patent/KR20190133931A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Abstract

According to an embodiment of the present invention, a sentence paraphrase recognition-based dialogue system answer method relates to a method of searching a question-answer knowledge (question) having a similar meaning and intention of a sentence (query) input through a paraphrasing recognition technique to provide a related answer. The present invention comprises: a technology application domain keyword recognition and pattern extraction step; a question domain/detail category/talk act classification step; a semantically similar question analysis step; an expressively similar question analysis step; and a similar question answer providing step. Through the technology, provided is the paraphrase recognition-based answer method in a dialogue system for an automated Q&A service such as a chatbot for customer consultation. The present invention can convert a natural language query sentence, which can be transformed into various expressions to be input, into a vector containing semantic and structural information, and can determine whether an input query is similar to a sentence of previously constructed knowledge by using the vector. In addition, the present invention can provide an answer to a query by determining whether to provide an answer of a corresponding input according to a similarity score. When it is desired to provide a strictly refined answer depending on an application domain such as a financial domain, which is an embodiment of the present invention, the present invention can provide a more reliable answer than a method using a sentence generation model.

Description

문장 패러프레이즈 인식 기반 대화 시스템 답변 방법 {Method to response based on sentence paraphrase recognition for a dialog system}{Method to response based on sentence paraphrase recognition for a dialog system}

본 발명은 패러프레이징 인식 기술을 통해 입력된 문장(질의)의 의미와 의도가 유사한 질문-답변 지식(질문)을 탐색하여 관련된 답변을 제공하는 방법에 관한 내용이다. The present invention relates to a method of searching for a question-answer knowledge (question) having similar meaning and intention of a sentence (query) input through a paraphrase recognition technique to provide a related answer.

본 발명은 FAQ, 고객상담 서비스 등에서 활용될 수 있는 발명이며, 자동 Q&A를 위한 대화 시스템에 적용된다. 문장임베딩 기술에 기반한 자연어 처리 및 이해 기술을 활용하고 있으며, 이를 통해 입력된 질문과 의미와 의도가 유사한 질문을 탐색할 수 있다.The present invention is an invention that can be utilized in FAQ, customer service, etc., and is applied to a conversation system for automatic Q & A. It utilizes natural language processing and understanding technology based on sentence embedding technology. Through this, it is possible to search for questions similar in meaning and intent to the input questions.

Q&A 서비스(intelligence question and answering service)는 사용자가 입력한 질문에 대해 답변을 제공해주는 서비스이다. 네이버 지식인, Quora, Yahoo! answers 와 같이 전문가나 다른 사용자가 답변을 제공하는 커뮤니티형 온라인 플랫폼부터 IBM Watson, ETRI의 Exobrain 과 같이 고도화된 자연어 처리 기술과 구축된 지식베이스에 기반하여 자동으로 답변을 제공하는 지능형 Q&A 시스템까지 다양한 형태의 시스템으로 사용자의 질의에 대한 응답을 제공한다. Intelligence question and answering service is a service that provides answers to questions entered by users. Naver intellectuals, Quora, Yahoo! From community-like online platforms that provide answers to experts and other users, such as answers, to intelligent Q & A systems that automatically provide answers based on advanced natural language processing technologies such as IBM Watson and ETRI's Exobrain and built knowledge bases. The system provides a response to the user's query.

대화 시스템(dialog system)은 구체적인 목적을 가지며(goal oriented) 사용자와 대화를 하는(conversational) 컴퓨터 시스템을 말하며 일반적으로 사용자와 컴퓨터 간에 주고받는 질의와 응답의 과정이 대화와 같은 형식으로 이루어진다. 주로 사용자의 질의 입력 시 즉시 처리하여 요구에 적합한 응답을 하는 식으로 이루어지며, 최근에는 여러 턴에 걸쳐 이루어진 대화를 분석하여 응답을 제공하는 문맥 기반 대화 분석, 비동기 방식의 응답 제공 방법 등이 연구되고 있다. 본 발명에서는 이 대화 시스템을 이용하여 자동 Q&A 서비스를 제공하는 방법에 대해 기술한다.A dialogue system is a computer system that is concretely oriented and conversational with a user. In general, a process of inquiring and answering between a user and a computer takes the form of a conversation. This is mainly done by promptly processing the user's query input and responding to the request. Recently, a context-based dialogue analysis, which provides a response by analyzing a conversation over several turns, and an asynchronous response providing method are studied. have. The present invention describes a method for providing an automatic Q & A service using this dialog system.

대화 시스템에서 사용자와 컴퓨터 간에 대화로 소통(interaction)하기 위해서는 고차원의 자연어 처리 및 이해(natural language processing and understanding) 기술이 필요하다. 본 발명에서는 기본적으로 수행되는 형태소 분석과 POS 태깅부터 개체명 추출 및 인식과 같은 자연어 처리 과정과, 문장 임베딩, 도메인/의도 분류, 패러프레이즈 인식과 같은 자연어 이해 과정이 수행된다.In order to communicate with users and computers in a conversation system, high-level natural language processing and understanding skills are required. In the present invention, natural language processing such as morphological analysis and POS tagging, object name extraction and recognition, and natural language understanding such as sentence embedding, domain / intention classification, and paraphrase recognition are performed.

본 발명에서 문장 임베딩(sentence embedding) 기술은 질의 문장의 도메인/의도 분류, 문장 유사도 분석, 패러프레이즈 인식 파트에서 활용되는 방법이다. 기존에 잘 알려진 워드 임베딩 기술과 유사하게 자연어 표현을 벡터화(vector representation)하여 문장을 정해진 크기의 실수 벡터로 표현한다. 이를 위해 딥러닝 기반의 기계학습 모델을 이용하며, 추가적으로 적용 도메인에 맞춘 도메인 및 화행 분류 체계를 학습 자질로 함께 활용하여 문장을 벡터로 임베딩 한다. 문장을 벡터화 함으로써 의미/구조적 정보를 수치적 공간적 정보로 표현할 수 있으며, 이벡터를 통해 분류(classification), 군집화(clustering), 유사성 측정(similarity measuring)을 수행 할 수 있다. In the present invention, the sentence embedding technique is a method used in domain / intention classification, sentence similarity analysis, and paraphrase recognition part of a query sentence. Similarly to the well-known word embedding technique, the vector is represented by a natural language representation to represent a sentence as a real vector of a predetermined size. For this purpose, deep learning based machine learning model is used, and the sentence is embedded as a vector by using domain and speech act classification system according to the applied domain as learning quality. By vectorizing a sentence, semantic / structural information can be expressed as numerical and spatial information, and classification, clustering, and similarity measuring can be performed through this vector.

본 발명은 고객 상담용 챗봇과 같은 자동 Q&A 서비스를 위한 대화 시스템에서 패러프레이즈 인식 기반 답변 방법을 제공한다.The present invention provides a paraphrase recognition based answer method in a conversation system for an automatic Q & A service such as a chatbot for customer consultation.

본 발명의 실시 형태에 따른 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법은 전처리 과정에서 분석된 형태소 분석 결과를 기반으로 기술 적용 도메인의 중요 키워드 인식 및 패턴 추출 단계; 전처리 과정에서 분석된 형태소 분석 결과와 상기 추출한 중요 키워드 및 패턴을 이용한 질문 도메인/세부카테고리/화행의 분류 단계; 상기 분류한 질문 도메인 세부카테고리 화행 분류 자질을 질의 문장의 의미적 자질로 사용하여 모델을 학습하고 문장 의미 벡터를 추출하여 벡터간 유사성을 측정하는 의미적 유사 질문 분석 단계; 글자의 언어 모델을 학습하고 글자에 기반한 문장 표현 벡터를 추출하여 표현과 구조의 유사성을 분석하는 표현상 유사 질문 분석 단계; 상기 분석된 의미적 유사도, 표현상 유사도에 기반하여 다양한 형태로 입력될 수 있는 입력 질의 문장에 대한 의미적, 표현적 정보를 내재한 벡터를 생성하고, FAQ 지식 속에 유사 질의 문장을 패러프레이즈 인식 기술로 찾아 답변을 제공하는 유사질문 답변 제공 단계를 포함한다.Sentence paraphrase recognition-based dialogue system answer method according to an embodiment of the present invention comprises the steps of recognition of important keywords and pattern extraction of the technology application domain based on the morphological analysis results analyzed in the preprocessing process; Classifying the question domain / detail category / talk act using the morphological analysis results analyzed in the preprocessing process and the extracted important keywords and patterns; A semantic similarity question analysis step of learning a model using the classified question domain subcategory speech act classification feature as a semantic feature of a query sentence and extracting sentence semantic vectors to measure similarity between vectors; A representational similarity question analysis step of learning a language model of the character and extracting a sentence expression vector based on the character to analyze the similarity between the expression and the structure; Based on the analyzed semantic similarity and expressional similarity, a vector containing semantic and expressive information about an input query sentence that can be input in various forms is generated, and a similar sentence sentence in a FAQ knowledge is paraphrase recognition technology. A similar question answer step of finding and providing an answer is included.

일 실시예에 따르면, 상기 기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계는, 기술 적용 도메인 전용 개체명 인식 단계, 복합어 추출 단계, 동의어/상위어 분석 단계, 질문 표현 패턴 추출 단계를 포함할 수 있다. According to an embodiment, the technology application domain important keyword recognition and pattern extraction step may include a technology application domain specific entity name recognition step, a compound word extraction step, a synonym / parent word analysis step, and a question expression pattern extraction step.

상기 기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계에서는 전처리 과정에서 분석된 형태소 분석 결과를 기반으로 도메인에 특화된 개체명, 복합어 사전을 구축하고, 동의어 상위어 등의 시소러스나 어휘망을 구축할 수 있다.In the technology application domain important keyword recognition and pattern extraction step, domain-specific entity names and compound word dictionaries can be constructed based on the morphological analysis results analyzed in the preprocessing process, and thesaurus or lexical network such as synonyms and parent words can be constructed.

일 실시예에 따르면, 상기 질문 도메인/세부카테고리/화행의 분류 단계는 제1 학습 단계와 분류 단계를 포함할 수 있다. 상기 제1 학습 단계는 학습 데이터 태깅 및 구축 단계, 질문의도 분류 모델 학습 단계 등을 포함할 수 있다. 상기 분류 단계는 학습된 분류 모델을 사용하며, 질문 의도 분류 단계, 분석 결과 텍스트화 및 추가 학습 데이터 반자동 태깅 단계를 포함할 수 있다. According to an embodiment, the classification step of the question domain / detail category / act act may include a first learning step and a classification step. The first learning step may include learning data tagging and construction step, question intention classification model learning step, and the like. The classification step uses a learned classification model and may include a question intent classification step, an analysis result textualization, and additional learning data semi-automatic tagging step.

상기 질문 도메인/세부카테고리/화행의 분류 단계에서는, 전처리 과정에서 분석된 형태소 분석 결과와 상기 추출한 중요 키워드 및 패턴을 이용하여 학습데이터를 만들고 분류 모델을 학습하여 새로운 질의 문장에 대해 해당 분류자질들을 추출할 수 있다.In the classification step of the question domain / detailed category / conversation act, the morphological analysis results analyzed in the preprocessing process and the extracted important keywords and patterns are used to generate training data and learn a classification model to extract corresponding classification features for new query sentences. can do.

일 실시예에 따르면, 상기 의미적 유사 질문 분석 단계는 제2 학습 단계와 제1 유사도 분석 단계를 포함할 수 있다. 상기 제2 학습 단계는 문장 형태소 태깅, 의미 자질 (도메인, 화행) 분류 단계, 의미자질 기반 문장 임베딩 모델 학습 단계를 포함할 수 있다. 상기 유사도 분석 단계는 학습된 임베딩 모델(인코더)을 사용하며, 질문 의도 임베딩 수행 단계, 임베딩 벡터 기반 의미적 유사도 측정 단계를 포함할 수 있다.According to an embodiment, the semantic similarity question analysis step may include a second learning step and a first similarity analysis step. The second learning step may include sentence morphological tagging, semantic feature (domain, speech act) classification step, and semantic feature based sentence embedding model learning step. The similarity analysis step uses a learned embedding model (encoder), and may include a question intent embedding step and an embedding vector based semantic similarity measure step.

상기 의미적 유사 질문 분석 단계에서는 상기 분류한 질문 도메인 세부카테고리 화행 분류 자질을 질의 문장의 의미적 자질로 사용하여 모델을 학습하고 문장 의미 벡터를 추출하여 벡터간 유사성을 측정할 수 있다.In the semantic similar question analysis step, the model may be trained using the classified question domain subcategory speech act classification feature as the semantic feature of the query sentence, and the similarity between the vectors may be measured by extracting the sentence semantic vector.

일 실시예에 따르면, 상기 표현상 유사 질문 분석 단계 역시 제3 학습단계와 제2 유사도 분석 단계를 포함할 수 있다. 상기 제3 학습 단계는 글자 단위로 토큰화 하는 단계와 글자 표현 기반 임베딩 모델 학습 단계를 포함할 수 있다. 상기 제2 유사도 분석 단계는 학습된 글자 수준 임베딩 모델을 사용하며, 글자 수준의 임베딩 수행 단계와 임베딩 벡터 기반 표현적 유사도 측정 단계를 포함할 수 있다.According to an embodiment, the expression-like question analysis step may also include a third learning step and a second similarity analysis step. The third learning step may include a step of tokenizing on a letter basis and a learning expression embedding-based embedding model. The second similarity analyzing step may include a trained letter level embedding model, and may include a letter level embedding step and an embedding vector based expressive similarity measure step.

상기 표현상 유사 질문 분석 단계에서는 글자의 언어 모델을 학습하고 글자에 기반한 문장 표현 벡터를 추출하여 표현과 구조의 유사성을 분석할 수 있다.In the expression-like question analysis step, the language model of the letter may be learned, and the sentence expression vector based on the letter may be extracted to analyze the similarity between the expression and the structure.

일 실시예에 따르면, 상기 유사질문 답변 제공 단계는 의미적 유사도 질문 분석 단계와 표현상 유사질문 분석 단계를 포함할 수 있으며, 이를 통해 분석된 유사도 결과를 이용하여 입력된 질문과 유사한 질문 FAQ 질문을 탐색하고, 답변을 제공할지 말지를 결정하는 단계를 포함할 수 있다. According to an embodiment of the present disclosure, the providing of the similar question answer may include a semantic similarity question analysis step and an expression similarity analysis step, and search for a question similar to the input question using the analyzed similarity result. And determining whether or not to provide an answer.

상기 유사질문 답변 제공 단계에서는 상기 분석된 의미적 유사도, 표현상 유사도에 기반하여 정제된 FAQ 질의 문장의 패러프레이즈 문장임을 인식하고 유사도 점수에 따라 해당 FAQ 질의 문장의 답변을 제공할 수 있다.In the step of providing a similar question answer, it may be recognized as a paraphrase sentence of a refined FAQ query sentence based on the analyzed semantic similarity and expression similarity, and may provide an answer of the corresponding FAQ query sentence according to a similarity score.

본 발명은 고객 상담용 챗봇과 같은 자동 Q&A 서비스를 위한 대화 시스템에서 답변을 제공하기 위한 원천 기술로서 제공한다. 이 기술을 통해 다양한 표현으로 변형하여 입력될 수 있는 자연어 질의 문장을 의미적, 구조적 정보를 담아 벡터로 변환할 수 있으며, 이를 이용하여 입력 질의와 기 구축된 지식의 문장과 유사 여부를 판단 할 수 있다. 그리고 유사도 점수에 따라 해당 입력의 답변을 제공할지 말지를 판단하여 질의에 대한 답변을 제공 할 수 있다. 금융 도메인과 같이 기술 적용 도메인에 따라 엄격히 정제된 답변을 제공하길 희망하는 경우, 문장 생성 모델을 이용하는 방법에 비해 신뢰할 답변을 제공 할 수 있는 장점이 있다.The present invention provides a source technology for providing an answer in a conversation system for an automatic Q & A service such as a chatbot for customer consultation. Through this technology, natural language query sentences that can be transformed into various expressions can be transformed into vectors containing semantic and structural information, and can be used to determine whether they are similar to the sentences of input queries and pre-built knowledge. have. In addition, it is possible to provide an answer to the query by determining whether to provide an answer of the corresponding input according to the similarity score. If you want to provide a strictly refined answer according to the technology application domain, such as the financial domain, there is an advantage that can provide a reliable answer compared to using a sentence generation model.

도 1은 본 발명의 실시예에 따른 문장 임베딩 유사도에 기반한 패러프레이즈 인식에 따른 자동 Q&A 대화 시스템의 답변 방법을 나타내는 흐름도이다.
도 2는 본 발명의 실시예에 따른 기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계에 관한 상세 흐름도이다.
도 3은 본 발명의 실시예에 따른 질문 도메인/세부카테고리/화행 분류 단계에 관한 상세 흐름도이다.
도 4는 본 발명의 실시예에 따른 의미적 유사 질문 분석 단계에 관한 상세 흐름도이다.
도 5는 본 발명의 실시예에 따른 표현상 유사 질문 분석 단계에 관한 상세 흐름도이다.
도 6은 본 발명의 실시예에 따른 유사 질문 답변 제공 단계에 관한 상세 흐름도이다.
도 7은 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법에 대한 개념도이다.
도 8은 본 발명에서 의미적 유사 질문 분석에 사용한 질의 문장 임베딩을 위한 학습 모델의 구성도이다. 문장 의미 벡터를 생성하기 위해 입력된 질의 문장, 도메인, 세부 카테고리, 화행 정보가 필요하며 본 모델의 입력과 출력으로 활용된다.
도 9는 본 발명에서 표현상 유사 질문 분석에 사용한 글자 임베딩 모델의 구성도이다. 각 글자는 각 신경망의 입력이 되며 한 문장에 함께 등장하는 글자, 표현, 구조 정보를 학습하며, 이 정보를 임베딩 벡터에 반영한다.
도 10은 입력 질의 문장과 패러프레이즈로 인식된 유사 문장과 유사도 측정 결과를 예시한다.
1 is a flowchart illustrating an answer method of an automatic Q & A conversation system based on paraphrase recognition based on sentence embedding similarity according to an embodiment of the present invention.
2 is a detailed flowchart illustrating a technology application domain important keyword recognition and pattern extraction step according to an embodiment of the present invention.
3 is a detailed flowchart of a question domain / detail category / act act classification step according to an embodiment of the present invention.
4 is a detailed flowchart of a semantic similar question analysis step according to an embodiment of the present invention.
5 is a detailed flowchart of an expression-like question analysis step according to an embodiment of the present invention.
6 is a detailed flowchart of providing a similar question answer step according to an embodiment of the present invention.
7 is a conceptual diagram for a method of answering a sentence paraphrase recognition based conversation system.
8 is a block diagram of a learning model for embedding query sentences used in semantic similar question analysis according to the present invention. In order to generate sentence semantic vector, inputted query sentence, domain, subcategory and speech act information are needed and used as input and output of this model.
9 is a block diagram of a character embedding model used in the expression similarity question analysis in the present invention. Each letter is input to each neural network and learns letters, expressions, and structure information that appear together in a sentence, and reflects this information in the embedding vector.
10 illustrates a similar sentence recognized by the input query sentence and a paraphrase and the similarity measurement result.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.DETAILED DESCRIPTION The following detailed description of the invention refers to the accompanying drawings that show, by way of illustration, specific embodiments in which the invention may be practiced. These embodiments are described in sufficient detail to enable those skilled in the art to practice the invention. It should be understood that the various embodiments of the present invention are different but need not be mutually exclusive. For example, certain shapes, structures, and characteristics described herein may be embodied in other embodiments without departing from the spirit and scope of the invention with respect to one embodiment. In addition, it is to be understood that the location or arrangement of individual components within each disclosed embodiment may be changed without departing from the spirit and scope of the invention. The following detailed description, therefore, is not to be taken in a limiting sense, and the scope of the present invention, if properly described, is defined only by the appended claims, along with the full range of equivalents to which such claims are entitled. Like reference numerals in the drawings refer to the same or similar functions throughout the several aspects.

이하, 첨부되는 도면을 참조하여 본 발명의 실시 형태에 따른 패러프레이징 인식 기술을 통해 입력된 문장(질의)의 의미와 의도가 유사한 질문-답변 지식(질문)을 탐색하여 관련된 답변을 제공하는 방법을 설명한다.Hereinafter, a method of searching for a question-answer knowledge (question) having similar meaning and intention of a sentence (query) input through a paraphrase recognition technology according to an embodiment of the present invention will be described with reference to the accompanying drawings. Explain.

도 1은 본 발명의 실시예에 따른 문장 임베딩 유사도에 기반한 패러프레이즈 인식에 따른 자동 Q&A 대화 시스템의 답변 방법을 나타내는 흐름도이다.1 is a flowchart illustrating an answer method of an automatic Q & A conversation system based on paraphrase recognition based on sentence embedding similarity according to an embodiment of the present invention.

도 1을 참조하면, 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법은 기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계(S100), 질문 도메인/세부카테고리/화행 분류 단계(S200), 의미적 유사 질문 분석 단계(S300), 표현상 유사 질문 분석 단계(S400), 유사질문 답변 제공 단계(S500)를 포함할 수 있다.Referring to FIG. 1, the sentence paraphrase recognition-based dialogue system answering method includes a technology application domain key keyword recognition and pattern extraction step (S100), a question domain / detail category / speech act classification step (S200), and a semantic similar question analysis step ( S300), a representation similar question analysis step (S400), may provide a similar question answer step (S500).

도 7은 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법에 대한 개념도이다. 도 7을 참조하면, 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법에 대한 예시적인 실시예가 제시되어 있다. 7 is a conceptual diagram for a method of answering a sentence paraphrase recognition based conversation system. Referring to FIG. 7, an exemplary embodiment of a sentence paraphrase recognition based dialogue system answering method is presented.

상기 기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계(S100)는 입력된 질의 문장에서 적용 도메인과 관련된 개체명, 복합어, 동의어, 상위어 등을 분석하고, 이를 패턴화 하여 답변과 질문을 매핑 할 수 있게 자질을 추출하는 과정이다. 도메인에 특화된 개체명 사전과 복합어 사전을 개체명/복합어 후보 추출을 위한 기계학습 모델을 통해 반자동 방식으로 구축하고, 사전 어휘(vocabrary)의 동의어, 상위어 개념 정보들을 어휘망 또는 시소러스로 구축한다. 이를 통해 입력된 질의에서 답변을 찾을 수 있는 중요 키워드들을 추출 가능하며 일부 용언 표현도 동의 또는 상위 개념으로 표현 할 수 있다. The technology application domain important keyword recognition and pattern extraction step (S100) analyzes the entity name, compound word, synonym, upper word, etc. related to the applied domain in the inputted query sentence, and patterns it to map answers and questions. It is the process of extracting. Domain-specific entity name dictionary and compound word dictionary are built in semi-automatic way through machine learning model for entity name / composite candidate extraction, and synonym and lexical concept information of lexical vocabulary is constructed as lexical network or thesaurus. Through this, it is possible to extract important keywords that can be found in the input query, and some verbal expressions can be expressed as agreement or higher concept.

상기 질문 도메인/세부카테고리/화행 분류 단계(S200)는 새로운 입력 질의 문장의 질문 도메인/세부카테고리/화행 자질을 분석하는 과정이다. S100에서 추출된 패턴 정보와 함께, 도메인, 카테고리, 화행 정보를 질문-답변 지식을 구축하거나 답변을 찾는 데 활용한다. 이 단계의 학습 과정에서는 학습 질문 데이터마다 도메인, 세부카테고리, 화행 정보를 태깅하는 과정이 필요하다. 본 발명에 따른 실시예에서는 질문 의도 분류 모델은 딥러닝 기반의 신경망 모델을 사용할 수 있다. 이와 달리, 질문 의도 분류 모델은 다른 학습 기반의 분류 모델을 대체 사용할 수도 있다. 또한 새로운 질의 문장의 분류 결과를 검토하여 추가 학습데이터 반자동 구축에 활용 할 수 있다.The question domain / detail category / act act classification step S200 is a process of analyzing the question domain / detail category / act act qualities of the new input query sentence. Along with the pattern information extracted in S100, domain, category, speech act information is used to build a question-answer knowledge or find an answer. In the learning process of this stage, the process of tagging domain, subcategory and speech act information for each learning question data is required. In the embodiment according to the present invention, the question intent classification model may use a deep learning based neural network model. Alternatively, the question intent classification model may replace other learning-based classification models. In addition, the classification result of the new query sentence can be reviewed and used for semi-automatic construction of additional learning data.

상기 의미적 유사 질문 분석 단계(S300)는 입력 질의 문장을 정해진 길이로 벡터화하는 문장 임베딩을 수행하고, FAQ 지식의 질문과의 의미적 유사도를 측정하는 과정이다. 이를 위해 문장 임베딩 모델 학습 과정이 선행될 수 있으며, S200에서 구축한 도메인, 세부카테고리, 화행 자질과 질의 문장을 도 8의 학습 모델에 학습한다. The semantic similar question analysis step S300 is a process of performing sentence embedding to vectorize an input query sentence to a predetermined length and measuring semantic similarity with a question of FAQ knowledge. For this, the sentence embedding model learning process may be preceded, and the domain, subcategory, speech act qualities, and query sentences constructed in S200 are learned in the learning model of FIG. 8.

상기 표현상 유사 질문 분석 단계(S400)는 입력 문장의 글자와 구조 정보만 이용하여 문장을 벡터로 임베딩 하는 과정이다. 문장에서 키워드 패턴 추출이 안 되었거나, 도메인이나 세부카테고리 자질이 분류되지 않아서 앞선 단계에서 답변을 제공할 수 없거나 경우에 본 단계를 통해 입력 문장과 유사한 표현에 대한 답변이나 반응을 제공한다.The similarity question analysis step (S400) is a process of embedding a sentence into a vector using only letters and structure information of the input sentence. If the keyword pattern is not extracted from the sentence, or the domain or subcategory qualities are not classified, the answer cannot be provided in the previous step, or the answer or response to the expression similar to the input sentence is provided through this step.

상기 유사질문 답변 제공 단계(S500)는 단계 S300과 S400에서 분석된 유사 문장 분석 결과를 유사도 점수로 활용하여 입력된 질의 문장에 대한 답변의 제공 여부를 결정하는 과정이다.The similar question answer providing step (S500) is a process of determining whether to provide an answer for the inputted question sentence by using similar sentence analysis results analyzed in steps S300 and S400 as similarity scores.

도 2는 본 발명의 실시예에 따른 기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계(S100)에 관한 상세 흐름도이다.2 is a detailed flowchart of a technology application domain important keyword recognition and pattern extraction step S100 according to an embodiment of the present invention.

도 2를 참조하면, 일 실시예에 따른 기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계(S100)는, 기술 적용 도메인 전용 개체명 인식 단계(S110)와, 복합어 추출 단계(S120), 동의어/상위어 분석 단계(S130), 질문 표현 패턴 추출 단계(S140) 등을 포함할 수 있다.Referring to FIG. 2, the technology application domain important keyword recognition and pattern extraction step S100 according to an embodiment may include a technology application domain-specific entity name recognition step S110, a compound word extraction step S120, and synonyms / parent words analysis. A step S130 and a question expression pattern extraction step S140 may be included.

예시적인 실시예에 따른 상기 기술 적용 도메인 전용 개체명 인식 단계(S110)는 기술 적용 도메인 전용 개체명을 인식하는 과정으로, 본 발명의 실시예에서는 금융 기관명, 특정 상품명, 지명(지점명), 금액 정보, 날짜 정보, 비식별 표현 등을 포함할 수 있으며, 기존의 개체명 인식 기술을 특정 도메인 특화된 개체명 사전을 구축할 수 있다. The technology application domain-only entity name recognition step (S110) according to an exemplary embodiment is a process of recognizing the technology application domain-only entity name. It may include date information, non-identifiable expressions, and the like, and may construct a domain-specific entity name dictionary using existing entity name recognition technology.

예시적인 실시예에 따른 상기 복합어 추출 단계(S120)는 형태소 분석 결과를 활용하여 적용 도메인에 특화된 복합어 정보를 추가로 추출하는 과정으로서, 입력 문장 내의 특정 상품명이나 중요 키워드를 잡는 데 활용될 수 있다. 개체명 사전과 유사하게 적용 도메인에 따라 별도의 사전이 구축될 수 있는데, 이 과정에서 기계학습 모델을 이용하여 개체명/복합어 후보를 추출할 수 있다. 이를 시스템 개발자가 반자동으로 사전에 등록할지 말지를 결정하게 된다. According to an exemplary embodiment, the compound word extracting step S120 is a process of additionally extracting compound word information specific to an applied domain by using a morphological analysis result, and may be used to catch a specific brand name or an important keyword in an input sentence. Similar to the entity name dictionary, a separate dictionary can be constructed according to the applied domain. In this process, the entity name / compound candidate can be extracted using a machine learning model. The system developer decides whether or not to register in advance.

예시적인 실시예에 따른 상기 동의어/상위어 분석 단계(S130)는 특정 용어 표현을 정규화 하거나 특정 표현의 동의어 정보나 상위 개념 정보를 분석하는 과정이다. 이전 단계에서 구축된 개체명, 복합어 사전의 어휘들을 시소러스 또는 어휘망으로 관계를 구축할 수 있다. The synonym / parent word analysis step S130 according to an exemplary embodiment is a process of normalizing a specific term expression or analyzing synonym information or higher concept information of a specific expression. The vocabulary of the entity name and compound word dictionary constructed in the previous step can be constructed by thesaurus or vocabulary network.

예시적인 실시예에 따른 상기 질문 표현 패턴 추출 단계(S140)는 이전 단계에서 추출한 입력 질의에 대한 개체명, 복합어, 동의어, 상위어 등의 질문 표현들을 연결 관계에 따라 패턴화 하는 과정일 수 있다. The extracting of the question expression pattern according to an exemplary embodiment (S140) may be a process of patterning question expressions such as an entity name, a compound word, a synonym, and a parent word for the input query extracted in the previous step according to a connection relationship.

도 3은 본 발명의 실시예에 따른 질문 도메인/세부카테고리/화행 분류 단계(S200)에 관한 상세 흐름도이다. 3 is a detailed flowchart of a question domain / detail category / speech act classification step S200 according to an embodiment of the present invention.

도 3을 참조하면, 예시적인 일 실시예에 따른 상기 질문 도메인/세부카테고리/화행 분류 단계(S200)는, 크게 학습 단계와 분류 단계로 구분될 수 있다. 학습 단계에서는 학습 데이터 태깅 및 구축 단계(S210), 질문의도 분류 모델 학습 단계(S220) 등을 포함할 수 있다. 분류 단계에서는 질문 의도 분류 단계(S230), 분석 결과 텍스트화 및 추가 학습 데이터 반자동 태깅 단계(S240)를 포함 할 수 있다.Referring to FIG. 3, the question domain / detail category / talk act classification step S200 according to an exemplary embodiment may be largely divided into a learning step and a classification step. The learning step may include a learning data tagging and building step (S210), a question intention classification model learning step (S220), and the like. The classification step may include a question intent classification step S230, an analysis result textification, and additional learning data semi-automatic tagging step S240.

예시적인 실시예에 따른 상기 학습 데이터 태깅 및 구축 단계(S210)는 시스템 적용 도메인에 특화된 Q&A를 위한 질의 문장 분류 체계 자질을 질문마다 태깅을 하는 과정으로 도메인, 세부 카테고리, 화행 등의 자질을 태깅하여 분류 모델을 학습 및 평가하기 위한 데이터를 만든다, The learning data tagging and construction step (S210) according to an exemplary embodiment is a process of tagging a query sentence classification system feature for Q & A specific to a system application domain for each question, by tagging features such as domain, subcategory, and act act. Create data for learning and evaluating classification models,

예시적인 실시예에 따른 상기 질문의도 분류 모델 학습 단계(S220)는 이전 단계(S210)에서 구축된 학습 데이터를 딥러닝 기반의 분류 모델에 학습을 시키는 과정이다. 실시예에 따른 본 발명의 실시예에서는 4종의 학습 기반 분류 모델(SVM, RF, FC-MLP, ELM)을 구현하여 분류 성능을 비교하였다. 본 발명의 실시예에서는 FC-MLP 기반의 분류 모델을 채용하여 사용하고 있다.The learning intention classification model training step S220 according to an exemplary embodiment is a process of training the learning data constructed in the previous step S210 in a deep learning based classification model. In the embodiment of the present invention, four learning-based classification models (SVM, RF, FC-MLP, ELM) were implemented to compare classification performance. In the embodiment of the present invention, a classification model based on FC-MLP is employed.

예시적인 실시예에 따른 상기 질문 의도 분류 단계(S230)는 학습된 분류 모델을 사용하여 새로운 입력 질의 문장에 대한 자질 분석을 수행하는 과정으로, 규칙 기반 답변 제공에 활용하고 분류기 자체의 분류 정확도를 평가하는데 이용된다. 또한 분석 과정을 통해 분류 예측율과 분류 정확도를 기반으로 추후 답변 제공 기준 점수(threshold)를 결정하는데 활용되었다. The question intent classification step (S230) according to an exemplary embodiment is a process of performing a feature analysis on a new input query sentence using a learned classification model, which is used to provide rule-based answers and evaluates the classification accuracy of the classifier itself. It is used to In addition, the analysis process was used to determine the threshold for providing answers later based on the classification prediction rate and the accuracy of classification.

예시적인 실시예에 따른 상기 분석 결과 텍스트화 및 추가 학습 데이터 반자동 태깅 단계(S240)는 학습데이터를 추가 구축하기 위한 과정으로, 학습된 모델을 통해 추가 테스트 질의 문장의 자질 분석 과정과 검토를 통한 학습데이터 수정 및 추가 구축 과정을 수행한다. 기계학습 기반의 분류 모델의 자질 추출 성능을 향상하기 위해서는 보다 많은 정제된 학습데이터가 필요하다.The text analysis and semi-automatic tagging of the analysis result according to an exemplary embodiment and the semi-automatic tagging step S240 are processes for additionally constructing learning data. Perform data modification and further build up. More refined learning data are needed to improve the feature extraction performance of machine learning based classification models.

도 4는 본 발명의 실시예에 따른 의미적 유사 질문 분석 단계에 관한 상세 흐름도이다.4 is a detailed flowchart of a semantic similar question analysis step according to an embodiment of the present invention.

도 4를 참조 하면 일 실시예에 따르면, 의미적 유사 질문 분석 단계는, 학습 단계와 유사도 분석 단계로 구분될 수 있다. 상기 학습 단계는 문장 형태소 태깅, 의미 자질 (도메인, 화행) 분류 단계(S310), 의미자질 기반 문장 임베딩 모델 학습 단계(S320)를 포함할 수 있다. 상기 유사도 분석 단계는 질문 의도 임베딩 수행 단계(S330), 임베딩 벡터 기반 의미적 유사도 측정 단계(S340)를 포함할 수 있다.Referring to FIG. 4, the semantic similar question analysis step may be divided into a learning step and a similarity analysis step. The learning step may include a sentence morphological tagging, a semantic feature (domain, speech act) classification step (S310), and a semantic feature based sentence embedding model learning step (S320). The similarity analyzing step may include a question intent embedding performing step S330 and an embedding vector based semantic similarity measuring step S340.

예시적인 실시예에 따른 상기 문장 형태소 태깅, 의미 자질 (도메인, 화행) 분류 단계(S310)는 이전의 단계에서 분석된 결과를 모아서 모델에 학습시킬 데이터를 정리하는 과정이다. 이 과정에서는 언어분석기(형태소태깅)에서 분석된 결과로 학습한 형태소의 워드임베딩 벡터와 분류 모델을 통해 분석된 분류 자질을 의미 자질로 활용하며, 입력 구조체로 구조화한다. According to an exemplary embodiment, the sentence morpheme tagging and semantic qualities (domain, speech act) classification step S310 is a process of arranging data to be trained in a model by collecting the results analyzed in the previous step. In this process, we use the classification features analyzed through the word embedding vector and classification model of the morphemes learned from the language analyzer (morphological tagging) as semantic features and structure them as input structures.

예시적인 실시예에 따른 상기 의미 자질 기반 문장 임베딩 모델 학습 단계(S320)는 Seq2Seq 기반의 인코더-디코더 모델과 이전 단계(S200)에서 학습한 분류 모델을 결합한 딥러닝 모델에 학습시키는 과정이다. 이 모델을 통해 문장의 언어 모델을 학습하며 동시에 도메인, 카테고리, 화행 분류와 같은 의미적 정보를 담는 문장 의미 벡터를 생성하는 인코더 모델을 구축할 수 있다. The semantic feature-based sentence embedding model training step S320 according to an exemplary embodiment is a process of training a deep learning model combining a Seq2Seq-based encoder-decoder model and a classification model learned in the previous step S200. Through this model, we can build an encoder model that learns the linguistic model of sentences and generates sentence semantic vectors containing semantic information such as domains, categories and speech act classifications.

예시적인 실시예에 따른 상기 질문 의도 임베딩 수행 단계(S330)는 이전 단계(S320)에서 학습된 인코더 모델을 이용하여 새로운 입력 질의 문장을 문장 의미 벡터로 임베딩하는 과정이다. 이 과정에서는, 입력된 질의 문장에 대하여 원하는 차원의 실수 벡터로 질문을 변환한다. The question intent embedding performing step S330 according to an exemplary embodiment is a process of embedding a new input query sentence into a sentence semantic vector using the encoder model learned in the previous step S320. In this process, the question is converted into a real vector of the desired dimension for the input query sentence.

예시적인 실시예에 따른 상기 임베딩 벡터 기반 의미적 유사도 측정 단계(S340)는 이전 단계에서 변환한 문장 의미 벡터를 이용하여, 벡터 간 유사도 측정 방법을 통해 질의 문장과 정제된 답변 지식이 있는 FAQ 질문과의 유사도를 측정하는 과정이다. 본 발명의 실시예에서는 벡터 간 유사도를 측정할 수 있는 코사인 유사도(cosine similarity)를 이용하였으며 유사한 벡터 간 유사도 측정 방법으로 대체할 수 있다.The embedding vector-based semantic similarity measuring step (S340) according to an exemplary embodiment may be performed by using a sentence semantic vector transformed in the previous step, and a FAQ sentence having a query sentence and refined answer knowledge through a method of measuring similarity between vectors. The similarity is measured. In an embodiment of the present invention, cosine similarity capable of measuring similarity between vectors is used, and the similarity between similar vectors may be replaced.

도 8은 본 발명에서 의미적 유사 질문 분석에 사용한 질의 문장 임베딩을 위한 학습 모델의 실시예를 도시한다. 문장 의미 벡터를 생성하기 위해 입력된 질의 문장, 도메인, 세부 카테고리, 화행 정보가 필요하며 도 8에 예시된 학습 모델의 입력으로 활용될 수 있다.8 illustrates an embodiment of a learning model for query sentence embedding used for semantic similar question analysis in the present invention. An input query sentence, domain, subcategory and speech act information is required to generate a sentence semantic vector, and may be used as an input of the learning model illustrated in FIG. 8.

다음으로, 도 5는 본 발명의 실시예에 따른 표현상 유사 질문 분석 단계(S400)에 관한 상세 흐름도이다.Next, FIG. 5 is a detailed flowchart of an expression-like question analysis step S400 according to an exemplary embodiment of the present invention.

도 5를 참조하면 일 실시예에 따른 상기 표현상 유사 질문 분석 단계(S400) 역시 학습 단계와 유사도 분석 단계를 포함할 수 있다. 상기 학습 단계는 글자 단위로 토큰화 하는 단계(S410)와 글자 표현 기반 임베딩 모델 학습 단계(S420)를 포함할 수 있다. 상기 유사도 분석 단계는 글자 수준의 임베딩 수행 단계(S430)와 임베딩 벡터 기반 표현적 유사도 측정 단계(S440)를 포함할 수 있다.Referring to FIG. 5, the expression-like question analysis step S400 according to an embodiment may also include a learning step and a similarity analysis step. The learning step may include a step of tokenizing in units of letters (S410) and a step of learning a letter expression-based embedding model (S420). The similarity analyzing step may include a character level embedding performing step S430 and an embedding vector based expressive similarity measuring step S440.

예시적인 실시예에 따른 상기 글자 단위로 토큰화 하는 단계(S410)는 질의 문장에 등장한 글자의 언어모델을 학습하는 인코더-디코더 모델을 구현하기 위해서 글자 수준(character-level)으로 입력 벡터를 만드는 과정으로서, 워드임베딩 벡터가 쓰였던 이전 단계(S300)와는 다르게 글자 어휘의 One-hot encoding 벡터를 이용할 수 있다. According to an exemplary embodiment, the tokenization in units of characters (S410) is a process of creating an input vector at a character level to implement an encoder-decoder model for learning a language model of a character appearing in a query sentence. As one step, unlike the previous step (S300) in which the word embedding vector is used, one-hot encoding vector of a letter vocabulary may be used.

예시적인 실시예에 따른 상기 글자 표현 기반 임베딩 모델 학습 단계(S420)는 질의 문장에 등장한 글자의 언어모델을 학습하는 인코더-디코더 모델을 학습하는 과정일 수 있다. 이 단계에서는 본 학습 과정을 통해 문장 내에 함께 등장하는 글자 간의 언어 모델이 학습될 수 있다. 이를 통해 문장을 구성하는 글자들의 관계를 벡터화 할 수 있다. 또한 디코더를 통해 문장을 구성하는 글자를 예측할 수 있게 된다. According to an exemplary embodiment, the character expression-based embedding model learning step (S420) may be a process of learning an encoder-decoder model for learning a language model of a letter appearing in a query sentence. In this step, the language model between the letters appearing together in the sentence can be learned through this learning process. Through this, it is possible to vectorize the relationship between the letters constituting the sentence. In addition, the decoder can predict the letters constituting the sentence.

예시적인 실시예에 따른 상기 글자 수준의 임베딩 수행 단계(S430)는 이전 단계(S300)의 의미적 자질을 이용하여 질의 문장을 임베딩 하는 과정과 유사하게 글자만 이용해서 문장의 표현 정보만을 가진 문장 표현 벡터를 생성하는 과정일 수 있다. Embedding step of the letter level according to an exemplary embodiment (S430) is similar to the process of embedding a query sentence using the semantic qualities of the previous step (S300) using a letter only sentence representation with only the expression information of the sentence It may be a process of generating a vector.

예시적인 실시예에 따른 상기 임베딩 벡터 기반 표현적 유사도 측정 단계(S440)는 분석된 문장 표현 벡터를 이용하여 입력 문장의 글자와 구조와 같은 외재적(explicit)인 유사성을 측정하는 과정일 수 있다. 이 단계는 의미적 유사성을 측정하기가 어렵거나 적용한 도메인에 관련이 없는 입력 대화에 대해 반응하기 위해서 개발된 단계로서, 주로 인사말, 욕설 등의 감정 표현에 대한 반응을 제공할 수 있다. 이전 단계(S300)와 마찬가지로 벡터 간 유사성을 측정하는 방법을 사용할 수 있고, 예시적인 실시예에서는 코사인 유사도를 사용할 수 있다.The expression vector-based expressive similarity measuring step S440 according to an exemplary embodiment may be a process of measuring an explicit similarity such as a character and a structure of an input sentence using the analyzed sentence expression vector. This step was developed to respond to input conversations that are difficult to measure semantic similarity or that are not relevant to the domain to which it is applied, and can provide responses to emotional expressions, such as greetings and abusive language. As in the previous step S300, a method for measuring similarity between vectors may be used, and in an exemplary embodiment, cosine similarity may be used.

도 9는 본 발명에서 표현상 유사 질문 분석에 사용한 글자 임베딩 모델의 실시예이다. 각 글자는 각 신경망의 입력이 되며 한 문장에 함께 등장하는 글자, 표현, 구조 정보를 학습하며, 이 정보를 임베딩 벡터에 반영한다.9 is an embodiment of a character embedding model used in the expression similarity question analysis in the present invention. Each letter is input to each neural network and learns letters, expressions, and structure information that appear together in a sentence, and reflects this information in the embedding vector.

도 6은 본 발명의 실시예에 따른 유사 질문 답변 제공 단계(S500)에 관한 상세 흐름도이다.6 is a detailed flowchart of a similar question answer providing step S500 according to an embodiment of the present invention.

도 6를 참조 하면 일 실시예에 따른 상기 유사질문 답변 제공 단계(S500)는 의미적 유사도 질문 분석 단계(S510)와 표현상 유사질문 분석 단계(S520)를 포함할 수 있다. 상기 유사질문 답변 제공 단계(S500)는 또한 선행 단계를 통해 분석된 유사도 결과를 이용하여 입력된 질문과 유사한 질문 FAQ 질문을 탐색하고, 답변을 제공할지 말지를 결정하는 단계(S530)를 포함 할 수 있다.Referring to FIG. 6, the providing of a similar question answer (S500) according to an embodiment may include a semantic similarity question analyzing step S510 and a representational similar question analyzing step S520. The providing similar question answer step S500 may also include searching for similar question FAQ questions similar to the input question using the similarity result analyzed through the preceding step, and determining whether to provide an answer (S530). have.

예시적인 실시예에 따른 의미적 유사도 질문 분석 단계(S510)와 표현상 유사질문 분석 단계(S520)는 이전 단계(S300, S400)에서 분석된 유사도 측정값(점수)에 기준하여 기준 점수를 넘는지 또는 안 넘는지를 판단하여 유사도 답변을 제공할지 말지를 결정하는 단계(S530)에서 답변을 제공하는 과정일 수 있다. 본 발명의 예시적인 실시예에서는, 의미적 유사도는 예컨대 0.7을 유사도 판단의 기준치로 삼을 수 있다. 즉, 0.7 이상의 유사도를 보이는 FAQ 질문의 답변을 제공하고, 표현상 유사도의 경우는 예컨대 0.6을 유사도 판단의 기준치로 삼을 수 있다. 즉, 0.6 이상의 유사도를 보이는 일반 대화 지식의 답변을 제공할 수 있다. The semantic similarity question analysis step (S510) and the expression similarity question analysis step (S520) according to the exemplary embodiment exceed the reference score based on the similarity measure (score) analyzed in the previous steps (S300, S400) or It may be a process of providing an answer in step S530 of determining whether or not to provide a similarity answer by determining whether or not. In an exemplary embodiment of the present invention, semantic similarity may be based on, for example, 0.7 for similarity judgment. That is, an answer to an FAQ question showing a similarity level of 0.7 or more may be provided, and in the case of expression similarity, for example, 0.6 may be used as a criterion for determining similarity. That is, it can provide an answer of general conversation knowledge showing a degree of similarity of 0.6 or more.

도 10은 입력 질의 문장과 패러프레이즈로 인식된 유사 문장과 유사도 측정 결과에 대한 실시예이다.FIG. 10 illustrates an example of a similar sentence recognized by the input query sentence and a paraphrase and a result of similarity measurement.

이와 같이 본 발명은 자연어로 이루어지는 상담내용을 이해하고 적합한 응답을 해줄 수 있는 챗봇을 개발하는 원천 기술을 제공할 수 있다. As described above, the present invention can provide a source technology for developing a chatbot capable of understanding the contents of counseling in natural language and responding appropriately.

이상에서 실시예들에 설명된 특징, 구조, 효과 등은 본 발명의 하나의 실시예에 포함되며, 반드시 하나의 실시예에만 한정되는 것은 아니다. 나아가, 각 실시예에서 예시된 특징, 구조, 효과 등은 실시예들이 속하는 분야의 통상의 지식을 가지는 자에 의해 다른 실시예들에 대해서도 조합 또는 변형되어 실시 가능하다. 따라서 이러한 조합과 변형에 관계된 내용들은 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.Features, structures, effects, etc. described in the above embodiments are included in one embodiment of the present invention, and are not necessarily limited to one embodiment. Furthermore, the features, structures, effects, and the like illustrated in the embodiments may be combined or modified with respect to other embodiments by those skilled in the art to which the embodiments belong. Therefore, contents related to such combinations and modifications should be construed as being included in the scope of the present invention.

또한, 이상에서 실시예를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 실시예에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.In addition, the above description has been made with reference to the embodiment, which is merely an example, and is not intended to limit the present invention. Those skilled in the art to which the present invention pertains will be illustrated as above without departing from the essential characteristics of the present embodiment. It will be appreciated that various modifications and applications are possible. For example, each component specifically shown in the embodiment can be modified. And differences relating to such modifications and applications will have to be construed as being included in the scope of the invention defined in the appended claims.

Claims (11)

컴퓨터 장치의 프로세서에 의해 실행되는 방법으로서,
전처리 과정에서 분석된 형태소 분석 결과를 기반으로 기술 적용 도메인의 중요 키워드 인식 및 패턴 추출 단계;
전처리 과정에서 분석된 형태소 분석 결과와 상기 추출한 중요 키워드 및 패턴을 이용한 질문 도메인/세부카테고리/화행의 분류 단계;
상기 분류한 질문 도메인 세부카테고리 화행 분류 자질을 질의 문장의 의미적 자질로 사용하여 모델을 학습하고 문장 의미 벡터를 추출하여 벡터간 유사성을 측정하는 의미적 유사 질문 분석 단계;
글자의 언어 모델을 학습하고 글자에 기반한 문장 표현 벡터를 추출하여 표현과 구조의 유사성을 분석하는 표현상 유사 질문 분석 단계; 및
상기 분석된 의미적 유사도, 표현상 유사도에 기반하여 다양한 형태로 입력될 수 있는 입력 질의 문장에 대한 의미적, 표현적 정보를 내재한 벡터를 생성하고, FAQ 지식 속에 유사 질의 문장을 패러프레이즈 인식 기술로 찾아 답변을 제공하는 유사질문 답변 제공 단계를 포함하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.
A method executed by a processor of a computer device,
Recognition of important keywords and pattern extraction of the technology application domain based on the morphological analysis results analyzed in the preprocessing;
Classifying the question domain / detail category / talk act using the morphological analysis results analyzed in the preprocessing process and the extracted important keywords and patterns;
A semantic similar question analysis step of learning a model using the classified question domain subcategory speech act classification feature as a semantic feature of a query sentence, and extracting sentence semantic vectors to measure similarity between vectors;
A representational similarity question analysis step of learning a language model of the character and extracting a sentence expression vector based on the character to analyze the similarity between the expression and the structure; And
Based on the analyzed semantic similarity and expressional similarity, a vector containing semantic and expressive information about an input query sentence that can be input in various forms is generated, and a paraphrase recognition technology is used as a paraphrase recognition technology in FAQ knowledge. A sentence paraphrase recognition-based dialogue system answering method comprising the step of providing a similar question answer to find and provide an answer.
제1항에 있어서, 상기 기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계는, 기술 적용 도메인 전용 개체명 인식 단계, 복합어 추출 단계, 동의어/상위어 분석 단계, 질문 표현 패턴 추출 단계를 포함하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.The method of claim 1, wherein the technology application domain key word recognition and pattern extraction step includes a technology application domain specific entity name recognition step, a compound word extraction step, a synonym / parent word analysis step, and a question expression pattern extraction step. Sentence paraphrase recognition based dialogue system answering method. 제2항에 있어서, 상기 기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계에서는 전처리 과정에서 분석된 형태소 분석 결과를 기반으로 도메인에 특화된 개체명, 복합어 사전을 구축하고, 동의어 상위어 등의 시소러스나 어휘망을 구축하는 것을 The method of claim 2, wherein in the technology application domain important keyword recognition and pattern extraction step, domain-specific entity names and compound word dictionaries are constructed based on morphological analysis results analyzed during preprocessing, and To build 제1항에 있어서, 상기 질문 도메인/세부카테고리/화행의 분류 단계는 제1 학습 단계와 분류 단계를 포함하며, 상기 제1 학습 단계는 학습 데이터 태깅 및 구축 단계, 질문의도 분류 모델 학습 단계 등을 포함하고, 상기 분류 단계는 학습된 분류 모델을 사용하며, 질문 의도 분류 단계, 분석 결과 텍스트화 및 추가 학습 데이터 반자동 태깅 단계를 포함하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.. The method of claim 1, wherein the classifying step of the question domain / detail category / conversation includes a first learning step and a classifying step, wherein the first learning step includes learning data tagging and construction step, a questioning intention classification model learning step, and the like. And wherein the classification step uses a learned classification model, and comprises a question intent classification step, analytical result textualization, and semi-automatic tagging of additional learning data. 제1항에 있어서, 상기 질문 도메인/세부카테고리/화행의 분류 단계에서는, 전처리 과정에서 분석된 형태소 분석 결과와 상기 추출한 중요 키워드 및 패턴을 이용하여 학습데이터를 만들고 분류 모델을 학습하여 새로운 질의 문장에 대해 해당 분류자질들을 추출하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.The method of claim 1, wherein in the classification of the question domain / detailed category / conversation act, learning data is generated using a morphological analysis result analyzed in the preprocessing process and the extracted important keywords and patterns, and a classification model is trained to generate a new query sentence. Sentence paraphrase recognition based dialogue system answering method characterized in that for extracting the classifiers. 제1항에 있어서, 상기 의미적 유사 질문 분석 단계는 제2 학습 단계와 제1 유사도 분석 단계를 포함하며, 상기 제2 학습 단계는 문장 형태소 태깅, 의미 자질 (도메인, 화행) 분류 단계, 의미자질 기반 문장 임베딩 모델 학습 단계를 포함하며, 상기 유사도 분석 단계는 학습된 임베딩 모델(인코더)을 사용하며, 질문 의도 임베딩 수행 단계, 임베딩 벡터 기반 의미적 유사도 측정 단계를 포함하는 것을 특징으로 하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.The method of claim 1, wherein the semantic similarity question analysis step includes a second learning step and a first similarity analysis step, wherein the second learning step includes sentence morphological tagging, meaning feature (domain, speech act) classification step, and semantic feature. And a step of learning a sentence based embedding model, wherein the similarity analysis step uses a learned embedding model (encoder), and includes a question intention embedding step and an embedding vector based semantic similarity measurement step. Sentence paraphrase recognition based dialogue system answer method. 제1항에 있어서, 상기 의미적 유사 질문 분석 단계에서는 상기 분류한 질문 도메인 세부카테고리 화행 분류 자질을 질의 문장의 의미적 자질로 사용하여 모델을 학습하고 문장 의미 벡터를 추출하여 벡터간 유사성을 측정하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.The method of claim 1, wherein the semantic similar question analysis step uses the classified question domain subcategory speech act classification feature as a semantic feature of a query sentence to learn a model, extract a sentence semantic vector, and measure similarity between vectors. Sentence paraphrase recognition based dialogue system answer method, characterized in that the. 제1항에 있어서, 상기 표현상 유사 질문 분석 단계 역시 제3 학습단계와 제2 유사도 분석 단계를 포함하며, 상기 제3 학습 단계는 글자 단위로 토큰화 하는 단계와 글자 표현 기반 임베딩 모델 학습 단계를 포함하고, 상기 제2 유사도 분석 단계는 학습된 글자 수준 임베딩 모델을 사용하며, 글자 수준의 임베딩 수행 단계와 임베딩 벡터 기반 표현적 유사도 측정 단계를 포함하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.The method of claim 1, wherein the expression similarity question analysis step also includes a third learning step and a second similarity analysis step, wherein the third learning step includes a tokenization step by letter unit and a character expression-based embedding model learning step. And the second similarity analysis step uses a learned character level embedding model, and includes a character level embedding performing step and an expression vector based expressive similarity measuring step. . 제1항에 있어서, 상기 표현상 유사 질문 분석 단계에서는 글자의 언어 모델을 학습하고 글자에 기반한 문장 표현 벡터를 추출하여 표현과 구조의 유사성을 분석하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.The sentence paraphrase recognition-based dialogue system answering method according to claim 1, wherein in the expression-like question analysis step, a language model of a letter is learned and a sentence expression vector based on the letter is extracted to analyze the similarity between the expression and the structure. . 제1항에 있어서, 상기 유사질문 답변 제공 단계는 의미적 유사도 질문 분석 단계와 표현상 유사질문 분석 단계를 포함할 수 있으며, 이를 통해 분석된 유사도 결과를 이용하여 입력된 질문과 유사한 FAQ 질문을 탐색하고, 답변을 제공할지 말지를 결정하는 단계를 포함하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.The method of claim 1, wherein the providing of the similar question answer may include a semantic similarity question analyzing step and an expression similarity question analyzing step, and searching for an FAQ question similar to the input question using the analyzed similarity result. And a sentence paraphrase recognition based dialogue system answering method comprising the step of determining whether or not to provide an answer. 제1항에 있어서, 상기 유사질문 답변 제공 단계에서는 상기 분석된 의미적 유사도, 표현상 유사도에 기반하여 정제된 FAQ 질의 문장의 패러프레이즈 문장임을 인식하고 유사도 점수에 따라 해당 FAQ 질의 문장의 답변을 제공하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.The method of claim 1, wherein the providing of the similar question answer recognizes that it is a paraphrase sentence of a refined FAQ query sentence based on the analyzed semantic similarity and expression similarity, and provides an answer of the corresponding FAQ query sentence according to a similarity score. Sentence paraphrase recognition based dialogue system answer method, characterized in that the.
KR1020180058935A 2018-05-24 2018-05-24 Method to response based on sentence paraphrase recognition for a dialog system KR20190133931A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180058935A KR20190133931A (en) 2018-05-24 2018-05-24 Method to response based on sentence paraphrase recognition for a dialog system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180058935A KR20190133931A (en) 2018-05-24 2018-05-24 Method to response based on sentence paraphrase recognition for a dialog system

Publications (1)

Publication Number Publication Date
KR20190133931A true KR20190133931A (en) 2019-12-04

Family

ID=69004538

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180058935A KR20190133931A (en) 2018-05-24 2018-05-24 Method to response based on sentence paraphrase recognition for a dialog system

Country Status (1)

Country Link
KR (1) KR20190133931A (en)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200061877A (en) * 2018-11-26 2020-06-03 주식회사 솔트룩스 System and method for generating paraphrase sentence based on ontology
CN111611371A (en) * 2020-06-17 2020-09-01 厦门快商通科技股份有限公司 Method, device, equipment and storage medium for matching FAQ based on wide and deep network
CN112347760A (en) * 2020-11-16 2021-02-09 北京京东尚科信息技术有限公司 Method and device for training intention recognition model and method and device for recognizing intention
CN112417170A (en) * 2020-11-23 2021-02-26 南京大学 Relation linking method for incomplete knowledge graph
CN112988992A (en) * 2021-02-08 2021-06-18 北京嘀嘀无限科技发展有限公司 Information interaction method and device and electronic equipment
KR102280490B1 (en) * 2021-01-27 2021-07-22 주식회사 두유비 Training data construction method for automatically generating training data for artificial intelligence model for counseling intention classification
US20210319343A1 (en) * 2018-10-31 2021-10-14 Seoul National University R&Db Foundation Method and system for information theory-based questioning for goal-oriented dialog system
KR20220003930A (en) * 2020-07-02 2022-01-11 주식회사 엔씨소프트 Learning method and cognition method for omission restoration and apparatus for executing the method
KR20220065522A (en) * 2020-11-13 2022-05-20 한국전자통신연구원 Hostile paraphrase sentence automatic generation system
KR20220114157A (en) 2021-02-08 2022-08-17 숭실대학교산학협력단 Commonsense question answer reasoning method and apparatus
KR20220147406A (en) * 2021-04-27 2022-11-03 한국로봇융합연구원 Apparatus and method for tagging new answers in a system for interviewing surgical patients
KR20230033424A (en) * 2021-09-01 2023-03-08 주식회사 한글과컴퓨터 Electronic apparatus which generates a training set for performing reinforcement learning of the deep learning model for distinguishing user intention, and the operating method thereof
KR20230050673A (en) * 2021-10-08 2023-04-17 주식회사 리니토 Twofold semi-automatic symbolic propagation method of training data for natural language understanding model, and device therefor
WO2023219298A1 (en) * 2022-05-09 2023-11-16 삼성전자주식회사 Electronic device and control method therefor
KR102615206B1 (en) * 2022-11-28 2023-12-19 조선형 A system for providing job competency information based on learning activity records including job seeker job competency acquisition statement for each job in the luxury watch and jewelry industry

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210319343A1 (en) * 2018-10-31 2021-10-14 Seoul National University R&Db Foundation Method and system for information theory-based questioning for goal-oriented dialog system
KR20200061877A (en) * 2018-11-26 2020-06-03 주식회사 솔트룩스 System and method for generating paraphrase sentence based on ontology
CN111611371B (en) * 2020-06-17 2022-08-23 厦门快商通科技股份有限公司 Method, device, equipment and storage medium for matching FAQ based on wide and deep network
CN111611371A (en) * 2020-06-17 2020-09-01 厦门快商通科技股份有限公司 Method, device, equipment and storage medium for matching FAQ based on wide and deep network
KR20220003930A (en) * 2020-07-02 2022-01-11 주식회사 엔씨소프트 Learning method and cognition method for omission restoration and apparatus for executing the method
KR20220065522A (en) * 2020-11-13 2022-05-20 한국전자통신연구원 Hostile paraphrase sentence automatic generation system
CN112347760A (en) * 2020-11-16 2021-02-09 北京京东尚科信息技术有限公司 Method and device for training intention recognition model and method and device for recognizing intention
CN112417170A (en) * 2020-11-23 2021-02-26 南京大学 Relation linking method for incomplete knowledge graph
CN112417170B (en) * 2020-11-23 2023-11-14 南京大学 Relationship linking method for incomplete knowledge graph
KR102280490B1 (en) * 2021-01-27 2021-07-22 주식회사 두유비 Training data construction method for automatically generating training data for artificial intelligence model for counseling intention classification
CN112988992B (en) * 2021-02-08 2022-04-08 北京嘀嘀无限科技发展有限公司 Information interaction method and device and electronic equipment
KR20220114157A (en) 2021-02-08 2022-08-17 숭실대학교산학협력단 Commonsense question answer reasoning method and apparatus
CN112988992A (en) * 2021-02-08 2021-06-18 北京嘀嘀无限科技发展有限公司 Information interaction method and device and electronic equipment
KR20220147406A (en) * 2021-04-27 2022-11-03 한국로봇융합연구원 Apparatus and method for tagging new answers in a system for interviewing surgical patients
KR20230033424A (en) * 2021-09-01 2023-03-08 주식회사 한글과컴퓨터 Electronic apparatus which generates a training set for performing reinforcement learning of the deep learning model for distinguishing user intention, and the operating method thereof
KR20230050673A (en) * 2021-10-08 2023-04-17 주식회사 리니토 Twofold semi-automatic symbolic propagation method of training data for natural language understanding model, and device therefor
WO2023219298A1 (en) * 2022-05-09 2023-11-16 삼성전자주식회사 Electronic device and control method therefor
KR102615206B1 (en) * 2022-11-28 2023-12-19 조선형 A system for providing job competency information based on learning activity records including job seeker job competency acquisition statement for each job in the luxury watch and jewelry industry

Similar Documents

Publication Publication Date Title
KR20190133931A (en) Method to response based on sentence paraphrase recognition for a dialog system
CN108287822B (en) Chinese similarity problem generation system and method
CN107798140B (en) Dialog system construction method, semantic controlled response method and device
Morante et al. Memory-based resolution of in-sentence scopes of hedge cues
US20230069935A1 (en) Dialog system answering method based on sentence paraphrase recognition
Bam Named Entity Recognition for Nepali text using Support Vector Machine
CN113343706B (en) Text depression tendency detection system based on multi-modal characteristics and semantic rules
KR20200105057A (en) Apparatus and method for extracting inquiry features for alalysis of inquery sentence
CN111339772B (en) Russian text emotion analysis method, electronic device and storage medium
CN113361252B (en) Text depression tendency detection system based on multi-modal features and emotion dictionary
CN111159405B (en) Irony detection method based on background knowledge
Sangeetha et al. Exploration of sentiment analysis techniques on a multilingual dataset dealing with Tamil-English reviews
CN115906818A (en) Grammar knowledge prediction method, grammar knowledge prediction device, electronic equipment and storage medium
Keezhatta Understanding EFL Linguistic Models through Relationship between Natural Language Processing and Artificial Intelligence Applications.
CN114186020A (en) Semantic association method
Lee Natural Language Processing: A Textbook with Python Implementation
JP2005025659A (en) Zero pronoun resolving method, device and program, and recording medium to which the program is recorded
Curini et al. Sentiment Analysis and Social Media
Nishy Reshmi et al. Textual entailment classification using syntactic structures and semantic relations
Hodeghatta et al. Introduction to natural language processing
Sodhar et al. Chapter-1 Natural Language Processing: Applications, Techniques and Challenges
CN113012685A (en) Audio recognition method and device, electronic equipment and storage medium
Savinkov et al. Neural Network Recognition of Russian Noun and Adjective Cases in the Google Books Ngram Corpus
Sampath et al. Hybrid Tamil spell checker with combined character splitting
Huda et al. Arabic part of speech (pos) tagging analysis using bee colony optimization (BCO) algorithm on Quran corpus

Legal Events

Date Code Title Description
A201 Request for examination