WO2022114325A1 - 자연어 대화에서 질문의 유사성을 분석하기 위한 질의 자질 추출 장치 및 방법 - Google Patents

자연어 대화에서 질문의 유사성을 분석하기 위한 질의 자질 추출 장치 및 방법 Download PDF

Info

Publication number
WO2022114325A1
WO2022114325A1 PCT/KR2020/017277 KR2020017277W WO2022114325A1 WO 2022114325 A1 WO2022114325 A1 WO 2022114325A1 KR 2020017277 W KR2020017277 W KR 2020017277W WO 2022114325 A1 WO2022114325 A1 WO 2022114325A1
Authority
WO
WIPO (PCT)
Prior art keywords
sentence
morpheme
feature vector
query
extracting
Prior art date
Application number
PCT/KR2020/017277
Other languages
English (en)
French (fr)
Inventor
최호진
오교중
박수환
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to PCT/KR2020/017277 priority Critical patent/WO2022114325A1/ko
Publication of WO2022114325A1 publication Critical patent/WO2022114325A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to an apparatus and method for extracting query qualities from a natural language conversation, and more particularly, to a query sentence similarity analysis, which is one of artificial intelligence natural language understanding technologies for developing a chatbot for customer consultation service or an assistant for field experts.
  • the present invention relates to a query feature extraction apparatus and method for automatically extracting query features from natural language conversations.
  • the customer consultation automation system searches for question-and-answer knowledge (question) with similar meaning and intent of the input sentence (query) and provides related answers to the customer.
  • a user's input in a messenger or an interactive platform is input in a wide variety of natural language expressions.
  • it is essential to understand the input questions using advanced natural language processing and understanding technology.
  • an answer to an inputted question is provided through a step of recognizing important keywords in a question sentence and extracting a pattern, a step of classifying a detailed category dialogue act, a step of analyzing a similar question, and a step of providing an answer to a similar question.
  • the existing customer consultation automation system analyzes the structural/semantic similarity between the input sentence and the question sentence for which the answer knowledge is built, and provides an answer to the question most similar to the input question.
  • the classification quality was determined according to the development system, and a classification model was built to analyze the similarity of the input sentences.
  • this method has limitations in that the system to be built is different, or a separate classification system is defined according to the applied domain and a classification model must be built separately.
  • the sentence embedding method that learned additional classification qualities such as domain, category, and dialogue act was applied to the learning sentence, and the additional qualities of the existing research require a sophisticated classification system definition, annotation tagging and verification work, and when applying the technology, Requires refined learning data that is manually tagged with domain and dialogue act classification features,
  • the present invention has been proposed in view of the above circumstances, and is a method for automatically extracting a quality that can analyze similarity in searching for similar question-answer knowledge (question), without the need to organize a classification system according to data and system
  • An object of the present invention is to provide an apparatus and method for extracting query features that are universally applied to smoothly perform initial development prior to performance improvement or model fitting.
  • the present invention relates to natural language paraphrase recognition among natural language understanding technologies, and in implementing a method of providing answers by searching for similar questions even in various variations of input query sentences, a model implementation process for analyzing semantic/structural similarity between sentences
  • An object of the present invention is to provide an apparatus and method for extracting query features to improve
  • an apparatus for extracting query qualities includes an input unit for receiving a query sentence composed of natural language sentences, a preprocessing unit for preprocessing the query sentences, and the Korean syllable appearance pattern characteristics of the query sentence and the comparison target sentence.
  • Vector, semantic morpheme pattern Feature vector and morpheme appearance A feature vector extractor that extracts feature vectors and Hangul syllable appearance pattern feature vector, semantic morpheme pattern Feature vector and morpheme appearance Similarity between the query sentence and the target sentence based on the feature vector It includes a similarity analysis unit to analyze the.
  • the feature vector extraction unit extracts the feature vector of the Korean syllable appearance pattern of the query sentence by comparing the query sentence decomposed into syllable units with the syllable unit language model and learning model, and extracts the comparison target sentence decomposed into syllable units into a syllable unit language model and Compared with the learning model, the feature vector of the appearance pattern of the Korean syllables of the sentence to be compared is extracted, and the feature vector extraction unit can learn the syllable unit language model by decomposing the Hangul sentences detected from the Hangul corpus into syllable units.
  • the feature vector extraction unit extracts the semantic morpheme pattern feature vector of the query sentence by comparing the query sentence decomposed into semantic morpheme units based on the morpheme analysis result of the preprocessor with the semantic morpheme language model and the learning model, and based on the morpheme analysis result of the preprocessor
  • the comparison target sentence decomposed into semantic morpheme units with By decomposing into semantic morpheme units, it can be learned as a semantic morpheme language model.
  • the feature vector extraction unit compares the query sentence decomposed into morpheme units with the morpheme word matrix and sentence classification model to extract a feature vector of whether a morpheme appears in the query sentence, and converts the comparison target sentence decomposed into morpheme units into a morpheme word matrix and sentence classification model.
  • a sentence classification model can be created by extracting a feature vector of whether or not a morpheme appears in a sentence to be compared by comparing with , and tagging the learning data for a dialog act classification feature.
  • the similarity analysis unit defines a sentence vector by combining the Korean syllable appearance pattern feature vector, the semantic morpheme pattern feature vector and the morpheme appearance feature vector, compares the sentence vector of the query sentence and the sentence to be compared to quantify the similarity score, and calculates the similarity score. If the score is less than or equal to the set score, another comparison target sentence can be set.
  • the apparatus for extracting query qualities may further include an answer processing unit that provides an answer to the query sentence when the similarity score quantified by the similarity analysis unit exceeds a set score.
  • the query feature extraction method includes the steps of receiving a query sentence composed of natural language sentences, pre-processing the query sentence, and Korean syllable appearance pattern feature vector of the query sentence and the comparison target sentence. Step of extracting , the step of extracting the semantic morpheme pattern feature vector of the query sentence and the comparison target sentence, the step of extracting the feature vector whether the morpheme appears in the query sentence and the comparison target sentence, and the Hangul syllable appearance pattern feature vector, the semantic morpheme pattern feature and analyzing the similarity between the query sentence and the comparison target sentence based on the vector and morpheme appearance feature vector.
  • the step of extracting the semantic morpheme pattern feature vector includes comparing the query sentence decomposed into semantic morpheme units based on the morpheme analysis result of the preprocessor with the semantic morpheme language model and the learning model to extract the semantic morpheme pattern feature vector of the query sentence; Based on the morpheme analysis result of the preprocessor, the comparison target sentence decomposed into semantic morpheme units is compared with the semantic morpheme language model and learning model to extract the semantic morpheme pattern feature vector of the comparison target sentence and the morpheme analysis result of the preprocessing step It may include the step of decomposing the Hangul sentence detected from the Hangul corpus into semantic morpheme units based on the basis and learning the semantic morpheme language model.
  • the step of extracting the morpheme appearance feature vector is the step of comparing the query sentence decomposed into morpheme units with the morpheme word matrix and sentence classification model to extract the morpheme appearance feature vector of the query sentence, the comparison target sentence decomposed into morpheme units Comparing with the morpheme word matrix and the sentence classification model, extracting a feature vector of whether a morpheme appears in the sentence to be compared may include the steps of generating a sentence classification model by tagging the speech act classification feature of the learning data.
  • the step of analyzing the similarity includes defining a sentence vector by combining the Hangul syllable appearance pattern feature vector, semantic morpheme pattern feature vector, and morpheme appearance feature vector, and comparing the sentence vectors of the query sentence and the sentence to be compared to quantify the similarity score. If the step and similarity score are equal to or less than the set score, the method may include setting another comparison target sentence.
  • the query feature extraction method may further include providing an answer to the query sentence when the similarity score quantified in the step of analyzing the similarity exceeds a set score.
  • an apparatus and method for extracting question qualities improve the response rate of consultation tasks in automatic consultation systems such as a question and answer (Q&A) system, a dialog system, and a chatter bot (chatbot or chatbot), and It has the effect of improving the efficiency.
  • Q&A question and answer
  • dialog system a dialog system
  • chatter bot chatbot or chatbot
  • 1 is a diagram for explaining a Hangul natural language sentence classification model.
  • FIG. 2 is a view for explaining a feature extraction apparatus according to an embodiment of the present invention.
  • 3 to 6 are diagrams for explaining the feature vector extractor of FIG. 2 .
  • FIG. 7 is a view for explaining the similarity analyzer of FIG. 2 ;
  • FIG. 8 is a diagram for explaining a concept of measuring a similarity between input sentences according to various embodiments of the present disclosure
  • FIG. 9 is a flowchart for explaining a feature extraction method according to an embodiment of the present invention.
  • a sentence encoder model is configured, and qualities such as a domain for a learning sentence, a detailed category, and a dialogue act classification are learned together with the sentence.
  • This model is configured so that classification tagging information can be reflected together when learning the encoder model through the MLP stage.
  • a sentence vector of a new input query sentence can be generated, and domains and dialogue act features can be classified based on this vector.
  • the process of extracting query features for similarity analysis between questions utilizes deep learning technology, and syllable and morpheme information of a natural language sentence is It learns an embedding (encoding) model that converts information in the form of a real vector and goes through the process of applying it.
  • Appearance of semantically similar morphemes by means of vectors and language models that reflect appearance pattern information of Korean syllables, rather than a classification system specialized for application domains and application systems, according to the query feature extraction apparatus 100 and method according to an embodiment of the present invention It differs from the prior art in that a vector reflecting pattern information and a vector reflecting information on morpheme appearance in a sentence regardless of word order are used as a feature to analyze the similarity of natural language sentences.
  • the query feature extraction apparatus 100 and method according to an embodiment of the present invention is a technique for analyzing the similarity of a sentence using an automatic extraction feature
  • the automatic extraction feature is a sentence embedding model implemented using a deep learning technology. It means the analyzed feature vectors and can be used universally for Korean sentences regardless of application domain or application system.
  • styllable appearance pattern information e.g., morpheme appearance pattern information reflecting semantic information
  • morpheme appearance information e.g., morpheme appearance information regardless of word order
  • feature information in the form of a real vector is created independently of the application domain and the application system.
  • the sentence vector analyzed in the classification model and the similarity prediction model is used as a feature for the sentence similarity analysis.
  • the query feature extraction device 100 includes an input unit 110 , a preprocessor 130 , a feature vector extractor 150 , a similarity analysis unit 170 , and an answer processing unit 190 . .
  • the input unit 110 receives a query sentence from a user (customer).
  • the input unit 110 receives a query sentence composed of natural language sentences.
  • the pre-processing unit 130 pre-processes the query sentence input from the input unit 110 .
  • the preprocessor 130 preprocesses the query sentence by using natural language sentence preprocessing techniques such as typo, spacing correction, boundary recognition, and morpheme recognition for the query sentence.
  • natural language sentence preprocessing techniques such as typo, spacing correction, boundary recognition, and morpheme recognition for the query sentence.
  • the feature vector extraction unit 150 extracts a feature vector from the preprocessed query sentence using the Hangul corpus 200 .
  • the feature vector extraction unit 150 extracts a feature vector of a Hangul syllable appearance pattern, a semantic morpheme pattern feature vector, and a feature vector of whether a morpheme appears.
  • the feature vector extraction unit 150 extracts a feature vector of a Hangul syllable appearance pattern from a query sentence based on the appearance pattern information of the Hangul syllable.
  • the feature vector extractor 150 decomposes a Hangul sentence into syllable units and learns a syllable pattern as a language model.
  • the feature vector extractor 150 generates a learning model through language model learning.
  • the feature vector extraction unit 150 extracts a feature vector of a Hangul syllable appearance pattern using a learning model.
  • the feature vector extractor 150 decomposes the Hangul sentence into syllable unit sentences.
  • the feature vector extractor 150 converts the learning sentences, the query sentences, and the syllables of the similarity analysis target questions into real vectors that can be learned by deep learning.
  • 11,172 characters can be expressed, and the result of one-hot encoding is converted into an input batch and a learning batch.
  • 'a' it can be a vector of size 11,172 where the first value is 1 and the remainder is 0.
  • a deep learning model since a deep learning model is used, a configuration for decomposing into syllable unit sentences is required, but the configuration for decomposing into syllable unit sentences may be omitted depending on the applied model.
  • the feature vector extractor 150 learns the sequential list of the transformed vectors through a syllable unit language model and a learning model. At this time, since it consists of a sentence encoder and a sentence decoder, only the sentence encoder is used in the model use step later.
  • the learning model of FIG. 3 can learn only if there is a sufficient amount of Hangul sentence corpus, and morpheme analysis information is not required. In the case of learning using a domain-specific corpus, since the language model of the word used exclusively in the domain is learned, the extraction result of the Hangul syllable appearance pattern feature vector can improve performance depending on the application domain and application system.
  • An embodiment of the present invention is an embodiment implemented using a deep learning model, and other methods and algorithms for converting a natural language sentence into a real vector form may be used.
  • the feature vector extractor 150 extracts a semantic morpheme pattern feature vector from a query sentence based on semantic morpheme pattern information.
  • the feature vector extractor 150 implements a learning model similar to that of FIG. 3 to learn, and the input form is changed from syllable information to a semantic (substantial) morpheme.
  • the feature vector extraction unit 150 collects morpheme analysis results from the preprocessor 130 .
  • the feature vector extraction unit 150 additionally uses specific entity name information including compound nouns such as product names and company names in the domain vocabulary dictionary for input morpheme combinations.
  • the feature vector extraction unit 150 uses, as an input, only semantic (substantial) morphemes that affect semantically, excluding the proposition, the ending, the auxiliary verb, and the like. Accordingly, the feature vector extractor 150 learns the language model of the meaning (morpheme) in the sentence. Through this, morpheme pattern information with a high probability of appearing together in a sentence is extracted from the sentence encoder as a semantic morpheme pattern feature vector.
  • the feature vector extraction unit 150 extracts a feature vector of whether a morpheme appears from the query sentence by reflecting whether the morpheme appears in the sentence. That is, the feature vector extraction unit 150 extracts a feature vector that reflects whether a morpheme appears in a sentence regardless of the word order.
  • the feature vector extracting unit 150 learns a model for extracting a feature vector conveying information on whether or not a morpheme appears, and then extracts a sentence vector extracted from the model as a feature vector.
  • the morpheme word matrix extracted from the sentence and the dialogue act classification feature tagging result of the training data sentence are required.
  • the vector matrix input to the morpheme word matrix is obtained through the word embedding method as a preprocessing process.
  • Word embedding is an unsupervised learning technique that can be obtained using only a sentence corpus, a word embedding vector is generated for each morpheme, and the morpheme vector is called and used when creating a word matrix.
  • CNN-based sentence classification model cannot perform unsupervised learning, it builds some training data and applies the semi-supervised learning method to learn the model by using it as seed learning data. Then, the learning data is expanded by automatically tagging and refining untagged sentences.
  • the characteristics tagged for the general conversation (8: definition, explanation, situation, reason, method, check/inquiry, possible, request) dialogue act are used. Better results can be obtained if the dialogue act classification system is arranged according to the application domain and application system. In an embodiment of the present invention, domain-specific (7 items: new/registration, withdrawal/repayment, progress/change, subscription/recommendation, cancellation/cancellation, period, error) are additionally tagged and used.
  • the similarity analyzer 170 calculates the similarity between sentences based on the feature vector extracted by the feature vector extractor 150 .
  • the Hangul syllable appearance pattern feature vector, semantic morpheme pattern feature vector, and morpheme appearance feature vector extracted by the feature vector extraction unit 150 are sequential expression information, semantic information, and similar expression usage information, respectively. indicates.
  • the similarity analysis unit 170 combines three types of feature vectors to define a sentence vector for similarity analysis.
  • the similarity analysis unit 170 quantifies the similarity score by measuring the similarity between the query sentence and the target sentence for which the similarity is to be compared.
  • the similarity analysis unit 170 quantifies the similarity score based on the extracted feature vector and the question-answer knowledge base 300 .
  • 7 shows an example in which the similarity analysis unit 170 quantifies the similarity score through analysis between the query sentence and the similar sentence. For example, the similarity analysis unit 170 inputs the query sentence “How do I increase the one-time limit per day limit” and the similar sentence “How do I increase the loan limit?” stored in the question-and-answer knowledge base 300 .
  • the similarity between the two can be quantified as 0.873.
  • the similarity analyzer 170 analyzes the similarity between the extracted feature vector and the feature vector of the question stored in the question-and-answer knowledge base 300 , and sets a similarity score of the feature vector extracted by the feature vector extractor 150 . If the set similarity score is equal to or less than the set score, the similarity analysis unit 170 analyzes other questions stored in the question-answer knowledge base 300 .
  • the answer processing unit 190 provides an answer to the corresponding question through a ranking algorithm or sorting according to the similarity score.
  • the natural language preprocessing process and answer provision step such as sentence boundary detection and part of speech tagging in the above query feature extraction device 100 may affect the performance of the application domain and the application system according to the embodiment. And this part can be implemented in various variant embodiments with an engineering approach.
  • the query feature extracting apparatus 100 may measure the similarity between input sentences in natural language.
  • 8 is a diagram for explaining the concept of measuring the similarity between input sentences according to various embodiments of the present invention. Specifically, it is an example for finding a sentence pair with high similarity in a news article.
  • the extraction apparatus 100 extracts a feature vector using a sentence embedding model to which deep learning technology is applied.
  • the RNN-based sentence embedding model 810 is used for syllable patterns and semantic morpheme patterns
  • the CNN-based sentence embedding model 820 is used to determine whether similar morphemes appear, and feature vectors are extracted. can do.
  • the RNN-based sentence embedding model 810 learns syllable order information by performing one-hot encoding for each syllable or using a character vector generated through language model learning as an input to the RNN model. It may be an encoder model.
  • the CNN-based sentence embedding model 820 uses a sentence matrix in which word vectors of words or semantic morphemes in a sentence are stacked in multiple layers as an input, and features between adjacent words (language) while maintaining spatial information of words without a flattening process.
  • model may be a learning model.
  • the CNN-based sentence embedding model 820 When the CNN-based sentence embedding model 820 is used, a sentence vector in which information regarding the appearance of an expression regardless of word order is reflected may be generated.
  • the sentence vector generated by the CNN model is used as an additional feature, even if the word order of the sentence is changed, if the same expression is used, a higher similarity value can be obtained compared to the RNN model.
  • the sentence embedding model which is an RNN-based Seq2Seq model
  • the query feature extraction apparatus 100 a feature vector capable of analyzing the similarity by reflecting only the appearance pattern of morphemes is extracted, so even if the word order is simply changed There is a problem that the similarity score is low.
  • the query feature extraction apparatus 100 may further include a model for extracting a sentence feature vector using a CNN model.
  • a model for extracting a sentence feature vector using a CNN model may be used.
  • semantic morpheme vector pattern information was used and domain-specific dialogue act classification features were used as learning features.
  • the model can be improved to extract sentence feature vectors for similarity analysis.
  • the query feature extraction method includes a query sentence input step (S100), a preprocessing step (S200), a feature vector extraction step (S300), a similarity analysis step (S400), and an answer providing step (S500).
  • a query sentence is input from a user (customer).
  • a query sentence composed of natural language sentences is received.
  • the query sentence is pre-processed.
  • the query sentence is preprocessed by using natural language sentence preprocessing techniques such as typo, spacing correction, boundary recognition, and morpheme recognition for the query sentence.
  • the Hangul syllable appearance pattern feature vector is extracted from the query sentence preprocessed in step S200 using the Hangul corpus 200 .
  • a Hangul syllable appearance pattern feature vector is extracted from the query sentence based on the appearance pattern information of the Hangul syllables.
  • the Hangul sentence is decomposed into syllable units to learn the syllable pattern as a language model.
  • a learning model is created through language model learning.
  • the Hangul syllable appearance pattern feature vector extraction step (S300) the Hangul syllable appearance pattern feature vector is extracted using a learning model.
  • a Hangul sentence is decomposed into a syllable unit sentence.
  • the syllables of the learning sentence, the query sentence, and the question to be analyzed for similarity are converted into a vector in the form of a real number that deep learning can learn.
  • 11,172 characters can be expressed, and the result of one-hot encoding is converted into an input batch and a learning batch.
  • it can be a vector of size 11,172 where the first value is 1 and the remainder is 0.
  • a deep learning model since a deep learning model is used, a configuration for decomposing into syllable unit sentences is required, but the configuration for decomposing into syllable unit sentences may be omitted depending on the applied model.
  • the sequential list of the transformed vectors is learned through the syllable unit language model and the learning model.
  • the learning model can learn only a sufficient amount of Hangul sentence corpus, and morpheme analysis information is not required.
  • the extraction result of the Hangul syllable appearance pattern feature vector can improve performance depending on the application domain and application system.
  • An embodiment of the present invention is an embodiment implemented using a deep learning model, and other methods and algorithms for converting a natural language sentence into a real vector form may be used.
  • a semantic morpheme pattern feature vector is extracted from the query sentence preprocessed in step S200 using the Hangul corpus 200 .
  • a semantic morpheme pattern feature vector is extracted from the query sentence based on the semantic morpheme pattern information.
  • the feature vector extraction unit 150 implements a learning model similar to that of step S300 to learn, and the input form is changed from syllable information to a semantic (substantial) morpheme.
  • the morpheme analysis result is collected from the preprocessor 130 .
  • specific entity name information including compound nouns, such as product name and company name, from the domain vocabulary dictionary is additionally used for input morpheme combination.
  • semantic morpheme pattern feature vector extraction step ( S400 ) only semantic (substantial) morphemes that affect semantically, excluding the proposition, the ending, and the auxiliary verb, are used as input.
  • semantic morpheme pattern feature vector extraction step ( S400 ) a language model of the meaning (morpheme) in the sentence is learned. Through this, morpheme pattern information with a high probability of appearing together in a sentence is extracted from the sentence encoder as a semantic morpheme pattern feature vector.
  • a feature vector of whether a morpheme appears from the query sentence is extracted by reflecting whether the morpheme appears in the sentence. That is, in the semantic morpheme pattern feature vector extraction step ( S400 ), a feature vector reflecting whether a morpheme appears in a sentence is extracted regardless of the word order.
  • the morpheme appearance or not feature vector extraction step ( S500 ) the morpheme appearance or not feature vector is extracted from the query sentence preprocessed in step S200 using the Hangul corpus 200 .
  • the morpheme appearance feature vector is extracted from the query sentence by reflecting whether the morpheme appears in the sentence. That is, in the feature vector extraction step S500 of whether a morpheme appears or not, a feature vector that reflects whether a morpheme appears in a sentence is extracted regardless of the word order.
  • a sentence vector extracted from the model is extracted as a feature vector.
  • the morpheme word matrix extracted from the sentence and the dialogue act classification feature tagging result of the training data sentence are required.
  • the vector matrix input to the morpheme word matrix is obtained through the word embedding method as a preprocessing process.
  • Word embedding is an unsupervised learning technique that can be obtained using only a sentence corpus, a word embedding vector is generated for each morpheme, and the morpheme vector is called and used when creating a word matrix.
  • CNN-based sentence classification model cannot perform unsupervised learning, it builds some training data and applies the semi-supervised learning method to learn the model by using it as seed learning data. Then, the learning data is expanded by automatically tagging and refining untagged sentences.
  • the characteristics tagged for the general conversation (8: definition, explanation, situation, reason, method, check/inquiry, possible, request) dialogue act are used. Better results can be obtained if the dialogue act classification system is arranged according to the application domain and application system. In an embodiment of the present invention, domain-specific (7 items: new/registration, withdrawal/repayment, progress/change, subscription/recommendation, cancellation/cancellation, period, error) are additionally tagged and used.
  • the similarity analysis step (S400) the similarity between the query sentence and the similarity analysis target question is analyzed based on the feature vectors extracted through steps S300 to S500.
  • the Hangul syllable appearance pattern feature vector, semantic morpheme pattern feature vector, and morpheme appearance feature vector extracted through steps S300 to S500 represent sequential expression information, semantic information, and similar expression usage information, respectively.
  • the similarity analysis step (S400) three types of feature vectors are combined and defined as a sentence vector for similarity analysis.
  • the similarity score is quantified by measuring the similarity between the query sentence and the target sentence for which the similarity is to be compared.
  • the answer providing step (S500) the answer to the question is provided through sorting or a ranking algorithm according to the similarity score. Meanwhile, in the similarity analysis step ( S400 ), if the similarity score is equal to or less than the set score, analysis with another question is entered.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

유사한 질문-답변 지식(질문)을 탐색하는데 있어서 유사성을 분석할 수 있는 자질을 자동으로 추출하는 방법으로 데이터와 시스템에 맞춰 분류체계를 정리할 필요 없이 범용적으로 적용하여 성능 개선이나 모델 피팅 작업에 선행하여 초기 개발을 원활히 수행하도록 한 질의 자질 추출 장치 및 방법을 제시한다. 제시된 자질 추출 장치는 전처리된 질의 문장 및 비교 대상 문장의 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터 및 형태소 등장 여부 자질 벡터를 추출하고, 추출한 자질 벡터를 근거로 질의 문장과 비교 대상 문장의 유사성을 분석한다.

Description

자연어 대화에서 질문의 유사성을 분석하기 위한 질의 자질 추출 장치 및 방법
본 발명은 자연어 대화에서 질의 자질을 추출하기 위한 장치 및 방법에 관한 것으로, 더욱 상세하게는 고객 상담 서비스를 위한 챗봇이나 현장 전문가용 어시스턴트 개발을 위한 인공지능 자연어 이해 기술 중 하나인 질의 문장 유사도 분석을 위해 자연어 대화로부터 질의 자질을 자동 추출하는 질의 자질 추출 장치 및 방법에 관한 것이다.
최근 기업에서는 고객상담의 자동화를 위해 챗봇, 대화형 시스템 등과 같은 고객상담 자동화 시스템을 도입하고 있다.
고객상담 자동화 시스템은 입력된 문장(질의)의 의미와 의도가 유사한 질문-답변 지식(질문)을 탐색하여 관련된 답변을 고객에게 제공한다.
메신저 또는 대화형 플랫폼에서의 사용자의 입력은 매우 다양한 자연어 표현으로 입력된다. 다양한 표현으로 입력된 질문에 대하여 답변을 제공하기 위해서는 고도화된 자연어 처리와 이해 기술을 이용하여 입력 질문을 이해하는 과정이 반드시 필요하다.
이를 위해 종래에는 질문 문장의 중요 키워드 인식 및 패턴 추출 단계, 세부 카테고리 화행 분류 단계, 유사 질문 분석 단계, 유사 질문 답변 제공 단계를 거쳐 입력된 질문에 대한 답변을 제공한다.
종래에는 응용 도메인(분야)과 개발 시스템에 맞추어 어휘 사전을 구축하고 분류 체계를 정의해야 하며, 분류 모델을 학습하는데 필요한 태깅 데이터를 도메인 전문가의 판단 아래 정해진 분류 체계에 맞게 태깅하는 과정이 필요하다.
기존 고객상담 자동화 시스템에서는 입력문장과 답변 지식이 구축된 질의 문장의 구조/의미적 유사성을 분석하여 입력된 질문과 가장 유사한 질문의 답변을 제공한다. 기존에는 개발 시스템에 맞춰 분류 자질을 정하고 분류 모델을 구축하여 입력된 문장의 유사성을 비교할 수 있는 자질을 분석하였다.
그러나 이 같은 방법은 구축하려는 시스템이 달라지거나 적용 도메인에 따라 별도의 분류 체계를 정의하고 분류 모델을 별도로 구축해야 하는 한계가 있다. 학습 문장에 대하여 도메인, 카테고리, 화행 등의 추가적인 분류 자질을 함께 학습한 문장 임베딩 방법을 적용하였으며, 기존 연구의 추가 자질은 정교한 분류 체계 정의와 주석 태깅 및 검증 작업이 필요하며, 기술을 적용함에 있어서 도메인과 화행 분류 자질을 수동으로 태깅한 정제된 학습데이터를 필요로 하다,
또한 시스템마다 학습 데이터를 구축하는데 시간과 노력을 필요로 한다. 또한 특정 도메인에 특화하여 질의 문장의 자질을 분류하고 학습 모델을 구축하다 보니 범용적인 도메인과 일반 문장에서 쉽게 적용할 수 없는 문제점도 있다.
따라서 적용 시스템이나 응용 도메인에 관계없이 범용적으로 사용할 수 있는 문장 유사성 분석 방법이 필요하며, 이를 위해서 질의 문장의 의미적 구조적 유사성 분석을 위한 언어학적 자질을 자동으로 추출하는 방법이 필요하다.
본 발명은 상기한 사정을 감안하여 제안된 것으로, 유사한 질문-답변 지식(질문)을 탐색하는데 있어서 유사성을 분석할 수 있는 자질을 자동으로 추출하는 방법으로 데이터와 시스템에 맞춰 분류체계를 정리할 필요 없이 범용적으로 적용하여 성능 개선이나 모델 피팅 작업에 선행하여 초기 개발을 원활히 수행하도록 한 질의 자질 추출 장치 및 방법을 제공하는 것을 목적으로 한다.
본 발명은 자연어 이해 기술 중에서 자연어 패러프레이즈 인식과 관련된 것으로, 입력 질의 문장의 다양한 변형에도 유사한 질문을 탐색하여 답변을 제공하는 방법을 구현함에 있어서, 문장 간 의미/구조적 유사성을 분석하는 모델의 구현 과정을 개선하기 위한 질의 자질 추출 장치 및 방법을 제공하는 것을 목적으로 한다.
상기한 목적을 달성하기 위하여 본 발명의 실시 예에 따른 질의 자질 추출 장치는 자연어 문장으로 구성된 질의 문장을 입력받는 입력부, 질의 문장을 전처리하는 전처리부, 질의 문장 및 비교 대상 문장의 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터 및 형태소 등장 여부 자질 벡터를 추출하는 자질 벡터 추출부 및 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터 및 형태소 등장 여부 자질 벡터를 근거로 질의 문장과 비교 대상 문장의 유사성을 분석하는 유사성 분석부를 포함한다.
자질 벡터 추출부는 음절 단위로 분해한 질의 문장을 음절 단위 언어모델 및 학습 모델과 비교하여 질의 문장의 한글 음절 등장 패턴 자질 벡터를 추출하고, 음절 단위로 분해한 비교 대상 문장을 각각 음절 단위 언어모델 및 학습 모델과 비교하여 비교 대상 문장의 한글 음절 등장 패턴 자질 벡터를 추출하고, 자질 벡터 추출부는 한글 말뭉치로부터 검출한 한글 문장을 음절 단위로 분해하여 음절 단위 언어모델을 학습할 수 있다.
자질 벡터 추출부는 전처리부의 형태소 분석 결과를 근거로 의미 형태소 단위로 분해한 질의 문장을 의미 형태소 언어모델 및 학습 모델과 비교하여 질의 문장의 의미 형태소 패턴 자질 벡터를 추출하고, 전처리부의 형태소 분석 결과를 근거로 의미 형태소 단위로 분해한 비교 대상 문장을 의미 형태소 언어모델 및 학습 모델과 비교하여 비교 대상 문장의 의미 형태소 패턴 자질 벡터를 추출하고, 전처리부의 형태소 분석 결과를 근거로 한글 말뭉치로부터 검출한 한글 문장을 의미 형태소 단위로 분해하여 의미 형태소 언어모델로 학습할 수 있다.
자질 벡터 추출부는 형태소 단위로 분해한 질의 문장을 형태소 워드 매트릭스 및 문장 분류 모델과 비교하여 질의 문장의 형태소 등장 여부 자질 벡터를 추출하고, 형태소 단위로 분해한 비교 대상 문장을 형태소 워드 매트릭스 및 문장 분류 모델과 비교하여 비교 대상 문장의 형태소 등장 여부 자질 벡터를 추출하고, 학습데이터를 화행 분류 자질 태깅하여 문장 분류 모델을 생성할 수 있다.
유사성 분석부는 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터 및 형태소 등장 여부 자질 벡터를 합쳐 문장 벡터를 정의하고, 질의 문장 및 비교 대상 문장의 문장 벡터를 비교하여 유사성 점수를 수치화하고, 유사성 점수가 설정 점수 이하이면 다른 비교 대상 문장을 설정할 수 있다.
본 발명의 실시 예에 따른 질의 자질 추출 장치는 유사성 분석부에서 수치화한 유사성 점수가 설정 점수를 초과하면 질의 문장에 대한 답변을 제공하는 답변 처리부를 더 포함할 수 있다.
상기한 목적을 달성하기 위하여 본 발명의 실시 예에 따른 질의 자질 추출 방법은 자연어 문장으로 구성된 질의 문장을 입력받는 단계, 질의 문장을 전처리하는 단계, 질의 문장 및 비교 대상 문장의 한글 음절 등장 패턴 자질 벡터를 추출하는 단계, 질의 문장 및 비교 대상 문장의 의미 형태소 패턴 자질 벡터를 추출하는 단계, 질의 문장 및 비교 대상 문장의 형태소 등장 여부 자질 벡터를 추출하는 단계 및 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터 및 형태소 등장 여부 자질 벡터를 근거로 질의 문장과 비교 대상 문장의 유사성을 분석하는 단계를 포함한다.
한글 음절 등장 패턴 자질 벡터를 추출하는 단계는 음절 단위로 분해한 질의 문장을 음절 단위 언어모델 및 학습 모델과 비교하여 질의 문장의 한글 음절 등장 패턴 자질 벡터를 추출하는 단계, 절 단위로 분해한 비교 대상 문장을 각각 음절 단위 언어모델 및 학습 모델과 비교하여 비교 대상 문장의 한글 음절 등장 패턴 자질 벡터를 추출하는 단계 및 한글 말뭉치로부터 검출한 한글 문장을 음절 단위로 분해하여 음절 단위 언어모델을 학습하는 단계를 포함할 수 있다.
의미 형태소 패턴 자질 벡터를 추출하는 단계는 전처리부의 형태소 분석 결과를 근거로 의미 형태소 단위로 분해한 질의 문장을 의미 형태소 언어모델 및 학습 모델과 비교하여 질의 문장의 의미 형태소 패턴 자질 벡터를 추출하는 단계, 전처리부의 형태소 분석 결과를 근거로 의미 형태소 단위로 분해한 비교 대상 문장을 의미 형태소 언어모델 및 학습 모델과 비교하여 비교 대상 문장의 의미 형태소 패턴 자질 벡터를 추출하는 단계 및 전처리하는 단계의 형태소 분석 결과를 근거로 한글 말뭉치로부터 검출한 한글 문장을 의미 형태소 단위로 분해하여 의미 형태소 언어모델로 학습하는 단계를 포함할 수 있다.
형태소 등장 여부 자질 벡터를 추출하는 단계는 형태소 단위로 분해한 질의 문장을 형태소 워드 매트릭스 및 문장 분류 모델과 비교하여 질의 문장의 형태소 등장 여부 자질 벡터를 추출하는 단계, 형태소 단위로 분해한 비교 대상 문장을 형태소 워드 매트릭스 및 문장 분류 모델과 비교하여 비교 대상 문장의 형태소 등장 여부 자질 벡터를 추출하는 단계 및 학습데이터를 화행 분류 자질 태깅하여 문장 분류 모델을 생성하는 단계를 포함할 수 있다.
유사성을 분석하는 단계는 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터 및 형태소 등장 여부 자질 벡터를 합쳐 문장 벡터를 정의하는 단계, 질의 문장 및 비교 대상 문장의 문장 벡터를 비교하여 유사성 점수를 수치화하는 단계 및 유사성 점수가 설정 점수 이하이면 다른 비교 대상 문장을 설정하는 단계를 포함할 수 있다.
본 발명의 실시 예에 따른 질의 자질 추출 방법은 유사성을 분석하는 단계에서 수치화한 유사성 점수가 설정 점수를 초과하면 질의 문장에 대한 답변을 제공하는 단계를 더 포함할 수 있다.
본 발명에 의하면, 질의 자질 추출 장치 및 방법은 질의응답(Q&A) 시스템, 대화 시스템(dialog system), 챗봇(chatter bot 또는 chatbot) 등의 자동 상담 시스템에서 상담 업무의 응답률을 개선하고, 상담원의 업무 효율을 향상시킬 수 있는 효과가 있다.
도 1은 한글 자연어 문장 분류 모델을 설명하기 위한 도면.
도 2는 본 발명의 실시 예에 따른 자질 추출 장치를 설명하기 위한 도면.
도 3 내지 도 6은 도 2의 자질 벡터 추출부를 설명하기 위한 도면.
도 7은 도 2의 유사성 분석부를 설명하기 위한 도면.
도 8은 본 발명의 다양한 실시예에 따른 입력 문장 간의 유사도를 측정하는 개념을 설명하기 위한 도면.
도 9는 본 발명의 실시 예에 따른 자질 추출 방법을 설명하기 위한 흐름도.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 가장 바람직한 실시 예를 첨부 도면을 참조하여 설명하기로 한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
도 1을 참조하면, 종래에는 문장 인코더 모델을 구성하여, 학습 문장에 대한 도메인, 세부 카테고리, 화행 분류와 같은 자질을 문장과 함께 학습한다. 이 모델은 분류 태깅 정보를 MLP stage를 통해 인코더 모델의 학습 시 함께 반영될 수 있게 구성되었다. 이 모델을 통해 새로운 입력 질의 문장의 문장 벡터를 생성할 수 있고, 이 벡터에 기반하여 도메인과 화행 자질을 분류할 수 있다.
본 발명의 실시 예에 따른 질의 자질 추출 장치(100) 및 방법은 종래와 같이 질문 간 유사성 분석을 위한 질의 자질을 추출하는 과정은 딥러닝 기술을 활용하며 자연어 문장의 음절과 형태소 정보를 정해진 길이의 실수 벡터 형태의 정보로 변환하는 임베딩(인코딩) 모델을 학습하고 이를 적용하는 과정을 거친다.
본 발명의 실시 예에 따른 질의 자질 추출 장치(100) 및 방법은 응용 도메인과 적용 시스템에 특화된 분류 체계가 아닌 한국어 음절의 등장 패턴 정보를 반영하는 벡터, 언어모델에 의해 의미적으로 유사한 형태소의 등장 패턴 정보를 반영하는 벡터, 어순에 상관없이 문장 내 형태소 등장 정보를 반영하는 벡터를 자연어 문장의 유사성을 분석할 수 있는 자질로써 활용하는 점에서 종래와 차이가 있다.
즉, 본 발명의 실시 예에 따른 질의 자질 추출 장치(100) 및 방법은 자동 추출 자질을 이용하여 문장의 유사성을 분석하는 기술로, 자동 추출 자질은 딥러닝 기술을 이용하여 구현된 문장 임베딩 모델에서 분석된 자질 벡터들을 의미하며, 응용 도메인이나 적용 시스템에 상관없이 한국어 문장에 대해 범용적으로 사용할 수 있다.
본 발명의 실시 예에 따른 질의 자질 추출 장치(100) 및 방법에서는 크게 3가지의 자질 벡터를 자동 추출하는데, 음절 등장 패턴 정보, 의미 정보를 반영한 형태소 등장 패턴 정보, 어순에 상관없이 형태소 등장 여부 정보와 같이 응용 도메인과 적용 시스템에 독립적으로 실수 벡터 형태의 자질 정보를 생성한다. 이를 이용하여 분류 모델과 유사도 예측 모델에서 분석된 문장 벡터를 문장 유사성 분석을 위한 자질로써 사용한다.
도 2를 참조하면, 질의 자질 추출 장치(100)는 입력부(110), 전처리부(130), 자질 벡터 추출부(150), 유사성 분석부(170), 답변 처리부(190)를 포함하여 구성된다.
입력부(110)는 사용자(고객)으로부터 질의 문장을 입력받는다. 입력부(110)는 자연어 문장으로 구성된 질의 문장을 입력받는다.
전처리부(130)는 입력부(110)에서 입력받은 질의 문장을 전처리한다. 전처리부(130)는 질의 문장에 대해 오타, 띄어쓰기 수정, 경계 인식, 형태소 인식 등의 자연어 문장 전처리를 기술을 이용하여 질의 문장을 전처리한다. 여기서, 질의 문장의 전처리는 공지된 다양한 기술이 적용될 수 있으므로 상세한 설명을 생략하기로 한다.
자질 벡터 추출부(150)는 한글 말뭉치(200)를 이용하여 전처리된 질의 문장으로부터 자질 벡터를 추출한다. 자질 벡터 추출부(150)는 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터, 및 형태소 등장 여부 자질 벡터를 추출한다.
자질 벡터 추출부(150)는 한글 음절의 등장 패턴 정보에 기반하여 질의 문장으로부터 한글 음절 등장 패턴 자질 벡터를 추출한다.
도 3을 참조하면, 자질 벡터 추출부(150)는 한글 문장을 음절단위로 분해하여 음절의 패턴을 언어모델로 학습한다. 자질 벡터 추출부(150)는 언어모델 학습을 통해 학습모델을 생성한다. 자질 벡터 추출부(150)는 학습모델을 이용하여 한글 음절 등장 패턴 자질 벡터를 추출한다.
이를 위해, 자질 벡터 추출부(150)는 한글 문장을 음절 단위 문장으로 분해한다. 자질 벡터 추출부(150)는 학습 문장, 질의 문장, 유사성 분석 대상 질문의 음절을 딥러닝이 학습할 수 있는 실수 형태의 벡터로 변환한다. 현대 한글 조합형의 경우 11,172자를 표현할 수 있으며, 이를 원-핫 인코딩(one-hot encoding)한 결과를 입력 배치와 학습 배치로 변환한다. 예를 들어 'ㄱ'의 경우 첫 번째 값이 1이고 나머지가 0인 크기가 11,172인 벡터가 될 수 있다. 여기서, 본 발명의 실시 예에서는 딥러닝 모델을 사용하기 때문에 음절 단위 문장으로 분해하는 구성이 필요하지만 적용 모델에 따라 음절 단위 문장으로 분해하는 구성이 생략될 수 있다.
자질 벡터 추출부(150)는 변환된 벡터의 순차 리스트를 음절 단위 언어모델 및 학습 모델을 통해 학습을 수행한다. 이때, 문장 인코더와 문장 디코더로 구성되어 있기 때문에 추후 모델 사용 단계에서는 문장 인코더만을 사용한다.
도 3의 학습 모델은 충분한 양의 한글 문장 말뭉치만 있으면 학습할 수 있으며, 형태소 분석 정보도 필요하지 않다. 도메인에 특화된 말뭉치를 사용하여 학습하는 경우, 도메인에서 전용적으로 쓰이는 단어의 언어모델이 학습되므로 한글 음절 등장 패턴 자질 벡터의 추출 결과가 응용 도메인과 적용 시스템에 따라 성능을 개선시킬 수 있다. 본 발명의 실시 예는 딥러닝 모델을 사용하여 구현된 실시 예이며, 자연어 문장을 실수 벡터 형태로 바꾸는 다른 방법과 알고리즘을 사용할 수 있다.
자질 벡터 추출부(150)는 의미 형태소 패턴 정보에 기반하여 질의 문장으로부터 의미 형태소 패턴 자질 벡터를 추출한다.
도 4를 참조하면, 자질 벡터 추출부(150)는 도 3과 유사한 학습 모델을 구현하여 학습하는데 입력 형태가 음절 정보에서 의미(실질) 형태소로 바뀐다. 이를 위해, 자질 벡터 추출부(150)는 전처리부(130)로부터 형태소 분석 결과를 수집한다. 자질 벡터 추출부(150)는 추가적으로 도메인 어휘사전에서 상품명, 회사명 등과 같이 복합명사를 포함하는 특정 개체명 정보를 입력 형태소 조합에 사용한다.
자질 벡터 추출부(150)는 조사, 어미, 조동사 등을 제외한 의미적으로 영향을 주는 의미(실질) 형태소만을 입력으로 사용한다. 따라서, 자질 벡터 추출부(150)는 문장 내의 의미(형태소)의 언어모델을 학습한다. 이를 통해 문장 내 함께 등장하는 확률이 높은 형태소 패턴 정보가 문장 인코더에서 의미 형태소 패턴 자질 벡터로 추출된다.
자질 벡터 추출부(150)는 문장 내 형태소 등장 여부를 반영하여 질의 문장으로부터 형태소 등장 여부 자질 벡터를 추출한다. 즉, 자질 벡터 추출부(150)는 어순에 상관없이 문장 내 형태소 등장 여부를 반영하는 자질 벡터를 추출한다.
도 5를 참조하면, 자질 벡터 추출부(150)는 형태소의 등장 여부 정보를 전달하는 자질 벡터를 추출하는 모델을 학습한 후, 해당 모델에서 뽑히는 문장 벡터를 자질 벡터로써 추출한다. 이 모델을 학습시키는데 필요한 입력으로는 문장에서 뽑힌 형태소 word matrix와 학습데이터 문장의 화행 분류 자질 태깅 결과가 필요하다. 형태소 word matrix에 입력되는 벡터 행렬은 전처리 과정으로 워드임베딩 방법을 통해 얻어진다. 워드임베딩은 비지도 학습 기술로 문장 말뭉치만을 사용하여 얻을 수 있으며, 형태소 별로 워드 임베딩 벡터가 생성되며 word matrix를 만들 때 해당 형태소 벡터를 불러와서 사용한다.
CNN 기반의 문장 분류 모델은 비지도 학습이 불가능하기 때문에 일부 학습데이터를 구축하여 이를 Semi-supervised learning 방식을 적용하여 씨앗 학습 데이터로 활용하여 모델을 학습한다. 그리고 태깅되지 않은 문장에 자동 태깅과 정제 과정을 거쳐 학습데이터를 확장한다. 화행 분류 자질은 일반 대화 (8개: 정의, 설명, 상황, 이유, 방법, 확인/조회, 가능, 요청) 화행에 대해 태깅한 자질을 사용한다. 응용 도메인과 적용 시스템에 맞게 화행 분류체계를 정리하는 경우 더 좋은 결과를 얻을 수 있다. 본 발명의 실시 예에서는 도메인 특화(7개: 신규/등록, 탈퇴/상환, 진행/변경, 가입/추천, 취소/해지, 기간, 오류)를 추가로 더 태깅하여 사용한다.
유사성 분석부(170)는 자질 벡터 추출부(150)에서 추출한 자질 벡터를 기반으로 문장 간 유사도를 산출한다.
도 6을 참조하면, 자질 벡터 추출부(150)에서 추출한 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터, 형태소 등장 여부 자질 벡터는 각각 순차적 표현 정보와, 의미적 정보, 유사표현 사용 정보 등을 나타낸다. 유사성 분석부(170)는 세 종류의 자질 벡터를 합쳐 유사성 분석을 위한 문장 벡터로 정의한다. 유사성 분석부(170)는 질의 문장과 유사성을 비교할 대상 문장과의 벡터의 유사도를 측정하여 유사성 점수를 수치화한다.
유사성 분석부(170)는 추출한 자질 벡터와 질문-답변 지식베이스(300)를 근거로 유사성 점수를 수치화한다. 도 7에서는 유사성 분석부(170)에서 질의 문장과 유사 문장 간의 분석을 통해 유사성 점수를 수치화한 일례를 도시한다. 예를 들어, 유사성 분석부(170)는 입력 질의 문장인 “1회 한도 1일한도 증액 어떻게 하나요”와 질문-답변 지식베이스(300)에 저장된 유사 문장 “대출 한도 증액 어떻게 하나요?” 간의 유사도를 0.873로 수치화할 수 있다.
유사성 분석부(170)는 추출한 자질 벡터와 질문-답변 지식베이스(300)에 저장된 질문의 자질 벡터 사이의 유사성을 분석하여 자질 벡터 추출부(150)에서 추출한 자질 벡터의 유사성 점수를 설정한다. 유사성 분석부(170)는 설정한 유사성 점수가 설정 점수 이하이면 질문-답변 지식베이스(300)에 저장된 다른 질문과의 분석으로 들어간다.
답변 처리부(190)는 유사성 점수가 설정 점수를 초과하면 유사성 점수에 따른 정렬이나 Ranking 알고리즘을 통해 해당 질문의 답변을 제공한다.
이상의 질의 자질 추출 장치(100)에서 문장 경계 인식(sentence boundary detection), 형태소 분석(Part of Speech tagging) 등 자연어 전처리 과정과 답변 제공 단계는 실시예에 따라 응용 도메인과 적용 시스템의 성능에 영향을 줄 수 있으며, 이 부분은 공학적인 접근으로 다양한 이형의 실시예가 구현될 수 있다.
일례로, 도 8에 도시된 바와 같이, 질의 자질 추출 장치(100)는 자연어 입력 문장 간의 유사도를 측정할 수 있다. 도 8은 본 발명의 다양한 실시예에 따른 입력 문장 간의 유사도를 측정하는 개념을 설명하기 위한 도면으로, 구체적으로, 뉴스 기사에서 유사성이 높은 문장 쌍을 찾기 위한 예시이다.도 8에 도시된 질의 자질 추출 장치(100)는 딥러닝 기술이 적용된 문장 임베딩 모델을 이용하여 자질 벡터를 추출한다. 예를 들어, 음절의 패턴과 의미 형태소의 패턴에 대해서는 RNN 기반의 문장 임베딩 모델(810)을 이용하고, 유사 형태소 등장 여부에 대해서는 CNN 기반의 문장 임베딩 모델(820)을 이용하여, 자질 벡터를 추출할 수 있다. RNN 기반의 문장 임베딩 모델(810)은, 음절 별로 원-핫(one-hot) 인코딩을 수행하거나 또는 언어모델 학습을 통해 생성된 글자 벡터를 RNN 모델의 입력으로 사용하여 음절의 순서 정보를 학습한 인코더 모델일 수 있다. RNN 기반의 문장 임베딩 모델(810)을 이용할 경우, 문장 내의 음절 표현만을 이용하여 문장 벡터를 생성하므로, 유사한 표현(글자 또는 단어)이 순차적으로 등장한 경우, 유사성이 높은 문장 벡터가 생성될 수 있다. CNN 기반의 문장 임베딩 모델(820)은, 문장 내 단어나 의미 형태소들의 단어 벡터를 여러 층으로 쌓은 문장 행렬을 입력으로 사용하여, 평면화 과정 없이 단어의 공간 정보를 유지하면서 인접 단어들 간의 특징(언어 모델)을 학습하는 모델일 수 있다. CNN 기반의 문장 임베딩 모델(820)을 이용할 경우, 어순에 관계없는 표현의 등장 여부에 관한 정보가 반영된 문장 벡터가 생성될 수 있다. CNN 모델로 생성한 문장 벡터를 추가 자질로 사용하는 경우에는 문장의 어순이 변화되더라도 같은 표현이 사용되면, RNN 모델에 비해 높은 유사도 값을 얻을 수 있다.
질의 자질 추출 장치(100)에서 RNN 기반의 Seq2Seq 모델인 문장 임베딩 모델(인코더)을 이용하는 경우 형태소의 등장 패턴만을 반영하여 유사성을 분석할 수 있는 자질 벡터를 추출하기 때문에, 단순히 어순이 변형된 경우에도 유사성 점수가 낮게 나오는 문제가 있다.
이에, 질의 자질 추출 장치(100)는 CNN 모델을 이용하여 문장 자질 벡터를 추출하는 모델을 추가로 포함할 수 있다. 또한 기존에는 의미 형태소 벡터 패턴 정보만을 사용하고 도메인에 특화된 도메인 화행 분류 자질을 학습 자질로 사용하였으나, 본 발명에서는 음절 패턴 정보와 일반 도메인 화행 분류 자질을 사용함으로써 응용 도메인과 적용 시스템에 상관없이 한글 문장이기만 하면 유사성 분석을 위한 문장 자질 벡터를 추출할 수 있게 모델을 개선할 수 있다.
도 8을 참조하면, 본 발명의 실시 예에 따른 질의 자질 추출 방법은 질의 문장 입력 단계(S100), 전처리 단계(S200), 자질 벡터 추출 단계(S300), 유사성 분석 단계(S400), 답변 제공 단계(S500)를 포함한다.
질의 문장 입력 단계(S100)에서는 사용자(고객)으로부터 질의 문장을 입력받는다. 질의 문장 입력 단계(S100)에서는 자연어 문장으로 구성된 질의 문장을 입력받는다.
전처리 단계(S200)에서는 질의 문장을 전처리한다. 전처리 단계(S200)에서는 질의 문장에 대해 오타, 띄어쓰기 수정, 경계 인식, 형태소 인식 등의 자연어 문장 전처리를 기술을 이용하여 질의 문장을 전처리한다.
한글 음절 등장 패턴 자질 벡터 추출 단계(S300)에서는 한글 말뭉치(200)를 이용하여 S200 단계에서 전처리된 질의 문장으로부터 한글 음절 등장 패턴 자질 벡터를 추출한다.
한글 음절 등장 패턴 자질 벡터 추출 단계(S300)에서는 한글 음절의 등장 패턴 정보에 기반하여 질의 문장으로부터 한글 음절 등장 패턴 자질 벡터를 추출한다. 한글 음절 등장 패턴 자질 벡터 추출 단계(S300)에서는 한글 문장을 음절단위로 분해하여 음절의 패턴을 언어모델로 학습한다. 한글 음절 등장 패턴 자질 벡터 추출 단계(S300)에서는 언어모델 학습을 통해 학습모델을 생성한다. 한글 음절 등장 패턴 자질 벡터 추출 단계(S300)에서는 학습모델을 이용하여 한글 음절 등장 패턴 자질 벡터를 추출한다.
이를 위해, 한글 음절 등장 패턴 자질 벡터 추출 단계(S300)에서는 한글 문장을 음절 단위 문장으로 분해한다. 한글 음절 등장 패턴 자질 벡터 추출 단계(S300)에서는 학습 문장, 질의 문장, 유사성 분석 대상 질문의 음절을 딥러닝이 학습할 수 있는 실수 형태의 벡터로 변환한다. 현대 한글 조합형의 경우 11,172자를 표현할 수 있으며, 이를 원-핫 인코딩(one-hot encoding)한 결과를 입력 배치와 학습 배치로 변환한다. 예를 들어 'ㄱ'의 경우 첫 번째 값이 1이고 나머지가 0인 크기가 11,172인 벡터가 될 수 있다. 여기서, 본 발명의 실시 예에서는 딥러닝 모델을 사용하기 때문에 음절 단위 문장으로 분해하는 구성이 필요하지만 적용 모델에 따라 음절 단위 문장으로 분해하는 구성이 생략될 수 있다.
한글 음절 등장 패턴 자질 벡터 추출 단계(S300)에서는 변환된 벡터의 순차 리스트를 음절 단위 언어모델 및 학습 모델을 통해 학습을 수행한다. 이때, 문장 인코더와 문장 디코더로 구성되어 있기 때문에 추후 모델 사용 단계에서는 문장 인코더만을 사용한다. 여기서, 학습 모델은 충분한 양의 한글 문장 말뭉치만 있으면 학습할 수 있으며, 형태소 분석 정보도 필요하지 않다. 도메인에 특화된 말뭉치를 사용하여 학습하는 경우, 도메인에서 전용적으로 쓰이는 단어의 언어모델이 학습되므로 한글 음절 등장 패턴 자질 벡터의 추출 결과가 응용 도메인과 적용 시스템에 따라 성능을 개선시킬 수 있다. 본 발명의 실시 예는 딥러닝 모델을 사용하여 구현된 실시 예이며, 자연어 문장을 실수 벡터 형태로 바꾸는 다른 방법과 알고리즘을 사용할 수 있다.
의미 형태소 패턴 자질 벡터 추출 단계(S400)에서는 한글 말뭉치(200)를 이용하여 S200 단계에서 전처리된 질의 문장으로부터 의미 형태소 패턴 자질 벡터를 추출한다. 의미 형태소 패턴 자질 벡터 추출 단계(S400)에서는 의미 형태소 패턴 정보에 기반하여 질의 문장으로부터 의미 형태소 패턴 자질 벡터를 추출한다.
의미 형태소 패턴 자질 벡터 추출 단계(S400)에서는 자질 벡터 추출부(150)는 S300 단계와 유사한 학습 모델을 구현하여 학습하는데 입력 형태가 음절 정보에서 의미(실질) 형태소로 바뀐다. 이를 위해, 의미 형태소 패턴 자질 벡터 추출 단계(S400)에서는 전처리부(130)로부터 형태소 분석 결과를 수집한다. 의미 형태소 패턴 자질 벡터 추출 단계(S400)에서는 추가적으로 도메인 어휘사전에서 상품명, 회사명 등과 같이 복합명사를 포함하는 특정 개체명 정보를 입력 형태소 조합에 사용한다.
의미 형태소 패턴 자질 벡터 추출 단계(S400)에서는 조사, 어미, 조동사 등을 제외한 의미적으로 영향을 주는 의미(실질) 형태소만을 입력으로 사용한다.
따라서, 의미 형태소 패턴 자질 벡터 추출 단계(S400)에서는 문장 내의 의미(형태소)의 언어모델을 학습한다. 이를 통해 문장 내 함께 등장하는 확률이 높은 형태소 패턴 정보가 문장 인코더에서 의미 형태소 패턴 자질 벡터로 추출된다.
의미 형태소 패턴 자질 벡터 추출 단계(S400)에서는 문장 내 형태소 등장 여부를 반영하여 질의 문장으로부터 형태소 등장 여부 자질 벡터를 추출한다. 즉, 의미 형태소 패턴 자질 벡터 추출 단계(S400)에서는 어순에 상관없이 문장 내 형태소 등장 여부를 반영하는 자질 벡터를 추출한다.
형태소 등장 여부 자질 벡터 추출 단계(S500)에서는 한글 말뭉치(200)를 이용하여 S200 단계에서 전처리된 질의 문장으로부터 형태소 등장 여부 자질 벡터를 추출한다.
형태소 등장 여부 자질 벡터 추출 단계(S500)에서는 문장 내 형태소 등장 여부를 반영하여 질의 문장으로부터 형태소 등장 여부 자질 벡터를 추출한다. 즉, 형태소 등장 여부 자질 벡터 추출 단계(S500)에서는 어순에 상관없이 문장 내 형태소 등장 여부를 반영하는 자질 벡터를 추출한다.
형태소 등장 여부 자질 벡터 추출 단계(S500)에서는 형태소의 등장 여부 정보를 전달하는 자질 벡터를 추출하는 모델을 학습한 후, 해당 모델에서 뽑히는 문장 벡터를 자질 벡터로써 추출한다. 이 모델을 학습시키는데 필요한 입력으로는 문장에서 뽑힌 형태소 word matrix와 학습데이터 문장의 화행 분류 자질 태깅 결과가 필요하다. 형태소 word matrix에 입력되는 벡터 행렬은 전처리 과정으로 워드임베딩 방법을 통해 얻어진다. 워드임베딩은 비지도 학습 기술로 문장 말뭉치만을 사용하여 얻을 수 있으며, 형태소 별로 워드 임베딩 벡터가 생성되며 word matrix를 만들 때 해당 형태소 벡터를 불러와서 사용한다.
CNN 기반의 문장 분류 모델은 비지도 학습이 불가능하기 때문에 일부 학습데이터를 구축하여 이를 Semi-supervised learning 방식을 적용하여 씨앗 학습 데이터로 활용하여 모델을 학습한다. 그리고 태깅되지 않은 문장에 자동 태깅과 정제 과정을 거쳐 학습데이터를 확장한다. 화행 분류 자질은 일반 대화 (8개: 정의, 설명, 상황, 이유, 방법, 확인/조회, 가능, 요청) 화행에 대해 태깅한 자질을 사용한다. 응용 도메인과 적용 시스템에 맞게 화행 분류체계를 정리하는 경우 더 좋은 결과를 얻을 수 있다. 본 발명의 실시 예에서는 도메인 특화(7개: 신규/등록, 탈퇴/상환, 진행/변경, 가입/추천, 취소/해지, 기간, 오류)를 추가로 더 태깅하여 사용한다.
유사성 분석 단계(S400)에서는 S300 단계 내지 S500 단계를 통해 추출한 자질 벡터를 근거로 질의 문장과 유사성 분석 대상 질문에 대한 유사성을 분석한다.
S300 단계 내지 S500 단계를 통해 추출된 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터 및 형태소 등장 여부 자질 벡터는 각각 순차적 표현 정보와, 의미적 정보, 유사표현 사용 정보 등을 나타낸다.
유사성 분석 단계(S400)에서는 세 종류의 자질 벡터를 합쳐 유사성 분석을 위한 문장 벡터로 정의한다. 유사성 분석 단계(S400)에서는 질의 문장과 유사성을 비교할 대상 문장과의 벡터의 유사도를 측정하여 유사성 점수를 수치화한다.
유사성 점수가 설정 점수를 초과하면(S450; 예), 답변 제공 단계(S500)에서는 유사성 점수에 따른 정렬이나 Ranking 알고리즘을 통해 해당 질문의 답변을 제공한다. 한편, 유사성 분석 단계(S400)에서는 유사성 점수가 설정 점수 이하이면 다른 질문과의 분석으로 들어간다.
이상에서 본 발명에 따른 바람직한 실시 예에 대해 설명하였으나, 다양한 형태로 변형이 가능하며, 본 기술분야에서 통상의 지식을 가진자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형 예 및 수정 예를 실시할 수 있을 것으로 이해된다.

Claims (20)

  1. 자연어 문장으로 구성된 질의 문장을 입력받는 입력부;
    상기 질의 문장을 전처리하는 전처리부;
    상기 질의 문장 및 비교 대상 문장의 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터, 및 형태소 등장 여부 자질 벡터를 추출하는 자질 벡터 추출부; 및
    상기 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터 및 형태소 등장 여부 자질 벡터를 근거로 상기 질의 문장과 비교 대상 문장의 유사성을 분석하는 유사성 분석부를 포함하는 질의 자질 추출 장치.
  2. 제1항에 있어서,
    상기 자질 벡터 추출부는,
    음절 단위로 분해한 질의 문장을 음절 단위 언어모델 및 학습 모델과 비교하여 상기 질의 문장의 한글 음절 등장 패턴 자질 벡터를 추출하고,
    음절 단위로 분해한 비교 대상 문장을 각각 음절 단위 언어모델 및 학습 모델과 비교하여 상기 비교 대상 문장의 한글 음절 등장 패턴 자질 벡터를 추출하는 질의 자질 추출 장치.
  3. 제2항에 있어서,
    상기 자질 벡터 추출부는 한글 말뭉치로부터 검출한 한글 문장을 음절 단위로 분해하여 음절 단위 언어모델을 학습하는 질의 자질 추출 장치.
  4. 제1항에 있어서,
    상기 자질 벡터 추출부는,
    상기 전처리부의 형태소 분석 결과를 근거로 의미 형태소 단위로 분해한 질의 문장을 의미 형태소 언어모델 및 학습 모델과 비교하여 상기 질의 문장의 의미 형태소 패턴 자질 벡터를 추출하고,
    상기 전처리부의 형태소 분석 결과를 근거로 의미 형태소 단위로 분해한 비교 대상 문장을 의미 형태소 언어모델 및 학습 모델과 비교하여 상기 비교 대상 문장의 의미 형태소 패턴 자질 벡터를 추출하는 질의 자질 추출 장치.
  5. 제1항에 있어서,
    상기 자질 벡터 추출부는 상기 전처리부의 형태소 분석 결과를 근거로 한글 말뭉치로부터 검출한 한글 문장을 의미 형태소 단위로 분해하여 의미 형태소 언어모델로 학습하는 질의 자질 추출 장치.
  6. 제1항에 있어서,
    상기 자질 벡터 추출부는
    형태소 단위로 분해한 질의 문장을 형태소 워드 매트릭스 및 문장 분류 모델과 비교하여 상기 질의 문장의 형태소 등장 여부 자질 벡터를 추출하고,
    형태소 단위로 분해한 비교 대상 문장을 형태소 워드 매트릭스 및 문장 분류 모델과 비교하여 상기 비교 대상 문장의 형태소 등장 여부 자질 벡터를 추출하는 질의 자질 추출 장치.
  7. 제6항에 있어서,
    상기 자질 벡터 추출부는 학습데이터를 화행 분류 자질 태깅하여 문장 분류 모델을 생성하는 질의 자질 추출 장치.
  8. 제1항에 있어서,
    상기 유사성 분석부는,
    상기 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터 및 형태소 등장 여부 자질 벡터를 합쳐 문장 벡터를 정의하고, 상기 질의 문장 및 비교 대상 문장의 문장 벡터를 비교하여 유사성 점수를 수치화하는 질의 자질 추출 장치.
  9. 제8항에 있어서,
    상기 유사성 분석부는 상기 유사성 점수가 설정 점수 이하이면 다른 비교 대상 문장을 설정하는 질의 자질 추출 장치.
  10. 제1항에 있어서,
    상기 유사성 분석부에서 수치화한 유사성 점수가 설정 점수를 초과하면 상기 질의 문장에 대한 답변을 제공하는 답변 처리부를 더 포함하는 질의 자질 추출 장치.
  11. 질의 자질 추출 장치를 이용한 질의 자질 추출 방법에 있어서,
    자연어 문장으로 구성된 질의 문장을 입력받는 단계;
    상기 질의 문장을 전처리하는 단계;
    상기 질의 문장 및 비교 대상 문장의 한글 음절 등장 패턴 자질 벡터를 추출하는 단계;
    상기 질의 문장 및 비교 대상 문장의 의미 형태소 패턴 자질 벡터를 추출하는 단계;
    상기 질의 문장 및 비교 대상 문장의 형태소 등장 여부 자질 벡터를 추출하는 단계; 및
    상기 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터 및 형태소 등장 여부 자질 벡터를 근거로 상기 질의 문장과 비교 대상 문장의 유사성을 분석하는 단계를 포함하는 질의 자질 추출 방법.
  12. 제11항에 있어서,
    상기 한글 음절 등장 패턴 자질 벡터를 추출하는 단계는,
    음절 단위로 분해한 질의 문장을 음절 단위 언어모델 및 학습 모델과 비교하여 상기 질의 문장의 한글 음절 등장 패턴 자질 벡터를 추출하는 단계; 및
    음절 단위로 분해한 비교 대상 문장을 각각 음절 단위 언어모델 및 학습 모델과 비교하여 상기 비교 대상 문장의 한글 음절 등장 패턴 자질 벡터를 추출하는 단계를 포함하는 질의 자질 추출 방법.
  13. 제12항에 있어서,
    상기 한글 음절 등장 패턴 자질 벡터를 추출하는 단계는,
    한글 말뭉치로부터 검출한 한글 문장을 음절 단위로 분해하여 음절 단위 언어모델을 학습하는 단계를 더 포함하는 질의 자질 추출 방법.
  14. 제11항에 있어서,
    상기 의미 형태소 패턴 자질 벡터를 추출하는 단계는,
    상기 전처리하는 단계의 형태소 분석 결과를 근거로 의미 형태소 단위로 분해한 질의 문장을 의미 형태소 언어모델 및 학습 모델과 비교하여 상기 질의 문장의 의미 형태소 패턴 자질 벡터를 추출하는 단계; 및
    상기 전처리하는 단계의 형태소 분석 결과를 근거로 의미 형태소 단위로 분해한 비교 대상 문장을 의미 형태소 언어모델 및 학습 모델과 비교하여 상기 비교 대상 문장의 의미 형태소 패턴 자질 벡터를 추출하는 단계를 포함하는 질의 자질 추출 방법.
  15. 제14항에 있어서,
    상기 의미 형태소 패턴 자질 벡터를 추출하는 단계는,
    상기 전처리하는 단계의 형태소 분석 결과를 근거로 한글 말뭉치로부터 검출한 한글 문장을 의미 형태소 단위로 분해하여 의미 형태소 언어모델로 학습하는 단계를 더 포함하는 질의 자질 추출 방법.
  16. 제11항에 있어서,
    상기 형태소 등장 여부 자질 벡터를 추출하는 단계는
    형태소 단위로 분해한 질의 문장을 형태소 워드 매트릭스 및 문장 분류 모델과 비교하여 상기 질의 문장의 형태소 등장 여부 자질 벡터를 추출하는 단계; 및
    형태소 단위로 분해한 비교 대상 문장을 형태소 워드 매트릭스 및 문장 분류 모델과 비교하여 상기 비교 대상 문장의 형태소 등장 여부 자질 벡터를 추출하는 단계를 포함하는 질의 자질 추출 방법.
  17. 제16항에 있어서,
    상기 형태소 등장 여부 자질 벡터를 추출하는 단계는 학습데이터를 화행 분류 자질 태깅하여 문장 분류 모델을 생성하는 단계를 더 포함하는 질의 자질 추출 방법.
  18. 제11항에 있어서,
    상기 유사성을 분석하는 단계는,
    상기 한글 음절 등장 패턴 자질 벡터
    상기 한글 음절 등장 패턴 자질 벡터, 의미 형태소 패턴 자질 벡터 및 형태소 등장 여부 자질 벡터를 합쳐 문장 벡터를 정의하는 단계; 및
    상기 질의 문장 및 비교 대상 문장의 문장 벡터를 비교하여 유사성 점수를 수치화하는 단계를 포함하는 질의 자질 추출 방법.
  19. 제18항에 있어서,
    상기 유사성을 분석하는 단계는 상기 유사성 점수가 설정 점수 이하이면 다른 비교 대상 문장을 설정하는 단계를 더 포함하는 질의 자질 추출 방법.
  20. 제11항에 있어서,
    상기 유사성을 분석하는 단계에서 수치화한 유사성 점수가 설정 점수를 초과하면 상기 질의 문장에 대한 답변을 제공하는 단계를 더 포함하는 질의 자질 추출 방법.
PCT/KR2020/017277 2020-11-30 2020-11-30 자연어 대화에서 질문의 유사성을 분석하기 위한 질의 자질 추출 장치 및 방법 WO2022114325A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2020/017277 WO2022114325A1 (ko) 2020-11-30 2020-11-30 자연어 대화에서 질문의 유사성을 분석하기 위한 질의 자질 추출 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2020/017277 WO2022114325A1 (ko) 2020-11-30 2020-11-30 자연어 대화에서 질문의 유사성을 분석하기 위한 질의 자질 추출 장치 및 방법

Publications (1)

Publication Number Publication Date
WO2022114325A1 true WO2022114325A1 (ko) 2022-06-02

Family

ID=81755796

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/017277 WO2022114325A1 (ko) 2020-11-30 2020-11-30 자연어 대화에서 질문의 유사성을 분석하기 위한 질의 자질 추출 장치 및 방법

Country Status (1)

Country Link
WO (1) WO2022114325A1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180125746A (ko) * 2017-05-16 2018-11-26 동아대학교 산학협력단 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법
KR20200033009A (ko) * 2018-09-19 2020-03-27 네이버 주식회사 자동 답변 제공 방법
KR20200105057A (ko) * 2019-02-28 2020-09-07 한국전력공사 질의 문장 분석을 위한 질의 자질 추출 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180125746A (ko) * 2017-05-16 2018-11-26 동아대학교 산학협력단 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법
KR20200033009A (ko) * 2018-09-19 2020-03-27 네이버 주식회사 자동 답변 제공 방법
KR20200105057A (ko) * 2019-02-28 2020-09-07 한국전력공사 질의 문장 분석을 위한 질의 자질 추출 장치 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
OH KYOJOONG, DONGKUN LEE, CHAE-GYUN LIM, HO-JIN CHOI : "Question Similarity Analysis in dialogs with Automatic Feature Extraction ", PROCEEDINGS OF THE 30TH KOREAN LANGUAGE AND KOREAN INFORMATION PROCESSING CONFERENCE (2018), KOREAN SOCIETY OF INFORMATION SCIENCE AND TECHNOLOGY (HUMAN AND LANGUAGE TECHNOLOGY), 1 January 2018 (2018-01-01) - 13 October 2018 (2018-10-13), pages 347 - 351, XP055936312 *
OH KYO-JOONG, LEE DONGKUN, LIM CHAE-GYUN, CHOI HO-JIN: "Automatic Extraction of Sentence Embedding Features for Question Similarity Analysis in Dialogues", JOURNAL OF KIISE, KOREAN INSTITUTE OF INFORMATION SCIENTISTS AND ENGINEERS, KR, vol. 46, no. 9, 30 September 2019 (2019-09-30), KR , pages 909 - 918, XP055936288, ISSN: 2383-630X, DOI: 10.5626/JOK.2019.46.9.909 *

Similar Documents

Publication Publication Date Title
CN110110054B (zh) 一种基于深度学习的从非结构化文本中获取问答对的方法
WO2021100902A1 (ko) 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법
CN112115238B (zh) 一种基于bert和知识库的问答方法和系统
WO2017010652A1 (ko) 자동질의응답 방법 및 그 장치
KR20190133931A (ko) 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법
WO2018016673A1 (ko) 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체
CN104503998B (zh) 针对用户查询句的类型识别方法及装置
CN112201228A (zh) 一种基于人工智能的多模态语义识别服务接入方法
WO2011065617A1 (ko) 과학기술핵심개체 간 의미적 연관관계 자동 추출을 위한 시맨틱 구문 트리 커널 기반 처리 시스템 및 방법
KR20200105057A (ko) 질의 문장 분석을 위한 질의 자질 추출 장치 및 방법
US20170200081A1 (en) System and Method for Analogy Detection and Analysis in a Natural Language Question and Answering System
CN115858758A (zh) 一种多非结构化数据识别的智慧客服知识图谱系统
Zhang et al. Video-aided unsupervised grammar induction
CN111368540B (zh) 一种基于语义角色分析的关键词信息抽取方法
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
CN114676255A (zh) 文本处理方法、装置、设备、存储介质及计算机程序产品
CN115292461B (zh) 基于语音识别的人机交互学习方法及系统
CN112541337A (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及系统
CN112036705A (zh) 一种质检结果数据获取方法、装置及设备
CN114491024A (zh) 一种基于小样本的特定领域多标签文本分类方法
CN113761377A (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
WO2018212584A2 (ko) 딥 뉴럴 네트워크를 이용하여 문장이 속하는 클래스를 분류하는 방법 및 장치
CN113157887A (zh) 知识问答意图识别方法、装置、及计算机设备
Ajees et al. A named entity recognition system for Malayalam using neural networks
WO2022114325A1 (ko) 자연어 대화에서 질문의 유사성을 분석하기 위한 질의 자질 추출 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20963719

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20963719

Country of ref document: EP

Kind code of ref document: A1