WO2021100902A1 - 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법 - Google Patents

문장 패러프레이즈 인식 기반 대화 시스템 답변 방법 Download PDF

Info

Publication number
WO2021100902A1
WO2021100902A1 PCT/KR2019/015953 KR2019015953W WO2021100902A1 WO 2021100902 A1 WO2021100902 A1 WO 2021100902A1 KR 2019015953 W KR2019015953 W KR 2019015953W WO 2021100902 A1 WO2021100902 A1 WO 2021100902A1
Authority
WO
WIPO (PCT)
Prior art keywords
sentence
question
similarity
semantic
model
Prior art date
Application number
PCT/KR2019/015953
Other languages
English (en)
French (fr)
Inventor
최호진
오교중
이영준
박수환
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to US17/777,813 priority Critical patent/US20230069935A1/en
Priority to PCT/KR2019/015953 priority patent/WO2021100902A1/ko
Publication of WO2021100902A1 publication Critical patent/WO2021100902A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/02User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to a method of providing a related answer by searching for a question-answer knowledge (question) having a similar meaning and intention of a sentence (query) input through a paraphrase recognition technology.
  • the present invention is an invention that can be used in FAQs, customer consultation services, etc., and is applied to a dialogue system for automatic Q&A. It uses natural language processing and understanding technology based on sentence embedding technology, and through this, it is possible to search for a question that is similar in meaning and intention to the input question.
  • Q&A service intelligence question and answering service
  • a question entered by a user Naver intellectuals, Quora, Yahoo! From community-type online platforms such as answers, where experts or other users provide answers, to intelligent Q&A systems that automatically provide answers based on advanced natural language processing technologies such as IBM Watson and ETRI's Exobrain, and established knowledge bases. Provides answers to user inquiries through the system of
  • a dialog system refers to a computer system that has a specific purpose (goal oriented) and communicates with a user.
  • the process of querying and responding exchanged between a user and a computer is formed in the same format as a conversation. Mainly, when a user inputs a query, it is processed immediately and responds appropriately to the request.
  • context-based dialogue analysis that provides a response by analyzing a dialogue that has been made over several turns, and a method of providing a response in an asynchronous manner have been studied. have.
  • a method of providing an automatic Q&A service using this dialog system is described.
  • a dialogue system high-level natural language processing and understanding technology is required to communicate between a user and a computer through dialogue.
  • natural language processing processes such as object name extraction and recognition, and natural language understanding processes such as sentence embedding, domain/intention classification, and paraphrase recognition are performed.
  • the sentence embedding technique is a method used in the domain/intention classification of a query sentence, sentence similarity analysis, and paraphrase recognition parts. Similar to the word embedding technology, which is well known in the past, the natural language expression is vectorized and the sentence is expressed as a real vector of a predetermined size. For this, a deep learning-based machine learning model is used, and sentences are embedded as vectors by using a domain and speech act classification system tailored to the applied domain as learning features. By vectorizing sentences, semantic/structural information can be expressed as numerical and spatial information, and classification, clustering, and similarity measuring can be performed through this vector.
  • the present invention provides a related answer by searching for a question-answer knowledge (question) having a similar meaning and intention of a sentence (query) input through a paraphrase recognition technology in a conversation system for an automatic Q&A service such as a customer consultation chatbot. It is intended to provide a method of answering that can be done.
  • the dialogue system answering method based on sentence paraphrase recognition is a method executed by a processor of a computer device, and recognizes important keywords in a technology application domain based on a morpheme analysis result analyzed in a preprocessing process. And a pattern extraction step.
  • a vector containing semantic and expressive information about input query sentences that can be input in various forms is generated, and the similar query sentence is recognized as a paraphrase in FAQ knowledge. It includes the step of providing an answer to a similar question, which is searched by technology and provides an answer.
  • the'technology application domain important keyword recognition and pattern extraction step' includes the steps of recognizing an entity name exclusively for the technology application domain; A compound word extraction step of additionally extracting compound word information specialized in the application domain by using the result of the morpheme analysis; A synonym/superword analysis step of normalizing a specific term expression or analyzing synonym information or higher concept information of a specific expression; In addition, a question expression pattern extraction step of patterning the question expressions of entity names, compound words, synonyms, and superscripts for the input query extracted in the previous step according to the connection relationship may be included.
  • domain important keyword recognition and pattern extraction step' based on the morpheme analysis result analyzed in the preprocessing process, a domain-specific entity name and compound word dictionary are constructed, and the constructed entity name and compound word dictionary It may involve establishing relationships with vocabularies of synonyms and superscript thesaurus or vocabulary networks.
  • the'classification step of question domain/detail category/speech act' may include a first learning step and a classifying step.
  • the first learning step may include a learning data tagging and construction step of tagging a query sentence classification system feature for Q&A specialized in a system application domain for each question; And a question intention classification model training step of training the constructed training data to a deep learning-based classification model.
  • the classification step may include a'question intention classification step' of performing a feature analysis on a new input query sentence using the learned classification model; And it may include a'analysis result textualization and additional learning data semi-automatic tagging step' of modifying and additionally building the learning data through the process and review of the feature analysis of the additional test query sentence through the learned model.
  • the'question domain/detail category/speech action classification step' comprises creating learning data using the morpheme analysis result analyzed in the preprocessing process and the extracted important keywords and patterns, and learning a classification model to make a new query. It may include extracting the corresponding classification features for the sentence.
  • the semantic similarity question analysis step may include a second learning step and a first similarity analysis step.
  • the word embedding vector of the sentence morpheme learned as a result of analysis in the language analyzer (morpheme tagging) and the classification feature analyzed through the classification model are used as semantic features, and the'sentence morphemes' structured as an input structure.
  • a'semantic feature-based sentence embedding model training step' for training a deep learning model that combines the Seq2Seq-based encoder-decoder model and the learned classification model.
  • the first similarity analysis step may include: performing question intention embedding of embedding a new input query sentence into a sentence semantic vector using the learned encoder model; And a'embedding vector-based semantic similarity measurement step' of measuring a similarity between a query sentence and a FAQ question having refined answer knowledge through a method for measuring similarity between vectors using the converted sentence semantic vector.
  • the'performing question intention embedding' may include performing a question transformation of the input query sentence into a real vector of a desired dimension.
  • the'representational similarity question analysis step' may include a third learning step and a second similarity analysis step.
  • The'third learning step' includes a step of creating an input vector at character-level in order to implement an encoder-decoder model that learns a language model of a character appearing in a query sentence, and tokenizing it in character units;
  • a letter-level embedding step is performed using a learned letter-level embedding model, and generating a sentence expression vector having only sentence expression information using only letters;
  • an embedding vector-based expressive similarity measuring step of measuring an explicit similarity such as a letter and a structure of an input sentence by using the analyzed sentence expression vector.
  • the'analyzing expression similarity question' may include learning a language model of a letter and extracting a sentence expression vector based on the letter to analyze the similarity between the expression and the structure.
  • the'similar question answer providing step' may include a semantic similarity question analysis step and an expressional similarity question analysis step, and searches for a FAQ question similar to the input question using the analyzed similarity result. This may include deciding whether to provide an answer or not.
  • the'similar question answer providing step' recognizes that it is a paraphrase sentence of a FAQ query sentence refined based on the analyzed semantic similarity and expressional similarity, and responds to the corresponding FAQ query sentence according to the similarity score. It may include providing.
  • the present invention provides as a source technology for providing an answer in a conversation system for an automatic Q&A service such as a chatbot for customer consultation.
  • a natural language query sentence that can be transformed into various expressions and input can be converted into a vector containing semantic and structural information, and using this, it is possible to determine whether the input query is similar to the sentence of the previously constructed knowledge. have.
  • it is possible to provide an answer to a query by determining whether to provide an answer to the corresponding input according to the similarity score.
  • the technology application domain such as in the financial domain, there is an advantage of providing a reliable answer compared to the method of using the sentence generation model.
  • FIG. 1 is a flowchart illustrating an answer method of an automatic Q&A conversation system according to paraphrase recognition based on sentence embedding similarity according to an embodiment of the present invention.
  • FIG. 2 is a detailed flowchart illustrating a step of recognizing an important keyword in a technology application domain and extracting a pattern according to an embodiment of the present invention.
  • FIG. 3 is a detailed flowchart of a question domain/detail category/speech action classification step according to an embodiment of the present invention.
  • FIG. 4 is a detailed flowchart of a semantic similarity question analysis step according to an embodiment of the present invention.
  • FIG. 5 is a detailed flowchart of an expressional similarity question analysis step according to an embodiment of the present invention.
  • FIG. 6 is a detailed flowchart of a step of providing an answer to a similar question according to an embodiment of the present invention.
  • FIG. 7 is a conceptual diagram for a method of answering a dialogue system based on sentence paraphrase recognition.
  • FIG. 8 is a block diagram of a learning model for embedding a query sentence used for semantic similarity question analysis in the present invention.
  • the input query sentence, domain, detailed category, and speech act information are required, and are used as input and output of this model.
  • FIG. 9 is a block diagram of a character embedding model used for analysis of an expressive similarity question in the present invention.
  • Each letter becomes the input of each neural network, and it learns the letter, expression, and structure information that appear together in one sentence, and this information is reflected in the embedding vector.
  • FIG. 10 illustrates a similar sentence recognized as an input query sentence and a paraphrase, and a similarity measurement result.
  • FIG. 1 is a flowchart illustrating an answer method of an automatic Q&A conversation system according to paraphrase recognition based on sentence embedding similarity according to an embodiment of the present invention.
  • a method of answering a dialogue system based on sentence paraphrase recognition includes a technology application domain important keyword recognition and pattern extraction step (S100), a question domain/detail category/speech action classification step (S200), and a semantic similar question analysis step ( S300), an expression similar question analysis step (S400), and a similar question answer providing step (S500).
  • S100 technology application domain important keyword recognition and pattern extraction step
  • S200 question domain/detail category/speech action classification step
  • S300 semantic similar question analysis step
  • S400 expression similar question analysis step
  • S500 similar question answer providing step
  • FIG. 7 is a conceptual diagram for a method of answering a dialogue system based on sentence paraphrase recognition. Referring to FIG. 7, an exemplary embodiment of a method for answering a dialogue system based on sentence paraphrase recognition is presented.
  • the step S100 of recognizing important keywords in the technology application domain and extracting patterns may be performed based on a result of morpheme analysis analyzed in a preprocessing process.
  • This step is a process of analyzing entity names, compound words, synonyms, superscripts, etc. related to the applied domain from the input query sentence, and extracting features so that answers and questions can be mapped by patterning them.
  • the domain-specific entity name dictionary and compound word dictionary are constructed in a semi-automatic manner through a machine learning model for extracting entity name/compound word candidates, and the synonyms of dictionary vocabulary and the concept information of high-order words are constructed as a vocabulary network or thesaurus. Through this, important keywords for finding answers from the input query can be extracted, and some verbal expressions can be expressed as agreement or higher concept.
  • the question domain/detail category/speech act classification step (S200) is a process of analyzing the question domain/detail category/speech act features of a new input query sentence. This step may be performed using the morpheme analysis result analyzed in the preprocessing process and the extracted important keywords and patterns. Together with the pattern information extracted in step S100, the domain, category, and speech act information are used to build question-answer knowledge or find answers.
  • a process of tagging domain, subcategory, and speech action information for each learning question data is required.
  • a deep learning-based neural network model may be used as the question intention classification model.
  • the question intention classification model may substitute another learning-based classification model.
  • it can be used for semi-automatic construction of additional learning data by reviewing the classification results of new query sentences.
  • this step (S300) is a process of performing sentence embedding to vectorize an input query sentence to a predetermined length, and measuring a semantic similarity with a question of FAQ knowledge.
  • a sentence embedding model learning process may be preceded, and domains, subcategories, speech act features, and query sentences constructed in S200 may be trained in the learning model of FIG. 8.
  • the expressional similarity question analysis step (S400) is a process of embedding a sentence into a vector using only the letters and structure information of the input sentence.
  • This step (S400) is a step of learning a language model of a letter, extracting a sentence expression vector based on the letter, and analyzing the similarity between the expression and the structure. If the keyword pattern has not been extracted from the sentence, or the answer cannot be provided at the previous stage because the domain or subcategory features are not classified, the answer or response to the expression similar to the input sentence can be provided through this stage.
  • the similar question answer providing step (S500) is a process of determining whether to provide an answer to the input query sentence by using the similar sentence analysis result analyzed in steps S300 and S400 as a similarity score. That is, this step (S500) is based on the analyzed semantic similarity obtained in step S300 and the expressive similarity obtained in step S400, semantic and expressive information about the input query sentences that can be input in various forms. This is the step of creating a vector that has an intrinsic to and providing an answer by finding a similar query sentence in the FAQ knowledge with a paraphrase recognition technology.
  • FIG. 2 is a detailed flowchart of a step S100 of recognizing an important keyword in a technology application domain and extracting a pattern according to an embodiment of the present invention.
  • the technology application domain dedicated entity name recognition step (S110), compound word extraction step (S120), synonym / A high-level word analysis step (S130), a question expression pattern extraction step (S140), and the like may be included.
  • the step of recognizing an entity name exclusively for a technology application domain is a process of recognizing an entity name exclusively for a technology application domain.
  • the entity name dedicated to the technology application domain may include a financial institution name, a specific product name, a place name (branch name), amount information, date information, non-identifying expression, and the like.
  • an entity name dictionary and a compound word dictionary specialized for a specific domain can be constructed using the existing entity name recognition technology.
  • the compound word extraction step S120 is a process of additionally extracting compound word information specialized for an application domain by using a morpheme analysis result, and may be used to capture a specific product name or important keyword in an input sentence. Similar to the entity name dictionary, a separate dictionary can be constructed according to the applied domain, and in this process, the entity name/compound word candidate can be extracted using a machine learning model. The system developer can decide whether to register it in advance or not semi-automatically.
  • the synonym/upper term analysis step (S130) is a process of normalizing a specific term expression or analyzing synonym information or higher concept information of a specific expression. It is possible to build a relationship between the vocabulary of the entity name and compound word dictionary built in the previous step with the agreement and the thesaurus or vocabulary network of the upper language.
  • the extracting the question expression pattern (S140) may be a process of patterning question expressions such as entity names, compound words, synonyms, and superscripts for the input query extracted in the previous step according to a connection relationship.
  • FIG. 3 is a detailed flowchart of a question domain/detail category/speech action classification step (S200) according to an embodiment of the present invention.
  • the question domain/detail category/speech action classification step S200 may be largely divided into a learning step and a classifying step.
  • the learning step may include a learning data tagging and building step (S210), a question intention classification model training step (S220), and the like.
  • the classification step may include a question intention classification step (S230), an analysis result textualization, and a semi-automatic tagging of additional learning data (S240).
  • the learning data tagging and construction step (S210) is a process of tagging a query sentence classification system feature for each question for a Q&A specialized in a system application domain.
  • data for learning and evaluating classification models are created by tagging qualities such as domain, subcategory, and speech act.
  • the question intention classification model training step (S220) is a process of training the training data constructed in the previous step (S210) to a deep learning-based classification model. Classification performance was compared by implementing four types of learning-based classification models (SVM, RF, FC-MLP, and ELM). In an exemplary embodiment, an FC-MLP-based classification model is adopted and used.
  • the question intention classification step (S230) is a process of performing feature analysis on a new input query sentence using a learned classification model, which is utilized to provide rule-based answers and evaluates the classification accuracy of the classifier itself. It is used to In addition, it was used to determine the threshold for providing answers later based on the classification prediction rate and classification accuracy through the analysis process.
  • the analysis result textualization and semi-automatic tagging of additional learning data is a process for additionally constructing learning data, and learning through a feature analysis process and review of additional test query sentences through the learned model. Perform data modification and additional construction process. In order to improve the feature extraction performance of a machine learning-based classification model, more refined learning data is required.
  • FIG. 4 is a detailed flowchart of a semantic similarity question analysis step according to an embodiment of the present invention.
  • a semantic similarity question analysis step may be divided into a learning step and a similarity analysis step.
  • the learning step may include sentence morpheme tagging, semantic feature (domain, speech act) classification step (S310), and semantic feature-based sentence embedding model learning step (S320).
  • the similarity analysis step may include a question intention embedding step (S330) and an embedding vector-based semantic similarity measurement step (S340).
  • the sentence morpheme tagging and semantic feature (domain, speech act) classification step (S310) is a process of arranging data to be trained in a model by collecting the results analyzed in the previous step.
  • the word embedding vector of the sentence morpheme learned as a result of analysis in the language analyzer (morpheme tagging) and the classification feature analyzed through the classification model are used as semantic features and structured as an input structure.
  • the semantic feature-based sentence embedding model training step (S320) is a process of training a deep learning model in which the Seq2Seq-based encoder-decoder model and the classification model learned in the previous step (S200) are combined. Through this model, it is possible to build an encoder model that learns a language model of a sentence and at the same time generates a sentence semantic vector containing semantic information such as domain, category, and speech act classification.
  • the step of performing the question intention embedding (S330) is a process of embedding a new input query sentence into a sentence semantic vector using the encoder model learned in the previous step (S320). In this process, the question is transformed into a real vector of the desired dimension for the input query sentence.
  • a query sentence and a FAQ question with refined answer knowledge through a method for measuring similarity between vectors using the sentence semantic vector converted in the previous step. This is the process of measuring the degree of similarity.
  • cosine similarity which can measure the degree of similarity between vectors, was used, and it can be replaced by a method of measuring similarity between vectors.
  • FIG. 8 shows an embodiment of a learning model for embedding a query sentence used for semantic similarity analysis in the present invention.
  • the input query sentence, domain, detailed category, and speech act information are required, and can be used as an input of the learning model illustrated in FIG. 8.
  • FIG. 5 is a detailed flowchart of an expression similar question analysis step (S400) according to an embodiment of the present invention.
  • the expressional similarity question analysis step S400 may also include a learning step and a similarity analysis step.
  • the learning step may include a step of tokenizing character units (S410) and a step of learning a character expression-based embedding model (S420).
  • the similarity analysis step may include a character-level embedding step (S430) and an embedding vector-based expression similarity measurement step (S440).
  • the step of tokenizing character units according to an exemplary embodiment is a process of creating an input vector at a character-level in order to implement an encoder-decoder model that learns a language model of a character appearing in a query sentence.
  • a one-hot encoding vector of the letter vocabulary may be used.
  • the character expression-based embedding model training step (S420) may be a process of learning an encoder-decoder model for learning a language model of a character appearing in a query sentence.
  • a language model between letters appearing together in a sentence can be learned through this learning process. Through this, the relationship between the letters constituting the sentence can be vectorized. In addition, it is possible to predict the letters constituting the sentence through the decoder.
  • the character-level embedding step (S430) is similar to the process of embedding a query sentence using the semantic features of the previous step (S300). It may be a process of generating a vector.
  • the embedding vector-based expression similarity measurement step S440 may be a process of measuring an explicit similarity such as a letter and a structure of an input sentence using the analyzed sentence expression vector. This step was developed to respond to an input conversation that is difficult to measure semantic similarity or is not related to the applied domain, and can mainly provide a response to emotional expressions such as greetings and profanity. Similar to the previous step (S300), a method of measuring the similarity between vectors may be used, and in an exemplary embodiment, a cosine similarity may be used.
  • Each letter becomes the input of each neural network, and it learns the letter, expression, and structure information that appear together in one sentence, and this information is reflected in the embedding vector.
  • FIG. 6 is a detailed flowchart of a similar question answer providing step (S500) according to an embodiment of the present invention.
  • the step of providing an answer to the similar question (S500) may include a step of analyzing a semantic similarity question (S510) and a step of analyzing an expressive similar question (S520 ).
  • the similar question answer providing step (S500) may also include a step (S530) of searching for a question FAQ question similar to the input question by using the similarity result analyzed through the preceding step, and determining whether to provide an answer or not. have.
  • the semantic similarity question analysis step (S510) and the expressional similarity question analysis step (S520) exceeds a reference score based on the similarity measurement value (score) analyzed in the previous steps (S300, S400), or It may be a process of providing an answer in step S530 of determining whether or not to provide a similarity answer by determining whether it is exceeding.
  • a reference score based on the similarity measurement value (score) analyzed in the previous steps (S300, S400), or It may be a process of providing an answer in step S530 of determining whether or not to provide a similarity answer by determining whether it is exceeding.
  • 0.7 may be used as a reference value for determining the similarity. That is, an answer to the FAQ question showing a similarity of 0.7 or more is provided, and in the case of the similarity in expression, for example, 0.6 may be used as a reference value for determining the similarity. In other words, it is possible to provide an answer to general conversational knowledge showing a similarity of 0.6
  • 10 is an embodiment of a similar sentence recognized as an input query sentence and a paraphrase and a similarity measurement result.
  • the present invention can provide a source technology for developing a chatbot capable of understanding consultation contents in natural language and providing appropriate responses.
  • the embodiments of the present invention described above may be implemented as a computer program that can be executed on a computer device.
  • the computer program can be made into an executable file, and by executing the executable file on a computer device, various functions described above can be performed to obtain a desired result.
  • the executable file may be stored in a non-transitory or non-volatile recording medium (eg, a hard disk, a flash memory, a CD-ROM, etc.) readable by a computer device.
  • the executable file is executed, for example, by a processor provided in a general-purpose computer device, so that each function can be expressed.

Abstract

문장 패러프레이즈 인식 기반 대화 시스템 답변 방법에 따르면, 전처리 과정에서 분석된 형태소 분석 결과를 기반으로 기술 적용 도메인의 중요 키워드 인식 및 패턴 추출한다. 전처리 과정에서 분석된 형태소 분석 결과와 상기 추출한 중요 키워드 및 패턴을 이용한 질문 도메인/세부카테고리/화행의 분류한다. 분류한 질문 도메인 세부카테고리 화행 분류 자질을 질의 문장의 의미적 자질로 사용하여 모델을 학습하고 문장 의미 벡터를 추출하여 벡터간 유사성을 측정한다. 글자의 언어 모델을 학습하고 글자에 기반한 문장 표현 벡터를 추출하여 표현과 구조의 유사성을 분석한다. 분석된 의미적 유사도, 표현상 유사도에 기반하여 다양한 형태로 입력될 수 있는 입력 질의 문장에 대한 의미적, 표현적 정보를 내재한 벡터를 생성하고, FAQ 지식 속에 유사 질의 문장을 패러프레이즈 인식 기술로 찾아 답변을 제공한다. 고객 상담용 챗봇과 같은 자동 Q&A 서비스를 위한 대화 시스템에서 패러프레이징 인식 기술을 통해 입력된 문장(질의)의 의미와 의도가 유사한 질문-답변 지식(질문)을 탐색하여 관련된 답변을 제공할 수 있다.

Description

문장 패러프레이즈 인식 기반 대화 시스템 답변 방법
본 발명은 패러프레이징 인식(paraphrase recognition) 기술을 통해 입력된 문장(질의)의 의미와 의도가 유사한 질문-답변 지식(질문)을 탐색하여 관련된 답변을 제공하는 방법에 관한 내용이다.
본 발명은 FAQ, 고객상담 서비스 등에서 활용될 수 있는 발명이며, 자동 Q&A를 위한 대화 시스템에 적용된다. 문장임베딩 기술에 기반한 자연어 처리 및 이해 기술을 활용하고 있으며, 이를 통해 입력된 질문과 의미와 의도가 유사한 질문을 탐색할 수 있다.
Q&A 서비스(intelligence question and answering service)는 사용자가 입력한 질문에 대해 답변을 제공해주는 서비스이다. 네이버 지식인, Quora, Yahoo! answers 와 같이 전문가나 다른 사용자가 답변을 제공하는 커뮤니티형 온라인 플랫폼부터 IBM Watson, ETRI의 Exobrain 과 같이 고도화된 자연어 처리 기술과 구축된 지식베이스에 기반하여 자동으로 답변을 제공하는 지능형 Q&A 시스템까지 다양한 형태의 시스템으로 사용자의 질의에 대한 응답을 제공한다.
대화 시스템(dialog system)은 구체적인 목적을 가지며(goal oriented) 사용자와 대화를 하는(conversational) 컴퓨터 시스템을 말하며 일반적으로 사용자와 컴퓨터 간에 주고받는 질의와 응답의 과정이 대화와 같은 형식으로 이루어진다. 주로 사용자의 질의 입력 시 즉시 처리하여 요구에 적합한 응답을 하는 식으로 이루어지며, 최근에는 여러 턴에 걸쳐 이루어진 대화를 분석하여 응답을 제공하는 문맥 기반 대화 분석, 비동기 방식의 응답 제공 방법 등이 연구되고 있다. 본 발명에서는 이 대화 시스템을 이용하여 자동 Q&A 서비스를 제공하는 방법에 대해 기술한다.
대화 시스템에서 사용자와 컴퓨터 간에 대화로 소통(interaction)하기 위해서는 고차원의 자연어 처리 및 이해(natural language processing and understanding) 기술이 필요하다. 본 발명에서는 기본적으로 수행되는 형태소 분석과 POS 태깅부터 개체명 추출 및 인식과 같은 자연어 처리 과정과, 문장 임베딩, 도메인/의도 분류, 패러프레이즈 인식과 같은 자연어 이해 과정이 수행된다.
본 발명에서 문장 임베딩(sentence embedding) 기술은 질의 문장의 도메인/의도 분류, 문장 유사도 분석, 패러프레이즈 인식 파트에서 활용되는 방법이다. 기존에 잘 알려진 워드 임베딩 기술과 유사하게 자연어 표현을 벡터화(vector representation)하여 문장을 정해진 크기의 실수 벡터로 표현한다. 이를 위해 딥러닝 기반의 기계학습 모델을 이용하며, 추가적으로 적용 도메인에 맞춘 도메인 및 화행 분류 체계를 학습 자질로 함께 활용하여 문장을 벡터로 임베딩 한다. 문장을 벡터화 함으로써 의미/구조적 정보를 수치적 공간적 정보로 표현할 수 있으며, 이벡터를 통해 분류(classification), 군집화(clustering), 유사성 측정(similarity measuring)을 수행 할 수 있다.
본 발명은 고객 상담용 챗봇과 같은 자동 Q&A 서비스를 위한 대화 시스템에서 패러프레이징 인식 기술을 통해 입력된 문장(질의)의 의미와 의도가 유사한 질문-답변 지식(질문)을 탐색하여 관련된 답변을 제공할 수 있는 답변 방법을 제공하기 위한 것이다.
본 발명의 예시적인 실시예들에 따른 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법은, 컴퓨터 장치의 프로세서에 의해 실행되는 방법으로서, 전처리 과정에서 분석된 형태소 분석 결과를 기반으로 기술 적용 도메인의 중요 키워드 인식 및 패턴 추출 단계; 전처리 과정에서 분석된 형태소 분석 결과와 상기 추출한 중요 키워드 및 패턴을 이용한 질문 도메인/세부카테고리/화행의 분류 단계; 상기 분류한 질문 도메인 세부카테고리 화행 분류 자질을 질의 문장의 의미적 자질로 사용하여 모델을 학습하고 문장 의미 벡터를 추출하여 벡터간 유사성을 측정하는 의미적 유사 질문 분석 단계; 글자의 언어 모델을 학습하고 글자에 기반한 문장 표현 벡터를 추출하여 표현과 구조의 유사성을 분석하는 표현상 유사 질문 분석 단계; 및 상기 분석된 의미적 유사도, 표현상 유사도에 기반하여, 다양한 형태로 입력될 수 있는 입력 질의 문장에 대한 의미적, 표현적 정보를 내재한 벡터를 생성하고, FAQ 지식 속에 유사 질의 문장을 패러프레이즈 인식 기술로 찾아 답변을 제공하는 유사질문 답변 제공 단계를 포함한다.
일 실시예에 있어서, 상기 '기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계'는, 기술 적용 도메인 전용 개체명을 인식하는 단계; 형태소 분석 결과를 활용하여 적용 도메인에 특화된 복합어 정보를 추가로 추출하는 복합어 추출 단계; 특정 용어 표현을 정규화 하거나 특정 표현의 동의어 정보나 상위 개념 정보를 분석하는 동의어/상위어 분석 단계; 그리고 이전 단계에서 추출한 입력 질의에 대한 개체명, 복합어, 동의어, 상위어의 질문 표현들을 연결 관계에 따라 패턴화 하는 질문 표현 패턴 추출 단계를 포함할 수 있다.
일 실시예에 있어서, 상기 '기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계'는 전처리 과정에서 분석된 형태소 분석 결과를 기반으로 도메인에 특화된 개체명 및 복합어 사전을 구축하고, 구축된 개체명 및 복합어 사전의 어휘들을 동의어와 상위어의 시소러스나 어휘망으로 관계를 구축하는 것을 포함할 수 있다.
일 실시예에 있어서, 상기 '질문 도메인/세부카테고리/화행의 분류 단계'는 제1 학습 단계와 분류 단계를 포함할 수 있다. 상기 제1 학습 단계는, 시스템 적용 도메인에 특화된 Q&A를 위한 질의 문장 분류 체계 자질을 질문마다 태깅을 하는 학습 데이터 태깅 및 구축 단계; 및 구축된 학습 데이터를 딥러닝 기반의 분류 모델에 학습을 시키는 질문의도 분류 모델 학습 단계를 포함할 수 있다. 상기 분류 단계는, 학습된 분류 모델을 사용하여 새로운 입력 질의 문장에 대한 자질 분석을 수행하는 '질문 의도 분류 단계'; 및 학습된 모델을 통해 추가 테스트 질의 문장의 자질 분석 과정과 검토를 통한 학습데이터 수정 및 추가 구축하는 '분석 결과 텍스트화 및 추가 학습 데이터 반자동 태깅 단계'를 포함할 수 있다.
일 실시예에 있어서, 상기 '질문 도메인/세부카테고리/화행의 분류 단계'는, 전처리 과정에서 분석된 형태소 분석 결과와 상기 추출한 중요 키워드 및 패턴을 이용하여 학습데이터를 만들고 분류 모델을 학습하여 새로운 질의 문장에 대해 해당 분류자질들을 추출하는 것을 포함할 수 있다.
일 실시예에 있어서, 상기 의미적 유사 질문 분석 단계는 제2 학습 단계와 제1 유사도 분석 단계를 포함할 수 있다. 상기 제2 학습 단계는, 언어분석기(형태소태깅)에서 분석된 결과로 학습한 문장 형태소의 워드임베딩 벡터와 분류 모델을 통해 분석된 분류 자질을 의미 자질로 활용하며, 입력 구조체로 구조화하는 '문장 형태소 태깅, 의미 자질 (도메인, 화행) 분류 단계'; 및 Seq2Seq 기반의 인코더-디코더 모델과 학습한 분류 모델을 결합한 딥러닝 모델에 학습시키는 '의미자질 기반 문장 임베딩 모델 학습 단계'를 포함할 수 있다. 상기 제1 유사도 분석 단계는, 학습된 인코더 모델을 이용하여 새로운 입력 질의 문장을 문장 의미 벡터로 임베딩하는 질문 의도 임베딩 수행 단계; 및 변환한 문장 의미 벡터를 이용하여, 벡터 간 유사도 측정 방법을 통해 질의 문장과 정제된 답변 지식이 있는 FAQ 질문과의 유사도를 측정하는 '임베딩 벡터 기반 의미적 유사도 측정 단계'를 포함할 수 있다.
일 실시예에 있어서, 상기 '질문 의도 임베딩 수행 단계'는 상기 입력 질의 문장을 원하는 차원의 실수 벡터로 질문 변환을 수행하는 것을 포함할 수 있다.
일 실시예에 있어서, 상기 '표현상 유사 질문 분석 단계'는 제3 학습단계와 제2 유사도 분석 단계를 포함할 수 있다. 상기 '제3 학습 단계'는 질의 문장에 등장한 글자의 언어모델을 학습하는 인코더-디코더 모델을 구현하기 위해서 글자 수준(character-level)으로 입력 벡터를 만드는 '글자 단위로 토큰화 하는 단계'; 및 질의 문장에 등장한 글자의 언어모델을 학습하는 인코더-디코더 모델을 학습하는 '글자 표현 기반 임베딩 모델 학습 단계'를 포함할 수 있다. 상기 '제2 유사도 분석 단계'는 학습된 글자 수준 임베딩 모델을 사용하며, 글자만 이용해서 문장의 표현 정보만을 가진 문장 표현 벡터를 생성하는 글자 수준의 임베딩 수행 단계; 및 분석된 문장 표현 벡터를 이용하여 입력 문장의 글자와 구조와 같은 외재적(explicit)인 유사성을 측정하는 임베딩 벡터 기반 표현적 유사도 측정 단계를 포함할 수 있다.
일 실시예에 있어서, 상기 '표현상 유사 질문 분석 단계'는 글자의 언어 모델을 학습하고 글자에 기반한 문장 표현 벡터를 추출하여 표현과 구조의 유사성을 분석하는 것을 포함할 수 있다.
일 실시예에 있어서, 상기 '유사질문 답변 제공 단계'는 의미적 유사도 질문 분석 단계와 표현상 유사질문 분석 단계를 포함할 수 있으며, 분석된 유사도 결과를 이용하여 입력된 질문과 유사한 FAQ 질문을 탐색하고, 답변을 제공할지 말지를 결정하는 것을 포함할 수 있다.
일 실시예에 있어서, 상기 '유사질문 답변 제공 단계'는 상기 분석된 의미적 유사도, 표현상 유사도에 기반하여 정제된 FAQ 질의 문장의 패러프레이즈 문장임을 인식하고 유사도 점수에 따라 해당 FAQ 질의 문장의 답변을 제공하는 것을 포함할 수 있다.
본 발명은 고객 상담용 챗봇과 같은 자동 Q&A 서비스를 위한 대화 시스템에서 답변을 제공하기 위한 원천 기술로서 제공한다. 이 기술을 통해 다양한 표현으로 변형하여 입력될 수 있는 자연어 질의 문장을 의미적, 구조적 정보를 담아 벡터로 변환할 수 있으며, 이를 이용하여 입력 질의와 기 구축된 지식의 문장과 유사 여부를 판단 할 수 있다. 그리고 유사도 점수에 따라 해당 입력의 답변을 제공할지 말지를 판단하여 질의에 대한 답변을 제공 할 수 있다. 금융 도메인과 같이 기술 적용 도메인에 따라 엄격히 정제된 답변을 제공하길 희망하는 경우, 문장 생성 모델을 이용하는 방법에 비해 신뢰할 답변을 제공 할 수 있는 장점이 있다.
도 1은 본 발명의 실시예에 따른 문장 임베딩 유사도에 기반한 패러프레이즈 인식에 따른 자동 Q&A 대화 시스템의 답변 방법을 나타내는 흐름도이다.
도 2는 본 발명의 실시예에 따른 기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계에 관한 상세 흐름도이다.
도 3은 본 발명의 실시예에 따른 질문 도메인/세부카테고리/화행 분류 단계에 관한 상세 흐름도이다.
도 4는 본 발명의 실시예에 따른 의미적 유사 질문 분석 단계에 관한 상세 흐름도이다.
도 5는 본 발명의 실시예에 따른 표현상 유사 질문 분석 단계에 관한 상세 흐름도이다.
도 6은 본 발명의 실시예에 따른 유사 질문 답변 제공 단계에 관한 상세 흐름도이다.
도 7은 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법에 대한 개념도이다.
도 8은 본 발명에서 의미적 유사 질문 분석에 사용한 질의 문장 임베딩을 위한 학습 모델의 구성도이다. 문장 의미 벡터를 생성하기 위해 입력된 질의 문장, 도메인, 세부 카테고리, 화행 정보가 필요하며 본 모델의 입력과 출력으로 활용된다.
도 9는 본 발명에서 표현상 유사 질문 분석에 사용한 글자 임베딩 모델의 구성도이다. 각 글자는 각 신경망의 입력이 되며 한 문장에 함께 등장하는 글자, 표현, 구조 정보를 학습하며, 이 정보를 임베딩 벡터에 반영한다.
도 10은 입력 질의 문장과 패러프레이즈로 인식된 유사 문장과 유사도 측정 결과를 예시한다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 첨부되는 도면을 참조하여 본 발명의 실시 형태에 따른 패러프레이징 인식 기술을 통해 입력된 문장(질의)의 의미와 의도가 유사한 질문-답변 지식(질문)을 탐색하여 관련된 답변을 제공하는 방법을 설명한다.
도 1은 본 발명의 실시예에 따른 문장 임베딩 유사도에 기반한 패러프레이즈 인식에 따른 자동 Q&A 대화 시스템의 답변 방법을 나타내는 흐름도이다.
도 1을 참조하면, 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법은 기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계(S100), 질문 도메인/세부카테고리/화행 분류 단계(S200), 의미적 유사 질문 분석 단계(S300), 표현상 유사 질문 분석 단계(S400), 유사질문 답변 제공 단계(S500)를 포함할 수 있다.
도 7은 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법에 대한 개념도이다. 도 7을 참조하면, 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법에 대한 예시적인 실시예가 제시되어 있다.
상기 기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계(S100)는 전처리 과정에서 분석된 형태소 분석 결과에 기초하여 수행될 수 있다. 이 단계는 입력된 질의 문장에서 적용 도메인과 관련된 개체명, 복합어, 동의어, 상위어 등을 분석하고, 이를 패턴화 하여 답변과 질문을 매핑할 수 있게 자질을 추출하는 과정이다. 도메인에 특화된 개체명 사전과 복합어 사전을 개체명/복합어 후보 추출을 위한 기계학습 모델을 통해 반자동 방식으로 구축하고, 사전 어휘(vocabrary)의 동의어, 상위어 개념 정보들을 어휘망 또는 시소러스로 구축한다. 이를 통해 입력된 질의에서 답변을 찾을 수 있는 중요 키워드들을 추출할 수 있고, 일부 용언 표현도 동의 또는 상위 개념으로 표현 할 수 있다.
상기 질문 도메인/세부카테고리/화행 분류 단계(S200)는 새로운 입력 질의 문장의 질문 도메인/세부카테고리/화행 자질을 분석하는 과정이다. 이 단계는 전처리 과정에서 분석된 형태소 분석 결과와 상기 추출한 중요 키워드 및 패턴을 이용하여 수행될 수 있다. 단계 S100에서 추출된 패턴 정보와 함께, 도메인, 카테고리, 화행 정보를 질문-답변 지식을 구축하거나 답변을 찾는 데 활용한다. 이 단계(S200)의 학습 과정에서는 학습 질문 데이터마다 도메인, 세부카테고리, 화행 정보를 태깅하는 과정이 필요하다. 본 발명에 따른 실시예에서는 질문 의도 분류 모델은 딥러닝 기반의 신경망 모델을 사용할 수 있다. 이와 달리, 질문 의도 분류 모델은 다른 학습 기반의 분류 모델을 대체 사용할 수도 있다. 또한 새로운 질의 문장의 분류 결과를 검토하여 추가 학습데이터 반자동 구축에 활용 할 수 있다.
상기 의미적 유사 질문 분석 단계(S300)는 상기 단계 S200에서 분류한 질문 도메인 세부카테고리 화행 분류 자질을 질의 문장의 의미적 자질로 사용하여 모델을 학습하고 문장 의미 벡터를 추출하여 벡터간 유사성을 측정하는 단계이다. 즉, 이 단계(S300)는 입력 질의 문장을 정해진 길이로 벡터화하는 문장 임베딩을 수행하고, FAQ 지식의 질문과의 의미적 유사도를 측정하는 과정이다. 이를 위해 문장 임베딩 모델 학습 과정이 선행될 수 있으며, S200에서 구축한 도메인, 세부카테고리, 화행 자질과 질의 문장을 도 8의 학습 모델에 학습시킬 수 있다.
상기 표현상 유사 질문 분석 단계(S400)는 입력 문장의 글자와 구조 정보만 이용하여 문장을 벡터로 임베딩 하는 과정이다. 이 단계(S400)는 글자의 언어 모델을 학습하고 글자에 기반한 문장 표현 벡터를 추출하여 표현과 구조의 유사성을 분석하는 단계이다. 문장에서 키워드 패턴 추출이 안 되었거나, 도메인이나 세부카테고리 자질이 분류되지 않아서 앞선 단계에서 답변을 제공할 수 없는 경우에, 본 단계를 통해 입력 문장과 유사한 표현에 대한 답변이나 반응을 제공할 수 있다.
상기 유사질문 답변 제공 단계(S500)는 단계 S300과 S400에서 분석된 유사 문장 분석 결과를 유사도 점수로 활용하여 입력된 질의 문장에 대한 답변의 제공 여부를 결정하는 과정이다. 즉, 이 단계(S500)는 단계 S300에서 얻을 수 있는 분석된 의미적 유사도, 단계 S400에서 얻을 수 있는 표현상 유사도에 기반하여, 다양한 형태로 입력될 수 있는 입력 질의 문장에 대한 의미적, 표현적 정보를 내재한 벡터를 생성하고, FAQ 지식 속에 유사 질의 문장을 패러프레이즈 인식 기술로 찾아 답변을 제공하는 단계이다.
도 2는 본 발명의 실시예에 따른 기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계(S100)에 관한 상세 흐름도이다.
도 2를 참조하면, 일 실시예에 따른 '기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계'(S100)는, 기술 적용 도메인 전용 개체명 인식 단계(S110)와, 복합어 추출 단계(S120), 동의어/상위어 분석 단계(S130), 질문 표현 패턴 추출 단계(S140) 등을 포함할 수 있다.
예시적인 실시예에 따른 상기 기술 적용 도메인 전용 개체명 인식 단계(S110)는 기술 적용 도메인 전용 개체명을 인식하는 과정이다. 예시적인 실시예에서, 상기 기술 적용 도메인 전용 개체명은 금융 기관명, 특정 상품명, 지명(지점명), 금액 정보, 날짜 정보, 비식별 표현 등을 포함할 수 있다. 이 단계에서, 기존의 개체명 인식 기술을 이용하여 특정 도메인 특화된 개체명 사전, 복합어 사전을 구축할 수 있다.
예시적인 실시예에 따른 상기 복합어 추출 단계(S120)는 형태소 분석 결과를 활용하여 적용 도메인에 특화된 복합어 정보를 추가로 추출하는 과정으로서, 입력 문장 내의 특정 상품명이나 중요 키워드를 잡는 데 활용될 수 있다. 개체명 사전과 유사하게, 적용 도메인에 따라 별도의 사전이 구축될 수 있는데, 이 과정에서 기계학습 모델을 이용하여 개체명/복합어 후보를 추출할 수 있다. 이를 시스템 개발자가 반자동으로 사전에 등록할지 말지를 결정할 수 있다.
예시적인 실시예에 따른 상기 동의어/상위어 분석 단계(S130)는 특정 용어 표현을 정규화 하거나 특정 표현의 동의어 정보나 상위 개념 정보를 분석하는 과정이다. 이전 단계에서 구축된 개체명 및 복합어 사전의 어휘들을 동의의와 상위어의 시소러스 또는 어휘망으로 관계를 구축할 수 있다.
예시적인 실시예에 따른 상기 질문 표현 패턴 추출 단계(S140)는 이전 단계에서 추출한 입력 질의에 대한 개체명, 복합어, 동의어, 상위어 등의 질문 표현들을 연결 관계에 따라 패턴화 하는 과정일 수 있다.
도 3은 본 발명의 실시예에 따른 질문 도메인/세부카테고리/화행 분류 단계(S200)에 관한 상세 흐름도이다.
도 3을 참조하면, 예시적인 일 실시예에 따른 상기 질문 도메인/세부카테고리/화행 분류 단계(S200)는, 크게 학습 단계와 분류 단계로 구분될 수 있다. 학습 단계에서는 학습 데이터 태깅 및 구축 단계(S210), 질문의도 분류 모델 학습 단계(S220) 등을 포함할 수 있다. 분류 단계에서는 질문 의도 분류 단계(S230), 분석 결과 텍스트화 및 추가 학습 데이터 반자동 태깅 단계(S240)를 포함 할 수 있다.
예시적인 실시예에 따른 상기 학습 데이터 태깅 및 구축 단계(S210)는 시스템 적용 도메인에 특화된 Q&A를 위한 질의 문장 분류 체계 자질을 질문마다 태깅을 하는 과정이다. 이 단계에서는, 도메인, 세부 카테고리, 화행 등의 자질을 태깅하여 분류 모델을 학습 및 평가하기 위한 데이터를 만든다,
예시적인 실시예에 따른 상기 질문의도 분류 모델 학습 단계(S220)는 이전 단계(S210)에서 구축된 학습 데이터를 딥러닝 기반의 분류 모델에 학습을 시키는 과정이다. 4종의 학습 기반 분류 모델(SVM, RF, FC-MLP, ELM)을 구현하여 분류 성능을 비교하였다. 예시적인 실시예에서는 FC-MLP 기반의 분류 모델을 채용하여 사용하고 있다.
예시적인 실시예에 따른 상기 질문 의도 분류 단계(S230)는 학습된 분류 모델을 사용하여 새로운 입력 질의 문장에 대한 자질 분석을 수행하는 과정으로, 규칙 기반 답변 제공에 활용하고 분류기 자체의 분류 정확도를 평가하는데 이용된다. 또한 분석 과정을 통해 분류 예측율과 분류 정확도를 기반으로 추후 답변 제공 기준 점수(threshold)를 결정하는데 활용되었다.
예시적인 실시예에 따른 상기 분석 결과 텍스트화 및 추가 학습 데이터 반자동 태깅 단계(S240)는 학습데이터를 추가 구축하기 위한 과정으로, 학습된 모델을 통해 추가 테스트 질의 문장의 자질 분석 과정과 검토를 통한 학습데이터 수정 및 추가 구축 과정을 수행한다. 기계학습 기반의 분류 모델의 자질 추출 성능을 향상하기 위해서는 보다 많은 정제된 학습데이터가 필요하다.
도 4는 본 발명의 실시예에 따른 의미적 유사 질문 분석 단계에 관한 상세 흐름도이다.
도 4를 참조 하면 일 실시예에 따르면, 의미적 유사 질문 분석 단계는, 학습 단계와 유사도 분석 단계로 구분될 수 있다. 상기 학습 단계는 문장 형태소 태깅, 의미 자질 (도메인, 화행) 분류 단계(S310), 의미자질 기반 문장 임베딩 모델 학습 단계(S320)를 포함할 수 있다. 상기 유사도 분석 단계는 질문 의도 임베딩 수행 단계(S330), 임베딩 벡터 기반 의미적 유사도 측정 단계(S340)를 포함할 수 있다.
예시적인 실시예에 따른 상기 문장 형태소 태깅, 의미 자질 (도메인, 화행) 분류 단계(S310)는 이전의 단계에서 분석된 결과를 모아서 모델에 학습시킬 데이터를 정리하는 과정이다. 이 과정에서는 언어분석기(형태소태깅)에서 분석된 결과로 학습한 문장 형태소의 워드임베딩 벡터와 분류 모델을 통해 분석된 분류 자질을 의미 자질로 활용하며, 입력 구조체로 구조화한다.
예시적인 실시예에 따른 상기 의미 자질 기반 문장 임베딩 모델 학습 단계(S320)는 Seq2Seq 기반의 인코더-디코더 모델과 이전 단계(S200)에서 학습한 분류 모델을 결합한 딥러닝 모델에 학습시키는 과정이다. 이 모델을 통해 문장의 언어 모델을 학습하며 동시에 도메인, 카테고리, 화행 분류와 같은 의미적 정보를 담는 문장 의미 벡터를 생성하는 인코더 모델을 구축할 수 있다.
예시적인 실시예에 따른 상기 질문 의도 임베딩 수행 단계(S330)는 이전 단계(S320)에서 학습된 인코더 모델을 이용하여 새로운 입력 질의 문장을 문장 의미 벡터로 임베딩하는 과정이다. 이 과정에서는, 입력된 질의 문장에 대하여 원하는 차원의 실수 벡터로 질문을 변환한다.
예시적인 실시예에 따른 상기 임베딩 벡터 기반 의미적 유사도 측정 단계(S340)는 이전 단계에서 변환한 문장 의미 벡터를 이용하여, 벡터 간 유사도 측정 방법을 통해 질의 문장과 정제된 답변 지식이 있는 FAQ 질문과의 유사도를 측정하는 과정이다. 본 발명의 실시예에서는 벡터 간 유사도를 측정할 수 있는 코사인 유사도(cosine similarity)를 이용하였으며 유사한 벡터 간 유사도 측정 방법으로 대체할 수 있다.
도 8은 본 발명에서 의미적 유사 질문 분석에 사용한 질의 문장 임베딩을 위한 학습 모델의 실시예를 도시한다. 문장 의미 벡터를 생성하기 위해 입력된 질의 문장, 도메인, 세부 카테고리, 화행 정보가 필요하며 도 8에 예시된 학습 모델의 입력으로 활용될 수 있다.
다음으로, 도 5는 본 발명의 실시예에 따른 표현상 유사 질문 분석 단계(S400)에 관한 상세 흐름도이다.
도 5를 참조하면 일 실시예에 따른 상기 표현상 유사 질문 분석 단계(S400) 역시 학습 단계와 유사도 분석 단계를 포함할 수 있다. 상기 학습 단계는 글자 단위로 토큰화 하는 단계(S410)와 글자 표현 기반 임베딩 모델 학습 단계(S420)를 포함할 수 있다. 상기 유사도 분석 단계는 글자 수준의 임베딩 수행 단계(S430)와 임베딩 벡터 기반 표현적 유사도 측정 단계(S440)를 포함할 수 있다.
예시적인 실시예에 따른 상기 글자 단위로 토큰화 하는 단계(S410)는 질의 문장에 등장한 글자의 언어모델을 학습하는 인코더-디코더 모델을 구현하기 위해서 글자 수준(character-level)으로 입력 벡터를 만드는 과정으로서, 워드임베딩 벡터가 쓰였던 이전 단계(S300)와는 다르게 글자 어휘의 One-hot encoding 벡터를 이용할 수 있다.
예시적인 실시예에 따른 상기 글자 표현 기반 임베딩 모델 학습 단계(S420)는 질의 문장에 등장한 글자의 언어모델을 학습하는 인코더-디코더 모델을 학습하는 과정일 수 있다. 이 단계에서는 본 학습 과정을 통해 문장 내에 함께 등장하는 글자 간의 언어 모델이 학습될 수 있다. 이를 통해 문장을 구성하는 글자들의 관계를 벡터화 할 수 있다. 또한 디코더를 통해 문장을 구성하는 글자를 예측할 수 있게 된다.
예시적인 실시예에 따른 상기 글자 수준의 임베딩 수행 단계(S430)는 이전 단계(S300)의 의미적 자질을 이용하여 질의 문장을 임베딩 하는 과정과 유사하게 글자만 이용해서 문장의 표현 정보만을 가진 문장 표현 벡터를 생성하는 과정일 수 있다.
예시적인 실시예에 따른 상기 임베딩 벡터 기반 표현적 유사도 측정 단계(S440)는 분석된 문장 표현 벡터를 이용하여 입력 문장의 글자와 구조와 같은 외재적(explicit)인 유사성을 측정하는 과정일 수 있다. 이 단계는 의미적 유사성을 측정하기가 어렵거나 적용한 도메인에 관련이 없는 입력 대화에 대해 반응하기 위해서 개발된 단계로서, 주로 인사말, 욕설 등의 감정 표현에 대한 반응을 제공할 수 있다. 이전 단계(S300)와 마찬가지로 벡터 간 유사성을 측정하는 방법을 사용할 수 있고, 예시적인 실시예에서는 코사인 유사도를 사용할 수 있다.
도 9는 본 발명에서 표현상 유사 질문 분석에 사용한 글자 임베딩 모델의 실시예이다. 각 글자는 각 신경망의 입력이 되며 한 문장에 함께 등장하는 글자, 표현, 구조 정보를 학습하며, 이 정보를 임베딩 벡터에 반영한다.
도 6은 본 발명의 실시예에 따른 유사 질문 답변 제공 단계(S500)에 관한 상세 흐름도이다.
도 6를 참조 하면 일 실시예에 따른 상기 유사질문 답변 제공 단계(S500)는 의미적 유사도 질문 분석 단계(S510)와 표현상 유사질문 분석 단계(S520)를 포함할 수 있다. 상기 유사질문 답변 제공 단계(S500)는 또한 선행 단계를 통해 분석된 유사도 결과를 이용하여 입력된 질문과 유사한 질문 FAQ 질문을 탐색하고, 답변을 제공할지 말지를 결정하는 단계(S530)를 포함 할 수 있다.
예시적인 실시예에 따른 의미적 유사도 질문 분석 단계(S510)와 표현상 유사질문 분석 단계(S520)는 이전 단계(S300, S400)에서 분석된 유사도 측정값(점수)에 기준하여 기준 점수를 넘는지 또는 안 넘는지를 판단하여 유사도 답변을 제공할지 말지를 결정하는 단계(S530)에서 답변을 제공하는 과정일 수 있다. 본 발명의 예시적인 실시예에서는, 의미적 유사도는 예컨대 0.7을 유사도 판단의 기준치로 삼을 수 있다. 즉, 0.7 이상의 유사도를 보이는 FAQ 질문의 답변을 제공하고, 표현상 유사도의 경우는 예컨대 0.6을 유사도 판단의 기준치로 삼을 수 있다. 즉, 0.6 이상의 유사도를 보이는 일반 대화 지식의 답변을 제공할 수 있다.
도 10은 입력 질의 문장과 패러프레이즈로 인식된 유사 문장과 유사도 측정 결과에 대한 실시예이다.
이와 같이 본 발명은 자연어로 이루어지는 상담내용을 이해하고 적합한 응답을 해줄 수 있는 챗봇을 개발하는 원천 기술을 제공할 수 있다. 이상에서 설명한 본 발명의 실시예들은 컴퓨터 장치에서 실행될 수 있는 컴퓨터 프로그램으로 구현될 수 있다. 그 컴퓨터 프로그램은 실행 파일로 만들어질 수 있고, 그 실행 파일을 컴퓨터 장치에서 실행함으로써 위에서 설명한 여러 가지 기능들이 수행되어 원하는 결과를 얻을 수 있다. 그리고 그 실행 파일은 컴퓨터 장치에 의해 읽을 수 있는 비일시적 내지 비휘발성 기록매체(예컨대 하드디스크, 플래시메모리, CD-ROM 등)에 저장될 수 있다. 그 실행파일은 예컨대 범용 컴퓨터 장치에 마련되는 프로세서에 의해 실행되어 각각의 기능이 발현될 수 있다.
이상에서 실시예들에 설명된 특징, 구조, 효과 등은 본 발명의 하나의 실시예에 포함되며, 반드시 하나의 실시예에만 한정되는 것은 아니다. 나아가, 각 실시예에서 예시된 특징, 구조, 효과 등은 실시예들이 속하는 분야의 통상의 지식을 가지는 자에 의해 다른 실시예들에 대해서도 조합 또는 변형되어 실시 가능하다. 따라서 이러한 조합과 변형에 관계된 내용들은 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.
또한, 이상에서 실시예를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 실시예에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (11)

  1. 컴퓨터 장치의 프로세서에 의해 실행되는 방법으로서,
    전처리 과정에서 분석된 형태소 분석 결과를 기반으로 기술 적용 도메인의 중요 키워드 인식 및 패턴 추출 단계;
    전처리 과정에서 분석된 형태소 분석 결과와 상기 추출한 중요 키워드 및 패턴을 이용한 질문 도메인/세부카테고리/화행의 분류 단계;
    상기 분류한 질문 도메인 세부카테고리 화행 분류 자질을 질의 문장의 의미적 자질로 사용하여 모델을 학습하고 문장 의미 벡터를 추출하여 벡터간 유사성을 측정하는 의미적 유사 질문 분석 단계;
    글자의 언어 모델을 학습하고 글자에 기반한 문장 표현 벡터를 추출하여 표현과 구조의 유사성을 분석하는 표현상 유사 질문 분석 단계; 및
    상기 분석된 의미적 유사도, 표현상 유사도에 기반하여, 다양한 형태로 입력될 수 있는 입력 질의 문장에 대한 의미적, 표현적 정보를 내재한 벡터를 생성하고, FAQ 지식 속에 유사 질의 문장을 패러프레이즈 인식 기술로 찾아 답변을 제공하는 유사질문 답변 제공 단계를 포함하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.
  2. 제1항에 있어서, 상기 '기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계'는, 기술 적용 도메인 전용 개체명을 인식하는 단계; 형태소 분석 결과를 활용하여 적용 도메인에 특화된 복합어 정보를 추가로 추출하는 복합어 추출 단계; 특정 용어 표현을 정규화 하거나 특정 표현의 동의어 정보나 상위 개념 정보를 분석하는 동의어/상위어 분석 단계; 그리고 이전 단계에서 추출한 입력 질의에 대한 개체명, 복합어, 동의어, 상위어의 질문 표현들을 연결 관계에 따라 패턴화 하는 질문 표현 패턴 추출 단계를 포함하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.
  3. 제2항에 있어서, 상기 '기술 적용 도메인 중요 키워드 인식 및 패턴 추출 단계'는 전처리 과정에서 분석된 형태소 분석 결과를 기반으로 도메인에 특화된 개체명 및 복합어 사전을 구축하고, 구축된 개체명 및 복합어 사전의 어휘들을 동의어와 상위어의 시소러스나 어휘망으로 관계를 구축하는 것을 포함하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.
  4. 제1항에 있어서, 상기 '질문 도메인/세부카테고리/화행의 분류 단계'는 제1 학습 단계와 분류 단계를 포함하며,
    상기 제1 학습 단계는, 시스템 적용 도메인에 특화된 Q&A를 위한 질의 문장 분류 체계 자질을 질문마다 태깅을 하는 학습 데이터 태깅 및 구축 단계; 및 구축된 학습 데이터를 딥러닝 기반의 분류 모델에 학습을 시키는 질문의도 분류 모델 학습 단계를 포함하며,
    상기 분류 단계는, 학습된 분류 모델을 사용하여 새로운 입력 질의 문장에 대한 자질 분석을 수행하는 '질문 의도 분류 단계'; 및 학습된 모델을 통해 추가 테스트 질의 문장의 자질 분석 과정과 검토를 통한 학습데이터 수정 및 추가 구축하는 '분석 결과 텍스트화 및 추가 학습 데이터 반자동 태깅 단계'를 포함하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.
  5. 제1항에 있어서, 상기 '질문 도메인/세부카테고리/화행의 분류 단계'는, 전처리 과정에서 분석된 형태소 분석 결과와 상기 추출한 중요 키워드 및 패턴을 이용하여 학습데이터를 만들고 분류 모델을 학습하여 새로운 질의 문장에 대해 해당 분류자질들을 추출하는 것을 포함하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.
  6. 제1항에 있어서, 상기 의미적 유사 질문 분석 단계는 제2 학습 단계와 제1 유사도 분석 단계를 포함하며,
    상기 제2 학습 단계는, 언어분석기(형태소태깅)에서 분석된 결과로 학습한 문장 형태소의 워드임베딩 벡터와 분류 모델을 통해 분석된 분류 자질을 의미 자질로 활용하며, 입력 구조체로 구조화하는 '문장 형태소 태깅, 의미 자질 (도메인, 화행) 분류 단계'; 및 Seq2Seq 기반의 인코더-디코더 모델과 학습한 분류 모델을 결합한 딥러닝 모델에 학습시키는 '의미자질 기반 문장 임베딩 모델 학습 단계'를 포함하며,
    상기 제1 유사도 분석 단계는, 학습된 인코더 모델을 이용하여 새로운 입력 질의 문장을 문장 의미 벡터로 임베딩하는 질문 의도 임베딩 수행 단계; 및 변환한 문장 의미 벡터를 이용하여, 벡터 간 유사도 측정 방법을 통해 질의 문장과 정제된 답변 지식이 있는 FAQ 질문과의 유사도를 측정하는 '임베딩 벡터 기반 의미적 유사도 측정 단계'를 포함하는 것을 특징으로 하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.
  7. 제1항에 있어서, 상기 '질문 의도 임베딩 수행 단계'는 상기 입력 질의 문장을 원하는 차원의 실수 벡터로 질문 변환을 수행하는 것을 포함하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.
  8. 제1항에 있어서, 상기 '표현상 유사 질문 분석 단계'는 제3 학습단계와 제2 유사도 분석 단계를 포함하며,
    상기 '제3 학습 단계'는 질의 문장에 등장한 글자의 언어모델을 학습하는 인코더-디코더 모델을 구현하기 위해서 글자 수준(character-level)으로 입력 벡터를 만드는 '글자 단위로 토큰화 하는 단계'; 및 질의 문장에 등장한 글자의 언어모델을 학습하는 인코더-디코더 모델을 학습하는 '글자 표현 기반 임베딩 모델 학습 단계'를 포함하고,
    상기 '제2 유사도 분석 단계'는 학습된 글자 수준 임베딩 모델을 사용하며, 글자만 이용해서 문장의 표현 정보만을 가진 문장 표현 벡터를 생성하는 글자 수준의 임베딩 수행 단계; 및 분석된 문장 표현 벡터를 이용하여 입력 문장의 글자와 구조와 같은 외재적(explicit)인 유사성을 측정하는 임베딩 벡터 기반 표현적 유사도 측정 단계를 포함하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.
  9. 제1항에 있어서, 상기 '표현상 유사 질문 분석 단계'는 글자의 언어 모델을 학습하고 글자에 기반한 문장 표현 벡터를 추출하여 표현과 구조의 유사성을 분석하는 것을 포함하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.
  10. 제1항에 있어서, 상기 '유사질문 답변 제공 단계'는 의미적 유사도 질문 분석 단계와 표현상 유사질문 분석 단계를 포함할 수 있으며, 분석된 유사도 결과를 이용하여 입력된 질문과 유사한 FAQ 질문을 탐색하고, 답변을 제공할지 말지를 결정하는 것을 포함하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.
  11. 제1항에 있어서, 상기 '유사질문 답변 제공 단계'는 상기 분석된 의미적 유사도, 표현상 유사도에 기반하여 정제된 FAQ 질의 문장의 패러프레이즈 문장임을 인식하고 유사도 점수에 따라 해당 FAQ 질의 문장의 답변을 제공하는 것을 포함하는 것을 특징으로 하는 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법.
PCT/KR2019/015953 2019-11-20 2019-11-20 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법 WO2021100902A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/777,813 US20230069935A1 (en) 2019-11-20 2019-11-20 Dialog system answering method based on sentence paraphrase recognition
PCT/KR2019/015953 WO2021100902A1 (ko) 2019-11-20 2019-11-20 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2019/015953 WO2021100902A1 (ko) 2019-11-20 2019-11-20 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법

Publications (1)

Publication Number Publication Date
WO2021100902A1 true WO2021100902A1 (ko) 2021-05-27

Family

ID=75980509

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/015953 WO2021100902A1 (ko) 2019-11-20 2019-11-20 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법

Country Status (2)

Country Link
US (1) US20230069935A1 (ko)
WO (1) WO2021100902A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114090762A (zh) * 2022-01-21 2022-02-25 浙商期货有限公司 一种期货领域的自动问答方法和系统
CN114691852A (zh) * 2022-06-01 2022-07-01 阿里巴巴达摩院(杭州)科技有限公司 人机对话系统及方法
CN114706965A (zh) * 2022-03-22 2022-07-05 广州营客信息科技有限公司 Ai智慧客服系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11741371B2 (en) * 2020-03-20 2023-08-29 International Business Machines Corporation Automatically generating diverse text
CN116108158B (zh) * 2023-04-13 2023-07-28 合肥工业大学 在线互动问答文本特征构造方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160060247A (ko) * 2014-11-19 2016-05-30 한국전자통신연구원 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈
US10140977B1 (en) * 2018-07-31 2018-11-27 botbotbotbot Inc. Generating additional training data for a natural language understanding engine
KR20190072823A (ko) * 2017-12-18 2019-06-26 한국과학기술원 Rnn 문장임베딩과 elm 알고리즘을 이용한 은행업무 관련 고객상담을 위한 도메인 특화 화행분류 방법
KR20190109614A (ko) * 2018-02-27 2019-09-26 주식회사 와이즈넛 계층적으로 사용자 표현을 이해하고 답변을 생성하는 대화형 상담 챗봇 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160060247A (ko) * 2014-11-19 2016-05-30 한국전자통신연구원 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈
KR20190072823A (ko) * 2017-12-18 2019-06-26 한국과학기술원 Rnn 문장임베딩과 elm 알고리즘을 이용한 은행업무 관련 고객상담을 위한 도메인 특화 화행분류 방법
KR20190109614A (ko) * 2018-02-27 2019-09-26 주식회사 와이즈넛 계층적으로 사용자 표현을 이해하고 답변을 생성하는 대화형 상담 챗봇 장치 및 방법
US10140977B1 (en) * 2018-07-31 2018-11-27 botbotbotbot Inc. Generating additional training data for a natural language understanding engine

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ANONYMOUS: "Development of Conversational Solution for Intelligent Chat Services Based on Pragmatic and Context Analysis of Dialogues", 14 June 2018 (2018-06-14), pages 1 - 75, XP055826223, Retrieved from the Internet <URL:http://www.ndsl.kr/ndsl/search/detail/report/reportSearchResultDetail.do?cn=TRKO201800042054> [retrieved on 20190807] *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114090762A (zh) * 2022-01-21 2022-02-25 浙商期货有限公司 一种期货领域的自动问答方法和系统
CN114090762B (zh) * 2022-01-21 2022-06-03 浙商期货有限公司 一种期货领域的自动问答方法和系统
CN114706965A (zh) * 2022-03-22 2022-07-05 广州营客信息科技有限公司 Ai智慧客服系统
CN114706965B (zh) * 2022-03-22 2022-11-11 广州营客信息科技有限公司 Ai智慧客服系统
CN114691852A (zh) * 2022-06-01 2022-07-01 阿里巴巴达摩院(杭州)科技有限公司 人机对话系统及方法
CN114691852B (zh) * 2022-06-01 2022-08-12 阿里巴巴达摩院(杭州)科技有限公司 人机对话系统及方法

Also Published As

Publication number Publication date
US20230069935A1 (en) 2023-03-09

Similar Documents

Publication Publication Date Title
KR20190133931A (ko) 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법
WO2021100902A1 (ko) 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법
CN110096570B (zh) 一种应用于智能客服机器人的意图识别方法及装置
CN108287822B (zh) 一种中文相似问题生成系统与方法
CN107798140B (zh) 一种对话系统构建方法、语义受控应答方法及装置
US10169703B2 (en) System and method for analogy detection and analysis in a natural language question and answering system
WO2011065617A1 (ko) 과학기술핵심개체 간 의미적 연관관계 자동 추출을 위한 시맨틱 구문 트리 커널 기반 처리 시스템 및 방법
JPWO2014033799A1 (ja) 単語意味関係抽出装置
CN110096599B (zh) 知识图谱的生成方法及装置
Zhang et al. Video-aided unsupervised grammar induction
CN113343706B (zh) 基于多模态特征和语义规则的文本抑郁倾向检测系统
CN112541337A (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及系统
CN113157859A (zh) 一种基于上位概念信息的事件检测方法
CN112380866A (zh) 一种文本话题标签生成方法、终端设备及存储介质
CN111091009B (zh) 一种基于语义分析的文档关联审核方法
CN115713072A (zh) 一种基于提示学习和上下文感知的关系类别推断系统及方法
CN113157887A (zh) 知识问答意图识别方法、装置、及计算机设备
CN111783425B (zh) 基于句法分析模型的意图识别方法及相关装置
Zhang et al. The identification of the emotionality of metaphorical expressions based on a manually annotated chinese corpus
CN115905187B (zh) 一种面向云计算工程技术人员认证的智能化命题系统
CN115906818A (zh) 语法知识预测方法、装置、电子设备和存储介质
CN114186020A (zh) 一种语义联想方法
Zhang et al. Dual attention model for citation recommendation with analyses on explainability of attention mechanisms and qualitative experiments
CN113569124A (zh) 医疗标题匹配方法、装置、设备及存储介质
Daelemans Abstraction considered harmful: Lazy learning of language processing

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19953049

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19953049

Country of ref document: EP

Kind code of ref document: A1