KR102101409B1 - Method of extending ontology data based on topic modeling - Google Patents

Method of extending ontology data based on topic modeling Download PDF

Info

Publication number
KR102101409B1
KR102101409B1 KR1020190105967A KR20190105967A KR102101409B1 KR 102101409 B1 KR102101409 B1 KR 102101409B1 KR 1020190105967 A KR1020190105967 A KR 1020190105967A KR 20190105967 A KR20190105967 A KR 20190105967A KR 102101409 B1 KR102101409 B1 KR 102101409B1
Authority
KR
South Korea
Prior art keywords
information
user
word
words
ontology
Prior art date
Application number
KR1020190105967A
Other languages
Korean (ko)
Inventor
이대희
이준성
백인호
Original Assignee
주식회사 테크플럭스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 테크플럭스 filed Critical 주식회사 테크플럭스
Priority to KR1020190105967A priority Critical patent/KR102101409B1/en
Application granted granted Critical
Publication of KR102101409B1 publication Critical patent/KR102101409B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Abstract

According to the present invention, words are classified for each topic by using a topic modelling method and when a user forms key words and layer information in a specific topic, parse tree information is generated to extract words similar to the layer information of the key words formed by the user. In addition, word vector information (word embedding) is extracted by using the extracted words and words with high connectivity are extracted by using similarity between the key words selected by the user and the word vector information. The series of processes are repeated to extend ontology (sematic-graph) information having a layer structure and connectivity information for words of interest of the user. A method of extracting the word vector information can be changed to a parse tree method, wherein the ontology information selected by the user can be extended by using layer information of words extracted by parse analysis and applying an SVD method.

Description

토픽모델링 방법을 이용한 온톨로지 데이터 확장방법 {Method of extending ontology data based on topic modeling} Method of extending ontology data based on topic modeling method {Method of extending ontology data based on topic modeling}

본 발명은 자연어 처리 및 이미지 처리 분석 분야에서 토픽모델링 (topic modelling) 방법을 이용하여, 사용자가 선택한 주요 단어의 계층구조 및 연결정보를 나타내는 온톨로지 정보(ontology, sematic graph)를 확장하는 방법에 관한 기술이다.The present invention relates to a method of extending ontology information (ontology, sematic graph) representing hierarchical structure and connection information of a key word selected by a user by using a topic modeling method in the field of natural language processing and image processing analysis to be.

텍스트 및 이미지 정보에서 특징벡터를 추출하여 각 정보를 토픽별로 분류할 수 있다. 이러한 토픽모델링을 위해서는 SVD (singular value decomposition), LDA (latent dirichlet allocation )방법을 적용할 수 있다.Feature vectors can be extracted from text and image information to classify each information by topic. For this topic modeling, the SVD (singular value decomposition) and LDA (latent dirichlet allocation) methods can be applied.

토픽모델링으로 분류된 텍스트 및 이미지 정보를 이용하여 각 주요 정보 사이에 연결정보(relation) 및 계층정보(hierarchy)를 이용하여 온톨로지 정보를 구성할 수 있다.Ontology information may be configured by using linkage and hierarchy between each major information using text and image information classified as topic modeling.

US9892194 특허에서는 중요 문단을 기준으로 가중치를 적용, 계층구조를 결정하는 방법을 제시하였고, US9449051 특허에서는 토픽별로 단어의 출현빈도를 고려하여 계층구조 결정하였고, US10216829 특허는 단어 그룹에 대해서 토픽확률을 계산하였다. In the US9892194 patent, a method of determining the hierarchical structure by applying a weight based on an important paragraph was proposed, and in the US9449051 patent, a hierarchical structure was determined by taking into account the frequency of words by topic, and the US10216829 patent calculated the topic probability for a group of words Did.

빅데이터 문서에서 사용자의 관심 단어에 대해 연결성 (relation) 이 높고 계층정보(hierarchy)까지 만족하는 온톨로지(ontology, knowledge-graph, sematic-graph) 정보를 확장하는 방법을 제시하고자 한다.I would like to present a method of extending ontology (knowledge-graph, sematic-graph) information that satisfies hierarchy and has high relation to users' words of interest in big data documents.

빅데이터 문서 정보를 토픽모델링(topic modelling) 이용하여, 토픽별로 단어를 분류할 수 있다. 사용자가 특정 토픽에서 주요 단어 및 계층정보를 구성하면, 시스템은 구문트리(parse tree) 정보를 작성하여, 사용자가 구성한 주요 단어의 계층정보와 유사한 단어들을 추출한다. 추출된 단어를 이용, 단어벡터정보(wordembedding)를 추출, 사용자가 선택한 주요 단어들과 단어벡터정보의 유사성(similarity)을 이용하여 연결성이 높은 단어를 추출한다. 이러한 일련의 과정을 반복하여, 사용자의 관심 단어에 대해 계층구조와 연결성 정보를 갖는 온톨로지(ontology, sematic-graph) 정보를 확장한다. 상기 단어벡터정보를 추출하는 방법은 구문분석(parse tree) 방법으로 변경될 수 있다. 이 때에는 구문분석으로 추출된 단어의 계층정보를 이용하여 사용자가 선택한 온톨로지 정보를 확장할 수 있다.By using big data document information as topic modeling, words can be classified by topic. When the user constructs key words and hierarchical information on a specific topic, the system creates parse tree information and extracts words similar to the hierarchical information of the key words configured by the user. Using the extracted word, the word vector information (word embedding) is extracted, and a word having high connectivity is extracted using the similarity between the key words selected by the user and the word vector information. By repeating this series of processes, ontology (sematic-graph) information having hierarchical structure and connectivity information is expanded for a user's word of interest. The method of extracting the word vector information may be changed by a parse tree method. In this case, the ontology information selected by the user may be extended by using hierarchical information of words extracted by parsing.

사용자의 주요 관심 단어에 따라, 상대적으로 단어의 중요도가 결정되며, 또한 사용자가 정의한 단어간의 계층정보 및 연결성 정보를 반영하여, 관심 단어와 계층정보 및 연결성이 높은 단어를 효과적으로 확장함으로써, 사용자 관점의 온톨로지 정보를 생성이 가능하다.According to the user's main interest word, the importance of the word is determined relatively, and by reflecting the hierarchical information and connectivity information between words defined by the user, the word of interest, hierarchical information, and a word with high connectivity are effectively expanded, thereby It is possible to generate ontology information.

도 1은 본 발명의 토픽모델링에 대한 개념도이다.
도 2는 본 발명의 실시예에 따른 SVD 행렬을 나타낸다.
도 3은 본 발명의 실시예에 따른 사용자 관심 단어의 계층정보를 반영, 단어벡터정보를 이용하여 유사성이 높은 단어를 추출, 온톨로지 정보를 확장하는 방법을 나타낸다.
도 4는 본 발명의 실시예에 따른 사용자 관심 단어의 계층정보를 반영. 구문트리 정보에 대해 SVD 방법을 적용, 계층정보의 연결성이 높은 단어들을 추출하여 온톨로지 정보를 확장하는 방법을 나타낸다.
도 5는 본 발명의 실시예에 따른 구문트리의 예이다.
1 is a conceptual diagram for topic modeling of the present invention.
2 shows an SVD matrix according to an embodiment of the present invention.
3 illustrates a method of extracting a word having high similarity and expanding ontology information by using word vector information by reflecting hierarchical information of a user interest word according to an embodiment of the present invention.
4 illustrates hierarchical information of a user interest word according to an embodiment of the present invention. It shows how to extend ontology information by extracting words with high connection of hierarchical information by applying SVD method to syntax tree information.
5 is an example of a syntax tree according to an embodiment of the present invention.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다. 본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당하는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.Terms used in the present specification will be briefly described, and the present invention will be described in detail. The terminology used in the present invention was selected from the general terms that are currently widely used while considering the functions in the present invention, but this may vary according to the intention or precedent of a person skilled in the art or the appearance of new technologies. In addition, in certain cases, some terms are arbitrarily selected by the applicant, and in this case, their meanings will be described in detail in the description of the corresponding invention. Therefore, the terms used in the present invention should be defined based on the meanings of the terms and the contents of the present invention, not simply the names of the terms.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.When a part of the specification "includes" a certain component, this means that other components may be further included instead of excluding other components unless specifically stated otherwise. In addition, terms such as “... unit” and “module” described in the specification mean a unit that processes at least one function or operation, which may be implemented in hardware or software, or a combination of hardware and software. .

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시 예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art to which the present invention pertains may easily practice. However, the present invention can be implemented in many different forms and is not limited to the embodiments described herein. In addition, in order to clearly describe the present invention in the drawings, parts irrelevant to the description are omitted, and like reference numerals are assigned to similar parts throughout the specification.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 토픽모델링에 대한 개념도이다. 각 문서의 모든 단어는 사용자가 정의 토픽에 따라 분류된다. 따라서 하나의 문서에는 다양한 토픽과 관련된 단어들이 분포할 수 있다. 1 is a conceptual diagram for topic modeling of the present invention. All words in each document are categorized according to user-defined topics. Therefore, words related to various topics may be distributed in one document.

토픽 분류 방법으로 SVD(Singular Value Decomposition), 또는 LDA (Latent Dirichlet allocation) 방법을 사용한다. 특이값 분해라고도 하는 SVD는 행렬 분해(Decomposition) 방법 중 하나이며, 계산 비용이 낮아지는 것 이외에도 정보가 낮은 데이터를 삭제 및 압축하여 기존 데이터에서 드러나지 않았던 심층적인 의미를 확인할 수 있다. 도 2는 본 발명의 실시예에 따른 SVD 행렬을 나타낸다. 아래 식은 SVD의 행렬식이다. Singular Value Decomposition (SVD) or Latent Dirichlet Allocation (LDA) is used as a topic classification method. SVD, also known as singular value decomposition, is one of the methods of matrix decomposition. In addition to lowering the computational cost, it is possible to check the deep meaning that was not revealed in existing data by deleting and compressing data with low information. 2 shows an SVD matrix according to an embodiment of the present invention. The equation below is the SVD determinant.

Figure 112019088668404-pat00001
Figure 112019088668404-pat00001

U와 V는 직교행렬(Orthogonal Matrix)이고 S는 대각 행렬(Rectangular Diagonal Matrix)이다.U and V are orthogonal matrices and S is a diagonal diagonal matrix.

도 5는 본 발명의 실시예에 따른 구문트리의 예이다. 구문트리는 구문분석을 통해 문장의 형태소를 분석하여, 단어 품사 및 문장성분 형태로 분석한다. 따라서 구문트리의 정보를 이용하여, 문장상의 단어의 계층정보 및 연결성을 분석할 수 있다.5 is an example of a syntax tree according to an embodiment of the present invention. The syntax tree analyzes the morphemes of sentences through syntax analysis, and analyzes them in the form of word parts of speech and sentence components. Therefore, hierarchical information and connectivity of words in a sentence can be analyzed using information of a syntax tree.

도 3은 본 발명의 실시예에 따른 사용자 관심 단어의 계층정보를 반영하여 단어벡터정보를 이용, 유사성이 높은 단어를 추출, 온톨로지 정보를 확장하는 방법을 나타낸다. 3 illustrates a method of extracting a word having high similarity and expanding ontology information by using word vector information by reflecting hierarchical information of a user interest word according to an embodiment of the present invention.

도 3의 S310 단계에서는 토픽 모델링을 위해 토픽모델의 개수를 정하는 단계이다. In step S310 of FIG. 3, the number of topic models is determined for topic modeling.

S320 단계에서는 토픽모델링 방법으로 추출된 토픽을 선정하여, 토픽에 포함된 단어들을 선정하는 단계이다. 이 때, 단어별 중요도 또는 단어별 토픽에 포함될 확률정보를 이용하여 사용될 단어를 선별할 수 있다. 따라서 도 3의 순서도는 토픽별로 수행된다.In step S320, a topic extracted by a topic modeling method is selected, and words included in the topic are selected. In this case, words to be used may be selected using importance information for each word or probability information to be included in a topic for each word. Therefore, the flowchart of FIG. 3 is performed for each topic.

S330 단계는 사용자가 관심 단어를 선택하는 과정이다. 이 때 사용자는 하나의 단어 또는 다수의 단어그룹을 관심단어로 선택할 수 있다. S340 단계는 사용자가 주요 관심단어의 계층정보(구문트리1)와 연결정보를 정의하는 단계이다. 연결정보는 두 단어간의 다양한 의미적 연결관계로 표현될 수 있다. Step S330 is a process in which the user selects a word of interest. At this time, the user can select a word or a group of words as a word of interest. In step S340, the user defines hierarchical information (syntax tree 1) and connection information of the key word of interest. Connection information can be expressed by various semantic connection relationships between two words.

S340 단계는 사용자마다 주요 관심단어와 해당 단어간의 계층정보 및 연결정보를 다르게 정의할 수 있다. 따라서 사용자의 관심 단어 및 온톨로지 정보를 정의함으로써 시스템의 탐색 방향을 설정하는 단계이다.In step S340, hierarchical information and connection information between a key word of interest and a corresponding word may be defined differently for each user. Therefore, it is a step of setting the search direction of the system by defining the word of interest and ontology information of the user.

S350단계에서는 사용자 관심단어가 포함된 문장들을 이용, 상기 S340단계에서 정의된 구문트리-A와 유사한 계층정보 갖는 구문트리-B를 추출하는 단계이다. 이 때, S360 단계에서는 구문트리-A와 구문트리-B의 계층정보의 유사성과 구문트리상에 사용자 관심단어와의 단어 거리정보를 이용하여 유효단어를 결정한다.In step S350, the syntax tree-B having hierarchical information similar to the syntax tree-A defined in step S340 is extracted by using sentences containing a user interest word. At this time, in step S360, a valid word is determined using the similarity of the hierarchical information of the syntax tree-A and the syntax tree-B and word distance information of the word of interest to the user on the syntax tree.

S370 단계는 추출된 유효 구문정보의 단어들을 이용하여 단어벡터정보 (word2vec, word-embedding)를 생성하는 단계이다. 단어벡터정보는 모든 단어들의 유사성 정보를 -1 ~ 1사이에서, 또는 0~1사이의 수치로 나타낸다. 유사성 수치가 높을수록 두 단어의 유사성이 높다. S370 단계에서 추출된 단어벡터정보를 이용, 사용자 관심단어와 유사성이 높은 단어 집합들을 추출할 수 있다. 이 때, 유효한 단어집합들은 통계처리 방법에 의해 결정할 수 있다. 각 사용자 관심단어와 유사도(similarity)가 높은 단어를 N개를 선정하고, 유효유사단어 그룹으로 추출한다. 관심단어의 개수 만큼, 유효 유사단어집합의 개수가 결정된다. 각 유효 유사단어집합의 평균-A, 표준편차-A, 분산-A과 같은 통계값을 추출하고, 각 유효유사단어와 상기 평균-A의 정보를 이용, 각 유효유사단어의 편차의 합이 작은 순서로 유효유사단어 그룹을 점수화할 수 있다. 또한 각 유효유사단어 그룹 사이의 분산값의 편차가 일정기준 보다 낮은 값을 갖도록 하기 위해, 유효유사단어 그룹을 조정할 수 있다. 따라서 상기 분산값 및 분산값의 편차는 유효유사단어를 결정할 수 있는 사용자 설정값으로 이용될 수 있다. 이러한 사용자 설정값은 S370 단계가 수행될 때마다 변경되고 적용될 수 있다. 또한 이와 같이 유효유사단어 그룹의 다수의 분산값이 존재하는 경우, 분산검정(ANOVA) 방법을 통해 일정 유의확률의 만족 여부를 결정할 수 있다. Step S370 is a step of generating word vector information (word2vec, word-embedding) using words of the extracted valid syntax information. The word vector information represents similarity information of all words with a value between -1 and 1, or between 0 and 1. The higher the similarity value, the higher the similarity between the two words. Using the word vector information extracted in step S370, a set of words having high similarity to the word of interest to the user may be extracted. At this time, valid word sets can be determined by a statistical processing method. N words with high similarity to each user's interest word are selected and extracted as a group of valid similar words. The number of effective pseudoword sets is determined by the number of words of interest. Statistical values such as mean-A, standard deviation-A, and variance-A of each effective pseudoword set are extracted, and the information of each effective similar word and the mean-A is used, so that the sum of deviations of each effective similar word is small A group of valid similar words can be scored in order. In addition, the effective similar word group may be adjusted so that the variation of the variance value between each effective similar word group has a value lower than a certain criterion. Therefore, the variance value and the variance of the variance value can be used as a user set value that can determine an effective similar word . The user setting value may be changed and applied each time step S370 is performed. In addition, when a plurality of variance values of the group of effective similar words exist, it is possible to determine whether a certain significance probability is satisfied through an ANOVA method.

S380 단계는 S370에서 선택된 유효유사단어를 사용자 관심단어로 구성된 온톨로지에 포함시키는 단계이다. S380 단계가 완료되면, 확장된 온톨로지 정보를 바탕으로 S330 단계를 재수행한다. S330 단계를 다시 반복하는 경우, S380 단계에서 유효유사단어를 사용자 온톨로지에 포함되도록 사용자가 결정하는 단계를 포함할 수 있거나, 유효유사단어의 통계값이 임계값을 만족하는 경우, 사용자 온톨로지에 포함되고, 자동으로 S330 단계가 반복 수행되도록 설정할 수 있다. 또한 S340 단계가 다시 수행되는 경우에는 업데이트된 상기 사용자 온톨로지 정보를 사용할 수 있거나, 사용자가 온톨로지 정보를 수정할 수 있다. 따라서 S330 - S380 단계가 반복 수행되는 경우, 사용자가 정의한 온톨로지 정보가 지속적으로 업데이트되고, 신규로 유효유사단어가 단어벡터정보로 업데이트되게 된다. 또한 상기 S330 - S380 반복수행 단계는 더 이상의 유효유사단어가 추출되지 않을 때 까지 반복 수행될 수 있다.Step S380 is a step of including the effective similar word selected in S370 into an ontology composed of user interest words. When the step S380 is completed, the step S330 is performed again based on the extended ontology information. If the step S330 is repeated again, the step S380 may include a step for the user to determine the effective similar word to be included in the user ontology, or when the statistical value of the valid similar word satisfies the threshold, it is included in the user ontology. , It can be set to automatically perform step S330 repeatedly. In addition, when the step S340 is performed again, the updated user ontology information may be used, or the user may modify the ontology information. Therefore, when steps S330-S380 are repeatedly performed, the ontology information defined by the user is continuously updated, and the valid similar words are updated with word vector information. In addition, the steps S330-S380 may be repeatedly performed until no more similar words are extracted.

도 3에서 S360 단계는 G1 단계로 분기할 수 있다. 분기의 조건은 단어벡터정보로 사용자 관심단어와 유사성이 높은 방법외에, S360 단계에서 결정된 구문트리의 단어 계층정보를 이용하여 온톨로지 확장 단어를 결정하는 경우이다.In FIG. 3, step S360 may branch to step G1. The condition of branching is a case where the ontology expansion word is determined by using word hierarchical information of the syntax tree determined in step S360, in addition to a method having high similarity to a user interest word as word vector information.

S410 단계는 구문트리의 계층정보에서 사용자 관심단어와 일정 거리내에 존재하는 유효단어를 행렬정보로 표현하는 단계이다. 상기 행렬값은 유효단어의 거리정보의 역수의 형태로 구성된다. 구문트리에서 사용자 관심단어와 유효단어의 거리가 짧을수록 연결성이 높아지므로, 거리정보가 작을수록 보다 유효하다. Step S410 is a step of expressing the effective word existing within a certain distance from the user interest word in the hierarchical information of the syntax tree as matrix information. The matrix value is configured in the form of the inverse of the distance information of the effective word. The shorter the distance between the user's interest word and the effective word in the syntax tree, the higher the connectivity, so the smaller the distance information, the more effective.

유효행렬을 구성하기 전에 한 문서내에 존재하는 유효단어 사이에 존재하는 링크 정보를 이용하여 네트워크 분석방법을 적용할 수 있다. 네트워크 정보에서 추출된 링크 점수를 바탕으로 유효단어를 선별 추출할 수 있다. 따라서 S410 단계에서는 사용자 유효단어를 추출하기 위해,사용자 관심단어와 유효단어 후보간의 거리 및 네트워크 정보의 링크점수 또는 순위에 대해 사용자 설정값을 참조하여 수행될 수 있다. 또한 이러한 사용자 설정값은 S360 단계나 S410 단계가 수행될 때마다 변경되어 적용될 수 있다. Before constructing a valid matrix, a network analysis method can be applied by using link information existing between valid words in a document. The effective word can be selectively extracted based on the link score extracted from the network information. Therefore, in step S410, in order to extract the user effective word, the distance between the user's interest word and the effective word candidate and the link score or rank of network information may be performed by referring to the user setting value. In addition, the user setting value may be changed and applied every time step S360 or step S410 is performed.

S420 단계는 S410 단계에서는 생성된 모든 행렬정보를 이용, 전체 행렬로 그룹화하고, 이에 SVD 방법을 적용하는 단계이다.In step S420, in step S410, all generated matrix information is grouped into an entire matrix, and an SVD method is applied thereto.

S430 단계에서는 S420 단계에서의 SVD를 통해 얻은 대각행렬(eigenvalues) 값의 상위 값만을 이용하여 선별 SVD (truncated SVD) 선택하는 단계이다. 이 때, S440 단계에서는 선별된 SVD의 유효한 행렬값의 분포와 대각행렬 정보를 이용, 다수의 서브그룹으로 분리할 수 있다. 또한 S440 단계는 S430 단계에서 결정된 다수의 서브그룹을 포함하는 선별 SVD의 계층정보로 부터, 관련된 단어(entity) 정보를 추출하는 단계이다. In step S430, it is a step of selecting the selected SVD (truncated SVD) using only the upper value of the eigenvalues value obtained through the SVD in step S420. At this time, in step S440, the effective matrix value distribution and diagonal matrix information of the selected SVD may be separated into a plurality of subgroups. In addition, step S440 is a step of extracting related word (entity) information from the hierarchical information of the selected SVD including a plurality of subgroups determined in step S430.

S450 단계는 사용자 관심단어로 구성된 온톨로지 정보와 연결성이 높은 선별 SVD 서브그룹을 결합시키는 단계이다. 선별 SVD 서브그룹에 포함된 주요단어와 계층정보를 이용하여 사용자 온톨로지 정보와 결합할 수 있다. 이 때, 선별 SVD 서브그룹은 가장 가까운 사용자 관심단어 사이의 거리 정보를 이용하여 결합될 수 있거나, 사용자가 선별 SVD 서브그룹이 결합될 관심단어를 지정할 수 있다. 상기 S450 단계에서는 하나 이상의 단어로 구성된 선별 SVD 서브그룹을 사용자 관심단어와 결합시키므로써, 사용자는 추천된 단어그룹의 의미를 보다 명확하게 이해할 수 있고, 사용자 온톨로지 정보의 확장을 용이하게 결정할 수 있다. S450 단계가 수행되면, 확장된 사용자 온톨로지 정보를 이용하여 도 3의 S330 단계를 재수행한다. 따라서 S330 단계부터 S450단계가 반복 수행되면서, 사용자 온톨로지 정보가 지속적으로 확장되고, 더 이상 신규 유효단어 후보가 생성되지 않을 때, 종료되거나 사용자가 의도적으로 반복수행 단계를 종료할 수 있다.Step S450 is a step of combining ontology information composed of user interest words and a selectable SVD subgroup having high connectivity. It can be combined with user ontology information using key words and hierarchical information included in the selected SVD subgroup. At this time, the selected SVD subgroup may be combined using distance information between the closest user's interest words, or the user may designate a word of interest to which the selected SVD subgroup will be combined. In step S450, by combining a selected SVD subgroup consisting of one or more words with a user's word of interest, the user can more clearly understand the meaning of the recommended word group, and can easily determine expansion of user ontology information. When step S450 is performed, step S330 of FIG. 3 is re-executed using the extended user ontology information. Therefore, as steps S330 to S450 are repeatedly performed, when the user ontology information is continuously expanded and a new valid word candidate is no longer generated, it is terminated or the user can intentionally end the repeating step.

Claims (6)

온톨로지 정보 확장 방법에 있어서,
시스템이 동일한 토픽에 포함된 사용자-선택단어를 수신하는 단계;
시스템이 상기 사용자-선택단어 사이의 계층정보 및 연결정보(사용자 -온톨로지 정보)를 수신하는 단계;
시스템이 상기 사용자- 온톨로지 정보를 이용, 상기 토픽에 포함된 문서에서 구문 트리를 생성하는 단계;
시스템이 상기 구문트리 정보를 이용, 유효-단어를 결정하여, 단어벡터정보를 생성하는 단계; 및
시스템이 상기 단어벡터정보를 이용, 상기 사용자-온톨로지 정보와 유사성이 높은 유효-유사단어를 결정하여, 상기 사용자-온톨로지 정보와 결합하는 단계를 포함하는 온톨로지 정보 확장 방법.
In the method of extending ontology information,
Receiving, by the system, user-selected words included in the same topic;
Receiving, by the system, layer information and connection information (user-ontology information) between the user-selected words;
A system generating a syntax tree from a document included in the topic using the user-ontology information;
A system using the syntax tree information, determining valid-words, and generating word vector information; And
And a system using the word vector information to determine valid-similar words with high similarity to the user-ontology information, and combining them with the user-ontology information.
제 1항에 있어서,
상기 구문트리 정보를 이용, 유효-단어를 결정하는 단계의 상기 유효-단어 결정하기 위해서,
시스템이 사용자-온톨로지 정보와 상기 유효-단어의 거리 정보를 수신하는 단계를 더 포함하는 온톨로지 정보 확장 방법.
According to claim 1,
To determine the effective-word of the step of determining the effective-word using the syntax tree information,
The system further comprises receiving user-ontology information and the effective-word distance information.
제 1항에 있어서,
상기 유효-유사단어를 결정을 위해서,
시스템이 분산값 및 분산값 사이의 편차 정보를 수신하는 단계를 더 포함하는 온톨로지 정보 확장 방법.
According to claim 1,
To determine the effective-similar word,
And the system further comprising receiving variance values and deviation information between the variance values.
온톨로지 정보 확장 방법에 있어서,
시스템이 동일한 토픽에 포함된 사용자-선택단어를 수신하는 단계;
시스템이 상기 사용자-선택단어 사이의 계층정보 및 연결정보(사용자 -온톨로지 정보)를 수신하는 단계;
시스템이 상기 사용자-온톨로지 정보를 이용, 상기 토픽에 포함된 문서에서 구문 트리를 생성하는 단계;
시스템이 상기 구문트리 정보를 이용, 유효-단어를 결정하여, 선별-SVD-서브그룹을 생성하는 단계; 및
시스템이 상기 선별-SVD-서브그룹과 상기 사용자-온톨로지 정보를 결합하는 단계를 포함하는 온톨로지 정보 확장 방법.
In the method of extending ontology information,
Receiving, by the system, user-selected words included in the same topic;
Receiving, by the system, layer information and connection information (user-ontology information) between the user-selected words;
A system generating a syntax tree from a document included in the topic using the user-ontology information;
A system using the syntax tree information, determining a valid-word, and generating a selection-SVD-subgroup; And
A method of extending ontology information, comprising: a system combining the selected-SVD-subgroup and the user-ontology information.
제 4항에 있어서,
상기 구문트리 정보를 이용, 유효-단어를 결정하는 단계에서 상기 유효-단어 결정하기 위해서,
시스템이 사용자-온톨로지 정보와 상기 유효-단어의 거리 정보를 수신하는 단계를 더 포함하는 온톨로지 정보 확장 방법.
The method of claim 4,
In order to determine the effective-word in the step of determining the effective-word using the syntax tree information,
The system further comprises receiving user-ontology information and the effective-word distance information.
제 4항에 있어서,
상기 선별-SVD-서브그룹 결정을 위해서,
시스템이 선별-SVD-서브그룹의 개수를 수신하는 단계를 더 포함하는 온톨로지 정보 확장 방법.
The method of claim 4,
For the screening-SVD-subgroup determination,
The system further comprises the step of receiving the number of screening-SVD-subgroup ontology information extension method.
KR1020190105967A 2019-08-28 2019-08-28 Method of extending ontology data based on topic modeling KR102101409B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190105967A KR102101409B1 (en) 2019-08-28 2019-08-28 Method of extending ontology data based on topic modeling

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190105967A KR102101409B1 (en) 2019-08-28 2019-08-28 Method of extending ontology data based on topic modeling

Publications (1)

Publication Number Publication Date
KR102101409B1 true KR102101409B1 (en) 2020-04-20

Family

ID=70467538

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190105967A KR102101409B1 (en) 2019-08-28 2019-08-28 Method of extending ontology data based on topic modeling

Country Status (1)

Country Link
KR (1) KR102101409B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002010980A1 (en) * 2000-07-27 2002-02-07 Science Applications International Corporation Concept-based search and retrieval system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002010980A1 (en) * 2000-07-27 2002-02-07 Science Applications International Corporation Concept-based search and retrieval system

Similar Documents

Publication Publication Date Title
CN110097085B (en) Lyric text generation method, training method, device, server and storage medium
CN104376406B (en) A kind of enterprise innovation resource management and analysis method based on big data
CN110717106B (en) Information pushing method and device
WO2019080863A1 (en) Text sentiment classification method, storage medium and computer
US20080052262A1 (en) Method for personalized named entity recognition
CN109844742B (en) Analysis system
WO2013118435A1 (en) Semantic similarity level computation method, system and program
CN111581954A (en) Text event extraction method and device based on grammar dependency information
CN112131876A (en) Method and system for determining standard problem based on similarity
US11886515B2 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof
CN112860896A (en) Corpus generalization method and man-machine conversation emotion analysis method for industrial field
JP2007219947A (en) Causal relation knowledge extraction device and program
CN114462384A (en) Metadata automatic generation device for digital object modeling
WO2019163642A1 (en) Summary evaluation device, method, program, and storage medium
CN114462392A (en) Short text feature expansion method based on topic relevance and keyword association
CN110633468B (en) Information processing method and device for object feature extraction
CN110020024B (en) Method, system and equipment for classifying link resources in scientific and technological literature
KR102101409B1 (en) Method of extending ontology data based on topic modeling
KR102395926B1 (en) Apparatus for analyzing compound nouns and method thereof, computer program
US11842152B2 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
CN114328820A (en) Information searching method and related equipment
CN113434639A (en) Audit data processing method and device
KR20220143229A (en) Apparatus and method extracting core sentence based on korean language model
CN113887244A (en) Text processing method and device
KR101240330B1 (en) System and method for mutidimensional document classification

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant