KR101975419B1 - Device and method for terminology clustering informal text data for big data analysis - Google Patents
Device and method for terminology clustering informal text data for big data analysis Download PDFInfo
- Publication number
- KR101975419B1 KR101975419B1 KR1020180147335A KR20180147335A KR101975419B1 KR 101975419 B1 KR101975419 B1 KR 101975419B1 KR 1020180147335 A KR1020180147335 A KR 1020180147335A KR 20180147335 A KR20180147335 A KR 20180147335A KR 101975419 B1 KR101975419 B1 KR 101975419B1
- Authority
- KR
- South Korea
- Prior art keywords
- term
- data
- clustering
- original
- terms
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G06F17/2755—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/048—Fuzzy inferencing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Automation & Control Theory (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
본원은 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for terminating clusters of unstructured text data for big data analysis.
빅데이터 분석을 위해 전체 소요 노력의 70% ~80%를 데이터 전처리에 사용하고 있다. 빅데이터 분석은 폭발적으로 증가하고 있으나 빅데이터 분석 기술 발전만큼 데이터 전처리에 관한 기술의 발전 속도는 느리며 이에 따라 자동화된 데이터 전처리 기술 개발의 필요성이 대두되고 있다.For big data analysis, 70% to 80% of the total effort is used for data preprocessing. Big data analysis is explosively growing, but the development of data preprocessing technology is slow as much as the development of big data analysis technology. Therefore, there is a need to develop automated data preprocessing technology.
공공정보 개방 환경과 맞물려 비정형 데이터 분석에 대한 소요가 늘어나, 비정형 데이터 전처리에 대한 중요도가 강조되고 있음에도 불구하고, 전처리의 대부분을 수작업으로 할애하고 있다.Despite the emphasis on irregular data preprocessing, the need for analysis of unstructured data is increasing due to the open environment of public information, and most of the preprocessing is manual.
텍스트 데이터에서 데이터 간 유사도를 계산하기 위해서 가장 많이 사용되는 알고리즘은 Fuzzy Matching 알고리즘이다. 이 알고리즘은 편집거리(레펜슈타인, Levenshtein Distance)를 기반으로 계산된 결과 값을 사용하여 데이터 간의 유사도를 계산해 주는 알고리즘이다.Fuzzy matching algorithm is the most used algorithm for calculating the similarity between data in text data. This algorithm is an algorithm that calculates the similarity between data using the calculated values based on the edit distance (Levenshtein Distance).
Fuzzy Matching 알고리즘은 단순히 두 데이터 상호 간의 유사도만을 계산해주는 알고리즘이다. 이 알고리즘을 응용하여 데이터 내에서 일정한 유사도를 가진 데이터들을 군집화한다. 또한, Fuzzy Matching 알고리즘은 영문을 기반으로 개발되어 있으므로 국문에 적용하였을 경우 음운이 아닌 음절을 바탕으로 유사도를 계산하는 문제점을 가지고 있다. The Fuzzy Matching algorithm is simply an algorithm that calculates the similarity between two data. This algorithm is applied to group data with a certain degree of similarity in data. In addition, since the Fuzzy Matching algorithm is developed based on English, it has a problem of calculating similarity based on non-phonological syllables when applied to Korean.
또한, 형태소 분석은 자연어처리에서 가장 핵심적인 기술로, 말 또는 문장을 가장 작은 말의 단위인 형태소로 분리해주며, 분리된 형태소의 품사를 판단한다. 데이터 셋 내에서 형태소 분석을 통한 빈도수 확인을 통해, 해당 데이터 셋 내의 핵심 형태소를 확인할 수 있다.In addition, morpheme analysis is the most important technique in natural language processing, separating words or sentences into morphemes, which are the smallest unit of words, and judging the parts of the separated morpheme. Through the morphological analysis of the dataset, you can identify key morphemes in the dataset.
본원의 배경이 되는 기술은 한국공개특허공보 제10-2016-0075974호에 개시되어 있다.The background technology of the present application is disclosed in Korean Patent Laid-Open Publication No. 10-2016-0075974.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 빅데이터 비정형 텍스트 전처리의 어려움을 극복하고자, 데이터 내의 유사한 용어들을 군집화시켜, 빅데이터 분석을 용이하게 할 수 있는 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 장치 및 방법을 제공하려는 것을 목적으로 한다.It is an object of the present invention to overcome the above problems of the prior art and to overcome the difficulty of the preprocessing of big data unstructured text by clustering similar terms in the data to make large data analysis easier, And to provide a terminology clustering apparatus and method.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 데이터 셋 내 용어를 군집화 시 대표 용어를 추천함으로써, 사용자가 수작업으로 수행해야 하는 비정형 데이터 전처리 과정의 시간을 감소시켜 줄 수 있는 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 장치 및 방법을 제공하려는 것을 목적으로 한다.SUMMARY OF THE INVENTION The present invention has been made to solve the problems of the prior art described above and it is an object of the present invention to provide a method and apparatus for analyzing large data that can reduce the time required for an arbitrary data preprocessing process, And an apparatus and method for clustering terms of unstructured text data.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 형태소 분석을 응용하여 사용자에게 대표 용어를 자동으로 추천하는 방법을 제공함으로써, 사용자가 대표 단어를 선정하는 시간을 감소시켜 줄 수 있는 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 장치 및 방법을 제공하려는 것을 목적으로 한다.It is an object of the present invention to provide a method for automatically recommending a representative term to a user by applying morphological analysis to a user, And to provide a term clustering apparatus and method for unstructured text data.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 유사도 계산 과정에서 국문 데이터의 편집 거리를 음절 단위로 계산하는 문제점을 해결하기 위해서 각 음절을 음운으로 분리하여 계산하는 방법을 사용하여 군집화함으로써, 사용자의 오타 등과 같은 휴먼 에러를 교정해 주어 비정형 데이터 표준화에 도움을 줄 수 있는 비정형 텍스트 데이터의 용어 군집화 장치 및 방법을 제공하려는 것을 목적으로 한다.In order to solve the problem of the conventional art described above, in order to solve the problem of calculating the edit distance of Korean text data in syllable units in the similarity calculation process, the syllables are grouped using a method of separating and calculating phonemes, And an object of the present invention is to provide a term clustering apparatus and method of unstructured text data that can correct human errors such as user's mistakes and help standardize irregular data.
다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.It is to be understood, however, that the technical scope of the embodiments of the present invention is not limited to the above-described technical problems, and other technical problems may exist.
상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따른 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 장치는, 데이터 셋을 포함하는 데이터 베이스, 상기 데이터 베이스에 포함된 데이터 셋에서 데이터를 선택하고 전처리를 수행하는 데이터 전처리부, 전처리된 데이터에 포함된 원본 용어의 형태소를 분리하고, 원본 용어의 추천 점수를 계산하는 추천 용어 결정부 및 원본 용어의 음운을 분리하고, 음운으로 분리된 각각의 원본 용어 간의 유사도 연산을 수행하고, 상기 유사도 연산 값이 미리 설정된 임계치 이상인 원본 용어를 군집화하는 데이터 군집부를 포함하되, 상기 추천 용어 결정부는, 상기 추천 점수 및 상기 군집화 결과에 기반하여 복수의 원본 용어 중 추천 용어를 결정할 수 있다. According to an aspect of the present invention, there is provided an apparatus for grouping atypical text data for analysis of big data according to an embodiment of the present invention includes a database including a data set, a data set included in the database, A data preprocessing unit for selecting data and performing preprocessing, a recommendation term determination unit for separating the morpheme of the original term included in the preprocessed data, calculating the recommendation score of the original term, and the phonemes of the original term, And a data clustering unit for performing clustering of original terms having the similarity calculation value equal to or greater than a preset threshold value, wherein the recommendation term determining unit determines a plurality of clusters based on the recommendation score and the clustering result The recommended terms can be determined from the original terms.
본원의 일 실시예에 따른 상기 전처리부는, 상기 데이터 베이스에 포함된 데이터 셋 중 용어 군집화를 수행할 제1데이터 셋을 결정하고, 상기 제1데이터 셋의 복수의 칼럼 항목 중 용어 군집화를 수행할 제1칼럼을 선택하여 선택된 칼럼 항목의 데이터 전처리를 수행할 수 있다.The pre-processing unit according to an embodiment of the present invention determines a first data set to perform clustering of terms among the data sets included in the database, and performs clustering of terms among a plurality of column items of the first data set 1 column to perform data preprocessing of the selected column item.
본원의 일 실시예에 따른 상기 전처리부는, 선택된 상기 칼럼에 포함된 중복 용어 및 용어를 포함하지 않는 데이터를 제거하는 전처리를 수행할 수 있다. The preprocessing unit according to an embodiment of the present invention may perform preprocessing to remove data that does not include redundant terms and terms included in the selected column.
본원의 일 실시예에 따른 상기 추천 용어 결정부는, 분리된 형태소의 추출빈도를 수치화한 값 및 분리된 형태소를 기반으로 추출된 가중치를 이용하여 추천 점수를 계산하고, 상기 가중치는 원본 용어 내 형태소의 비중을 비율화한 값일 수 있다. The recommendation term determination unit according to an embodiment of the present invention calculates a recommendation score using a value obtained by quantizing the extraction frequency of the separated morpheme and a weight extracted based on the separated morpheme, And may be a value obtained by proportioning the specific gravity.
본원의 일 실시예에 따른 추천 점수는, 상기 분리된 형태소의 추출빈도를 수치화한 값을 기반으로 분리된 형태소의 추출 빈도수 및 제1 원본 용어에서 분류된 복수의 형태소 각각의 길이를 상기 제1원본 용어의 전체길이로 나누어 연산한 결과의 합을 이용하여 계산되는 것일 수 있다. The recommendation score according to an exemplary embodiment of the present invention may be determined based on the extraction frequency of the morpheme separated on the basis of the value obtained by quantifying the extraction frequency of the separated morpheme and the length of each of the plurality of morphemes classified in the first source term, May be calculated using the sum of the results of dividing by the full length of the term.
본원의 일 실시예에 따른 상기 데이터 군집부는, 상기 데이터가 한글일 경우, 초성, 중성, 종성으로 한글 자모에 따른 음운으로 분리하고, 인공지능 기반의 알고리즘을 이용하여 유사도를 연산할 수 있다. According to one embodiment of the present invention, when the data is in Hangul, the data grouping unit can separate the phonemes according to the Korean alphabet with the initial, neutral, and trailing characters, and calculate the similarity using an artificial intelligence based algorithm.
본원의 일 실시예에 따른 용어 군집화 장치는, 상기 데이터 군집부의 군집 결과를 제공하는 데이터 결과부를 더 포함하되, 상기 군집 결과는 추천 용어, 원본 용어, 유사도 값을 포함할 수 있다. The term clustering apparatus according to an embodiment of the present invention may further include a data output unit for providing a clustering result of the data clustering unit, wherein the clustering result may include a recommended term, an original term, and a similarity value.
본원의 일 실시예에 따른 용어 군집화 장치는, 사용자 단말로부터 용어 군집화 수행 정보를 수신하는 사용자 입력 수신부를 더 포함할 수 있다. The term clustering apparatus according to an embodiment of the present invention may further include a user input receiving unit for receiving term clustering performance information from a user terminal.
본원의 일 실시예에 따른 상기 추천 용어 결정부는, 형태소 분리 시 상기 용어 군집화 수행 정보에 포함된 품사 결정 정보에 기반하여 상기 전처리된 데이터를 기반으로 형태소 분리를 수행할 수 있다. The recommendation term determiner according to an exemplary embodiment of the present invention may perform morpheme division based on the preprocessed data based on part-of-speech decision information included in the term clustering performance information when morpheme is separated.
본원의 일 실시예에 따른 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 방법은, 데이터 베이스에 포함된 데이터 셋에서 데이터를 선택하고 전처리를 수행하는 단계, 전처리된 데이터에 포함된 원본 용어의 형태소를 분리하고, 원본 용어의 추천 점수를 계산하는 단계 및 원본 용어의 음운을 분리하고, 음운으로 분리된 각각의 원본 용어 간의 유사도 연산을 수행하고, 상기 유사도 연산 값이 미리 설정된 임계치 이상인 원본 용어를 군집화하는 단계, 상기 추천 점수 및 상기 군집화 결과에 기반하여 복수의 원본 용어 중 추천 용어를 결정하는 단계를 포함할 수 있다. According to an embodiment of the present invention, a method for grouping atypical text data for analysis of big data includes the steps of: selecting data from a data set included in a database and performing preprocessing; Calculating a recommendation score of the original terms, separating the phonemes of the original terms, performing a similarity calculation between the original terms separated by the phonemes, and clustering the original terms whose similarity calculation values are equal to or greater than a predetermined threshold value Determining a recommendation term among a plurality of original terms based on the recommendation score, the recommendation score, and the clustering result.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.The above-described task solution is merely exemplary and should not be construed as limiting the present disclosure. In addition to the exemplary embodiments described above, there may be additional embodiments in the drawings and the detailed description of the invention.
전술한 본원의 과제 해결 수단에 의하면, 데이터 베이스의 데이터 셋에서 항목을 선택하여, 형태소 분석을 통한 추천용어를 선정하여 음절을 음운 단위로 변환하고, 용어 군집화를 수행하여, 데이터 셋 내의 유사한 용어들을 군집화할 수 있다.According to the above-mentioned problem solving means of the present invention, an item is selected from a data set of a database, a syllable is converted into a phonemic unit by selecting a recommendation term through morphological analysis, word clustering is performed, Clustering can be done.
전술한 본원의 과제 해결 수단에 의하면, 형태소 분석을 수행한 후 용어 군집화를 수행하여 우선순위를 설정한 추천 용어를 사용자에게 제공해줌으로써 정밀도가 높은 용어 추천하여 군집화 할 수 있다.According to the task resolution means of the present invention, it is possible to cluster the terms with high precision by providing the user with a recommendation term in which priority is set by performing clustering after performing morpheme analysis.
전술한 본원의 과제 해결 수단에 의하면, 용어를 음운 단위로 유사도를 계산하여 군집화하기 때문에, 오타 등과 같은 표기 오류도 데이터 셋 내의 추천용어로 치환하여 사용할 수 있다.According to the above-mentioned problem solving means of the present invention, since the terms are grouped by calculating the similarity in phonemic units, typographical errors such as typos can be substituted for the recommended terms in the data set.
전술한 본원의 과제 해결 수단에 의하면, 데이터의 표기 오류나 다르게 표현된 용어들을 추천용어로 군집화함으로써 비정형 빅데이터 분류를 보다 정밀하게 수행할 수 있다.According to the task resolution means of the present invention, it is possible to more precisely classify the atypical big data by grouping the notation errors of data or terms expressed differently in a recommendation term.
다만, 본원에서 얻을 수 있는 효과는 상기된 바와 같은 효과들로 한정되지 않으며, 또 다른 효과들이 존재할 수 있다.However, the effects obtainable here are not limited to the effects as described above, and other effects may exist.
도 1은 본원의 일 실시예에 따른 용어 군집화 장치의 개략적인 구성도이다.
도 2는 본원의 일 실시예에 따른 용어 군집화 장치의 군집화를 수행할 데이터 항목의 일부를 개략적으로 나타낸 도면이다.
도 3은 본원의 일 실시예에 따른 용어 군집화 장치의 형태소 분리를 설명하기 위한 도면이다.
도 4는 본원의 일 실시예에 따른 용어 군집화 장치에서 형태소의 빈도를 역순으로 순위화 결과를 예시적으로 나타낸 도면이다.
도 5는 본원의 일 실시예에 따른 용어 군집화 장치에서 용어의 추천 점수 계산한 결과를 예시적으로 나타낸 도면이다.
도 6은 본원의 일 실시예에 따른 용어 군집화 장치에서 용어의 추천 점수 계산에 따른 추천 용어의 순위를 설명하기 위하여 개략적으로 나타낸 도면이다.
도 7은 본원의 일 실시예에 따른 용어 군집화 장치에서 추천 용어의 음운화를 설명하기 위하여 예시적으로 나타낸 도면이다.
도 8은 본원의 일 실시예에 따른 용어 군집화 장치에서 용어 군집화 결과를 예시적으로 나타낸 결과이다.
도 9는 본원의 일 실시예에 따른 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 방법에 대한 동작 흐름도이다.1 is a schematic block diagram of a term clustering apparatus according to an embodiment of the present invention.
FIG. 2 is a diagram schematically showing a part of a data item for performing clustering of a term clustering apparatus according to an embodiment of the present invention.
3 is a diagram for explaining morphemic separation of a term clustering apparatus according to an embodiment of the present invention.
FIG. 4 is a diagram illustrating an exemplary ranking result of the morphemes in an inverse order in a term clustering apparatus according to an exemplary embodiment of the present invention.
FIG. 5 is a diagram exemplifying a result of calculating a recommendation score of a term in a term clustering apparatus according to an embodiment of the present invention. FIG.
FIG. 6 is a diagram schematically showing the ranking of the recommended terms according to the calculation of the recommended score of the terms in the term clustering apparatus according to the embodiment of the present invention.
FIG. 7 is an exemplary illustration of phonologicalization of terms of recommendation in a term clustering apparatus according to an embodiment of the present invention; FIG.
FIG. 8 is a result of exemplary clustering of terms in a terminology clustering apparatus according to an embodiment of the present invention.
FIG. 9 is a flowchart illustrating a method for grouping unstructured text data for analysis of big data according to an embodiment of the present invention.
아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily carry out the present invention. It should be understood, however, that the present invention may be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In the drawings, the same reference numbers are used throughout the specification to refer to the same or like parts.
본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결" 또는 "간접적으로 연결"되어 있는 경우도 포함한다. Throughout this specification, when an element is referred to as being "connected" to another element, it is intended to be understood that it is not only "directly connected" but also "electrically connected" or "indirectly connected" "Is included.
본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.It will be appreciated that throughout the specification it will be understood that when a member is located on another member "top", "top", "under", "bottom" But also the case where there is another member between the two members as well as the case where they are in contact with each other.
본원 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.Throughout this specification, when an element is referred to as " including " an element, it is understood that the element may include other elements as well, without departing from the other elements unless specifically stated otherwise.
도 1은 본원의 일 실시예에 따른 용어 군집화 장치의 개략적인 구성도이다.1 is a schematic block diagram of a term clustering apparatus according to an embodiment of the present invention.
도 1을 참조하면, 용어 군집화 장치(100)는 데이터 베이스(110), 데이터 전처리부(120), 추천 용어 결정부(130), 데이터 군집부(140), 데이터 결과부(150) 및 사용자 입력 수신부(160)를 포함할 수 있다. 1, the
본원의 일 실시예에 따르면, 데이터 용어 군집화 장치(100)는 데이터 셋 중 단일 칼럼 항목을 선택하여, 선택한 칼럼 내에서 형태소 분석에 따른 가중치 연산을 통해 우선 추천 용어를 선정할 수 있다. 데이터 용어 군집화 장치(100)는 추천 용어와 유사도 연산에 기초하여 원본 용어를 군집화할 수 있다. 유사도 연산에는 음절을 음운으로 분리하는 전처리 과정이 포함될 수 있다. 또한, 추천용어가 군집화된 원본 용어들을 대표하지 않을 경우 사용자가 임의의 추천 용어를 입력하여 원본 용어들을 군집화 할 수 있다.According to an embodiment of the present invention, the data
또한, 데이터 용어 군집화 장치(100)는 선택된 데이터 셋의 칼럼에서 자동화된 용어 군집화 알고리즘을 이용하여 칼럼 내 원본 용어들을 들을 군집화 할 수 있다. 또한, 데이터 용어 군집화 장치(100)는 형태소 분석을 사용한 가중치 연산을 사용하여 추천용어를 제공함으로써, 사용자의 편의를 고려한 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 방법을 제공할 수 있다. In addition, the data
데이터 베이스(110)는 용어 군집화에 사용되는 데이터 셋을 포함할 수 있다. 데이터 베이스(110)는 비정형 데이터를 포함할 수 있다. 비정형 데이터, 비구조화 데이터, 비구조적 데이터는 미리 정의된 데이터 모델이 없거나 미리 정의된 방식으로 정리되지 않은 정보를 의미할 수 있다. 비정형 데이터(Unstructured Data)란 일정한 규격이나 형태를 지닌 숫자데이터(Numeric data)와 달리 그림이나 영상, 문서처럼 형태와 구조가 다른 구조화 되지 않은 데이터를 의미할 수 있다.The
도 2는 본원의 일 실시예에 따른 용어 군집화 장치의 군집화를 수행할 데이터 항목의 일부를 개략적으로 나타낸 도면이다.FIG. 2 is a diagram schematically showing a part of a data item for performing clustering of a term clustering apparatus according to an embodiment of the present invention.
도 2를 참조하면, 데이터 베이스(110)에 포함된 데이터 셋은 2개의 칼럼 항목 또는 그 이상의 칼럼항목을 포함할 수 있다. 데이터 셋에 포함된 칼럼 항목은 대표키와 일반 칼럼으로 구분될 수 있다. 예를 들어, 도 2의 데이터 셋의 칼럼 항목의 대표키는 '환자 ID'일 수 있고, 일반 칼럼은 '병명'일 수 있다. 이때 일반 칼럼인 '병명'의 경우 비정형 텍스트 데이터로 이루어질 수 있다. 비정형 텍스트 데이터는 용어를 포함할 수 있다. Referring to FIG. 2, the data set included in the
데이터 전처리부(120)는 데이터 베이스(110)에 포함된 데이터 셋에서 데이터를 선택하고 전처리를 수행할 수 있다. 데이터 전처리부(120)는 데이터 베이스(110)에 저장된 데이터 셋의 복수의 칼럼 중 데이터 군집화를 수행할 칼럼을 선택하여 결정할 수 있다. The
달리 말해, 데이터 전처리부(120)는 데이터 베이스(110)에 포함된 데이터 셋 중 용어 군집화를 수행할 제1데이터 셋을 결정하고, 제1데이터 셋의 복수의 칼럼 항목 중 용어 군집화를 수행할 제1칼럼을 선택하여 선택된 칼럼 항목의 데이터 전처리를 수행할 수 있다. 예시적으로 도 2를 참조하면, 데이터 전처리부(120)는 데이터 베이스(110)에 포함된 복수의 데이터 셋 중 용어 군집화를 수행할 제1데이터 셋을 결정하고, 제1데이터 셋의 용어 군집화를 수행할 '병명' 칼럼을 선택하여 선택된 '병명' 칼럼 항목의 데이터 전처리를 수행할 수 있다. In other words, the
데이터 전처리부(120)는 선택된 칼럼에 포함된 중복 용어 및 용어를 포함하지 않는 데이터를 제거하는 전처리를 수행할 수 있다. 달리 말해, 데이터 전처리부(120)는 결정된 칼럼의 데이터의 중복처리 및 Null 값(용어를 포함하지 않는 데이터)을 제거하는 전처리 과정을 수행할 수 있다. The
본원의 일 실시예에 따르면, 형태가 완전히 일치하는 용어의 경우 군집화가 불필요하며, 공백에 해당하는 Null값(용어를 포함하지 않는 데이터) 또한 용어 군집화가 불필요한 데이터이므로, 데이터 전처리부(120)는 Null값을 제거할 수 있다. 또한, 사용자는 필요에 따라 Null 값(용어를 포함하지 않는 데이터)을 다른 용어로 대체할 수 있다. According to an embodiment of the present invention, the
예시적으로, 사용자 입력 수신부(160)는 사용자 단말로부터 용어 군집화 정보를 수신할 수 있다. 용어 군집화 정보는 용어를 포함하지 않는 데이터를 다른 용어로 대체하기 위한 대체 용어를 포함할 수 있다. 달리 말해, 데이터 전처리부(120)는 사용자 입력 수신부(160)로부터 제공받은 대체 용어를 포함하지 않는 데이터에 대체 용어를 입력할 수 있다. Illustratively, the user
도 3은 본원의 일 실시예에 따른 용어 군집화 장치의 형태소 분리를 설명하기 위한 도면이고, 도 4는 본원의 일 실시예에 따른 용어 군집화 장치에서 형태소의 빈도를 역순으로 순위화 결과를 예시적으로 나타낸 도면이고, 도 5는 본원의 일 실시예에 따른 용어 군집화 장치에서 용어의 추천 점수 계산한 결과를 예시적으로 나타낸 도면이다.FIG. 3 is a diagram for explaining morpheme separation of a term clustering apparatus according to an embodiment of the present invention, and FIG. 4 illustrates an example of a term clustering apparatus according to an exemplary embodiment of the present invention, FIG. 5 is a diagram exemplifying a result of calculating a recommendation score of terms in a term clustering apparatus according to an embodiment of the present invention.
도 3을 참조하면, 추천 용어 결정부(130)는 전처리된 데이터에 포함된 원본 용어의 형태소를 분리할 수 있다. 추천 용어 결정부(130)는 전처리된 데이터에 포함된 원본 용어의 형태소를 분리할 수 있다. 형태소의 분리는 문장 또는 텍스트를 가장 작은 단위로 분리하고, 그 형태소의 품사를 자동으로 판별하는 것일 수 있다. 또한, 형태소 분리는 원본 용어를 이용하여 뜻을 가진 최소단위의 형태소로 분리하는 것일 수 있다. 형태소 분석은 자연어 처리의 가장 기본이 되는 기술이다. Referring to FIG. 3, the
예시적으로 도 3을 참조하면, 추천 용어 결정부(130)는 '결장 폴립 제거술'을, '결장', '폴립', '제거술'로 분리할 수 있다. 또한, 추천 용어 결정부(130)는 '상세불명 폐렴'을 '상세', '불명', '폐렴'으로 분리할 수 있다. 추천 용어 결정부(130)는 특정 품사를 기반으로 형태소 분리를 수행할 수 있다. Illustratively, referring to FIG. 3, the recommendation
본원의 일 실시예에 따르면, 분리된 형태소는 가중치를 이용한 추천 용어의 우선순위 선정에 사용될 수 있다. 추천 용어 결정부(130)는 분리된 형태소의 빈도(Rank)를 정렬하여 순위화할 수 있다. 이를 통해 사용자는 사용자가 선택한 칼럼(데이터)에서 가장 많이 사용한 형태소를 확인할 수 있다. 예시적으로 추천 용어 결정부(130)는 분리된 형태소의 빈도(Rank)를 정렬하여 순위화한 결과를 도 4와 같이 정리할 수 있다. According to one embodiment of the present invention, the separated morpheme can be used for prioritizing the recommended terms using the weights. The
추천 용어 결정부(130)는 분리된 형태소를 이용하여 원본 용어의 추천 점수를 계산할 수 있다. 추천 용어 결정부(130)는 분리된 형태소의 추출빈도를 수치화한 값 및 형태소를 기반으로 추출된 가중치를 이용하여 추천 점수를 계산할 수 있다. 예시적으로, 분리된 형태소의 추출빈도를 수치화한 값을 도 4에 도시된 Rank(빈도)의 값을 의미하는 것일 수 있다. 이때, 가중치는 원본 용어 내 형태소의 비중을 비율화한 값일 수 있다. 일예로 도 4와 같이 추천 용어 결정부(130)는 빈도의 역순을 순위화하여 빈도수가 높을수록 높은 순위(1순위)를 가지도록 하고, 형태소가 전체 용어에서 차지고 있는 비중을 비율화 하여 가중치로 사용할 수 있다. 달리 말해, 추천 용어 결정부(130)는 분리된 형태소의 순위를 역순으로 수치화하여, 빈도가 높은 형태소일수록 높은 값을 가질 수 있도록 형태소의 점수를 결정할 수 있다. 형태소의 가중치는 형태소가 포함된 용어에서 각각의 형태소가 가지는 길이의 비중을 가지고 계산될 수 있다. 추천 용어 결정부(130)는 가중치와 형태소의 점수를 곱하고 전체 용어에서 더함으로써 용어의 추천 점수를 계산할 수 있다. The recommended
추천 점수는, 분리된 형태소의 추출빈도를 수치화한 값을 기반으로 분리된 형태소의 추출 빈도수 및 제1 원본 용어에서 분류된 복수의 형태소 각각의 길이를 제1원본 용어의 전체길이로 나누어 연산한 결과의 합을 이용하여 계산되는 것일 수 있다. 예를 들어, 제1원본 용어에 제1형태소 내지 제3형태소가 포함되는 경우, 제1형태소의 길이를 제1원본 용어의 전체길이로 나누어 연산한 결과, 제2형태소의 길이를 제1원본 용어의 전체길이로 나누어 연산한 결과 및 제3형태소의 길이를 제1원본 용어의 전체길이로 나누어 연산한 결과의 합을 이용하여 용어의 추천점수를 계산할 수 있다. The recommendation score is calculated by dividing the extraction frequency of the separated morpheme based on the numerical value of the extraction frequency of the separated morpheme and the length of each of the plurality of morphemes classified in the first original term by the total length of the first original term Of the total sum of the two. For example, when the first morpheme includes the first morpheme to the third morpheme, the length of the first morpheme is divided by the total length of the first original term, And the sum of the results obtained by dividing the length of the third morpheme by the total length of the first original term to calculate the recommended score of the term.
예시적으로 추천 점수는 [식1]과 같이 표현될 수 있다. By way of example, the recommendation score can be expressed as [Equation 1].
[식1][Formula 1]
여기서, n은 용어에서 분리한 형태소의 개수이고, rank는 빈도의 순위(역순)이다. Where n is the number of morphemes separated from the term and rank is the rank of the frequency (in reverse order).
예시적으로 도 4 및 도 5를 참조하면, '상세', '불명', '폐렴'의 빈도를 순위화 한 수치는 각각, 402, 399, 330 이며 '상세불명 폐렴'의 전체길이는 띄어쓰기를 포함하여 7글자이고 분리된 형태소는 각각 2글자씩이다. 가중치는 형태소의 글자의 길이인 2에 전체길이인 7을 나눠 가중치화 한다. 그 결과 '상세불명폐렴'의 추천 점수는 '상세', '불명', '폐렴'의 빈도를 순위화 한 수치인 402, 399, 330에 각각 2/7을 곱하여 모두 더한 숫자인 323점이된다. Illustratively, referring to FIGS. 4 and 5, the numerical values of the frequencies of 'detailed', 'unknown', and 'pneumonia' are 402, 399, and 330, respectively, and the total length of 'unspecified pneumonia' And each of the separated morphemes is 2 letters. The weights are weighted by dividing the total length of 7 by the length of the letters in the morpheme. As a result, the recommendation score of 'Unspecified pneumonia' is 323 points, which is the sum of the numbers of 'detailed', 'unknown', 'pneumonia'
본원의 일 실시예에 따르면, 추천 용어 결정부(130)는 형태소 분석 시에 모든 품사를 고려하여 빈도수를 계산하였으나, 이에 한정되는 것은 아니다. 예를 들어, 추천 용어 결정부(130)는 사용자 입력 수신부(160)를 통해 제공받은 용어 군집화 수행 정보에 포함된 품사 결정 정보에 기반하여 품사를 결정하여 형태소 분석을 수행할 수 있다. 달리 말해, 추천 용어 결정부(130)는 형태소 분리 시 용어 군집화 수행 정보에 포함된 품사 결정 정보에 기반하여 전처리된 데이터를 기반으로 형태소 분리를 수행할 수 있다. According to one embodiment of the present application, the
도 6은 본원의 일 실시예에 따른 용어 군집화 장치에서 용어의 추천 점수 계산에 따른 추천 용어의 순위를 설명하기 위하여 개략적으로 나타낸 도면이다.FIG. 6 is a diagram schematically showing the ranking of the recommended terms according to the calculation of the recommended score of the terms in the term clustering apparatus according to the embodiment of the present invention.
도 6을 참조하면, 추천 용어 결정부(130)는 앞서 설명된 추천 점수의 계산법을 적용하여 계산된 용어의 추천 점수가 높은 용어를 우선하여 정렬할 수 있다. Referring to FIG. 6, the
본원의 일 실시예예 따르면, 추천 용어 결정부(130)는 분리된 형태소의 빈도와 가중치를 이용하여 추천 점수를 계산하여 추천 용어를 선정할 수 있다. 또한, 추천 용어 결정부(130)는 가중치와 순위화 한 빈도수를 이용하여 추천용어의 우선순위를 결정할 수 있다. 또한, 추천 용어 결정부(130)는 순위화한 형태소와 형태소의 길이를 이용한 가중치를 이용하여 추천 용어의 우선 순위를 결정할 수 있다. According to one embodiment of the present invention, the
도 7은 본원의 일 실시예에 따른 용어 군집화 장치에서 추천 용어의 음운화를 설명하기 위하여 예시적으로 나타낸 도면이다.FIG. 7 is an exemplary illustration of phonologicalization of terms of recommendation in a term clustering apparatus according to an embodiment of the present invention; FIG.
도 7을 참조하면, 데이터 군집부(140)는 원본 용어의 음운을 분리하고, 음운으로 분리된 각각의 원본 용어 간의 유사도 연산을 수행할 수 있다. 데이터 군집부(140)는 원본 용어가 한글일 경우, 초성, 중성, 종성으로 한글 자모에 따른 음운으로 분리하고, 인공지능 기반의 알고리즘을 이용하여 유사도를 연산할 수 있다. 데이터 군집부(140)는 Fuzzy Data Matching 알고리즘을 사용하여 각각의 원본 용어간의 유사도 연산을 수행할 수 있으나, 이에 한정되는 것은 아니다. Fuzzy Data Matching 알고리즘은 편집거리(레펜슈타인, Levenshtein Distance)를 기반으로 계산된 결과값을 사용하여 데이터 간에 매칭을 수행하는 알고리즘이다.Referring to FIG. 7, the
데이터 군집부(140)는 음절로 이루어져 있는 용어들을 초성, 중성, 종성으로 한글 자모에 따른 음운으로 분리할 수 있다. 예시적으로 인공지능 기반의 알고리즘 하나인 Fuzzy Data Matching 알고리즘은 각 단어들 간의 모양만으로 유사도를 계산하는 방법을 사용하기 때문이다. 이 알고리즘의 기초가 되는 언어인 영문과 달리, 국문의 경우 영문의 알파벳에 해당하는 한글의 자모가 합쳐져 글자를 만들어 내기 때문에, 데이터 군집부(140)는 알파벳과 같이 한글의 음절을 풀어서 한글의 자모로 분리시켜 유사도를 계산할 수 있다. 예시적으로, 음운 분리 없이 유사도를 계산할 경우 '강'과 '공'은 완전히 다른 글자지만, 음운분리를 하고 난, 'ㄱㅏㅇ' 과 'ㄱㅗㅇ'은 가운데 중성만 다른 비슷한 글자이므로, 데이터 군집부(140)는 원본 용어가 한글일 경우, 한글 자모에 따른 음운으로 분리할 수 있다. The
일예로 도 7을 참조하면, 데이터 군집부(140)는 '상세불명폐렴'의 경우, 'ㅅㅏㅇㅅㅔㅂㅜㄹㅁㅕㅇ ㅍㅖㄹㅕㅁ'으로 분리하여 유사도를 계산할 수 있다. 다만, 영문의 경우 이 과정을 생략할 수 있다.For example, referring to FIG. 7, in the case of 'unspecified pneumonia', the
본원의 일 실시예에 따르면, 데이터 군집부(140)는 사용자가 선택한 비정형 데이터 간의 유사도를 계산하여 군집화할 수 있다. 또한, 데이터 군집부(140)는 음운으로 분리된 용어들 간의 유사도를 계산하여 일정 유사도 값을 넘게 되면 추천 용어들의 우선순위에 따라 추천용어 집단에 군집화할 수 있다. 달리 말해, 데이터 군집부(140)는 유사도 연산 값이 미리 설정된 임계치 이상인 원본 용어를 군집화할 수 있다. 임계치는 사용자의 편의에 따라 유사도 값의 임계치를 수정 및 변화될 수 있다. 달리 말해, 임계치는 사용자 입력 수신부(160)에서 수신한 용어 군집화 수행 정보에 포함된 임계치 수정 정보에 기반하여 변경될 수 있다. According to one embodiment of the present invention, the
예시적으로 도 7을 참조하면, 데이터 군집부(140)는 복수의 용어 각각의 유사도 계산을 수행할 수 있다. 예를 들어, 데이터 군집부(140)는 제1원본 용어(상세불명폐렴)와 제2 원본 용어(목뼈허리뼈염좌) 간의 유사도 계산을 수행할 수 있다 .또한, 데이터 군집부(140)는 제1 원본 용어(상세불명폐렴)와 제3 원본 용어(급성간염) 간의 유사도 계산을 수행할 수 있다. 데이터 군집부(140)는 칼럼에 포함된 제1원본 용어와 제n원본 용어 각각에 대해 유사도 계산을 수행할 수 있다. 데이터 군집부(140)에서 수행된 유사도 계산은 이후 추천 용어 결정부(130)의 추천 용어 결정에 사용될 수 있다. Illustratively, referring to FIG. 7, the
본원의 일 실시예에 따르면, 데이터 군집부(140)는 추천 용어 결정부(130)에서 결정한 추천 용어 우선순위 데이터들을, 음운 단위로 분리를 하고 군집화할 수 있다. 군집화는 편집거리 기반의 유사도를 기준으로, 일정 유사도를 초과할 시에 원본 용어를 군집화할 수 있다. According to one embodiment of the present invention, the
도 8은 본원의 일 실시예에 따른 용어 군집화 장치에서 용어 군집화 결과를 예시적으로 나타낸 결과이다.FIG. 8 is a result of exemplary clustering of terms in a terminology clustering apparatus according to an embodiment of the present invention.
도 8을 참조하면, 추천 용어 결정부(130)는, 추천 점수 및 군집화 결과에 기반하여 복수의 원본 용어 중 추천 용어를 결정할 수 있다. Referring to FIG. 8, the recommended
추천 용어 결정부(130)는 제1 원본 용어(1), 제2 원본 용어(2), 제3 원본 용어(3), 제4 원본 용어(4) 등을 포함하는 제1군집화 결과(11)를 기반으로 복수의 원본 용어 중 추천 용어를 결정할 수 있다. 추천 용어 결정부(130)는 제1 군집화 결과(11)에 포함된 제1 원본 용어(1), 제2 원본 용어(2), 제3 원본 용어(3), 제4 원본 용어(4), 제5원본 용어(5), 제6원본 용어(6), 제7원본 용어(7)의 추천 점수에 기반하여 추천 용어를 결정할 수 있다. 추천 용어 결정부(130)는 제1군집화 결과(11)에 포함된 원본 용어 중 추천 점수가 가장 높은 원본 용어를 추천 용어로 선정할 수 있다. 제1군집화 결과(11)는 데이터 군집부(140)에서 미리 설정된 임계치 이상인 원본 용어를 군집화한 결과일 수 있다. The
예시적으로, 제1 원본 용어(상세불명폐렴)의 추천 점수는 377이고, 제2 원본 용어(상세불명의폐렴)의 추천 점수는 323이고, 제3원본 용어(상세불명 폐렴)의 추천 점수는 323이고, 제4원본 용어(상세불명세균폐렴)의 추천 점수는 310일 수 있다. 추천 용어 결정부(130)는 제1원본 용어 내지 제4원본 용어의 추천 점수 중 가장 높은 추천 점수를 가지는 제1원본 용어(상세불명폐렴)을 추천 용어로 결정할 수 있다. 유사도 값은 추천 용어로 결정된 제1원본 용어(상세불명폐렴)와 제2 원본 용어(상세불명의폐렴) 간의 유사도 값일 수 있다. 달리 말해, 추천 용어 결정부(130)는 제1군집화 결과(11)에 포함된 복수의 원본 용어 중 추천 점수가 가장 높은 원본 용어를 추천 용어로 선정하고, 상기 유사도는 추천 용어와 원본 용어 간의 유사도 값일 수 있다. Illustratively, the recommended score for the first original term (unspecified pneumonia) is 377, the recommended score for the second original term (unspecified pneumonia) is 323, and the recommended score for the third original term (unspecified pneumonia) 323, and the recommendation score of the fourth original term (unspecified bacterial pneumonia) may be 310. The recommended
예시적으로 도8을 참조하면, 추천 용어 '상세불명폐렴'을 기준으로 군집화된 데이터는 '상세불명폐렴', '상세불명의폐렴, '상세불명 폐렴', '상세불명세균폐렴', '상세불명의 폐렴', '상세 불명의 폐렴', '상세불명의페렴'이다. 원본용어를 입력한 사용자에 따라 다르게 표현한 띄어쓰기, 조사 등을 제외하면 추천 용어에 군집화된 원본 용어들은 '상세불명폐렴'과 유사하게 표현된 용어임을 알 수 있다. For example, referring to FIG. 8, the clustered data based on the recommended term 'unspecified pneumonia' includes' unspecified pneumonia ',' unspecified pneumonia ',' unspecified pneumonia ',' unspecified bacterial pneumonia ',' Unspecified pneumonia ',' unspecified pneumonia ', and' unspecified pneumonia '. It can be seen that the original terms clustered in the recommended terms are similar terms to 'unspecified pneumonia', except for spacing and survey which are different according to the user who entered the original term.
또한, 추천 용어 '목뼈허리뼈염좌' 를 기준으로 군집화된 용어(데이터)는 '목뼈허리뼈염좌', 목뼈염좌 허리뼈염좌','목뼈염좌|허리뼈염좌','목뼈염좌| 허리뼈염좌', '목뼈및허리뼈의염좌', '목뼈/허리뼈의염좌, '목뼈.허리뼈의염좌', '목뼝염좌|허리뼈염좌' 이다. 이와 같이, 용어에 포함된 특수기호, 띄어쓰기, 조사, 접속사를 사용함으로써, 형태가 다르게 표현되었던 용어들이 추천용어인 '목뼈허리뼈염좌'로 군집화된 것을 확인할 수 있다. In addition, terms (data) clustered based on the recommended term 'neck bone spine sprains' include 'neck spine back bone spine', 'neck spine spine back bone spine', 'neck spine spine', 'waist spine spine' Sprains of the back bone, sprains of the back bone, sprains of the back bone, sprains of the back bone, and sprains of the back bone. Thus, by using special symbols, spaces, surveys, and conjunctions included in the terms, it can be seen that the terms that have been expressed differently are grouped into the recommended term 'neck bone spine sprains'.
예시적으로 도 8을 참조하면, 데이터 결과부(150)는 데이터 군집부(140)의 군집 결과를 제공할 수 있다. 군집 결과는 추천 용어, 원본 용어, 유사도 값을 포함할 수 있다. 여기서, 원본 용어는, 칼럼에 포함된 용어일 수 있다. 달리 말해, 원본 용어는 데이터 베이스(110)에 포함된 초기값의 데이터일 수 있다. 예시적으로, 병명은 원본 용어에 해당할 수 있다. 추천 용어는 추천 점수 및 군집화 결과에 기반하여 복수의 원본 용어 중 결정된 용어 일 수 있다. 유사도는, 추천 용어와 원본 용어 사이의 유사도 값일 수 있다. 유사도는, 데이터 군집부(140)에서 음운으로 분리하여 연산된 각각의 원본 용어간의 유사도 값일 수 있다. 사용자는 데이터 결과부(150)는 추천용어에 따라 군집화되어 있는 원본 용어 및 추천용어와 원본용어 간의 유사도를 백분율 형태로 제공할 수 있다. Illustratively, referring to FIG. 8, the data result
예를 들어, 제1군집화 결과(11)의 추천 용어인 '상세불명폐렴'과 제1원본 용어인 '상세불명폐렴'과의 유사도 값은 100일 수 있다. 또한, 제1군집화 결과(11)의 추천 용어인 '상세불명폐렴'과 제2원본 용어인 '상세불명의폐렴'과의 유사도 값은 94일 수 있다. 또한, 제1군집화 결과(11)의 추천 용어인 '상세불명폐렴'과 제3원본 용어인 '상세불명 폐렴'과의 유사도 값은 100일 수 있다. 기존의 군집화 방법을 적용하면, 추천 용어인 '상세불명폐렴'과 제3원본 용어인 '상세불명 폐렴'은 띄어쓰기가 포함되어 같은 용어이지만, 군집화가 되지 않는 문제점이 발생할 수 있다. 데이터 군집부(140)의 음운으로 분리 후 유사도 연산을 수행함으로써, 띄어쓰기로 인해 군집화되지 않는 문제점을 해결할 수 있다. For example, the similarity value between the 'unspecified pneumonia', which is the recommended term of the first clustering result (11), and the 'unspecified pneumonia', the first original term, may be 100. Further, the similarity value between the 'unspecified pneumonia', which is a recommended term of the first clustering result (11), and the 'unspecified pneumonia', which is the second original term, may be 94. Further, the similarity value between the 'unspecified pneumonia', which is a recommended term of the first clustering result (11), and the 'unspecified pneumonia', which is the third original term, may be 100. When the existing clustering method is applied, the recommended terms 'unspecified pneumonia' and the third original term 'unspecified pneumonia' are included in the same term including the spacing, but the problem of clustering can not be obtained. By performing the similarity calculation after the segmentation by the phoneme of the
본원의 일 실시예예 따르면, 데이터 결과부(150)는 데이터 군집부(140)의 결과를 확인 및 저장하고 수정할 수 있다. 데이터 결과부(150)에서 확인할 수 있는 군집화 결과는 선택한 데이터 셋의 칼럼 항목에 포함된 데이터를 군집화한 결과이다. 군집화한 결과는 데이터 셋의 칼럼 항목에 포함된 본래의 데이터와 추천용어 및 추천용어와 본래 데이터 간의 유사도를 함께 보여준다. 사용자는 데이터 결과부에서 군집화 결과를 확인하고, 추천용어를 수정할 수 있다.According to one embodiment of the present invention, the data result
본원의 일 실시예에 따르면, 데이터 결과부(150)는 데이터 용어 군집화 결과에 기초하여 추천 용어를 수정할 수 있다. 데이터 결과부(150)는 사용자 단말로부터 제공받은 추천 용어 수정 요청에 의해, 추천 용어를 수정할 수 있다. 달리 말해, 추천 용어는 사용자의 편의나 표준화하고 싶은 용어로 사용자가 수정이 가능하다.According to one embodiment of the present invention, the data result
본원의 일 실시예에 따르면, 데이터 결과부(150)는 용어(데이터) 군집화 결과를 저장할 수 있다. 용어(데이터) 군집화가 완료된 데이터들을 대상으로 데이터 베이스(110) 등 사용자가 원하는 형태로 저장할 수 있다. 이때 원본 용어 대신에 추천 용어를 수정하는 것이 아닌 새로운 칼럼(추천 용어가 포함된 칼럼)에 저장함으로써, 사용자가 군집 결과를 재확인을 할 수 있다.According to one embodiment of the present invention, the data result
본원의 일 실시예예 따르면, 사용자 입력 수신부(160)는 사용자 단말(미도시)로부터 용어 군집화 수행 정보를 수신할 수 있다. 용어 군집화 수행 정보는, 데이터 베이스에 포함된 데이터 셋 중 용어 군집화를 수행할 제1 데이터 셋을 결정하는 사용자 입력 정보를 포함할 수 있다 .또한, 용어 군집화 수행 정보는, 전처리된 데이터에 포함된 원본 용어의 형태소 분리 시 품사를 결정하기 위한 사용자 입력 정보를 포함할 수 있다. 또한, 용어 군집화 수행 정보는, 음운으로 분리된 각각의 원본 용어 간의 유사도를 구분할 임계치를 설정하기 위한 사용자 입력 정보를 포함할 수 있다. According to one embodiment of the present invention, the user
본원의 일 실시예에 따르면, 사용자 입력 수신부(160)는 사용자 단말(미도시)로 용어 군집화 메뉴를 제공할 수 있다. 예를 들어, 용어 군집화 장치(100)가 제공하는 애플리케이션 프로그램을 사용자 단말(미도시)이 다운로드하여 설치하고, 설치된 어플리케이션을 통해 용어 군집화 메뉴가 제공될 수 있다.According to one embodiment of the present invention, the user
사용자 입력 수신부(160)는 사용자 단말(미도시)과 데이터, 콘텐츠, 각종 통신 신호를 네트워크를 통해 송수신하고, 데이터 저장 및 처리의 기능을 가지는 모든 종류의 서버, 단말, 또는 디바이스를 포함할 수 있다.The user
사용자 단말(미도시)은 네트워크를 통해 사용자 입력 수신부(160)와 연동되는 디바이스로서, 예를 들면, 스마트폰(Smartphone), 스마트패드(Smart Pad), 태블릿 PC, 웨어러블 디바이스 등과 PCS(Personal Communication System), GSM(Global System for Mobile communication), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말기 같은 모든 종류의 무선 통신 장치 및 데스크탑 컴퓨터, 스마트 TV와 같은 고정용 단말기일 수도 있다. A smart pad, a tablet PC, a wearable device, and the like, and a personal communication system (PCS), for example, ), GSM (Global System for Mobile communication), PDC (Personal Digital Cellular), PHS (Personal Handyphone System), PDA (Personal Digital Assistant), IMT (International Mobile Telecommunication) -2000, CDMA , W-CDMA (W-Code Division Multiple Access), and Wibro (Wireless Broadband Internet) terminals, desktop computers, and smart TVs.
사용자 입력 수신부(160) 및 사용자 단말(미도시) 간의 정보 공유를 위한 네트워크의 일 예로는 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5G 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 유무선 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, Wifi 네트워크, NFC(Near Field Communication) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함될 수 있으며, 이에 한정된 것은 아니다.An example of a network for information sharing between the user
이하에서는 상기에 자세히 설명된 내용을 기반으로, 본원의 동작 흐름을 간단히 살펴보기로 한다.Hereinafter, the operation flow of the present invention will be briefly described based on the details described above.
도 9는 본원의 일 실시예에 따른 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 방법에 대한 동작 흐름도이다.FIG. 9 is a flowchart illustrating a method for grouping unstructured text data for analysis of big data according to an embodiment of the present invention.
도 9에 도시된 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 방법은 앞서 설명된 용어 군집화 장치(10)에 의하여 수행될 수 있다. 따라서, 이하 생략된 내용이라고 하더라도 용어 군집화 장치(10)에 대하여 설명된 내용은 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 방법에 대한 설명에도 동일하게 적용될 수 있다.The term clustering method of unstructured text data for the big data analysis shown in FIG. 9 can be performed by the term clustering apparatus 10 described above. Therefore, even if omitted below, the description of the term clustering apparatus 10 can be equally applied to the description of the clustering method of the unstructured text data for the big data analysis.
단계 S901에서, 용어 군집화 장치(10)는 데이터 베이스에 포함된 데이터 셋에서 데이터를 선택하고 전처리를 수행할 수 있다.In step S901, the term clustering apparatus 10 may select data from a data set included in the database and perform preprocessing.
단계 S902에서, 용어 군집화 장치(10)는 전처리된 데이터에 포함된 원본 용어의 형태소를 분리하고, 원본 용어의 추천 점수를 계산할 수 있다.In step S902, the term clustering apparatus 10 can separate the morpheme of the original term included in the preprocessed data and calculate the recommendation score of the original term.
단계 S903에서, 용어 군집화 장치(10)는 원본 용어의 음운을 분리하고, 음운으로 분리된 각각의 원본 용어 간의 유사도 연산을 수행하고, 상기 유사도 연산 값이 미리 설정된 임계치 이상인 원본 용어를 군집화할 수 있다.In step S903, the term clustering apparatus 10 separates the phonemes of the original terms, performs similarity calculation between the original terms separated by the phonemes, and clusters the original terms whose similarity calculation value is equal to or greater than a predetermined threshold value .
단계 S904에서, 용어 군집화 장치(10)는 상기 추천 점수 및 상기 군집화 결과에 기반하여 복수의 원본 용어 중 추천 용어를 결정하는 단계를 포함할 수 있다. In step S904, the term clustering apparatus 10 may include a step of determining a recommended term among a plurality of original terms based on the recommendation score and the clustering result.
상술한 설명에서, 단계 S901 내지 S904은 본원의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.In the above description, steps S901 to S904 may be further divided into additional steps, or combined in fewer steps, according to embodiments of the present disclosure. Also, some of the steps may be omitted as necessary, and the order between the steps may be changed.
본원의 일 실시 예에 따른 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The term clustering method of unstructured text data for analysis of big data according to an embodiment of the present invention may be implemented in a form of a program command which can be executed through various computer means and recorded in a computer readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions recorded on the medium may be those specially designed and constructed for the present invention or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.
또한, 전술한 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 방법은 기록 매체에 저장되는 컴퓨터에 의해 실행되는 컴퓨터 프로그램 또는 애플리케이션의 형태로도 구현될 수 있다.The term clustering method of unstructured text data for the above-described big data analysis can also be implemented in the form of a computer program or an application executed by a computer stored in a recording medium.
전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.It will be understood by those of ordinary skill in the art that the foregoing description of the embodiments is for illustrative purposes and that those skilled in the art can easily modify the invention without departing from the spirit or essential characteristics thereof. It is therefore to be understood that the above-described embodiments are illustrative in all aspects and not restrictive. For example, each component described as a single entity may be distributed and implemented, and components described as being distributed may also be implemented in a combined form.
본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is defined by the appended claims rather than the detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalents should be construed as being included within the scope of the present invention.
100: 용어 군집화 장치
110: 데이터 베이스
120: 데이터 전처리부
130: 추천 용어부
140: 데이터 군집부
150: 데이터 결과부
160: 사용자 입력 수신부100: Term clustering device
110: Database
120: Data preprocessing section
130: Reference Glossary
140: Data cluster part
150:
160: User input receiver
Claims (10)
데이터 셋을 포함하는 데이터 베이스;
상기 데이터 베이스에 포함된 데이터 셋에서 데이터를 선택하고 전처리를 수행하는 데이터 전처리부;
전처리된 데이터에 포함된 원본 용어의 형태소를 분리하고, 원본 용어의 추천 점수를 계산하는 추천 용어 결정부; 및
원본 용어의 음운을 분리하고, 음운으로 분리된 각각의 원본 용어 간의 유사도 연산을 수행하고, 상기 유사도 연산 값이 미리 설정된 임계치 이상인 원본 용어를 군집화하는 데이터 군집부,
를 포함하되,
상기 추천 용어 결정부는, 상기 추천 점수 및 상기 군집화 결과에 기반하여 복수의 원본 용어 중 추천 용어를 결정하고, 분리된 형태소의 추출빈도를 수치화한 값 및 분리된 형태소를 기반으로 추출된 가중치를 이용하여 상기 추천 점수를 계산하되, 상기 가중치는 원본 용어 내 형태소의 비중을 비율화한 값인 것인,용어 군집화 장치. A term clustering apparatus for unstructured text data for analysis of big data,
A database containing a dataset;
A data preprocessing unit for selecting data from a data set included in the database and performing preprocessing;
A recommendation term determination unit for separating morphemes of original terms included in the preprocessed data and calculating recommendation scores of original terms; And
A data cluster unit for separating the phonemes of original terms, performing a similarity calculation between original terms separated by phonemes, and clustering original terms having a similarity calculation value equal to or greater than a preset threshold value,
, ≪ / RTI &
The recommendation term determination unit may determine recommendation terms among a plurality of original terms based on the recommendation score and the result of the grouping, and use a value obtained by digitizing the extraction frequency of the separated morpheme and a weight extracted based on the separated morpheme Wherein the recommendation score is calculated by weighting the weight of the morpheme in the original term.
상기 전처리부는,
상기 데이터 베이스에 포함된 데이터 셋 중 용어 군집화를 수행할 제1데이터 셋을 결정하고, 상기 제1데이터 셋의 복수의 칼럼 항목 중 용어 군집화를 수행할 제1칼럼을 선택하여 선택된 칼럼 항목의 데이터 전처리를 수행하는 것인, 용어 군집화 장치.The method according to claim 1,
The pre-
Determining a first data set to perform clustering of terms among the data sets included in the database, selecting a first column for clustering terms among the plurality of column items of the first data set, The term clustering device.
상기 추천 점수는,
상기 분리된 형태소의 추출빈도를 수치화한 값을 기반으로 분리된 형태소의 추출 빈도수 및 제1원본 용어에서 분류된 복수의 형태소 각각의 길이를 상기 제1원본 용어의 전체길이로 나누어 연산한 결과의 합을 이용하여 계산되는 것인, 용어 군집화 장치.The method according to claim 1,
The recommendation score,
The sum of the extraction frequency of the separated morpheme based on the value obtained by digitizing the extraction frequency of the separated morpheme and the result of dividing the length of each of the plurality of morphemes classified in the first original term by the total length of the first original term Is computed using the term clustering.
상기 데이터 군집부는,
상기 원본 용어가 한글일 경우, 초성, 중성, 종성으로 한글 자모에 따른 음운으로 분리하고, 인공지능 기반의 알고리즘을 이용하여 유사도를 연산하는 것인, 용어 군집화 장치.The method according to claim 1,
The data-
Wherein when the original term is Hangul, it is divided into phonemes according to Korean alphabet with a prefix, a neutral, and a longitudinal, and the similarity is calculated using an artificial intelligence based algorithm.
상기 데이터 군집부의 군집 결과를 제공하는 데이터 결과부를 더 포함하되,
상기 군집 결과는 추천 용어, 원본 용어, 유사도 값을 포함하는 것인, 용어 군집화 장치.The method according to claim 1,
And a data result unit for providing a cluster result of the data cluster unit,
Wherein the clustering result includes a recommendation term, an original term, and a similarity value.
사용자 단말로부터 용어 군집화 수행 정보를 수신하는 사용자 입력 수신부를 더 포함하는 것인, 용어 군집화 장치.The method according to claim 1,
And a user input receiving unit for receiving term clustering performance information from the user terminal.
상기 추천 용어 결정부는,
형태소 분리 시 상기 용어 군집화 수행 정보에 포함된 품사 결정 정보에 기반하여 상기 전처리된 데이터를 기반으로 형태소 분리를 수행하는 것인, 용어 군집화 장치.9. The method of claim 8,
The term "
Wherein morphologic separation is performed based on the preprocessed data based on part-of-speech decision information included in the term clustering performance information when morpheme is separated.
데이터 베이스에 포함된 데이터 셋에서 데이터를 선택하고 전처리를 수행하는 단계;
전처리된 데이터에 포함된 원본 용어의 형태소를 분리하고, 원본 용어의 추천 점수를 계산하는 단계; 및
원본 용어의 음운을 분리하고, 음운으로 분리된 각각의 원본 용어 간의 유사도 연산을 수행하고, 상기 유사도 연산 값이 미리 설정된 임계치 이상인 원본 용어를 군집화하는 단계;
상기 추천 점수 및 상기 군집화 결과에 기반하여 복수의 원본 용어 중 추천 용어를 결정하는 단계를 포함하되,
상기 원본 용어의 추천 점수를 계산하는 단계는,
분리된 형태소의 추출빈도를 수치화한 값 및 분리된 형태소를 기반으로 추출된 가중치를 이용하여 추천 점수를 계산하고,
상기 가중치는 원본 용어 내 형태소의 비중을 비율화한 값인 것인, 용어 군집화 방법.A method for grouping unstructured text data for big data analysis,
Selecting data from a data set included in the database and performing preprocessing;
Separating morphemes of original terms included in the preprocessed data and calculating recommendation scores of original terms; And
Separating the phonemes of the original terms, performing a similarity calculation between the original terms separated by the phonemes, and clustering the original terms having the similarity calculation value equal to or greater than a predetermined threshold value;
Determining a recommendation term among a plurality of original terms based on the recommendation score and the clustering result,
The step of calculating the recommendation score of the original term may include:
The recommendation score is calculated using the numerical value of the extraction frequency of the separated morpheme and the weight extracted based on the separated morpheme,
Wherein the weights are values obtained by scaling the weight of the morphemes in the original term.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180147335A KR101975419B1 (en) | 2018-11-26 | 2018-11-26 | Device and method for terminology clustering informal text data for big data analysis |
PCT/KR2019/002778 WO2020111395A1 (en) | 2018-11-26 | 2019-03-11 | Device and method for term clustering of unstructured text data for big data analysis |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180147335A KR101975419B1 (en) | 2018-11-26 | 2018-11-26 | Device and method for terminology clustering informal text data for big data analysis |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101975419B1 true KR101975419B1 (en) | 2019-05-07 |
Family
ID=66656387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180147335A KR101975419B1 (en) | 2018-11-26 | 2018-11-26 | Device and method for terminology clustering informal text data for big data analysis |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR101975419B1 (en) |
WO (1) | WO2020111395A1 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102046640B1 (en) * | 2019-07-22 | 2019-12-02 | (주)위세아이텍 | Automatic terminology recommendation device and method for big data standardization |
KR102068715B1 (en) * | 2019-06-05 | 2020-01-21 | (주)위세아이텍 | Outlier detection device and method which weights are applied according to feature importance degree |
KR102153259B1 (en) * | 2020-03-24 | 2020-09-08 | 주식회사 데이터스트림즈 | Data domain recommendation method and method for constructing integrated data repository management system using recommended domain |
KR20210099739A (en) * | 2020-02-05 | 2021-08-13 | 정동윤 | User Review Based Rating Re-calculation Apparatus and Method |
KR102362582B1 (en) * | 2020-12-31 | 2022-02-15 | 렉스소프트 주식회사 | Method, server and computer program product for preprocessing statistical data |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101579544B1 (en) * | 2014-09-04 | 2015-12-23 | 에스케이 텔레콤주식회사 | Apparatus and Method for Calculating Similarity of Natural Language |
KR20170037593A (en) * | 2017-03-23 | 2017-04-04 | 주식회사 플런티코리아 | Recommendation Reply Apparatus and Method |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102476812B1 (en) * | 2016-10-18 | 2022-12-09 | 삼성에스디에스 주식회사 | Method and apparatus for managing a synonymous item based on analysis of similarity |
KR20180089011A (en) * | 2017-01-31 | 2018-08-08 | 강태준 | A System for Searching a Language Based on Big Data with a Peculiar Value |
KR102025805B1 (en) * | 2017-03-29 | 2019-11-12 | 중앙대학교 산학협력단 | Device and method for analyzing similarity of documents |
-
2018
- 2018-11-26 KR KR1020180147335A patent/KR101975419B1/en active IP Right Grant
-
2019
- 2019-03-11 WO PCT/KR2019/002778 patent/WO2020111395A1/en active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101579544B1 (en) * | 2014-09-04 | 2015-12-23 | 에스케이 텔레콤주식회사 | Apparatus and Method for Calculating Similarity of Natural Language |
KR20170037593A (en) * | 2017-03-23 | 2017-04-04 | 주식회사 플런티코리아 | Recommendation Reply Apparatus and Method |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102068715B1 (en) * | 2019-06-05 | 2020-01-21 | (주)위세아이텍 | Outlier detection device and method which weights are applied according to feature importance degree |
KR102046640B1 (en) * | 2019-07-22 | 2019-12-02 | (주)위세아이텍 | Automatic terminology recommendation device and method for big data standardization |
KR20210099739A (en) * | 2020-02-05 | 2021-08-13 | 정동윤 | User Review Based Rating Re-calculation Apparatus and Method |
KR102351745B1 (en) | 2020-02-05 | 2022-01-17 | 정동윤 | User Review Based Rating Re-calculation Apparatus and Method |
KR102153259B1 (en) * | 2020-03-24 | 2020-09-08 | 주식회사 데이터스트림즈 | Data domain recommendation method and method for constructing integrated data repository management system using recommended domain |
KR102362582B1 (en) * | 2020-12-31 | 2022-02-15 | 렉스소프트 주식회사 | Method, server and computer program product for preprocessing statistical data |
Also Published As
Publication number | Publication date |
---|---|
WO2020111395A1 (en) | 2020-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101975419B1 (en) | Device and method for terminology clustering informal text data for big data analysis | |
CN110110330B (en) | Keyword extraction method based on text and computer equipment | |
WO2018207723A1 (en) | Abstract generation device, abstract generation method, and computer program | |
CN102622338B (en) | Computer-assisted computing method of semantic distance between short texts | |
CN111753060A (en) | Information retrieval method, device, equipment and computer readable storage medium | |
Fan et al. | Apply word vectors for sentiment analysis of APP reviews | |
US20190236135A1 (en) | Cross-lingual text classification | |
US10831993B2 (en) | Method and apparatus for constructing binary feature dictionary | |
Atia et al. | Increasing the accuracy of opinion mining in Arabic | |
CN111695349A (en) | Text matching method and text matching system | |
Huang et al. | Character-level convolutional network for text classification applied to chinese corpus | |
CN108052500A (en) | A kind of text key message extracting method and device based on semantic analysis | |
Banik et al. | Gru based named entity recognition system for bangla online newspapers | |
CN115309910B (en) | Language-text element and element relation joint extraction method and knowledge graph construction method | |
CN113673223A (en) | Keyword extraction method and system based on semantic similarity | |
CN112905768A (en) | Data interaction method, device and storage medium | |
CN112131341A (en) | Text similarity calculation method and device, electronic equipment and storage medium | |
JPWO2013128684A1 (en) | Dictionary generating apparatus, method, and program | |
JP6867963B2 (en) | Summary Evaluation device, method, program, and storage medium | |
KR102400689B1 (en) | Semantic relation learning device, semantic relation learning method, and semantic relation learning program | |
CN113569018A (en) | Question and answer pair mining method and device | |
Yahya et al. | Arabic text categorization based on Arabic Wikipedia | |
CN108172304A (en) | A kind of medical information visible processing method and system based on user's medical treatment feedback | |
JP2010128598A (en) | Document retrieving device and method, program and recording medium with program recorded thereon | |
Panchala et al. | Hate speech & offensive language detection using ML &NLP |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |