KR101975419B1 - Device and method for terminology clustering informal text data for big data analysis - Google Patents

Device and method for terminology clustering informal text data for big data analysis Download PDF

Info

Publication number
KR101975419B1
KR101975419B1 KR1020180147335A KR20180147335A KR101975419B1 KR 101975419 B1 KR101975419 B1 KR 101975419B1 KR 1020180147335 A KR1020180147335 A KR 1020180147335A KR 20180147335 A KR20180147335 A KR 20180147335A KR 101975419 B1 KR101975419 B1 KR 101975419B1
Authority
KR
South Korea
Prior art keywords
term
data
clustering
original
terms
Prior art date
Application number
KR1020180147335A
Other languages
Korean (ko)
Inventor
황덕열
공성원
김세경
Original Assignee
(주)위세아이텍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)위세아이텍 filed Critical (주)위세아이텍
Priority to KR1020180147335A priority Critical patent/KR101975419B1/en
Priority to PCT/KR2019/002778 priority patent/WO2020111395A1/en
Application granted granted Critical
Publication of KR101975419B1 publication Critical patent/KR101975419B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F17/2755
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/048Fuzzy inferencing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Automation & Control Theory (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to a terminology clustering device of informal text data for big data analysis. The terminology clustering device of informal text data for big data analysis includes: a database including a data set; a data preprocessing unit selecting data from the data set included in the database and preprocessing the selected data; a recommendation term determining unit separating morphemes of original terms included in the preprocessed data and calculating a recommendation score of the original terms; and a data clustering unit separating phonemes of the original terms, calculating similarity between the original terms from which the phonemes are separated, and clustering the original terms having a similarity calculation value equal to or greater than a predetermined threshold value, wherein the recommendation term determining unit is able to determine a recommended term among the plurality of original terms based on the recommendation score and a clustering result. The present invention is able to easily perform big data analysis.

Description

빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 장치 및 방법{DEVICE AND METHOD FOR TERMINOLOGY CLUSTERING INFORMAL TEXT DATA FOR BIG DATA ANALYSIS}TECHNICAL FIELD [0001] The present invention relates to an apparatus and method for clustering termed unstructured text data for large data analysis,

본원은 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for terminating clusters of unstructured text data for big data analysis.

빅데이터 분석을 위해 전체 소요 노력의 70% ~80%를 데이터 전처리에 사용하고 있다. 빅데이터 분석은 폭발적으로 증가하고 있으나 빅데이터 분석 기술 발전만큼 데이터 전처리에 관한 기술의 발전 속도는 느리며 이에 따라 자동화된 데이터 전처리 기술 개발의 필요성이 대두되고 있다.For big data analysis, 70% to 80% of the total effort is used for data preprocessing. Big data analysis is explosively growing, but the development of data preprocessing technology is slow as much as the development of big data analysis technology. Therefore, there is a need to develop automated data preprocessing technology.

공공정보 개방 환경과 맞물려 비정형 데이터 분석에 대한 소요가 늘어나, 비정형 데이터 전처리에 대한 중요도가 강조되고 있음에도 불구하고, 전처리의 대부분을 수작업으로 할애하고 있다.Despite the emphasis on irregular data preprocessing, the need for analysis of unstructured data is increasing due to the open environment of public information, and most of the preprocessing is manual.

텍스트 데이터에서 데이터 간 유사도를 계산하기 위해서 가장 많이 사용되는 알고리즘은 Fuzzy Matching 알고리즘이다. 이 알고리즘은 편집거리(레펜슈타인, Levenshtein Distance)를 기반으로 계산된 결과 값을 사용하여 데이터 간의 유사도를 계산해 주는 알고리즘이다.Fuzzy matching algorithm is the most used algorithm for calculating the similarity between data in text data. This algorithm is an algorithm that calculates the similarity between data using the calculated values based on the edit distance (Levenshtein Distance).

Fuzzy Matching 알고리즘은 단순히 두 데이터 상호 간의 유사도만을 계산해주는 알고리즘이다. 이 알고리즘을 응용하여 데이터 내에서 일정한 유사도를 가진 데이터들을 군집화한다. 또한, Fuzzy Matching 알고리즘은 영문을 기반으로 개발되어 있으므로 국문에 적용하였을 경우 음운이 아닌 음절을 바탕으로 유사도를 계산하는 문제점을 가지고 있다. The Fuzzy Matching algorithm is simply an algorithm that calculates the similarity between two data. This algorithm is applied to group data with a certain degree of similarity in data. In addition, since the Fuzzy Matching algorithm is developed based on English, it has a problem of calculating similarity based on non-phonological syllables when applied to Korean.

또한, 형태소 분석은 자연어처리에서 가장 핵심적인 기술로, 말 또는 문장을 가장 작은 말의 단위인 형태소로 분리해주며, 분리된 형태소의 품사를 판단한다. 데이터 셋 내에서 형태소 분석을 통한 빈도수 확인을 통해, 해당 데이터 셋 내의 핵심 형태소를 확인할 수 있다.In addition, morpheme analysis is the most important technique in natural language processing, separating words or sentences into morphemes, which are the smallest unit of words, and judging the parts of the separated morpheme. Through the morphological analysis of the dataset, you can identify key morphemes in the dataset.

본원의 배경이 되는 기술은 한국공개특허공보 제10-2016-0075974호에 개시되어 있다.The background technology of the present application is disclosed in Korean Patent Laid-Open Publication No. 10-2016-0075974.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 빅데이터 비정형 텍스트 전처리의 어려움을 극복하고자, 데이터 내의 유사한 용어들을 군집화시켜, 빅데이터 분석을 용이하게 할 수 있는 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 장치 및 방법을 제공하려는 것을 목적으로 한다.It is an object of the present invention to overcome the above problems of the prior art and to overcome the difficulty of the preprocessing of big data unstructured text by clustering similar terms in the data to make large data analysis easier, And to provide a terminology clustering apparatus and method.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 데이터 셋 내 용어를 군집화 시 대표 용어를 추천함으로써, 사용자가 수작업으로 수행해야 하는 비정형 데이터 전처리 과정의 시간을 감소시켜 줄 수 있는 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 장치 및 방법을 제공하려는 것을 목적으로 한다.SUMMARY OF THE INVENTION The present invention has been made to solve the problems of the prior art described above and it is an object of the present invention to provide a method and apparatus for analyzing large data that can reduce the time required for an arbitrary data preprocessing process, And an apparatus and method for clustering terms of unstructured text data.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 형태소 분석을 응용하여 사용자에게 대표 용어를 자동으로 추천하는 방법을 제공함으로써, 사용자가 대표 단어를 선정하는 시간을 감소시켜 줄 수 있는 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 장치 및 방법을 제공하려는 것을 목적으로 한다.It is an object of the present invention to provide a method for automatically recommending a representative term to a user by applying morphological analysis to a user, And to provide a term clustering apparatus and method for unstructured text data.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 유사도 계산 과정에서 국문 데이터의 편집 거리를 음절 단위로 계산하는 문제점을 해결하기 위해서 각 음절을 음운으로 분리하여 계산하는 방법을 사용하여 군집화함으로써, 사용자의 오타 등과 같은 휴먼 에러를 교정해 주어 비정형 데이터 표준화에 도움을 줄 수 있는 비정형 텍스트 데이터의 용어 군집화 장치 및 방법을 제공하려는 것을 목적으로 한다.In order to solve the problem of the conventional art described above, in order to solve the problem of calculating the edit distance of Korean text data in syllable units in the similarity calculation process, the syllables are grouped using a method of separating and calculating phonemes, And an object of the present invention is to provide a term clustering apparatus and method of unstructured text data that can correct human errors such as user's mistakes and help standardize irregular data.

다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.It is to be understood, however, that the technical scope of the embodiments of the present invention is not limited to the above-described technical problems, and other technical problems may exist.

상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따른 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 장치는, 데이터 셋을 포함하는 데이터 베이스, 상기 데이터 베이스에 포함된 데이터 셋에서 데이터를 선택하고 전처리를 수행하는 데이터 전처리부, 전처리된 데이터에 포함된 원본 용어의 형태소를 분리하고, 원본 용어의 추천 점수를 계산하는 추천 용어 결정부 및 원본 용어의 음운을 분리하고, 음운으로 분리된 각각의 원본 용어 간의 유사도 연산을 수행하고, 상기 유사도 연산 값이 미리 설정된 임계치 이상인 원본 용어를 군집화하는 데이터 군집부를 포함하되, 상기 추천 용어 결정부는, 상기 추천 점수 및 상기 군집화 결과에 기반하여 복수의 원본 용어 중 추천 용어를 결정할 수 있다. According to an aspect of the present invention, there is provided an apparatus for grouping atypical text data for analysis of big data according to an embodiment of the present invention includes a database including a data set, a data set included in the database, A data preprocessing unit for selecting data and performing preprocessing, a recommendation term determination unit for separating the morpheme of the original term included in the preprocessed data, calculating the recommendation score of the original term, and the phonemes of the original term, And a data clustering unit for performing clustering of original terms having the similarity calculation value equal to or greater than a preset threshold value, wherein the recommendation term determining unit determines a plurality of clusters based on the recommendation score and the clustering result The recommended terms can be determined from the original terms.

본원의 일 실시예에 따른 상기 전처리부는, 상기 데이터 베이스에 포함된 데이터 셋 중 용어 군집화를 수행할 제1데이터 셋을 결정하고, 상기 제1데이터 셋의 복수의 칼럼 항목 중 용어 군집화를 수행할 제1칼럼을 선택하여 선택된 칼럼 항목의 데이터 전처리를 수행할 수 있다.The pre-processing unit according to an embodiment of the present invention determines a first data set to perform clustering of terms among the data sets included in the database, and performs clustering of terms among a plurality of column items of the first data set 1 column to perform data preprocessing of the selected column item.

본원의 일 실시예에 따른 상기 전처리부는, 선택된 상기 칼럼에 포함된 중복 용어 및 용어를 포함하지 않는 데이터를 제거하는 전처리를 수행할 수 있다. The preprocessing unit according to an embodiment of the present invention may perform preprocessing to remove data that does not include redundant terms and terms included in the selected column.

본원의 일 실시예에 따른 상기 추천 용어 결정부는, 분리된 형태소의 추출빈도를 수치화한 값 및 분리된 형태소를 기반으로 추출된 가중치를 이용하여 추천 점수를 계산하고, 상기 가중치는 원본 용어 내 형태소의 비중을 비율화한 값일 수 있다. The recommendation term determination unit according to an embodiment of the present invention calculates a recommendation score using a value obtained by quantizing the extraction frequency of the separated morpheme and a weight extracted based on the separated morpheme, And may be a value obtained by proportioning the specific gravity.

본원의 일 실시예에 따른 추천 점수는, 상기 분리된 형태소의 추출빈도를 수치화한 값을 기반으로 분리된 형태소의 추출 빈도수 및 제1 원본 용어에서 분류된 복수의 형태소 각각의 길이를 상기 제1원본 용어의 전체길이로 나누어 연산한 결과의 합을 이용하여 계산되는 것일 수 있다. The recommendation score according to an exemplary embodiment of the present invention may be determined based on the extraction frequency of the morpheme separated on the basis of the value obtained by quantifying the extraction frequency of the separated morpheme and the length of each of the plurality of morphemes classified in the first source term, May be calculated using the sum of the results of dividing by the full length of the term.

본원의 일 실시예에 따른 상기 데이터 군집부는, 상기 데이터가 한글일 경우, 초성, 중성, 종성으로 한글 자모에 따른 음운으로 분리하고, 인공지능 기반의 알고리즘을 이용하여 유사도를 연산할 수 있다. According to one embodiment of the present invention, when the data is in Hangul, the data grouping unit can separate the phonemes according to the Korean alphabet with the initial, neutral, and trailing characters, and calculate the similarity using an artificial intelligence based algorithm.

본원의 일 실시예에 따른 용어 군집화 장치는, 상기 데이터 군집부의 군집 결과를 제공하는 데이터 결과부를 더 포함하되, 상기 군집 결과는 추천 용어, 원본 용어, 유사도 값을 포함할 수 있다. The term clustering apparatus according to an embodiment of the present invention may further include a data output unit for providing a clustering result of the data clustering unit, wherein the clustering result may include a recommended term, an original term, and a similarity value.

본원의 일 실시예에 따른 용어 군집화 장치는, 사용자 단말로부터 용어 군집화 수행 정보를 수신하는 사용자 입력 수신부를 더 포함할 수 있다. The term clustering apparatus according to an embodiment of the present invention may further include a user input receiving unit for receiving term clustering performance information from a user terminal.

본원의 일 실시예에 따른 상기 추천 용어 결정부는, 형태소 분리 시 상기 용어 군집화 수행 정보에 포함된 품사 결정 정보에 기반하여 상기 전처리된 데이터를 기반으로 형태소 분리를 수행할 수 있다. The recommendation term determiner according to an exemplary embodiment of the present invention may perform morpheme division based on the preprocessed data based on part-of-speech decision information included in the term clustering performance information when morpheme is separated.

본원의 일 실시예에 따른 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 방법은, 데이터 베이스에 포함된 데이터 셋에서 데이터를 선택하고 전처리를 수행하는 단계, 전처리된 데이터에 포함된 원본 용어의 형태소를 분리하고, 원본 용어의 추천 점수를 계산하는 단계 및 원본 용어의 음운을 분리하고, 음운으로 분리된 각각의 원본 용어 간의 유사도 연산을 수행하고, 상기 유사도 연산 값이 미리 설정된 임계치 이상인 원본 용어를 군집화하는 단계, 상기 추천 점수 및 상기 군집화 결과에 기반하여 복수의 원본 용어 중 추천 용어를 결정하는 단계를 포함할 수 있다. According to an embodiment of the present invention, a method for grouping atypical text data for analysis of big data includes the steps of: selecting data from a data set included in a database and performing preprocessing; Calculating a recommendation score of the original terms, separating the phonemes of the original terms, performing a similarity calculation between the original terms separated by the phonemes, and clustering the original terms whose similarity calculation values are equal to or greater than a predetermined threshold value Determining a recommendation term among a plurality of original terms based on the recommendation score, the recommendation score, and the clustering result.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.The above-described task solution is merely exemplary and should not be construed as limiting the present disclosure. In addition to the exemplary embodiments described above, there may be additional embodiments in the drawings and the detailed description of the invention.

전술한 본원의 과제 해결 수단에 의하면, 데이터 베이스의 데이터 셋에서 항목을 선택하여, 형태소 분석을 통한 추천용어를 선정하여 음절을 음운 단위로 변환하고, 용어 군집화를 수행하여, 데이터 셋 내의 유사한 용어들을 군집화할 수 있다.According to the above-mentioned problem solving means of the present invention, an item is selected from a data set of a database, a syllable is converted into a phonemic unit by selecting a recommendation term through morphological analysis, word clustering is performed, Clustering can be done.

전술한 본원의 과제 해결 수단에 의하면, 형태소 분석을 수행한 후 용어 군집화를 수행하여 우선순위를 설정한 추천 용어를 사용자에게 제공해줌으로써 정밀도가 높은 용어 추천하여 군집화 할 수 있다.According to the task resolution means of the present invention, it is possible to cluster the terms with high precision by providing the user with a recommendation term in which priority is set by performing clustering after performing morpheme analysis.

전술한 본원의 과제 해결 수단에 의하면, 용어를 음운 단위로 유사도를 계산하여 군집화하기 때문에, 오타 등과 같은 표기 오류도 데이터 셋 내의 추천용어로 치환하여 사용할 수 있다.According to the above-mentioned problem solving means of the present invention, since the terms are grouped by calculating the similarity in phonemic units, typographical errors such as typos can be substituted for the recommended terms in the data set.

전술한 본원의 과제 해결 수단에 의하면, 데이터의 표기 오류나 다르게 표현된 용어들을 추천용어로 군집화함으로써 비정형 빅데이터 분류를 보다 정밀하게 수행할 수 있다.According to the task resolution means of the present invention, it is possible to more precisely classify the atypical big data by grouping the notation errors of data or terms expressed differently in a recommendation term.

다만, 본원에서 얻을 수 있는 효과는 상기된 바와 같은 효과들로 한정되지 않으며, 또 다른 효과들이 존재할 수 있다.However, the effects obtainable here are not limited to the effects as described above, and other effects may exist.

도 1은 본원의 일 실시예에 따른 용어 군집화 장치의 개략적인 구성도이다.
도 2는 본원의 일 실시예에 따른 용어 군집화 장치의 군집화를 수행할 데이터 항목의 일부를 개략적으로 나타낸 도면이다.
도 3은 본원의 일 실시예에 따른 용어 군집화 장치의 형태소 분리를 설명하기 위한 도면이다.
도 4는 본원의 일 실시예에 따른 용어 군집화 장치에서 형태소의 빈도를 역순으로 순위화 결과를 예시적으로 나타낸 도면이다.
도 5는 본원의 일 실시예에 따른 용어 군집화 장치에서 용어의 추천 점수 계산한 결과를 예시적으로 나타낸 도면이다.
도 6은 본원의 일 실시예에 따른 용어 군집화 장치에서 용어의 추천 점수 계산에 따른 추천 용어의 순위를 설명하기 위하여 개략적으로 나타낸 도면이다.
도 7은 본원의 일 실시예에 따른 용어 군집화 장치에서 추천 용어의 음운화를 설명하기 위하여 예시적으로 나타낸 도면이다.
도 8은 본원의 일 실시예에 따른 용어 군집화 장치에서 용어 군집화 결과를 예시적으로 나타낸 결과이다.
도 9는 본원의 일 실시예에 따른 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 방법에 대한 동작 흐름도이다.
1 is a schematic block diagram of a term clustering apparatus according to an embodiment of the present invention.
FIG. 2 is a diagram schematically showing a part of a data item for performing clustering of a term clustering apparatus according to an embodiment of the present invention.
3 is a diagram for explaining morphemic separation of a term clustering apparatus according to an embodiment of the present invention.
FIG. 4 is a diagram illustrating an exemplary ranking result of the morphemes in an inverse order in a term clustering apparatus according to an exemplary embodiment of the present invention.
FIG. 5 is a diagram exemplifying a result of calculating a recommendation score of a term in a term clustering apparatus according to an embodiment of the present invention. FIG.
FIG. 6 is a diagram schematically showing the ranking of the recommended terms according to the calculation of the recommended score of the terms in the term clustering apparatus according to the embodiment of the present invention.
FIG. 7 is an exemplary illustration of phonologicalization of terms of recommendation in a term clustering apparatus according to an embodiment of the present invention; FIG.
FIG. 8 is a result of exemplary clustering of terms in a terminology clustering apparatus according to an embodiment of the present invention.
FIG. 9 is a flowchart illustrating a method for grouping unstructured text data for analysis of big data according to an embodiment of the present invention.

아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily carry out the present invention. It should be understood, however, that the present invention may be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In the drawings, the same reference numbers are used throughout the specification to refer to the same or like parts.

본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결" 또는 "간접적으로 연결"되어 있는 경우도 포함한다. Throughout this specification, when an element is referred to as being "connected" to another element, it is intended to be understood that it is not only "directly connected" but also "electrically connected" or "indirectly connected" "Is included.

본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.It will be appreciated that throughout the specification it will be understood that when a member is located on another member "top", "top", "under", "bottom" But also the case where there is another member between the two members as well as the case where they are in contact with each other.

본원 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.Throughout this specification, when an element is referred to as " including " an element, it is understood that the element may include other elements as well, without departing from the other elements unless specifically stated otherwise.

도 1은 본원의 일 실시예에 따른 용어 군집화 장치의 개략적인 구성도이다.1 is a schematic block diagram of a term clustering apparatus according to an embodiment of the present invention.

도 1을 참조하면, 용어 군집화 장치(100)는 데이터 베이스(110), 데이터 전처리부(120), 추천 용어 결정부(130), 데이터 군집부(140), 데이터 결과부(150) 및 사용자 입력 수신부(160)를 포함할 수 있다. 1, the term clustering apparatus 100 includes a data base 110, a data preprocessing unit 120, a recommended term determiner 130, a data cluster unit 140, a data output unit 150, And a receiving unit 160.

본원의 일 실시예에 따르면, 데이터 용어 군집화 장치(100)는 데이터 셋 중 단일 칼럼 항목을 선택하여, 선택한 칼럼 내에서 형태소 분석에 따른 가중치 연산을 통해 우선 추천 용어를 선정할 수 있다. 데이터 용어 군집화 장치(100)는 추천 용어와 유사도 연산에 기초하여 원본 용어를 군집화할 수 있다. 유사도 연산에는 음절을 음운으로 분리하는 전처리 과정이 포함될 수 있다. 또한, 추천용어가 군집화된 원본 용어들을 대표하지 않을 경우 사용자가 임의의 추천 용어를 입력하여 원본 용어들을 군집화 할 수 있다.According to an embodiment of the present invention, the data terminology clustering apparatus 100 may select a single column item from a data set, and select a preferred term by weight calculation according to morphological analysis within a selected column. The data terminology clustering apparatus 100 can group the original terms based on the recommended term and similarity calculation. The similarity calculation may include a preprocessing process for separating syllables into phonemes. In addition, if the recommended term does not represent the clustering original terms, the user can input any recommended term to cluster the original terms.

또한, 데이터 용어 군집화 장치(100)는 선택된 데이터 셋의 칼럼에서 자동화된 용어 군집화 알고리즘을 이용하여 칼럼 내 원본 용어들을 들을 군집화 할 수 있다. 또한, 데이터 용어 군집화 장치(100)는 형태소 분석을 사용한 가중치 연산을 사용하여 추천용어를 제공함으로써, 사용자의 편의를 고려한 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 방법을 제공할 수 있다. In addition, the data terminology clustering apparatus 100 may cluster the original terms in the column using an automated clustering algorithm in the column of the selected dataset. In addition, the data terminology clustering apparatus 100 can provide a term clustering method of unstructured text data for analysis of big data considering the convenience of the user by providing a recommendation term using a weight calculation using morphological analysis.

데이터 베이스(110)는 용어 군집화에 사용되는 데이터 셋을 포함할 수 있다. 데이터 베이스(110)는 비정형 데이터를 포함할 수 있다. 비정형 데이터, 비구조화 데이터, 비구조적 데이터는 미리 정의된 데이터 모델이 없거나 미리 정의된 방식으로 정리되지 않은 정보를 의미할 수 있다. 비정형 데이터(Unstructured Data)란 일정한 규격이나 형태를 지닌 숫자데이터(Numeric data)와 달리 그림이나 영상, 문서처럼 형태와 구조가 다른 구조화 되지 않은 데이터를 의미할 수 있다.The database 110 may include a dataset used for clustering terms. The database 110 may include unstructured data. Unstructured data, unstructured data, and unstructured data may refer to information that does not have a predefined data model or is not organized in a predefined manner. Unstructured data can mean unstructured data, such as pictures, images and documents, which are different in shape and structure from the numerical data having a certain standard or form.

도 2는 본원의 일 실시예에 따른 용어 군집화 장치의 군집화를 수행할 데이터 항목의 일부를 개략적으로 나타낸 도면이다.FIG. 2 is a diagram schematically showing a part of a data item for performing clustering of a term clustering apparatus according to an embodiment of the present invention.

도 2를 참조하면, 데이터 베이스(110)에 포함된 데이터 셋은 2개의 칼럼 항목 또는 그 이상의 칼럼항목을 포함할 수 있다. 데이터 셋에 포함된 칼럼 항목은 대표키와 일반 칼럼으로 구분될 수 있다. 예를 들어, 도 2의 데이터 셋의 칼럼 항목의 대표키는 '환자 ID'일 수 있고, 일반 칼럼은 '병명'일 수 있다. 이때 일반 칼럼인 '병명'의 경우 비정형 텍스트 데이터로 이루어질 수 있다. 비정형 텍스트 데이터는 용어를 포함할 수 있다. Referring to FIG. 2, the data set included in the database 110 may include two column items or more column items. The column items included in the dataset can be divided into a representative key and a general column. For example, the representative key of the column item of the data set of FIG. 2 may be a 'patient ID' and the generic column may be a 'disease name'. In this case, the general column 'disease name' can be made of unstructured text data. Atypical text data may include terms.

데이터 전처리부(120)는 데이터 베이스(110)에 포함된 데이터 셋에서 데이터를 선택하고 전처리를 수행할 수 있다. 데이터 전처리부(120)는 데이터 베이스(110)에 저장된 데이터 셋의 복수의 칼럼 중 데이터 군집화를 수행할 칼럼을 선택하여 결정할 수 있다. The data preprocessing unit 120 may select data from the data set included in the database 110 and perform preprocessing. The data preprocessing unit 120 may select a column to be subjected to data clustering among a plurality of columns of the data set stored in the database 110.

달리 말해, 데이터 전처리부(120)는 데이터 베이스(110)에 포함된 데이터 셋 중 용어 군집화를 수행할 제1데이터 셋을 결정하고, 제1데이터 셋의 복수의 칼럼 항목 중 용어 군집화를 수행할 제1칼럼을 선택하여 선택된 칼럼 항목의 데이터 전처리를 수행할 수 있다. 예시적으로 도 2를 참조하면, 데이터 전처리부(120)는 데이터 베이스(110)에 포함된 복수의 데이터 셋 중 용어 군집화를 수행할 제1데이터 셋을 결정하고, 제1데이터 셋의 용어 군집화를 수행할 '병명' 칼럼을 선택하여 선택된 '병명' 칼럼 항목의 데이터 전처리를 수행할 수 있다. In other words, the data preprocessing unit 120 determines a first data set to perform clustering of terms among the data sets included in the database 110, and performs a term clustering among a plurality of column items of the first data set 1 column to perform data preprocessing of the selected column item. Referring to FIG. 2, the data preprocessing unit 120 determines a first data set to be used for grouping terms among a plurality of data sets included in the database 110, It is possible to perform data preprocessing of the selected 'disease name' column item by selecting the 'disease name' column to be performed.

데이터 전처리부(120)는 선택된 칼럼에 포함된 중복 용어 및 용어를 포함하지 않는 데이터를 제거하는 전처리를 수행할 수 있다. 달리 말해, 데이터 전처리부(120)는 결정된 칼럼의 데이터의 중복처리 및 Null 값(용어를 포함하지 않는 데이터)을 제거하는 전처리 과정을 수행할 수 있다. The data preprocessing unit 120 may perform preprocessing to remove data that does not include redundant terms and terms included in the selected column. In other words, the data preprocessing unit 120 may perform a preprocessing process of eliminating redundant processing of data of a determined column and null value (data not including terms).

본원의 일 실시예에 따르면, 형태가 완전히 일치하는 용어의 경우 군집화가 불필요하며, 공백에 해당하는 Null값(용어를 포함하지 않는 데이터) 또한 용어 군집화가 불필요한 데이터이므로, 데이터 전처리부(120)는 Null값을 제거할 수 있다. 또한, 사용자는 필요에 따라 Null 값(용어를 포함하지 않는 데이터)을 다른 용어로 대체할 수 있다. According to an embodiment of the present invention, the term pre-processing unit 120 does not require clustering in terms of completely matching terms and null data (data that does not include a term) Null values can be removed. In addition, the user can replace the null value (data not including the term) with another term as needed.

예시적으로, 사용자 입력 수신부(160)는 사용자 단말로부터 용어 군집화 정보를 수신할 수 있다. 용어 군집화 정보는 용어를 포함하지 않는 데이터를 다른 용어로 대체하기 위한 대체 용어를 포함할 수 있다. 달리 말해, 데이터 전처리부(120)는 사용자 입력 수신부(160)로부터 제공받은 대체 용어를 포함하지 않는 데이터에 대체 용어를 입력할 수 있다. Illustratively, the user input receiving unit 160 may receive term clustering information from the user terminal. The term clustering information may include alternative terms for replacing data that does not include the term with another term. In other words, the data preprocessing unit 120 may input the alternative term in the data that does not include the alternative term provided from the user input receiving unit 160. [

도 3은 본원의 일 실시예에 따른 용어 군집화 장치의 형태소 분리를 설명하기 위한 도면이고, 도 4는 본원의 일 실시예에 따른 용어 군집화 장치에서 형태소의 빈도를 역순으로 순위화 결과를 예시적으로 나타낸 도면이고, 도 5는 본원의 일 실시예에 따른 용어 군집화 장치에서 용어의 추천 점수 계산한 결과를 예시적으로 나타낸 도면이다.FIG. 3 is a diagram for explaining morpheme separation of a term clustering apparatus according to an embodiment of the present invention, and FIG. 4 illustrates an example of a term clustering apparatus according to an exemplary embodiment of the present invention, FIG. 5 is a diagram exemplifying a result of calculating a recommendation score of terms in a term clustering apparatus according to an embodiment of the present invention.

도 3을 참조하면, 추천 용어 결정부(130)는 전처리된 데이터에 포함된 원본 용어의 형태소를 분리할 수 있다. 추천 용어 결정부(130)는 전처리된 데이터에 포함된 원본 용어의 형태소를 분리할 수 있다. 형태소의 분리는 문장 또는 텍스트를 가장 작은 단위로 분리하고, 그 형태소의 품사를 자동으로 판별하는 것일 수 있다. 또한, 형태소 분리는 원본 용어를 이용하여 뜻을 가진 최소단위의 형태소로 분리하는 것일 수 있다. 형태소 분석은 자연어 처리의 가장 기본이 되는 기술이다. Referring to FIG. 3, the recommendation term determiner 130 may separate morphemes of original terms included in the preprocessed data. The recommended term determination unit 130 may separate the morphemes of original terms included in the preprocessed data. Separation of a morpheme can be to separate the sentence or text into the smallest units and automatically identify the part of the morpheme. In addition, morpheme separation may be a separation of the morpheme into the minimum unit of meaning by using the original term. Morphological analysis is the most basic skill of natural language processing.

예시적으로 도 3을 참조하면, 추천 용어 결정부(130)는 '결장 폴립 제거술'을, '결장', '폴립', '제거술'로 분리할 수 있다. 또한, 추천 용어 결정부(130)는 '상세불명 폐렴'을 '상세', '불명', '폐렴'으로 분리할 수 있다. 추천 용어 결정부(130)는 특정 품사를 기반으로 형태소 분리를 수행할 수 있다. Illustratively, referring to FIG. 3, the recommendation terminology determining unit 130 may divide 'colon polyp removal' into 'colon', 'polyp', and 'disinfection'. In addition, the recommendation terminology determining unit 130 may separate the 'unspecified pneumonia' into 'detailed', 'unknown', and 'pneumonia'. The recommended term determination unit 130 may perform morpheme segmentation based on a specific part-of-speech.

본원의 일 실시예에 따르면, 분리된 형태소는 가중치를 이용한 추천 용어의 우선순위 선정에 사용될 수 있다. 추천 용어 결정부(130)는 분리된 형태소의 빈도(Rank)를 정렬하여 순위화할 수 있다. 이를 통해 사용자는 사용자가 선택한 칼럼(데이터)에서 가장 많이 사용한 형태소를 확인할 수 있다. 예시적으로 추천 용어 결정부(130)는 분리된 형태소의 빈도(Rank)를 정렬하여 순위화한 결과를 도 4와 같이 정리할 수 있다. According to one embodiment of the present invention, the separated morpheme can be used for prioritizing the recommended terms using the weights. The recommended term determinator 130 may rank the frequencies of the separated morphemes. This allows the user to identify the most used morpheme in the column (data) selected by the user. As an example, the recommendation term determiner 130 may sort the ranking of the separated morpheme (Rank) and sort the results as shown in FIG.

추천 용어 결정부(130)는 분리된 형태소를 이용하여 원본 용어의 추천 점수를 계산할 수 있다. 추천 용어 결정부(130)는 분리된 형태소의 추출빈도를 수치화한 값 및 형태소를 기반으로 추출된 가중치를 이용하여 추천 점수를 계산할 수 있다. 예시적으로, 분리된 형태소의 추출빈도를 수치화한 값을 도 4에 도시된 Rank(빈도)의 값을 의미하는 것일 수 있다. 이때, 가중치는 원본 용어 내 형태소의 비중을 비율화한 값일 수 있다. 일예로 도 4와 같이 추천 용어 결정부(130)는 빈도의 역순을 순위화하여 빈도수가 높을수록 높은 순위(1순위)를 가지도록 하고, 형태소가 전체 용어에서 차지고 있는 비중을 비율화 하여 가중치로 사용할 수 있다. 달리 말해, 추천 용어 결정부(130)는 분리된 형태소의 순위를 역순으로 수치화하여, 빈도가 높은 형태소일수록 높은 값을 가질 수 있도록 형태소의 점수를 결정할 수 있다. 형태소의 가중치는 형태소가 포함된 용어에서 각각의 형태소가 가지는 길이의 비중을 가지고 계산될 수 있다. 추천 용어 결정부(130)는 가중치와 형태소의 점수를 곱하고 전체 용어에서 더함으로써 용어의 추천 점수를 계산할 수 있다. The recommended term determination unit 130 can calculate the recommended score of the original term using the separated morpheme. The recommended term determination unit 130 may calculate the recommendation score using the values obtained by digitizing the extraction frequency of the separated morpheme and the weight extracted based on the morpheme. Illustratively, the value obtained by quantifying the extraction frequency of the separated morpheme may be a value of Rank (frequency) shown in FIG. In this case, the weight may be a value obtained by proportioning the weight of the morpheme in the original term. For example, as shown in FIG. 4, the recommendation term determiner 130 ranks the inverse order of the frequencies so that the higher the frequency, the higher the ranking (rank 1), the proportion that the morpheme occupies in all the terms is proportional to the weight Can be used. In other words, the recommended term determiner 130 may quantify the order of the separated morphemes in reverse order, and determine the score of the morpheme so that the higher the morpheme having the higher frequency, the higher the value. The weight of the morpheme can be calculated with the proportion of the length of each morpheme in terms containing the morpheme. The recommended term determination unit 130 may calculate the recommendation score of the term by multiplying the weight and the score of the morpheme by the sum of the terms.

추천 점수는, 분리된 형태소의 추출빈도를 수치화한 값을 기반으로 분리된 형태소의 추출 빈도수 및 제1 원본 용어에서 분류된 복수의 형태소 각각의 길이를 제1원본 용어의 전체길이로 나누어 연산한 결과의 합을 이용하여 계산되는 것일 수 있다. 예를 들어, 제1원본 용어에 제1형태소 내지 제3형태소가 포함되는 경우, 제1형태소의 길이를 제1원본 용어의 전체길이로 나누어 연산한 결과, 제2형태소의 길이를 제1원본 용어의 전체길이로 나누어 연산한 결과 및 제3형태소의 길이를 제1원본 용어의 전체길이로 나누어 연산한 결과의 합을 이용하여 용어의 추천점수를 계산할 수 있다. The recommendation score is calculated by dividing the extraction frequency of the separated morpheme based on the numerical value of the extraction frequency of the separated morpheme and the length of each of the plurality of morphemes classified in the first original term by the total length of the first original term Of the total sum of the two. For example, when the first morpheme includes the first morpheme to the third morpheme, the length of the first morpheme is divided by the total length of the first original term, And the sum of the results obtained by dividing the length of the third morpheme by the total length of the first original term to calculate the recommended score of the term.

예시적으로 추천 점수는 [식1]과 같이 표현될 수 있다. By way of example, the recommendation score can be expressed as [Equation 1].

[식1][Formula 1]

Figure 112018117717489-pat00001
Figure 112018117717489-pat00001

여기서, n은 용어에서 분리한 형태소의 개수이고, rank는 빈도의 순위(역순)이다. Where n is the number of morphemes separated from the term and rank is the rank of the frequency (in reverse order).

예시적으로 도 4 및 도 5를 참조하면, '상세', '불명', '폐렴'의 빈도를 순위화 한 수치는 각각, 402, 399, 330 이며 '상세불명 폐렴'의 전체길이는 띄어쓰기를 포함하여 7글자이고 분리된 형태소는 각각 2글자씩이다. 가중치는 형태소의 글자의 길이인 2에 전체길이인 7을 나눠 가중치화 한다. 그 결과 '상세불명폐렴'의 추천 점수는 '상세', '불명', '폐렴'의 빈도를 순위화 한 수치인 402, 399, 330에 각각 2/7을 곱하여 모두 더한 숫자인 323점이된다. Illustratively, referring to FIGS. 4 and 5, the numerical values of the frequencies of 'detailed', 'unknown', and 'pneumonia' are 402, 399, and 330, respectively, and the total length of 'unspecified pneumonia' And each of the separated morphemes is 2 letters. The weights are weighted by dividing the total length of 7 by the length of the letters in the morpheme. As a result, the recommendation score of 'Unspecified pneumonia' is 323 points, which is the sum of the numbers of 'detailed', 'unknown', 'pneumonia'

본원의 일 실시예에 따르면, 추천 용어 결정부(130)는 형태소 분석 시에 모든 품사를 고려하여 빈도수를 계산하였으나, 이에 한정되는 것은 아니다. 예를 들어, 추천 용어 결정부(130)는 사용자 입력 수신부(160)를 통해 제공받은 용어 군집화 수행 정보에 포함된 품사 결정 정보에 기반하여 품사를 결정하여 형태소 분석을 수행할 수 있다. 달리 말해, 추천 용어 결정부(130)는 형태소 분리 시 용어 군집화 수행 정보에 포함된 품사 결정 정보에 기반하여 전처리된 데이터를 기반으로 형태소 분리를 수행할 수 있다. According to one embodiment of the present application, the recommended term determiner 130 calculates the frequency of all parts of speech in morphological analysis, but the present invention is not limited thereto. For example, the recommendation terminology determining unit 130 may perform morpheme analysis by determining the part-of-speech based on the part-of-speech decision information included in the term clustering performance information provided through the user input receiving unit 160. In other words, the recommended term determiner 130 may perform morpheme segmentation based on the preprocessed data based on the part-of-speech decision information included in the term clustering performance information when the morpheme is separated.

도 6은 본원의 일 실시예에 따른 용어 군집화 장치에서 용어의 추천 점수 계산에 따른 추천 용어의 순위를 설명하기 위하여 개략적으로 나타낸 도면이다.FIG. 6 is a diagram schematically showing the ranking of the recommended terms according to the calculation of the recommended score of the terms in the term clustering apparatus according to the embodiment of the present invention.

도 6을 참조하면, 추천 용어 결정부(130)는 앞서 설명된 추천 점수의 계산법을 적용하여 계산된 용어의 추천 점수가 높은 용어를 우선하여 정렬할 수 있다. Referring to FIG. 6, the recommended term determiner 130 may sort the terms calculated by applying the calculation method of the recommendation score described above in favor of terms having a high recommendation score.

본원의 일 실시예예 따르면, 추천 용어 결정부(130)는 분리된 형태소의 빈도와 가중치를 이용하여 추천 점수를 계산하여 추천 용어를 선정할 수 있다. 또한, 추천 용어 결정부(130)는 가중치와 순위화 한 빈도수를 이용하여 추천용어의 우선순위를 결정할 수 있다. 또한, 추천 용어 결정부(130)는 순위화한 형태소와 형태소의 길이를 이용한 가중치를 이용하여 추천 용어의 우선 순위를 결정할 수 있다. According to one embodiment of the present invention, the recommendation term determiner 130 may select a recommendation term by calculating recommendation scores using frequency and weight of separated morphemes. In addition, the recommendation term determiner 130 may determine the priority of the recommendation term using the weight and the frequency of ranking. In addition, the recommendation term determiner 130 may determine the preference order of the recommendation terms using the weights using the ranking morpheme and the length of the morpheme.

도 7은 본원의 일 실시예에 따른 용어 군집화 장치에서 추천 용어의 음운화를 설명하기 위하여 예시적으로 나타낸 도면이다.FIG. 7 is an exemplary illustration of phonologicalization of terms of recommendation in a term clustering apparatus according to an embodiment of the present invention; FIG.

도 7을 참조하면, 데이터 군집부(140)는 원본 용어의 음운을 분리하고, 음운으로 분리된 각각의 원본 용어 간의 유사도 연산을 수행할 수 있다. 데이터 군집부(140)는 원본 용어가 한글일 경우, 초성, 중성, 종성으로 한글 자모에 따른 음운으로 분리하고, 인공지능 기반의 알고리즘을 이용하여 유사도를 연산할 수 있다. 데이터 군집부(140)는 Fuzzy Data Matching 알고리즘을 사용하여 각각의 원본 용어간의 유사도 연산을 수행할 수 있으나, 이에 한정되는 것은 아니다. Fuzzy Data Matching 알고리즘은 편집거리(레펜슈타인, Levenshtein Distance)를 기반으로 계산된 결과값을 사용하여 데이터 간에 매칭을 수행하는 알고리즘이다.Referring to FIG. 7, the data collecting unit 140 separates phonemes of original terms and performs similarity calculation between original terms separated by phonemes. When the original term is Korean, the data cluster 140 separates the original word into phonemes according to the Korean alphabet, and can calculate the similarity using an artificial intelligence based algorithm. The data grouping unit 140 may perform similarity calculation between respective original terms using a fuzzy data matching algorithm, but is not limited thereto. The Fuzzy Data Matching algorithm is an algorithm that performs matching between data using the calculated values based on the edit distance (Levenshtein Distance).

데이터 군집부(140)는 음절로 이루어져 있는 용어들을 초성, 중성, 종성으로 한글 자모에 따른 음운으로 분리할 수 있다. 예시적으로 인공지능 기반의 알고리즘 하나인 Fuzzy Data Matching 알고리즘은 각 단어들 간의 모양만으로 유사도를 계산하는 방법을 사용하기 때문이다. 이 알고리즘의 기초가 되는 언어인 영문과 달리, 국문의 경우 영문의 알파벳에 해당하는 한글의 자모가 합쳐져 글자를 만들어 내기 때문에, 데이터 군집부(140)는 알파벳과 같이 한글의 음절을 풀어서 한글의 자모로 분리시켜 유사도를 계산할 수 있다. 예시적으로, 음운 분리 없이 유사도를 계산할 경우 '강'과 '공'은 완전히 다른 글자지만, 음운분리를 하고 난, 'ㄱㅏㅇ' 과 'ㄱㅗㅇ'은 가운데 중성만 다른 비슷한 글자이므로, 데이터 군집부(140)는 원본 용어가 한글일 경우, 한글 자모에 따른 음운으로 분리할 수 있다. The data clustering unit 140 can separate the terms made up of the syllables into the phonemes according to the Korean alphabet as the first, neutral, and last words. As an example, Fuzzy Data Matching algorithm, which is one of artificial intelligence based algorithms, uses a method of calculating the similarity only between shapes of words. Unlike English, which is the language on which the algorithm is based, Korean alphabets corresponding to alphabetic alphabets are combined to produce letters. Thus, the data grouping unit 140 solves syllables such as alphabets, The degree of similarity can be calculated. For example, if the similarity is calculated without phonemic separation, 'ri' 'and' ball 'are completely different letters, but since' ㄱ ㅏ 'and' ㅗ ㅗ ㅇ ' (140) can be separated into phonemes according to the Korean alphabet when the original term is Korean.

일예로 도 7을 참조하면, 데이터 군집부(140)는 '상세불명폐렴'의 경우, 'ㅅㅏㅇㅅㅔㅂㅜㄹㅁㅕㅇ ㅍㅖㄹㅕㅁ'으로 분리하여 유사도를 계산할 수 있다. 다만, 영문의 경우 이 과정을 생략할 수 있다.For example, referring to FIG. 7, in the case of 'unspecified pneumonia', the data collecting unit 140 can calculate the similarity by dividing the data into '' '' '' '' '' '' '' '' '' '' '. However, this process can be omitted in English.

본원의 일 실시예에 따르면, 데이터 군집부(140)는 사용자가 선택한 비정형 데이터 간의 유사도를 계산하여 군집화할 수 있다. 또한, 데이터 군집부(140)는 음운으로 분리된 용어들 간의 유사도를 계산하여 일정 유사도 값을 넘게 되면 추천 용어들의 우선순위에 따라 추천용어 집단에 군집화할 수 있다. 달리 말해, 데이터 군집부(140)는 유사도 연산 값이 미리 설정된 임계치 이상인 원본 용어를 군집화할 수 있다. 임계치는 사용자의 편의에 따라 유사도 값의 임계치를 수정 및 변화될 수 있다. 달리 말해, 임계치는 사용자 입력 수신부(160)에서 수신한 용어 군집화 수행 정보에 포함된 임계치 수정 정보에 기반하여 변경될 수 있다. According to one embodiment of the present invention, the data aggregation unit 140 may group the similarities between irregular data selected by the user. In addition, the data grouping unit 140 may calculate the similarities between the terms separated by the phonemes and group them into the recommended term groups according to the priority order of the recommended terms when the similarity value is exceeded. In other words, the data grouping unit 140 may group the original terms whose similarity calculation value is equal to or greater than a preset threshold value. The threshold value can be modified and changed to a threshold value of the similarity value according to the convenience of the user. In other words, the threshold value may be changed based on the threshold correction information included in the term clustering performance information received by the user input receiving unit 160.

예시적으로 도 7을 참조하면, 데이터 군집부(140)는 복수의 용어 각각의 유사도 계산을 수행할 수 있다. 예를 들어, 데이터 군집부(140)는 제1원본 용어(상세불명폐렴)와 제2 원본 용어(목뼈허리뼈염좌) 간의 유사도 계산을 수행할 수 있다 .또한, 데이터 군집부(140)는 제1 원본 용어(상세불명폐렴)와 제3 원본 용어(급성간염) 간의 유사도 계산을 수행할 수 있다. 데이터 군집부(140)는 칼럼에 포함된 제1원본 용어와 제n원본 용어 각각에 대해 유사도 계산을 수행할 수 있다. 데이터 군집부(140)에서 수행된 유사도 계산은 이후 추천 용어 결정부(130)의 추천 용어 결정에 사용될 수 있다. Illustratively, referring to FIG. 7, the data grouping unit 140 may perform similarity calculation of each of a plurality of terms. For example, the data clustering unit 140 may perform a similarity calculation between the first original term (unspecified pneumonia) and the second original term (the spine of the thighbone) 1 Similarity calculations between the original term (unspecified pneumonia) and the third original term (acute hepatitis) can be performed. The data grouping unit 140 may perform similarity calculation for each of the first original term and the nth original term included in the column. The similarity calculation performed in the data cluster unit 140 may be used to determine a recommendation term of the recommendation term determiner 130.

본원의 일 실시예에 따르면, 데이터 군집부(140)는 추천 용어 결정부(130)에서 결정한 추천 용어 우선순위 데이터들을, 음운 단위로 분리를 하고 군집화할 수 있다. 군집화는 편집거리 기반의 유사도를 기준으로, 일정 유사도를 초과할 시에 원본 용어를 군집화할 수 있다. According to one embodiment of the present invention, the data collecting unit 140 can separate and group the recommendation term priority data determined by the recommendation term deciding unit 130 into phonemes. Clustering can group clusters of original terms when they exceed a certain degree of similarity based on similarity based on editing distance.

도 8은 본원의 일 실시예에 따른 용어 군집화 장치에서 용어 군집화 결과를 예시적으로 나타낸 결과이다.FIG. 8 is a result of exemplary clustering of terms in a terminology clustering apparatus according to an embodiment of the present invention.

도 8을 참조하면, 추천 용어 결정부(130)는, 추천 점수 및 군집화 결과에 기반하여 복수의 원본 용어 중 추천 용어를 결정할 수 있다. Referring to FIG. 8, the recommended term determination unit 130 may determine a recommended term among a plurality of original terms based on a recommendation score and a clustering result.

추천 용어 결정부(130)는 제1 원본 용어(1), 제2 원본 용어(2), 제3 원본 용어(3), 제4 원본 용어(4) 등을 포함하는 제1군집화 결과(11)를 기반으로 복수의 원본 용어 중 추천 용어를 결정할 수 있다. 추천 용어 결정부(130)는 제1 군집화 결과(11)에 포함된 제1 원본 용어(1), 제2 원본 용어(2), 제3 원본 용어(3), 제4 원본 용어(4), 제5원본 용어(5), 제6원본 용어(6), 제7원본 용어(7)의 추천 점수에 기반하여 추천 용어를 결정할 수 있다. 추천 용어 결정부(130)는 제1군집화 결과(11)에 포함된 원본 용어 중 추천 점수가 가장 높은 원본 용어를 추천 용어로 선정할 수 있다. 제1군집화 결과(11)는 데이터 군집부(140)에서 미리 설정된 임계치 이상인 원본 용어를 군집화한 결과일 수 있다. The recommended term determiner 130 generates a first clustering result 11 including a first original term 1, a second original term 2, a third original term 3, a fourth original term 4, A recommendation term among a plurality of original terms can be determined. The recommended term determiner 130 determines whether or not the first term 1, the second term 2, the third term 3 and the fourth term 4 included in the first clustering result 11, The recommended term can be determined based on the recommendation score of the 5th original term (5), the 6th original term (6), and the 7th original term (7). The recommended term determination unit 130 may select the original term having the highest recommended score among the original terms included in the first clustering result 11 as a recommended term. The first clustering result 11 may be a result of clustering original terms that are equal to or greater than a predetermined threshold value in the data clustering unit 140.

예시적으로, 제1 원본 용어(상세불명폐렴)의 추천 점수는 377이고, 제2 원본 용어(상세불명의폐렴)의 추천 점수는 323이고, 제3원본 용어(상세불명 폐렴)의 추천 점수는 323이고, 제4원본 용어(상세불명세균폐렴)의 추천 점수는 310일 수 있다. 추천 용어 결정부(130)는 제1원본 용어 내지 제4원본 용어의 추천 점수 중 가장 높은 추천 점수를 가지는 제1원본 용어(상세불명폐렴)을 추천 용어로 결정할 수 있다. 유사도 값은 추천 용어로 결정된 제1원본 용어(상세불명폐렴)와 제2 원본 용어(상세불명의폐렴) 간의 유사도 값일 수 있다. 달리 말해, 추천 용어 결정부(130)는 제1군집화 결과(11)에 포함된 복수의 원본 용어 중 추천 점수가 가장 높은 원본 용어를 추천 용어로 선정하고, 상기 유사도는 추천 용어와 원본 용어 간의 유사도 값일 수 있다. Illustratively, the recommended score for the first original term (unspecified pneumonia) is 377, the recommended score for the second original term (unspecified pneumonia) is 323, and the recommended score for the third original term (unspecified pneumonia) 323, and the recommendation score of the fourth original term (unspecified bacterial pneumonia) may be 310. The recommended term determination unit 130 may determine the first original term (unspecified pneumonia) having the highest recommendation score among the recommended scores of the first original term to the fourth original term as the recommended term. The similarity value may be a similarity value between a first original term (unspecified pneumonia) and a second original term (unspecified pneumonia) determined in a recommended term. In other words, the recommendation terminology determining unit 130 selects, as a recommendation term, the original term having the highest recommendation score among a plurality of original terms included in the first clustering result (11), and the similarity is a similarity degree between the recommendation term and the original term Lt; / RTI >

예시적으로 도8을 참조하면, 추천 용어 '상세불명폐렴'을 기준으로 군집화된 데이터는 '상세불명폐렴', '상세불명의폐렴, '상세불명 폐렴', '상세불명세균폐렴', '상세불명의 폐렴', '상세 불명의 폐렴', '상세불명의페렴'이다. 원본용어를 입력한 사용자에 따라 다르게 표현한 띄어쓰기, 조사 등을 제외하면 추천 용어에 군집화된 원본 용어들은 '상세불명폐렴'과 유사하게 표현된 용어임을 알 수 있다. For example, referring to FIG. 8, the clustered data based on the recommended term 'unspecified pneumonia' includes' unspecified pneumonia ',' unspecified pneumonia ',' unspecified pneumonia ',' unspecified bacterial pneumonia ',' Unspecified pneumonia ',' unspecified pneumonia ', and' unspecified pneumonia '. It can be seen that the original terms clustered in the recommended terms are similar terms to 'unspecified pneumonia', except for spacing and survey which are different according to the user who entered the original term.

또한, 추천 용어 '목뼈허리뼈염좌' 를 기준으로 군집화된 용어(데이터)는 '목뼈허리뼈염좌', 목뼈염좌 허리뼈염좌','목뼈염좌|허리뼈염좌','목뼈염좌| 허리뼈염좌', '목뼈및허리뼈의염좌', '목뼈/허리뼈의염좌, '목뼈.허리뼈의염좌', '목뼝염좌|허리뼈염좌' 이다. 이와 같이, 용어에 포함된 특수기호, 띄어쓰기, 조사, 접속사를 사용함으로써, 형태가 다르게 표현되었던 용어들이 추천용어인 '목뼈허리뼈염좌'로 군집화된 것을 확인할 수 있다. In addition, terms (data) clustered based on the recommended term 'neck bone spine sprains' include 'neck spine back bone spine', 'neck spine spine back bone spine', 'neck spine spine', 'waist spine spine' Sprains of the back bone, sprains of the back bone, sprains of the back bone, sprains of the back bone, and sprains of the back bone. Thus, by using special symbols, spaces, surveys, and conjunctions included in the terms, it can be seen that the terms that have been expressed differently are grouped into the recommended term 'neck bone spine sprains'.

예시적으로 도 8을 참조하면, 데이터 결과부(150)는 데이터 군집부(140)의 군집 결과를 제공할 수 있다. 군집 결과는 추천 용어, 원본 용어, 유사도 값을 포함할 수 있다. 여기서, 원본 용어는, 칼럼에 포함된 용어일 수 있다. 달리 말해, 원본 용어는 데이터 베이스(110)에 포함된 초기값의 데이터일 수 있다. 예시적으로, 병명은 원본 용어에 해당할 수 있다. 추천 용어는 추천 점수 및 군집화 결과에 기반하여 복수의 원본 용어 중 결정된 용어 일 수 있다. 유사도는, 추천 용어와 원본 용어 사이의 유사도 값일 수 있다. 유사도는, 데이터 군집부(140)에서 음운으로 분리하여 연산된 각각의 원본 용어간의 유사도 값일 수 있다. 사용자는 데이터 결과부(150)는 추천용어에 따라 군집화되어 있는 원본 용어 및 추천용어와 원본용어 간의 유사도를 백분율 형태로 제공할 수 있다. Illustratively, referring to FIG. 8, the data result unit 150 may provide a cluster result of the data cluster unit 140. Clustering results may include suggested terms, original terms, and similarity values. Here, the original term may be a term included in the column. In other words, the original term may be data of an initial value included in the database 110. By way of example, a disease name may correspond to the original term. The recommended term may be a term determined among a plurality of original terms based on the recommendation score and the clustering result. The similarity may be a similarity value between the recommended term and the original term. The degree of similarity may be a similarity value between respective original terms calculated by phonemes in the data grouping unit 140. The user can provide the data result unit 150 with the percentage of similarity between the original terms and the recommended terms and the original terms clustered according to the recommended terms.

예를 들어, 제1군집화 결과(11)의 추천 용어인 '상세불명폐렴'과 제1원본 용어인 '상세불명폐렴'과의 유사도 값은 100일 수 있다. 또한, 제1군집화 결과(11)의 추천 용어인 '상세불명폐렴'과 제2원본 용어인 '상세불명의폐렴'과의 유사도 값은 94일 수 있다. 또한, 제1군집화 결과(11)의 추천 용어인 '상세불명폐렴'과 제3원본 용어인 '상세불명 폐렴'과의 유사도 값은 100일 수 있다. 기존의 군집화 방법을 적용하면, 추천 용어인 '상세불명폐렴'과 제3원본 용어인 '상세불명 폐렴'은 띄어쓰기가 포함되어 같은 용어이지만, 군집화가 되지 않는 문제점이 발생할 수 있다. 데이터 군집부(140)의 음운으로 분리 후 유사도 연산을 수행함으로써, 띄어쓰기로 인해 군집화되지 않는 문제점을 해결할 수 있다. For example, the similarity value between the 'unspecified pneumonia', which is the recommended term of the first clustering result (11), and the 'unspecified pneumonia', the first original term, may be 100. Further, the similarity value between the 'unspecified pneumonia', which is a recommended term of the first clustering result (11), and the 'unspecified pneumonia', which is the second original term, may be 94. Further, the similarity value between the 'unspecified pneumonia', which is a recommended term of the first clustering result (11), and the 'unspecified pneumonia', which is the third original term, may be 100. When the existing clustering method is applied, the recommended terms 'unspecified pneumonia' and the third original term 'unspecified pneumonia' are included in the same term including the spacing, but the problem of clustering can not be obtained. By performing the similarity calculation after the segmentation by the phoneme of the data cluster unit 140, it is possible to solve the problem that it is not clustered due to the spacing.

본원의 일 실시예예 따르면, 데이터 결과부(150)는 데이터 군집부(140)의 결과를 확인 및 저장하고 수정할 수 있다. 데이터 결과부(150)에서 확인할 수 있는 군집화 결과는 선택한 데이터 셋의 칼럼 항목에 포함된 데이터를 군집화한 결과이다. 군집화한 결과는 데이터 셋의 칼럼 항목에 포함된 본래의 데이터와 추천용어 및 추천용어와 본래 데이터 간의 유사도를 함께 보여준다. 사용자는 데이터 결과부에서 군집화 결과를 확인하고, 추천용어를 수정할 수 있다.According to one embodiment of the present invention, the data result unit 150 can identify, store, and modify the results of the data grouping unit 140. [ The clustering result that can be checked in the data result unit 150 is a result of clustering data included in the column items of the selected data set. The clustering result shows the similarity between the original data included in the column items of the dataset, the recommended terms, the recommended terms, and the original data. The user can check the clustering result in the data result section and modify the recommended term.

본원의 일 실시예에 따르면, 데이터 결과부(150)는 데이터 용어 군집화 결과에 기초하여 추천 용어를 수정할 수 있다. 데이터 결과부(150)는 사용자 단말로부터 제공받은 추천 용어 수정 요청에 의해, 추천 용어를 수정할 수 있다. 달리 말해, 추천 용어는 사용자의 편의나 표준화하고 싶은 용어로 사용자가 수정이 가능하다.According to one embodiment of the present invention, the data result unit 150 can modify the recommendation term based on the data term clustering result. The data output unit 150 may modify the recommended term by a request for correction of a recommended term provided by the user terminal. In other words, the recommended terms can be modified by the user in terms of user convenience or standardization.

본원의 일 실시예에 따르면, 데이터 결과부(150)는 용어(데이터) 군집화 결과를 저장할 수 있다. 용어(데이터) 군집화가 완료된 데이터들을 대상으로 데이터 베이스(110) 등 사용자가 원하는 형태로 저장할 수 있다. 이때 원본 용어 대신에 추천 용어를 수정하는 것이 아닌 새로운 칼럼(추천 용어가 포함된 칼럼)에 저장함으로써, 사용자가 군집 결과를 재확인을 할 수 있다.According to one embodiment of the present invention, the data result unit 150 may store a term (data) clustering result. It is possible to store data in which the term (data) clustering is completed in a form desired by the user such as the database 110. At this time, the user can re-confirm the cluster result by storing the new term (the column containing the recommended term) instead of modifying the recommended term instead of the original term.

본원의 일 실시예예 따르면, 사용자 입력 수신부(160)는 사용자 단말(미도시)로부터 용어 군집화 수행 정보를 수신할 수 있다. 용어 군집화 수행 정보는, 데이터 베이스에 포함된 데이터 셋 중 용어 군집화를 수행할 제1 데이터 셋을 결정하는 사용자 입력 정보를 포함할 수 있다 .또한, 용어 군집화 수행 정보는, 전처리된 데이터에 포함된 원본 용어의 형태소 분리 시 품사를 결정하기 위한 사용자 입력 정보를 포함할 수 있다. 또한, 용어 군집화 수행 정보는, 음운으로 분리된 각각의 원본 용어 간의 유사도를 구분할 임계치를 설정하기 위한 사용자 입력 정보를 포함할 수 있다. According to one embodiment of the present invention, the user input receiving unit 160 may receive term clustering performance information from a user terminal (not shown). The term clustering performance information may include user input information for determining a first data set to be clustered among the datasets included in the database. And may include user input information for determining the part-of-speech in the morphological separation of terms. In addition, the term clustering performance information may include user input information for setting a threshold for classifying the similarity between respective original terms separated by a phoneme.

본원의 일 실시예에 따르면, 사용자 입력 수신부(160)는 사용자 단말(미도시)로 용어 군집화 메뉴를 제공할 수 있다. 예를 들어, 용어 군집화 장치(100)가 제공하는 애플리케이션 프로그램을 사용자 단말(미도시)이 다운로드하여 설치하고, 설치된 어플리케이션을 통해 용어 군집화 메뉴가 제공될 수 있다.According to one embodiment of the present invention, the user input receiving unit 160 may provide a term clustering menu to a user terminal (not shown). For example, a user terminal (not shown) may download and install an application program provided by the term clustering apparatus 100, and a term clustering menu may be provided through the installed application.

사용자 입력 수신부(160)는 사용자 단말(미도시)과 데이터, 콘텐츠, 각종 통신 신호를 네트워크를 통해 송수신하고, 데이터 저장 및 처리의 기능을 가지는 모든 종류의 서버, 단말, 또는 디바이스를 포함할 수 있다.The user input receiving unit 160 may include any type of server, terminal, or device that transmits and receives data, contents, and various communication signals through a network, and has a function of data storage and processing, with a user terminal (not shown) .

사용자 단말(미도시)은 네트워크를 통해 사용자 입력 수신부(160)와 연동되는 디바이스로서, 예를 들면, 스마트폰(Smartphone), 스마트패드(Smart Pad), 태블릿 PC, 웨어러블 디바이스 등과 PCS(Personal Communication System), GSM(Global System for Mobile communication), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말기 같은 모든 종류의 무선 통신 장치 및 데스크탑 컴퓨터, 스마트 TV와 같은 고정용 단말기일 수도 있다. A smart pad, a tablet PC, a wearable device, and the like, and a personal communication system (PCS), for example, ), GSM (Global System for Mobile communication), PDC (Personal Digital Cellular), PHS (Personal Handyphone System), PDA (Personal Digital Assistant), IMT (International Mobile Telecommunication) -2000, CDMA , W-CDMA (W-Code Division Multiple Access), and Wibro (Wireless Broadband Internet) terminals, desktop computers, and smart TVs.

사용자 입력 수신부(160) 및 사용자 단말(미도시) 간의 정보 공유를 위한 네트워크의 일 예로는 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5G 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 유무선 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, Wifi 네트워크, NFC(Near Field Communication) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함될 수 있으며, 이에 한정된 것은 아니다.An example of a network for information sharing between the user input receiving unit 160 and a user terminal (not shown) includes a 3rd Generation Partnership Project (3GPP) network, a Long Term Evolution (LTE) network, a 5G network, a World Interoperability for Microwave Access ) Network, a wired / wireless Internet, a LAN (Local Area Network), a wireless LAN (Local Area Network), a WAN A near field communication network, a satellite broadcasting network, an analog broadcasting network, a DMB (Digital Multimedia Broadcasting) network, and the like.

이하에서는 상기에 자세히 설명된 내용을 기반으로, 본원의 동작 흐름을 간단히 살펴보기로 한다.Hereinafter, the operation flow of the present invention will be briefly described based on the details described above.

도 9는 본원의 일 실시예에 따른 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 방법에 대한 동작 흐름도이다.FIG. 9 is a flowchart illustrating a method for grouping unstructured text data for analysis of big data according to an embodiment of the present invention.

도 9에 도시된 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 방법은 앞서 설명된 용어 군집화 장치(10)에 의하여 수행될 수 있다. 따라서, 이하 생략된 내용이라고 하더라도 용어 군집화 장치(10)에 대하여 설명된 내용은 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 방법에 대한 설명에도 동일하게 적용될 수 있다.The term clustering method of unstructured text data for the big data analysis shown in FIG. 9 can be performed by the term clustering apparatus 10 described above. Therefore, even if omitted below, the description of the term clustering apparatus 10 can be equally applied to the description of the clustering method of the unstructured text data for the big data analysis.

단계 S901에서, 용어 군집화 장치(10)는 데이터 베이스에 포함된 데이터 셋에서 데이터를 선택하고 전처리를 수행할 수 있다.In step S901, the term clustering apparatus 10 may select data from a data set included in the database and perform preprocessing.

단계 S902에서, 용어 군집화 장치(10)는 전처리된 데이터에 포함된 원본 용어의 형태소를 분리하고, 원본 용어의 추천 점수를 계산할 수 있다.In step S902, the term clustering apparatus 10 can separate the morpheme of the original term included in the preprocessed data and calculate the recommendation score of the original term.

단계 S903에서, 용어 군집화 장치(10)는 원본 용어의 음운을 분리하고, 음운으로 분리된 각각의 원본 용어 간의 유사도 연산을 수행하고, 상기 유사도 연산 값이 미리 설정된 임계치 이상인 원본 용어를 군집화할 수 있다.In step S903, the term clustering apparatus 10 separates the phonemes of the original terms, performs similarity calculation between the original terms separated by the phonemes, and clusters the original terms whose similarity calculation value is equal to or greater than a predetermined threshold value .

단계 S904에서, 용어 군집화 장치(10)는 상기 추천 점수 및 상기 군집화 결과에 기반하여 복수의 원본 용어 중 추천 용어를 결정하는 단계를 포함할 수 있다. In step S904, the term clustering apparatus 10 may include a step of determining a recommended term among a plurality of original terms based on the recommendation score and the clustering result.

상술한 설명에서, 단계 S901 내지 S904은 본원의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.In the above description, steps S901 to S904 may be further divided into additional steps, or combined in fewer steps, according to embodiments of the present disclosure. Also, some of the steps may be omitted as necessary, and the order between the steps may be changed.

본원의 일 실시 예에 따른 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The term clustering method of unstructured text data for analysis of big data according to an embodiment of the present invention may be implemented in a form of a program command which can be executed through various computer means and recorded in a computer readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions recorded on the medium may be those specially designed and constructed for the present invention or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

또한, 전술한 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 방법은 기록 매체에 저장되는 컴퓨터에 의해 실행되는 컴퓨터 프로그램 또는 애플리케이션의 형태로도 구현될 수 있다.The term clustering method of unstructured text data for the above-described big data analysis can also be implemented in the form of a computer program or an application executed by a computer stored in a recording medium.

전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.It will be understood by those of ordinary skill in the art that the foregoing description of the embodiments is for illustrative purposes and that those skilled in the art can easily modify the invention without departing from the spirit or essential characteristics thereof. It is therefore to be understood that the above-described embodiments are illustrative in all aspects and not restrictive. For example, each component described as a single entity may be distributed and implemented, and components described as being distributed may also be implemented in a combined form.

본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is defined by the appended claims rather than the detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalents should be construed as being included within the scope of the present invention.

100: 용어 군집화 장치
110: 데이터 베이스
120: 데이터 전처리부
130: 추천 용어부
140: 데이터 군집부
150: 데이터 결과부
160: 사용자 입력 수신부
100: Term clustering device
110: Database
120: Data preprocessing section
130: Reference Glossary
140: Data cluster part
150:
160: User input receiver

Claims (10)

빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 장치에 있어서,
데이터 셋을 포함하는 데이터 베이스;
상기 데이터 베이스에 포함된 데이터 셋에서 데이터를 선택하고 전처리를 수행하는 데이터 전처리부;
전처리된 데이터에 포함된 원본 용어의 형태소를 분리하고, 원본 용어의 추천 점수를 계산하는 추천 용어 결정부; 및
원본 용어의 음운을 분리하고, 음운으로 분리된 각각의 원본 용어 간의 유사도 연산을 수행하고, 상기 유사도 연산 값이 미리 설정된 임계치 이상인 원본 용어를 군집화하는 데이터 군집부,
를 포함하되,
상기 추천 용어 결정부는, 상기 추천 점수 및 상기 군집화 결과에 기반하여 복수의 원본 용어 중 추천 용어를 결정하고, 분리된 형태소의 추출빈도를 수치화한 값 및 분리된 형태소를 기반으로 추출된 가중치를 이용하여 상기 추천 점수를 계산하되, 상기 가중치는 원본 용어 내 형태소의 비중을 비율화한 값인 것인,용어 군집화 장치.
A term clustering apparatus for unstructured text data for analysis of big data,
A database containing a dataset;
A data preprocessing unit for selecting data from a data set included in the database and performing preprocessing;
A recommendation term determination unit for separating morphemes of original terms included in the preprocessed data and calculating recommendation scores of original terms; And
A data cluster unit for separating the phonemes of original terms, performing a similarity calculation between original terms separated by phonemes, and clustering original terms having a similarity calculation value equal to or greater than a preset threshold value,
, ≪ / RTI &
The recommendation term determination unit may determine recommendation terms among a plurality of original terms based on the recommendation score and the result of the grouping, and use a value obtained by digitizing the extraction frequency of the separated morpheme and a weight extracted based on the separated morpheme Wherein the recommendation score is calculated by weighting the weight of the morpheme in the original term.
제1항에 있어서,
상기 전처리부는,
상기 데이터 베이스에 포함된 데이터 셋 중 용어 군집화를 수행할 제1데이터 셋을 결정하고, 상기 제1데이터 셋의 복수의 칼럼 항목 중 용어 군집화를 수행할 제1칼럼을 선택하여 선택된 칼럼 항목의 데이터 전처리를 수행하는 것인, 용어 군집화 장치.
The method according to claim 1,
The pre-
Determining a first data set to perform clustering of terms among the data sets included in the database, selecting a first column for clustering terms among the plurality of column items of the first data set, The term clustering device.
삭제delete 삭제delete 제1항에 있어서,
상기 추천 점수는,
상기 분리된 형태소의 추출빈도를 수치화한 값을 기반으로 분리된 형태소의 추출 빈도수 및 제1원본 용어에서 분류된 복수의 형태소 각각의 길이를 상기 제1원본 용어의 전체길이로 나누어 연산한 결과의 합을 이용하여 계산되는 것인, 용어 군집화 장치.
The method according to claim 1,
The recommendation score,
The sum of the extraction frequency of the separated morpheme based on the value obtained by digitizing the extraction frequency of the separated morpheme and the result of dividing the length of each of the plurality of morphemes classified in the first original term by the total length of the first original term Is computed using the term clustering.
제1항에 있어서,
상기 데이터 군집부는,
상기 원본 용어가 한글일 경우, 초성, 중성, 종성으로 한글 자모에 따른 음운으로 분리하고, 인공지능 기반의 알고리즘을 이용하여 유사도를 연산하는 것인, 용어 군집화 장치.
The method according to claim 1,
The data-
Wherein when the original term is Hangul, it is divided into phonemes according to Korean alphabet with a prefix, a neutral, and a longitudinal, and the similarity is calculated using an artificial intelligence based algorithm.
제1항에 있어서,
상기 데이터 군집부의 군집 결과를 제공하는 데이터 결과부를 더 포함하되,
상기 군집 결과는 추천 용어, 원본 용어, 유사도 값을 포함하는 것인, 용어 군집화 장치.
The method according to claim 1,
And a data result unit for providing a cluster result of the data cluster unit,
Wherein the clustering result includes a recommendation term, an original term, and a similarity value.
제1항에 있어서,
사용자 단말로부터 용어 군집화 수행 정보를 수신하는 사용자 입력 수신부를 더 포함하는 것인, 용어 군집화 장치.
The method according to claim 1,
And a user input receiving unit for receiving term clustering performance information from the user terminal.
제8항에 있어서,
상기 추천 용어 결정부는,
형태소 분리 시 상기 용어 군집화 수행 정보에 포함된 품사 결정 정보에 기반하여 상기 전처리된 데이터를 기반으로 형태소 분리를 수행하는 것인, 용어 군집화 장치.
9. The method of claim 8,
The term "
Wherein morphologic separation is performed based on the preprocessed data based on part-of-speech decision information included in the term clustering performance information when morpheme is separated.
빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 방법에 있어서,
데이터 베이스에 포함된 데이터 셋에서 데이터를 선택하고 전처리를 수행하는 단계;
전처리된 데이터에 포함된 원본 용어의 형태소를 분리하고, 원본 용어의 추천 점수를 계산하는 단계; 및
원본 용어의 음운을 분리하고, 음운으로 분리된 각각의 원본 용어 간의 유사도 연산을 수행하고, 상기 유사도 연산 값이 미리 설정된 임계치 이상인 원본 용어를 군집화하는 단계;
상기 추천 점수 및 상기 군집화 결과에 기반하여 복수의 원본 용어 중 추천 용어를 결정하는 단계를 포함하되,
상기 원본 용어의 추천 점수를 계산하는 단계는,
분리된 형태소의 추출빈도를 수치화한 값 및 분리된 형태소를 기반으로 추출된 가중치를 이용하여 추천 점수를 계산하고,
상기 가중치는 원본 용어 내 형태소의 비중을 비율화한 값인 것인, 용어 군집화 방법.
A method for grouping unstructured text data for big data analysis,
Selecting data from a data set included in the database and performing preprocessing;
Separating morphemes of original terms included in the preprocessed data and calculating recommendation scores of original terms; And
Separating the phonemes of the original terms, performing a similarity calculation between the original terms separated by the phonemes, and clustering the original terms having the similarity calculation value equal to or greater than a predetermined threshold value;
Determining a recommendation term among a plurality of original terms based on the recommendation score and the clustering result,
The step of calculating the recommendation score of the original term may include:
The recommendation score is calculated using the numerical value of the extraction frequency of the separated morpheme and the weight extracted based on the separated morpheme,
Wherein the weights are values obtained by scaling the weight of the morphemes in the original term.
KR1020180147335A 2018-11-26 2018-11-26 Device and method for terminology clustering informal text data for big data analysis KR101975419B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180147335A KR101975419B1 (en) 2018-11-26 2018-11-26 Device and method for terminology clustering informal text data for big data analysis
PCT/KR2019/002778 WO2020111395A1 (en) 2018-11-26 2019-03-11 Device and method for term clustering of unstructured text data for big data analysis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180147335A KR101975419B1 (en) 2018-11-26 2018-11-26 Device and method for terminology clustering informal text data for big data analysis

Publications (1)

Publication Number Publication Date
KR101975419B1 true KR101975419B1 (en) 2019-05-07

Family

ID=66656387

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180147335A KR101975419B1 (en) 2018-11-26 2018-11-26 Device and method for terminology clustering informal text data for big data analysis

Country Status (2)

Country Link
KR (1) KR101975419B1 (en)
WO (1) WO2020111395A1 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102046640B1 (en) * 2019-07-22 2019-12-02 (주)위세아이텍 Automatic terminology recommendation device and method for big data standardization
KR102068715B1 (en) * 2019-06-05 2020-01-21 (주)위세아이텍 Outlier detection device and method which weights are applied according to feature importance degree
KR102153259B1 (en) * 2020-03-24 2020-09-08 주식회사 데이터스트림즈 Data domain recommendation method and method for constructing integrated data repository management system using recommended domain
KR20210099739A (en) * 2020-02-05 2021-08-13 정동윤 User Review Based Rating Re-calculation Apparatus and Method
KR102362582B1 (en) * 2020-12-31 2022-02-15 렉스소프트 주식회사 Method, server and computer program product for preprocessing statistical data

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101579544B1 (en) * 2014-09-04 2015-12-23 에스케이 텔레콤주식회사 Apparatus and Method for Calculating Similarity of Natural Language
KR20170037593A (en) * 2017-03-23 2017-04-04 주식회사 플런티코리아 Recommendation Reply Apparatus and Method

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102476812B1 (en) * 2016-10-18 2022-12-09 삼성에스디에스 주식회사 Method and apparatus for managing a synonymous item based on analysis of similarity
KR20180089011A (en) * 2017-01-31 2018-08-08 강태준 A System for Searching a Language Based on Big Data with a Peculiar Value
KR102025805B1 (en) * 2017-03-29 2019-11-12 중앙대학교 산학협력단 Device and method for analyzing similarity of documents

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101579544B1 (en) * 2014-09-04 2015-12-23 에스케이 텔레콤주식회사 Apparatus and Method for Calculating Similarity of Natural Language
KR20170037593A (en) * 2017-03-23 2017-04-04 주식회사 플런티코리아 Recommendation Reply Apparatus and Method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102068715B1 (en) * 2019-06-05 2020-01-21 (주)위세아이텍 Outlier detection device and method which weights are applied according to feature importance degree
KR102046640B1 (en) * 2019-07-22 2019-12-02 (주)위세아이텍 Automatic terminology recommendation device and method for big data standardization
KR20210099739A (en) * 2020-02-05 2021-08-13 정동윤 User Review Based Rating Re-calculation Apparatus and Method
KR102351745B1 (en) 2020-02-05 2022-01-17 정동윤 User Review Based Rating Re-calculation Apparatus and Method
KR102153259B1 (en) * 2020-03-24 2020-09-08 주식회사 데이터스트림즈 Data domain recommendation method and method for constructing integrated data repository management system using recommended domain
KR102362582B1 (en) * 2020-12-31 2022-02-15 렉스소프트 주식회사 Method, server and computer program product for preprocessing statistical data

Also Published As

Publication number Publication date
WO2020111395A1 (en) 2020-06-04

Similar Documents

Publication Publication Date Title
KR101975419B1 (en) Device and method for terminology clustering informal text data for big data analysis
CN110110330B (en) Keyword extraction method based on text and computer equipment
WO2018207723A1 (en) Abstract generation device, abstract generation method, and computer program
CN102622338B (en) Computer-assisted computing method of semantic distance between short texts
CN111753060A (en) Information retrieval method, device, equipment and computer readable storage medium
Fan et al. Apply word vectors for sentiment analysis of APP reviews
US20190236135A1 (en) Cross-lingual text classification
US10831993B2 (en) Method and apparatus for constructing binary feature dictionary
Atia et al. Increasing the accuracy of opinion mining in Arabic
CN111695349A (en) Text matching method and text matching system
Huang et al. Character-level convolutional network for text classification applied to chinese corpus
CN108052500A (en) A kind of text key message extracting method and device based on semantic analysis
Banik et al. Gru based named entity recognition system for bangla online newspapers
CN115309910B (en) Language-text element and element relation joint extraction method and knowledge graph construction method
CN113673223A (en) Keyword extraction method and system based on semantic similarity
CN112905768A (en) Data interaction method, device and storage medium
CN112131341A (en) Text similarity calculation method and device, electronic equipment and storage medium
JPWO2013128684A1 (en) Dictionary generating apparatus, method, and program
JP6867963B2 (en) Summary Evaluation device, method, program, and storage medium
KR102400689B1 (en) Semantic relation learning device, semantic relation learning method, and semantic relation learning program
CN113569018A (en) Question and answer pair mining method and device
Yahya et al. Arabic text categorization based on Arabic Wikipedia
CN108172304A (en) A kind of medical information visible processing method and system based on user's medical treatment feedback
JP2010128598A (en) Document retrieving device and method, program and recording medium with program recorded thereon
Panchala et al. Hate speech & offensive language detection using ML &NLP

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant