KR20210041185A - Pattern Dictionary Establish Method by Data Classify and Analysis - Google Patents

Pattern Dictionary Establish Method by Data Classify and Analysis Download PDF

Info

Publication number
KR20210041185A
KR20210041185A KR1020190123542A KR20190123542A KR20210041185A KR 20210041185 A KR20210041185 A KR 20210041185A KR 1020190123542 A KR1020190123542 A KR 1020190123542A KR 20190123542 A KR20190123542 A KR 20190123542A KR 20210041185 A KR20210041185 A KR 20210041185A
Authority
KR
South Korea
Prior art keywords
analysis
word
combination
data
pattern
Prior art date
Application number
KR1020190123542A
Other languages
Korean (ko)
Other versions
KR102321871B1 (en
Inventor
김병태
배성환
Original Assignee
주식회사 알에스엔
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 알에스엔 filed Critical 주식회사 알에스엔
Priority to KR1020190123542A priority Critical patent/KR102321871B1/en
Publication of KR20210041185A publication Critical patent/KR20210041185A/en
Application granted granted Critical
Publication of KR102321871B1 publication Critical patent/KR102321871B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Abstract

According to the present invention, a method of building a pattern dictionary in accordance with data classification analysis includes the following steps of: (a) sampling and classifying data from a sample document in accordance with subject words by user-defined classification system; (b) conducting morpheme analysis with respect to an analysis target word combination included in the data sampled by the step (a); (c) classifying the analysis target word combination as an analysis failure combination, an analysis exception combination and a normalization combination in accordance with the morpheme analysis result of the step (b); (d) conducting follow-up analysis with respect to the normalization combination of the combinations classified by the step (c); and (e) building a pattern dictionary through the normalization combination to which the follow-up analysis has been conducted in the step (d). Therefore, the present invention is capable of considerably increasing the efficiency of analysis.

Description

데이터 분류 분석에 따른 패턴 사전 구축방법{Pattern Dictionary Establish Method by Data Classify and Analysis}Pattern Dictionary Establish Method by Data Classify and Analysis}

본 발명은 데이터 분류 분석에 따른 패턴 사전 구축방법에 관한 것으로서, 보다 상세하게는 대량의 데이터를 사용자가 정의한 분류체계 별로 분류/분석 후 원하는 데이터를 정확하게 검색하여 업무 효율을 향상시킬 수 있도록 하기 위한 데이터 분류 분석에 따른 패턴 사전 구축방법에 관한 것이다.The present invention relates to a pattern dictionary construction method according to data classification analysis, and more specifically, data for improving work efficiency by accurately searching for desired data after classifying/analyzing a large amount of data by classification system defined by a user. It relates to a method of constructing a pattern dictionary according to classification analysis.

오늘날 전자 문서는 그 양이 방대하여 사용자들의 원하는 정보를 빠르게 검색하기에 어려움이 있으며, 이와 같은 전자 문서의 대표적인 예로서는 인터넷을 통해 실시간으로 생성 및 유통되는 전자 문서가 있다.Today, the amount of electronic documents is vast, and it is difficult to quickly search for desired information of users, and a representative example of such electronic documents is an electronic document that is generated and distributed in real time through the Internet.

이러한 대량의 전자 문서를 사용자가 검색 및 활용하기 쉬운 형태로 제공하는 방법으로서, 많은 기업들이 시맨틱(Semantic) 검색, 감성분석(Sentiment Analysis) 검색, 주제 별 분석(Classification) 검색 등을 개발하여 서비스 중이거나 개발 중에 있다.As a method of providing such a large amount of electronic documents in a form that is easy for users to search and use, many companies have developed and serviced Semantic Search, Sentiment Analysis Search, and Classification Search, etc. Or in development.

이와 같은 검색 기술들에 텍스트 마이닝(Text Mining)은 필수로 사용되는 기술이며 많은 분류 추출 방법이 사용되고 있다.Text mining is an essential technique for such search techniques, and many classification extraction methods are used.

상기와 같은 기존의 분류 분석 시스템은 대량의 데이터를 사람이 직접 검토하여 분석 패턴을 생성하고 패턴 사전을 구축하기 때문에, 구축 과정에 많은 시간과 인건비가 발생하였다.In the conventional classification analysis system as described above, a large amount of data is directly reviewed by a person to generate an analysis pattern and a pattern dictionary is constructed, so a lot of time and labor costs were incurred in the construction process.

다만, 사람이 확인할 수 있는 데이터에는 한계가 있어 광범위한 패턴 사전 구축이 어렵고 분석 결과 또한 정확도와 재현율이 낮아 업무의 적용에 한계가 있으며 고유명사와 영화 제목과 같은 형용사와 명사 등의 조합을 복합적으로 사용해야 하는 경우 분석 과정에서 오류가 발생하는 문제점이 있었다.However, there is a limit to the data that can be checked by humans, so it is difficult to establish a broad pattern dictionary, and the accuracy and reproducibility of the analysis results are also low, so the application of work is limited, and a combination of adjectives and nouns such as proper nouns and movie titles should be used in combination. In this case, there is a problem that an error occurs in the analysis process.

따라서 이와 같은 문제점들을 해결하기 위한 방법이 요구된다.Therefore, a method for solving these problems is required.

한국공개특허 제10-1999-0087858호Korean Patent Publication No. 10-1999-0087858

본 발명은 상술한 종래 기술의 문제점을 해결하기 위하여 안출된 발명으로서, 대량의 데이터를 사용자가 정의한 분류체계 별로 분류/분석 후 원하는 데이터를 정확하게 검색하여 업무 효율을 향상시킬 수 있도록 하는 데이터 분류 분석에 따른 패턴 사전 구축방법을 제공하기 위한 목적을 가진다.The present invention is an invention conceived to solve the problems of the prior art described above. After classifying/analyzing a large amount of data by classification system defined by a user, the present invention is used to accurately search for desired data to improve work efficiency. It has the purpose of providing a pattern dictionary construction method according to.

본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The problems of the present invention are not limited to the problems mentioned above, and other problems that are not mentioned will be clearly understood by those skilled in the art from the following description.

상기한 목적을 달성하기 위한 본 발명의 데이터 분류 분석에 따른 패턴 사전 구축방법은, 사용자 정의 분류체계 별 주제어에 따라 샘플 문서로부터 데이터를 샘플링하여 분류하는 (a)단계, 상기 (a)단계에 의해 샘플링된 데이터에 포함되어 있는 분석대상단어조합에 대해 형태소 분석을 수행하는 (b)단계, 상기 (b)단계의 형태소 분석 결과에 따라 분석대상단어조합을 분석실패조합, 분석제외조합 및 정규화조합으로 분류하는 (c)단계, 상기 (c)단계에 의해 분류된 조합 중 정규화조합에 대해 후속분석을 수행하는 (d)단계 및 상기 (d)단계에서 후속분석이 수행된 정규화조합을 통해 패턴 사전을 구축하는 (e)단계를 포함한다.The method for constructing a pattern dictionary according to the data classification analysis of the present invention for achieving the above object comprises the steps (a) and (a) of sampling and classifying data from sample documents according to the subject words for each user-defined classification system. According to the morpheme analysis results of step (b) and step (b), which perform morpheme analysis on the sampled data, the analysis target word combinations are converted into analysis failure combinations, analysis exclusion combinations, and normalization combinations. The pattern dictionary is analyzed through the step (c) of classifying, the step (d) of performing a follow-up analysis on the normalized combination among the combinations classified by the step (c), and the normalization combination performed in the step (d). It includes the step (e) of building.

이때 상기 (a)단계는, 샘플 문서에 포함된 데이터를 사용자 정의 분류체계 별 주제어와 매칭시키는 (a-1)단계 및 상기 (a-1)단계에서 매칭되지 않은 데이터를 무가치데이터로 분류하는 (a-2)단계를 포함할 수 있다.In this case, the step (a) includes the step (a-1) of matching the data included in the sample document with the subject word for each user-defined classification system, and the ( It may include step a-2).

더불어 상기 (a)단계는, 상기 (a-1)단계에서 매칭이 이루어진 데이터를 사용자 정의 분류체계 별 제외단어와 매칭시키는 (a-3)단계, 상기 (a-3)단계에서 매칭이 이루어진 데이터를 상기 무가치데이터로 분류하는 (a-4)단계 및 상기 (a-4)단계에서 매칭되지 않은 데이터를 샘플링하는 (a-5)단계를 포함할 수 있다.In addition, the step (a) includes the step (a-3) of matching the data matched in step (a-1) with the excluded words for each user-defined classification system, and the data matched in step (a-3). A step (a-4) of classifying the data as valueless data, and a step (a-5) of sampling data not matched in the step (a-4) may be included.

또한 상기 (b)단계는, 상기 분석대상단어조합을 수식화하여 형태소 분석을 수행할 수 있다.In addition, in step (b), morpheme analysis may be performed by formulating the analysis target word combination.

그리고 상기 형태소 분석은, 상기 분석대상단어조합 자체 그대로를 샘플링된 데이터에서 검색하는 고유검색과, 서로 인접한 분석대상단어조합을 조합하여 검색하는 인접검색을 포함하는 패턴방식 수식을 포함할 수 있다.In addition, the morpheme analysis may include a pattern method formula including a unique search for searching the sampled data for the analysis target word combination itself, and an adjacent search for combining adjacent analysis target word combinations.

또한 상기 형태소 분석은, 기준이 되는 단어의 오른쪽으로 노출된 단어에서 패턴을 검색하는 순방향검색과, 기준이 되는 단어의 왼쪽으로 노출된 단어에서 패턴을 검색하는 역방향검색과, 기준이 되는 단어의 오른쪽 및 왼쪽 모두에서 노출된 단어에서 패턴을 검색하는 전체검색을 포함하는 검색방향 수식을 포함할 수 있다.In addition, the morpheme analysis includes a forward search for searching for a pattern from a word exposed to the right of a reference word, a reverse search for searching for a pattern from a word exposed to the left of the reference word, and a right side of the reference word. And a search direction formula including a full search for searching for a pattern in words exposed from both left sides.

그리고 상기 형태소 분석은, 기준이 되는 단어를 중심으로 n개의 인접 범위 내에서 패턴을 검색하는 검색범위 수식을 포함할 수 있다.In addition, the morpheme analysis may include a search range formula for searching for a pattern within n adjacent ranges around a reference word.

또한 상기 형태소 분석은, 임의의 단어 자체 그대로를 샘플링된 데이터에서 검색하는 매칭분석과, 임의의 단어가 사전에 있는 단어인지를 인식하는 사전분석을 포함하는 검색방식 수식을 포함할 수 있다.In addition, the morpheme analysis may include a matching analysis for searching the sampled data for an arbitrary word itself, and a search method formula including a dictionary analysis for recognizing whether an arbitrary word is a word in a dictionary.

그리고 상기 (d)단계는, 상기 정규화조합에 대해 TF-IDF분석을 수행하여 선별하는 (d-1)단계 및 상기 (d-1)단계에 의해 선별된 정규화조합에 대해 주위 다른 단어와 n-gram분석을 수행함에 따라 상기 샘플 문서에서의 노출도를 산정하는 (d-2)단계를 포함할 수 있다.And in the step (d), for the normalization combination selected by the step (d-1) and the normalization combination selected by the step (d-1) and the step (d-1) of performing TF-IDF analysis on the normalized combination, n- As the gram analysis is performed, a step (d-2) of calculating the exposure level in the sample document may be included.

또한 상기 (e)단계는, 상기 정규화조합을 상기 샘플 문서에서의 노출도에 따라 내림차순으로 정렬하여 패턴 사전을 구축할 수 있다.Further, in step (e), a pattern dictionary may be constructed by arranging the normalization combinations in descending order according to the exposure level in the sample document.

한편 본 발명은 상기 (c)단계에 의해 분류된 조합 중 분석실패조합에 대해 1차 예상신조어로 설정하여 사용자에게 추천하는 (f)단계를 더 포함할 수 있다.Meanwhile, the present invention may further include a step (f) of setting a first predicted new word for an analysis failure combination among the combinations classified by step (c) and recommending it to the user.

이때 상기 (f)단계는, 상기 (c)단계에 의해 분류된 조합 중 분석실패조합에 대해 1차 예상신조어로 설정하는 (f-1)단계, 상기 1차 예상신조어에 대해 TF-IDF분석을 수행하여 선별하는 (f-2)단계, 상기 (f-2)단계에 의해 선별된 1차 예상신조어에 대해 조사의 종류 및 위치를 파악하고, 제거하는 (f-3)단계, 상기 (f-3)단계에 의해 조사가 제거된 1차 예상신조어에 대해 형태소 분석을 재수행하는 (f-4)단계, (f-4)단계에 의해 형태소 분석이 재수행된 1차 예상신조어에 대해 미분석 단어가 존재하는지의 여부를 판단하는 (f-5)단계, 상기 (f-5)단계의 판단 결과 미분석 단어가 존재하는 것으로 판단된 경우, 해당 1차 예상신조어에 대해 분석기간 내 검색 수량을 추출하는 (f-6)단계 및 상기 (f-6)단계에 의해 분석기간 내 추출된 검색 수량이 이전 기간의 검색 수량에 대해 n% 이상의 증가율을 나타내는 경우, 해당 1차 예상신조어를 사용자 추천 신조어로 설정하여 제공하는 (f-7)단계를 포함할 수 있다.At this time, the step (f) includes the step (f-1) of setting the first predicted new word for the failed analysis combination among the combinations classified by the step (c), and the TF-IDF analysis for the first predicted new word. Step (f-2) of performing and screening, step (f-3) of identifying and removing the type and location of the survey for the first predicted new word selected by step (f-2), the (f- Unanalyzed words for the first predicted new words for which the morpheme analysis was re-performed by steps (f-4) and (f-4), in which the morpheme analysis was re-performed on the first predicted new words from which the investigation was removed by step 3) If it is determined that there is an unanalyzed word as a result of the determination of step (f-5) and step (f-5) of determining whether or not is present, the number of searches within the analysis period is extracted for the corresponding first predicted new word. If the search quantity extracted during the analysis period by step (f-6) and step (f-6) shows an increase rate of n% or more with respect to the search quantity in the previous period, the corresponding first predicted new word is used as a new word recommended by the user. It may include the step (f-7) of setting and providing.

더불어 상기 (f)단계는, 상기 (f-6)단계에 의해 분석기간 내 추출된 검색 수량이 이전 기간의 검색 수량에 대해 n% 미만의 증가율을 나타내는 경우, 해당 1차 예상신조어를 2차 예상 신조어로 설정한 뒤, 사용자 추천 신조어로 설정하여 제공하는 (f-8)단계를 더 포함할 수 있다.In addition, in step (f), when the number of searches extracted in the analysis period by step (f-6) shows an increase rate of less than n% of the number of searches in the previous period, the corresponding first predicted new word is second predicted. After setting the new word, the step (f-8) of setting and providing the new word recommended by the user may be further included.

한편 본 발명은 상기 (e)단계에 의해 구축된 패턴 사전에 포함된 정규화조합에 대해 감성분석을 수행하는 (g)단계를 더 포함할 수 있다.Meanwhile, the present invention may further include a step (g) of performing sentiment analysis on the normalization combination included in the pattern dictionary constructed by the step (e).

이때 상기 (g)단계는, 상기 패턴 사전에 포함된 정규화조합에 대해 긍정률 공식에 따라 감성을 부여하는 (g-1)단계 및 상기 패턴 사전에 포함된 정규화조합에 대해 연관도 점수를 부여하는 (g-2)단계를 포함할 수 있다.In this case, the step (g) includes the step (g-1) of assigning emotion to the normalization combination included in the pattern dictionary according to the positive rate formula, and assigning a correlation score to the normalization combination included in the pattern dictionary. It may include step (g-2).

여기서 상기 긍정률 공식으로는,Here, as the positive rate formula,

긍정률 = (긍정패턴 수량/(긍정패턴 수량 +부정패턴 수량))*100Positive rate = (positive pattern quantity/(positive pattern quantity + negative pattern quantity))*100

의 수식이 적용될 수 있다.The formula of can be applied.

또한 상기 연관도 점수는,In addition, the correlation score is,

연관도 점수 = (노출 전체 패턴 수량/정규화조합 수량)*100Association score = (Total exposure pattern quantity/Normalization combination quantity)*100

의 수식이 적용될 수 있다.The formula of can be applied.

상기한 과제를 해결하기 위한 본 발명의 데이터 분류 분석에 따른 패턴 사전 구축방법은, 대용량의 데이터를 사용자가 빠르고 정확하게 검색할 수 있으며, 대용량의 데이터에서 불필요한 내용을 제거한 데이터에 쉽게 접근이 가능하다는 장점이 있다.The method of constructing a pattern dictionary according to the data classification analysis of the present invention for solving the above problems has the advantage that a user can quickly and accurately search a large amount of data, and easily access the data by removing unnecessary contents from the large amount of data. There is this.

또한 본 발명은 인터넷에 새롭게 올라오는 신조어의 적용이 빠르며, 패턴 사전의 확장이 용이하고, 사용자 정의 분류 체계의 확장이 용이하다는 장점을 가진다.In addition, the present invention has advantages in that the application of new words newly posted on the Internet is fast, the expansion of the pattern dictionary is easy, and the expansion of the user-defined classification system is easy.

뿐만 아니라 본 발명은 사전의 크기에 따라 정확도가 상승하며 다양한 분류를 진행 할 수 있으므로, 여러가지의 주제를 동시에 분석하여 분석 효율을 크게 높일 수 있는 장점이 있다.In addition, the present invention has an advantage in that the accuracy increases according to the size of the dictionary and various classifications can be performed, and thus analysis efficiency can be greatly improved by simultaneously analyzing various subjects.

본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The effects of the present invention are not limited to the above-mentioned effects, and other effects not mentioned will be clearly understood by those skilled in the art from the description of the claims.

도 1 및 도 2는 본 발명의 일 실시예에 따른 데이터 분류 분석에 따른 패턴 사전 구축방법의 전체적인 과정을 나타낸 도면 및 순서도;
도 3은 본 발명의 일 실시예에 따른 데이터 분류 분석에 따른 패턴 사전 구축방법 중 샘플 문서로부터 데이터를 샘플링하여 분류하는 (a)단계의 세부 과정을 나타낸 도면;
도 4는 본 발명의 일 실시예에 따른 데이터 분류 분석에 따른 패턴 사전 구축방법에 있어서, 형태소 분석에 사용되는 수식의 종류를 나타낸 표;
도 5는 본 발명의 일 실시예에 따른 데이터 분류 분석에 따른 패턴 사전 구축방법 중 정규화조합에 대해 후속분석을 수행하는 (d)단계의 세부 과정을 나타낸 도면;
도 6 및 도 7은 본 발명의 일 실시예에 따른 데이터 분류 분석에 따른 패턴 사전 구축방법 중 1차 예상신조어로 설정하여 사용자에게 추천하는 (f)단계의 세부 과정을 나타낸 도면 및 순서도;
도 8은 본 발명의 일 실시예에 따른 데이터 분류 분석에 따른 패턴 사전 구축방법에 있어서, 1차 예상신조어에 대해 조사의 종류 및 위치를 파악하고, 제거하는 (f-3)단계에서 고려되는 조사의 종류를 나타낸 표; 및
도 9 및 도 10은 본 발명의 일 실시예에 따른 데이터 분류 분석에 따른 패턴 사전 구축방법 중 정규화조합에 대해 감성분석을 수행하는 (g)단계의 세부 과정을 나타낸 도면 및 순서도이다.
1 and 2 are diagrams and flow charts showing an overall process of a method for constructing a pattern dictionary according to data classification analysis according to an embodiment of the present invention;
3 is a diagram showing a detailed process of a step (a) of sampling and classifying data from a sample document in a method for constructing a pattern dictionary according to data classification analysis according to an embodiment of the present invention;
4 is a table showing types of equations used for morpheme analysis in a method for constructing a pattern dictionary according to data classification analysis according to an embodiment of the present invention;
FIG. 5 is a diagram showing a detailed process of step (d) of performing a subsequent analysis on a normalized combination in a method for constructing a pattern dictionary according to data classification analysis according to an embodiment of the present invention; FIG.
6 and 7 are diagrams and flow charts showing a detailed process of step (f) in which a first predicted new word is set and recommended to a user in a pattern dictionary construction method according to data classification analysis according to an embodiment of the present invention;
8 is a survey considered in step (f-3) of identifying and removing the type and location of a survey for a first predicted new word in a method for constructing a pattern dictionary according to data classification analysis according to an embodiment of the present invention A table showing the types of; And
9 and 10 are diagrams and flow charts showing a detailed process of step (g) of performing sentiment analysis on a normalized combination among a pattern dictionary construction method according to data classification analysis according to an embodiment of the present invention.

이하 본 발명의 목적이 구체적으로 실현될 수 있는 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 설명한다. 본 실시예를 설명함에 있어서, 동일 구성에 대해서는 동일 명칭 및 동일 부호가 사용되며 이에 따른 부가적인 설명은 생략하기로 한다.Hereinafter, preferred embodiments of the present invention in which the object of the present invention can be realized in detail will be described with reference to the accompanying drawings. In the description of the present embodiment, the same names and the same reference numerals are used for the same components, and additional descriptions thereof will be omitted.

본 발명은 대량의 데이터를 자동으로 분류/분석하기 위한 시스템으로서 사용자 정의 분류/분석 패턴 사전 구축 절차, 패턴의 수식화, 신조어 추천과 같은 기능을 이용하여 보다 정확한 분석결과를 사용자에게 제공할 수 있다. 이하에서는 본 발명을 수행하기 위한 각 과정 및 기능에 대해 자세히 설명하도록 한다.The present invention is a system for automatically classifying/analyzing a large amount of data, and may provide a more accurate analysis result to a user by using functions such as a user-defined classification/analysis pattern dictionary construction procedure, pattern formulating, and new word recommendation. Hereinafter, each process and function for carrying out the present invention will be described in detail.

도 1 및 도 2는 본 발명의 일 실시예에 따른 데이터 분류 분석에 따른 패턴 사전 구축방법의 전체적인 과정을 나타낸 도면 및 순서도이며, 이하 모든 설명은 이와 같이 전체적인 과정을 나타내는 도 1 및 도 2를 베이스로 하여 다른 도면을 함께 참조하며 설명하도록 한다.1 and 2 are diagrams and flowcharts showing the overall process of a method for constructing a pattern dictionary according to data classification analysis according to an embodiment of the present invention, and all descriptions below are based on FIGS. 1 and 2 showing the overall process as described above. It will be described with reference to the other drawings together.

도 1 및 도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 데이터 분류 분석에 따른 패턴 사전 구축방법은 사용자 정의 분류체계 별 주제어에 따라 샘플 문서로부터 데이터를 샘플링하여 분류하는 (a)단계와, (a)단계에 의해 샘플링된 데이터에 포함되어 있는 분석대상단어조합에 대해 형태소 분석을 수행하는 (b)단계와, (b)단계의 형태소 분석 결과에 따라 분석대상단어조합을 분석실패조합, 분석제외조합 및 정규화조합으로 분류하는 (c)단계와, (c)단계에 의해 분류된 조합 중 정규화조합에 대해 후속분석을 수행하는 (d)단계와, (d)단계에서 후속분석이 수행된 정규화조합을 통해 패턴 사전을 구축하는 (e)단계를 포함한다.As shown in FIGS. 1 and 2, in the method of constructing a pattern dictionary according to data classification analysis according to an embodiment of the present invention, a step (a) of sampling and classifying data from a sample document according to a subject word for each user-defined classification system Wow, according to the morpheme analysis results of step (b) and (b), which performs morphological analysis on the word combinations to be analyzed included in the data sampled by step (a), the analysis failure combination In step (c), which is classified into non-analytical combinations and normalized combinations, and (d), which performs a follow-up analysis on the normalized combinations among the combinations classified by step (c), and in step (d), follow-up analysis is performed. It includes the step (e) of constructing a pattern dictionary through the normalized combination.

한편 본 실시예는 (c)단계에 의해 분류된 조합 중 분석실패조합에 대해 1차 예상신조어로 설정하여 사용자에게 추천하는 (f)단계와, (e)단계에 의해 구축된 패턴 사전에 포함된 정규화조합에 대해 감성분석을 수행하는 (g)단계를 더 포함할 수 있다.On the other hand, this embodiment is included in the pattern dictionary constructed by step (f) and step (e) in which the analysis failure combination is set as the first predicted new word and recommended to the user among the combinations classified by step (c). It may further include the step (g) of performing sentiment analysis on the normalized combination.

(a)단계는 사용자 정의 분류체계 별 주제어에 따라 샘플 문서로부터 데이터를 샘플링하여 분류하기 위해, 샘플 문서로부터 각 분류 별 대표 주제어를 선정하여 데이터를 샘플링한게 된다.In step (a), in order to sample and classify data from sample documents according to the subject words for each user-defined classification system, the data is sampled by selecting a representative subject word for each classification from the sample document.

이때 해당 대표 주제어와 같이 사용되며 다른 의미로 분류될 제외 단어를 같이 설정하여 해당 분류에 정확히 샘플링될 수 있도록 상세히 설정하는 것이 바람직하다. 그리고 이와 같이 각 분류 별로 분류된 문서들은 (b)단계에 의해 형태소 분석을 수행함에 따라 분석에 성공한 단어를 추출하고, 추출된 단어는 분석 제외조합의 제거를 통해 정규화 한다. 이때 분석 제외조합은 분석에는 성공한 단어 조합이나, 패턴 생성 시에는 사용하지 않을 일반적인 단어 조합을 의미한다.At this time, it is desirable to set the exclusion words that are used together with the corresponding representative subject words and to be classified with different meanings and set them in detail so that they can be accurately sampled in the corresponding classification. In this way, documents classified for each classification are extracted by morpheme analysis in step (b), and the words that have been successfully analyzed are extracted, and the extracted words are normalized through the removal of the analysis exclusion combination. In this case, the analysis-excluded combination means a combination of words that are successful in analysis or a combination of general words that will not be used when generating patterns.

보다 구체적으로 도 3에 도시된 바와 같이 (a)단계는, 샘플 문서에 포함된 데이터를 사용자 정의 분류체계 별 주제어와 매칭시키는 (a-1)단계와, (a-1)단계에서 매칭되지 않은 데이터를 무가치데이터로 분류하는 (a-2)단계와, (a-1)단계에서 매칭이 이루어진 데이터를 사용자 정의 분류체계 별 제외단어와 매칭시키는 (a-3)단계와, (a-3)단계에서 매칭이 이루어진 데이터를 무가치데이터로 분류하는 (a-4)단계와, (a-4)단계에서 매칭되지 않은 데이터를 샘플링하는 (a-5)단계를 포함한다.More specifically, as shown in FIG. 3, step (a) includes step (a-1) of matching the data included in the sample document with a subject word for each user-defined classification system, and the unmatched step (a-1). Steps (a-2) of classifying data as valueless data, step (a-3) of matching the data matched in step (a-1) with excluded words for each user-defined classification system, and (a-3) It includes a step (a-4) of classifying the data matched in step (a-4) as non-value data, and a step (a-5) of sampling the unmatched data in step (a-4).

즉 (a)단계에서는 샘플 문서에 포함된 데이터를 사용자 정의 분류체계 별 주제어와 매칭시켜 매칭되지 않은 데이터는 무가치데이터로서 제거하고, 또한 매칭된 데이터는 다시 사용자 정의 분류체계 별 제외단어와 매칭시켜 매칭이 이루어진 데이터는 마찬가지로 무가치데이터로 분류하여 필터링하게 된다.In other words, in step (a), the data included in the sample document is matched with the subject words for each user-defined classification system, and the unmatched data is removed as valueless data, and the matched data is matched again with the excluded words for each user-defined classification system. This data is similarly classified and filtered as valueless data.

그리고 이상과 같은 과정을 거쳐 최종적으로 남은 데이터를 샘플링하여, 하나 이상의 분석대상단어조합을 선별하게 된다.Then, by sampling the data that is finally left through the above process, one or more combinations of words to be analyzed are selected.

이후 (b)단계에서는, (a)단계에서 선별된 분석대상단어조합을 수식화하여 형태소 분석을 수행하는 과정이 수행된다.Thereafter, in step (b), a process of performing morpheme analysis by formulating the analysis target word combination selected in step (a) is performed.

일반적으로 종래 데이터 분류 분석 과정에서 주로 발생 했던 주된 문제는 영화 제목이나 고유명사 등과 같이 복합적인 품사의 조합으로 이루어진 패턴들이었다. 이와 같은 패턴들은 형태소 분석을 할 수 없는 단어 등을 포함하고 있어, 조합된 단어들을 패턴에 반영하기가 어렵다는 문제가 있다.In general, the main problems that occurred in the conventional data classification and analysis process were patterns composed of complex combinations of parts of speech such as movie titles and proper nouns. Since such patterns include words that cannot be analyzed morphemes, there is a problem that it is difficult to reflect the combined words in the pattern.

따라서 본 발명은 위와 같은 문제점을 해결하기 위해, 각 패턴의 설정값 및 단어의 조합을 수식으로 변경하여 조합하도록 설계하였다. 이와 같은 수식화의 장점은 패턴의 확장성이 우수하며, 여러 품사를 조합하여 사용할 수가 있어 자동 분석 시 패턴 설정값을 활용하기가 용이하다는 것이다.Therefore, in order to solve the above problems, the present invention is designed to combine by changing the combination of the set values and words of each pattern into an equation. The advantage of this formula is that the pattern is excellent in extensibility, and it is possible to use a combination of several parts of speech, so that it is easy to use the pattern setting value during automatic analysis.

그리고 본 실시예에서 형태소 분석에 사용되는 수식의 종류는, 도 4의 표에 표시하였다.In addition, the types of equations used for morpheme analysis in this example are shown in the table of FIG. 4.

도 4에 나타난 바와 같이, 본 실시예에서 (b)단계의 형태소 분석은, (a)단계에서 선별된 분석대상단어조합 자체 그대로를 샘플링된 데이터에서 검색하는 고유검색(G)과, 서로 인접한 분석대상단어조합을 조합하여 검색하는 인접검색(N)을 포함하는 패턴방식 수식을 포함한다.As shown in FIG. 4, in the present embodiment, the morpheme analysis in step (b) includes a unique search (G) in which the analysis target word combination selected in step (a) is searched from the sampled data, and an analysis adjacent to each other. It includes a pattern method formula including an adjacent search (N) for searching by combining target word combinations.

또한 이와 같은 인접검색(N)을 사용할 경우, 기준이 되는 단어의 오른쪽으로 노출된 단어에서 패턴을 검색하는 순방향검색(F)과, 기준이 되는 단어의 왼쪽으로 노출된 단어에서 패턴을 검색하는 역방향검색(R)과, 기준이 되는 단어의 오른쪽 및 왼쪽 모두에서 노출된 단어에서 패턴을 검색하는 전체검색(A)을 포함하는 검색방향 수식이 선택적으로 추가 사용될 수 있다.In addition, when using such an adjacent search (N), a forward search (F) searches for a pattern from a word exposed to the right of a reference word, and a reverse search (F) searches for a pattern from a word exposed to the left of the reference word. A search direction formula including a search (R) and a full search (A) for searching for a pattern in words exposed from both the right and left sides of the reference word may be optionally additionally used.

그리고 이와 같은 검색방향 수식을 사용함에 있어, 기준이 되는 단어를 중심으로 n개의 인접 범위 내에서 패턴을 검색하는 검색범위 수식(1-n)을 더 사용할 수 있으며, 또한 임의의 단어 자체 그대로를 샘플링된 데이터에서 검색하는 매칭분석(M)과, 임의의 단어가 사전에 있는 단어인지를 인식하는 사전분석(D)을 포함하는 검색방식 수식을 더 사용할 수도 있다.And when using such a search direction formula, a search range formula (1-n) that searches for a pattern within n contiguous ranges centered on the reference word can be used further, and the arbitrary word itself is sampled as it is. A search method formula including a matching analysis (M) for searching the generated data and a dictionary analysis (D) for recognizing whether an arbitrary word is a word in a dictionary may be further used.

이와 같은 각 수식의 사용방법은, 이하에 예를 들어 기재하였다.The usage method of each of these formulas is described below by way of example.

[G] (개같은 날의 오후)[G] (Afternoon on a dog-like day)

[N, F, 5] ([M]살인의추억, [D]관객수)[N, F, 5] ([M] Murder memories, [D] number of spectators)

[N, R, 5] ([D]국내, [D]반도체, [D]현황)[N, R, 5] ([D] domestic, [D] semiconductor, [D] status)

[N, A, 5] ([M]배스킨라빈스, [D]아몬드봉봉, [M]존맛)[N, A, 5] ([M] Baskin Robbins, [D] Almond Bonbon, [M] John Flavor)

즉 본 발명은 이와 같이 각 패턴의 설정값 및 단어의 조합들을 수식화함에 따라 우수한 확장성을 가지고, 여러 품사를 조합하여 사용할 수 있어 자동 분석 시 패턴 설정값을 활용하기가 용이하다.That is, the present invention has excellent expandability by formulating the set value of each pattern and combinations of words, and it is easy to utilize the pattern set value during automatic analysis because several parts of speech can be used in combination.

다음으로, 이와 같은 형태소 분석 결과에 따라, 분석대상단어조합을 분석실패조합, 분석제외조합 및 정규화조합으로 분류하는 (c)단계가 수행된다.Next, according to the result of the morpheme analysis, step (c) of classifying the analysis target word combination into an analysis failure combination, an analysis-exclusion combination, and a normalization combination is performed.

여기서 분석실패조합은 형태소 분석에 실패하고, 이후 신조어로서도 사용되지 않을 단어의 조합을 의미하며, 분석제외조합은 형태소 분석에는 성공한 단어이지만 패턴 생성 시 사용하지 않을 일반적인 단어의 조합을 의미하는 것이고, 정규화조합은 이와 같은 분석실패조합 및 분석제외조합을 제거한 뒤 남은 나머지 조합을 말한다.Here, the analysis failure combination refers to a combination of words that fail morpheme analysis and will not be used as a new word in the future, and the analysis-exclusion combination refers to a combination of general words that are not used when generating patterns, although the words that have been successful in morphological analysis. Combination refers to the remaining combinations after removing the failed analysis combination and the non-analysis combination.

한편 분석실패조합은 이후 1차 예상신조어로 분류하여 후술할 신조어 자동 추천 프로세스에서 활용되며, 이에 대해서는 후술하도록 한다.Meanwhile, the analysis failure combination is classified as the first predicted new word and used in the automatic new word recommendation process to be described later, which will be described later.

(c)단계 이후에는, (c)단계에 의해 분류된 조합 중 정규화조합에 대해 후속분석을 수행하는 (d)단계가 수행된다.After step (c), step (d) of performing a subsequent analysis on the normalized combinations among the combinations classified by step (c) is performed.

도 5에 도시된 바와 같이, 본 실시예에서 (d)단계는 세부적으로 정규화조합에 대해 TF-IDF분석을 수행하여 선별하는 (d-1)단계와, (d-1)단계에 의해 선별된 정규화조합에 대해 주위 다른 단어와 n-gram분석을 수행함에 따라 샘플 문서에서의 노출도를 산정하는 (d-2)단계를 포함한다.As shown in Fig. 5, in the present embodiment, step (d) is selected by step (d-1) and step (d-1) of performing TF-IDF analysis on the normalized combination in detail. It includes the step (d-2) of estimating the exposure level in the sample document by performing n-gram analysis with other words around the normalized combination.

여기서 TF-IDF분석의 경우, 분석된 단어, 즉 정규화조합 중 전 단계에서 제외하지 못한 사용자 일반 단어와, 사용자 분류 내에서 의미 없는 단어를 제거하기 위한 것으로, TF는 하나의 데이터에서 특정 단어의 노출도를 나타내는 지표이며, IDF는 전체 문서에서 특정단어의 중요도를 나타내는 지표를 나타낸다.Here, in the case of TF-IDF analysis, it is to remove the analyzed words, that is, the user general words that were not excluded in the previous step among the normalization combinations, and the meaningless words in the user classification, and TF is the exposure of specific words from one data. It is an index indicating degree, and IDF indicates an index indicating the importance of a specific word in the entire document.

그리고 이와 같은 TF-IDF분석과정은 다음과 같은 수식을 통해 선별될 수 있다.And the TF-IDF analysis process can be selected through the following equation.

Figure pat00001
Figure pat00001

(N: 전체 문서 수, DF: 특정 단어를 가진 문서의 수)(N: total number of documents, DF: number of documents with a specific word)

또한 n-gram분석의 경우 n개의 단어 묶음을 생성하여 해당 샘플 문서에서의 노출도를 산정하기 위한 것으로, n의 수치는 1~3까지 활용하며 해당 정규화조합의 주위 단어 중 연속으로 등장하는 단어를 묶어 샘플 패턴을 생성하게 된다.In addition, in the case of n-gram analysis, it is to calculate the exposure level in the sample document by generating a group of n words.The value of n is used from 1 to 3, and words appearing consecutively among the surrounding words of the corresponding normalization combination are used. Bundled together to create a sample pattern.

다음으로, (d)단계에서 후속분석이 수행된 정규화조합을 통해 패턴 사전을 구축하는 (e)단계가 수행된다.Next, step (e) of constructing a pattern dictionary is performed through the normalization combination that has been subjected to subsequent analysis in step (d).

본 단계에서는 TF-IDF 스코어와 n-gram 노출도를 이용하여, 정규화조합을 샘플 문서에서의 노출도에 따라 내림차순으로 정렬하고 사용자에게 추천하여 패턴 사전을 구축하게 된다. 이때 분석제외조합을 추가함으로써 다음 패턴 사전 추가 구축 시 더욱 정확한 추천 패턴을 생성할 수도 있다.In this step, using the TF-IDF score and the n-gram exposure, the normalization combinations are sorted in descending order according to the exposure in the sample document and recommended to the user to construct a pattern dictionary. At this time, by adding an analysis-excluded combination, a more accurate recommendation pattern can be created when the next pattern dictionary is additionally constructed.

한편 전술한 바와 같이, (c)단계에서 분류된 분석실패조합은 1차 예상신조어로 분류하여 후술할 신조어 자동 추천 프로세스에서 활용될 수 있다. 이를 위해 본 실시예는 (c)단계에 의해 분류된 조합 중 분석실패조합에 대해 1차 예상신조어로 설정하여 사용자에게 추천하는 (f)단계를 더 포함할 수 있다.Meanwhile, as described above, the analysis failure combination classified in step (c) may be classified as a first predicted new word and used in a new word automatic recommendation process to be described later. To this end, the present embodiment may further include a step (f) of setting an analysis failure combination as a first predicted new word among combinations classified by step (c) and recommending it to a user.

도 6 및 도 7은 본 발명의 일 실시예에 따른 데이터 분류 분석에 따른 패턴 사전 구축방법 중 1차 예상신조어로 설정하여 사용자에게 추천하는 (f)단계의 세부 과정을 나타낸 도면 및 순서도이다.6 and 7 are diagrams and flow charts showing a detailed process of step (f) in which a first predicted new word is set and recommended to a user in a method of pre-establishing a pattern according to data classification analysis according to an embodiment of the present invention.

도 6 및 도 7에 도시된 바와 같이, 본 실시예에서 (f)단계는, (c)단계에 의해 분류된 조합 중 분석실패조합에 대해 1차 예상신조어로 설정하는 (f-1)단계와, 1차 예상신조어에 대해 TF-IDF분석을 수행하여 선별하는 (f-2)단계와, (f-2)단계에 의해 선별된 1차 예상신조어에 대해 조사의 종류 및 위치를 파악하고, 제거하는 (f-3)단계와, (f-3)단계에 의해 조사가 제거된 1차 예상신조어에 대해 형태소 분석을 재수행하는 (f-4)단계와, (f-4)단계에 의해 형태소 분석이 재수행된 1차 예상신조어에 대해 미분석 단어가 존재하는지의 여부를 판단하는 (f-5)단계를 포함한다.As shown in FIGS. 6 and 7, step (f) in the present embodiment includes step (f-1) of setting the first predicted new word for the analysis failure combination among the combinations classified by step (c). , Identify and remove the type and location of the survey for the first predicted new words selected by step (f-2) and (f-2), which performs TF-IDF analysis on the first predicted new words. The morpheme analysis is performed by steps (f-3), (f-4) and (f-4), re-performing the morpheme analysis on the first predicted new words from which the investigation has been removed by the (f-3) and (f-3) steps. It includes a step (f-5) of determining whether or not an unanalyzed word exists for the re-performed primary predicted new word.

즉 본 단계에서는 패턴 사전 구축 시 추출해 놓은 1차 예상 신조어를 활용하여 기존에 분석하지 못한 단어들을 신조어 추천 프로세스를 거쳐 사용자에게 추천한다.That is, in this step, words that have not been previously analyzed are recommended to the user through a new word recommendation process using the first predicted new words extracted when constructing the pattern dictionary.

이때 1차 예상 신조어는 TF-IDF분석 기법을 거쳐 일반적으로 사용되는 단어는 배제한 상태에서 시작될 수 있으며, 추출된 단어는 기본적으로 조사를 제거한 상태로 가공된 후 형태소 분석을 수행할 수 있다.At this time, the first predicted new word can be started in a state that excludes commonly used words through the TF-IDF analysis technique, and the extracted words are processed in a state that basically removes the investigation, and then morpheme analysis can be performed.

여기서 (f-2)단계의 TF-IDF분석 및 (f-4)단계의 형태소 분석의 경우 전술한 (d)단계의 TF-IDF분석 및 (b)단계의 형태소 분석과 동일한 방법으로 수행될 수 있으므로, 자세한 설명은 생략하도록 한다.Here, the TF-IDF analysis in step (f-2) and the morpheme analysis in step (f-4) can be performed in the same manner as the TF-IDF analysis in step (d) and the morpheme analysis in step (b) described above. Therefore, detailed description will be omitted.

(f-3)단계의 경우, 도 8에 나타난 표와 같은 조사 사전을 기반으로 조사의 종류와 조사의 연결 위치를 파악하여 제거하게 된다. 도 8에 나타난 바와 같이, 서술격 조사의 경우 문장의 종료 위치(E)에만 나타나며, 나머지 다른 조사들은 모두 문장의 중간 위치(M) 및 종료 위치(E) 모두에서 나타날 수 있다.In the case of step (f-3), based on the survey dictionary as shown in the table shown in FIG. 8, the type of survey and the connection location of the survey are identified and removed. As shown in FIG. 8, in the case of a narrative questionnaire, it appears only at the end position (E) of the sentence, and all other surveys may appear at both the middle position (M) and the end position (E) of the sentence.

그리고 본 실시예에서 (f)단계는, (f-5)단계의 판단 결과 미분석 단어가 존재하는 것으로 판단된 경우, 해당 1차 예상신조어에 대해 분석기간 내 검색 수량을 추출하는 (f-6)단계를 더 포함할 수 있으며, 이와 같은 (f-6)단계에 의해 분석기간 내 추출된 검색 수량이 이전 기간의 검색 수량에 대해 n% 이상의 증가율을 나타내는 경우, 해당 1차 예상신조어를 사용자 추천 신조어로 설정하여 제공하는 (f-7)단계와, (f-6)단계에 의해 분석기간 내 추출된 검색 수량이 이전 기간의 검색 수량에 대해 n% 미만의 증가율을 나타내는 경우, 해당 1차 예상신조어를 2차 예상 신조어로 설정한 뒤, 사용자 추천 신조어로 설정하여 제공하는 (f-8)단계를 더 포함할 수 있다.In the present embodiment, step (f) is, when it is determined that an unanalyzed word exists as a result of the determination in step (f-5), extracting the number of searches within the analysis period for the corresponding first predicted new word (f-6). ) Step may be further included, and if the search quantity extracted within the analysis period by this step (f-6) shows an increase rate of n% or more with respect to the search quantity in the previous period, the corresponding first predicted new word is recommended by the user. If the search quantity extracted in the analysis period by steps (f-7) and (f-6) provided by setting a new word shows an increase rate of less than n% of the search quantity in the previous period, the corresponding primary prediction It may further include a step (f-8) of setting the new word as a second predicted new word, and then setting and providing the new word recommended by the user.

여기서 n%는 임의의 기준에 따라 설정되는 수치일 수 있으며, 본 실시예에서는 200%인 것으로 하였다. 다만, 이는 본 실시예와 달리 다양하게 설정될 수 있음은 물론이다.Here, n% may be a value set according to an arbitrary criterion, and in this embodiment, it is assumed to be 200%. However, it goes without saying that this may be variously set differently from the present embodiment.

이와 같이 추천된 신조어는 패턴 사전에 별도로 등록하여 활용될 수 있으며, 따라서 본 발명은 인터넷에 새롭게 올라오는 신조어의 적용이 매우 빠르다는 장점을 가진다.The recommended new words can be separately registered and utilized in the pattern dictionary, and accordingly, the present invention has the advantage that the application of the new words newly posted on the Internet is very fast.

한편 전술한 바와 같이, 본 실시예는 (e)단계에 의해 구축된 패턴 사전에 포함된 정규화조합에 대해 감성분석을 수행하는 (g)단계를 더 포함할 수 있다.Meanwhile, as described above, the present embodiment may further include step (g) of performing sentiment analysis on the normalization combination included in the pattern dictionary constructed by step (e).

도 9 및 도 10은 본 발명의 일 실시예에 따른 데이터 분류 분석에 따른 패턴 사전 구축방법 중 정규화조합에 대해 감성분석을 수행하는 (g)단계의 세부 과정을 나타낸 도면 및 순서도이다.9 and 10 are diagrams and flow charts showing a detailed process of step (g) of performing sentiment analysis on a normalized combination among a pattern dictionary construction method according to data classification analysis according to an embodiment of the present invention.

도 9 및 도 10에 도시된 바와 같이 본 실시예에서 (g)단계는, 패턴 사전에 포함된 정규화조합에 대해 긍정률 공식에 따라 감성을 부여하는 (g-1)단계와, 패턴 사전에 포함된 정규화조합에 대해 연관도 점수를 부여하는 (g-2)단계를 포함할 수 있다.As shown in FIGS. 9 and 10, step (g) in the present embodiment includes step (g-1) of imparting sensibility to the normalization combination included in the pattern dictionary according to the positive rate formula, and included in the pattern dictionary. It may include a step (g-2) of assigning an association score to the normalized combination.

여기서 긍정률 공식으로는,Here, as the positive rate formula,

긍정률 = (긍정패턴 수량/(긍정패턴 수량 +부정패턴 수량))*100Positive rate = (positive pattern quantity/(positive pattern quantity + negative pattern quantity))*100

의 수식이 적용될 수 있다.The formula of can be applied.

또한 연관도 점수는,Also, the relevance score is,

연관도 점수 = (노출 전체 패턴 수량/정규화조합 수량)*100Association score = (Total exposure pattern quantity/Normalization combination quantity)*100

의 수식이 적용될 수 있다.The formula of can be applied.

이와 같이 본 실시예는 긍정률 공식을 통해 정규화조합에 감성을 부여하고, 연관도 점수를 통해 사용자가 데이터 검색이나 분석 결과를 검색할 경우 연관도 높은 데이터 순으로 정렬하도록 함에 따라 보다 정확한 데이터를 검색할 수 있도록 한다.As described above, in this embodiment, emotion is given to the normalization combination through the positive rate formula, and more accurate data is searched by allowing the user to sort in the order of data with high relevance when searching for data or analysis results through the relevance score. To be able to do it.

결론적으로, 본 발명은 대용량의 데이터를 사용자가 빠르고 정확하게 검색할 수 있으며, 대용량의 데이터에서 불필요한 내용을 제거한 데이터에 쉽게 접근이 가능하다는 장점이 있다.In conclusion, the present invention has an advantage in that a user can quickly and accurately search for a large amount of data, and easily access data from which unnecessary contents are removed from the large amount of data.

이상과 같이 본 발명에 따른 바람직한 실시예를 살펴보았으며, 앞서 설명된 실시예 이외에도 본 발명이 그 취지나 범주에서 벗어남이 없이 다른 특정 형태로 구체화될 수 있다는 사실은 해당 기술에 통상의 지식을 가진 이들에게는 자명한 것이다. 그러므로, 상술된 실시예는 제한적인 것이 아니라 예시적인 것으로 여겨져야 하고, 이에 따라 본 발명은 상술한 설명에 한정되지 않고 첨부된 청구항의 범주 및 그 동등 범위 내에서 변경될 수도 있다.As described above, preferred embodiments according to the present invention have been examined, and the fact that the present invention can be embodied in other specific forms without departing from its spirit or scope in addition to the above-described embodiments is known to those skilled in the art. It is self-evident to them. Therefore, the above-described embodiments are to be regarded as illustrative rather than restrictive, and accordingly, the present invention is not limited to the above description and may be modified within the scope of the appended claims and their equivalents.

Claims (17)

사용자 정의 분류체계 별 주제어에 따라 샘플 문서로부터 데이터를 샘플링하여 분류하는 (a)단계;
상기 (a)단계에 의해 샘플링된 데이터에 포함되어 있는 분석대상단어조합에 대해 형태소 분석을 수행하는 (b)단계;
상기 (b)단계의 형태소 분석 결과에 따라 분석대상단어조합을 분석실패조합, 분석제외조합 및 정규화조합으로 분류하는 (c)단계;
상기 (c)단계에 의해 분류된 조합 중 정규화조합에 대해 후속분석을 수행하는 (d)단계; 및
상기 (d)단계에서 후속분석이 수행된 정규화조합을 통해 패턴 사전을 구축하는 (e)단계;
를 포함하는 데이터 분류 분석에 따른 패턴 사전 구축방법.
(A) sampling and classifying data from the sample document according to the subject word for each user-defined classification system;
(B) performing a morpheme analysis on a combination of words to be analyzed included in the data sampled by the step (a);
(C) classifying the analysis target word combination into an analysis failure combination, an analysis-exclusion combination, and a normalization combination according to the result of the morpheme analysis in step (b);
(D) performing a subsequent analysis on the normalized combination among the combinations classified by the (c) step; And
Step (e) of constructing a pattern dictionary through the normalization combination performed subsequent analysis in step (d);
Pattern dictionary construction method according to data classification analysis comprising a.
제1항에 있어서,
상기 (a)단계는,
샘플 문서에 포함된 데이터를 사용자 정의 분류체계 별 주제어와 매칭시키는 (a-1)단계; 및
상기 (a-1)단계에서 매칭되지 않은 데이터를 무가치데이터로 분류하는 (a-2)단계;
를 포함하는 데이터 분류 분석에 따른 패턴 사전 구축방법.
The method of claim 1,
The step (a),
(A-1) matching data included in the sample document with a subject word for each user-defined classification system; And
(A-2) classifying data not matched in step (a-1) as valueless data;
Pattern dictionary construction method according to data classification analysis comprising a.
제2항에 있어서,
상기 (a)단계는,
상기 (a-1)단계에서 매칭이 이루어진 데이터를 사용자 정의 분류체계 별 제외단어와 매칭시키는 (a-3)단계;
상기 (a-3)단계에서 매칭이 이루어진 데이터를 상기 무가치데이터로 분류하는 (a-4)단계; 및
상기 (a-4)단계에서 매칭되지 않은 데이터를 샘플링하는 (a-5)단계;
를 포함하는 데이터 분류 분석에 따른 패턴 사전 구축방법.
The method of claim 2,
The step (a),
Step (a-3) matching the data matched in step (a-1) with excluded words for each user-defined classification system;
(A-4) classifying the data matched in step (a-3) as the valueless data; And
(A-5) sampling the data not matched in the (a-4) step;
Pattern dictionary construction method according to data classification analysis comprising a.
제1항에 있어서,
상기 (b)단계는,
상기 분석대상단어조합을 수식화하여 형태소 분석을 수행하는 데이터 분류 분석에 따른 패턴 사전 구축방법.
The method of claim 1,
The step (b),
A method of constructing a pattern dictionary according to data classification analysis for performing morpheme analysis by formulating the analysis target word combination.
제4항에 있어서,
상기 형태소 분석은,
상기 분석대상단어조합 자체 그대로를 샘플링된 데이터에서 검색하는 고유검색과, 서로 인접한 분석대상단어조합을 조합하여 검색하는 인접검색을 포함하는 패턴방식 수식을 포함하는 데이터 분류 분석에 따른 패턴 사전 구축방법.
The method of claim 4,
The morpheme analysis,
A pattern dictionary construction method according to data classification analysis, including a pattern method formula including a unique search for searching for the analysis target word combination itself from sampled data and an adjacent search for combining adjacent analysis target word combinations.
제4항에 있어서,
상기 형태소 분석은,
기준이 되는 단어의 오른쪽으로 노출된 단어에서 패턴을 검색하는 순방향검색과, 기준이 되는 단어의 왼쪽으로 노출된 단어에서 패턴을 검색하는 역방향검색과, 기준이 되는 단어의 오른쪽 및 왼쪽 모두에서 노출된 단어에서 패턴을 검색하는 전체검색을 포함하는 검색방향 수식을 포함하는 데이터 분류 분석에 따른 패턴 사전 구축방법.
The method of claim 4,
The morpheme analysis,
A forward search that searches for a pattern from a word exposed to the right of the reference word, a reverse search that searches for a pattern from a word that is exposed to the left of the reference word, and an exposed from both the right and left of the reference word. A method of constructing a pattern dictionary according to data classification analysis including a search direction formula including a full search for searching for patterns in words.
제4항에 있어서,
상기 형태소 분석은,
기준이 되는 단어를 중심으로 n개의 인접 범위 내에서 패턴을 검색하는 검색범위 수식을 포함하는 데이터 분류 분석에 따른 패턴 사전 구축방법.
The method of claim 4,
The morpheme analysis,
A method of constructing a pattern dictionary according to data classification analysis including a search range formula that searches for patterns within n adjacent ranges based on a reference word.
제4항에 있어서,
상기 형태소 분석은,
임의의 단어 자체 그대로를 샘플링된 데이터에서 검색하는 매칭분석과, 임의의 단어가 사전에 있는 단어인지를 인식하는 사전분석을 포함하는 검색방식 수식을 포함하는 데이터 분류 분석에 따른 패턴 사전 구축방법.
The method of claim 4,
The morpheme analysis,
A method of constructing a pattern dictionary according to data classification analysis including a matching analysis that searches for an arbitrary word itself from the sampled data, and a search method formula including a dictionary analysis that recognizes whether an arbitrary word is a word in the dictionary.
제1항에 있어서,
상기 (d)단계는,
상기 정규화조합에 대해 TF-IDF분석을 수행하여 선별하는 (d-1)단계; 및
상기 (d-1)단계에 의해 선별된 정규화조합에 대해 주위 다른 단어와 n-gram분석을 수행함에 따라 상기 샘플 문서에서의 노출도를 산정하는 (d-2)단계;
를 포함하는 데이터 분류 분석에 따른 패턴 사전 구축방법.
The method of claim 1,
The step (d),
(D-1) selecting the normalized combination by performing TF-IDF analysis; And
(D-2) calculating the exposure level in the sample document by performing n-gram analysis with other words around the normalized combination selected by the (d-1) step;
Pattern dictionary construction method according to data classification analysis comprising a.
제9항에 있어서,
상기 (e)단계는,
상기 정규화조합을 상기 샘플 문서에서의 노출도에 따라 내림차순으로 정렬하여 패턴 사전을 구축하는 데이터 분류 분석에 따른 패턴 사전 구축방법.
The method of claim 9,
The step (e),
A pattern dictionary construction method according to data classification analysis for constructing a pattern dictionary by arranging the normalization combinations in descending order according to the exposure level in the sample document.
제1항에 있어서,
상기 (c)단계에 의해 분류된 조합 중 분석실패조합에 대해 1차 예상신조어로 설정하여 사용자에게 추천하는 (f)단계를 더 포함하는 데이터 분류 분석에 따른 패턴 사전 구축방법.
The method of claim 1,
The method of constructing a pattern dictionary according to data classification analysis, further comprising step (f) of setting and recommending a first predicted new word to a user for an analysis failure combination among the combinations classified by step (c).
제11항에 있어서,
상기 (f)단계는,
상기 (c)단계에 의해 분류된 조합 중 분석실패조합에 대해 1차 예상신조어로 설정하는 (f-1)단계;
상기 1차 예상신조어에 대해 TF-IDF분석을 수행하여 선별하는 (f-2)단계;
상기 (f-2)단계에 의해 선별된 1차 예상신조어에 대해 조사의 종류 및 위치를 파악하고, 제거하는 (f-3)단계;
상기 (f-3)단계에 의해 조사가 제거된 1차 예상신조어에 대해 형태소 분석을 재수행하는 (f-4)단계;
(f-4)단계에 의해 형태소 분석이 재수행된 1차 예상신조어에 대해 미분석 단어가 존재하는지의 여부를 판단하는 (f-5)단계;
상기 (f-5)단계의 판단 결과 미분석 단어가 존재하는 것으로 판단된 경우, 해당 1차 예상신조어에 대해 분석기간 내 검색 수량을 추출하는 (f-6)단계; 및
상기 (f-6)단계에 의해 분석기간 내 추출된 검색 수량이 이전 기간의 검색 수량에 대해 n% 이상의 증가율을 나타내는 경우, 해당 1차 예상신조어를 사용자 추천 신조어로 설정하여 제공하는 (f-7)단계;
를 포함하는 데이터 분류 분석에 따른 패턴 사전 구축방법.
The method of claim 11,
The step (f),
Step (f-1) of setting the first predicted new word for the failed analysis combination among the combinations classified by step (c);
(F-2) selecting by performing TF-IDF analysis on the first predicted new word;
(F-3) step of identifying and removing the type and location of the survey for the first predicted new word selected by step (f-2);
(F-4) re-performing morpheme analysis on the first predicted new words from which the investigation was removed by the (f-3) step;
(f-5) determining whether or not an unanalyzed word exists for the first predicted new word for which the morpheme analysis was re-performed in step (f-4);
(F-6) extracting the number of searches within the analysis period for the first predicted new word when it is determined that the unanalyzed word exists as a result of the determination in step (f-5); And
If the search quantity extracted in the analysis period by step (f-6) shows an increase rate of n% or more with respect to the search quantity in the previous period, the first predicted new word is set and provided as a user recommended new word (f-7). )step;
Pattern dictionary construction method according to data classification analysis comprising a.
제12항에 있어서,
상기 (f)단계는,
상기 (f-6)단계에 의해 분석기간 내 추출된 검색 수량이 이전 기간의 검색 수량에 대해 n% 미만의 증가율을 나타내는 경우, 해당 1차 예상신조어를 2차 예상 신조어로 설정한 뒤, 사용자 추천 신조어로 설정하여 제공하는 (f-8)단계를 더 포함하는 데이터 분류 분석에 따른 패턴 사전 구축방법.
The method of claim 12,
The step (f),
If the search quantity extracted in the analysis period in step (f-6) shows an increase rate of less than n% of the search quantity in the previous period, the first predicted new word is set as the second predicted new word, and then the user is recommended. A method of constructing a pattern dictionary according to data classification analysis further comprising the step (f-8) of setting and providing a new word.
제1항에 있어서,
상기 (e)단계에 의해 구축된 패턴 사전에 포함된 정규화조합에 대해 감성분석을 수행하는 (g)단계를 더 포함하는 데이터 분류 분석에 따른 패턴 사전 구축방법.
The method of claim 1,
A method of constructing a pattern dictionary according to data classification analysis, further comprising a step (g) of performing sentiment analysis on the normalization combination included in the pattern dictionary constructed by the step (e).
제14항에 있어서,
상기 (g)단계는,
상기 패턴 사전에 포함된 정규화조합에 대해 긍정률 공식에 따라 감성을 부여하는 (g-1)단계; 및
상기 패턴 사전에 포함된 정규화조합에 대해 연관도 점수를 부여하는 (g-2)단계;
를 포함하는 데이터 분류 분석에 따른 패턴 사전 구축방법.
The method of claim 14,
The step (g),
(G-1) giving emotion to the normalization combination included in the pattern dictionary according to a positive rate formula; And
(G-2) assigning an association score to the normalized combination included in the pattern dictionary;
Pattern dictionary construction method according to data classification analysis comprising a.
제15항에 있어서,
상기 긍정률 공식으로는,
긍정률 = (긍정패턴 수량/(긍정패턴 수량 +부정패턴 수량))*100
의 수식이 적용되는 데이터 분류 분석에 따른 패턴 사전 구축방법.
The method of claim 15,
With the above positive rate formula,
Positive rate = (positive pattern quantity/(positive pattern quantity + negative pattern quantity))*100
A method of constructing a pattern dictionary according to data classification analysis to which the formula of is applied.
제15항에 있어서,
상기 연관도 점수는,
연관도 점수 = (노출 전체 패턴 수량/정규화조합 수량)*100
의 수식이 적용되는 데이터 분류 분석에 따른 패턴 사전 구축방법.
The method of claim 15,
The association score is,
Association score = (Total exposure pattern quantity/Normalization combination quantity)*100
A method of constructing a pattern dictionary according to data classification analysis to which the formula of is applied.
KR1020190123542A 2019-10-07 2019-10-07 Pattern Dictionary Establish Method by Data Classify and Analysis KR102321871B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190123542A KR102321871B1 (en) 2019-10-07 2019-10-07 Pattern Dictionary Establish Method by Data Classify and Analysis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190123542A KR102321871B1 (en) 2019-10-07 2019-10-07 Pattern Dictionary Establish Method by Data Classify and Analysis

Publications (2)

Publication Number Publication Date
KR20210041185A true KR20210041185A (en) 2021-04-15
KR102321871B1 KR102321871B1 (en) 2021-11-04

Family

ID=75440986

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190123542A KR102321871B1 (en) 2019-10-07 2019-10-07 Pattern Dictionary Establish Method by Data Classify and Analysis

Country Status (1)

Country Link
KR (1) KR102321871B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230050821A (en) 2021-10-08 2023-04-17 큐리온코리아 주식회사 System and method for generating and providing product classification system based on user review

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990087858A (en) 1998-05-23 1999-12-27 구자홍 Method for classifying and searching data
JP2002157244A (en) * 2000-11-20 2002-05-31 Ricoh Co Ltd Device and method for analyzing japanese morpheme and storage medium
KR101473239B1 (en) * 2013-07-26 2014-12-16 주식회사 알에스엔 Category and Sentiment Analysis System using Word pattern.
KR101526872B1 (en) * 2014-10-31 2015-06-17 주식회사 와이젬 Advertising providing method including literary style changing step
KR101593371B1 (en) * 2015-05-27 2016-02-16 중앙대학교 산학협력단 Propensity classification device for text data and Decision support systems using the same
KR101886418B1 (en) * 2018-02-22 2018-08-28 주식회사 한국코어텍 A System of Stock Price Simulation Based on GPU

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990087858A (en) 1998-05-23 1999-12-27 구자홍 Method for classifying and searching data
JP2002157244A (en) * 2000-11-20 2002-05-31 Ricoh Co Ltd Device and method for analyzing japanese morpheme and storage medium
KR101473239B1 (en) * 2013-07-26 2014-12-16 주식회사 알에스엔 Category and Sentiment Analysis System using Word pattern.
KR101526872B1 (en) * 2014-10-31 2015-06-17 주식회사 와이젬 Advertising providing method including literary style changing step
KR101593371B1 (en) * 2015-05-27 2016-02-16 중앙대학교 산학협력단 Propensity classification device for text data and Decision support systems using the same
KR101886418B1 (en) * 2018-02-22 2018-08-28 주식회사 한국코어텍 A System of Stock Price Simulation Based on GPU

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230050821A (en) 2021-10-08 2023-04-17 큐리온코리아 주식회사 System and method for generating and providing product classification system based on user review

Also Published As

Publication number Publication date
KR102321871B1 (en) 2021-11-04

Similar Documents

Publication Publication Date Title
CN106202382B (en) Link instance method and system
CN107102993B (en) User appeal analysis method and device
US10832049B2 (en) Electronic document classification system optimized for combining a plurality of contemporaneously scanned documents
JP4860903B2 (en) How to automatically index documents
Chen et al. The remarkable role of similarity in redundancy-based program repair
Kausar et al. ProSOUL: a framework to identify propaganda from online Urdu content
Afzal et al. Rule based Autonomous Citation Mining with TIERL.
CN110941702A (en) Retrieval method and device for laws and regulations and laws and readable storage medium
CN112183102A (en) Named entity identification method based on attention mechanism and graph attention network
US20160132809A1 (en) Identifying and amalgamating conditional actions in business processes
TWI556128B (en) Forensic system, forensic method and evidence collection program
TW201508525A (en) Document sorting system, document sorting method, and document sorting program
KR20210041185A (en) Pattern Dictionary Establish Method by Data Classify and Analysis
Lütke AnyGraphMatcher Submission to the OAEI Knowledge Graph Challenge 2019.
CN117216214A (en) Question and answer extraction generation method, device, equipment and medium
JPH11110409A (en) Method for classifying information and device therefor
Van Nguyen et al. Xlmrqa: Open-domain question answering on vietnamese wikipedia-based textual knowledge source
Hashfi et al. Sentiment Analysis of An Internet Provider Company Based on Twitter Using Support Vector Machine and Naïve Bayes Method
Kuzman et al. Get to Know Your Parallel Data: Performing English Variety and Genre Classification over MaCoCu Corpora
Mohamed et al. Identifying and extracting named entities from wikipedia database using entity infoboxes
CN112115362B (en) Programming information recommendation method and device based on similar code recognition
Cai et al. A Web-based Chinese question answering with answering validation
CN113468339A (en) Label extraction method, system, electronic device and medium based on knowledge graph
Afzal et al. Improving citation mining
CN113722421A (en) Contract auditing method and system and computer readable storage medium

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right