KR20190052437A - Method for analyzing unstructured data and apparatus using the same - Google Patents

Method for analyzing unstructured data and apparatus using the same Download PDF

Info

Publication number
KR20190052437A
KR20190052437A KR1020170148120A KR20170148120A KR20190052437A KR 20190052437 A KR20190052437 A KR 20190052437A KR 1020170148120 A KR1020170148120 A KR 1020170148120A KR 20170148120 A KR20170148120 A KR 20170148120A KR 20190052437 A KR20190052437 A KR 20190052437A
Authority
KR
South Korea
Prior art keywords
score
word
words
data
entities
Prior art date
Application number
KR1020170148120A
Other languages
Korean (ko)
Inventor
이인영
이용구
Original Assignee
이인영
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이인영 filed Critical 이인영
Priority to KR1020170148120A priority Critical patent/KR20190052437A/en
Publication of KR20190052437A publication Critical patent/KR20190052437A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data

Abstract

According to one embodiment of the present invention, provided are a method and an apparatus for analyzing data. The method for analyzing data comprises the steps of: collecting atypical data related to a plurality of predefined entities; analyzing the collected atypical data to extract at least one word; comparing the at least one extracted word to calculate scores indicating a comparison result by the at least one word; and determining ranking for the plurality of entities based on the calculated scores.

Description

비정형 데이터 분석 방법 및 장치{METHOD FOR ANALYZING UNSTRUCTURED DATA AND APPARATUS USING THE SAME}[0001] METHOD FOR ANALYZING UNSTRUCTED DATA AND APPARATUS USING THE SAME [0002]

본 발명은 비정형 데이터를 분석하는 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for analyzing atypical data.

컴퓨터, 스마트폰, 통신 등의 IT 관련 기술이 비약적으로 발달함에 따라 다양한 분야에서 대량의 정보가 발생하고 있으며, 정보의 양은 계속적으로 증가할 것으로 예측되고 있다. 이러한 대량의 정보는, 가까운 미래를 예측하거나 새로운 비즈니스를 창출하는 등 다양한 분야에서 활용되어 새로운 가치를 창출할 수 있는 자원이기 때문에 단순한 데이터가 아니라 빅데이터 산업이라는 독립적인 산업 분야로서 자리매김을 하고 있다. 최근에는 초고속 네트워크 기반의 온라인 소셜 서비스 및 대용량 멀티미디어 서비스 등이 급속하게 발전하면서 온라인 소셜 서비스 및 대용량 멀티미디어 서비스 등에서 발생되는 비정형 데이터를 이용한 데이터 분석에 대한 관심이 높아지고 있다. 비정형 데이터는 정형화되지 않은 데이터로서, 텍스트 문서, 이미지, 동영상, 음성 데이터 등을 예로 들 수 있다. 이러한 대용량의 비정형 데이터는 온라인뿐만 아니라, 금융, 통신, 전력 등의 각 산업 분야에서도 계속적으로 발생되고 있다.As the IT related technologies such as computers, smart phones, and telecommunication are developed rapidly, a large amount of information is generated in various fields, and the amount of information is expected to continuously increase. Such a large amount of information is a resource that can be used in various fields such as forecasting the near future or creating new business and creating new value, so it is positioned as an independent industrial field of big data industry rather than simple data . In recent years, online social services based on high-speed networks and large-scale multimedia services have rapidly developed, and interest in data analysis using unstructured data generated in online social services and large-capacity multimedia services is increasing. Unstructured data is unformatted data such as text documents, images, moving images, audio data, and the like. Such large-volume unstructured data is continuously generated not only in the online but also in various industrial fields such as finance, communication, and electric power.

일반적으로 비정형 데이터를 이용한 데이터 분석은 사전에 정해진 의미 있는 단어인 엔티티에 관련된 적어도 하나의 도큐먼트를 사전 학습을 통해서 어떠한 키워드가 많이 사용되었는지를 판단하고, 판단 결과에 따라 엔티티에 특성을 부여하였다. 예를 들어, 엔티티는 특정 인물, 브랜드 및 상품 등을 포함하고, 도큐먼트는 엔티티에 관련된 웹 페이지(webpage), SNS(social network service), 이메일(e-mail) 및 어플리케이션(application) 등을 포함할 수 있다.Generally, in data analysis using unstructured data, at least one document related to an entity, which is a meaningful word determined in advance, is used to determine which keyword is used frequently through prior learning, and attributes are given to the entity according to the determination result. For example, an entity may include a specific person, a brand, a commodity, etc., and the document may include a webpage, an SNS (social network service), an e-mail and an application related to the entity .

이러한 경우, 각 엔티티에 대한 원하는 정보를 제공할 수 있지만, 사용자가 다양한 엔티티들 중 어떠한 엔티티가 대중에게 인기가 있는지를 알고 싶어도 이러한 정보를 제공할 수 없다는 문제점이 있다.In this case, although it is possible to provide desired information for each entity, there is a problem that the user can not provide such information even if he wants to know which of the various entities is popular with the public.

본 발명이 해결하고자 하는 과제는 상술한 바와 같은 문제점을 해결하기 위한 데이터 분석 방법 및 장치를 제공하는 것이다. SUMMARY OF THE INVENTION The present invention provides a data analysis method and apparatus for solving the above problems.

구체적으로, 본 발명이 해결하고자 하는 과제는 복수의 엔티티들에 관련된 비정형 데이터를 분석하여 각 엔티티의 랭킹을 결정할 수 있는 데이터 분석 방법 및 장치를 제공하는 것이다. In particular, it is an object of the present invention to provide a data analysis method and apparatus capable of analyzing atypical data related to a plurality of entities and determining ranking of each entity.

본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The problems of the present invention are not limited to the above-mentioned problems, and other problems not mentioned can be clearly understood by those skilled in the art from the following description.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 데이터 분석 방법이 제공된다. 데이터 분석 방법은 미리 정의된 복수의 엔티티들(entities)에 관련된 비정형 데이터를 수집하는 단계, 수집된 비정형 데이터를 분석하여 하나 이상의 단어를 추출하는 단계, 추출된 하나 이상의 단어를 비교하여 하나 이상의 단어별로 비교 결과를 나타내는 스코어(score)를 산출하는 단계 및 산출된 스코어에 기반하여 복수의 엔티티들에 대한 랭킹(ranking)을 결정하는 단계를 포함한다.In order to solve the above problems, a data analysis method according to an embodiment of the present invention is provided. A data analysis method includes collecting unstructured data associated with a plurality of predefined entities, extracting one or more words by analyzing the collected unstructured data, comparing the extracted one or more words, Calculating a score indicating a result of the comparison, and determining a ranking for the plurality of entities based on the calculated score.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 데이터 분석 장치가 제공된다. 데이터 분석 장치는 미리 정의된 복수의 엔티티들(entities)에 관련된 비정형 데이터를 수집하는 데이터 수집부, 수집된 비정형 데이터를 분석하여 하나 이상의 단어를 추출하는 단어 추출부, 추출된 하나 이상의 단어를 비교하여 하나 이상의 단어별로 비교 결과를 나타내는 스코어(score)를 산출하는 스코어 산출부 및 산출된 스코어에 기반하여 복수의 엔티티들에 대한 랭킹(ranking)을 결정하는 랭킹 결정부를 포함한다.According to an aspect of the present invention, there is provided an apparatus for analyzing data according to an embodiment of the present invention. The data analysis apparatus includes a data collection unit for collecting unstructured data related to a plurality of predefined entities, a word extraction unit for analyzing the collected irregular data and extracting one or more words, A score calculation unit for calculating scores indicating comparison results of one or more words, and a ranking determination unit for determining a ranking for a plurality of entities based on the calculated scores.

기타 실시예의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.The details of other embodiments are included in the detailed description and drawings.

본 발명은 본 발명은 복수의 엔티티들에 대한 비정형 데이터를 수집하고, 수집된 비정형 데이터를 분석하여 각 엔티티의 랭킹을 결정함으로써, 비정형 데이터에서의 각 엔티티에 대한 인기(popularity)를 편리하고 손쉽게 확인할 수 있다.The present invention provides a method and system for collecting unstructured data for a plurality of entities and analyzing the collected unstructured data to determine the rankings of the entities so that the popularity of each entity in the unstructured data can be conveniently and easily confirmed .

본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.The effects according to the present invention are not limited by the contents exemplified above, and more various effects are included in the specification.

도 1은 본 발명의 일 실시예에 따른 데이터 분석 시스템을 설명하기 위한 개략도이다.
도 2는 본 발명의 일 실시예에 따른 데이터 분석 장치를 설명하기 위한 개략도이다.
도 3은 본 발명의 일 실시예에 따른 데이터 분석 방법을 설명하기 위한 개략적인 순서도이다.
도 4는 본 발명의 일 실시예에 따른 스코어를 산출하는 방법을 설명하기 위한 개략적인 순서도이다.
도 5는 본 발명의 일 실시예에 따른 복수의 엔티티들에 대한 랭킹을 결정하는 방법을 설명하기 위한 개략적인 순서도이다.
도 6a, 도 6b, 도 6c, 도 6d, 도 6e 및 도 6f는 본 발명의 일 실시예에 따른 데이터를 분석하는 방법을 설명하기 위한 예시도들이다.
도 7은 본 발명의 일 실시예에 따른 데이터 분석 장치를 설명하기 위한 개략도이다.
1 is a schematic diagram for explaining a data analysis system according to an embodiment of the present invention.
2 is a schematic diagram for explaining a data analysis apparatus according to an embodiment of the present invention.
3 is a schematic flowchart for explaining a data analysis method according to an embodiment of the present invention.
4 is a schematic flowchart for explaining a method of calculating a score according to an embodiment of the present invention.
5 is a schematic flow diagram illustrating a method for determining ranking for a plurality of entities in accordance with an embodiment of the present invention.
6A, 6B, 6C, 6D, 6E and 6F are diagrams for explaining a method of analyzing data according to an embodiment of the present invention.
7 is a schematic diagram for explaining a data analysis apparatus according to an embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.BRIEF DESCRIPTION OF THE DRAWINGS The advantages and features of the present invention and the manner of achieving them will become apparent with reference to the embodiments described in detail below with reference to the accompanying drawings. It should be understood, however, that the invention is not limited to the disclosed embodiments, but is capable of many different forms and should not be construed as limited to the embodiments set forth herein. Rather, these embodiments are provided so that this disclosure will be thorough and complete, To fully disclose the scope of the invention to those skilled in the art, and the invention is only defined by the scope of the claims.

비록 제1, 제2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.Although the first, second, etc. are used to describe various components, it goes without saying that these components are not limited by these terms. These terms are used only to distinguish one component from another. Therefore, it is needless to say that the first component mentioned below may be the second component within the technical spirit of the present invention.

명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.Like reference numerals refer to like elements throughout the specification.

본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.It is to be understood that each of the features of the various embodiments of the present invention may be combined or combined with each other partially or entirely and technically various interlocking and driving is possible as will be appreciated by those skilled in the art, It may be possible to cooperate with each other in association.

본 명세서에서, 본 발명의 일 실시예에 따른 데이터 분석 장치는 제한되지 않고, 데이터를 분석할 수 있는 모든 장치를 포함할 수 있다. 예를 들어, 데이터 분석 장치는 범용 컴퓨터, 랩탑, 네트워크 연결형 저장소, 데이터 서버, 모바일 디바이스(예: 스마트폰, 테블릿 디바이스) 등을 포함할 수 있다. 또한, 데이터 분석 장치에 데이터 분석을 위한 소프트웨어가 탑제되고, 탑체된 소프트웨어에 통해서 데이터 분석이 수행될 수 있다. 이하에서는 설명의 편의를 위해, 데이터 분석 장치는 데이터를 분석하여 결과를 제공하는 데이터 서버로 설명하나 이에 제한되지 않고 본 발명이 구현되는 방식은 다양할 수 있다.In this specification, a data analysis apparatus according to an embodiment of the present invention is not limited, and may include any apparatus capable of analyzing data. For example, the data analysis device may include a general purpose computer, a laptop, a network-connected storage, a data server, a mobile device (e.g., a smart phone, a tablet device), and the like. In addition, software for data analysis is installed in the data analysis apparatus, and data analysis can be performed through the loaded software. Hereinafter, for convenience of explanation, the data analysis apparatus will be described as a data server that analyzes data and provides results, but the present invention is not limited thereto and the manner in which the present invention is implemented may vary.

이하, 첨부된 도면을 참조하여 본 발명의 다양한 실시예들을 상세히 설명한다.Various embodiments of the present invention will now be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 데이터 분석 시스템을 설명하기 위한 개략도이다. 1 is a schematic diagram for explaining a data analysis system according to an embodiment of the present invention.

도 1을 참조하면, 데이터 분석 장치(100)는 통신 네트워크(120)를 통해 복수의 엔티티들에 관련된 비정형 데이터를 수집하여 분석하고, 분석 결과를 제공하는 데이터 분석 장치(100) 및 분석 결과를 제공받는 적어도 하나의 클라이언트 장치(110)가 도시된다. 상기 엔티티는 사전에 정의한 의미가 있는 단어로서, 예를 들어, 특정 인물, 브랜드 및 상품 등을 포함할 수 있다. 상기 엔티티는 예시로 언급한 단어만으로 한정되지 않으며, 어떠한 유의미한 단어도 될 수 있다.Referring to FIG. 1, a data analysis apparatus 100 includes a data analysis apparatus 100 for collecting and analyzing atypical data related to a plurality of entities through a communication network 120 and providing analysis results, and analysis results At least one receiving client device 110 is shown. The entity may be a word having a predefined meaning, for example, a specific person, a brand, a commodity, or the like. The entity is not limited to only the words mentioned by way of example, but may be any meaningful word.

데이터 분석 장치(100)는 각 엔티티에 관련된 적어도 하나의 도큐먼트(document)로부터 비정형 데이터를 수집하고, 수집된 비정형 데이터를 분석하여 하나 이상의 단어(또는 자연어)를 추출한다. 상기 도큐먼트는 파일, 파일들의 조합, 다른 파일에 내장된 링크를 갖는 하나 이상의 파일일 수 있다. 하나 이상의 파일은 텍스트, HTML, XML, 오디오, 이미지, 비디오 등과 같은 임의의 타입일 수 있다. 예를 들어, 도큐먼트는 웹 페이지, SNS, 이메일 및 어플리케이션 등을 포함할 수 있다.The data analysis apparatus 100 collects atypical data from at least one document associated with each entity, and analyzes the collected atypical data to extract one or more words (or natural language). The document may be a file, a combination of files, or one or more files having a link embedded in another file. The one or more files may be of any type, such as text, HTML, XML, audio, image, video, For example, the document may include web pages, SNS, email and applications.

데이터 분석 장치(100)는 추출된 적어도 하나의 단어를 비교하여 비교 데이터를 산출하고, 산출된 비교 데이터를 기반으로 복수의 엔티티들간의 랭킹(ranking)을 결정한다. 예를 들어, 비교 데이터는 각 단어의 빈도수 및 단어간의 유사성을 나타내는 데이터를 포함할 수 있다. 상기 데이터 분석 장치(100)는 복수의 엔티티들에 대한 랭킹 정보를 포함하는 분석 결과를 적어도 하나의 클라이언트(110)로 제공할 수 있다.The data analysis apparatus 100 compares the extracted at least one word to calculate comparison data, and determines a ranking between a plurality of entities based on the calculated comparison data. For example, the comparison data may include data indicating the frequency of each word and the similarity between the words. The data analysis apparatus 100 may provide analysis results including ranking information for a plurality of entities to at least one client 110.

도 2는 본 발명의 일 실시예에 따른 데이터 분석 장치를 설명하기 위한 개략도이다. 도 2를 참조하면, 데이터 분석 장치(100)는 데이터 분석 장치(100)는 데이터 수집부(102), 단어 추출부(104), 스코어 산출부(106) 및 랭킹 결정부(108)를 포함한다.2 is a schematic diagram for explaining a data analysis apparatus according to an embodiment of the present invention. 2, the data analysis apparatus 100 includes a data analysis unit 100, a data collection unit 102, a word extraction unit 104, a score calculation unit 106, and a ranking determination unit 108 .

데이터 수집부(102)는 복수의 엔티티들에 관련된 비정형 데이터를 수집한다. 각 엔티티는 적어도 하나의 도큐먼트와 사전에 매칭되고, 상기 적어도 하나의 도큐먼트로부터 비정형 데이터가 수집될 수 있다. 예를 들어, 제1 브랜드는 제1 도큐먼트 및 제2 도큐먼트와 매칭되고, 데이터 수집부(102)는 제1 브랜드에 대한 비정형 데이터를 제1 도큐먼트 및 제2 도큐먼트로부터 수집할 수 있다. 상기 비정형 데이터는, 예를 들어, 제1 도큐먼트가 제1 브랜드에 관련된 블로그인 경우 블로그에 개시된 글 및 댓글 등을 포함하고, 제2 도큐먼트가 제1 브랜드에 관련된 웹 사이트인 경우 웹 사이트에 개시된 문의글 및 리뷰 등을 포함할 수 있다. The data collection unit 102 collects unstructured data related to a plurality of entities. Each entity may be pre-matched to at least one document, and atypical data may be collected from the at least one document. For example, the first brand may match the first document and the second document, and the data collection unit 102 may collect the atypical data for the first brand from the first document and the second document. The atypical data may include, for example, articles and comments disclosed on a blog if the first document is a blog related to the first brand, and inquiries disclosed on the website if the second document is a website related to the first brand Articles, reviews, and the like.

본 발명의 다양한 실시예에 따르면, 데이터 수집부(102)는 비정형 데이터를 수집할 때 비정형 데이터의 종류, 위치, 작성자에 대한 정보, 수집 날짜, 비정형 데이터가 생성된 데이터 생성 날짜 등 중 적어도 하나를 포함하는 메타 데이터(metadata)를 더 수집할 수 있다. According to various embodiments of the present invention, when collecting irregular data, the data collecting unit 102 acquires at least one of the type of irregular data, the location, information on the creator, the collection date, You can collect more metadata that you include.

단어 추출부(104)는 수집된 비정형 데이터를 분석하여 하나 이상의 단어를 추출한다. 예를 들어, 단어 추출부(104)는 제1 브랜드에 관련된 블로그의 게시글 및 댓글 등으로부터 하나 이상의 단어를 추출할 수 있다. The word extracting unit 104 extracts one or more words by analyzing the collected irregular data. For example, the word extracting unit 104 may extract one or more words from posts, comments, and the like of a blog related to the first brand.

스코어 산출부(106)는 추출된 하나 이상의 단어를 비교하여 각 단어별로 비교 결과를 나타내는 스코어를 산출한다. 구체적으로, 스코어 산출부(106)는 추출된 하나 이상의 단어를 토픽별로 분류하고, 분류된 하나 이상의 단어 각각에 대한 빈도수를 나타내는 제1 스코어 및 분류된 하나 이상의 단어 간의 연관성을 나타내는 제2 스코어를 산출한다. 상기 스코어 산출부(106)는 LDA(Latent Dirichlet Allocation) 기법 등과 같은 토픽 모델링 기법을 이용하여 각 단어별 제1 스코어를 산출하고, TF-IDF(Term Frequency-Inverse Document Frequency) 기법 등과 같은 단어 색인 기법을 이용하여 각 단어별 제2 스코어를 산출할 수 있다.The score calculation unit 106 compares the extracted one or more words and calculates a score indicating a comparison result for each word. Specifically, the score calculation unit 106 classifies the extracted one or more words into topics, calculates a first score indicating a frequency for each of the one or more classified words, and a second score indicating a correlation between the classified one or more words do. The score calculation unit 106 calculates a first score for each word by using a topic modeling technique such as a Latent Dirichlet Allocation (LDA) technique, and calculates a score using a word index technique such as a TF-IDF (Term Frequency-Inverse Document Frequency) The second score for each word can be calculated.

예를 들어, 제1 토픽에 대응하여 단어1, 단어2, 단어3이 분류된 경우, 랭킹 결정부(108)는 단어1의 빈도수를 나타내는 단어1의 제1 스코어, 단어2의 빈도수를 나타내는 단어2의 제2 스코어 및 단어3의 빈도수를 나타내는 단어3의 제3 스코어를 산출할 수 있다. 상기 랭킹 결정부(108)는 단어1과 단어2을 비교하여 단어1과 단어2간의 연관성을 나타내는 스코어1-1을 산출하고, 단어1과 단어3을 비교하여 단어1과 단어3간의 연관성을 나타내는 스코어1-2를 산출한다. 상기 랭킹 결정부(108)는 단어2와 단어1를 비교하여 단어2와 단어1간의 연관성을 나타내는 스코어2-1을 산출하고, 단어2와 단어3을 비교하여 단어2와 단어3간의 연관성을 나타내는 스코어2-2를 산출한다. 또한, 랭킹 결정부(108)는 단어3과 단어1을 비교하여 단어3과 단어1간의 연관성을 나타내는 스코어3-1을 산출하고, 단어3과 단어2를 비교하여 단어3과 단어2간의 연관성을 나타내는 스코어3-2를 산출한다. 상기 단어1의 제2 스코어는 스코어1-1과 스코어1-2를 합산한 스코어이고, 단어2의 제2 스코어는 스코어2-1과 스코어2-2를 합산한 스코어이며, 단어3의 제2 스코어는 스코어3-1과 스코어3-2를 합산한 스코어일 수 있다.For example, when word 1, word 2, and word 3 are classified in correspondence with the first topic, the ranking determining unit 108 determines the first score of the word 1 indicating the frequency of the word 1, the word indicating the frequency of the word 2 The second score of 2 and the third score of word 3 representing the frequency of word 3 can be calculated. The ranking determining unit 108 compares the word 1 and the word 2 to calculate a score 1-1 indicating a relationship between the word 1 and the word 2 and compares the word 1 and the word 3 to show a relation between the word 1 and the word 3 And calculates the score 1-2. The ranking determining unit 108 compares the word 2 with the word 1 to calculate a score 2-1 indicating a relationship between the word 2 and the word 1 and compares the word 2 with the word 3 to indicate a relationship between the word 2 and the word 3 And calculates score 2-2. The ranking determining unit 108 compares the word 3 with the word 1 to calculate a score 3-1 indicating the correspondence between the word 3 and the word 1 and compares the word 3 with the word 2 to determine a relationship between the word 3 and the word 2 3 " The second score of the word 1 is the score obtained by adding the score 1-1 and the score 1-2, the second score of the word 2 is the score obtained by adding the score 2-1 and the score 2-2, The score can be a score that is the sum of the score 3-1 and the score 3-2.

다음으로, 랭킹 결정부(108)는 하나 이상의 단어별로 제1 스코어 및 제2 스코어를 합산한 제3 스코어를 산출한다. 본 발명의 다양한 실시예에 따르면, 랭킹 결정부(108)는 “Ts = a × Fs + b × Ss1.97”와 같은 수식을 이용하여 제3 스코어를 산출할 수 있다. 여기서, Ts는 제3 스코어이고, a, b는 가중치이고, Fs는 제1 스코어이며, Ss는 제2 스코어일 수 있다.Next, the ranking determining unit 108 calculates a third score obtained by adding the first score and the second score to one or more words. According to various embodiments of the present invention, the ranking determiner 108 may calculate the third score using an equation such as " Ts = a x Fs + b x Ss 1.97 ". Here, Ts is a third score, a and b are weights, Fs is a first score, and Ss may be a second score.

상기 랭킹 결정부(108)는 복수의 엔티티들 각각에 대응하여 하나 이상 단어별로 산출된 제3 스코어를 합산한 최종 스코어를 산출하고, 산출된 최종 스코어에 기반하여 복수의 엔티티들에 대한 랭킹을 결정할 수 있다. 예를 들어, 엔티티1에 대응하는 하나 이상의 단어가 단어1, 단어2이고, 엔티티2에 대응하는 하나 이상의 단어가 단어3, 단어4인 경우, 랭킹 결정부(108)는 단어1의 제3 스코어와 단어2의 제3 스코어를 합산하여 엔티티1에 대한 최종 스코어로 산출하고, 단어3의 제3 스코어와 단어4의 제3 스코어를 합산하여 엔티티2에 대한 최종 스코어로 산출할 수 있다. 엔티티1의 최종 스코어가 엔티티2의 최종 스코어보다 크면 엔티티1은 엔티티2보다 높은 랭킹으로 결정될 수 있다.The ranking determining unit 108 calculates a final score obtained by summing the third scores calculated for one or more words corresponding to each of a plurality of entities, and determines a ranking for a plurality of entities based on the calculated final score . For example, if one or more words corresponding to entity 1 are word 1, word 2, and one or more words corresponding to entity 2 are word 3, word 4, ranking determination section 108 determines the third score of word 1 And the third score of word 2 may be summed to yield a final score for entity 1 and a third score of word 3 and a third score of word 4 may be summed to yield a final score for entity 2. If the final score of entity 1 is greater than the final score of entity 2, then entity 1 can be determined to rank higher than entity 2.

도 3은 본 발명의 일 실시예에 따른 데이터 분석 방법을 설명하기 위한 개략적인 순서도이다. 도 3을 참조하면, 데이터 분석 장치(100)는 미리 정의된 복수의 엔티티들에 관련된 비정형 데이터를 수집한다(S300). 예를 들어, 복수의 엔티티들 각각에 매칭된 적어도 하나의 도큐먼트로부터 비정형 데이터가 수집될 수 있다. 이러한 비정형 데이터는 적어도 하나의 도큐먼트에 해당하는 웹 페이지로부터 수집된 게시글 또는 댓글, 이메일로부터 수집된 이메일 내용, SNS으로부터 수집된 게시글, 또는 어플리케이션으로부터 수집된 게시글 또는 댓글 등일 수 있다. 다양한 실시예에 따르면, 비정형 데이터를 수집할 때 비정형 데이터의 메타 데이터도 수집될 수 있다. 예를 들어, 비정형 데이터의 메타 데이터는 게시글, 댓글 또는 이메일 내용 등의 위치, 작성자에 대한 정보, 수집 날짜, 또는 게시글, 댓글 또는 이메일 내용 등이 생성된 날짜 등일 수 있다.3 is a schematic flowchart for explaining a data analysis method according to an embodiment of the present invention. Referring to FIG. 3, the data analysis apparatus 100 collects unstructured data related to a plurality of predefined entities (S300). For example, atypical data may be collected from at least one document matched to each of a plurality of entities. Such unstructured data may be posts or comments collected from web pages corresponding to at least one document, email content collected from emails, posts collected from SNS, or posts or comments collected from applications. According to various embodiments, meta data of irregular data may also be collected when collecting unstructured data. For example, the meta data of unstructured data may be a location such as a post, comment or email content, information about the author, date of collection, date the post, comment, or email content was created,

다음으로, 데이터 분석 장치(100)는 수집된 비정형 데이터를 분석하여 하나 이상의 단어를 추출한다(S310). 예를 들어, 데이터 분석 장치(100)는 웹 페이지의 게시글 또는 댓글, 이메일 내용, SNS의 게시글 또는 어플리케이션의 게시글 또는 댓글을 분석하여 하나 이상의 단어를 추출할 수 있다. Next, the data analysis apparatus 100 analyzes the collected irregular data and extracts one or more words (S310). For example, the data analysis apparatus 100 may extract one or more words by analyzing a post or comment of a web page, an e-mail content, a post of an SNS, or a post or comment of an application.

상기 데이터 분석 장치(100)는 추출된 하나 이상의 단어를 비교하여 하나 이상의 단어별로 비교 결과를 나타내는 스코어를 산출한다(S320). 이하에서는, 도 4를 참조하여, 스코어를 산출하는 방법을 보다 구체적으로 설명한다. 도 4는 본 발명의 일 실시예에 따른 스코어를 산출하는 방법을 설명하기 위한 개략적인 순서도이다.The data analysis apparatus 100 compares the extracted one or more words and calculates a score indicating a result of comparison for one or more words (S320). Hereinafter, a method of calculating a score will be described in more detail with reference to FIG. 4 is a schematic flowchart for explaining a method of calculating a score according to an embodiment of the present invention.

먼저, 데이터 분석 장치(100)는 추출된 하나 이상의 단어를 토픽별로 분류한다(S400). 예를 들어, 제1 토픽에 대응하여 단어2, 단어6 및 단어10이 분류되고, 제2 토픽에 대응하여 단어3, 단어4 및 단어9가 분류되며, 제3 토픽에 대응하여 단어1, 단어8 및 단어5가 분류될 수 있다. First, the data analysis apparatus 100 classifies the extracted one or more words into topics (S400). For example, word 2, word 6 and word 10 are classified corresponding to the first topic, word 3, word 4 and word 9 are classified corresponding to the second topic, word 1 corresponding to the third topic, word 8 and word 5 can be classified.

상기 데이터 분석 장치(100)는 토픽별로 분류된 각 단어에 대한 빈도수를 나타내는 제1 스코어를 산출하고(S410), 토픽별로 분류된 단어를 비교하여 각 단어별로 단어간의 연관성을 나타내는 제2 스코어를 산출한다(S420). 예를 들어, 데이터 분석 장치(410)는 제1 토픽에 대응하여 분류된 단어2와 단어6을 비교하여 단어2와 단어6의 연관성을 나타내는 스코어 및 단어2와 단어10의 연관성을 나타내는 스코어를 산출하고, 산출된 스코어들을 합산하여 단어2의 제2 스코어를 산출할 수 있다. The data analysis apparatus 100 calculates a first score indicating a frequency of each word classified by topic (S410), compares the words classified by the topic, and calculates a second score indicating a relation between words in each word (S420). For example, the data analysis apparatus 410 compares the word 2 and the word 6 classified corresponding to the first topic, and calculates a score indicating the association between the word 2 and the word 6 and a score indicating the association between the word 2 and the word 10 , And calculate the second score of the word 2 by summing the calculated scores.

다시, 도 3을 참조하면, 데이터 분석 장치(100)는 산출된 스코어에 기반하여 복수의 엔티티들에 대한 랭킹을 결정할 수 있다(S330). 이하에서는, 도 5를 참조하여, 복수의 엔티티들에 대한 랭킹을 결정하는 방법을 보다 구체적으로 설명한다. 도 5는 본 발명의 일 실시예에 따른 복수의 엔티티들에 대한 랭킹을 결정하는 방법을 설명하기 위한 개략적인 순서도이다.Referring again to FIG. 3, the data analysis apparatus 100 may determine a ranking for a plurality of entities based on the calculated scores (S330). Hereinafter, with reference to FIG. 5, a method of determining ranking for a plurality of entities will be described in more detail. 5 is a schematic flow diagram illustrating a method for determining ranking for a plurality of entities in accordance with an embodiment of the present invention.

먼저, 데이터 분석 장치(100)는 적어도 하나의 단어별로 산출된 제1 스코어 및 제2 스코어를 합산한 제3 스코어를 산출한다(S500). 예를 들어, 단어2의 제1 스코어 및 제2 스코어를 합산한 제3 스코어가 산출될 수 있다. First, the data analysis apparatus 100 calculates a third score obtained by summing the first score and the second score calculated for at least one word (S500). For example, a third score obtained by summing the first score and the second score of the word 2 can be calculated.

상기 데이터 분석 장치(100)는 복수의 엔티티들 각각에 대응하는 적어도 하나의 단어에 대한 제3 스코어를 합산한 최종 스코어를 산출한다(S510). 예를 들어, 엔티티1가 도큐먼트1 및 도큐먼트2와 대응하는 경우 도큐먼트1로부터 추출된 단어2, 6, 10의 제3 스코어들과 도큐먼트2로부터 추출된 단어3, 4, 9의 제3 스코어들이 합산되어 엔티티1의 최종 스코어로 산출될 수 있다.The data analysis apparatus 100 calculates a final score by summing a third score for at least one word corresponding to each of the plurality of entities (S510). For example, if entity 1 corresponds to document 1 and document 2, the third scores of words 2, 6, and 10 extracted from document 1 and the third scores of words 3, 4, and 9 extracted from document 2 are summed And can be calculated as the final score of entity 1.

상기 데이터 분석 장치(100)는 산출된 최종 스코어에 기반하여 복수의 엔티티들에 대한 랭킹을 결정할 수 있다(520). 예를 들어, 데이터 분석 장치(100)는 엔티티1, 엔티티2 및 엔티티3의 최종 스코어를 비교하여 최대 스코어를 가지는 엔티티를 가장 높은 랭킹으로 결정할 수 있다. The data analysis apparatus 100 may determine a ranking for a plurality of entities based on the calculated final scores (520). For example, the data analysis apparatus 100 may compare the final scores of Entity 1, Entity 2 and Entity 3 to determine the highest ranking entities with the highest score.

도 6a, 도 6b, 도 6c, 도 6d, 도 6e 및 도 6f는 본 발명의 일 실시예에 따른 데이터를 분석하는 방법을 설명하기 위한 예시도들이다. 도 6a을 참조하면, 데이터 분석 장치(100)는 복수의 엔티티들(예: 엔티티1, 엔티티2, 엔티티3)에 관련된 복수의 도큐먼트들(예: 도큐먼트1, 도큐먼트2, 도큐먼트3, 도큐먼트4, 도큐먼트5)로부터 비정형 데이터를 수집한다. 예를 들어, 비정형 데이터는 “단어1은 단어2를 단어3해서 단어4했다”, “단어4, 단어8, 단어9로 단어10했다”, “단어5는 단어6과 단어8을 단어9했다.”, “단어1과 단어3은 단어5, 단어6이다”와 같이 하나 이상의 단어를 포함할 수 있다.6A, 6B, 6C, 6D, 6E and 6F are diagrams for explaining a method of analyzing data according to an embodiment of the present invention. 6A, a data analysis apparatus 100 includes a plurality of documents (e.g., Document 1, Document 2, Document 3, Document 4, and Document 2) associated with a plurality of entities (e.g., Entity 1, Entity 2, Entity 3) Document 5). For example, atypical data was "Word 1 had word 2, word 3 had word 4", "word 4, word 8, word 9 had word 10", "word 5 had word 6 and word 8 was word 9 . "," Word 1 and word 3 are word 5, word 6 ".

도 6b를 참조하면, 데이터 분석 장치(100)는 복수의 도큐먼트들 각각으로부터 하나 이상의 단어를 추출한다. 예를 들어, 도큐먼트1에서 “단어1, 단어2, 단어3, 단어4”가 추출되고, 도큐먼트2에서 “단어1, 단어3, 단어5, 단어6”이 추출되고, 도큐먼트3에서 “단어4, 단어8, 단어9, 단어10”이 추출되고, 도큐먼트4에서 “단어2, 단어3, 단어4, 단어6”이 추출되며, 도큐먼트5에서 “단어1, 단어9, 단어8, 단어3, 단어2”가 추출될 수 있다.Referring to FIG. 6B, the data analysis apparatus 100 extracts one or more words from each of a plurality of documents. For example, " word 1, word 2, word 3, word 4 " is extracted from document 1, " word 1, word 3, word 5 and word 6 " is extracted from document 2, Word 2, word 3, word 4, and word 6 " are extracted from document 4, and words " 1, 9, 8, 3, Word 2 " can be extracted.

도 6c를 참조하면, 데이터 분석 장치(100)는 추출된 하나 이상의 단어를 토픽별로 분류하고, 토픽별로 분류된 단어 각각에 대한 빈도수를 나타내는 제1 스코어를 산출한다. 예를 들어, “단어2, 단어6, 단어10”이 제1 토픽으로 분류되고, “단어3, 단어4, 단어9”가 제2 토픽으로 분류되며, “단어1, 단어8, 단어5”가 제3 토픽으로 분류될 수 있다. 제1 토픽으로 분류된 단어2의 제1 스코어는 “0.51”, 단어6의 제1 스코어는 “0.26”, 단어10의 제1 스코어는 “0.14”이고, 제2 토픽으로 분류된 단어3의 제1 스코어는 “0.46”, 단어4의 제1 스코어는 “0.23”, 단어9의 제1 스코어는 “0.23”이며, 제3 토픽으로 분류된 단어1의 제1 스코어는 “0.39”, 단어8의 제1 스코어는 “0.27”, 단어5의 제1 스코어는 “0.14”일 수 있다.Referring to FIG. 6C, the data analysis apparatus 100 classifies the extracted one or more words into topics, and calculates a first score indicating frequency of each of the words classified by the topics. For example, " word 2, word 6, word 10 " is categorized as the first topic, " word 3, word 4, May be classified as the third topic. The first score of word 2 classified as the first topic is "0.51", the first score of word 6 is "0.26", the first score of word 10 is "0.14", and the first score of word 3 1 score of "0.46", the first score of word 4 is "0.23", the first score of word 9 is "0.23", the first score of word 1 classified as the third topic is "0.39" The first score may be " 0.27 " and the first score of word 5 may be " 0.14 ".

도 6d를 참조하면, 데이터 분석 장치(100)는 토픽별로 분류된 각 단어를 비교하여 비교 스코어를 산출하고, 산출된 비교 스코어를 각 단어별로 합산한 제2 스코어를 산출한다. 예를 들어, 제1 토픽에 대응하여 단어2와 단어6을 비교한 비교 스코어가 “0.59”이고, 단어2와 단어10을 비교한 비교 스코어가 “0.80”이고, 단어 6과 단어2를 비교한 비교 스코어가 “0.59”이고, 단어2와 단어6을 비교한 비교 스코어가 “0”이고, 단어10과 단어2를 비교한 비교 스코어가 “0.80”이고, 단어10과 단어6을 비교한 비교 스코어가 “0”일 수 있다. 이러한 경우, 단어2의 제2 스코어는 “1.39”, 단어6의 제2 스코어는 “0.59”, 단어10의 제2 스코어는 “0.80”일 수 있다. 또한, 제2 토픽에 대응하여 단어3와 단어4를 비교한 비교 스코어가 “0.54”이고, 단어3와 단어9를 비교한 비교 스코어가 “0.55”이고, 단어4와 단어3을 비교한 비교 스코어가 “0.54”이고, 단어4와 단어9를 비교한 비교 스코어가 “1.20”이고, 단어9와 단어3을 비교한 비교 스코어가 “0.55”이고, 단어9와 단어4를 비교한 비교 스코어가 “1.20”일 수 있다. 이러한 경우, 단어3의 제2 스코어는 “1.09”, 단어4의 제2 스코어는 “1.74”, 단어9의 제2 스코어는 “1.75”일 수 있다. 다음으로, 제3 토픽에 대응하여 단어1과 단어8을 비교한 비교 스코어가 “0.64”이고, 단어1과 단어5를 비교한 비교 스코어가 “0.64”이고, 단어8과 단어1을 비교한 비교 스코어가 “0.64”이고, 단어8과 단어5를 비교한 비교 스코어가 “0.16”이고, 단어5와 단어1을 비교한 비교 스코어가 “0.64”이고, 단어5와 단어8을 비교한 비교 스코어가 “0.16”일 수 있다. 이러한 경우, 단어1의 제2 스코어는 “1.28”, 단어8의 제2 스코어는 “0.80”, 단어5의 제2 스코어는 “0.80”일 수 있다.Referring to FIG. 6D, the data analysis apparatus 100 calculates a comparison score by comparing each word classified according to a topic, and calculates a second score obtained by summing the calculated comparison score for each word. For example, if the comparison score obtained by comparing word 2 and word 6 in correspondence with the first topic is " 0.59 ", the comparison score obtained by comparing word 2 and word 10 is " 0.80 ", and word 6 and word 2 are compared The comparative score obtained by comparing the word 2 and the word 6 is " 0 ", the comparison score obtained by comparing the word 10 and the word 2 is " 0.80 "Quot; 0 ". In this case, the second score of word 2 may be "1.39", the second score of word 6 may be "0.59", and the second score of word 10 may be "0.80". Further, in a case where the comparison score obtained by comparing the word 3 and the word 4 in correspondence to the second topic is " 0.54 ", the comparison score obtained by comparing the word 3 and the word 9 is " 0.55 ", and the comparison score Is 0.55, the comparison score obtained by comparing the word 4 and the word 9 is " 1.20 ", the comparison score obtained by comparing the word 9 and the word 3 is " 0.55 ", and the comparison score obtained by comparing the word 9 and the word 4 is " 1.20 ". In this case, the second score of the word 3 may be "1.09", the second score of the word 4 may be "1.74", and the second score of the word 9 may be "1.75". Next, a comparison score obtained by comparing word 1 and word 8 corresponding to the third topic is " 0.64 ", a comparison score obtained by comparing word 1 and word 5 is " 0.64 &Quot; is 0.64, the comparison score obtained by comparing word 8 and word 5 is " 0.16 ", the comparison score obtained by comparing word 5 and word 1 is " 0.64 ", and the comparison score obtained by comparing word 5 and word 8 May be " 0.16 ". In this case, the second score of word 1 may be "1.28", the second score of word 8 may be "0.80", and the second score of word 5 may be "0.80".

도 6e를 참조하면, 데이터 분석 장치(100)는 제1 스코어와 제2 스코어를 합산한 제3 스코어를 산출한다. 예를 들어, 단어2의 제3 스코어는 “1.09”이고, 단어6의 제3 스코어는 “0.85”이고, 단어10의 제3 스코어는 “0.94”이고, 단어3의 제3 스코어는 “1.55”이고, 단어4의 제3 스코어는 “1.97”이고, 단어9의 제3 스코어는 “1.98”이고, 단어1의 제3 스코어는 “1.67”이고, 단어8의 제3 스코어는 “1.07”이며, 단어5의 제3 스코어는 “0.94”일 수 있다.Referring to FIG. 6E, the data analysis apparatus 100 calculates a third score obtained by summing the first score and the second score. For example, the third score of word 2 is "1.09", the third score of word 6 is "0.85", the third score of word 10 is "0.94", the third score of word 3 is "1.55" 1.97, " the third score of word 9 is " 1.98 ", the third score of word 1 is " 1.67 ", the third score of word 8 is & The third score of word 5 may be " 0.94 ".

도 6f를 참조하면, 데이터 분석 장치(100)는 복수의 엔티티들 각각에 대응하는 하나 이상의 단어들의 제3 스코터의 총합을 최종 스코어로 산출하고, 산출된 최종 스코어에 기반하여 각 엔티티별 랭킹을 결정한다. 예를 들어, 엔티티1에 대응하는 단어1, 단어2, 단어3, 단어4, 단어5 및 단어6의 제3 스코어들의 총합인 “9.88”이 엔티티1의 최종 스코어로 산출되고, 엔티티2에 대응하는 단어2, 단어3, 단어4, 단어6, 단어8, 단어10의 제3 스코어들의 총합인 “10.26”이 엔티티2의 최종 스코어로 산출되며, 엔티티3에 대응하는 단어1, 단어2, 단어3, 단어6, 단어8, 단어9의 제3 스코어들의 총합인 “7.95”가 엔티티3의 최종 스코어로 산출될 수 있다. 이러한 경우, 복수의 엔티티들 중 랭킹 1위는 엔티티2이고, 랭킹 2위는 엔티티1이며, 랭킹 3위는 엔티티3일 수 있다.Referring to FIG. 6F, the data analysis apparatus 100 calculates the sum of the third scorers of one or more words corresponding to each of a plurality of entities as a final score, and calculates a rank for each entity based on the calculated final score . For example, " 9.88 " which is the sum of the third scores of word 1, word 2, word 3, word 4, word 5 and word 6 corresponding to entity 1 is calculated as the final score of entity 1, 10.26 ", which is the sum of the third scores of word 2, word 3, word 4, word 6, word 8 and word 10 is calculated as the final score of entity 2, and word 1, word 2, word 3.95, " 7.95 " which is the sum of the third scores of word 3, word 6, word 8 and word 9 can be calculated as the final score of entity 3. In this case, the first ranking among the plurality of entities is the entity 2, the second ranking is the entity 1, and the third ranking is the entity 3.

도 7은 본 발명의 일 실시예에 따른 데이터 분석 장치를 설명하기 위한 개략도이다. 도 2를 참조하면, 데이터 분석 장치(700)는 통신부(710), 저장부(720) 및 프로세서(730)를 포함한다.7 is a schematic diagram for explaining a data analysis apparatus according to an embodiment of the present invention. Referring to FIG. 2, the data analysis apparatus 700 includes a communication unit 710, a storage unit 720, and a processor 730.

통신부(710)는 데이터 분석 장치(700)가 외부 장치와 통신 가능하도록 연결한다. 예를 들어, 통신부(710)는 무선 네트워크를 통해 적어도 하나의 외부 장치와 연결하고, 적어도 하나의 외부 장치로부터 비정형 데이터를 수신할 수 있다.The communication unit 710 connects the data analysis apparatus 700 so that it can communicate with the external apparatus. For example, the communication unit 710 may connect to at least one external device through a wireless network and receive atypical data from at least one external device.

저장부(720)는 통신부(110)를 통해 수신된 비정형 데이터를 저장하고, 비정형 데이터에 대한 분석을 위해 사용되는 다양한 데이터를 저장하도록 구성될 수 있다. 예를 들어, 저장부(720)는 비정형 데이터의 메타 데이터 또는 비정형 데이터를 분석하기 위한 알고리즘 등을 저장할 수 있다.The storage unit 720 may be configured to store the irregular data received through the communication unit 110 and to store various data used for analyzing the irregular data. For example, the storage unit 720 may store meta data of irregular data or an algorithm for analyzing unstructured data.

프로세서(730)는 통신부(710) 및 저장부(720)와 동작가능하게 연결되고, 비정형 데이터를 분석하기 위한 다양한 명령들을 수행한다. 이하에서는 비정형 데이터를 분석하는 동작에 대해서 간략하게 설명한다. 프로세서(730)는 통신부(110)를 통해 수신된 복수의 엔티티들 각각에 관련된 적어도 하나의 도큐먼트로부터 비정형 데이터를 수집하고, 수집된 비정형 데이터를 분석하여 하나 이상의 단어를 추출한다. 다음으로, 프로세서(730)는 추출된 하나 이상의 단어를 비교하여 비교 결과를 나타내는 스코어를 산출하고, 산출된 스코어에 기반하여 복수의 엔티티들 각각에 대한 랭킹을 결정한다. 결정된 랭킹은 통신부(110)를 통해 적어도 하나의 클라이언트로 제공될 수 있다.Processor 730 is operatively coupled to communication unit 710 and storage unit 720 and performs various instructions for analyzing unstructured data. Hereinafter, an operation of analyzing the unstructured data will be briefly described. The processor 730 collects unstructured data from at least one document associated with each of the plurality of entities received via the communication unit 110, and analyzes the collected unstructured data to extract one or more words. Next, the processor 730 compares the extracted one or more words to calculate a score indicating the result of the comparison, and determines a ranking for each of the plurality of entities based on the calculated score. The determined ranking may be provided to at least one client through the communication unit 110. [

이와 같이 본 발명은 복수의 엔티티들에 대한 비정형 데이터를 수집하고, 수집된 비정형 데이터를 분석하여 각 엔티티의 랭킹을 결정함으로써, 비정형 데이터에서의 각 엔티티에 대한 인기(popularity)를 손쉽게 확인할 수 있다.Thus, the present invention can easily check the popularity of each entity in the unstructured data by collecting the unstructured data for a plurality of entities and analyzing the collected unstructured data to determine the ranking of each entity.

본 발명의 실시예에 따른 장치 및 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.The apparatus and method according to embodiments of the present invention may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium. The computer readable medium may include program instructions, data files, data structures, and the like, alone or in combination.

컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 또한 상술한 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.Program instructions to be recorded on a computer-readable medium may be those specially designed and constructed for the present invention or may be available to those skilled in the computer software arts. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Includes hardware devices specifically configured to store and execute program instructions such as magneto-optical media and ROM, RAM, flash memory, and the like. The above-mentioned medium may also be a transmission medium such as a light or metal wire, wave guide, etc., including a carrier wave for transmitting a signal designating a program command, a data structure and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like.

상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형 실시될 수 있다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.Although the embodiments of the present invention have been described in detail with reference to the accompanying drawings, it is to be understood that the present invention is not limited to those embodiments and various changes and modifications may be made without departing from the scope of the present invention. . Therefore, the embodiments disclosed in the present invention are intended to illustrate rather than limit the scope of the present invention, and the scope of the technical idea of the present invention is not limited by these embodiments. Therefore, it should be understood that the above-described embodiments are illustrative in all aspects and not restrictive. The scope of protection of the present invention should be construed according to the following claims, and all technical ideas within the scope of equivalents should be construed as falling within the scope of the present invention.

100: 데이터 분석 장치
102: 데이터 수집부
104: 단어 추출부
106: 스코어 산출부
108: 랭킹 결정부
110: 적어도 하나의 클라이언트 장치
120: 통신 네트워크
100: Data analysis device
102: Data collecting unit
104: word extracting unit
106: score calculation unit
108: Ranking decision unit
110: at least one client device
120: communication network

Claims (15)

미리 정의된 복수의 엔티티들(entities)에 관련된 비정형 데이터를 수집하는 단계;
상기 수집된 비정형 데이터를 분석하여 하나 이상의 단어를 추출하는 단계;
상기 추출된 하나 이상의 단어를 비교하여 상기 하나 이상의 단어별로 비교 결과를 나타내는 스코어(score)를 산출하는 단계; 및
상기 산출된 스코어에 기반하여 상기 복수의 엔티티들에 대한 랭킹(ranking)을 결정하는 단계를 포함하는, 비정형 데이터 분석 방법.
Collecting atypical data related to a plurality of predefined entities;
Analyzing the collected atypical data to extract one or more words;
Comparing the extracted one or more words to calculate a score indicating a comparison result for each of the one or more words; And
And determining a ranking for the plurality of entities based on the calculated score.
제1항에 있어서, 상기 비정형 데이터 수집 단계는,
상기 복수의 엔티티들과 사전에 매칭된 적어도 하나의 도큐먼트로부터 상기 비정형 데이터를 수집하는 단계를 포함하는, 비정형 데이터 분석 방법.
The method of claim 1, wherein the atypical data collection step comprises:
And collecting the atypical data from at least one document that is pre-matched with the plurality of entities.
제1항에 있어서, 상기 비정형 데이터를 수집할 때, 상기 비정형 데이터의 메타 데이터(metadata)를 더 수집하는, 비정형 데이터 분석 방법.The method of claim 1, further collecting metadata of the atypical data when collecting the atypical data. 제1항에 있어서, 상기 스코어 산출 단계는,
상기 하나 이상의 단어를 토픽별로 분류하는 단계;
상기 분류된 하나 이상의 단어에 대한 빈도수를 나타내는 제1 스코어를 산출하는 단계; 및
상기 분류된 하나 이상의 단어간의 연관성을 나타내는 제2 스코어를 산출하는 단계를 포함하는, 비정형 데이터 분석 방법.
2. The method according to claim 1,
Classifying the one or more words by topic;
Calculating a first score indicative of a frequency for the one or more words classified; And
And calculating a second score indicative of the association between the one or more words sorted.
제4항에 있어서, 상기 랭킹 결정 단계는,
상기 하나 이상의 단어별로 상기 제1 스코어 및 상기 제2 스코어를 합산한 제3 스코어를 산출하는 단계;
상기 복수의 엔티티들 각각에 대응하여 상기 하나 이상의 단어에 대한 상기 제3 스코어를 합산한 최종 스코어를 산출하는 단계; 및
상기 산출된 최종 스코어에 기반하여 상기 복수의 엔티티들에 대한 랭킹을 결정하는 단계를 포함하는, 비정형 데이터 분석 방법.
5. The method according to claim 4,
Calculating a third score obtained by adding the first score and the second score to the one or more words;
Computing a final score summing the third score for the one or more words corresponding to each of the plurality of entities; And
And determining a ranking for the plurality of entities based on the calculated final score.
제4항에 있어서, 상기 제1 스코어 산출 단계는 토픽 모델링 기법을 이용하는, 비정형 데이터 분석 방법.5. The method of claim 4, wherein the first score calculation step uses a topic modeling technique. 제4항에 있어서, 상기 제2 스코어 산출 단계는 단어 색인 기법을 이용하는, 비정형 데이터 분석 방법.5. The method of claim 4, wherein the second score calculation step uses a word index technique. 미리 정의된 복수의 엔티티들(entities)에 관련된 비정형 데이터를 수집하는 데이터 수집부;
상기 수집된 비정형 데이터를 분석하여 하나 이상의 단어를 추출하는 단어 추출부;
상기 추출된 하나 이상의 단어를 비교하여 상기 하나 이상의 단어별로 비교 결과를 나타내는 스코어(score)를 산출하는 스코어 산출부; 및
상기 산출된 스코어에 기반하여 상기 복수의 엔티티들에 대한 랭킹(ranking)을 결정하는 랭킹 결정부를 포함하는, 비정형 데이터 분석 장치.
A data collection unit for collecting irregular data related to a plurality of predefined entities;
A word extracting unit for analyzing the collected irregular data and extracting one or more words;
A score calculation unit for comparing the extracted one or more words to calculate a score indicating a comparison result for each of the one or more words; And
And a ranking determiner for determining a ranking for the plurality of entities based on the calculated score.
제8항에 있어서, 상기 데이터 수집부는,
상기 복수의 엔티티들과 사전에 매칭된 적어도 하나의 도큐먼트로부터 상기 비정형 데이터를 수집하는 단계를 포함하는, 비정형 데이터 분석 방법.
9. The data processing apparatus according to claim 8,
And collecting the atypical data from at least one document that is pre-matched with the plurality of entities.
제8항에 있어서, 상기 데이터 수집부는,
상기 비정형 데이터를 수집할 때, 상기 비정형 데이터의 메타 데이터(metadata)를 더 수집하는, 비정형 데이터 분석 장치.
9. The data processing apparatus according to claim 8,
And further collects the meta data of the atypical data when collecting the atypical data.
제8항에 있어서, 상기 스코어 산출부는,
상기 하나 이상의 단어를 토픽별로 분류하고, 상기 분류된 하나 이상의 단어에 대한 빈도수를 나타내는 제1 스코어를 산출하고, 상기 분류된 하나 이상의 단어간의 연관성을 나타내는 제2 스코어를 산출하는, 비정형 데이터 분석 장치.
9. The apparatus according to claim 8,
Classify the one or more words by topics, calculate a first score that represents the frequency for the one or more classified words, and calculate a second score that represents the association between the one or more classified words.
제11항에 있어서, 상기 랭킹 결정부는,
상기 하나 이상의 단어별로 상기 제1 스코어 및 상기 제2 스코어를 합산한 제3 스코어를 산출하고, 상기 복수의 엔티티들 각각에 대응하는 상기 하나 이상의 단어에 대한 상기 제3 스코어를 합산한 최종 스코어를 산출하고, 상기 산출된 최종 스코어에 기반하여 상기 복수의 엔티티들에 대한 랭킹을 결정하는, 비정형 데이터 분석 장치.
12. The apparatus according to claim 11,
Calculating a third score by summing the first score and the second score for the one or more words, and calculating a final score summing the third score for the one or more words corresponding to each of the plurality of entities And determines a ranking for the plurality of entities based on the calculated final score.
제11항에 있어서, 상기 스코어 산출부는,
토픽 모델링 기법을 이용하여 상기 제1 스코어를 산출하는, 비정형 데이터 분석 장치.
12. The apparatus according to claim 11,
Wherein the first score is calculated using a topic modeling technique.
제11항에 있어서, 상기 스코어 산출부는,
단어 색인 기법을 이용하여 상기 제2 스코어를 산출하는, 비정형 데이터 분석 장치.
12. The apparatus according to claim 11,
And calculates the second score using a word index technique.
미리 정의된 복수의 엔티티들(entities)에 관련된 비정형 데이터를 수집하고,
상기 수집된 비정형 데이터를 분석하여 하나 이상의 단어를 추출하고,
상기 추출된 하나 이상의 단어를 비교하여 상기 하나 이상의 단어간의 연관성을 나타내는 스코어(score)를 산출하며,
상기 산출된 스코어에 기반하여 상기 복수의 엔티티들에 대한 랭킹(ranking)을 결정하는, 비정형 데이터 분석 방법을 제공하는 명령어들을 저장하는 컴퓨터 판독 가능 기록매체.
Collecting atypical data related to a plurality of predefined entities,
Analyzing the collected atypical data to extract one or more words,
Comparing the extracted one or more words to calculate a score indicating a relation between the one or more words,
And determining a ranking for the plurality of entities based on the calculated score. ≪ Desc / Clms Page number 21 >
KR1020170148120A 2017-11-08 2017-11-08 Method for analyzing unstructured data and apparatus using the same KR20190052437A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170148120A KR20190052437A (en) 2017-11-08 2017-11-08 Method for analyzing unstructured data and apparatus using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170148120A KR20190052437A (en) 2017-11-08 2017-11-08 Method for analyzing unstructured data and apparatus using the same

Publications (1)

Publication Number Publication Date
KR20190052437A true KR20190052437A (en) 2019-05-16

Family

ID=66672138

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170148120A KR20190052437A (en) 2017-11-08 2017-11-08 Method for analyzing unstructured data and apparatus using the same

Country Status (1)

Country Link
KR (1) KR20190052437A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210029007A (en) * 2019-09-05 2021-03-15 군산대학교산학협력단 Information Classification Method Based on Deep-Learning And Apparatus Thereof

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210029007A (en) * 2019-09-05 2021-03-15 군산대학교산학협력단 Information Classification Method Based on Deep-Learning And Apparatus Thereof

Similar Documents

Publication Publication Date Title
US9720904B2 (en) Generating training data for disambiguation
US9923860B2 (en) Annotating content with contextually relevant comments
US11281860B2 (en) Method, apparatus and device for recognizing text type
JP6224731B2 (en) Method and apparatus for enriching social media to improve personal user experience
JP6662119B2 (en) Method, program, and server device for generating caption of social media post
US9710437B2 (en) Group tagging of documents
US9996504B2 (en) System and method for classifying text sentiment classes based on past examples
CN103577452A (en) Website server and method and device for enriching content of website
JP2019519019A5 (en)
KR101735312B1 (en) Apparatus and system for detecting complex issues based on social media analysis and method thereof
CN107894994A (en) A kind of method and apparatus for detecting much-talked-about topic classification
US20210319035A1 (en) Machine learning system and method to map keywords and records into an embedding space
US20220121668A1 (en) Method for recommending document, electronic device and storage medium
CN115757991A (en) Webpage identification method and device, electronic equipment and storage medium
US20170235835A1 (en) Information identification and extraction
Hogenboom et al. Lexicon-based sentiment analysis by mapping conveyed sentiment to intended sentiment
KR20190052437A (en) Method for analyzing unstructured data and apparatus using the same
CN113722593B (en) Event data processing method, device, electronic equipment and medium
Meng et al. A deep multi-modal fusion approach for semantic place prediction in social media
US20220358293A1 (en) Alignment of values and opinions between two distinct entities
CN112926297B (en) Method, apparatus, device and storage medium for processing information
Yu et al. A semi-supervised learning approach for microblog sentiment classification
KR102041915B1 (en) Database module using artificial intelligence, economic data providing system and method using the same
CN110147488B (en) Page content processing method, processing device, computing equipment and storage medium
Wang et al. A rough set approach to online customer’s review mining

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application