KR20190052437A - Method for analyzing unstructured data and apparatus using the same - Google Patents
Method for analyzing unstructured data and apparatus using the same Download PDFInfo
- Publication number
- KR20190052437A KR20190052437A KR1020170148120A KR20170148120A KR20190052437A KR 20190052437 A KR20190052437 A KR 20190052437A KR 1020170148120 A KR1020170148120 A KR 1020170148120A KR 20170148120 A KR20170148120 A KR 20170148120A KR 20190052437 A KR20190052437 A KR 20190052437A
- Authority
- KR
- South Korea
- Prior art keywords
- score
- word
- words
- data
- entities
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
Abstract
Description
본 발명은 비정형 데이터를 분석하는 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for analyzing atypical data.
컴퓨터, 스마트폰, 통신 등의 IT 관련 기술이 비약적으로 발달함에 따라 다양한 분야에서 대량의 정보가 발생하고 있으며, 정보의 양은 계속적으로 증가할 것으로 예측되고 있다. 이러한 대량의 정보는, 가까운 미래를 예측하거나 새로운 비즈니스를 창출하는 등 다양한 분야에서 활용되어 새로운 가치를 창출할 수 있는 자원이기 때문에 단순한 데이터가 아니라 빅데이터 산업이라는 독립적인 산업 분야로서 자리매김을 하고 있다. 최근에는 초고속 네트워크 기반의 온라인 소셜 서비스 및 대용량 멀티미디어 서비스 등이 급속하게 발전하면서 온라인 소셜 서비스 및 대용량 멀티미디어 서비스 등에서 발생되는 비정형 데이터를 이용한 데이터 분석에 대한 관심이 높아지고 있다. 비정형 데이터는 정형화되지 않은 데이터로서, 텍스트 문서, 이미지, 동영상, 음성 데이터 등을 예로 들 수 있다. 이러한 대용량의 비정형 데이터는 온라인뿐만 아니라, 금융, 통신, 전력 등의 각 산업 분야에서도 계속적으로 발생되고 있다.As the IT related technologies such as computers, smart phones, and telecommunication are developed rapidly, a large amount of information is generated in various fields, and the amount of information is expected to continuously increase. Such a large amount of information is a resource that can be used in various fields such as forecasting the near future or creating new business and creating new value, so it is positioned as an independent industrial field of big data industry rather than simple data . In recent years, online social services based on high-speed networks and large-scale multimedia services have rapidly developed, and interest in data analysis using unstructured data generated in online social services and large-capacity multimedia services is increasing. Unstructured data is unformatted data such as text documents, images, moving images, audio data, and the like. Such large-volume unstructured data is continuously generated not only in the online but also in various industrial fields such as finance, communication, and electric power.
일반적으로 비정형 데이터를 이용한 데이터 분석은 사전에 정해진 의미 있는 단어인 엔티티에 관련된 적어도 하나의 도큐먼트를 사전 학습을 통해서 어떠한 키워드가 많이 사용되었는지를 판단하고, 판단 결과에 따라 엔티티에 특성을 부여하였다. 예를 들어, 엔티티는 특정 인물, 브랜드 및 상품 등을 포함하고, 도큐먼트는 엔티티에 관련된 웹 페이지(webpage), SNS(social network service), 이메일(e-mail) 및 어플리케이션(application) 등을 포함할 수 있다.Generally, in data analysis using unstructured data, at least one document related to an entity, which is a meaningful word determined in advance, is used to determine which keyword is used frequently through prior learning, and attributes are given to the entity according to the determination result. For example, an entity may include a specific person, a brand, a commodity, etc., and the document may include a webpage, an SNS (social network service), an e-mail and an application related to the entity .
이러한 경우, 각 엔티티에 대한 원하는 정보를 제공할 수 있지만, 사용자가 다양한 엔티티들 중 어떠한 엔티티가 대중에게 인기가 있는지를 알고 싶어도 이러한 정보를 제공할 수 없다는 문제점이 있다.In this case, although it is possible to provide desired information for each entity, there is a problem that the user can not provide such information even if he wants to know which of the various entities is popular with the public.
본 발명이 해결하고자 하는 과제는 상술한 바와 같은 문제점을 해결하기 위한 데이터 분석 방법 및 장치를 제공하는 것이다. SUMMARY OF THE INVENTION The present invention provides a data analysis method and apparatus for solving the above problems.
구체적으로, 본 발명이 해결하고자 하는 과제는 복수의 엔티티들에 관련된 비정형 데이터를 분석하여 각 엔티티의 랭킹을 결정할 수 있는 데이터 분석 방법 및 장치를 제공하는 것이다. In particular, it is an object of the present invention to provide a data analysis method and apparatus capable of analyzing atypical data related to a plurality of entities and determining ranking of each entity.
본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The problems of the present invention are not limited to the above-mentioned problems, and other problems not mentioned can be clearly understood by those skilled in the art from the following description.
전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 데이터 분석 방법이 제공된다. 데이터 분석 방법은 미리 정의된 복수의 엔티티들(entities)에 관련된 비정형 데이터를 수집하는 단계, 수집된 비정형 데이터를 분석하여 하나 이상의 단어를 추출하는 단계, 추출된 하나 이상의 단어를 비교하여 하나 이상의 단어별로 비교 결과를 나타내는 스코어(score)를 산출하는 단계 및 산출된 스코어에 기반하여 복수의 엔티티들에 대한 랭킹(ranking)을 결정하는 단계를 포함한다.In order to solve the above problems, a data analysis method according to an embodiment of the present invention is provided. A data analysis method includes collecting unstructured data associated with a plurality of predefined entities, extracting one or more words by analyzing the collected unstructured data, comparing the extracted one or more words, Calculating a score indicating a result of the comparison, and determining a ranking for the plurality of entities based on the calculated score.
전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 데이터 분석 장치가 제공된다. 데이터 분석 장치는 미리 정의된 복수의 엔티티들(entities)에 관련된 비정형 데이터를 수집하는 데이터 수집부, 수집된 비정형 데이터를 분석하여 하나 이상의 단어를 추출하는 단어 추출부, 추출된 하나 이상의 단어를 비교하여 하나 이상의 단어별로 비교 결과를 나타내는 스코어(score)를 산출하는 스코어 산출부 및 산출된 스코어에 기반하여 복수의 엔티티들에 대한 랭킹(ranking)을 결정하는 랭킹 결정부를 포함한다.According to an aspect of the present invention, there is provided an apparatus for analyzing data according to an embodiment of the present invention. The data analysis apparatus includes a data collection unit for collecting unstructured data related to a plurality of predefined entities, a word extraction unit for analyzing the collected irregular data and extracting one or more words, A score calculation unit for calculating scores indicating comparison results of one or more words, and a ranking determination unit for determining a ranking for a plurality of entities based on the calculated scores.
기타 실시예의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.The details of other embodiments are included in the detailed description and drawings.
본 발명은 본 발명은 복수의 엔티티들에 대한 비정형 데이터를 수집하고, 수집된 비정형 데이터를 분석하여 각 엔티티의 랭킹을 결정함으로써, 비정형 데이터에서의 각 엔티티에 대한 인기(popularity)를 편리하고 손쉽게 확인할 수 있다.The present invention provides a method and system for collecting unstructured data for a plurality of entities and analyzing the collected unstructured data to determine the rankings of the entities so that the popularity of each entity in the unstructured data can be conveniently and easily confirmed .
본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.The effects according to the present invention are not limited by the contents exemplified above, and more various effects are included in the specification.
도 1은 본 발명의 일 실시예에 따른 데이터 분석 시스템을 설명하기 위한 개략도이다.
도 2는 본 발명의 일 실시예에 따른 데이터 분석 장치를 설명하기 위한 개략도이다.
도 3은 본 발명의 일 실시예에 따른 데이터 분석 방법을 설명하기 위한 개략적인 순서도이다.
도 4는 본 발명의 일 실시예에 따른 스코어를 산출하는 방법을 설명하기 위한 개략적인 순서도이다.
도 5는 본 발명의 일 실시예에 따른 복수의 엔티티들에 대한 랭킹을 결정하는 방법을 설명하기 위한 개략적인 순서도이다.
도 6a, 도 6b, 도 6c, 도 6d, 도 6e 및 도 6f는 본 발명의 일 실시예에 따른 데이터를 분석하는 방법을 설명하기 위한 예시도들이다.
도 7은 본 발명의 일 실시예에 따른 데이터 분석 장치를 설명하기 위한 개략도이다.1 is a schematic diagram for explaining a data analysis system according to an embodiment of the present invention.
2 is a schematic diagram for explaining a data analysis apparatus according to an embodiment of the present invention.
3 is a schematic flowchart for explaining a data analysis method according to an embodiment of the present invention.
4 is a schematic flowchart for explaining a method of calculating a score according to an embodiment of the present invention.
5 is a schematic flow diagram illustrating a method for determining ranking for a plurality of entities in accordance with an embodiment of the present invention.
6A, 6B, 6C, 6D, 6E and 6F are diagrams for explaining a method of analyzing data according to an embodiment of the present invention.
7 is a schematic diagram for explaining a data analysis apparatus according to an embodiment of the present invention.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.BRIEF DESCRIPTION OF THE DRAWINGS The advantages and features of the present invention and the manner of achieving them will become apparent with reference to the embodiments described in detail below with reference to the accompanying drawings. It should be understood, however, that the invention is not limited to the disclosed embodiments, but is capable of many different forms and should not be construed as limited to the embodiments set forth herein. Rather, these embodiments are provided so that this disclosure will be thorough and complete, To fully disclose the scope of the invention to those skilled in the art, and the invention is only defined by the scope of the claims.
비록 제1, 제2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.Although the first, second, etc. are used to describe various components, it goes without saying that these components are not limited by these terms. These terms are used only to distinguish one component from another. Therefore, it is needless to say that the first component mentioned below may be the second component within the technical spirit of the present invention.
명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.Like reference numerals refer to like elements throughout the specification.
본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.It is to be understood that each of the features of the various embodiments of the present invention may be combined or combined with each other partially or entirely and technically various interlocking and driving is possible as will be appreciated by those skilled in the art, It may be possible to cooperate with each other in association.
본 명세서에서, 본 발명의 일 실시예에 따른 데이터 분석 장치는 제한되지 않고, 데이터를 분석할 수 있는 모든 장치를 포함할 수 있다. 예를 들어, 데이터 분석 장치는 범용 컴퓨터, 랩탑, 네트워크 연결형 저장소, 데이터 서버, 모바일 디바이스(예: 스마트폰, 테블릿 디바이스) 등을 포함할 수 있다. 또한, 데이터 분석 장치에 데이터 분석을 위한 소프트웨어가 탑제되고, 탑체된 소프트웨어에 통해서 데이터 분석이 수행될 수 있다. 이하에서는 설명의 편의를 위해, 데이터 분석 장치는 데이터를 분석하여 결과를 제공하는 데이터 서버로 설명하나 이에 제한되지 않고 본 발명이 구현되는 방식은 다양할 수 있다.In this specification, a data analysis apparatus according to an embodiment of the present invention is not limited, and may include any apparatus capable of analyzing data. For example, the data analysis device may include a general purpose computer, a laptop, a network-connected storage, a data server, a mobile device (e.g., a smart phone, a tablet device), and the like. In addition, software for data analysis is installed in the data analysis apparatus, and data analysis can be performed through the loaded software. Hereinafter, for convenience of explanation, the data analysis apparatus will be described as a data server that analyzes data and provides results, but the present invention is not limited thereto and the manner in which the present invention is implemented may vary.
이하, 첨부된 도면을 참조하여 본 발명의 다양한 실시예들을 상세히 설명한다.Various embodiments of the present invention will now be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 일 실시예에 따른 데이터 분석 시스템을 설명하기 위한 개략도이다. 1 is a schematic diagram for explaining a data analysis system according to an embodiment of the present invention.
도 1을 참조하면, 데이터 분석 장치(100)는 통신 네트워크(120)를 통해 복수의 엔티티들에 관련된 비정형 데이터를 수집하여 분석하고, 분석 결과를 제공하는 데이터 분석 장치(100) 및 분석 결과를 제공받는 적어도 하나의 클라이언트 장치(110)가 도시된다. 상기 엔티티는 사전에 정의한 의미가 있는 단어로서, 예를 들어, 특정 인물, 브랜드 및 상품 등을 포함할 수 있다. 상기 엔티티는 예시로 언급한 단어만으로 한정되지 않으며, 어떠한 유의미한 단어도 될 수 있다.Referring to FIG. 1, a
데이터 분석 장치(100)는 각 엔티티에 관련된 적어도 하나의 도큐먼트(document)로부터 비정형 데이터를 수집하고, 수집된 비정형 데이터를 분석하여 하나 이상의 단어(또는 자연어)를 추출한다. 상기 도큐먼트는 파일, 파일들의 조합, 다른 파일에 내장된 링크를 갖는 하나 이상의 파일일 수 있다. 하나 이상의 파일은 텍스트, HTML, XML, 오디오, 이미지, 비디오 등과 같은 임의의 타입일 수 있다. 예를 들어, 도큐먼트는 웹 페이지, SNS, 이메일 및 어플리케이션 등을 포함할 수 있다.The
데이터 분석 장치(100)는 추출된 적어도 하나의 단어를 비교하여 비교 데이터를 산출하고, 산출된 비교 데이터를 기반으로 복수의 엔티티들간의 랭킹(ranking)을 결정한다. 예를 들어, 비교 데이터는 각 단어의 빈도수 및 단어간의 유사성을 나타내는 데이터를 포함할 수 있다. 상기 데이터 분석 장치(100)는 복수의 엔티티들에 대한 랭킹 정보를 포함하는 분석 결과를 적어도 하나의 클라이언트(110)로 제공할 수 있다.The
도 2는 본 발명의 일 실시예에 따른 데이터 분석 장치를 설명하기 위한 개략도이다. 도 2를 참조하면, 데이터 분석 장치(100)는 데이터 분석 장치(100)는 데이터 수집부(102), 단어 추출부(104), 스코어 산출부(106) 및 랭킹 결정부(108)를 포함한다.2 is a schematic diagram for explaining a data analysis apparatus according to an embodiment of the present invention. 2, the
데이터 수집부(102)는 복수의 엔티티들에 관련된 비정형 데이터를 수집한다. 각 엔티티는 적어도 하나의 도큐먼트와 사전에 매칭되고, 상기 적어도 하나의 도큐먼트로부터 비정형 데이터가 수집될 수 있다. 예를 들어, 제1 브랜드는 제1 도큐먼트 및 제2 도큐먼트와 매칭되고, 데이터 수집부(102)는 제1 브랜드에 대한 비정형 데이터를 제1 도큐먼트 및 제2 도큐먼트로부터 수집할 수 있다. 상기 비정형 데이터는, 예를 들어, 제1 도큐먼트가 제1 브랜드에 관련된 블로그인 경우 블로그에 개시된 글 및 댓글 등을 포함하고, 제2 도큐먼트가 제1 브랜드에 관련된 웹 사이트인 경우 웹 사이트에 개시된 문의글 및 리뷰 등을 포함할 수 있다. The
본 발명의 다양한 실시예에 따르면, 데이터 수집부(102)는 비정형 데이터를 수집할 때 비정형 데이터의 종류, 위치, 작성자에 대한 정보, 수집 날짜, 비정형 데이터가 생성된 데이터 생성 날짜 등 중 적어도 하나를 포함하는 메타 데이터(metadata)를 더 수집할 수 있다. According to various embodiments of the present invention, when collecting irregular data, the
단어 추출부(104)는 수집된 비정형 데이터를 분석하여 하나 이상의 단어를 추출한다. 예를 들어, 단어 추출부(104)는 제1 브랜드에 관련된 블로그의 게시글 및 댓글 등으로부터 하나 이상의 단어를 추출할 수 있다. The
스코어 산출부(106)는 추출된 하나 이상의 단어를 비교하여 각 단어별로 비교 결과를 나타내는 스코어를 산출한다. 구체적으로, 스코어 산출부(106)는 추출된 하나 이상의 단어를 토픽별로 분류하고, 분류된 하나 이상의 단어 각각에 대한 빈도수를 나타내는 제1 스코어 및 분류된 하나 이상의 단어 간의 연관성을 나타내는 제2 스코어를 산출한다. 상기 스코어 산출부(106)는 LDA(Latent Dirichlet Allocation) 기법 등과 같은 토픽 모델링 기법을 이용하여 각 단어별 제1 스코어를 산출하고, TF-IDF(Term Frequency-Inverse Document Frequency) 기법 등과 같은 단어 색인 기법을 이용하여 각 단어별 제2 스코어를 산출할 수 있다.The
예를 들어, 제1 토픽에 대응하여 단어1, 단어2, 단어3이 분류된 경우, 랭킹 결정부(108)는 단어1의 빈도수를 나타내는 단어1의 제1 스코어, 단어2의 빈도수를 나타내는 단어2의 제2 스코어 및 단어3의 빈도수를 나타내는 단어3의 제3 스코어를 산출할 수 있다. 상기 랭킹 결정부(108)는 단어1과 단어2을 비교하여 단어1과 단어2간의 연관성을 나타내는 스코어1-1을 산출하고, 단어1과 단어3을 비교하여 단어1과 단어3간의 연관성을 나타내는 스코어1-2를 산출한다. 상기 랭킹 결정부(108)는 단어2와 단어1를 비교하여 단어2와 단어1간의 연관성을 나타내는 스코어2-1을 산출하고, 단어2와 단어3을 비교하여 단어2와 단어3간의 연관성을 나타내는 스코어2-2를 산출한다. 또한, 랭킹 결정부(108)는 단어3과 단어1을 비교하여 단어3과 단어1간의 연관성을 나타내는 스코어3-1을 산출하고, 단어3과 단어2를 비교하여 단어3과 단어2간의 연관성을 나타내는 스코어3-2를 산출한다. 상기 단어1의 제2 스코어는 스코어1-1과 스코어1-2를 합산한 스코어이고, 단어2의 제2 스코어는 스코어2-1과 스코어2-2를 합산한 스코어이며, 단어3의 제2 스코어는 스코어3-1과 스코어3-2를 합산한 스코어일 수 있다.For example, when
다음으로, 랭킹 결정부(108)는 하나 이상의 단어별로 제1 스코어 및 제2 스코어를 합산한 제3 스코어를 산출한다. 본 발명의 다양한 실시예에 따르면, 랭킹 결정부(108)는 “Ts = a × Fs + b × Ss1.97”와 같은 수식을 이용하여 제3 스코어를 산출할 수 있다. 여기서, Ts는 제3 스코어이고, a, b는 가중치이고, Fs는 제1 스코어이며, Ss는 제2 스코어일 수 있다.Next, the
상기 랭킹 결정부(108)는 복수의 엔티티들 각각에 대응하여 하나 이상 단어별로 산출된 제3 스코어를 합산한 최종 스코어를 산출하고, 산출된 최종 스코어에 기반하여 복수의 엔티티들에 대한 랭킹을 결정할 수 있다. 예를 들어, 엔티티1에 대응하는 하나 이상의 단어가 단어1, 단어2이고, 엔티티2에 대응하는 하나 이상의 단어가 단어3, 단어4인 경우, 랭킹 결정부(108)는 단어1의 제3 스코어와 단어2의 제3 스코어를 합산하여 엔티티1에 대한 최종 스코어로 산출하고, 단어3의 제3 스코어와 단어4의 제3 스코어를 합산하여 엔티티2에 대한 최종 스코어로 산출할 수 있다. 엔티티1의 최종 스코어가 엔티티2의 최종 스코어보다 크면 엔티티1은 엔티티2보다 높은 랭킹으로 결정될 수 있다.The
도 3은 본 발명의 일 실시예에 따른 데이터 분석 방법을 설명하기 위한 개략적인 순서도이다. 도 3을 참조하면, 데이터 분석 장치(100)는 미리 정의된 복수의 엔티티들에 관련된 비정형 데이터를 수집한다(S300). 예를 들어, 복수의 엔티티들 각각에 매칭된 적어도 하나의 도큐먼트로부터 비정형 데이터가 수집될 수 있다. 이러한 비정형 데이터는 적어도 하나의 도큐먼트에 해당하는 웹 페이지로부터 수집된 게시글 또는 댓글, 이메일로부터 수집된 이메일 내용, SNS으로부터 수집된 게시글, 또는 어플리케이션으로부터 수집된 게시글 또는 댓글 등일 수 있다. 다양한 실시예에 따르면, 비정형 데이터를 수집할 때 비정형 데이터의 메타 데이터도 수집될 수 있다. 예를 들어, 비정형 데이터의 메타 데이터는 게시글, 댓글 또는 이메일 내용 등의 위치, 작성자에 대한 정보, 수집 날짜, 또는 게시글, 댓글 또는 이메일 내용 등이 생성된 날짜 등일 수 있다.3 is a schematic flowchart for explaining a data analysis method according to an embodiment of the present invention. Referring to FIG. 3, the
다음으로, 데이터 분석 장치(100)는 수집된 비정형 데이터를 분석하여 하나 이상의 단어를 추출한다(S310). 예를 들어, 데이터 분석 장치(100)는 웹 페이지의 게시글 또는 댓글, 이메일 내용, SNS의 게시글 또는 어플리케이션의 게시글 또는 댓글을 분석하여 하나 이상의 단어를 추출할 수 있다. Next, the
상기 데이터 분석 장치(100)는 추출된 하나 이상의 단어를 비교하여 하나 이상의 단어별로 비교 결과를 나타내는 스코어를 산출한다(S320). 이하에서는, 도 4를 참조하여, 스코어를 산출하는 방법을 보다 구체적으로 설명한다. 도 4는 본 발명의 일 실시예에 따른 스코어를 산출하는 방법을 설명하기 위한 개략적인 순서도이다.The
먼저, 데이터 분석 장치(100)는 추출된 하나 이상의 단어를 토픽별로 분류한다(S400). 예를 들어, 제1 토픽에 대응하여 단어2, 단어6 및 단어10이 분류되고, 제2 토픽에 대응하여 단어3, 단어4 및 단어9가 분류되며, 제3 토픽에 대응하여 단어1, 단어8 및 단어5가 분류될 수 있다. First, the
상기 데이터 분석 장치(100)는 토픽별로 분류된 각 단어에 대한 빈도수를 나타내는 제1 스코어를 산출하고(S410), 토픽별로 분류된 단어를 비교하여 각 단어별로 단어간의 연관성을 나타내는 제2 스코어를 산출한다(S420). 예를 들어, 데이터 분석 장치(410)는 제1 토픽에 대응하여 분류된 단어2와 단어6을 비교하여 단어2와 단어6의 연관성을 나타내는 스코어 및 단어2와 단어10의 연관성을 나타내는 스코어를 산출하고, 산출된 스코어들을 합산하여 단어2의 제2 스코어를 산출할 수 있다. The
다시, 도 3을 참조하면, 데이터 분석 장치(100)는 산출된 스코어에 기반하여 복수의 엔티티들에 대한 랭킹을 결정할 수 있다(S330). 이하에서는, 도 5를 참조하여, 복수의 엔티티들에 대한 랭킹을 결정하는 방법을 보다 구체적으로 설명한다. 도 5는 본 발명의 일 실시예에 따른 복수의 엔티티들에 대한 랭킹을 결정하는 방법을 설명하기 위한 개략적인 순서도이다.Referring again to FIG. 3, the
먼저, 데이터 분석 장치(100)는 적어도 하나의 단어별로 산출된 제1 스코어 및 제2 스코어를 합산한 제3 스코어를 산출한다(S500). 예를 들어, 단어2의 제1 스코어 및 제2 스코어를 합산한 제3 스코어가 산출될 수 있다. First, the
상기 데이터 분석 장치(100)는 복수의 엔티티들 각각에 대응하는 적어도 하나의 단어에 대한 제3 스코어를 합산한 최종 스코어를 산출한다(S510). 예를 들어, 엔티티1가 도큐먼트1 및 도큐먼트2와 대응하는 경우 도큐먼트1로부터 추출된 단어2, 6, 10의 제3 스코어들과 도큐먼트2로부터 추출된 단어3, 4, 9의 제3 스코어들이 합산되어 엔티티1의 최종 스코어로 산출될 수 있다.The
상기 데이터 분석 장치(100)는 산출된 최종 스코어에 기반하여 복수의 엔티티들에 대한 랭킹을 결정할 수 있다(520). 예를 들어, 데이터 분석 장치(100)는 엔티티1, 엔티티2 및 엔티티3의 최종 스코어를 비교하여 최대 스코어를 가지는 엔티티를 가장 높은 랭킹으로 결정할 수 있다. The
도 6a, 도 6b, 도 6c, 도 6d, 도 6e 및 도 6f는 본 발명의 일 실시예에 따른 데이터를 분석하는 방법을 설명하기 위한 예시도들이다. 도 6a을 참조하면, 데이터 분석 장치(100)는 복수의 엔티티들(예: 엔티티1, 엔티티2, 엔티티3)에 관련된 복수의 도큐먼트들(예: 도큐먼트1, 도큐먼트2, 도큐먼트3, 도큐먼트4, 도큐먼트5)로부터 비정형 데이터를 수집한다. 예를 들어, 비정형 데이터는 “단어1은 단어2를 단어3해서 단어4했다”, “단어4, 단어8, 단어9로 단어10했다”, “단어5는 단어6과 단어8을 단어9했다.”, “단어1과 단어3은 단어5, 단어6이다”와 같이 하나 이상의 단어를 포함할 수 있다.6A, 6B, 6C, 6D, 6E and 6F are diagrams for explaining a method of analyzing data according to an embodiment of the present invention. 6A, a
도 6b를 참조하면, 데이터 분석 장치(100)는 복수의 도큐먼트들 각각으로부터 하나 이상의 단어를 추출한다. 예를 들어, 도큐먼트1에서 “단어1, 단어2, 단어3, 단어4”가 추출되고, 도큐먼트2에서 “단어1, 단어3, 단어5, 단어6”이 추출되고, 도큐먼트3에서 “단어4, 단어8, 단어9, 단어10”이 추출되고, 도큐먼트4에서 “단어2, 단어3, 단어4, 단어6”이 추출되며, 도큐먼트5에서 “단어1, 단어9, 단어8, 단어3, 단어2”가 추출될 수 있다.Referring to FIG. 6B, the
도 6c를 참조하면, 데이터 분석 장치(100)는 추출된 하나 이상의 단어를 토픽별로 분류하고, 토픽별로 분류된 단어 각각에 대한 빈도수를 나타내는 제1 스코어를 산출한다. 예를 들어, “단어2, 단어6, 단어10”이 제1 토픽으로 분류되고, “단어3, 단어4, 단어9”가 제2 토픽으로 분류되며, “단어1, 단어8, 단어5”가 제3 토픽으로 분류될 수 있다. 제1 토픽으로 분류된 단어2의 제1 스코어는 “0.51”, 단어6의 제1 스코어는 “0.26”, 단어10의 제1 스코어는 “0.14”이고, 제2 토픽으로 분류된 단어3의 제1 스코어는 “0.46”, 단어4의 제1 스코어는 “0.23”, 단어9의 제1 스코어는 “0.23”이며, 제3 토픽으로 분류된 단어1의 제1 스코어는 “0.39”, 단어8의 제1 스코어는 “0.27”, 단어5의 제1 스코어는 “0.14”일 수 있다.Referring to FIG. 6C, the
도 6d를 참조하면, 데이터 분석 장치(100)는 토픽별로 분류된 각 단어를 비교하여 비교 스코어를 산출하고, 산출된 비교 스코어를 각 단어별로 합산한 제2 스코어를 산출한다. 예를 들어, 제1 토픽에 대응하여 단어2와 단어6을 비교한 비교 스코어가 “0.59”이고, 단어2와 단어10을 비교한 비교 스코어가 “0.80”이고, 단어 6과 단어2를 비교한 비교 스코어가 “0.59”이고, 단어2와 단어6을 비교한 비교 스코어가 “0”이고, 단어10과 단어2를 비교한 비교 스코어가 “0.80”이고, 단어10과 단어6을 비교한 비교 스코어가 “0”일 수 있다. 이러한 경우, 단어2의 제2 스코어는 “1.39”, 단어6의 제2 스코어는 “0.59”, 단어10의 제2 스코어는 “0.80”일 수 있다. 또한, 제2 토픽에 대응하여 단어3와 단어4를 비교한 비교 스코어가 “0.54”이고, 단어3와 단어9를 비교한 비교 스코어가 “0.55”이고, 단어4와 단어3을 비교한 비교 스코어가 “0.54”이고, 단어4와 단어9를 비교한 비교 스코어가 “1.20”이고, 단어9와 단어3을 비교한 비교 스코어가 “0.55”이고, 단어9와 단어4를 비교한 비교 스코어가 “1.20”일 수 있다. 이러한 경우, 단어3의 제2 스코어는 “1.09”, 단어4의 제2 스코어는 “1.74”, 단어9의 제2 스코어는 “1.75”일 수 있다. 다음으로, 제3 토픽에 대응하여 단어1과 단어8을 비교한 비교 스코어가 “0.64”이고, 단어1과 단어5를 비교한 비교 스코어가 “0.64”이고, 단어8과 단어1을 비교한 비교 스코어가 “0.64”이고, 단어8과 단어5를 비교한 비교 스코어가 “0.16”이고, 단어5와 단어1을 비교한 비교 스코어가 “0.64”이고, 단어5와 단어8을 비교한 비교 스코어가 “0.16”일 수 있다. 이러한 경우, 단어1의 제2 스코어는 “1.28”, 단어8의 제2 스코어는 “0.80”, 단어5의 제2 스코어는 “0.80”일 수 있다.Referring to FIG. 6D, the
도 6e를 참조하면, 데이터 분석 장치(100)는 제1 스코어와 제2 스코어를 합산한 제3 스코어를 산출한다. 예를 들어, 단어2의 제3 스코어는 “1.09”이고, 단어6의 제3 스코어는 “0.85”이고, 단어10의 제3 스코어는 “0.94”이고, 단어3의 제3 스코어는 “1.55”이고, 단어4의 제3 스코어는 “1.97”이고, 단어9의 제3 스코어는 “1.98”이고, 단어1의 제3 스코어는 “1.67”이고, 단어8의 제3 스코어는 “1.07”이며, 단어5의 제3 스코어는 “0.94”일 수 있다.Referring to FIG. 6E, the
도 6f를 참조하면, 데이터 분석 장치(100)는 복수의 엔티티들 각각에 대응하는 하나 이상의 단어들의 제3 스코터의 총합을 최종 스코어로 산출하고, 산출된 최종 스코어에 기반하여 각 엔티티별 랭킹을 결정한다. 예를 들어, 엔티티1에 대응하는 단어1, 단어2, 단어3, 단어4, 단어5 및 단어6의 제3 스코어들의 총합인 “9.88”이 엔티티1의 최종 스코어로 산출되고, 엔티티2에 대응하는 단어2, 단어3, 단어4, 단어6, 단어8, 단어10의 제3 스코어들의 총합인 “10.26”이 엔티티2의 최종 스코어로 산출되며, 엔티티3에 대응하는 단어1, 단어2, 단어3, 단어6, 단어8, 단어9의 제3 스코어들의 총합인 “7.95”가 엔티티3의 최종 스코어로 산출될 수 있다. 이러한 경우, 복수의 엔티티들 중 랭킹 1위는 엔티티2이고, 랭킹 2위는 엔티티1이며, 랭킹 3위는 엔티티3일 수 있다.Referring to FIG. 6F, the
도 7은 본 발명의 일 실시예에 따른 데이터 분석 장치를 설명하기 위한 개략도이다. 도 2를 참조하면, 데이터 분석 장치(700)는 통신부(710), 저장부(720) 및 프로세서(730)를 포함한다.7 is a schematic diagram for explaining a data analysis apparatus according to an embodiment of the present invention. Referring to FIG. 2, the
통신부(710)는 데이터 분석 장치(700)가 외부 장치와 통신 가능하도록 연결한다. 예를 들어, 통신부(710)는 무선 네트워크를 통해 적어도 하나의 외부 장치와 연결하고, 적어도 하나의 외부 장치로부터 비정형 데이터를 수신할 수 있다.The
저장부(720)는 통신부(110)를 통해 수신된 비정형 데이터를 저장하고, 비정형 데이터에 대한 분석을 위해 사용되는 다양한 데이터를 저장하도록 구성될 수 있다. 예를 들어, 저장부(720)는 비정형 데이터의 메타 데이터 또는 비정형 데이터를 분석하기 위한 알고리즘 등을 저장할 수 있다.The
프로세서(730)는 통신부(710) 및 저장부(720)와 동작가능하게 연결되고, 비정형 데이터를 분석하기 위한 다양한 명령들을 수행한다. 이하에서는 비정형 데이터를 분석하는 동작에 대해서 간략하게 설명한다. 프로세서(730)는 통신부(110)를 통해 수신된 복수의 엔티티들 각각에 관련된 적어도 하나의 도큐먼트로부터 비정형 데이터를 수집하고, 수집된 비정형 데이터를 분석하여 하나 이상의 단어를 추출한다. 다음으로, 프로세서(730)는 추출된 하나 이상의 단어를 비교하여 비교 결과를 나타내는 스코어를 산출하고, 산출된 스코어에 기반하여 복수의 엔티티들 각각에 대한 랭킹을 결정한다. 결정된 랭킹은 통신부(110)를 통해 적어도 하나의 클라이언트로 제공될 수 있다.
이와 같이 본 발명은 복수의 엔티티들에 대한 비정형 데이터를 수집하고, 수집된 비정형 데이터를 분석하여 각 엔티티의 랭킹을 결정함으로써, 비정형 데이터에서의 각 엔티티에 대한 인기(popularity)를 손쉽게 확인할 수 있다.Thus, the present invention can easily check the popularity of each entity in the unstructured data by collecting the unstructured data for a plurality of entities and analyzing the collected unstructured data to determine the ranking of each entity.
본 발명의 실시예에 따른 장치 및 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.The apparatus and method according to embodiments of the present invention may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium. The computer readable medium may include program instructions, data files, data structures, and the like, alone or in combination.
컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 또한 상술한 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.Program instructions to be recorded on a computer-readable medium may be those specially designed and constructed for the present invention or may be available to those skilled in the computer software arts. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Includes hardware devices specifically configured to store and execute program instructions such as magneto-optical media and ROM, RAM, flash memory, and the like. The above-mentioned medium may also be a transmission medium such as a light or metal wire, wave guide, etc., including a carrier wave for transmitting a signal designating a program command, a data structure and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like.
상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형 실시될 수 있다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.Although the embodiments of the present invention have been described in detail with reference to the accompanying drawings, it is to be understood that the present invention is not limited to those embodiments and various changes and modifications may be made without departing from the scope of the present invention. . Therefore, the embodiments disclosed in the present invention are intended to illustrate rather than limit the scope of the present invention, and the scope of the technical idea of the present invention is not limited by these embodiments. Therefore, it should be understood that the above-described embodiments are illustrative in all aspects and not restrictive. The scope of protection of the present invention should be construed according to the following claims, and all technical ideas within the scope of equivalents should be construed as falling within the scope of the present invention.
100: 데이터 분석 장치
102: 데이터 수집부
104: 단어 추출부
106: 스코어 산출부
108: 랭킹 결정부
110: 적어도 하나의 클라이언트 장치
120: 통신 네트워크100: Data analysis device
102: Data collecting unit
104: word extracting unit
106: score calculation unit
108: Ranking decision unit
110: at least one client device
120: communication network
Claims (15)
상기 수집된 비정형 데이터를 분석하여 하나 이상의 단어를 추출하는 단계;
상기 추출된 하나 이상의 단어를 비교하여 상기 하나 이상의 단어별로 비교 결과를 나타내는 스코어(score)를 산출하는 단계; 및
상기 산출된 스코어에 기반하여 상기 복수의 엔티티들에 대한 랭킹(ranking)을 결정하는 단계를 포함하는, 비정형 데이터 분석 방법.Collecting atypical data related to a plurality of predefined entities;
Analyzing the collected atypical data to extract one or more words;
Comparing the extracted one or more words to calculate a score indicating a comparison result for each of the one or more words; And
And determining a ranking for the plurality of entities based on the calculated score.
상기 복수의 엔티티들과 사전에 매칭된 적어도 하나의 도큐먼트로부터 상기 비정형 데이터를 수집하는 단계를 포함하는, 비정형 데이터 분석 방법.The method of claim 1, wherein the atypical data collection step comprises:
And collecting the atypical data from at least one document that is pre-matched with the plurality of entities.
상기 하나 이상의 단어를 토픽별로 분류하는 단계;
상기 분류된 하나 이상의 단어에 대한 빈도수를 나타내는 제1 스코어를 산출하는 단계; 및
상기 분류된 하나 이상의 단어간의 연관성을 나타내는 제2 스코어를 산출하는 단계를 포함하는, 비정형 데이터 분석 방법.2. The method according to claim 1,
Classifying the one or more words by topic;
Calculating a first score indicative of a frequency for the one or more words classified; And
And calculating a second score indicative of the association between the one or more words sorted.
상기 하나 이상의 단어별로 상기 제1 스코어 및 상기 제2 스코어를 합산한 제3 스코어를 산출하는 단계;
상기 복수의 엔티티들 각각에 대응하여 상기 하나 이상의 단어에 대한 상기 제3 스코어를 합산한 최종 스코어를 산출하는 단계; 및
상기 산출된 최종 스코어에 기반하여 상기 복수의 엔티티들에 대한 랭킹을 결정하는 단계를 포함하는, 비정형 데이터 분석 방법.5. The method according to claim 4,
Calculating a third score obtained by adding the first score and the second score to the one or more words;
Computing a final score summing the third score for the one or more words corresponding to each of the plurality of entities; And
And determining a ranking for the plurality of entities based on the calculated final score.
상기 수집된 비정형 데이터를 분석하여 하나 이상의 단어를 추출하는 단어 추출부;
상기 추출된 하나 이상의 단어를 비교하여 상기 하나 이상의 단어별로 비교 결과를 나타내는 스코어(score)를 산출하는 스코어 산출부; 및
상기 산출된 스코어에 기반하여 상기 복수의 엔티티들에 대한 랭킹(ranking)을 결정하는 랭킹 결정부를 포함하는, 비정형 데이터 분석 장치.A data collection unit for collecting irregular data related to a plurality of predefined entities;
A word extracting unit for analyzing the collected irregular data and extracting one or more words;
A score calculation unit for comparing the extracted one or more words to calculate a score indicating a comparison result for each of the one or more words; And
And a ranking determiner for determining a ranking for the plurality of entities based on the calculated score.
상기 복수의 엔티티들과 사전에 매칭된 적어도 하나의 도큐먼트로부터 상기 비정형 데이터를 수집하는 단계를 포함하는, 비정형 데이터 분석 방법.9. The data processing apparatus according to claim 8,
And collecting the atypical data from at least one document that is pre-matched with the plurality of entities.
상기 비정형 데이터를 수집할 때, 상기 비정형 데이터의 메타 데이터(metadata)를 더 수집하는, 비정형 데이터 분석 장치.9. The data processing apparatus according to claim 8,
And further collects the meta data of the atypical data when collecting the atypical data.
상기 하나 이상의 단어를 토픽별로 분류하고, 상기 분류된 하나 이상의 단어에 대한 빈도수를 나타내는 제1 스코어를 산출하고, 상기 분류된 하나 이상의 단어간의 연관성을 나타내는 제2 스코어를 산출하는, 비정형 데이터 분석 장치.9. The apparatus according to claim 8,
Classify the one or more words by topics, calculate a first score that represents the frequency for the one or more classified words, and calculate a second score that represents the association between the one or more classified words.
상기 하나 이상의 단어별로 상기 제1 스코어 및 상기 제2 스코어를 합산한 제3 스코어를 산출하고, 상기 복수의 엔티티들 각각에 대응하는 상기 하나 이상의 단어에 대한 상기 제3 스코어를 합산한 최종 스코어를 산출하고, 상기 산출된 최종 스코어에 기반하여 상기 복수의 엔티티들에 대한 랭킹을 결정하는, 비정형 데이터 분석 장치.12. The apparatus according to claim 11,
Calculating a third score by summing the first score and the second score for the one or more words, and calculating a final score summing the third score for the one or more words corresponding to each of the plurality of entities And determines a ranking for the plurality of entities based on the calculated final score.
토픽 모델링 기법을 이용하여 상기 제1 스코어를 산출하는, 비정형 데이터 분석 장치.12. The apparatus according to claim 11,
Wherein the first score is calculated using a topic modeling technique.
단어 색인 기법을 이용하여 상기 제2 스코어를 산출하는, 비정형 데이터 분석 장치.12. The apparatus according to claim 11,
And calculates the second score using a word index technique.
상기 수집된 비정형 데이터를 분석하여 하나 이상의 단어를 추출하고,
상기 추출된 하나 이상의 단어를 비교하여 상기 하나 이상의 단어간의 연관성을 나타내는 스코어(score)를 산출하며,
상기 산출된 스코어에 기반하여 상기 복수의 엔티티들에 대한 랭킹(ranking)을 결정하는, 비정형 데이터 분석 방법을 제공하는 명령어들을 저장하는 컴퓨터 판독 가능 기록매체.Collecting atypical data related to a plurality of predefined entities,
Analyzing the collected atypical data to extract one or more words,
Comparing the extracted one or more words to calculate a score indicating a relation between the one or more words,
And determining a ranking for the plurality of entities based on the calculated score. ≪ Desc / Clms Page number 21 >
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170148120A KR20190052437A (en) | 2017-11-08 | 2017-11-08 | Method for analyzing unstructured data and apparatus using the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170148120A KR20190052437A (en) | 2017-11-08 | 2017-11-08 | Method for analyzing unstructured data and apparatus using the same |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20190052437A true KR20190052437A (en) | 2019-05-16 |
Family
ID=66672138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170148120A KR20190052437A (en) | 2017-11-08 | 2017-11-08 | Method for analyzing unstructured data and apparatus using the same |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20190052437A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210029007A (en) * | 2019-09-05 | 2021-03-15 | 군산대학교산학협력단 | Information Classification Method Based on Deep-Learning And Apparatus Thereof |
-
2017
- 2017-11-08 KR KR1020170148120A patent/KR20190052437A/en not_active Application Discontinuation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210029007A (en) * | 2019-09-05 | 2021-03-15 | 군산대학교산학협력단 | Information Classification Method Based on Deep-Learning And Apparatus Thereof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9720904B2 (en) | Generating training data for disambiguation | |
US9923860B2 (en) | Annotating content with contextually relevant comments | |
US11281860B2 (en) | Method, apparatus and device for recognizing text type | |
JP6224731B2 (en) | Method and apparatus for enriching social media to improve personal user experience | |
JP6662119B2 (en) | Method, program, and server device for generating caption of social media post | |
US9710437B2 (en) | Group tagging of documents | |
US9996504B2 (en) | System and method for classifying text sentiment classes based on past examples | |
CN103577452A (en) | Website server and method and device for enriching content of website | |
JP2019519019A5 (en) | ||
KR101735312B1 (en) | Apparatus and system for detecting complex issues based on social media analysis and method thereof | |
CN107894994A (en) | A kind of method and apparatus for detecting much-talked-about topic classification | |
US20210319035A1 (en) | Machine learning system and method to map keywords and records into an embedding space | |
US20220121668A1 (en) | Method for recommending document, electronic device and storage medium | |
CN115757991A (en) | Webpage identification method and device, electronic equipment and storage medium | |
US20170235835A1 (en) | Information identification and extraction | |
Hogenboom et al. | Lexicon-based sentiment analysis by mapping conveyed sentiment to intended sentiment | |
KR20190052437A (en) | Method for analyzing unstructured data and apparatus using the same | |
CN113722593B (en) | Event data processing method, device, electronic equipment and medium | |
Meng et al. | A deep multi-modal fusion approach for semantic place prediction in social media | |
US20220358293A1 (en) | Alignment of values and opinions between two distinct entities | |
CN112926297B (en) | Method, apparatus, device and storage medium for processing information | |
Yu et al. | A semi-supervised learning approach for microblog sentiment classification | |
KR102041915B1 (en) | Database module using artificial intelligence, economic data providing system and method using the same | |
CN110147488B (en) | Page content processing method, processing device, computing equipment and storage medium | |
Wang et al. | A rough set approach to online customer’s review mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |