KR20150096024A - Social data analysis system for contents recommedation - Google Patents
Social data analysis system for contents recommedation Download PDFInfo
- Publication number
- KR20150096024A KR20150096024A KR1020140016806A KR20140016806A KR20150096024A KR 20150096024 A KR20150096024 A KR 20150096024A KR 1020140016806 A KR1020140016806 A KR 1020140016806A KR 20140016806 A KR20140016806 A KR 20140016806A KR 20150096024 A KR20150096024 A KR 20150096024A
- Authority
- KR
- South Korea
- Prior art keywords
- data
- social data
- domain
- learning
- social
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Abstract
Description
본 발명은 소셜 데이터에 포함되어 있는 콘텐츠에 관한 정보를 분석하여 콘텐츠 추천을 하기 위한, 소셜 데이터 분석 시스템에 관한 것이다. The present invention relates to a social data analysis system for analyzing information about contents included in social data and recommending contents.
본 발명은 방송통신위원회 방송통신기술개발사업의 일환으로 한국전자통신연구원이 주관하고 (주)솔트룩스에서 연구하여 수행된 연구로부터 도출된 것이다.The present invention is derived from research conducted by Korea Electronics and Telecommunications Research Institute and Saltlux Co., Ltd. as part of the broadcasting and communication technology development project of the Korea Communications Commission.
[연구기간 : 2013. 03. 01 ~ 2014. 02. 28, 연구관리 전문기관 : 한국방송통신전파진흥원(KCA), 연구과제명 : Beyond 스마트TV 기술 개발, 과제 고유번호 : 11921-03001][Research period: 2013. 03. 01 ~ 2014. 02. 28, Research institute: KCA, Research title: Beyond smart TV technology development, task number: 11921-03001]
소셜 네트워크가 활성화되면서, 소셜 네트워크를 통하여 생성되는 소셜 데이터가 증가하고 있다. 또한 소셜 네트워크를 통하여 콘텐츠에 대한 이용자의 평가가 포함되는 소셜 데이터도 증가하고 있다. As social networks become active, social data generated through social networks is increasing. In addition, social data including user's evaluation of contents through social networks is also increasing.
이에 따라서 콘텐츠를 추천하기 위하여, 소셜 데이터를 분석하는 방법이 연구되고 있다. 그러나, 소셜 데이터에 대한 분석을 할 경우, 동음이의어나 신조어 등에 대한 정확한 의미를 판단하기가 어려워서 정확한 추천을 하기가 어려운 문제가 있다. Accordingly, in order to recommend contents, a method of analyzing social data is being studied. However, when analyzing social data, it is difficult to make accurate recommendations because it is difficult to determine the exact meaning of homonyms or coined words.
본 발명의 기술적 과제는 상기한 문제점을 해결하기 위하여 소셜 데이터에 대한 정확한 분석을 할 수 있는, 콘텐츠 추천을 위한 소셜 데이터 분석 시스템을 제공하는 데에 있다. SUMMARY OF THE INVENTION The present invention has been made in view of the above problems, and it is an object of the present invention to provide a social data analysis system for content recommendation, which can accurately analyze social data.
상기 기술적 과제를 해결하기 위하여, 소셜 데이터에 대한 정확한 분석을 할 수 있는, 콘텐츠 추천을 위한 소셜 데이터 분석 시스템을 제공한다.In order to solve the above technical problem, a social data analysis system for content recommendation, which can accurately analyze social data, is provided.
본 발명에 따른 소셜 데이터 분석 시스템은 네트워크를 통하여 수집된 소셜 데이터 및 정보 콘텐츠를 분석하여, 도메인 분류를 위한 분석을 수행할 수 있는 규칙 정보를 생성하는 객체 사전 데이터 분석기; 상기 정보 콘텐츠를 분석하여, 도메인 분류를 위한 학습 데이터를 생성하거나, 기 작성된 학습 데이터에 대한 업데이트를 하는 도메인 학습기; 상기 소셜 데이터를 분석하고 정제하여, 상기 소셜 데이터에 대한 메타 데이터를 추출하는 소셜 데이터 분석기; 및 상기 소셜 데이터 분석기에서 추출된 상기 소셜 데이터에 대한 메타 데이터를 상기 객체 사전 데이터 분석기에서 제공하는 상기 규칙 정보와 상기 도메인 학습기에서 제공하는 상기 학습 데이터를 기반으로 분석하여, 상기 소셜 데이터에 대한 도메인을 분류하는 소셜 데이터 도메인 분석기;를 포함한다.The system for analyzing social data according to the present invention comprises: an object dictionary data analyzer for analyzing social data and information contents collected through a network and generating rule information capable of performing analysis for domain classification; A domain learning unit for analyzing the information content to generate learning data for domain classification or updating previously prepared learning data; A social data analyzer for analyzing and refining the social data and extracting metadata about the social data; And analyzing metadata on the social data extracted by the social data analyzer based on the rule information provided by the object dictionary data analyzer and the learning data provided by the domain learning apparatus, And a social data domain analyzer for sorting.
상기 객체 사전 데이터 분석기는, 상기 소셜 데이터 도메인 분석기에서 분석된 상기 소셜 데이터의 도메인 분석 결과를 피드백받아, 상기 소셜 데이터 및 상기 정보 콘텐츠를 분석할 수 있다. The object dictionary data analyzer may analyze the social data and the information content by receiving a domain analysis result of the social data analyzed by the social data domain analyzer.
상기 도메인 학습기는, 상기 소셜 데이터 도메인 분석기에서 분석된 상기 소셜 데이터의 도메인 분석 결과를 피드백받아, 상기 정보 콘텐츠를 분석할 수 있다. The domain learning apparatus may analyze the information content by receiving a domain analysis result of the social data analyzed by the social data domain analyzer.
상기 객체 사전 데이터 분석기는, 상기 네트워크를 통하여 상기 소셜 데이터 및 상기 정보 콘텐츠를 수입하는 객체 사전 데이터 수집기; 수집된 상기 소셜 데이터 및 상기 정보 콘텐츠로부터 정형화된 메타 데이터를 추출하는 객체 사전 메타 데이터 추출기; 및 상기 추출된 메타 데이터로부터 키워드 및 가중치를 포함하는 상기 규칙 정보를 생성하는 규칙 정보 생성 모듈;을 포함할 수 있다. Wherein the object dictionary data analyzer comprises: an object dictionary data collector for importing the social data and the information content through the network; An object dictionary metadata extractor for extracting the collected social data and metadata formatted from the information content; And a rule information generation module for generating the rule information including a keyword and a weight from the extracted metadata.
상기 규칙 정보는 단어 벡터로 이루어질 수 있다. The rule information may be a word vector.
상기 도메인 학습기는, 학습 데이터를 저장하는 학습 데이터 저장소; 상기 네트워크를 통하여 수집된 상기 정보 콘텐츠에 대하여 상기 학습 데이터 저장소에 저장된 상기 학습 데이터를 추천하는 학습 데이터 추천 모듈; 및 상기 정보 콘텐츠와 추천된 상기 학습 데이터를 함께 분석하여, 상기 학습 데이터 저장소에 저장된 상기 학습 데이터를 업데이트하는 데이터 학습 모듈;을 포함할 수 있다. The domain learning apparatus comprising: a learning data storage for storing learning data; A learning data recommendation module for recommending the learning data stored in the learning data storage for the information content collected through the network; And a data learning module for analyzing the information content and the recommended learning data together and updating the learning data stored in the learning data storage.
상기 학습 데이터 저장소에 저장된 상기 학습 데이터는 도메인을 분석 및 분류하기 위하여, 특정 주제에 대한 분류를 나타내는 키워드들을 포함할 수 있다. The learning data stored in the learning data repository may include keywords indicating classification of a specific topic in order to analyze and classify the domain.
상기 소셜 데이터 도메인 분석기는, 상기 규칙 정보를 기반으로, 수집된 상기 소셜 데이터에 대한 분석을 수행하는 규칙 기반 분석기; 상기 학습 데이터를 기반으로, 수집된 상기 소셜 데이터에 대한 분석을 수행하는 학습 기반 분석기; 및 상기 규칙 기반 분석기에서 분석된 결과와 상기 학습 기반 분석기에서 분석된 결과를 통합적으로 분석하는 분석 결과 통합 모듈;을 포함할 수 있다. Wherein the social data domain analyzer comprises: a rule-based analyzer for analyzing the collected social data based on the rule information; A learning-based analyzer for analyzing the collected social data based on the learning data; And And an analysis result integration module for integrally analyzing the results analyzed by the rule-based analyzer and the results analyzed by the learning-based analyzer.
상기 분석 결과 통합 모듈은, 상기 규칙 기반 분석기에서 분석된 결과와 상기 학습 기반 분석기에서 분석된 결과 각각에 대하여 가중치를 적용하여 통합된 랭킹을 형성할 수 있다. As a result of the analysis, the integration module may form an integrated ranking by applying weights to the results analyzed by the rule-based analyzer and the results analyzed by the learning-based analyzer.
상기 네트워크를 통하여 콘텐츠에 대한 정보를 수집하여 수집된 각 콘텐츠에 대하여 메타 데이터를 생성하는 콘텐츠 메타 데이터 수집기; 및 상기 콘텐츠 메타 데이터 수집기에서 생성한 각 콘텐츠에 대한 메타 데이터와 상기 소셜 데이터 도메인 분석기에서 분류한 상기 소셜 데이터에 대한 도메인 분석 결과를 비교하여, 추천한 콘텐츠를 선정하는 콘텐츠 추천기;를 더 포함할 수 있다. A content metadata collector for collecting information on contents through the network and generating metadata for each collected content; And a content recommender for comparing the metadata of each content generated by the content metadata collector with the domain analysis result of the social data classified by the social data domain analyzer to select a recommended content .
상기 콘텐츠 추천기는, 상기 네트워크를 통하여 사용자로부터 원하는 콘텐츠의 정보를 입력받을 수 있으며, 상기 네트워크를 통하여 상기 사용자에게 선정된 상기 추천할 콘텐츠를 제공할 수 있다. The content recommender may receive information of a desired content from the user via the network, and may provide the selected content to the user via the network.
본 발명에 따른 콘텐츠 추천을 위한 소셜 데이터 분석 시스템은 소셜 데이터에 대하여 단순한 주제어 또는 도메인 등만을 분석하는 도메인 분석을 위한 학습 데이터에 의한 도메인 분석뿐만 아니라, 객체 사전으로부터 생성한 규칙 정보에 의한 도메인 분석을 함께 수행하기 때문에, 소셜 데이터에 포함된 키워드들에 대한 정확한 의미를 판단할 수 있다. 또한 신조어나 기존에 도메인을 가지고 있던 키워드에 대하여 새로운 도메인에서의 사용이 생길 경우에도 이를 정확하게 반영하여 의미를 판단할 수 있다. The social data analysis system for content recommendation according to the present invention not only analyzes domains based on learning data for domain analysis that analyzes only simple keywords or domains for social data but also performs domain analysis based on rule information generated from an object dictionary Therefore, it is possible to determine the exact meaning of the keywords included in the social data. Also, when a new keyword or a keyword having an existing domain is used in a new domain, it can be accurately reflected to determine the meaning.
도 1은 본 발명의 일 실시 예에 따른 소셜 데이터 분석 시스템의 구성을 설명하기 위한 개략도이다.
도 2는 본 발명의 일 실시 예에 따른 소셜 데이터 분석 시스템의 객체 사전 데이터 분석기의 구성을 설명하기 위한 개략도이다.
도 3은 본 발명의 일 실시 예에 따른 소셜 데이터 분석 시스템의 도메인 학습기의 구성을 설명하기 위한 개략도이다.
도 4는 본 발명의 일 실시 예에 따른 소셜 데이터 분석 시스템의 소셜 데이터 분석기의 구성을 나타내는 개략도이다.
도 5는 본 발명의 일 실시 예에 따른 소셜 데이터 분석 시스템의 소셜 데이터 도메인 분석기의 구성을 나타내는 개략도이다.
도 6은 본 발명의 실시 예의 변형에 따른 소셜 데이터 분석 시스템을 구성을 개략적으로 나타내는 개략도이다. 1 is a schematic diagram for explaining a configuration of a social data analysis system according to an embodiment of the present invention.
2 is a schematic diagram for explaining a configuration of an object dictionary data analyzer of a social data analysis system according to an embodiment of the present invention.
3 is a schematic diagram for explaining a configuration of a domain learning apparatus of a social data analysis system according to an embodiment of the present invention.
4 is a schematic diagram showing the configuration of a social data analyzer of a social data analysis system according to an embodiment of the present invention.
5 is a schematic diagram showing the configuration of a social data domain analyzer of a social data analysis system according to an embodiment of the present invention.
6 is a schematic diagram schematically showing the configuration of a social data analysis system according to a modification of the embodiment of the present invention.
이하, 본 발명의 실시 예들에 따른 콘텐츠 추천을 위한 소셜 데이터 분석 시스템을 첨부된 도면을 참조하여 상세하게 설명하지만, 본 발명이 하기의 실시 예들에 한정되는 것은 아니며, 해당 분야에서 통상의 지식을 가진 자라면 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 본 발명을 다양한 다른 형태로 구현할 수 있을 것이다. 즉, 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 실시 예들을 설명하기 위한 목적으로 예시된 것으로, 본 발명의 실시 예들은 다양한 형태로 실시될 수 있으며 본문에 설명된 실시 예들에 한정되는 것으로 해석되어서는 아니된다. 본문에 설명된 실시 예들에 의해 한정되는 것이 아니므로 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. Hereinafter, a social data analysis system for content recommendation according to embodiments of the present invention will be described in detail with reference to the accompanying drawings. However, the present invention is not limited to the following embodiments, The present invention may be embodied in various other forms without departing from the spirit of the invention. That is, it is to be understood that the specific structural or functional descriptions are merely illustrative of the embodiments of the present invention, and that the embodiments of the present invention may be embodied in various forms and are construed as being limited to the embodiments described herein No. It is to be understood that the invention is intended to cover all modifications, equivalents, and alternatives falling within the spirit and scope of the invention, as defined by the following claims.
본 출원에서 사용한 용어는 단지 특정한 실시 예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구비하다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성 요소 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해될 것이다.The terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise. In the present application, the terms "comprises ", or" comprising ", etc. are intended to specify the presence of stated features, integers, steps, operations, elements, or combinations thereof, But do not preclude the presence or addition of steps, operations, elements, or combinations thereof.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries are to be interpreted as having a meaning consistent with the meaning in the context of the relevant art and are not to be construed as ideal or overly formal in meaning unless expressly defined in the present application .
콘텐츠(contents)란, 사용자가 네트워크를 통해서 접근할 수 있는 각종 정보나 그 내용물을 말하나, 본 명세서에서는 특별히 언급하지 않는 경우, 영상, 음악 등 예를 들면, 디지털 방식으로 제작해서 스마트 티비와 같은 방송 환경을 통하여 제공될 수 있는 멀티미디어 정보를 의미한다. Contents refers to various kinds of information that can be accessed by a user through a network and contents thereof. However, unless specifically mentioned in this specification, images, music, and the like, for example, Means multimedia information that can be provided through the environment.
정보 콘텐츠란, 구조화되어 있거나, 구조화될 수 있는 정보를 담고 있는 콘텐츠를 의미한다. 즉, 전술한 멀티미디어 정보를 의미하는 콘텐츠가 아닌, 문자, 부호 등을 담고 있거나, 또는 문자나 부호로 변환될 수 있는 음성, 이미지, 영상 등을 담고 있는 콘텐츠를 의미한다. 따라서 본 명세서에서 콘텐츠와 정보 콘텐츠는 별개의 의미로 구분되어 사용될 수 있다. Information content refers to content that contains structured or structured information. That is, the content refers to a content that contains characters, codes, etc., or a voice, image, video, or the like, which can be converted into a character or code, rather than a content indicating the above-described multimedia information. Therefore, in this specification, content and information content can be used in different meanings.
메타데이터란, 구조화된 정보로, 대량의 정보 가운데에서 찾고 있는 정보를 효율적으로 찾아내서 이용하기 위해 일정한 규칙에 따라 부여된 데이터이다. Metadata is structured information, and is data given in accordance with certain rules in order to efficiently find and use the information that is searched among a large amount of information.
소셜 데이터란, 소셜 네트워크 상에서 소셜 네트워크의 사용자가 언급한 정보를 의미하며, 특히 본 명세서에서 소셜 데이터란, 콘텐츠에 대하여 사용자가 소셜 네트워크에 언급한 정보를 의미할 수 있다. 소셜 네트워크는, 페이스북, 트위터와 같은 소셜네트워크 서비스뿐만 아니라, 앱 스토어 등의 평가(댓글), 블로그, 인터넷 카페(커뮤니티) 등, 네트워크 상의 사용자들이 서로 연결되거나 정보를 교류할 수 있는 공간을 모두 포괄 할 수 있다. 소셜 데이터는 예를 들면, 소셜 네트워크에 작성하거나 등록한 정보, 예를 들면 메시지, 댓글, 게시물 등으로 표현되는 글, 링크, 사진/그림, 음악, 동영상 등이 모두 포함될 수 있다. 예를 들면, 소셜 데이터는 블로그의 경우, 블로그명(작성자), 작성시간, 제목, 내용, 첨부파일, 조회수, 댓글, 답글, 스크랩, 트랙백, 공유 등, 트위터의 경우, 작성자, 작성시간, 메시지, 해쉬태그, reply, retweet, favorite 등, 페이스북의 경우 작성자, 작성시간, 메시지, 답글, 링크, 사진, 동영상 등, 싸이월드의 경우, 제목, 내용, 작성자, 태그, 댓글 등이 포함될 수 있다.Social data refers to information referred to by a user of a social network on a social network, and in this specification, in the present specification, the social data may mean information that a user refers to a social network for contents. Social networks are not only social network services such as Facebook and Twitter, but also the space where users on the network can connect and exchange information, such as app reviews, comments, blogs, and Internet cafes It can be encompassed. The social data may include, for example, information written or registered in a social network, for example, a message, a comment, a post, etc., a link, a picture / picture, music, For example, social data can be used for blogs, blog names, authoring times, titles, contents, attachments, views, comments, replies, scraps, trackbacks, , Title, content, author, tag, comment, etc., in case of cyworld such as author, author time, message, reply, link, .
도메인이란, 사전에 정의된 데이터의 주제에 관한 분류로 예를 들면, IT, 문화/예술, 경제, 건강/의학, 엔터테인먼트 등으로 나뉠 수 있으며 각 도메인에서 하위 도메인으로 다시 나뉘는 계층적(hierarchy) 구조를 지닌다. A domain is a classification of the subject of predefined data, for example, a hierarchical structure that can be divided into IT, culture / art, economy, health / medicine, Lt; / RTI >
객체란, 데이터(실체)와 그 데이터에 관련되는 동작(절차, 방법, 기능)을 모두 포함한 개념으로, 소셜 데이터 또는 정보 콘텐츠에 들어 있는 정보를 의미한다. 객체 사전은, 객체를 분석하여 메타 데이터로 구조화한 것을 의미하며, 일부 객체 사전이라는 표현은 객체 사전을 생성하기 위한 객체, 즉 "객체 사전용"의 의미로 사용될 수도 있다. An object is a concept including both data (entity) and an operation (procedure, method, and function) related to the data, and means information contained in social data or information contents. The object dictionary means that the object is analyzed and structured as metadata. Some object dictionary may be used as an object for generating an object dictionary, that is, for "object dictionary".
도 1은 본 발명의 일 실시 예에 따른 소셜 데이터 분석 시스템의 구성을 설명하기 위한 개략도이다.1 is a schematic diagram for explaining a configuration of a social data analysis system according to an embodiment of the present invention.
도 1을 참조하면, 소셜 데이터 분석 시스템(1)은 객체 사전 데이터 분석기(100), 도메인 학습기(200) 및 객체 사전/도메인 분석 정보 저장소(300)를 포함한다. Referring to FIG. 1, the social
객체 사전 데이터 분석기(100)는 네트워크(10)를 통하여 소셜 네트워크(20) 상의 소셜 데이터와 정보 콘텐츠(30)를 수집하여, 소셜 네트워크(20) 상의 소셜 데이터와 정보 콘텐츠(30)를 수집하고 이들에 포함된 객체를 분석하여 메타 데이터로 객체 사전을 형성한 후, 객체 사전으로부터 규칙 정보를 생성할 수 있다. The object
네트워크(10)는 유선 인터넷 서비스, 근거리 통신망(LAN), 광대역 통신망(WAN), 인트라넷, 무선 인터넷 서비스, 이동 컴퓨팅 서비스, 무선 데이터 통신 서비스, 무선 인터넷 접속 서비스, 위성 통신 서비스, 무선 랜, 블루투스 등 유/무선을 통하여 데이터를 주고 받을 수 있는 것을 모두 포함할 수 있다. 네트워크(10)가 스마트폰 또는 태블릿 등과 연결되는 경우, 네트워크(10)는 3G, LTE(long term evolution) 등의 무선 데이터 통신 서비스, 와이파이(Wi-Fi) 등의 무선 랜, 블루투스 등일 수 있다. The
정보 콘텐츠(30)는 기구축된 데이터 또는 위키피디아와 같이 정리된 정보를 포함할 수 있다. 예를 들면, 영화와 관련된 정보 콘텐츠(30)는 포털 사이트의 영화, 배우 또는 영화 스태프 등에 대한 데이터 베이스, 영화사 홈페이지, 위키피디아와 같은 오픈 사전에 정리된 영화, 배우 또는 영화 스태프 등와 관련된 정보, 영화, 배우 또는 영화 스태프 등와 관련된 정보를 정리해 놓은 커뮤니티 등 일 수 있다. 예를 들면, 방송 프로그램과 관련된 정보 콘텐츠(30)는 포털 사이트의 방송 프로그램 관련 페이지 또는 방송 출연자나 방송 제작 스태프 관련 페이지, 방송사 홈페이지, 위키피디아와 같은 오픈 사전에 정리된 방송 프로그램, 방송 출연자 또는 방송 제작 스태프와 관련된 정보, 방송 프로그램, 방송 출연자 또는 방송 제작 스태프과 관련된 정보를 정리해 놓은 커뮤니티 등 일 수 있다. The
도 1에서 객체 사전 데이터 분석기(100)가 네트워크(10)를 통하여 정보 콘텐츠(30)를 수집하거나 제공받는 것으로 도시되었으나, 정보 콘텐츠(30)가 기구축된 데이터인 경우, 오프라인을 통해서 정보 콘텐츠(30)를 객체 사전 데이터 분석(100)에 직접 제공할 수도 있다. 즉, 객체 사전 데이터 분석기(100)는 네트워크(10)를 통하여 정보 콘텐츠(30)를 수집하거나 제공받는 것을 기본으로 하나, 기구축되어 저장 장치를 통하여 객체 사전 데이터 분석기(100)에 정보 콘텐츠(30)를 제공하는 것을 배제하는 것은 아니다. Although the object
도메인 학습기(200)는 네트워크(10)를 통하여 수집하거나 제공받은 정보 콘텐츠(30), 또는 전술한 바와 같이 오프라인을 통해서 제공받은 정보 콘텐츠(30)를 분석하여 도메인을 분석하고 학습할 수 있다. The
도메인이란, 전술한 바와 같이 사전에 정의된 데이터의 주제에 관한 분류를 의미하며 계층적 구조를 지닐 수 있다. 예를 들면, 영화와 관련된 도메인은 엔터테인먼트 ?? 영화 ?? 제목/배우/스탭/주제/관련 일자 등을 포함할 수 있으며, 경우에 따라, 스탭은 다시 하위 도메인으로 감독, 시나리오, 음악 등으로, 배우는 다시 하위 도메인으로 주연, 주연, 엑스트라, 까메오 등을 지닐 수 있다. A domain means a classification on a subject of predefined data as described above and may have a hierarchical structure. For example, the domain associated with the movie is entertainment ?? movie ?? It may include title / actor / staff / subject / related dates, etc. In some cases, the staff may re-enter the sub-domain with supervision, scenario, music, .
따라서 도메인 학습기(200)는 정보 콘텐츠(30)를 도멘인을 통하여 분석할 수 있도록 학습하기 위한 학습 데이터를 추천하여 저장한 후에, 이를 토대로 정보 콘텐츠(30)가 가지고 있는 데이터에 대하여 분석하기 위한 학습 데이터에 대한 학습을 수행할 수 있다. 학습 데이터란 전술한 데이터의 주제에 관한 분류인 도메인 구분을 위한 키워드 리스트를 포함할 수 있다. 예를 들면, 학습 데이터는 도메인 및 이와 연관되는 자연어, 형용사 등을 포함할 수 있다. Accordingly, the
객체 사전/도메인 분석 정보 저장소(300)는 객체 사전으로부터 생성한 규칙 정보와 도메인 분석을 위한 학습 데이터를 저장할 수 있다. 즉, 객체 사전 데이터 분석기(100)에서 생성한 규칙 정보와 도메인 학습기(200)에서 학습된 도메인 분석을 위한 학습 데이터는 객체 사전/도메인 분석 정보 저장소(300)에 저장될 수 있다. The object dictionary / domain
소셜 데이터 분석 시스템(1)은 소셜 데이터 분석기(400) 및 소셜 데이터 도메인 분석기(500)를 더 포함할 수 있다. The social
소셜 데이터 분석기(400)는 네트워크(10)를 통하여 소셜 네트워크(20) 상의 소셜 데이터를 수집한 후에, 소셜 데이터를 정제할 수 있다. The
소셜 데이터 도메인 분석기(500)는 객체 사전/도메인 분석 정보 저장소(300)에 저장된 규칙 정보와 학습 데이터를 토대로 소셜 데이터 분석기(400)에 의하여 정제된 소셜 데이터에 대한 도메인 분석을 수행할 수 있다. 소셜 데이터 도메인 분석기(500)는 도메인 분석을 위한 학습 데이터 뿐만 아니라, 객체 사전으로부터 생성한 규칙 정보를 함께 반영하여 도메인 분석을 수행하기 때문에, 동음 이의어, 신조어 등을 포함하는 소셜 데이터에 대하여도 정확한 도메인 분석을 할 수 있다. The social
소셜 데이터 도메인 분석기(500)는 도메인 분석이 수행된 소셜 데이터에 대하여 도메인 별로 분류 및 군집을 하기위한 자동분류모듈 및 자동군집모듈을 포함할 수 있다. The social
상기 자동분류모듈은 소셜 데이터들을 자동으로 분류한다. 상기 자동분류모듈은 예를 들면, 베이지언(Bayesian), SVM(Support Vector Machine)과 같은 알고리즘을 통해 구현될 수 있다. The automatic classification module automatically classifies the social data. The automatic classification module may be implemented through algorithms such as Bayesian and Support Vector Machine (SVM), for example.
상기 자동군집모듈은 자동분류된 소셜 데이터들을 각 분류 카테고리 별로, 즉 도메인별로 군집화 과정을 거친다. 자동군집은 소셜 데이터들을 시스템이 통계적으로 임의의 단위로 군집한다. 상기 자동군집모듈은 예를 들면, K-means 알고리즘 등을 사용하여 구현될 수 있다. 이렇게 군집된 소셜 데이터들은 특성단어 등에 대한 정보량 지수가 측정될 수 있으며, 특성단어와 이러한 정보량 지수를 결합하여 생성되는 특성단어벡터는 군집된 소셜 데이터들을 대표하는 단어벡터로 검색을 위하여 사용될 수 있다. The automatic clustering module performs clustering of the automatically classified social data by each classification category, that is, by domain. Automatic clustering aggregates social data into statistically arbitrary units of system. The automatic cluster module may be implemented using, for example, a K-means algorithm. The aggregated social data can be used to measure the information amount index of the characteristic word, and the characteristic word vector generated by combining the characteristic word with the information amount index can be used for the search as a word vector representing the aggregated social data.
도메인 분석이 수행된 소셜 데이터 및/또는 자동분류/자동군집된 소셜 데이터는 분석 소셜 데이터 저장소(600)에 저장되어, 소셜 데이터 분석 시스템(1) 내의 도시된 기능부 및 그 외의 다른 기능부(미도시) 또는 소셜 데이터 분석 시스템(1) 외에 제공될 수 있다. The social data and / or the automatic classification / auto-crowded social data on which the domain analysis has been performed are stored in the analysis
분석 소셜 데이터 저장소(600)는 NoSQL, 관계형 데이터베이스, 파일시스템 등 어떠한 형태로든 데이터를 저장할 수 있는 공간일 수 있다. 분석 소셜 데이터 저장소(600)는 물리적으로 구분되는 저장공간이거나, 논리적으로 구분되는 저장공간일 수 있다. The analytic
분석 소셜 데이터 저장소(600)에는 분석이 수행된 소셜 데이터 뿐만 아니라. 분석이 수행된 소셜 데이터가 포함하고 있는 단어들에 대한 의미와 해당 단어들이 사용되는 도메인에 대한 정보가 함께 저장될 수 있다. 이러한 정보는 객체 사전 데이터 분석기(100) 및/또는 도메인 학습기(200)에 피드백될 수 있다. The analytical
본 발명의 의한 소셜 데이터 분석 시스템(1)은 소셜 데이터에 대하여 도메인 분석을 위한 학습 데이터에 의한 도메인 분석뿐만 아니라, 객체 사전으로부터 생성한 규칙 정보에 의한 도메인 분석을 함께 수행하기 때문에, 소셜 데이터에 포함된 키워드들에 대한 정확한 의미를 판단할 수 있다. 또한 신조어나 기존에 도메인을 가지고 있던 키워드에 대하여 새로운 도메인에서의 사용이 생길 경우에도 이를 정확하게 반영하여 의미를 판단할 수 있다. Since the social
이하에서는 본 발명에 따른 소셜 데이터 분석 시스템(1)의 주요 부분에 대한 세부적인 구성을 살펴보도록 한다.Hereinafter, a detailed configuration of a main part of the social
도 2는 본 발명의 일 실시 예에 따른 소셜 데이터 분석 시스템의 객체 사전 데이터 분석기의 구성을 설명하기 위한 개략도이다. 2 is a schematic diagram for explaining a configuration of an object dictionary data analyzer of a social data analysis system according to an embodiment of the present invention.
도 2를 참조하면, 객체 사전 데이터 분석기(100)는 객체 사전 데이터 수집기(110), 객체 사전 메타 데이터 추출기(120) 및 규칙 정보 생성 모듈(130)을 포함한다. 객체 사전 데이터 수집기(110)는 네트워크(10)를 통해서 소셜 네트워크(20) 상의 소셜 데이터와 정보 콘텐츠(30)를 수집한다. 객체 사전 데이터 수집기(110)는 네트워크(10)를 통해서 인터넷 상의 데이터를 수집하는 로봇 엔진을 포함할 수 있다. 또는 객체 사전 데이터 수집기(110)는 오프라인을 통하여 데이터를 제공받을 수 있는 입력 장치를 포함할 수 있다. Referring to FIG. 2, the object dictionary data analyzer 100 includes an object
객체 사전 메타 데이터 추출기(120)는 수집된 소셜 네트워크(20) 상의 소셜 데이터와 정보 콘텐츠(30)를 정형화된 메타 데이터로 추출할 수 있다. 객체 사전 메타 데이터 추출기(120)는 수집된 소셜 네트워크(20) 상의 소셜 데이터와 정보 콘텐츠(30)에 대한 자연어 처리를 하기 위한 자연어 처리 모듈 및/또는 정형화된 메타 데이터를 추출할 수 있는 모든 데이터 마이닝 기법을 구현할 수 있는 모듈을 포함할 수 있다. The object
객체 사전 데이터 분석기(100)는 객체 사전 메타 데이터 추출기(120)에서 추출된 메타 데이터를 저장하기 위한 객체 사전 메타 데이터 저장소(140)를 더 포함할 수 있다. 객체 사전 메타 데이터 저장소(140)는 NoSQL, 관계형 데이터베이스, 파일시스템 등 어떠한 형태로든 데이터를 저장할 수 있는 공간일 수 있다. 객체 사전 메타 데이터 저장소(140)는 물리적으로 구분되는 저장공간이거나, 논리적으로 구분되는 저장공간일 수 있다. The object dictionary data analyzer 100 may further include an object
규칙 정보 생성 모듈(130)은 객체 사전 메타 데이터 저장소(140)에 저장된 메타 데이터들로부터 규칙 정보를 생성할 수 있다. 규칙 정보에는 확률 및 가중치와 같은 정보가 함께 포함될 수 있다. 규칙 정보는 예를 들면, "7급 공무원"이라는 키워드에 대하여, 함께 나오는 정보에 따라서, "7급 공무원"이라는 키워드가 국가/지자체 공무원을 의미하는지, 드라마를 의미하는지를 판단할 수 있는 정보를 포함할 수 있다. 예를 들면, 규칙 정보는 "7급 공무원"과 "MBC"가 함께 있는 경우에는 방송 프로그램인 드라마를 의미할 확률이 높고, 국가/지자체 공무원을 의미할 확률은 낮도록 설정될 수 있고, "노량진"이 함께 있는 경우에는 드라마를 의미할 확률이 낮고, 국가/지자체 공무원을 의미할 확률은 낮도록 설정될 수 있다. 따라서 특정 키워드에 대한 규칙 정보에는 여러 가지 정보에 대한 확률과 가중치를 함께 포함할 수 있다. The rule
규칙 정보는 예를 들면, 단어 벡터로 이루어질 수 있다. 단어 벡터는 키워드 및 각 키워드의 가중치를 포함하고 있다. 가중치는 각 키워드의 단어빈도(TF, Term Frequency) 및 각 키워드가 저장된 메타 데이터에서 나타나는 빈도의 역인 역문서빈도(IDF, Inverse Document Frequency) 등을 이용하여 구할 수 있다. 단어빈도는 저장된 메타 데이터에 특정 키워드의 출현횟수로써 특정 키워드가 저장된 메타 데이터의 내용을 얼마나 대표하는가에 대한 척도이다. 또한 역문서빈도는 저장된 메타 데이터 집합에서 특정 키워드가 출연하는 저장된 메타 데이터 수의 비율의 역으로, 적은 저장된 메타 데이터에서 나타나는 키워드는 그 키워드가 나타나는 저장된 메타 데이터를 다른 저장된 메타 데이터들과 구별할 수 있는 능력이 크게 된다. The rule information may be, for example, a word vector. The word vector includes the keyword and the weight of each keyword. The weights can be obtained using the word frequency (TF) of each keyword and the inverse document frequency (IDF) of the frequency of each keyword in the stored metadata. Word frequency is a measure of how much the content of a particular keyword is represented by the number of occurrences of a specific keyword in stored metadata. Also, the frequency of inverse documents is the opposite of the ratio of the number of stored metadata that a particular keyword appears in the stored metadata set, and the keyword appearing in the stored stored metadata can distinguish the stored metadata in which the keyword appears from other stored metadata There is a big capacity.
규칙 정보 생성 모듈(130)에서 생성된 규칙 정보는 객체 사전/도메인 분석 정보 저장소(300)에 저장될 수 있다. The rule information generated by the rule
도 3은 본 발명의 일 실시 예에 따른 소셜 데이터 분석 시스템의 도메인 학습기의 구성을 설명하기 위한 개략도이다. 3 is a schematic diagram for explaining a configuration of a domain learning apparatus of a social data analysis system according to an embodiment of the present invention.
도 3을 참조하면, 도메인 학습기(200)는 학습 데이터 추천 모듈(210), 학습 데이터 저장소(220) 및 데이터 학습 모듈(230)을 포함한다. Referring to FIG. 3, the
학습 데이터 추천 모듈(210)은 네트워크(10)를 통하여 수집되거나 제공된 정보 콘텐츠(30)에 대하여 학습 데이터를 추천할 수 있다. 추천되는 학습 데이터는 정보 콘텐츠(30)에 대한 도메인을 분석 및 분류하기 위하여 기 작성된 정보일 수 있다. 학습 데이터는 예를 들면, 영화라는 도메인에 대하여 제공되는 학습 데이터에는 영화라는 주제에 대한 분류를 나타내는 키워드들이 포함될 수 있다. 예를 들면, 영화라는 도메인에 대하여 제공되는 학습 데이터에는 배우, 제작진, 리뷰, 평점, 명대사 등이 포함될 수 있다. 학습 데이터 추천 모듈(210)은 학습 데이터 저장소(220)에 저장된 학습 데이터를 수집되거나 제공된 정보 콘텐츠(30)에 추천할 수 있다. The learning
예를 들면, 수집되거나 제공된 정보 콘텐츠(30)가 영화에 관한 정보인 경우, 학습 데이터 추천 모듈(210)은 학습 데이터 저장소(220)에 저장된 영화에 대한 학습 데이터를 추천할 수 있다. For example, if the collected or provided
학습 데이터 저장소(220)는 NoSQL, 관계형 데이터베이스, 파일시스템 등 어떠한 형태로든 데이터를 저장할 수 있는 공간일 수 있다. 학습 데이터 저장소(220)는 물리적으로 구분되는 저장공간이거나, 논리적으로 구분되는 저장공간일 수 있다. The learning
도메인 학습기(200)는 정보 콘텐츠(30)를 수집하여 학습 데이터 추천 모듈(210)에 제공하기 위한 정보 콘텐츠 수집기(미도시)를 더 포함할 수 있다. 상기 정보 콘텐츠 수집기는 네트워크(10)를 통해서 정보 콘텐츠(30)를 수집할 수 있다. 상기 정보 콘텐츠 수집기는 네트워크(10)를 통해서 인터넷 상의 데이터를 수집하는 로봇 엔진을 포함할 수 있다. 또는 상기 정보 콘텐츠 수집기는 오프라인을 통하여 데이터를 제공받을 수 있는 입력 장치를 포함할 수 있다. The
또는 도메인 학습기(200)는 상기 정보 콘텐츠 수집기를 별도로 포함하지 않을 수 있다. 이 경우에, 학습 데이터 추천 모듈(210)은 도 2에 보인 객체 사전 데이터 수집기(110)가 수집하거나 제공받은 정보 콘텐츠(30)를 제공받을 수 있다. Or the
정보 콘텐츠(30)가 메타 데이터로 이루어진 경우, 별도의 메타 데이터 추출기를 필요로 하지는 않지만, 정보 콘텐츠(30)가 메타 데이터로 이루어지지 않는 경우에는, 도메인 학습기(200)는 도 2에 보인 객체 사전 메타 데이터 추출기(120)와 유사한 정보 콘텐츠 메타 데이터 추출기(미도시)를 더 포함할 수 있다. In the case where the
데이터 학습 모듈(230)은 수집하거나 제공받은 정보 콘텐츠(30)와 추천된 학습 데이터를 함께 분석하여, 기 작성된 학습 데이터에 대하여 학습을 수행하여 필요에 따라 기 작성된 학습 데이터에 대하여 업데이트를 하거나, 새로운 학습 데이터를 생성할 수 있다. The
즉, 수집하거나 제공받은 정보 콘텐츠(30)에 기 작성된 학습 데이터에는 없는 도메인의 주제에 관한 분류가 있는 경우, 기 작성된 학습 데이터에 새로운 분류를 추가하여, 학습 데이터를 업데이트할 수 있다. 또는 수집하거나 제공받은 정보 콘텐츠(30)가 기 작성된 학습 데이터에 없거나 잘 맞지 않는 새로운 주제에 관한 분류를 가지고 있는 경우, 새로운 학습 데이터를 생성할 수 있다.That is, when there is a classification about the subject of the domain that is not included in the previously prepared learning data in the
데이터 학습 모듈(230)에서 업데이트하거나 생성된 학습 데이터는 다시 학습 데이터 저장소(220)에 저장될 수 있다. 이후, 학습 데이터 저장소(220)에 저장된 학습 데이터는 객체 사전/도메인 분석 정보 저장소(300)에 제공되어, 도메인 분석에 사용될 수 있다. The learning data generated or updated in the
도 4는 본 발명의 일 실시 예에 따른 소셜 데이터 분석 시스템의 소셜 데이터 분석기의 구성을 나타내는 개략도이다.4 is a schematic diagram showing the configuration of a social data analyzer of a social data analysis system according to an embodiment of the present invention.
도 4를 참조하면, 소셜 데이터 분석기(400)는 소셜 데이터 수집기(410) 및 소셜 데이터 정제기(420)를 포함한다.Referring to FIG. 4, the
소셜 데이터 수집기(410)는 네트워크(10)를 통하여 소셜 네트워크(20) 상의 소셜 데이터를 수집한다. The
도 4에는 소셜 데이터 분석기(400)가 별도의 소셜 데이터 수집기(410)를 구비하는 것으로 도시되었으나, 소셜 데이터 수집기(410)의 기능을 도 2에 보인 객체 사전 데이터 수집기(110)가 함께 수행할 수도 있다. Although the
도 1 내지 도 4를 함께 참조하면, 객체 사전 데이터 분석기(100), 도메인 학습기(200), 소셜 데이터 분석기(400)는 각각 별도의 수집기를 포함할 수 있다. 예를 들면, 객체 사전 데이터 분석기(100)가 포함하는 수집기(예를 들면, 도 2에 보인 객체 사전 데이터 수집기(110))는 소셜 네트워크(20) 상의 소셜 데이터와 정보 콘텐츠(30)를 수집할 수 있다. 도메인 학습기(200)가 포함하는 수집기(미도시)는 정보 콘텐츠(30)를 수집할 수 있다. 소셜 데이터 분석기(400)가 포함하는 수집기(예를 들면, 도 4에 보인 수집기(410))는 소셜 네트워크(20) 상의 소셜 데이터를 수집할 수 있다. Referring to FIGS. 1 through 4, the object
또는 1가지 종류의 수집기가 소셜 네트워크(20) 상의 소셜 데이터와 정보 콘텐츠(30)를 모두 수집하여, 객체 사전 데이터 분석기(100)와 소셜 데이터 분석기(400)에는 소셜 네트워크(20) 상의 소셜 데이터를 제공하고, 객체 사전 데이터 분석기(100)와 도메인 학습기(200)에는 정보 콘텐츠(30)를 제공할 수 있다. Or one kind of collector collects both the social data and the
또는 소셜 네트워크(20) 상의 소셜 데이터를 수집하는 수집기와 정보 콘텐츠(30)를 수집하는 수집기가 각각 별도로 존재하여, 소셜 네트워크(20) 상의 소셜 데이터를 수집하는 수집기가 객체 사전 데이터 분석기(100)와 소셜 데이터 분석기(400)에 소셜 네트워크(20) 상의 소셜 데이터를 제공하고, 정보 콘텐츠(30)를 수집하는 수집기가 객체 사전 데이터 분석기(100)와 도메인 학습기(200)에 정보 콘텐츠(30)를 제공할 수도 있다. Or a collector for collecting social data on the
소셜 데이터 정제기(420)는 수집된 소셜 네트워크(20) 상의 소셜 데이터에 대하여 자연어 처리 및 데이터 마이닝 기법을 하여, 상대적으로 정제되지 않은 소셜 데이터를 정제할 수 있다. 소셜 데이터 정제기(420)는 자연어 처리를 하기 위한 자연어 처리 모듈 및/또는 정형화된 메타 데이터를 추출할 수 있는 모든 데이터 마이닝 기법을 구현할 수 있는 모듈을 포함할 수 있다. 소셜 데이터 정제기(420)는 수집된 소셜 네트워크(20) 상의 소셜 데이터를 메타 데이터 수준으로 정제하여 추출할 수도 있으나, 수집된 소셜 네트워크(20) 상의 소셜 데이터가 포함하는 단어들을 단순히 정제할 수도 있다. 예를 들면, 소셜 데이터 정제기(420)는 수집된 소셜 네트워크(20) 상의 소셜 데이터가 포함하는 단어들이 구어체이거나 비표준어인 경우 문어체나 표준어로 정제하거나, 사전에 기재되는 수준의 기본형으로 정제할 수 있다.The
수집된 소셜 네트워크(20) 상의 소셜 데이터는 소셜 데이터 정제기(420)에서 정제된 후, 소셜 데이터 도메인 분석기(500)에 전달될 수 있다.The social data on the collected
도 5는 본 발명의 일 실시 예에 따른 소셜 데이터 분석 시스템의 소셜 데이터 도메인 분석기의 구성을 나타내는 개략도이다.5 is a schematic diagram showing the configuration of a social data domain analyzer of a social data analysis system according to an embodiment of the present invention.
도 5를 참조하면, 소셜 데이터 도메인 분석기(500)는 규칙 기반 분석기(510) 및 학습 기반 분석기(520)를 포함한다. 5, the social
규칙 기반 분석기(510)는 객체 사전/도메인 분석 정보 저장소(300)에 저장된 규칙 정보를 기반으로, 정제된 소셜 데이터에 대한 분석을 수행한다. 학습 기반 분석기(520)는 객체 사전/도메인 분석 정보 저장소(300)에 저장된 학습 데이터를 기반으로 정제된 소셜 데이터에 대한 분석을 수행한다. The rule-based
규칙 기반 분석기(510)는 규칙 정보를 기반으로 정제된 소셜 데이터에 대한 분석을 수행하므로, 정제된 소셜 데이터에 포함되는 정제된 단어들의 의미를 정확히 파악할 수 있다. 학습 기반 분석기(520)는 학습 데이터를 기반으로 정제된 소셜 데이터에 대한 분석을 수행하므로, 정제된 소셜 데이터에 해당하는 도메인을 정확히 분류할 수 있고, 도메인의 계층적 구조 또한 특정한 정보 콘텐츠가 가지는 계층적 구조가 아닌 업데이트된 도메인의 계층된 구조를 반영할 수 있다. The rule-based
소셜 데이터 도메인 분석기(500)는 분석 결과 통합 모듈(530)을 더 포함할 수 있다. 규칙 기반 분석기(510)에서 분석된 결과와 학습 기반 분석기(520)에서 분석된 결과는 분석 결과 통합 모듈(530)에서 통합적으로 분석이 수행될 수 있다. 분석 결과 통합 모듈(530)은 규칙 정보를 기반으로 분석된 결과와 학습 데이터를 기반으로 분석된 결과 각각에 대하여 가중치를 적용하여 통합된 랭킹을 형성하여, 소셜 데이터가 가지는 도메인을 정확하게 분류할 수 있다. The social
예를 들면, 소셜 네트워크(20) 상의 소셜 데이터에 드라마 "7급 공무원"을 본 이야기와 함께, 국가/지자체 공무원인 "7급 공무원"에 대한 시험에 대한 언급이 함꼐 포함되는 경우, 분석 결과 통합 모듈(530)은 드라마 "7급 공무원"과 국가/지자체 공무원인 "7급 공무원", 특히 시험 중 어느쪽에 대한 비중을 더 높은 소셜 데이터인지를 분류하여, 해당 소셜 데이터에 대한 도메인 결과를 생성할 수 있다. For example, if the social data on the
또한 이러한 과정에서, 소셜 네트워크(20) 상의 소셜 데이터에 포함되는 줄임말과 같은 신조어가 어떠한 도메인에 대하여 주로 사용되는지를 파악할 수 있고, 이후에는 특정 도메인에 대하여 사용되던 신조어가 다른 도메인에 대하여도 사용되는지를 파악할 수 있다. Also, in this process, it is possible to know which domain is mainly used for a new word such as an abbreviation included in the social data on the
분석 결과 통합 모듈(530)에서 수행된 소셜 데이터에 대한 도메인 분석 결과는 분석 소셜 데이터 저장소(600)에 저장되어, 소셜 데이터 분석 시스템(1) 기능부 또는 소셜 데이터 분석 시스템(1) 외의 장치에 제공될 수 있다. The domain analysis result of the social data performed in the
예를 들면, 이와 같은 분석 결과 통합 모듈(530)에서의 분석 결과는 객체 사전 데이터 분석기(100) 및/또는 도메인 학습기(200)에 피드백되어, 이후에 수집되거나 제공받는 소셜 네트워크(20) 상의 소셜 데이터와 정보 콘텐츠(30)에 대한 분석에도 사용될 수 있다. For example, the analysis result of the
도 6은 본 발명의 실시 예의 변형에 따른 소셜 데이터 분석 시스템을 구성을 개략적으로 나타내는 개략도이다. 도 6에서 설명하는 소셜 데이터 분석 시스템에 대한 설명 중, 도 1 내지 도 5에서 설명된 내용은 생략될 수 있다. 6 is a schematic diagram schematically showing the configuration of a social data analysis system according to a modification of the embodiment of the present invention. Among the descriptions of the social data analysis system described in Fig. 6, the contents described in Figs. 1 to 5 may be omitted.
도 6을 참조하면, 소셜 데이터 분석 시스템(1a)은 콘텐츠 메타 데이터 수집기(700) 및 콘텐츠 추천기(800)를 더 포함한다. Referring to FIG. 6, the social
콘텐츠 메타 데이터 수집기(700)는 네트워크(10)를 통해서 콘텐츠 네트워크(40) 상의 콘덴츠에 대한 정보를 수집할 수 있다. 콘텐츠 메타 데이터 수집기(700)는 콘텐츠 네트워크(40) 상의 콘텐츠 자체에 대하여 제공되는 정보와 콘텐츠를 이용한 사용자의 반응을 함께 수집하여, 각 콘텐츠에 대한 메타 데이터를 생성할 수 있다. 콘텐츠 메타 데이터 수집기(700)는 네트워크(10)를 통해서 인터넷 상의 데이터를 수집하는 로봇 엔진을 포함할 수 있다. 또한 콘텐츠에 대한 정보가 메타데이터가 아닐 경우, 이를 메타 데이터로 추출하기 위한 추출 모듈을 더 포함할 수 있으며, 상기 추출 모듈은 자연어 처리를 하기 위한 자연어 처리 모듈 및/또는 정형화된 메타 데이터를 추출할 수 있는 모든 데이터 마이닝 기법을 구현할 수 있는 모듈을 포함할 수 있다. The
콘텐츠 추천기(800)는 콘텐츠 메타 데이터 수집기(700)에서 수집/분석한 콘텐츠에 대한 메타 데이터와 분석 소셜 데이터 저장소(600)에 저장된 소셜 데이터에 대한 도메인 분석 결과를 비교하여, 클라이언트(사용자, 50)에게 네트워크(10)를 통하여 추천할 콘텐츠를 선정할 수 있다. 이때 클라이언트(사용자, 50)는 네트워크(10)를 통하여, 콘텐츠 추천기(800)에 사용자(50)가 원하는 콘텐츠에 대한 정보를 입력할 수 있고, 콘텐츠 추천기(800)는 도 1에 보인 소셜 네트워크(20) 상의 소셜 데이터에 포함된 콘텐츠들에 대한 정보와 콘텐츠 자체에 대한 메타 데이터들을 비교하여, 사용자가 원하는 콘텐츠를 추천하거나 제공할 수 있다.The
따라서 사용자(50)가 구체적인 콘텐츠의 정보를 콘텐츠 추천기(800)에 입력하지 않아도, 사용자(50)가 원하는 콘텐츠에 대한 니즈(needs)를 소셜 데이터의 분석 결과를 토대로 파악하여, 콘텐츠를 추천할 수 있다. 예를 들면, '우울한 날에 보면 좋은 영화'와 같이 감성적이거나 주관적인 콘텐츠를 요청하는 경우에도, 소셜 데이터 상의 정보 및 콘텐츠에 대한 정보를 종합하여 콘텐츠를 추천할 수 있다. 이때, 콘텐츠 추천기(800)는 필요에 따라서, 클라이언트(50)를 통하여 콘텐츠를 요청하는 사용자에 대한 정보, 예를 들면, 성별, 나이, 직업 등 사용자 자체에 대한 객관적 정보, 또는 사용자의 각종 네트워크 상의 사용 이력 등을 함께 제공받아서, 콘텐츠를 추천할 수 있다. Therefore, even if the
특히, 콘텐츠 추천기(800)는 전술한 바와 같이 정확히 분류가 된 도메인 정보를 가지는 소셜 데이터들에 대해서만 콘텐츠 추천을 위한 분석을 수행할 수 있기 때문에, 빠르면서 정확한 콘텐츠에 대한 추천이 가능하다. In particular, since the
도 6에서 콘텐츠 메타 데이터 분석기(700)와 콘텐츠 추천기(800)는 소셜 데이터 분석 시스템(1a) 내에 포함된 것으로 도시되었으나, 도 1에 보인 소셜 데이터 분석 시스템(1)과 네트워크(10)를 통하여 연결되는 별도의 추천 시스템으로 구성하는 것 또한 가능하다. 6, the
도 1 내지 도 6에 보인 객체 사전 메타 데이터 저장소(140), 학습 데이터 저장소(220), 객체 사전/도메인 분석 정보 저장소(300) 및 분석 소셜 데이터 저장소(600)는 각각 별도의 구성으로 도시되었지만, 물리적 또는 논리적으로 구분되는 하나 또는 그 이상의 저장 공간을 함께 공유하는 것일 수 있다. Although the object
도 1 내지 도 6에서 살펴본 바와 같이, 본 발명에 따른 소셜 데이터 분석 시스템(1, 1a)은 소셜 네트워크(20) 상의 소셜 데이터를 활용하여 콘텐츠를 추천하면서도, 단순한 주제어 또는 도메인 등만을 분석하지 않고, 객체 사전으로부터 생성한 규칙 정보에 의한 소셜 데이터의 도메인 분석을 함께 수행하기 때문에, 소셜 데이터에 포함된 키워드들에 대한 정확한 의미를 판단하여, 신조어 또는 새로운 도메인 등을 반영할 수 있다. 여, 사용자(50)의 신조어나 기존에 도메인을 가지고 있던 키워드에 대하여 새로운 도메인에서의 사용이 생길 경우에도 이를 정확하게 반영하여 의미를 판단할 수 있다. 1 to 6, the social
또한, 본 발명의 실시 예들은 컴퓨터 시스템에서 실행할 수 있는 프로그램으로 작성 가능하다. 또한, 상기 프로그램이 수록된 컴퓨터로 읽을 수 있는 기록 매체로부터 읽혀진 해당 프로그램은 디지털 컴퓨터 시스템에서 실행될 수 있다.Further, the embodiments of the present invention can be made into a program executable in a computer system. In addition, the program read from the computer-readable recording medium containing the program can be executed in the digital computer system.
컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, DVD-ROM, USB 메모리, SSD(Solide State Drive), 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의해 용이하게 추론될 수 있다.Examples of the computer-readable recording medium include ROM, RAM, CD-ROM, DVD-ROM, USB memory, SSD (Solide State Drive), magnetic tape, floppy disk, optical data storage, For example, transmission over the Internet). The computer readable recording medium may also be distributed over a networked computer system so that computer readable code can be stored and executed in a distributed manner. And functional programs, codes, and code segments for implementing the present invention can be easily inferred by programmers skilled in the art to which the present invention pertains.
1, 1a : 소셜 데이터 분석 시스템, 10 : 네트워크, 20 : 소셜 네트워크, 30 : 정보 콘텐츠, 40: 콘텐츠 네트워크, 50 : 클라이언트, 100 : 객체 사전 데이터 분석기, 200 : 도메인 학습기, 300 : 객체 사전/도메인 분석 정보 저장소, 400 : 소셜 데이터 분석기, 500 : 소셜 데이터 도메인 분석기, 600 : 분석 소셜 데이터 저장소The present invention relates to an object dictionary data analyzing apparatus and method for analyzing a plurality of object data in an object dictionary domain, Analysis information repository, 400: social data analyzer, 500: social data domain analyzer, 600: analysis social data repository
Claims (11)
상기 정보 콘텐츠를 분석하여, 도메인 분류를 위한 학습 데이터를 생성하거나, 기 작성된 학습 데이터에 대한 업데이트를 하는 도메인 학습기;
상기 소셜 데이터를 분석하고 정제하여, 상기 소셜 데이터에 대한 메타 데이터를 추출하는 소셜 데이터 분석기; 및
상기 소셜 데이터 분석기에서 추출된 상기 소셜 데이터에 대한 메타 데이터를 상기 객체 사전 데이터 분석기에서 제공하는 상기 규칙 정보와 상기 도메인 학습기에서 제공하는 상기 학습 데이터를 기반으로 분석하여, 상기 소셜 데이터에 대한 도메인을 분류하는 소셜 데이터 도메인 분석기;를 포함하는 소셜 데이터 분석 시스템.An object dictionary data analyzer for analyzing social data and information contents collected through a network and generating rule information capable of performing analysis for domain classification;
A domain learning unit for analyzing the information content to generate learning data for domain classification or updating previously prepared learning data;
A social data analyzer for analyzing and refining the social data and extracting metadata about the social data; And
Analyzing the metadata about the social data extracted by the social data analyzer based on the rule information provided by the object dictionary data analyzer and the learning data provided by the domain learning machine to classify the domain for the social data The social data analysis system comprising:
상기 객체 사전 데이터 분석기는, 상기 소셜 데이터 도메인 분석기에서 분석된 상기 소셜 데이터의 도메인 분석 결과를 피드백받아, 상기 소셜 데이터 및 상기 정보 콘텐츠를 분석하는 것을 특징으로 하는 소셜 데이터 분석 시스템.The method according to claim 1,
Wherein the object dictionary data analyzer receives the domain analysis result of the social data analyzed by the social data domain analyzer and analyzes the social data and the information content.
상기 도메인 학습기는, 상기 소셜 데이터 도메인 분석기에서 분석된 상기 소셜 데이터의 도메인 분석 결과를 피드백받아, 상기 정보 콘텐츠를 분석하는 것을 특징으로 하는 소셜 데이터 분석 시스템.The method according to claim 1,
Wherein the domain learning apparatus receives the domain analysis result of the social data analyzed by the social data domain analyzer and analyzes the information content.
상기 객체 사전 데이터 분석기는,
상기 네트워크를 통하여 상기 소셜 데이터 및 상기 정보 콘텐츠를 수입하는 객체 사전 데이터 수집기;
수집된 상기 소셜 데이터 및 상기 정보 콘텐츠로부터 정형화된 메타 데이터를 추출하는 객체 사전 메타 데이터 추출기; 및
상기 추출된 메타 데이터로부터 키워드 및 가중치를 포함하는 상기 규칙 정보를 생성하는 규칙 정보 생성 모듈;을 포함하는 것을 특징으로 하는 소셜 데이터 분석 시스템.The method according to claim 1,
Wherein the object dictionary data analyzer comprises:
An object dictionary data collector for importing the social data and the information content through the network;
An object dictionary metadata extractor for extracting the collected social data and metadata formatted from the information content; And
And a rule information generating module for generating the rule information including a keyword and a weight from the extracted metadata.
상기 규칙 정보는 단어 벡터로 이루어지는 것을 특징으로 하는 소셜 데이터 분석 시스템.5. The method of claim 4,
Wherein the rule information comprises a word vector.
상기 도메인 학습기는,
학습 데이터를 저장하는 학습 데이터 저장소;
상기 네트워크를 통하여 수집된 상기 정보 콘텐츠에 대하여 상기 학습 데이터 저장소에 저장된 상기 학습 데이터를 추천하는 학습 데이터 추천 모듈; 및
상기 정보 콘텐츠와 추천된 상기 학습 데이터를 함께 분석하여, 상기 학습 데이터 저장소에 저장된 상기 학습 데이터를 업데이트하는 데이터 학습 모듈;을 포함하는 것을 특징으로 하는 소셜 데이터 분석 시스템.The method according to claim 1,
The domain learning apparatus comprising:
A learning data store for storing learning data;
A learning data recommendation module for recommending the learning data stored in the learning data storage for the information content collected through the network; And
And a data learning module for analyzing the information content and the recommended learning data together and updating the learning data stored in the learning data storage.
상기 학습 데이터 저장소에 저장된 상기 학습 데이터는 도메인을 분석 및 분류하기 위하여, 특정 주제에 대한 분류를 나타내는 키워드들을 포함하는 것을 특징으로 하는 소셜 데이터 분석 시스템.The method according to claim 1,
Wherein the learning data stored in the learning data store includes keywords indicating classification of a specific topic in order to analyze and classify the domain.
상기 소셜 데이터 도메인 분석기는,
상기 규칙 정보를 기반으로, 수집된 상기 소셜 데이터에 대한 분석을 수행하는 규칙 기반 분석기;
상기 학습 데이터를 기반으로, 수집된 상기 소셜 데이터에 대한 분석을 수행하는 학습 기반 분석기; 및
상기 규칙 기반 분석기에서 분석된 결과와 상기 학습 기반 분석기에서 분석된 결과를 통합적으로 분석하는 분석 결과 통합 모듈;을 포함하는 것을 특징으로 하는 소셜 데이터 분석 시스템.The method according to claim 1,
Wherein the social data domain analyzer comprises:
A rule-based analyzer for analyzing the collected social data based on the rule information;
A learning-based analyzer for analyzing the collected social data based on the learning data; And
And an analysis result integration module for collectively analyzing the results analyzed by the rule-based analyzer and the results analyzed by the learning-based analyzer.
상기 분석 결과 통합 모듈은, 상기 규칙 기반 분석기에서 분석된 결과와 상기 학습 기반 분석기에서 분석된 결과 각각에 대하여 가중치를 적용하여 통합된 랭킹을 형성하는 것을 특징으로 하는 소셜 데이터 분석 시스템.9. The method of claim 8,
Wherein the integration module forms a combined ranking by applying a weight to each of the result analyzed by the rule-based analyzer and the result analyzed by the learning-based analyzer.
상기 네트워크를 통하여 콘텐츠에 대한 정보를 수집하여 수집된 각 콘텐츠에 대하여 메타 데이터를 생성하는 콘텐츠 메타 데이터 수집기; 및
상기 콘텐츠 메타 데이터 수집기에서 생성한 각 콘텐츠에 대한 메타 데이터와 상기 소셜 데이터 도메인 분석기에서 분류한 상기 소셜 데이터에 대한 도메인 분석 결과를 비교하여, 추천할 콘텐츠를 선정하는 콘텐츠 추천기;를 더 포함하는 것을 특징으로 하는 소셜 데이터 분석 시스템.The method according to claim 1,
A content metadata collector for collecting information on contents through the network and generating metadata for each collected content; And
And a content recommender for comparing the metadata of each content generated by the content metadata collector with the domain analysis result of the social data classified by the social data domain analyzer to select a content to be recommended Features a social data analysis system.
상기 콘텐츠 추천기는, 상기 네트워크를 통하여 사용자로부터 원하는 콘텐츠의 정보를 입력받을 수 있으며, 상기 네트워크를 통하여 상기 사용자에게 선정된 상기 추천할 콘텐츠를 제공하는 것을 특징으로 하는 소셜 데이터 분석 시스템.11. The method of claim 10,
Wherein the content recommender is capable of receiving information of a desired content from a user via the network and providing the selected content to the user via the network.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140016806A KR101567551B1 (en) | 2014-02-13 | 2014-02-13 | Social data analysis system for contents recommedation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140016806A KR101567551B1 (en) | 2014-02-13 | 2014-02-13 | Social data analysis system for contents recommedation |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20150096024A true KR20150096024A (en) | 2015-08-24 |
KR101567551B1 KR101567551B1 (en) | 2015-11-10 |
Family
ID=54058609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020140016806A KR101567551B1 (en) | 2014-02-13 | 2014-02-13 | Social data analysis system for contents recommedation |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101567551B1 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101648906B1 (en) * | 2015-09-07 | 2016-08-17 | 주식회사 파라다이스팩토리 | System for learning foreign language based on sns log infromation and method threrof |
KR20180042934A (en) * | 2016-10-19 | 2018-04-27 | 삼성에스디에스 주식회사 | Method, Apparatus and System for Recommending Contents |
KR20200107197A (en) | 2019-03-06 | 2020-09-16 | 김주혁 | English script generation system and method thereof |
KR102538401B1 (en) * | 2022-12-16 | 2023-05-31 | 주식회사 디윅스 | Data analysis-based personalized service recommendation system |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11514333B2 (en) * | 2018-04-30 | 2022-11-29 | Meta Platforms, Inc. | Combining machine-learning and social data to generate personalized recommendations |
-
2014
- 2014-02-13 KR KR1020140016806A patent/KR101567551B1/en active IP Right Grant
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101648906B1 (en) * | 2015-09-07 | 2016-08-17 | 주식회사 파라다이스팩토리 | System for learning foreign language based on sns log infromation and method threrof |
KR20180042934A (en) * | 2016-10-19 | 2018-04-27 | 삼성에스디에스 주식회사 | Method, Apparatus and System for Recommending Contents |
KR20200107197A (en) | 2019-03-06 | 2020-09-16 | 김주혁 | English script generation system and method thereof |
KR102538401B1 (en) * | 2022-12-16 | 2023-05-31 | 주식회사 디윅스 | Data analysis-based personalized service recommendation system |
Also Published As
Publication number | Publication date |
---|---|
KR101567551B1 (en) | 2015-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7860878B2 (en) | Prioritizing media assets for publication | |
US8838633B2 (en) | NLP-based sentiment analysis | |
Bohlouli et al. | Knowledge discovery from social media using big data-provided sentiment analysis (SoMABiT) | |
KR101567551B1 (en) | Social data analysis system for contents recommedation | |
Spasojevic et al. | Lasta: Large scale topic assignment on multiple social networks | |
CN111192176B (en) | Online data acquisition method and device supporting informatization assessment of education | |
Joorabchi et al. | Automatic mapping of user tags to wikipedia concepts: The case of a q&a website–stackoverflow | |
Jiang et al. | Towards intelligent geospatial data discovery: a machine learning framework for search ranking | |
Wang et al. | Bilateral correspondence model for words-and-pictures association in multimedia-rich microblogs | |
KR101864401B1 (en) | Digital timeline output system for support of fusion of traditional culture | |
KR20200145299A (en) | Intelligent recruitment support platform based on online interview video analysis and social media information analysis | |
CN111557000A (en) | Accuracy determination for media | |
CN116414968A (en) | Information searching method, device, equipment, medium and product | |
Monti et al. | Sequeval: An offline evaluation framework for sequence-based recommender systems | |
Fazzolari et al. | A study on text-score disagreement in online reviews | |
KR20150120591A (en) | System and method for recommending related app | |
Coelho et al. | Semantic similarity for mobile application recommendation under scarce user data | |
Bagdouri et al. | Profession-based person search in microblogs: Using seed sets to find journalists | |
Chen et al. | An analysis of users' behaviour patterns in the organisation of information: A case study of CiteULike | |
KR101650888B1 (en) | Content collection and recommendation system and method | |
Chen et al. | Migrationskb: A knowledge base of public attitudes towards migrations and their driving factors | |
KR102434880B1 (en) | System for providing knowledge sharing service based on multimedia platform | |
Ruth et al. | Box-office analytics and movie recommender system using machine learning algorithms | |
US20220269746A1 (en) | System and Methods for Standardizing Scoring of Individual Social Media Content | |
Gottardo et al. | INDE METADATA CONFORMITY INDICATOR |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20181031 Year of fee payment: 4 |