KR20150096024A - Social data analysis system for contents recommedation - Google Patents

Social data analysis system for contents recommedation Download PDF

Info

Publication number
KR20150096024A
KR20150096024A KR1020140016806A KR20140016806A KR20150096024A KR 20150096024 A KR20150096024 A KR 20150096024A KR 1020140016806 A KR1020140016806 A KR 1020140016806A KR 20140016806 A KR20140016806 A KR 20140016806A KR 20150096024 A KR20150096024 A KR 20150096024A
Authority
KR
South Korea
Prior art keywords
data
social data
domain
learning
social
Prior art date
Application number
KR1020140016806A
Other languages
Korean (ko)
Other versions
KR101567551B1 (en
Inventor
이경일
채수민
정교성
Original Assignee
주식회사 솔트룩스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 솔트룩스 filed Critical 주식회사 솔트룩스
Priority to KR1020140016806A priority Critical patent/KR101567551B1/en
Publication of KR20150096024A publication Critical patent/KR20150096024A/en
Application granted granted Critical
Publication of KR101567551B1 publication Critical patent/KR101567551B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

The present invention provides a social data analysis system capable of accurately analyzing social data and recommending content. According to the present invention, the social data analysis system includes: an object dictionary data analysis unit which analyzes the social data and information content collected through a network and generates the rule information used to conduct an analysis for domain classification; a domain learning unit which analyzes the information content to generate learning data for the domain classification or update the learning data created in advance; a social data analysis unit which analyzes and refines the social data to extract the metadata of the social data; and a social data domain analysis unit which analyzes the metadata of the social data extracted by the social data analysis unit based on the rule information provided by the object dictionary data analysis unit and the learning data provided by the domain learning unit to classify the domains of the social data.

Description

콘텐츠 추천을 위한 소셜 데이터 분석 시스템{Social data analysis system for contents recommedation}[0001] Social data analysis system for contents recommendation [

본 발명은 소셜 데이터에 포함되어 있는 콘텐츠에 관한 정보를 분석하여 콘텐츠 추천을 하기 위한, 소셜 데이터 분석 시스템에 관한 것이다. The present invention relates to a social data analysis system for analyzing information about contents included in social data and recommending contents.

본 발명은 방송통신위원회 방송통신기술개발사업의 일환으로 한국전자통신연구원이 주관하고 (주)솔트룩스에서 연구하여 수행된 연구로부터 도출된 것이다.The present invention is derived from research conducted by Korea Electronics and Telecommunications Research Institute and Saltlux Co., Ltd. as part of the broadcasting and communication technology development project of the Korea Communications Commission.

[연구기간 : 2013. 03. 01 ~ 2014. 02. 28, 연구관리 전문기관 : 한국방송통신전파진흥원(KCA), 연구과제명 : Beyond 스마트TV 기술 개발, 과제 고유번호 : 11921-03001][Research period: 2013. 03. 01 ~ 2014. 02. 28, Research institute: KCA, Research title: Beyond smart TV technology development, task number: 11921-03001]

소셜 네트워크가 활성화되면서, 소셜 네트워크를 통하여 생성되는 소셜 데이터가 증가하고 있다. 또한 소셜 네트워크를 통하여 콘텐츠에 대한 이용자의 평가가 포함되는 소셜 데이터도 증가하고 있다. As social networks become active, social data generated through social networks is increasing. In addition, social data including user's evaluation of contents through social networks is also increasing.

이에 따라서 콘텐츠를 추천하기 위하여, 소셜 데이터를 분석하는 방법이 연구되고 있다. 그러나, 소셜 데이터에 대한 분석을 할 경우, 동음이의어나 신조어 등에 대한 정확한 의미를 판단하기가 어려워서 정확한 추천을 하기가 어려운 문제가 있다. Accordingly, in order to recommend contents, a method of analyzing social data is being studied. However, when analyzing social data, it is difficult to make accurate recommendations because it is difficult to determine the exact meaning of homonyms or coined words.

본 발명의 기술적 과제는 상기한 문제점을 해결하기 위하여 소셜 데이터에 대한 정확한 분석을 할 수 있는, 콘텐츠 추천을 위한 소셜 데이터 분석 시스템을 제공하는 데에 있다. SUMMARY OF THE INVENTION The present invention has been made in view of the above problems, and it is an object of the present invention to provide a social data analysis system for content recommendation, which can accurately analyze social data.

상기 기술적 과제를 해결하기 위하여, 소셜 데이터에 대한 정확한 분석을 할 수 있는, 콘텐츠 추천을 위한 소셜 데이터 분석 시스템을 제공한다.In order to solve the above technical problem, a social data analysis system for content recommendation, which can accurately analyze social data, is provided.

본 발명에 따른 소셜 데이터 분석 시스템은 네트워크를 통하여 수집된 소셜 데이터 및 정보 콘텐츠를 분석하여, 도메인 분류를 위한 분석을 수행할 수 있는 규칙 정보를 생성하는 객체 사전 데이터 분석기; 상기 정보 콘텐츠를 분석하여, 도메인 분류를 위한 학습 데이터를 생성하거나, 기 작성된 학습 데이터에 대한 업데이트를 하는 도메인 학습기; 상기 소셜 데이터를 분석하고 정제하여, 상기 소셜 데이터에 대한 메타 데이터를 추출하는 소셜 데이터 분석기; 및 상기 소셜 데이터 분석기에서 추출된 상기 소셜 데이터에 대한 메타 데이터를 상기 객체 사전 데이터 분석기에서 제공하는 상기 규칙 정보와 상기 도메인 학습기에서 제공하는 상기 학습 데이터를 기반으로 분석하여, 상기 소셜 데이터에 대한 도메인을 분류하는 소셜 데이터 도메인 분석기;를 포함한다.The system for analyzing social data according to the present invention comprises: an object dictionary data analyzer for analyzing social data and information contents collected through a network and generating rule information capable of performing analysis for domain classification; A domain learning unit for analyzing the information content to generate learning data for domain classification or updating previously prepared learning data; A social data analyzer for analyzing and refining the social data and extracting metadata about the social data; And analyzing metadata on the social data extracted by the social data analyzer based on the rule information provided by the object dictionary data analyzer and the learning data provided by the domain learning apparatus, And a social data domain analyzer for sorting.

상기 객체 사전 데이터 분석기는, 상기 소셜 데이터 도메인 분석기에서 분석된 상기 소셜 데이터의 도메인 분석 결과를 피드백받아, 상기 소셜 데이터 및 상기 정보 콘텐츠를 분석할 수 있다. The object dictionary data analyzer may analyze the social data and the information content by receiving a domain analysis result of the social data analyzed by the social data domain analyzer.

상기 도메인 학습기는, 상기 소셜 데이터 도메인 분석기에서 분석된 상기 소셜 데이터의 도메인 분석 결과를 피드백받아, 상기 정보 콘텐츠를 분석할 수 있다. The domain learning apparatus may analyze the information content by receiving a domain analysis result of the social data analyzed by the social data domain analyzer.

상기 객체 사전 데이터 분석기는, 상기 네트워크를 통하여 상기 소셜 데이터 및 상기 정보 콘텐츠를 수입하는 객체 사전 데이터 수집기; 수집된 상기 소셜 데이터 및 상기 정보 콘텐츠로부터 정형화된 메타 데이터를 추출하는 객체 사전 메타 데이터 추출기; 및 상기 추출된 메타 데이터로부터 키워드 및 가중치를 포함하는 상기 규칙 정보를 생성하는 규칙 정보 생성 모듈;을 포함할 수 있다. Wherein the object dictionary data analyzer comprises: an object dictionary data collector for importing the social data and the information content through the network; An object dictionary metadata extractor for extracting the collected social data and metadata formatted from the information content; And a rule information generation module for generating the rule information including a keyword and a weight from the extracted metadata.

상기 규칙 정보는 단어 벡터로 이루어질 수 있다. The rule information may be a word vector.

상기 도메인 학습기는, 학습 데이터를 저장하는 학습 데이터 저장소; 상기 네트워크를 통하여 수집된 상기 정보 콘텐츠에 대하여 상기 학습 데이터 저장소에 저장된 상기 학습 데이터를 추천하는 학습 데이터 추천 모듈; 및 상기 정보 콘텐츠와 추천된 상기 학습 데이터를 함께 분석하여, 상기 학습 데이터 저장소에 저장된 상기 학습 데이터를 업데이트하는 데이터 학습 모듈;을 포함할 수 있다. The domain learning apparatus comprising: a learning data storage for storing learning data; A learning data recommendation module for recommending the learning data stored in the learning data storage for the information content collected through the network; And a data learning module for analyzing the information content and the recommended learning data together and updating the learning data stored in the learning data storage.

상기 학습 데이터 저장소에 저장된 상기 학습 데이터는 도메인을 분석 및 분류하기 위하여, 특정 주제에 대한 분류를 나타내는 키워드들을 포함할 수 있다. The learning data stored in the learning data repository may include keywords indicating classification of a specific topic in order to analyze and classify the domain.

상기 소셜 데이터 도메인 분석기는, 상기 규칙 정보를 기반으로, 수집된 상기 소셜 데이터에 대한 분석을 수행하는 규칙 기반 분석기; 상기 학습 데이터를 기반으로, 수집된 상기 소셜 데이터에 대한 분석을 수행하는 학습 기반 분석기; 및 상기 규칙 기반 분석기에서 분석된 결과와 상기 학습 기반 분석기에서 분석된 결과를 통합적으로 분석하는 분석 결과 통합 모듈;을 포함할 수 있다. Wherein the social data domain analyzer comprises: a rule-based analyzer for analyzing the collected social data based on the rule information; A learning-based analyzer for analyzing the collected social data based on the learning data; And And an analysis result integration module for integrally analyzing the results analyzed by the rule-based analyzer and the results analyzed by the learning-based analyzer.

상기 분석 결과 통합 모듈은, 상기 규칙 기반 분석기에서 분석된 결과와 상기 학습 기반 분석기에서 분석된 결과 각각에 대하여 가중치를 적용하여 통합된 랭킹을 형성할 수 있다. As a result of the analysis, the integration module may form an integrated ranking by applying weights to the results analyzed by the rule-based analyzer and the results analyzed by the learning-based analyzer.

상기 네트워크를 통하여 콘텐츠에 대한 정보를 수집하여 수집된 각 콘텐츠에 대하여 메타 데이터를 생성하는 콘텐츠 메타 데이터 수집기; 및 상기 콘텐츠 메타 데이터 수집기에서 생성한 각 콘텐츠에 대한 메타 데이터와 상기 소셜 데이터 도메인 분석기에서 분류한 상기 소셜 데이터에 대한 도메인 분석 결과를 비교하여, 추천한 콘텐츠를 선정하는 콘텐츠 추천기;를 더 포함할 수 있다. A content metadata collector for collecting information on contents through the network and generating metadata for each collected content; And a content recommender for comparing the metadata of each content generated by the content metadata collector with the domain analysis result of the social data classified by the social data domain analyzer to select a recommended content .

상기 콘텐츠 추천기는, 상기 네트워크를 통하여 사용자로부터 원하는 콘텐츠의 정보를 입력받을 수 있으며, 상기 네트워크를 통하여 상기 사용자에게 선정된 상기 추천할 콘텐츠를 제공할 수 있다. The content recommender may receive information of a desired content from the user via the network, and may provide the selected content to the user via the network.

본 발명에 따른 콘텐츠 추천을 위한 소셜 데이터 분석 시스템은 소셜 데이터에 대하여 단순한 주제어 또는 도메인 등만을 분석하는 도메인 분석을 위한 학습 데이터에 의한 도메인 분석뿐만 아니라, 객체 사전으로부터 생성한 규칙 정보에 의한 도메인 분석을 함께 수행하기 때문에, 소셜 데이터에 포함된 키워드들에 대한 정확한 의미를 판단할 수 있다. 또한 신조어나 기존에 도메인을 가지고 있던 키워드에 대하여 새로운 도메인에서의 사용이 생길 경우에도 이를 정확하게 반영하여 의미를 판단할 수 있다. The social data analysis system for content recommendation according to the present invention not only analyzes domains based on learning data for domain analysis that analyzes only simple keywords or domains for social data but also performs domain analysis based on rule information generated from an object dictionary Therefore, it is possible to determine the exact meaning of the keywords included in the social data. Also, when a new keyword or a keyword having an existing domain is used in a new domain, it can be accurately reflected to determine the meaning.

도 1은 본 발명의 일 실시 예에 따른 소셜 데이터 분석 시스템의 구성을 설명하기 위한 개략도이다.
도 2는 본 발명의 일 실시 예에 따른 소셜 데이터 분석 시스템의 객체 사전 데이터 분석기의 구성을 설명하기 위한 개략도이다.
도 3은 본 발명의 일 실시 예에 따른 소셜 데이터 분석 시스템의 도메인 학습기의 구성을 설명하기 위한 개략도이다.
도 4는 본 발명의 일 실시 예에 따른 소셜 데이터 분석 시스템의 소셜 데이터 분석기의 구성을 나타내는 개략도이다.
도 5는 본 발명의 일 실시 예에 따른 소셜 데이터 분석 시스템의 소셜 데이터 도메인 분석기의 구성을 나타내는 개략도이다.
도 6은 본 발명의 실시 예의 변형에 따른 소셜 데이터 분석 시스템을 구성을 개략적으로 나타내는 개략도이다.
1 is a schematic diagram for explaining a configuration of a social data analysis system according to an embodiment of the present invention.
2 is a schematic diagram for explaining a configuration of an object dictionary data analyzer of a social data analysis system according to an embodiment of the present invention.
3 is a schematic diagram for explaining a configuration of a domain learning apparatus of a social data analysis system according to an embodiment of the present invention.
4 is a schematic diagram showing the configuration of a social data analyzer of a social data analysis system according to an embodiment of the present invention.
5 is a schematic diagram showing the configuration of a social data domain analyzer of a social data analysis system according to an embodiment of the present invention.
6 is a schematic diagram schematically showing the configuration of a social data analysis system according to a modification of the embodiment of the present invention.

이하, 본 발명의 실시 예들에 따른 콘텐츠 추천을 위한 소셜 데이터 분석 시스템을 첨부된 도면을 참조하여 상세하게 설명하지만, 본 발명이 하기의 실시 예들에 한정되는 것은 아니며, 해당 분야에서 통상의 지식을 가진 자라면 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 본 발명을 다양한 다른 형태로 구현할 수 있을 것이다. 즉, 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 실시 예들을 설명하기 위한 목적으로 예시된 것으로, 본 발명의 실시 예들은 다양한 형태로 실시될 수 있으며 본문에 설명된 실시 예들에 한정되는 것으로 해석되어서는 아니된다. 본문에 설명된 실시 예들에 의해 한정되는 것이 아니므로 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. Hereinafter, a social data analysis system for content recommendation according to embodiments of the present invention will be described in detail with reference to the accompanying drawings. However, the present invention is not limited to the following embodiments, The present invention may be embodied in various other forms without departing from the spirit of the invention. That is, it is to be understood that the specific structural or functional descriptions are merely illustrative of the embodiments of the present invention, and that the embodiments of the present invention may be embodied in various forms and are construed as being limited to the embodiments described herein No. It is to be understood that the invention is intended to cover all modifications, equivalents, and alternatives falling within the spirit and scope of the invention, as defined by the following claims.

본 출원에서 사용한 용어는 단지 특정한 실시 예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구비하다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성 요소 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해될 것이다.The terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise. In the present application, the terms "comprises ", or" comprising ", etc. are intended to specify the presence of stated features, integers, steps, operations, elements, or combinations thereof, But do not preclude the presence or addition of steps, operations, elements, or combinations thereof.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries are to be interpreted as having a meaning consistent with the meaning in the context of the relevant art and are not to be construed as ideal or overly formal in meaning unless expressly defined in the present application .

콘텐츠(contents)란, 사용자가 네트워크를 통해서 접근할 수 있는 각종 정보나 그 내용물을 말하나, 본 명세서에서는 특별히 언급하지 않는 경우, 영상, 음악 등 예를 들면, 디지털 방식으로 제작해서 스마트 티비와 같은 방송 환경을 통하여 제공될 수 있는 멀티미디어 정보를 의미한다. Contents refers to various kinds of information that can be accessed by a user through a network and contents thereof. However, unless specifically mentioned in this specification, images, music, and the like, for example, Means multimedia information that can be provided through the environment.

정보 콘텐츠란, 구조화되어 있거나, 구조화될 수 있는 정보를 담고 있는 콘텐츠를 의미한다. 즉, 전술한 멀티미디어 정보를 의미하는 콘텐츠가 아닌, 문자, 부호 등을 담고 있거나, 또는 문자나 부호로 변환될 수 있는 음성, 이미지, 영상 등을 담고 있는 콘텐츠를 의미한다. 따라서 본 명세서에서 콘텐츠와 정보 콘텐츠는 별개의 의미로 구분되어 사용될 수 있다. Information content refers to content that contains structured or structured information. That is, the content refers to a content that contains characters, codes, etc., or a voice, image, video, or the like, which can be converted into a character or code, rather than a content indicating the above-described multimedia information. Therefore, in this specification, content and information content can be used in different meanings.

메타데이터란, 구조화된 정보로, 대량의 정보 가운데에서 찾고 있는 정보를 효율적으로 찾아내서 이용하기 위해 일정한 규칙에 따라 부여된 데이터이다. Metadata is structured information, and is data given in accordance with certain rules in order to efficiently find and use the information that is searched among a large amount of information.

소셜 데이터란, 소셜 네트워크 상에서 소셜 네트워크의 사용자가 언급한 정보를 의미하며, 특히 본 명세서에서 소셜 데이터란, 콘텐츠에 대하여 사용자가 소셜 네트워크에 언급한 정보를 의미할 수 있다. 소셜 네트워크는, 페이스북, 트위터와 같은 소셜네트워크 서비스뿐만 아니라, 앱 스토어 등의 평가(댓글), 블로그, 인터넷 카페(커뮤니티) 등, 네트워크 상의 사용자들이 서로 연결되거나 정보를 교류할 수 있는 공간을 모두 포괄 할 수 있다. 소셜 데이터는 예를 들면, 소셜 네트워크에 작성하거나 등록한 정보, 예를 들면 메시지, 댓글, 게시물 등으로 표현되는 글, 링크, 사진/그림, 음악, 동영상 등이 모두 포함될 수 있다. 예를 들면, 소셜 데이터는 블로그의 경우, 블로그명(작성자), 작성시간, 제목, 내용, 첨부파일, 조회수, 댓글, 답글, 스크랩, 트랙백, 공유 등, 트위터의 경우, 작성자, 작성시간, 메시지, 해쉬태그, reply, retweet, favorite 등, 페이스북의 경우 작성자, 작성시간, 메시지, 답글, 링크, 사진, 동영상 등, 싸이월드의 경우, 제목, 내용, 작성자, 태그, 댓글 등이 포함될 수 있다.Social data refers to information referred to by a user of a social network on a social network, and in this specification, in the present specification, the social data may mean information that a user refers to a social network for contents. Social networks are not only social network services such as Facebook and Twitter, but also the space where users on the network can connect and exchange information, such as app reviews, comments, blogs, and Internet cafes It can be encompassed. The social data may include, for example, information written or registered in a social network, for example, a message, a comment, a post, etc., a link, a picture / picture, music, For example, social data can be used for blogs, blog names, authoring times, titles, contents, attachments, views, comments, replies, scraps, trackbacks, , Title, content, author, tag, comment, etc., in case of cyworld such as author, author time, message, reply, link, .

도메인이란, 사전에 정의된 데이터의 주제에 관한 분류로 예를 들면, IT, 문화/예술, 경제, 건강/의학, 엔터테인먼트 등으로 나뉠 수 있으며 각 도메인에서 하위 도메인으로 다시 나뉘는 계층적(hierarchy) 구조를 지닌다. A domain is a classification of the subject of predefined data, for example, a hierarchical structure that can be divided into IT, culture / art, economy, health / medicine, Lt; / RTI >

객체란, 데이터(실체)와 그 데이터에 관련되는 동작(절차, 방법, 기능)을 모두 포함한 개념으로, 소셜 데이터 또는 정보 콘텐츠에 들어 있는 정보를 의미한다. 객체 사전은, 객체를 분석하여 메타 데이터로 구조화한 것을 의미하며, 일부 객체 사전이라는 표현은 객체 사전을 생성하기 위한 객체, 즉 "객체 사전용"의 의미로 사용될 수도 있다. An object is a concept including both data (entity) and an operation (procedure, method, and function) related to the data, and means information contained in social data or information contents. The object dictionary means that the object is analyzed and structured as metadata. Some object dictionary may be used as an object for generating an object dictionary, that is, for "object dictionary".

도 1은 본 발명의 일 실시 예에 따른 소셜 데이터 분석 시스템의 구성을 설명하기 위한 개략도이다.1 is a schematic diagram for explaining a configuration of a social data analysis system according to an embodiment of the present invention.

도 1을 참조하면, 소셜 데이터 분석 시스템(1)은 객체 사전 데이터 분석기(100), 도메인 학습기(200) 및 객체 사전/도메인 분석 정보 저장소(300)를 포함한다. Referring to FIG. 1, the social data analysis system 1 includes an object dictionary data analyzer 100, a domain learning machine 200, and an object dictionary / domain analysis information storage 300.

객체 사전 데이터 분석기(100)는 네트워크(10)를 통하여 소셜 네트워크(20) 상의 소셜 데이터와 정보 콘텐츠(30)를 수집하여, 소셜 네트워크(20) 상의 소셜 데이터와 정보 콘텐츠(30)를 수집하고 이들에 포함된 객체를 분석하여 메타 데이터로 객체 사전을 형성한 후, 객체 사전으로부터 규칙 정보를 생성할 수 있다. The object dictionary data analyzer 100 collects the social data and the information content 30 on the social network 20 via the network 10 and collects the social data and the information content 30 on the social network 20, An object dictionary may be formed of metadata by analyzing the objects included in the object dictionary, and then the rule information may be generated from the object dictionary.

네트워크(10)는 유선 인터넷 서비스, 근거리 통신망(LAN), 광대역 통신망(WAN), 인트라넷, 무선 인터넷 서비스, 이동 컴퓨팅 서비스, 무선 데이터 통신 서비스, 무선 인터넷 접속 서비스, 위성 통신 서비스, 무선 랜, 블루투스 등 유/무선을 통하여 데이터를 주고 받을 수 있는 것을 모두 포함할 수 있다. 네트워크(10)가 스마트폰 또는 태블릿 등과 연결되는 경우, 네트워크(10)는 3G, LTE(long term evolution) 등의 무선 데이터 통신 서비스, 와이파이(Wi-Fi) 등의 무선 랜, 블루투스 등일 수 있다. The network 10 may be a wired Internet service, a local area network (LAN), a wide area network (WAN), an intranet, a wireless Internet service, a mobile computing service, a wireless data communication service, a wireless Internet access service, And can transmit / receive data through wire / wireless. When the network 10 is connected to a smart phone or a tablet, the network 10 may be a wireless data communication service such as 3G, long term evolution (LTE), wireless LAN such as Wi-Fi, Bluetooth,

정보 콘텐츠(30)는 기구축된 데이터 또는 위키피디아와 같이 정리된 정보를 포함할 수 있다. 예를 들면, 영화와 관련된 정보 콘텐츠(30)는 포털 사이트의 영화, 배우 또는 영화 스태프 등에 대한 데이터 베이스, 영화사 홈페이지, 위키피디아와 같은 오픈 사전에 정리된 영화, 배우 또는 영화 스태프 등와 관련된 정보, 영화, 배우 또는 영화 스태프 등와 관련된 정보를 정리해 놓은 커뮤니티 등 일 수 있다. 예를 들면, 방송 프로그램과 관련된 정보 콘텐츠(30)는 포털 사이트의 방송 프로그램 관련 페이지 또는 방송 출연자나 방송 제작 스태프 관련 페이지, 방송사 홈페이지, 위키피디아와 같은 오픈 사전에 정리된 방송 프로그램, 방송 출연자 또는 방송 제작 스태프와 관련된 정보, 방송 프로그램, 방송 출연자 또는 방송 제작 스태프과 관련된 정보를 정리해 놓은 커뮤니티 등 일 수 있다. The information content 30 may include pre-established data or organized information such as Wikipedia. For example, the information content 30 associated with a movie may include a database of movies, actors or film staffs on a portal site, a movie homepage, a movie organized in an open dictionary such as Wikipedia, information related to an actor or a movie staff, A community that has gathered information related to an actor or film staff, and the like. For example, the information content 30 related to the broadcast program may be a broadcast program related page of the portal site or a broadcast program, a broadcast performer, a broadcast production staff related page, a broadcast company homepage, a broadcast program organized in an open dictionary such as Wikipedia, Information related to staff, a program, a community where information on a broadcast performer or a broadcast production staff is gathered, and the like.

도 1에서 객체 사전 데이터 분석기(100)가 네트워크(10)를 통하여 정보 콘텐츠(30)를 수집하거나 제공받는 것으로 도시되었으나, 정보 콘텐츠(30)가 기구축된 데이터인 경우, 오프라인을 통해서 정보 콘텐츠(30)를 객체 사전 데이터 분석(100)에 직접 제공할 수도 있다. 즉, 객체 사전 데이터 분석기(100)는 네트워크(10)를 통하여 정보 콘텐츠(30)를 수집하거나 제공받는 것을 기본으로 하나, 기구축되어 저장 장치를 통하여 객체 사전 데이터 분석기(100)에 정보 콘텐츠(30)를 제공하는 것을 배제하는 것은 아니다. Although the object dictionary data analyzer 100 is shown in FIG. 1 as collecting or receiving the information content 30 through the network 10, when the information content 30 is already constructed data, 30) to the object dictionary data analysis 100 directly. That is, the object dictionary data analyzer 100 is basically constructed to collect or receive the information contents 30 through the network 10, but it is constructed and stored in the object dictionary data analyzer 100 through the storage device, Quot;). ≪ / RTI >

도메인 학습기(200)는 네트워크(10)를 통하여 수집하거나 제공받은 정보 콘텐츠(30), 또는 전술한 바와 같이 오프라인을 통해서 제공받은 정보 콘텐츠(30)를 분석하여 도메인을 분석하고 학습할 수 있다. The domain learning apparatus 200 can analyze and learn the domain by analyzing the information contents 30 collected or provided through the network 10 or the information contents 30 provided through offline as described above.

도메인이란, 전술한 바와 같이 사전에 정의된 데이터의 주제에 관한 분류를 의미하며 계층적 구조를 지닐 수 있다. 예를 들면, 영화와 관련된 도메인은 엔터테인먼트 ?? 영화 ?? 제목/배우/스탭/주제/관련 일자 등을 포함할 수 있으며, 경우에 따라, 스탭은 다시 하위 도메인으로 감독, 시나리오, 음악 등으로, 배우는 다시 하위 도메인으로 주연, 주연, 엑스트라, 까메오 등을 지닐 수 있다. A domain means a classification on a subject of predefined data as described above and may have a hierarchical structure. For example, the domain associated with the movie is entertainment ?? movie ?? It may include title / actor / staff / subject / related dates, etc. In some cases, the staff may re-enter the sub-domain with supervision, scenario, music, .

따라서 도메인 학습기(200)는 정보 콘텐츠(30)를 도멘인을 통하여 분석할 수 있도록 학습하기 위한 학습 데이터를 추천하여 저장한 후에, 이를 토대로 정보 콘텐츠(30)가 가지고 있는 데이터에 대하여 분석하기 위한 학습 데이터에 대한 학습을 수행할 수 있다. 학습 데이터란 전술한 데이터의 주제에 관한 분류인 도메인 구분을 위한 키워드 리스트를 포함할 수 있다. 예를 들면, 학습 데이터는 도메인 및 이와 연관되는 자연어, 형용사 등을 포함할 수 있다. Accordingly, the domain learning apparatus 200 recommends and stores learning data for learning to analyze the information content 30 through the domain, and then, the domain learning apparatus 200 learns to analyze the data held by the information content 30 Data can be learned. The learning data may include a keyword list for domain classification, which is a classification related to the subject of the data described above. For example, the learning data may include domains and their associated natural language, adjectives, and the like.

객체 사전/도메인 분석 정보 저장소(300)는 객체 사전으로부터 생성한 규칙 정보와 도메인 분석을 위한 학습 데이터를 저장할 수 있다. 즉, 객체 사전 데이터 분석기(100)에서 생성한 규칙 정보와 도메인 학습기(200)에서 학습된 도메인 분석을 위한 학습 데이터는 객체 사전/도메인 분석 정보 저장소(300)에 저장될 수 있다. The object dictionary / domain analysis information storage 300 may store rule information generated from the object dictionary and learning data for domain analysis. That is, the rule information generated by the object dictionary data analyzer 100 and the learning data for domain analysis learned in the domain learning apparatus 200 can be stored in the object dictionary / domain analysis information storage 300.

소셜 데이터 분석 시스템(1)은 소셜 데이터 분석기(400) 및 소셜 데이터 도메인 분석기(500)를 더 포함할 수 있다. The social data analysis system 1 may further include a social data analyzer 400 and a social data domain analyzer 500.

소셜 데이터 분석기(400)는 네트워크(10)를 통하여 소셜 네트워크(20) 상의 소셜 데이터를 수집한 후에, 소셜 데이터를 정제할 수 있다. The social data analyzer 400 may collect the social data on the social network 20 via the network 10, and then refine the social data.

소셜 데이터 도메인 분석기(500)는 객체 사전/도메인 분석 정보 저장소(300)에 저장된 규칙 정보와 학습 데이터를 토대로 소셜 데이터 분석기(400)에 의하여 정제된 소셜 데이터에 대한 도메인 분석을 수행할 수 있다. 소셜 데이터 도메인 분석기(500)는 도메인 분석을 위한 학습 데이터 뿐만 아니라, 객체 사전으로부터 생성한 규칙 정보를 함께 반영하여 도메인 분석을 수행하기 때문에, 동음 이의어, 신조어 등을 포함하는 소셜 데이터에 대하여도 정확한 도메인 분석을 할 수 있다. The social data domain analyzer 500 can perform domain analysis on the social data refined by the social data analyzer 400 based on the rule information and the learning data stored in the object dictionary / domain analysis information storage 300. [ Since the social data domain analyzer 500 performs domain analysis by reflecting the rule information generated from the object dictionary as well as the learning data for domain analysis, the social data domain analyzer 500 can search the social domain including the homonym, Analysis can be done.

소셜 데이터 도메인 분석기(500)는 도메인 분석이 수행된 소셜 데이터에 대하여 도메인 별로 분류 및 군집을 하기위한 자동분류모듈 및 자동군집모듈을 포함할 수 있다. The social data domain analyzer 500 may include an automatic classification module and an automatic population module to classify and cluster the social data on which the domain analysis is performed by domain.

상기 자동분류모듈은 소셜 데이터들을 자동으로 분류한다. 상기 자동분류모듈은 예를 들면, 베이지언(Bayesian), SVM(Support Vector Machine)과 같은 알고리즘을 통해 구현될 수 있다. The automatic classification module automatically classifies the social data. The automatic classification module may be implemented through algorithms such as Bayesian and Support Vector Machine (SVM), for example.

상기 자동군집모듈은 자동분류된 소셜 데이터들을 각 분류 카테고리 별로, 즉 도메인별로 군집화 과정을 거친다. 자동군집은 소셜 데이터들을 시스템이 통계적으로 임의의 단위로 군집한다. 상기 자동군집모듈은 예를 들면, K-means 알고리즘 등을 사용하여 구현될 수 있다. 이렇게 군집된 소셜 데이터들은 특성단어 등에 대한 정보량 지수가 측정될 수 있으며, 특성단어와 이러한 정보량 지수를 결합하여 생성되는 특성단어벡터는 군집된 소셜 데이터들을 대표하는 단어벡터로 검색을 위하여 사용될 수 있다. The automatic clustering module performs clustering of the automatically classified social data by each classification category, that is, by domain. Automatic clustering aggregates social data into statistically arbitrary units of system. The automatic cluster module may be implemented using, for example, a K-means algorithm. The aggregated social data can be used to measure the information amount index of the characteristic word, and the characteristic word vector generated by combining the characteristic word with the information amount index can be used for the search as a word vector representing the aggregated social data.

도메인 분석이 수행된 소셜 데이터 및/또는 자동분류/자동군집된 소셜 데이터는 분석 소셜 데이터 저장소(600)에 저장되어, 소셜 데이터 분석 시스템(1) 내의 도시된 기능부 및 그 외의 다른 기능부(미도시) 또는 소셜 데이터 분석 시스템(1) 외에 제공될 수 있다. The social data and / or the automatic classification / auto-crowded social data on which the domain analysis has been performed are stored in the analysis social data store 600 so that the functions shown in the social data analysis system 1 and other functions Or other than the social data analysis system 1.

분석 소셜 데이터 저장소(600)는 NoSQL, 관계형 데이터베이스, 파일시스템 등 어떠한 형태로든 데이터를 저장할 수 있는 공간일 수 있다. 분석 소셜 데이터 저장소(600)는 물리적으로 구분되는 저장공간이거나, 논리적으로 구분되는 저장공간일 수 있다. The analytic social data store 600 may be a space that can store data in any form, such as NoSQL, relational database, file system, or the like. The analytical social data store 600 may be a physically separate storage space or a logically distinct storage space.

분석 소셜 데이터 저장소(600)에는 분석이 수행된 소셜 데이터 뿐만 아니라. 분석이 수행된 소셜 데이터가 포함하고 있는 단어들에 대한 의미와 해당 단어들이 사용되는 도메인에 대한 정보가 함께 저장될 수 있다. 이러한 정보는 객체 사전 데이터 분석기(100) 및/또는 도메인 학습기(200)에 피드백될 수 있다. The analytical social data store 600 includes not only the social data on which the analysis is performed, The meaning of the words included in the analyzed social data and information about the domain in which the corresponding words are used can be stored together. This information may be fed back to the object dictionary data analyzer 100 and / or the domain learning machine 200.

본 발명의 의한 소셜 데이터 분석 시스템(1)은 소셜 데이터에 대하여 도메인 분석을 위한 학습 데이터에 의한 도메인 분석뿐만 아니라, 객체 사전으로부터 생성한 규칙 정보에 의한 도메인 분석을 함께 수행하기 때문에, 소셜 데이터에 포함된 키워드들에 대한 정확한 의미를 판단할 수 있다. 또한 신조어나 기존에 도메인을 가지고 있던 키워드에 대하여 새로운 도메인에서의 사용이 생길 경우에도 이를 정확하게 반영하여 의미를 판단할 수 있다. Since the social data analysis system 1 according to the present invention performs not only domain analysis by learning data for domain analysis but also domain analysis by rule information generated from an object dictionary with respect to social data, It is possible to determine the exact meaning of the keywords. Also, when a new keyword or a keyword having an existing domain is used in a new domain, it can be accurately reflected to determine the meaning.

이하에서는 본 발명에 따른 소셜 데이터 분석 시스템(1)의 주요 부분에 대한 세부적인 구성을 살펴보도록 한다.Hereinafter, a detailed configuration of a main part of the social data analysis system 1 according to the present invention will be described.

도 2는 본 발명의 일 실시 예에 따른 소셜 데이터 분석 시스템의 객체 사전 데이터 분석기의 구성을 설명하기 위한 개략도이다. 2 is a schematic diagram for explaining a configuration of an object dictionary data analyzer of a social data analysis system according to an embodiment of the present invention.

도 2를 참조하면, 객체 사전 데이터 분석기(100)는 객체 사전 데이터 수집기(110), 객체 사전 메타 데이터 추출기(120) 및 규칙 정보 생성 모듈(130)을 포함한다. 객체 사전 데이터 수집기(110)는 네트워크(10)를 통해서 소셜 네트워크(20) 상의 소셜 데이터와 정보 콘텐츠(30)를 수집한다. 객체 사전 데이터 수집기(110)는 네트워크(10)를 통해서 인터넷 상의 데이터를 수집하는 로봇 엔진을 포함할 수 있다. 또는 객체 사전 데이터 수집기(110)는 오프라인을 통하여 데이터를 제공받을 수 있는 입력 장치를 포함할 수 있다. Referring to FIG. 2, the object dictionary data analyzer 100 includes an object dictionary data collector 110, an object dictionary metadata extractor 120, and a rule information generation module 130. The object dictionary data collector 110 collects the social data and information content 30 on the social network 20 via the network 10. The object dictionary data collector 110 may include a robotic engine that collects data on the Internet through the network 10. [ Or the object dictionary data collector 110 may include an input device that can receive data via off-line.

객체 사전 메타 데이터 추출기(120)는 수집된 소셜 네트워크(20) 상의 소셜 데이터와 정보 콘텐츠(30)를 정형화된 메타 데이터로 추출할 수 있다. 객체 사전 메타 데이터 추출기(120)는 수집된 소셜 네트워크(20) 상의 소셜 데이터와 정보 콘텐츠(30)에 대한 자연어 처리를 하기 위한 자연어 처리 모듈 및/또는 정형화된 메타 데이터를 추출할 수 있는 모든 데이터 마이닝 기법을 구현할 수 있는 모듈을 포함할 수 있다. The object dictionary metadata extractor 120 extracts the social data on the collected social network 20 and the information content 30 as formalized metadata. The object dictionary metadata extractor 120 extracts social data on the collected social network 20 and a natural language processing module for performing natural language processing on the information content 30 and / or all data mining capable of extracting formalized metadata ≪ / RTI > techniques.

객체 사전 데이터 분석기(100)는 객체 사전 메타 데이터 추출기(120)에서 추출된 메타 데이터를 저장하기 위한 객체 사전 메타 데이터 저장소(140)를 더 포함할 수 있다. 객체 사전 메타 데이터 저장소(140)는 NoSQL, 관계형 데이터베이스, 파일시스템 등 어떠한 형태로든 데이터를 저장할 수 있는 공간일 수 있다. 객체 사전 메타 데이터 저장소(140)는 물리적으로 구분되는 저장공간이거나, 논리적으로 구분되는 저장공간일 수 있다. The object dictionary data analyzer 100 may further include an object dictionary metadata repository 140 for storing the metadata extracted by the object dictionary metadata extractor 120. The object dictionary metadata repository 140 may be a space capable of storing data in any form such as NoSQL, relational database, file system, or the like. The object dictionary metadata repository 140 may be a physically separate storage space or a logically distinct storage space.

규칙 정보 생성 모듈(130)은 객체 사전 메타 데이터 저장소(140)에 저장된 메타 데이터들로부터 규칙 정보를 생성할 수 있다. 규칙 정보에는 확률 및 가중치와 같은 정보가 함께 포함될 수 있다. 규칙 정보는 예를 들면, "7급 공무원"이라는 키워드에 대하여, 함께 나오는 정보에 따라서, "7급 공무원"이라는 키워드가 국가/지자체 공무원을 의미하는지, 드라마를 의미하는지를 판단할 수 있는 정보를 포함할 수 있다. 예를 들면, 규칙 정보는 "7급 공무원"과 "MBC"가 함께 있는 경우에는 방송 프로그램인 드라마를 의미할 확률이 높고, 국가/지자체 공무원을 의미할 확률은 낮도록 설정될 수 있고, "노량진"이 함께 있는 경우에는 드라마를 의미할 확률이 낮고, 국가/지자체 공무원을 의미할 확률은 낮도록 설정될 수 있다. 따라서 특정 키워드에 대한 규칙 정보에는 여러 가지 정보에 대한 확률과 가중치를 함께 포함할 수 있다. The rule information generation module 130 may generate rule information from the metadata stored in the object dictionary metadata storage 140. The rule information may include information such as probability and weight. The rule information includes, for example, information for determining whether the keyword "7th grade official employee " means a national / local government official, or a drama, according to the information together with the keyword" 7th grade official " can do. For example, the rule information may be set so that the probability that a program is a drama as a broadcast program is high when the "seventh grade official" and "MBC" are together, and the probability of signifying a state / local government official is low. "Together, it is possible to set the probability that it means a drama is low, and the probability that it means a state / local government official is low. Therefore, the rule information for a specific keyword may include a probability and a weight for various information.

규칙 정보는 예를 들면, 단어 벡터로 이루어질 수 있다. 단어 벡터는 키워드 및 각 키워드의 가중치를 포함하고 있다. 가중치는 각 키워드의 단어빈도(TF, Term Frequency) 및 각 키워드가 저장된 메타 데이터에서 나타나는 빈도의 역인 역문서빈도(IDF, Inverse Document Frequency) 등을 이용하여 구할 수 있다. 단어빈도는 저장된 메타 데이터에 특정 키워드의 출현횟수로써 특정 키워드가 저장된 메타 데이터의 내용을 얼마나 대표하는가에 대한 척도이다. 또한 역문서빈도는 저장된 메타 데이터 집합에서 특정 키워드가 출연하는 저장된 메타 데이터 수의 비율의 역으로, 적은 저장된 메타 데이터에서 나타나는 키워드는 그 키워드가 나타나는 저장된 메타 데이터를 다른 저장된 메타 데이터들과 구별할 수 있는 능력이 크게 된다. The rule information may be, for example, a word vector. The word vector includes the keyword and the weight of each keyword. The weights can be obtained using the word frequency (TF) of each keyword and the inverse document frequency (IDF) of the frequency of each keyword in the stored metadata. Word frequency is a measure of how much the content of a particular keyword is represented by the number of occurrences of a specific keyword in stored metadata. Also, the frequency of inverse documents is the opposite of the ratio of the number of stored metadata that a particular keyword appears in the stored metadata set, and the keyword appearing in the stored stored metadata can distinguish the stored metadata in which the keyword appears from other stored metadata There is a big capacity.

규칙 정보 생성 모듈(130)에서 생성된 규칙 정보는 객체 사전/도메인 분석 정보 저장소(300)에 저장될 수 있다. The rule information generated by the rule information generation module 130 may be stored in the object dictionary / domain analysis information storage 300.

도 3은 본 발명의 일 실시 예에 따른 소셜 데이터 분석 시스템의 도메인 학습기의 구성을 설명하기 위한 개략도이다. 3 is a schematic diagram for explaining a configuration of a domain learning apparatus of a social data analysis system according to an embodiment of the present invention.

도 3을 참조하면, 도메인 학습기(200)는 학습 데이터 추천 모듈(210), 학습 데이터 저장소(220) 및 데이터 학습 모듈(230)을 포함한다. Referring to FIG. 3, the domain learning apparatus 200 includes a learning data recommendation module 210, a learning data storage 220, and a data learning module 230.

학습 데이터 추천 모듈(210)은 네트워크(10)를 통하여 수집되거나 제공된 정보 콘텐츠(30)에 대하여 학습 데이터를 추천할 수 있다. 추천되는 학습 데이터는 정보 콘텐츠(30)에 대한 도메인을 분석 및 분류하기 위하여 기 작성된 정보일 수 있다. 학습 데이터는 예를 들면, 영화라는 도메인에 대하여 제공되는 학습 데이터에는 영화라는 주제에 대한 분류를 나타내는 키워드들이 포함될 수 있다. 예를 들면, 영화라는 도메인에 대하여 제공되는 학습 데이터에는 배우, 제작진, 리뷰, 평점, 명대사 등이 포함될 수 있다. 학습 데이터 추천 모듈(210)은 학습 데이터 저장소(220)에 저장된 학습 데이터를 수집되거나 제공된 정보 콘텐츠(30)에 추천할 수 있다. The learning data recommendation module 210 may recommend learning data for the information content 30 collected or provided through the network 10. [ The recommended learning data may be prewritten information for analyzing and classifying the domain for the information content 30. The learning data may include, for example, keywords representing a classification of a subject of a movie in learning data provided for a domain of a movie. For example, learning data provided for a movie domain may include an actor, a production team, a review, a rating, and a biography. The learning data recommendation module 210 may collect learning data stored in the learning data store 220 or recommend it to the provided information content 30.

예를 들면, 수집되거나 제공된 정보 콘텐츠(30)가 영화에 관한 정보인 경우, 학습 데이터 추천 모듈(210)은 학습 데이터 저장소(220)에 저장된 영화에 대한 학습 데이터를 추천할 수 있다. For example, if the collected or provided information content 30 is information about a movie, the training data recommendation module 210 may recommend training data for movies stored in the training data store 220.

학습 데이터 저장소(220)는 NoSQL, 관계형 데이터베이스, 파일시스템 등 어떠한 형태로든 데이터를 저장할 수 있는 공간일 수 있다. 학습 데이터 저장소(220)는 물리적으로 구분되는 저장공간이거나, 논리적으로 구분되는 저장공간일 수 있다. The learning data store 220 may be a space capable of storing data in any form such as NoSQL, relational database, file system, or the like. The learning data store 220 may be a physically separate storage space or a logically distinct storage space.

도메인 학습기(200)는 정보 콘텐츠(30)를 수집하여 학습 데이터 추천 모듈(210)에 제공하기 위한 정보 콘텐츠 수집기(미도시)를 더 포함할 수 있다. 상기 정보 콘텐츠 수집기는 네트워크(10)를 통해서 정보 콘텐츠(30)를 수집할 수 있다. 상기 정보 콘텐츠 수집기는 네트워크(10)를 통해서 인터넷 상의 데이터를 수집하는 로봇 엔진을 포함할 수 있다. 또는 상기 정보 콘텐츠 수집기는 오프라인을 통하여 데이터를 제공받을 수 있는 입력 장치를 포함할 수 있다. The domain learning machine 200 may further include an information content collector (not shown) for collecting and providing the information content 30 to the learning data recommendation module 210. The information content collector may collect the information content 30 via the network 10. The information content collector may include a robotic engine for collecting data on the Internet via the network 10. [ Or the information content collector may include an input device capable of receiving data via off-line.

또는 도메인 학습기(200)는 상기 정보 콘텐츠 수집기를 별도로 포함하지 않을 수 있다. 이 경우에, 학습 데이터 추천 모듈(210)은 도 2에 보인 객체 사전 데이터 수집기(110)가 수집하거나 제공받은 정보 콘텐츠(30)를 제공받을 수 있다. Or the domain learning apparatus 200 may not separately include the information content collector. In this case, the learning data recommendation module 210 may be provided with the information content 30 collected or provided by the object dictionary data collector 110 shown in FIG.

정보 콘텐츠(30)가 메타 데이터로 이루어진 경우, 별도의 메타 데이터 추출기를 필요로 하지는 않지만, 정보 콘텐츠(30)가 메타 데이터로 이루어지지 않는 경우에는, 도메인 학습기(200)는 도 2에 보인 객체 사전 메타 데이터 추출기(120)와 유사한 정보 콘텐츠 메타 데이터 추출기(미도시)를 더 포함할 수 있다. In the case where the information content 30 is composed of meta data and the information content 30 is not composed of meta data, the domain learning apparatus 200 does not need a separate metadata extractor, An information content metadata extractor (not shown) similar to the metadata extractor 120 may be further included.

데이터 학습 모듈(230)은 수집하거나 제공받은 정보 콘텐츠(30)와 추천된 학습 데이터를 함께 분석하여, 기 작성된 학습 데이터에 대하여 학습을 수행하여 필요에 따라 기 작성된 학습 데이터에 대하여 업데이트를 하거나, 새로운 학습 데이터를 생성할 수 있다. The data learning module 230 analyzes the collected information content 30 and the recommended learning data together and performs learning on the previously prepared learning data to update the previously prepared learning data as needed, Learning data can be generated.

즉, 수집하거나 제공받은 정보 콘텐츠(30)에 기 작성된 학습 데이터에는 없는 도메인의 주제에 관한 분류가 있는 경우, 기 작성된 학습 데이터에 새로운 분류를 추가하여, 학습 데이터를 업데이트할 수 있다. 또는 수집하거나 제공받은 정보 콘텐츠(30)가 기 작성된 학습 데이터에 없거나 잘 맞지 않는 새로운 주제에 관한 분류를 가지고 있는 경우, 새로운 학습 데이터를 생성할 수 있다.That is, when there is a classification about the subject of the domain that is not included in the previously prepared learning data in the information content 30 collected or provided, the learning data can be updated by adding a new classification to the previously prepared learning data. Or if the information content 30 collected or provided is not in the previously created learning data or has a classification on a new subject that does not fit well, new learning data can be generated.

데이터 학습 모듈(230)에서 업데이트하거나 생성된 학습 데이터는 다시 학습 데이터 저장소(220)에 저장될 수 있다. 이후, 학습 데이터 저장소(220)에 저장된 학습 데이터는 객체 사전/도메인 분석 정보 저장소(300)에 제공되어, 도메인 분석에 사용될 수 있다. The learning data generated or updated in the data learning module 230 may be stored in the learning data storage 220 again. Learning data stored in the learning data store 220 may then be provided to the object dictionary / domain analysis information store 300 and used for domain analysis.

도 4는 본 발명의 일 실시 예에 따른 소셜 데이터 분석 시스템의 소셜 데이터 분석기의 구성을 나타내는 개략도이다.4 is a schematic diagram showing the configuration of a social data analyzer of a social data analysis system according to an embodiment of the present invention.

도 4를 참조하면, 소셜 데이터 분석기(400)는 소셜 데이터 수집기(410) 및 소셜 데이터 정제기(420)를 포함한다.Referring to FIG. 4, the social data analyzer 400 includes a social data collector 410 and a social data purifier 420.

소셜 데이터 수집기(410)는 네트워크(10)를 통하여 소셜 네트워크(20) 상의 소셜 데이터를 수집한다. The social data collector 410 collects social data on the social network 20 via the network 10.

도 4에는 소셜 데이터 분석기(400)가 별도의 소셜 데이터 수집기(410)를 구비하는 것으로 도시되었으나, 소셜 데이터 수집기(410)의 기능을 도 2에 보인 객체 사전 데이터 수집기(110)가 함께 수행할 수도 있다. Although the social data analyzer 400 is shown as having a separate social data collector 410 in FIG. 4, the functionality of the social data collector 410 may be performed by the object dictionary data collector 110 shown in FIG. 2 have.

도 1 내지 도 4를 함께 참조하면, 객체 사전 데이터 분석기(100), 도메인 학습기(200), 소셜 데이터 분석기(400)는 각각 별도의 수집기를 포함할 수 있다. 예를 들면, 객체 사전 데이터 분석기(100)가 포함하는 수집기(예를 들면, 도 2에 보인 객체 사전 데이터 수집기(110))는 소셜 네트워크(20) 상의 소셜 데이터와 정보 콘텐츠(30)를 수집할 수 있다. 도메인 학습기(200)가 포함하는 수집기(미도시)는 정보 콘텐츠(30)를 수집할 수 있다. 소셜 데이터 분석기(400)가 포함하는 수집기(예를 들면, 도 4에 보인 수집기(410))는 소셜 네트워크(20) 상의 소셜 데이터를 수집할 수 있다. Referring to FIGS. 1 through 4, the object dictionary data analyzer 100, the domain learning apparatus 200, and the social data analyzer 400 may each include a separate collector. For example, a collector (e.g., the object dictionary data collector 110 shown in FIG. 2) included in the object dictionary data analyzer 100 may collect social data and information content 30 on the social network 20 . A collector (not shown) included in the domain learning apparatus 200 may collect the information content 30. [ A collector (e.g., collector 410 shown in FIG. 4) included in the social data analyzer 400 may collect social data on the social network 20.

또는 1가지 종류의 수집기가 소셜 네트워크(20) 상의 소셜 데이터와 정보 콘텐츠(30)를 모두 수집하여, 객체 사전 데이터 분석기(100)와 소셜 데이터 분석기(400)에는 소셜 네트워크(20) 상의 소셜 데이터를 제공하고, 객체 사전 데이터 분석기(100)와 도메인 학습기(200)에는 정보 콘텐츠(30)를 제공할 수 있다. Or one kind of collector collects both the social data and the information content 30 on the social network 20 and the object dictionary data analyzer 100 and the social data analyzer 400 receive the social data on the social network 20 And provides the information content 30 to the object dictionary data analyzer 100 and the domain learning machine 200.

또는 소셜 네트워크(20) 상의 소셜 데이터를 수집하는 수집기와 정보 콘텐츠(30)를 수집하는 수집기가 각각 별도로 존재하여, 소셜 네트워크(20) 상의 소셜 데이터를 수집하는 수집기가 객체 사전 데이터 분석기(100)와 소셜 데이터 분석기(400)에 소셜 네트워크(20) 상의 소셜 데이터를 제공하고, 정보 콘텐츠(30)를 수집하는 수집기가 객체 사전 데이터 분석기(100)와 도메인 학습기(200)에 정보 콘텐츠(30)를 제공할 수도 있다. Or a collector for collecting social data on the social network 20 and a collector for collecting the information content 30 are present separately so that the collector for collecting the social data on the social network 20 is provided with the object dictionary data analyzer 100 The collector that provides the social data on the social network 20 to the social data analyzer 400 and collects the information content 30 provides the information content 30 to the object dictionary data analyzer 100 and the domain learning machine 200 You may.

소셜 데이터 정제기(420)는 수집된 소셜 네트워크(20) 상의 소셜 데이터에 대하여 자연어 처리 및 데이터 마이닝 기법을 하여, 상대적으로 정제되지 않은 소셜 데이터를 정제할 수 있다. 소셜 데이터 정제기(420)는 자연어 처리를 하기 위한 자연어 처리 모듈 및/또는 정형화된 메타 데이터를 추출할 수 있는 모든 데이터 마이닝 기법을 구현할 수 있는 모듈을 포함할 수 있다. 소셜 데이터 정제기(420)는 수집된 소셜 네트워크(20) 상의 소셜 데이터를 메타 데이터 수준으로 정제하여 추출할 수도 있으나, 수집된 소셜 네트워크(20) 상의 소셜 데이터가 포함하는 단어들을 단순히 정제할 수도 있다. 예를 들면, 소셜 데이터 정제기(420)는 수집된 소셜 네트워크(20) 상의 소셜 데이터가 포함하는 단어들이 구어체이거나 비표준어인 경우 문어체나 표준어로 정제하거나, 사전에 기재되는 수준의 기본형으로 정제할 수 있다.The social data refiner 420 can refine relatively non-refined social data by applying natural language processing and data mining techniques to the collected social data on the social network 20. [ The social data refiner 420 may include a module capable of implementing a natural language processing module for natural language processing and / or all data mining techniques capable of extracting formalized metadata. The social data refiner 420 may refine and extract the social data on the collected social network 20 to the metadata level but may simply refine the words included in the collected social data on the social network 20. [ For example, the social data purifier 420 can refine the word into the written language or standard language if the words included in the collected social data on the social network 20 are colloquial or non-standard words, or refine the basic type to a level described in advance .

수집된 소셜 네트워크(20) 상의 소셜 데이터는 소셜 데이터 정제기(420)에서 정제된 후, 소셜 데이터 도메인 분석기(500)에 전달될 수 있다.The social data on the collected social network 20 may be refined in the social data purifier 420 and then transmitted to the social data domain analyzer 500.

도 5는 본 발명의 일 실시 예에 따른 소셜 데이터 분석 시스템의 소셜 데이터 도메인 분석기의 구성을 나타내는 개략도이다.5 is a schematic diagram showing the configuration of a social data domain analyzer of a social data analysis system according to an embodiment of the present invention.

도 5를 참조하면, 소셜 데이터 도메인 분석기(500)는 규칙 기반 분석기(510) 및 학습 기반 분석기(520)를 포함한다. 5, the social data domain analyzer 500 includes a rule-based analyzer 510 and a learning-based analyzer 520. The rules-

규칙 기반 분석기(510)는 객체 사전/도메인 분석 정보 저장소(300)에 저장된 규칙 정보를 기반으로, 정제된 소셜 데이터에 대한 분석을 수행한다. 학습 기반 분석기(520)는 객체 사전/도메인 분석 정보 저장소(300)에 저장된 학습 데이터를 기반으로 정제된 소셜 데이터에 대한 분석을 수행한다. The rule-based analyzer 510 analyzes the refined social data based on the rule information stored in the object dictionary / domain analysis information storage 300. The learning-based analyzer 520 analyzes the refined social data based on the learning data stored in the object dictionary / domain analysis information storage 300.

규칙 기반 분석기(510)는 규칙 정보를 기반으로 정제된 소셜 데이터에 대한 분석을 수행하므로, 정제된 소셜 데이터에 포함되는 정제된 단어들의 의미를 정확히 파악할 수 있다. 학습 기반 분석기(520)는 학습 데이터를 기반으로 정제된 소셜 데이터에 대한 분석을 수행하므로, 정제된 소셜 데이터에 해당하는 도메인을 정확히 분류할 수 있고, 도메인의 계층적 구조 또한 특정한 정보 콘텐츠가 가지는 계층적 구조가 아닌 업데이트된 도메인의 계층된 구조를 반영할 수 있다. The rule-based analyzer 510 analyzes the refined social data based on the rule information, so that it can accurately grasp the meaning of the refined words included in the refined social data. Since the learning-based analyzer 520 analyzes the refined social data based on the learning data, it can correctly classify the domain corresponding to the refined social data, and the hierarchical structure of the domain can also classify the hierarchical structure of the specific information content It can reflect the hierarchical structure of the updated domain rather than the enemy structure.

소셜 데이터 도메인 분석기(500)는 분석 결과 통합 모듈(530)을 더 포함할 수 있다. 규칙 기반 분석기(510)에서 분석된 결과와 학습 기반 분석기(520)에서 분석된 결과는 분석 결과 통합 모듈(530)에서 통합적으로 분석이 수행될 수 있다. 분석 결과 통합 모듈(530)은 규칙 정보를 기반으로 분석된 결과와 학습 데이터를 기반으로 분석된 결과 각각에 대하여 가중치를 적용하여 통합된 랭킹을 형성하여, 소셜 데이터가 가지는 도메인을 정확하게 분류할 수 있다. The social data domain analyzer 500 may further include an analysis result integration module 530. The results analyzed in the rule-based analyzer 510 and the analyzed results in the learning-based analyzer 520 can be analyzed integrally in the analysis result integration module 530. As a result of the analysis, the integration module 530 can classify the domains of the social data by forming integrated ranking by applying weights to the analyzed results based on the rule information and the analyzed results based on the learning data .

예를 들면, 소셜 네트워크(20) 상의 소셜 데이터에 드라마 "7급 공무원"을 본 이야기와 함께, 국가/지자체 공무원인 "7급 공무원"에 대한 시험에 대한 언급이 함꼐 포함되는 경우, 분석 결과 통합 모듈(530)은 드라마 "7급 공무원"과 국가/지자체 공무원인 "7급 공무원", 특히 시험 중 어느쪽에 대한 비중을 더 높은 소셜 데이터인지를 분류하여, 해당 소셜 데이터에 대한 도메인 결과를 생성할 수 있다. For example, if the social data on the social network 20 includes a story about a drama "Seventh grade official" and a reference to a test for a "seventh grade official" who is a national / local government official, The module 530 classifies the drama " 7th grade official "and the national / local government official" 7th grade official, " .

또한 이러한 과정에서, 소셜 네트워크(20) 상의 소셜 데이터에 포함되는 줄임말과 같은 신조어가 어떠한 도메인에 대하여 주로 사용되는지를 파악할 수 있고, 이후에는 특정 도메인에 대하여 사용되던 신조어가 다른 도메인에 대하여도 사용되는지를 파악할 수 있다. Also, in this process, it is possible to know which domain is mainly used for a new word such as an abbreviation included in the social data on the social network 20, and after that, the coined word used for the specific domain is also used for another domain .

분석 결과 통합 모듈(530)에서 수행된 소셜 데이터에 대한 도메인 분석 결과는 분석 소셜 데이터 저장소(600)에 저장되어, 소셜 데이터 분석 시스템(1) 기능부 또는 소셜 데이터 분석 시스템(1) 외의 장치에 제공될 수 있다. The domain analysis result of the social data performed in the integration module 530 is stored in the analysis social data store 600 and provided to the device other than the social data analysis system 1 function unit or the social data analysis system 1 .

예를 들면, 이와 같은 분석 결과 통합 모듈(530)에서의 분석 결과는 객체 사전 데이터 분석기(100) 및/또는 도메인 학습기(200)에 피드백되어, 이후에 수집되거나 제공받는 소셜 네트워크(20) 상의 소셜 데이터와 정보 콘텐츠(30)에 대한 분석에도 사용될 수 있다. For example, the analysis result of the integration module 530 may be fed back to the object dictionary data analyzer 100 and / or the domain learning device 200, and then the social information on the social network 20 Can also be used for analysis of data and information content 30.

도 6은 본 발명의 실시 예의 변형에 따른 소셜 데이터 분석 시스템을 구성을 개략적으로 나타내는 개략도이다. 도 6에서 설명하는 소셜 데이터 분석 시스템에 대한 설명 중, 도 1 내지 도 5에서 설명된 내용은 생략될 수 있다. 6 is a schematic diagram schematically showing the configuration of a social data analysis system according to a modification of the embodiment of the present invention. Among the descriptions of the social data analysis system described in Fig. 6, the contents described in Figs. 1 to 5 may be omitted.

도 6을 참조하면, 소셜 데이터 분석 시스템(1a)은 콘텐츠 메타 데이터 수집기(700) 및 콘텐츠 추천기(800)를 더 포함한다. Referring to FIG. 6, the social data analysis system 1a further includes a content metadata collector 700 and a content recommender 800.

콘텐츠 메타 데이터 수집기(700)는 네트워크(10)를 통해서 콘텐츠 네트워크(40) 상의 콘덴츠에 대한 정보를 수집할 수 있다. 콘텐츠 메타 데이터 수집기(700)는 콘텐츠 네트워크(40) 상의 콘텐츠 자체에 대하여 제공되는 정보와 콘텐츠를 이용한 사용자의 반응을 함께 수집하여, 각 콘텐츠에 대한 메타 데이터를 생성할 수 있다. 콘텐츠 메타 데이터 수집기(700)는 네트워크(10)를 통해서 인터넷 상의 데이터를 수집하는 로봇 엔진을 포함할 수 있다. 또한 콘텐츠에 대한 정보가 메타데이터가 아닐 경우, 이를 메타 데이터로 추출하기 위한 추출 모듈을 더 포함할 수 있으며, 상기 추출 모듈은 자연어 처리를 하기 위한 자연어 처리 모듈 및/또는 정형화된 메타 데이터를 추출할 수 있는 모든 데이터 마이닝 기법을 구현할 수 있는 모듈을 포함할 수 있다. The content metadata collector 700 may collect information about the content on the content network 40 via the network 10. [ The content metadata collector 700 may collect the information provided for the content itself on the content network 40 and the user's reaction using the content together to generate metadata for each content. The content metadata collector 700 may include a robotic engine that collects data on the Internet through the network 10. [ If the information about the contents is not metadata, the extraction module may further include an extraction module for extracting the extracted metadata from the metadata, and the extraction module extracts the natural language processing module and / or the formatted metadata for the natural language processing And can implement all data mining techniques that can be implemented.

콘텐츠 추천기(800)는 콘텐츠 메타 데이터 수집기(700)에서 수집/분석한 콘텐츠에 대한 메타 데이터와 분석 소셜 데이터 저장소(600)에 저장된 소셜 데이터에 대한 도메인 분석 결과를 비교하여, 클라이언트(사용자, 50)에게 네트워크(10)를 통하여 추천할 콘텐츠를 선정할 수 있다. 이때 클라이언트(사용자, 50)는 네트워크(10)를 통하여, 콘텐츠 추천기(800)에 사용자(50)가 원하는 콘텐츠에 대한 정보를 입력할 수 있고, 콘텐츠 추천기(800)는 도 1에 보인 소셜 네트워크(20) 상의 소셜 데이터에 포함된 콘텐츠들에 대한 정보와 콘텐츠 자체에 대한 메타 데이터들을 비교하여, 사용자가 원하는 콘텐츠를 추천하거나 제공할 수 있다.The content recommender 800 compares the metadata of the contents collected / analyzed by the content metadata collector 700 with the domain analysis results of the social data stored in the analytic social data store 600, The user can select a content to be recommended through the network 10. At this time, the client (user) 50 can input the information about the content desired by the user 50 to the content recommender 800 through the network 10, The user can recommend or provide the desired content by comparing the information about the contents included in the social data on the network 20 with the metadata about the content itself.

따라서 사용자(50)가 구체적인 콘텐츠의 정보를 콘텐츠 추천기(800)에 입력하지 않아도, 사용자(50)가 원하는 콘텐츠에 대한 니즈(needs)를 소셜 데이터의 분석 결과를 토대로 파악하여, 콘텐츠를 추천할 수 있다. 예를 들면, '우울한 날에 보면 좋은 영화'와 같이 감성적이거나 주관적인 콘텐츠를 요청하는 경우에도, 소셜 데이터 상의 정보 및 콘텐츠에 대한 정보를 종합하여 콘텐츠를 추천할 수 있다. 이때, 콘텐츠 추천기(800)는 필요에 따라서, 클라이언트(50)를 통하여 콘텐츠를 요청하는 사용자에 대한 정보, 예를 들면, 성별, 나이, 직업 등 사용자 자체에 대한 객관적 정보, 또는 사용자의 각종 네트워크 상의 사용 이력 등을 함께 제공받아서, 콘텐츠를 추천할 수 있다. Therefore, even if the user 50 does not input the information of the specific content to the content recommender 800, the user 50 grasps the needs of the desired content on the basis of the analysis result of the social data, . For example, even when a user requests emotional or subjective contents such as 'a movie that looks good on a gloomy day', it is possible to recommend the contents by synthesizing information on the social data and contents. At this time, the content recommender 800 may provide information about the user requesting the content through the client 50, for example, objective information about the user itself such as sex, age, occupation, A history of use on the content, and the like, so that the content can be recommended.

특히, 콘텐츠 추천기(800)는 전술한 바와 같이 정확히 분류가 된 도메인 정보를 가지는 소셜 데이터들에 대해서만 콘텐츠 추천을 위한 분석을 수행할 수 있기 때문에, 빠르면서 정확한 콘텐츠에 대한 추천이 가능하다. In particular, since the content recommender 800 can perform analysis for content recommendation only on social data having domain information correctly classified as described above, it is possible to recommend the content quickly and accurately.

도 6에서 콘텐츠 메타 데이터 분석기(700)와 콘텐츠 추천기(800)는 소셜 데이터 분석 시스템(1a) 내에 포함된 것으로 도시되었으나, 도 1에 보인 소셜 데이터 분석 시스템(1)과 네트워크(10)를 통하여 연결되는 별도의 추천 시스템으로 구성하는 것 또한 가능하다. 6, the content metadata analyzer 700 and the content recommender 800 are shown as being included in the social data analysis system 1a. However, the content metadata analyzer 700 and the content recommender 800 may be connected to the social data analysis system 1 and the network 10 shown in FIG. It is also possible to construct a separate recommendation system to be connected.

도 1 내지 도 6에 보인 객체 사전 메타 데이터 저장소(140), 학습 데이터 저장소(220), 객체 사전/도메인 분석 정보 저장소(300) 및 분석 소셜 데이터 저장소(600)는 각각 별도의 구성으로 도시되었지만, 물리적 또는 논리적으로 구분되는 하나 또는 그 이상의 저장 공간을 함께 공유하는 것일 수 있다. Although the object dictionary metadata repository 140, the learning data repository 220, the object dictionary / domain analysis information repository 300, and the analytic social data repository 600 shown in FIGS. 1 to 6 are shown as separate configurations, Or one or more storage spaces that are physically or logically separated.

도 1 내지 도 6에서 살펴본 바와 같이, 본 발명에 따른 소셜 데이터 분석 시스템(1, 1a)은 소셜 네트워크(20) 상의 소셜 데이터를 활용하여 콘텐츠를 추천하면서도, 단순한 주제어 또는 도메인 등만을 분석하지 않고, 객체 사전으로부터 생성한 규칙 정보에 의한 소셜 데이터의 도메인 분석을 함께 수행하기 때문에, 소셜 데이터에 포함된 키워드들에 대한 정확한 의미를 판단하여, 신조어 또는 새로운 도메인 등을 반영할 수 있다. 여, 사용자(50)의 신조어나 기존에 도메인을 가지고 있던 키워드에 대하여 새로운 도메인에서의 사용이 생길 경우에도 이를 정확하게 반영하여 의미를 판단할 수 있다. 1 to 6, the social data analysis system 1 or 1a according to the present invention does not analyze only the main word or domain, etc., while recommending the content using the social data on the social network 20, The domain analysis of the social data by the rule information generated from the object dictionary is performed together. Therefore, the precise meaning of the keywords included in the social data can be determined, and the new word or the new domain can be reflected. Accordingly, even when a new keyword of the user 50 or a keyword having an existing domain is used in a new domain, the keyword can accurately reflect the new keyword and determine its meaning.

또한, 본 발명의 실시 예들은 컴퓨터 시스템에서 실행할 수 있는 프로그램으로 작성 가능하다. 또한, 상기 프로그램이 수록된 컴퓨터로 읽을 수 있는 기록 매체로부터 읽혀진 해당 프로그램은 디지털 컴퓨터 시스템에서 실행될 수 있다.Further, the embodiments of the present invention can be made into a program executable in a computer system. In addition, the program read from the computer-readable recording medium containing the program can be executed in the digital computer system.

컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, DVD-ROM, USB 메모리, SSD(Solide State Drive), 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의해 용이하게 추론될 수 있다.Examples of the computer-readable recording medium include ROM, RAM, CD-ROM, DVD-ROM, USB memory, SSD (Solide State Drive), magnetic tape, floppy disk, optical data storage, For example, transmission over the Internet). The computer readable recording medium may also be distributed over a networked computer system so that computer readable code can be stored and executed in a distributed manner. And functional programs, codes, and code segments for implementing the present invention can be easily inferred by programmers skilled in the art to which the present invention pertains.

1, 1a : 소셜 데이터 분석 시스템, 10 : 네트워크, 20 : 소셜 네트워크, 30 : 정보 콘텐츠, 40: 콘텐츠 네트워크, 50 : 클라이언트, 100 : 객체 사전 데이터 분석기, 200 : 도메인 학습기, 300 : 객체 사전/도메인 분석 정보 저장소, 400 : 소셜 데이터 분석기, 500 : 소셜 데이터 도메인 분석기, 600 : 분석 소셜 데이터 저장소The present invention relates to an object dictionary data analyzing apparatus and method for analyzing a plurality of object data in an object dictionary domain, Analysis information repository, 400: social data analyzer, 500: social data domain analyzer, 600: analysis social data repository

Claims (11)

네트워크를 통하여 수집된 소셜 데이터 및 정보 콘텐츠를 분석하여, 도메인 분류를 위한 분석을 수행할 수 있는 규칙 정보를 생성하는 객체 사전 데이터 분석기;
상기 정보 콘텐츠를 분석하여, 도메인 분류를 위한 학습 데이터를 생성하거나, 기 작성된 학습 데이터에 대한 업데이트를 하는 도메인 학습기;
상기 소셜 데이터를 분석하고 정제하여, 상기 소셜 데이터에 대한 메타 데이터를 추출하는 소셜 데이터 분석기; 및
상기 소셜 데이터 분석기에서 추출된 상기 소셜 데이터에 대한 메타 데이터를 상기 객체 사전 데이터 분석기에서 제공하는 상기 규칙 정보와 상기 도메인 학습기에서 제공하는 상기 학습 데이터를 기반으로 분석하여, 상기 소셜 데이터에 대한 도메인을 분류하는 소셜 데이터 도메인 분석기;를 포함하는 소셜 데이터 분석 시스템.
An object dictionary data analyzer for analyzing social data and information contents collected through a network and generating rule information capable of performing analysis for domain classification;
A domain learning unit for analyzing the information content to generate learning data for domain classification or updating previously prepared learning data;
A social data analyzer for analyzing and refining the social data and extracting metadata about the social data; And
Analyzing the metadata about the social data extracted by the social data analyzer based on the rule information provided by the object dictionary data analyzer and the learning data provided by the domain learning machine to classify the domain for the social data The social data analysis system comprising:
제1 항에 있어서,
상기 객체 사전 데이터 분석기는, 상기 소셜 데이터 도메인 분석기에서 분석된 상기 소셜 데이터의 도메인 분석 결과를 피드백받아, 상기 소셜 데이터 및 상기 정보 콘텐츠를 분석하는 것을 특징으로 하는 소셜 데이터 분석 시스템.
The method according to claim 1,
Wherein the object dictionary data analyzer receives the domain analysis result of the social data analyzed by the social data domain analyzer and analyzes the social data and the information content.
제1 항에 있어서,
상기 도메인 학습기는, 상기 소셜 데이터 도메인 분석기에서 분석된 상기 소셜 데이터의 도메인 분석 결과를 피드백받아, 상기 정보 콘텐츠를 분석하는 것을 특징으로 하는 소셜 데이터 분석 시스템.
The method according to claim 1,
Wherein the domain learning apparatus receives the domain analysis result of the social data analyzed by the social data domain analyzer and analyzes the information content.
제1 항에 있어서,
상기 객체 사전 데이터 분석기는,
상기 네트워크를 통하여 상기 소셜 데이터 및 상기 정보 콘텐츠를 수입하는 객체 사전 데이터 수집기;
수집된 상기 소셜 데이터 및 상기 정보 콘텐츠로부터 정형화된 메타 데이터를 추출하는 객체 사전 메타 데이터 추출기; 및
상기 추출된 메타 데이터로부터 키워드 및 가중치를 포함하는 상기 규칙 정보를 생성하는 규칙 정보 생성 모듈;을 포함하는 것을 특징으로 하는 소셜 데이터 분석 시스템.
The method according to claim 1,
Wherein the object dictionary data analyzer comprises:
An object dictionary data collector for importing the social data and the information content through the network;
An object dictionary metadata extractor for extracting the collected social data and metadata formatted from the information content; And
And a rule information generating module for generating the rule information including a keyword and a weight from the extracted metadata.
제4 항에 있어서,
상기 규칙 정보는 단어 벡터로 이루어지는 것을 특징으로 하는 소셜 데이터 분석 시스템.
5. The method of claim 4,
Wherein the rule information comprises a word vector.
제1 항에 있어서,
상기 도메인 학습기는,
학습 데이터를 저장하는 학습 데이터 저장소;
상기 네트워크를 통하여 수집된 상기 정보 콘텐츠에 대하여 상기 학습 데이터 저장소에 저장된 상기 학습 데이터를 추천하는 학습 데이터 추천 모듈; 및
상기 정보 콘텐츠와 추천된 상기 학습 데이터를 함께 분석하여, 상기 학습 데이터 저장소에 저장된 상기 학습 데이터를 업데이트하는 데이터 학습 모듈;을 포함하는 것을 특징으로 하는 소셜 데이터 분석 시스템.
The method according to claim 1,
The domain learning apparatus comprising:
A learning data store for storing learning data;
A learning data recommendation module for recommending the learning data stored in the learning data storage for the information content collected through the network; And
And a data learning module for analyzing the information content and the recommended learning data together and updating the learning data stored in the learning data storage.
제1 항에 있어서,
상기 학습 데이터 저장소에 저장된 상기 학습 데이터는 도메인을 분석 및 분류하기 위하여, 특정 주제에 대한 분류를 나타내는 키워드들을 포함하는 것을 특징으로 하는 소셜 데이터 분석 시스템.
The method according to claim 1,
Wherein the learning data stored in the learning data store includes keywords indicating classification of a specific topic in order to analyze and classify the domain.
제1 항에 있어서,
상기 소셜 데이터 도메인 분석기는,
상기 규칙 정보를 기반으로, 수집된 상기 소셜 데이터에 대한 분석을 수행하는 규칙 기반 분석기;
상기 학습 데이터를 기반으로, 수집된 상기 소셜 데이터에 대한 분석을 수행하는 학습 기반 분석기; 및
상기 규칙 기반 분석기에서 분석된 결과와 상기 학습 기반 분석기에서 분석된 결과를 통합적으로 분석하는 분석 결과 통합 모듈;을 포함하는 것을 특징으로 하는 소셜 데이터 분석 시스템.
The method according to claim 1,
Wherein the social data domain analyzer comprises:
A rule-based analyzer for analyzing the collected social data based on the rule information;
A learning-based analyzer for analyzing the collected social data based on the learning data; And
And an analysis result integration module for collectively analyzing the results analyzed by the rule-based analyzer and the results analyzed by the learning-based analyzer.
제8 항에 있어서,
상기 분석 결과 통합 모듈은, 상기 규칙 기반 분석기에서 분석된 결과와 상기 학습 기반 분석기에서 분석된 결과 각각에 대하여 가중치를 적용하여 통합된 랭킹을 형성하는 것을 특징으로 하는 소셜 데이터 분석 시스템.
9. The method of claim 8,
Wherein the integration module forms a combined ranking by applying a weight to each of the result analyzed by the rule-based analyzer and the result analyzed by the learning-based analyzer.
제1 항에 있어서,
상기 네트워크를 통하여 콘텐츠에 대한 정보를 수집하여 수집된 각 콘텐츠에 대하여 메타 데이터를 생성하는 콘텐츠 메타 데이터 수집기; 및
상기 콘텐츠 메타 데이터 수집기에서 생성한 각 콘텐츠에 대한 메타 데이터와 상기 소셜 데이터 도메인 분석기에서 분류한 상기 소셜 데이터에 대한 도메인 분석 결과를 비교하여, 추천할 콘텐츠를 선정하는 콘텐츠 추천기;를 더 포함하는 것을 특징으로 하는 소셜 데이터 분석 시스템.
The method according to claim 1,
A content metadata collector for collecting information on contents through the network and generating metadata for each collected content; And
And a content recommender for comparing the metadata of each content generated by the content metadata collector with the domain analysis result of the social data classified by the social data domain analyzer to select a content to be recommended Features a social data analysis system.
제10 항에 있어서,
상기 콘텐츠 추천기는, 상기 네트워크를 통하여 사용자로부터 원하는 콘텐츠의 정보를 입력받을 수 있으며, 상기 네트워크를 통하여 상기 사용자에게 선정된 상기 추천할 콘텐츠를 제공하는 것을 특징으로 하는 소셜 데이터 분석 시스템.
11. The method of claim 10,
Wherein the content recommender is capable of receiving information of a desired content from a user via the network and providing the selected content to the user via the network.
KR1020140016806A 2014-02-13 2014-02-13 Social data analysis system for contents recommedation KR101567551B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140016806A KR101567551B1 (en) 2014-02-13 2014-02-13 Social data analysis system for contents recommedation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140016806A KR101567551B1 (en) 2014-02-13 2014-02-13 Social data analysis system for contents recommedation

Publications (2)

Publication Number Publication Date
KR20150096024A true KR20150096024A (en) 2015-08-24
KR101567551B1 KR101567551B1 (en) 2015-11-10

Family

ID=54058609

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140016806A KR101567551B1 (en) 2014-02-13 2014-02-13 Social data analysis system for contents recommedation

Country Status (1)

Country Link
KR (1) KR101567551B1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101648906B1 (en) * 2015-09-07 2016-08-17 주식회사 파라다이스팩토리 System for learning foreign language based on sns log infromation and method threrof
KR20180042934A (en) * 2016-10-19 2018-04-27 삼성에스디에스 주식회사 Method, Apparatus and System for Recommending Contents
KR20200107197A (en) 2019-03-06 2020-09-16 김주혁 English script generation system and method thereof
KR102538401B1 (en) * 2022-12-16 2023-05-31 주식회사 디윅스 Data analysis-based personalized service recommendation system

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11514333B2 (en) * 2018-04-30 2022-11-29 Meta Platforms, Inc. Combining machine-learning and social data to generate personalized recommendations

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101648906B1 (en) * 2015-09-07 2016-08-17 주식회사 파라다이스팩토리 System for learning foreign language based on sns log infromation and method threrof
KR20180042934A (en) * 2016-10-19 2018-04-27 삼성에스디에스 주식회사 Method, Apparatus and System for Recommending Contents
KR20200107197A (en) 2019-03-06 2020-09-16 김주혁 English script generation system and method thereof
KR102538401B1 (en) * 2022-12-16 2023-05-31 주식회사 디윅스 Data analysis-based personalized service recommendation system

Also Published As

Publication number Publication date
KR101567551B1 (en) 2015-11-10

Similar Documents

Publication Publication Date Title
US7860878B2 (en) Prioritizing media assets for publication
US8838633B2 (en) NLP-based sentiment analysis
Bohlouli et al. Knowledge discovery from social media using big data-provided sentiment analysis (SoMABiT)
KR101567551B1 (en) Social data analysis system for contents recommedation
Spasojevic et al. Lasta: Large scale topic assignment on multiple social networks
CN111192176B (en) Online data acquisition method and device supporting informatization assessment of education
Joorabchi et al. Automatic mapping of user tags to wikipedia concepts: The case of a q&a website–stackoverflow
Jiang et al. Towards intelligent geospatial data discovery: a machine learning framework for search ranking
Wang et al. Bilateral correspondence model for words-and-pictures association in multimedia-rich microblogs
KR101864401B1 (en) Digital timeline output system for support of fusion of traditional culture
KR20200145299A (en) Intelligent recruitment support platform based on online interview video analysis and social media information analysis
CN111557000A (en) Accuracy determination for media
CN116414968A (en) Information searching method, device, equipment, medium and product
Monti et al. Sequeval: An offline evaluation framework for sequence-based recommender systems
Fazzolari et al. A study on text-score disagreement in online reviews
KR20150120591A (en) System and method for recommending related app
Coelho et al. Semantic similarity for mobile application recommendation under scarce user data
Bagdouri et al. Profession-based person search in microblogs: Using seed sets to find journalists
Chen et al. An analysis of users' behaviour patterns in the organisation of information: A case study of CiteULike
KR101650888B1 (en) Content collection and recommendation system and method
Chen et al. Migrationskb: A knowledge base of public attitudes towards migrations and their driving factors
KR102434880B1 (en) System for providing knowledge sharing service based on multimedia platform
Ruth et al. Box-office analytics and movie recommender system using machine learning algorithms
US20220269746A1 (en) System and Methods for Standardizing Scoring of Individual Social Media Content
Gottardo et al. INDE METADATA CONFORMITY INDICATOR

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20181031

Year of fee payment: 4