KR20210036704A - Bigdata collecting system - Google Patents

Bigdata collecting system Download PDF

Info

Publication number
KR20210036704A
KR20210036704A KR1020190119065A KR20190119065A KR20210036704A KR 20210036704 A KR20210036704 A KR 20210036704A KR 1020190119065 A KR1020190119065 A KR 1020190119065A KR 20190119065 A KR20190119065 A KR 20190119065A KR 20210036704 A KR20210036704 A KR 20210036704A
Authority
KR
South Korea
Prior art keywords
information
unit
main server
text
analysis unit
Prior art date
Application number
KR1020190119065A
Other languages
Korean (ko)
Other versions
KR102272021B1 (en
Inventor
이바다
Original Assignee
비스냅(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 비스냅(주) filed Critical 비스냅(주)
Priority to KR1020190119065A priority Critical patent/KR102272021B1/en
Publication of KR20210036704A publication Critical patent/KR20210036704A/en
Application granted granted Critical
Publication of KR102272021B1 publication Critical patent/KR102272021B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • G06K9/00456
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0815Network architectures or network communication protocols for network security for authentication of entities providing single-sign-on or federations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

One embodiment of the present invention relates to a big data collection system, including: a content collection unit that collects structured or unstructured information; an OCR analysis unit that separates a text from a video or image content among information collected by the content collection unit; a text analysis unit that analyzes the text among the information collected by the content collection unit; a main server that classifies and stores the structured or unstructured information collected by the content collection unit and information transmitted from the OCR analysis unit or text analysis unit; an encryption unit that encrypts the information classified in the main server; and a storage unit that stores the information encrypted in the encryption unit in a form corresponding to a request of a user, wherein the main server reorganizes and categorizes transmitted information according to user definition. Accordingly, data that meets the request of the user is provided, and security is improved by applying a blockchain encryption scheme.

Description

빅데이터 수집 시스템{BIGDATA COLLECTING SYSTEM}Big data collection system {BIGDATA COLLECTING SYSTEM}

본 발명은 빅데이터 수집 시스템에 관한 것으로, 더욱 상세하게는 인공지능을 이용하여 빅데이터를 수집하고, 수집된 빅데이터의 암호화를 통해 보안성을 강화할 수 있는 빅데이터 수집 시스템에 관한 것이다.The present invention relates to a big data collection system, and more particularly, to a big data collection system capable of collecting big data using artificial intelligence and enhancing security through encryption of the collected big data.

일반적으로 데이터 수집 기술은 네트워크를 통해 유통되거나, 교환되는 정보를 수집하는 기술을 의미한다. 최근 데이터 수집을 위한 다양한 형태의 챗봇 또는 프로그램들이 개발되고 있다. 이러한 기술들은 SNS, 웹페이지, 블로그 등의 정보들을 실시간으로 수집한다.In general, data collection technology refers to a technology that collects information that is circulated or exchanged through a network. Recently, various types of chatbots or programs for collecting data have been developed. These technologies collect information such as SNS, web pages, and blogs in real time.

그러나 종래 수집 기술은 텍스트를 수집하여 분류하는 기술 수준에 머물러 있다. 즉, SNS, 블로그 등의 개인 미디어 매체들의 정보는 텍스트 이외에 영상 또는 사진 등의 이미지 정보를 포함하고 있어, 이러한 정보를 수집하는 데 어려움이 있다.However, the conventional collection technology remains at the level of collecting and classifying texts. That is, since information on personal media media such as SNS and blogs includes image information such as images or photos in addition to text, it is difficult to collect such information.

또한, 데이터 수집 서버 해킹시 개인 정보가 그대로 유출되는 사고가 발생하고 있다. In addition, there is an accident in which personal information is leaked as it is when the data collection server is hacked.

이러한 사고 발생을 방지하고자 한국공개특허 10-2018-0077340호(블록체인기반의 개인 데이터 처리 방법 및 시스템)가 개시되었다. 그러나 한국공개특허 10-2018-0077340호(블록체인기반의 개인 데이터 처리 방법 및 시스템)은 서버에 가입된 사람들의 정보만을 보호하기 위한 것으로 데이터 수집에 한계가 있다.In order to prevent such an accident, Korean Patent Publication No. 10-2018-0077340 (blockchain-based personal data processing method and system) has been disclosed. However, Korean Patent Laid-Open No. 10-2018-0077340 (blockchain-based personal data processing method and system) is for protecting only the information of people who have subscribed to the server, and there is a limit to data collection.

본 발명이 이루고자 하는 기술적 과제는 빅데이터 수집시 고유넘버를 활용하여 다양한 분류에 대한 데이터를 획득할 수 있고, 보안성이 강화된 빅데이터 수집 시스템을 제공하는 것이다.The technical problem to be achieved by the present invention is to provide a big data collection system that can acquire data for various classifications by using a unique number when collecting big data, and has enhanced security.

본 발명이 이루고자 하는 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The technical problem to be achieved by the present invention is not limited to the technical problems mentioned above, and other technical problems that are not mentioned can be clearly understood by those of ordinary skill in the technical field to which the present invention belongs from the following description. There will be.

상기 기술적 과제를 달성하기 위하여, 본 발명은 정형 또는 비정형 정보를 수집하는 컨텐츠 수집부; 상기 컨텐츠 수집부에서 수집된 정보들 중 영상 또는 이미지 컨텐츠에서 텍스트를 분리하는 OCR 분석부; 상기 컨텐츠 수집부에서 수집된 정보들 중 텍스트를 분석하는 텍스트 분석부; 상기 컨텐츠 수집부에서 수집된 정형 또는 비정형 정보와, 상기 OCR 분석부 또는 텍스트 분석부로부터 전송된 정보들을 분류하고, 저장하는 메인 서버; 상기 메인 서버에서 분류된 정보를 암호화하는 암호화부; 및 상기 암호화부에서 암호화된 정보를 사용자 요구에 의한 형태로 저장하는 저장부를 포함하되, 상기 메인 서버는 상기 전송된 정보들을 사용자 정의에 따라 재구성하여 분류하는 것을 특징으로 하는 빅데이터 수집 시스템을 제공할 수 있다.In order to achieve the above technical problem, the present invention is a content collection unit for collecting structured or unstructured information; An OCR analysis unit for separating text from video or image content among information collected by the content collection unit; A text analysis unit that analyzes text among information collected by the content collection unit; A main server for classifying and storing the structured or unstructured information collected by the content collection unit and the information transmitted from the OCR analysis unit or the text analysis unit; An encryption unit for encrypting the classified information in the main server; And a storage unit for storing the information encrypted by the encryption unit in a form according to a user request, wherein the main server reconstructs and classifies the transmitted information according to a user definition. I can.

상기 컨텐츠 수집부는 상기 사용자 정의에 설정된 고유넘버를 할당 받아 상기 고유넘버에 해당하는 정보를 수집할 수 있다.The content collection unit may be assigned a unique number set for the user definition and collect information corresponding to the unique number.

상기 메인 서버는 수집된 정보들 중 연관성을 분석하여 연관성이 있는 정보를 별도로 분류하고, 분류된 정보에 고유넘버를 부여할 수 있다.The main server may separately classify relevant information by analyzing the correlation among the collected information, and assign a unique number to the classified information.

상기 암호화부는 상기 분류된 정보를 블록체인 암호화하되, 상기 메인 서버에서 사용자 정의에 의해 설정된 고유넘버에 따라 시간순으로 암호화거나, 연관성이 있는 정보별로 암호화할 수 있다.The encryption unit encrypts the classified information in a block chain, and encrypts the classified information in chronological order according to a unique number set by a user definition in the main server, or encrypts each related information.

상기 OCR 분석부는 수집된 컨텐츠 중 영상 또는 이미지에서 텍스트를 분리할 수 있다.The OCR analysis unit may separate text from an image or image among the collected content.

본 발명의 실시예에 따르면, 정형 데이터 뿐만 아니라 영상 또는 사진 등의 비정형 데이터를 수집하여 이를 텍스트화하고, 데이터 베이스를 구축할 수 있다.According to an embodiment of the present invention, it is possible to collect not only structured data but also unstructured data such as images or photos, convert it into text, and build a database.

또한, 시스템에서 가입하지 않는 사용자들에 대한 정보를 획득하고, 고유넘버를 사용하여 이들에 대한 개인 정보를 노출하지 않으면서도, 이들의 구매 이력, 성향 등의 정보를 확인하고, 이를 블록체인 방식으로 암호화하여 저장함으로써, 데이터 신뢰도 향상 및 보안성을 높일 수 있는 장점이 있다.In addition, the system acquires information about users who do not subscribe, and uses a unique number to check information such as their purchase history and propensity without revealing their personal information, and this is done in a block chain method. By encrypting and storing, there is an advantage in that data reliability and security can be improved.

또한, 본 발명의 실시 예에 따르면, 수집된 정보들을 고유넘버에 따라 재수집함으로써, 성향 이동 등을 확인하여 시간에 따른 성향 정보를 획득할 수 있는 장점이 있다. In addition, according to an embodiment of the present invention, by re-collecting the collected information according to the unique number, there is an advantage in that it is possible to obtain propensity information over time by confirming a propensity movement or the like.

본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.The effects of the present invention are not limited to the above effects, and should be understood to include all effects that can be inferred from the configuration of the invention described in the detailed description or claims of the present invention.

도 1은 본 발명의 실시 예에 따른 빅데이터 수집 시스템을 도시한 시스템도.
도 2는 도 1에 도시된 메인 서버의 구성요소를 도시한 블록도.
도 3은 본 발명의 다른 실시 예에 따른 빅데이터 수집 시스템을 도시한 시스템도.
1 is a system diagram showing a big data collection system according to an embodiment of the present invention.
FIG. 2 is a block diagram showing the components of the main server shown in FIG. 1;
3 is a system diagram showing a big data collection system according to another embodiment of the present invention.

이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, the present invention will be described with reference to the accompanying drawings. However, the present invention may be implemented in various different forms, and therefore is not limited to the embodiments described herein. In the drawings, parts irrelevant to the description are omitted in order to clearly describe the present invention, and similar reference numerals are attached to similar parts throughout the specification.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결(접속, 접촉, 결합)"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 구비할 수 있다는 것을 의미한다.Throughout the specification, when a part is said to be "connected (connected, contacted, bonded)" with another part, it is not only "directly connected", but also "indirectly connected" with another member in the middle. "Including the case. In addition, when a part "includes" a certain component, this means that other components may be further provided, not excluding other components, unless specifically stated to the contrary.

본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terms used in the present specification are only used to describe specific embodiments, and are not intended to limit the present invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. In the present specification, terms such as "comprise" or "have" are intended to designate the presence of features, numbers, steps, actions, components, parts, or combinations thereof described in the specification, but one or more other features. It is to be understood that the presence or addition of elements or numbers, steps, actions, components, parts, or combinations thereof does not preclude in advance.

이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 실시 예에 따른 빅데이터 수집 시스템을 도시한 시스템도이다.1 is a system diagram illustrating a big data collection system according to an embodiment of the present invention.

도 1을 참조하면, 본 발명에 따른 빅데이터 수집 시스템은 컨텐츠 수집부(100), OCR 분석부(200), 텍스트 분석부(300), 메인 서버(400), 암호화부(500) 및 저장부(600)를 포함할 수 있다1, the big data collection system according to the present invention includes a content collection unit 100, an OCR analysis unit 200, a text analysis unit 300, a main server 400, an encryption unit 500, and a storage unit. Can contain 600

구체적으로, 컨텐츠 수집부(100)는 정형 또는 비정형 정보를 수집할 수 있다. 정형 정보는 텍스트화된 정보들을 포함하며, 트위터의 맨션 정보, facebook, 인스타그램, 블로그 등의 게시글 또는 댓글을 포함할 수 있다. 비정형 정보는 이미지(사진포함) 또는 영상 등을 포함할 수 있다. 비정형 정보는 이미지, 영상 이외에 텍스트 형태를 제외한 정보들을 포함할 수 있다Specifically, the content collection unit 100 may collect structured or unstructured information. The formal information includes textualized information, and may include mansion information on Twitter, posts or comments such as facebook, Instagram, and blog. The unstructured information may include an image (including a photo) or an image. The unstructured information may include information other than the text format in addition to images and images.

컨텐츠 수집부(100)는 정형 또는 비정형 정보를 수집하기 위하여 클롤링 기법을 사용한다. 즉, 컨텐츠 수집부(100)는 메인 서버(400)에서 제공한 텍스트를 이용하여 온라인 상의 정보를 수집할 수 있다. 또한, 컨텐츠 수집부(100)는 메인 서버(400)에서 제공한 지정 고유 넘버를 이용하여 정보를 수집할 수 있다. 고유 넘버는 사용자가 지정한 고유 넘버로서, IP 또는 한번이라도 수집된 정보의 주체일 수 있다. The content collection unit 100 uses a crawling technique to collect structured or unstructured information. That is, the content collection unit 100 may collect online information using text provided by the main server 400. In addition, the content collection unit 100 may collect information using a designated unique number provided by the main server 400. The unique number is a unique number designated by the user, and may be an IP or a subject of information collected at least once.

OCR(Optical Character Recognition) 분석부(200)는 영상 또는 이미지 정보에 텍스트를 포함하고 있을 경우 영상 또는 이미지에서 텍스트를 분리한다. OCR 분석부(200)는 분리된 영상 또는 이미지 정보와 텍스트를 메인 서버(400)로 전송한다. OCR 분석부(200)는 소프트웨어, 프로그램 등으로 구현될 수 있다.When the image or image information includes text, the OCR (Optical Character Recognition) analysis unit 200 separates the text from the image or image. The OCR analysis unit 200 transmits the separated video or image information and text to the main server 400. The OCR analysis unit 200 may be implemented as software or a program.

텍스트 분석부(300)는 컨텐츠 수집부(100)에서 수집된 정형 또는 비정형의 텍스트 정보를 설정된 키워드에 맞게 분류하고, 이를 메인 서버(400)로 전송할 수 있다. 텍스트 분석부(300)는 메인 서버(400)에서 제공되는 분류 필수 정보를 기준으로 필요한 텍스트 정보만을 메인 서버(400)로 전송할 수 있다. The text analysis unit 300 may classify the structured or unstructured text information collected by the content collection unit 100 according to a set keyword, and transmit it to the main server 400. The text analysis unit 300 may transmit only necessary text information to the main server 400 based on the classification essential information provided from the main server 400.

메인 서버(400)는 컨텐츠 수집부(100), OCR 분석부(200), 텍스트 분석부(300)로부터 전송된 정보들을 분류하고, 이를 저장할 수 있다. 메인 서버(400)는 컨텐츠 수집부(100), OCR 분석부(200), 텍스트 분석부(300)에서 수집할 정보들을 특정하도록 명령을 전달할 수 있다. 이때, 메인 서버(400)는 최초 정보 수집시 수집할 정보를 특정하도록 관련 텍스트들과 이들의 유사어를 통해 정보를 수집하도록 한다. 이후, 메인 서버(400)는 수집된 정보들의 사람이름, 지역, 구매내역, 나이, 성별, 전화번호, IP, 성향, 맨션 등을 분석하고, 이를 기초로 고유넘버를 설정할 수 있다.The main server 400 may classify and store information transmitted from the content collection unit 100, the OCR analysis unit 200, and the text analysis unit 300. The main server 400 may transmit a command to specify information to be collected by the content collection unit 100, the OCR analysis unit 200, and the text analysis unit 300. At this time, the main server 400 collects information through related texts and their similar words to specify the information to be collected at the time of initial information collection. Thereafter, the main server 400 may analyze a person's name, region, purchase history, age, gender, phone number, IP, disposition, apartment, etc. of the collected information, and set a unique number based on this.

메인 서버(400)는 컨텐츠 수집부(100)에서 수집되는 컨텐츠 정보와, OCR 분석부(200)에서 제공되는 정보 및 텍스트 분석부(300)에서 제공되는 정보를 각각 저장한다. 메인 서버(400)는 제공되는 정보들을 설정되는 기준에 맞게 분류한다. 분류기준은 사람이름, 지역, 구매내역, 나이, 성별, 전화번호, IP, 성향 등이 될 수 있다.The main server 400 stores content information collected by the content collection unit 100, information provided by the OCR analysis unit 200, and information provided by the text analysis unit 300, respectively. The main server 400 classifies the provided information according to a set criterion. The classification criteria can be a person's name, region, purchase history, age, gender, phone number, IP, and disposition.

예를 들어, 30대 남성이 특정 지역에서, 특정 상품의 바지를 구매하여 블로그 또는 인터넷 웹페이지 등에 개시하였을 경우, 해당 정보들이 수집된다. 수집된 정보들은 성별, 나이, 지역, 상품 등으로 분류될 수 있으며, 해당 정보는 당사자의 개인정보를 제외한 기호(부호) 등으로 대체될 수 있다. For example, when a man in his 30s purchases pants of a specific product in a specific area and opens it on a blog or an Internet web page, corresponding information is collected. The collected information can be classified by gender, age, region, product, etc., and the information can be replaced with symbols (codes) excluding personal information of the party.

또한, 메인 서버(400)는 수집된 정보들 중 중복된 정보를 분석하여 중복 정보일 경우 1개만 저장하도록 할 수 있다. 이를 통해, 데이터 저장공간 부족을 해결하고, 데이터 처리 속도를 향상시킬 수 있다.In addition, the main server 400 may analyze duplicated information among the collected information and store only one of the duplicated information. Through this, it is possible to solve the shortage of data storage space and improve the data processing speed.

또한, 메인 서버(400)는 수집된 정보들 중 연관성을 분석하여 연관성이 있는 정보를 별도로 분류하고, 분류된 정보에 고유넘버를 부여할 수 있다. 메인 서버(400)는 개인의 특정 정보에 기본적으로 고유넘버를 부여할 수 있으나, 연관성이 있는 정보들을 기준으로 고유넘버를 부여할 수 있다. 예를 들면, 고유넘버로 지역, 날씨, 성별, 나이대 등일 수 있다.In addition, the main server 400 may separately classify related information by analyzing the correlation among the collected information, and may assign a unique number to the classified information. The main server 400 may basically assign a unique number to specific information of an individual, but may assign a unique number based on relevant information. For example, the unique number may be a region, weather, gender, age group, and the like.

메인 서버(400)는 분류된 데이터들을 암호화부(500)에 전송한다.The main server 400 transmits the classified data to the encryption unit 500.

암호화부(500)는 블록체인 암호화 방법을 사용하여 분류된 데이터들을 암호화할 수 있다. 예를 들면, 암호화부(500)는 복수의 블록으로 구성되며, 각 블록에는 데이터와 블록 해시값이 저장될 수 있다.The encryption unit 500 may encrypt classified data using a block chain encryption method. For example, the encryption unit 500 is composed of a plurality of blocks, and data and a block hash value may be stored in each block.

예를 들어, 암호화부(500)는 특정인의 이름, 전화번호, 이메일 등의 개인 식별정보가 외부로 노출되지 않도록 이름, 전화번호, 이메일 등을 특정할 수 있는 고유넘버를 암호화하여 데이터와 블록 해시값을 각각의 블록에 저장할 수 있다. 암호화부(500)는 첫번째 블록에 고유넘버와 블록 해시값을 저장하고, 두번째 블록에 블록 해시값과 분류된 데이터, 세번째 블록에 블록 해시값 및 다른 분류 데이터를 저장할 수 있다. 이러한 블록은 분류별로 확장이 가능하며, 시간순으로 저장된다.For example, the encryption unit 500 encrypts a unique number that can specify a name, phone number, email, etc. so that personal identification information such as a specific person's name, phone number, and email is not exposed to the outside, and hash data and blocks. Values can be stored in each block. The encryption unit 500 may store a unique number and a block hash value in a first block, a block hash value and classified data in a second block, and a block hash value and other classification data in a third block. These blocks can be expanded by classification and are stored in chronological order.

저장부(600)는 암호화부(500)에서 사용된 고유넘버를 기초로 데이터를 저장한다. 즉, 저장부(600)는 사용자가 지정한 고유넘버별 데이터를 별도로 저장하여 추후 통계 분석등에 사용하거나, 각 고유넘버별로 저장된 데이터를 외부로 반출하도록 할 수 있다.The storage unit 600 stores data based on the unique number used in the encryption unit 500. That is, the storage unit 600 may separately store data for each unique number designated by the user and use it for later statistical analysis or the like, or export the data stored for each unique number to the outside.

도 2는 도 1에 도시된 메인 서버를 더 구체적으로 설명하기 위한 블록도이다.FIG. 2 is a block diagram illustrating the main server shown in FIG. 1 in more detail.

도 2에 도시된 바와 같이, 메인 서버(400)는 데이터 처리부(410), 연관성 분석부(420), 데이터 베이스 생성부(430)를 포함할 수 있다.As shown in FIG. 2, the main server 400 may include a data processing unit 410, a correlation analysis unit 420, and a database generation unit 430.

구체적으로, 데이터 처리부(410)는 컨텐츠 수집부(100), OCR 분석부(200), 텍스트 분석부(300)로부터 전송된 정보들을 분류하고, 이를 저장할 수 있다. 이때, 데이터 처리부(410)는 컨텐츠 수집부(100)에서 입력되는 로데이터를 저장할 수 있다. Specifically, the data processing unit 410 may classify and store information transmitted from the content collection unit 100, the OCR analysis unit 200, and the text analysis unit 300. In this case, the data processing unit 410 may store raw data input from the content collection unit 100.

또한, 데이터 처리부(410)는 컨텐츠 수집부(100)에서 제공된 데이터들의 로그기록을 활용하여 OCR 분석부(200) 및 텍스트 분석부(300)에 수집된 데이터를 결합 또는 연관시킬 수 있다. In addition, the data processing unit 410 may combine or associate the data collected in the OCR analysis unit 200 and the text analysis unit 300 by using log records of data provided by the content collection unit 100.

데이터 처리부(410)는 결합 또는 연관된 데이터들을 설정된 항목별로 분류하고, 분류된 데이터를 분류된 데이터를 암호화부(500)에 전송할 수 있다. 이때, 데이터 처리부(410)는 분류 기준으로 IP 등의 식별정보, 시간 등을 필수 기준으로 사용한다.The data processing unit 410 may classify the combined or related data according to set items, and transmit the classified data to the encryption unit 500. At this time, the data processing unit 410 uses identification information such as IP, time, etc. as a classification criterion as an essential criterion.

연관성 분석부(420)는 암호화부(500)에서 제공받은 암호화 데이터와 데이터 처리부(410)에서 전송된 데이터들을 이용하여 중복 데이터 및 연관 데이터를 분석한다. 연관성 분석부(420)는 자신이 가지고 있는 고유넘버의 데이터를 이용하여 연관 데이터들을 분석하고, 이를 취합한다. 이렇게 취합된 데이터들은 새로운 고유넘버가 부여되고 재암호화 하도록 암호화부(500)에 전송된다.The association analysis unit 420 analyzes redundant data and related data by using the encrypted data provided from the encryption unit 500 and the data transmitted from the data processing unit 410. The association analysis unit 420 analyzes and collects related data using data of a unique number that it has. The data collected in this way are assigned a new unique number and transmitted to the encryption unit 500 to be re-encrypted.

데이터 베이스 생성부(430)는 컨텐츠 수집부(100), OCR 분석부(200), 텍스트 분석부(300)에서 수집할 정보들을 특정하도록 컨텐츠 수집부(100)에 고유넘버를 전달할 수 있다. 데이터 베이스 생성부(430)는 별도의 통계 자료를 생성하도록 사용자 요구가 반영될 수 있게 개방된다. 즉, 데이터 베이스 생성부(430)는 사용자의 필요에 의한 데이터 수집 및 데이터 가공이 필요할 경우, 사용자가 설정한 고유넘버를 통해 데이터를 수집하도록 하고, 이를 재가공 하도록 할 수 있다.The database generation unit 430 may transmit a unique number to the content collection unit 100 to specify information to be collected by the content collection unit 100, the OCR analysis unit 200, and the text analysis unit 300. The database generation unit 430 is opened so that a user request can be reflected to generate separate statistical data. That is, when data collection and data processing are required by the user's need, the database generator 430 may collect data through a unique number set by the user and reprocess it.

데이터 베이스 생성부(430)는 생성되는 데이터를 저장부(600)에 저장하도록 할 수 있다.The database generation unit 430 may store the generated data in the storage unit 600.

도 3은 본 발명의 실시 예에 따른 빅데이터 수집 시스템의 다른 예를 도시한 블록도이다. 도 3은 도 1 및 2에 도시된 각 구성부를 운영시 각종 서버 및 기능 구성부가 구비된 형태로 도시한 도면이다. 3 is a block diagram showing another example of a big data collection system according to an embodiment of the present invention. FIG. 3 is a diagram illustrating a configuration in which various servers and functional components are provided when operating each component shown in FIGS. 1 and 2.

이하, 도 3의 설명은 도 1 및 도 2에 도시된 구성부들과 대비하여 설명하기로 한다.Hereinafter, the description of FIG. 3 will be described in comparison with the components illustrated in FIGS. 1 and 2.

도 3을 참조하면, 본 발명에 따른 빅데이터 수집 시스템은 컨텐츠 수집부(100), OCR 분석부(200), 텍스트 분석부(300), 제1 내지 제3 메인 서버(710 내지 730), 제1 및 제2 서브 서버(510, 520) 그리고 저장부(600)를 포함할 수 있다.3, the big data collection system according to the present invention includes a content collection unit 100, an OCR analysis unit 200, a text analysis unit 300, first to third main servers 710 to 730, and It may include first and second sub-servers 510 and 520 and a storage unit 600.

설명에 앞서, 컨텐츠 수집부(100), OCR 분석부(200) 및 텍스트 분석부(300)는 도 1에 도시된 구성과 동일한 구성요소이므로 상세한 설명은 생략하도록 한다.Prior to the description, since the content collection unit 100, the OCR analysis unit 200, and the text analysis unit 300 are the same components as those shown in FIG. 1, detailed descriptions will be omitted.

제1 내지 제3 메인 서버(710 내지 730)는 도 2에 도시된 데이터 처리부(410), 연관성 분석부(420) 및 데이터 베이스 생성부(430)와 동일하거나, 유사한 기능을 수행할 수 있다. The first to third main servers 710 to 730 may perform the same or similar functions as the data processing unit 410, the association analysis unit 420, and the database generation unit 430 illustrated in FIG. 2.

제1 및 제2 서브 서버(510, 520)는 도 1에 도시된 암호화부(500)와 동일하 기능을 수행할 수 있다.The first and second sub-servers 510 and 520 may perform the same functions as the encryption unit 500 illustrated in FIG. 1.

구체적으로, 제1 메인 서버(710)는 컨텐츠 수집부(100), OCR 분석부(200), 텍스트 분석부(300)로부터 전송된 정보들을 분류하고, 이를 저장할 수 있다.Specifically, the first main server 710 may classify and store information transmitted from the content collection unit 100, the OCR analysis unit 200, and the text analysis unit 300.

제1 메인 서버(710)는 결합 또는 연관된 데이터들을 설정된 항목별로 분류하고, 분류된 데이터를 분류된 데이터를 제1 서브 서버(510)에 전송할 수 있다. 이때, 제1 메인 서버(710)는 분류 기준으로 IP 등의 식별정보, 시간 등을 필수 기준으로 사용한다.The first main server 710 may classify combined or related data according to a set item, and transmit the classified data to the first sub server 510. In this case, the first main server 710 uses identification information such as IP, time, etc. as a classification criterion as an essential criterion.

또한, 제1 메인 서버(710)는 고유넘버 취합 데이터를 제2 메인 서버(720)에 제공할 수 있다.In addition, the first main server 710 may provide the unique number collection data to the second main server 720.

제2 메인 서버(720)는 제1 서브 서버(510)에서 제공받은 암호화 데이터와 제1 메인 서버(710)에서 전송된 데이터들을 이용하여 중복 데이터 및 연관 데이터를 분석한다. The second main server 720 analyzes redundant data and related data by using the encrypted data provided from the first sub server 510 and the data transmitted from the first main server 710.

제2 메인 서버(720)는 제1 서브 서버(510)에서 제공받은 암호화 데이터와 데이터 처리부(410)에서 전송된 데이터들을 이용하여 중복 데이터 및 연관 데이터를 분석한다. 제2 메인 서버(720)는 자신이 가지고 있는 고유넘버의 데이터를 이용하여 연관 데이터들을 분석하고, 이를 취합한다. 이렇게 취합된 데이터들은 새로운 고유넘버가 부여되고 재암화하도록 제2 서브 서버(520)에 전송된다.The second main server 720 analyzes redundant data and related data by using the encrypted data provided from the first sub server 510 and the data transmitted from the data processing unit 410. The second main server 720 analyzes and collects related data using data of a unique number that it has. The collected data is assigned a new unique number and transmitted to the second sub server 520 to be re-encrypted.

제3 메인 서버(730)는 사용자 요구에 따른 통계 자료를 생성할 수 있도록 사용자가 설정한 고유넘버를 설정하고, 이를 컨텐츠 수집부(100)로 전송할 수 있다.The third main server 730 may set a unique number set by the user so as to generate statistical data according to the user's request, and may transmit it to the content collection unit 100.

제3 메인 서버(730)는 생성되는 데이터를 저장부(600)에 저장하도록 할 수 있다.The third main server 730 may store the generated data in the storage unit 600.

제1 서브 서버(510)는 제1 메인 서버(710)에서 제공되는 분류 데이터를 각 노드별로 블록체인화하여 저장할 수 있다. 제1 서브 서버(510)는 각 분류 데이터를 시간순으로 저장하고, 결과는 제2 메인 서버(720)에 제공할 수 있다.The first sub-server 510 may block-chain and store classification data provided by the first main server 710 for each node. The first sub server 510 may store each classification data in chronological order, and provide a result to the second main server 720.

제2 서브 서버(520)는 연관성 분석이 완료된 데이터들을 재암호화할 수 있다. 즉, 제2 서브 서버(520)는 제 2 메인 서버(400)에서 제공되는 고유넘버를 이용하여 각 고유넘버별로 데이터를 시간순으로 저장할 수 있다. 이때, 제2 서브 서버(520)에 저장되는 데이터는 블록체인화하여 저장될 수 있다.The second sub-server 520 may re-encrypt data for which correlation analysis has been completed. That is, the second sub server 520 may store data for each unique number in chronological order by using the unique number provided from the second main server 400. In this case, the data stored in the second sub server 520 may be stored in a block chain.

상기에서 설명한 바와 같이, 본 발명의 실시 예에 따른 빅데이터 수집 시스템은 수집된 정보를 블록체인으로 암호화하여 개인 정보 유출을 방지할 수 있다. 또한, 컨텐츠 수집시에 특정되는 고유넘버를 사용하므로 고객 요청에 대응하여 다양한 분류별 통계 정보를 제공할 수 있다.As described above, the big data collection system according to an embodiment of the present invention can prevent personal information from leaking by encrypting the collected information with a block chain. In addition, since a unique number specified when collecting content is used, various classification-specific statistical information can be provided in response to customer requests.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The above description of the present invention is for illustrative purposes only, and those of ordinary skill in the art to which the present invention pertains will be able to understand that other specific forms can be easily modified without changing the technical spirit or essential features of the present invention. will be. Therefore, it should be understood that the embodiments described above are illustrative in all respects and are not limiting. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as being distributed may also be implemented in a combined form.

본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is indicated by the claims to be described later, and all changes or modified forms derived from the meaning and scope of the claims and their equivalent concepts should be construed as being included in the scope of the present invention.

100: 컨텐츠 수집부
200: OCR 분석부
300: 텍스트 분석부
400: 메인 서버
500: 암호화부
600: 저장부
100: content collection unit
200: OCR analysis unit
300: text analysis unit
400: main server
500: encryption unit
600: storage

Claims (5)

정형 또는 비정형 정보를 수집하는 컨텐츠 수집부;
상기 컨텐츠 수집부에서 수집된 정보들 중 영상 또는 이미지 컨텐츠에서 텍스트를 분리하는 OCR 분석부;
상기 컨텐츠 수집부에서 수집된 정보들 중 텍스트를 분석하는 텍스트 분석부;
상기 컨텐츠 수집부에서 수집된 정형 또는 비정형 정보와, 상기 OCR 분석부 또는 텍스트 분석부로부터 전송된 정보들을 분류하고, 저장하는 메인 서버;
상기 메인 서버에서 분류된 정보를 암호화하는 암호화부; 및
상기 암호화부에서 암호화된 정보를 사용자 요구에 의한 형태로 저장하는 저장부를 포함하되,
상기 메인 서버는
상기 전송된 정보들을 사용자 정의에 따라 재구성하여 분류하는 것을 특징으로 하는 빅데이터 수집 시스템.
A content collection unit that collects structured or unstructured information;
An OCR analysis unit for separating text from video or image content among information collected by the content collection unit;
A text analysis unit that analyzes text among information collected by the content collection unit;
A main server for classifying and storing the structured or unstructured information collected by the content collection unit and the information transmitted from the OCR analysis unit or the text analysis unit;
An encryption unit for encrypting the classified information in the main server; And
Including a storage unit for storing the information encrypted by the encryption unit in a form according to a user request,
The main server is
A big data collection system, characterized in that the transmitted information is reconstructed and classified according to a user definition.
제 1 항에 있어서,
상기 컨텐츠 수집부는
상기 사용자 정의에 설정된 고유넘버를 할당 받아 상기 고유넘버에 해당하는 정보를 수집하는 것을 특징으로 하는 빅데이터 수집 시스템.
The method of claim 1,
The content collection unit
A big data collection system, characterized in that receiving a unique number set in the user definition and collecting information corresponding to the unique number.
제 1 항에 있어서,
상기 메인 서버는
수집된 정보들 중 연관성을 분석하여 연관성이 있는 정보를 별도로 분류하고, 분류된 정보에 고유넘버를 부여하는 것을 특징으로 하는 빅데이터 수집 시스템.
The method of claim 1,
The main server is
A big data collection system, characterized in that, among the collected information, a relationship is analyzed, related information is separately classified, and a unique number is assigned to the classified information.
제 3 항에 있어서,
상기 암호화부는
상기 분류된 정보를 블록체인 암호화하되,
상기 메인 서버에서 사용자 정의에 의해 설정된 고유넘버에 따라 시간순으로 암호화거나, 연관성이 있는 정보별로 암호화하는 것을 특징으로 하는 빅데이터 수집 시스템.
The method of claim 3,
The encryption unit
Blockchain encryption of the classified information,
A system for collecting big data, characterized in that the main server encrypts in chronological order according to a unique number set by a user definition or for each related information.
제 1 항에 있어서,
상기 OCR 분석부는 수집된 컨텐츠 중 영상 또는 이미지에서 텍스트를 분리하는 것을 특징으로 하는 빅데이터 수집 시스템.
The method of claim 1,
The OCR analysis unit is a big data collection system, characterized in that separating the text from the image or image of the collected content.
KR1020190119065A 2019-09-26 2019-09-26 Bigdata collecting system KR102272021B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190119065A KR102272021B1 (en) 2019-09-26 2019-09-26 Bigdata collecting system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190119065A KR102272021B1 (en) 2019-09-26 2019-09-26 Bigdata collecting system

Publications (2)

Publication Number Publication Date
KR20210036704A true KR20210036704A (en) 2021-04-05
KR102272021B1 KR102272021B1 (en) 2021-07-02

Family

ID=75461887

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190119065A KR102272021B1 (en) 2019-09-26 2019-09-26 Bigdata collecting system

Country Status (1)

Country Link
KR (1) KR102272021B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240029945A (en) * 2022-08-29 2024-03-07 네이버 주식회사 Method, computer device, and computer program for item ledger platform

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190008163A (en) * 2018-11-27 2019-01-23 한국과학기술원 Method and system for tracking transaction of the user personal information based in blockchain
KR20190029197A (en) * 2017-09-12 2019-03-20 현대자동차주식회사 Apparatus for collecting vehicle data and method thereof
KR20190093755A (en) * 2018-01-11 2019-08-12 강병구 Big data-based image text recognition and customized foodstuff recommendation methods and system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190029197A (en) * 2017-09-12 2019-03-20 현대자동차주식회사 Apparatus for collecting vehicle data and method thereof
KR20190093755A (en) * 2018-01-11 2019-08-12 강병구 Big data-based image text recognition and customized foodstuff recommendation methods and system
KR20190008163A (en) * 2018-11-27 2019-01-23 한국과학기술원 Method and system for tracking transaction of the user personal information based in blockchain

Also Published As

Publication number Publication date
KR102272021B1 (en) 2021-07-02

Similar Documents

Publication Publication Date Title
Feng et al. Twibot-20: A comprehensive twitter bot detection benchmark
Kumari et al. Amfb: Attention based multimodal factorized bilinear pooling for multimodal fake news detection
Hayawi et al. DeeProBot: a hybrid deep neural network model for social bot detection based on user profile data
Zafarani et al. User identification across social media
Eryurek et al. Data governance: The definitive guide
Mosallanezhad et al. Domain adaptive fake news detection via reinforcement learning
US11177937B1 (en) Apparatus and method for establishing trust of anonymous identities
Fairhurst et al. Using keystroke dynamics for gender identification in social network environment
Dhingra et al. Spam analysis of big reviews dataset using Fuzzy Ranking Evaluation Algorithm and Hadoop
Spangher et al. Analysis of Strategy and Spread of Russia-sponsored Content in the US in 2017
Kruspe et al. Detection of actionable tweets in crisis events
US9886701B1 (en) Endorsement abuse detection via social interactions
Lofi et al. Design patterns for hybrid algorithmic-crowdsourcing workflows
Chandrasekaran et al. SoK: Machine learning governance
Noorshams et al. Ties: temporal interaction embeddings for enhancing social media integrity at facebook
Uppada et al. An image and text-based multimodal model for detecting fake news in OSN’s
CN114883005A (en) Data classification and classification method and device, electronic equipment and storage medium
Yan et al. The perils of classifying political orientation from text
KR102272021B1 (en) Bigdata collecting system
Ibrahim et al. A hybrid-based filtering approach for user authentication
Tsimperidis et al. User attribution through keystroke dynamics-based author age estimation
Petit Introducing privacy in current web search engines
Al Kubaizi et al. Mining Expertise Using Social Media Analytics
Rodríguez‐Vidal et al. Authority and priority signals in automatic summary generation for online reputation management
Khan et al. Authenticating facebook users based on widget interaction behavior

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant