KR20210036704A - Bigdata collecting system - Google Patents
Bigdata collecting system Download PDFInfo
- Publication number
- KR20210036704A KR20210036704A KR1020190119065A KR20190119065A KR20210036704A KR 20210036704 A KR20210036704 A KR 20210036704A KR 1020190119065 A KR1020190119065 A KR 1020190119065A KR 20190119065 A KR20190119065 A KR 20190119065A KR 20210036704 A KR20210036704 A KR 20210036704A
- Authority
- KR
- South Korea
- Prior art keywords
- information
- unit
- main server
- text
- analysis unit
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2219—Large Object storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G06K9/00456—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0428—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0815—Network architectures or network communication protocols for network security for authentication of entities providing single-sign-on or federations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
본 발명은 빅데이터 수집 시스템에 관한 것으로, 더욱 상세하게는 인공지능을 이용하여 빅데이터를 수집하고, 수집된 빅데이터의 암호화를 통해 보안성을 강화할 수 있는 빅데이터 수집 시스템에 관한 것이다.The present invention relates to a big data collection system, and more particularly, to a big data collection system capable of collecting big data using artificial intelligence and enhancing security through encryption of the collected big data.
일반적으로 데이터 수집 기술은 네트워크를 통해 유통되거나, 교환되는 정보를 수집하는 기술을 의미한다. 최근 데이터 수집을 위한 다양한 형태의 챗봇 또는 프로그램들이 개발되고 있다. 이러한 기술들은 SNS, 웹페이지, 블로그 등의 정보들을 실시간으로 수집한다.In general, data collection technology refers to a technology that collects information that is circulated or exchanged through a network. Recently, various types of chatbots or programs for collecting data have been developed. These technologies collect information such as SNS, web pages, and blogs in real time.
그러나 종래 수집 기술은 텍스트를 수집하여 분류하는 기술 수준에 머물러 있다. 즉, SNS, 블로그 등의 개인 미디어 매체들의 정보는 텍스트 이외에 영상 또는 사진 등의 이미지 정보를 포함하고 있어, 이러한 정보를 수집하는 데 어려움이 있다.However, the conventional collection technology remains at the level of collecting and classifying texts. That is, since information on personal media media such as SNS and blogs includes image information such as images or photos in addition to text, it is difficult to collect such information.
또한, 데이터 수집 서버 해킹시 개인 정보가 그대로 유출되는 사고가 발생하고 있다. In addition, there is an accident in which personal information is leaked as it is when the data collection server is hacked.
이러한 사고 발생을 방지하고자 한국공개특허 10-2018-0077340호(블록체인기반의 개인 데이터 처리 방법 및 시스템)가 개시되었다. 그러나 한국공개특허 10-2018-0077340호(블록체인기반의 개인 데이터 처리 방법 및 시스템)은 서버에 가입된 사람들의 정보만을 보호하기 위한 것으로 데이터 수집에 한계가 있다.In order to prevent such an accident, Korean Patent Publication No. 10-2018-0077340 (blockchain-based personal data processing method and system) has been disclosed. However, Korean Patent Laid-Open No. 10-2018-0077340 (blockchain-based personal data processing method and system) is for protecting only the information of people who have subscribed to the server, and there is a limit to data collection.
본 발명이 이루고자 하는 기술적 과제는 빅데이터 수집시 고유넘버를 활용하여 다양한 분류에 대한 데이터를 획득할 수 있고, 보안성이 강화된 빅데이터 수집 시스템을 제공하는 것이다.The technical problem to be achieved by the present invention is to provide a big data collection system that can acquire data for various classifications by using a unique number when collecting big data, and has enhanced security.
본 발명이 이루고자 하는 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The technical problem to be achieved by the present invention is not limited to the technical problems mentioned above, and other technical problems that are not mentioned can be clearly understood by those of ordinary skill in the technical field to which the present invention belongs from the following description. There will be.
상기 기술적 과제를 달성하기 위하여, 본 발명은 정형 또는 비정형 정보를 수집하는 컨텐츠 수집부; 상기 컨텐츠 수집부에서 수집된 정보들 중 영상 또는 이미지 컨텐츠에서 텍스트를 분리하는 OCR 분석부; 상기 컨텐츠 수집부에서 수집된 정보들 중 텍스트를 분석하는 텍스트 분석부; 상기 컨텐츠 수집부에서 수집된 정형 또는 비정형 정보와, 상기 OCR 분석부 또는 텍스트 분석부로부터 전송된 정보들을 분류하고, 저장하는 메인 서버; 상기 메인 서버에서 분류된 정보를 암호화하는 암호화부; 및 상기 암호화부에서 암호화된 정보를 사용자 요구에 의한 형태로 저장하는 저장부를 포함하되, 상기 메인 서버는 상기 전송된 정보들을 사용자 정의에 따라 재구성하여 분류하는 것을 특징으로 하는 빅데이터 수집 시스템을 제공할 수 있다.In order to achieve the above technical problem, the present invention is a content collection unit for collecting structured or unstructured information; An OCR analysis unit for separating text from video or image content among information collected by the content collection unit; A text analysis unit that analyzes text among information collected by the content collection unit; A main server for classifying and storing the structured or unstructured information collected by the content collection unit and the information transmitted from the OCR analysis unit or the text analysis unit; An encryption unit for encrypting the classified information in the main server; And a storage unit for storing the information encrypted by the encryption unit in a form according to a user request, wherein the main server reconstructs and classifies the transmitted information according to a user definition. I can.
상기 컨텐츠 수집부는 상기 사용자 정의에 설정된 고유넘버를 할당 받아 상기 고유넘버에 해당하는 정보를 수집할 수 있다.The content collection unit may be assigned a unique number set for the user definition and collect information corresponding to the unique number.
상기 메인 서버는 수집된 정보들 중 연관성을 분석하여 연관성이 있는 정보를 별도로 분류하고, 분류된 정보에 고유넘버를 부여할 수 있다.The main server may separately classify relevant information by analyzing the correlation among the collected information, and assign a unique number to the classified information.
상기 암호화부는 상기 분류된 정보를 블록체인 암호화하되, 상기 메인 서버에서 사용자 정의에 의해 설정된 고유넘버에 따라 시간순으로 암호화거나, 연관성이 있는 정보별로 암호화할 수 있다.The encryption unit encrypts the classified information in a block chain, and encrypts the classified information in chronological order according to a unique number set by a user definition in the main server, or encrypts each related information.
상기 OCR 분석부는 수집된 컨텐츠 중 영상 또는 이미지에서 텍스트를 분리할 수 있다.The OCR analysis unit may separate text from an image or image among the collected content.
본 발명의 실시예에 따르면, 정형 데이터 뿐만 아니라 영상 또는 사진 등의 비정형 데이터를 수집하여 이를 텍스트화하고, 데이터 베이스를 구축할 수 있다.According to an embodiment of the present invention, it is possible to collect not only structured data but also unstructured data such as images or photos, convert it into text, and build a database.
또한, 시스템에서 가입하지 않는 사용자들에 대한 정보를 획득하고, 고유넘버를 사용하여 이들에 대한 개인 정보를 노출하지 않으면서도, 이들의 구매 이력, 성향 등의 정보를 확인하고, 이를 블록체인 방식으로 암호화하여 저장함으로써, 데이터 신뢰도 향상 및 보안성을 높일 수 있는 장점이 있다.In addition, the system acquires information about users who do not subscribe, and uses a unique number to check information such as their purchase history and propensity without revealing their personal information, and this is done in a block chain method. By encrypting and storing, there is an advantage in that data reliability and security can be improved.
또한, 본 발명의 실시 예에 따르면, 수집된 정보들을 고유넘버에 따라 재수집함으로써, 성향 이동 등을 확인하여 시간에 따른 성향 정보를 획득할 수 있는 장점이 있다. In addition, according to an embodiment of the present invention, by re-collecting the collected information according to the unique number, there is an advantage in that it is possible to obtain propensity information over time by confirming a propensity movement or the like.
본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.The effects of the present invention are not limited to the above effects, and should be understood to include all effects that can be inferred from the configuration of the invention described in the detailed description or claims of the present invention.
도 1은 본 발명의 실시 예에 따른 빅데이터 수집 시스템을 도시한 시스템도.
도 2는 도 1에 도시된 메인 서버의 구성요소를 도시한 블록도.
도 3은 본 발명의 다른 실시 예에 따른 빅데이터 수집 시스템을 도시한 시스템도.1 is a system diagram showing a big data collection system according to an embodiment of the present invention.
FIG. 2 is a block diagram showing the components of the main server shown in FIG. 1;
3 is a system diagram showing a big data collection system according to another embodiment of the present invention.
이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, the present invention will be described with reference to the accompanying drawings. However, the present invention may be implemented in various different forms, and therefore is not limited to the embodiments described herein. In the drawings, parts irrelevant to the description are omitted in order to clearly describe the present invention, and similar reference numerals are attached to similar parts throughout the specification.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결(접속, 접촉, 결합)"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 구비할 수 있다는 것을 의미한다.Throughout the specification, when a part is said to be "connected (connected, contacted, bonded)" with another part, it is not only "directly connected", but also "indirectly connected" with another member in the middle. "Including the case. In addition, when a part "includes" a certain component, this means that other components may be further provided, not excluding other components, unless specifically stated to the contrary.
본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terms used in the present specification are only used to describe specific embodiments, and are not intended to limit the present invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. In the present specification, terms such as "comprise" or "have" are intended to designate the presence of features, numbers, steps, actions, components, parts, or combinations thereof described in the specification, but one or more other features. It is to be understood that the presence or addition of elements or numbers, steps, actions, components, parts, or combinations thereof does not preclude in advance.
이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 실시 예에 따른 빅데이터 수집 시스템을 도시한 시스템도이다.1 is a system diagram illustrating a big data collection system according to an embodiment of the present invention.
도 1을 참조하면, 본 발명에 따른 빅데이터 수집 시스템은 컨텐츠 수집부(100), OCR 분석부(200), 텍스트 분석부(300), 메인 서버(400), 암호화부(500) 및 저장부(600)를 포함할 수 있다1, the big data collection system according to the present invention includes a
구체적으로, 컨텐츠 수집부(100)는 정형 또는 비정형 정보를 수집할 수 있다. 정형 정보는 텍스트화된 정보들을 포함하며, 트위터의 맨션 정보, facebook, 인스타그램, 블로그 등의 게시글 또는 댓글을 포함할 수 있다. 비정형 정보는 이미지(사진포함) 또는 영상 등을 포함할 수 있다. 비정형 정보는 이미지, 영상 이외에 텍스트 형태를 제외한 정보들을 포함할 수 있다Specifically, the
컨텐츠 수집부(100)는 정형 또는 비정형 정보를 수집하기 위하여 클롤링 기법을 사용한다. 즉, 컨텐츠 수집부(100)는 메인 서버(400)에서 제공한 텍스트를 이용하여 온라인 상의 정보를 수집할 수 있다. 또한, 컨텐츠 수집부(100)는 메인 서버(400)에서 제공한 지정 고유 넘버를 이용하여 정보를 수집할 수 있다. 고유 넘버는 사용자가 지정한 고유 넘버로서, IP 또는 한번이라도 수집된 정보의 주체일 수 있다. The
OCR(Optical Character Recognition) 분석부(200)는 영상 또는 이미지 정보에 텍스트를 포함하고 있을 경우 영상 또는 이미지에서 텍스트를 분리한다. OCR 분석부(200)는 분리된 영상 또는 이미지 정보와 텍스트를 메인 서버(400)로 전송한다. OCR 분석부(200)는 소프트웨어, 프로그램 등으로 구현될 수 있다.When the image or image information includes text, the OCR (Optical Character Recognition)
텍스트 분석부(300)는 컨텐츠 수집부(100)에서 수집된 정형 또는 비정형의 텍스트 정보를 설정된 키워드에 맞게 분류하고, 이를 메인 서버(400)로 전송할 수 있다. 텍스트 분석부(300)는 메인 서버(400)에서 제공되는 분류 필수 정보를 기준으로 필요한 텍스트 정보만을 메인 서버(400)로 전송할 수 있다. The
메인 서버(400)는 컨텐츠 수집부(100), OCR 분석부(200), 텍스트 분석부(300)로부터 전송된 정보들을 분류하고, 이를 저장할 수 있다. 메인 서버(400)는 컨텐츠 수집부(100), OCR 분석부(200), 텍스트 분석부(300)에서 수집할 정보들을 특정하도록 명령을 전달할 수 있다. 이때, 메인 서버(400)는 최초 정보 수집시 수집할 정보를 특정하도록 관련 텍스트들과 이들의 유사어를 통해 정보를 수집하도록 한다. 이후, 메인 서버(400)는 수집된 정보들의 사람이름, 지역, 구매내역, 나이, 성별, 전화번호, IP, 성향, 맨션 등을 분석하고, 이를 기초로 고유넘버를 설정할 수 있다.The
메인 서버(400)는 컨텐츠 수집부(100)에서 수집되는 컨텐츠 정보와, OCR 분석부(200)에서 제공되는 정보 및 텍스트 분석부(300)에서 제공되는 정보를 각각 저장한다. 메인 서버(400)는 제공되는 정보들을 설정되는 기준에 맞게 분류한다. 분류기준은 사람이름, 지역, 구매내역, 나이, 성별, 전화번호, IP, 성향 등이 될 수 있다.The
예를 들어, 30대 남성이 특정 지역에서, 특정 상품의 바지를 구매하여 블로그 또는 인터넷 웹페이지 등에 개시하였을 경우, 해당 정보들이 수집된다. 수집된 정보들은 성별, 나이, 지역, 상품 등으로 분류될 수 있으며, 해당 정보는 당사자의 개인정보를 제외한 기호(부호) 등으로 대체될 수 있다. For example, when a man in his 30s purchases pants of a specific product in a specific area and opens it on a blog or an Internet web page, corresponding information is collected. The collected information can be classified by gender, age, region, product, etc., and the information can be replaced with symbols (codes) excluding personal information of the party.
또한, 메인 서버(400)는 수집된 정보들 중 중복된 정보를 분석하여 중복 정보일 경우 1개만 저장하도록 할 수 있다. 이를 통해, 데이터 저장공간 부족을 해결하고, 데이터 처리 속도를 향상시킬 수 있다.In addition, the
또한, 메인 서버(400)는 수집된 정보들 중 연관성을 분석하여 연관성이 있는 정보를 별도로 분류하고, 분류된 정보에 고유넘버를 부여할 수 있다. 메인 서버(400)는 개인의 특정 정보에 기본적으로 고유넘버를 부여할 수 있으나, 연관성이 있는 정보들을 기준으로 고유넘버를 부여할 수 있다. 예를 들면, 고유넘버로 지역, 날씨, 성별, 나이대 등일 수 있다.In addition, the
메인 서버(400)는 분류된 데이터들을 암호화부(500)에 전송한다.The
암호화부(500)는 블록체인 암호화 방법을 사용하여 분류된 데이터들을 암호화할 수 있다. 예를 들면, 암호화부(500)는 복수의 블록으로 구성되며, 각 블록에는 데이터와 블록 해시값이 저장될 수 있다.The
예를 들어, 암호화부(500)는 특정인의 이름, 전화번호, 이메일 등의 개인 식별정보가 외부로 노출되지 않도록 이름, 전화번호, 이메일 등을 특정할 수 있는 고유넘버를 암호화하여 데이터와 블록 해시값을 각각의 블록에 저장할 수 있다. 암호화부(500)는 첫번째 블록에 고유넘버와 블록 해시값을 저장하고, 두번째 블록에 블록 해시값과 분류된 데이터, 세번째 블록에 블록 해시값 및 다른 분류 데이터를 저장할 수 있다. 이러한 블록은 분류별로 확장이 가능하며, 시간순으로 저장된다.For example, the
저장부(600)는 암호화부(500)에서 사용된 고유넘버를 기초로 데이터를 저장한다. 즉, 저장부(600)는 사용자가 지정한 고유넘버별 데이터를 별도로 저장하여 추후 통계 분석등에 사용하거나, 각 고유넘버별로 저장된 데이터를 외부로 반출하도록 할 수 있다.The
도 2는 도 1에 도시된 메인 서버를 더 구체적으로 설명하기 위한 블록도이다.FIG. 2 is a block diagram illustrating the main server shown in FIG. 1 in more detail.
도 2에 도시된 바와 같이, 메인 서버(400)는 데이터 처리부(410), 연관성 분석부(420), 데이터 베이스 생성부(430)를 포함할 수 있다.As shown in FIG. 2, the
구체적으로, 데이터 처리부(410)는 컨텐츠 수집부(100), OCR 분석부(200), 텍스트 분석부(300)로부터 전송된 정보들을 분류하고, 이를 저장할 수 있다. 이때, 데이터 처리부(410)는 컨텐츠 수집부(100)에서 입력되는 로데이터를 저장할 수 있다. Specifically, the
또한, 데이터 처리부(410)는 컨텐츠 수집부(100)에서 제공된 데이터들의 로그기록을 활용하여 OCR 분석부(200) 및 텍스트 분석부(300)에 수집된 데이터를 결합 또는 연관시킬 수 있다. In addition, the
데이터 처리부(410)는 결합 또는 연관된 데이터들을 설정된 항목별로 분류하고, 분류된 데이터를 분류된 데이터를 암호화부(500)에 전송할 수 있다. 이때, 데이터 처리부(410)는 분류 기준으로 IP 등의 식별정보, 시간 등을 필수 기준으로 사용한다.The
연관성 분석부(420)는 암호화부(500)에서 제공받은 암호화 데이터와 데이터 처리부(410)에서 전송된 데이터들을 이용하여 중복 데이터 및 연관 데이터를 분석한다. 연관성 분석부(420)는 자신이 가지고 있는 고유넘버의 데이터를 이용하여 연관 데이터들을 분석하고, 이를 취합한다. 이렇게 취합된 데이터들은 새로운 고유넘버가 부여되고 재암호화 하도록 암호화부(500)에 전송된다.The
데이터 베이스 생성부(430)는 컨텐츠 수집부(100), OCR 분석부(200), 텍스트 분석부(300)에서 수집할 정보들을 특정하도록 컨텐츠 수집부(100)에 고유넘버를 전달할 수 있다. 데이터 베이스 생성부(430)는 별도의 통계 자료를 생성하도록 사용자 요구가 반영될 수 있게 개방된다. 즉, 데이터 베이스 생성부(430)는 사용자의 필요에 의한 데이터 수집 및 데이터 가공이 필요할 경우, 사용자가 설정한 고유넘버를 통해 데이터를 수집하도록 하고, 이를 재가공 하도록 할 수 있다.The
데이터 베이스 생성부(430)는 생성되는 데이터를 저장부(600)에 저장하도록 할 수 있다.The
도 3은 본 발명의 실시 예에 따른 빅데이터 수집 시스템의 다른 예를 도시한 블록도이다. 도 3은 도 1 및 2에 도시된 각 구성부를 운영시 각종 서버 및 기능 구성부가 구비된 형태로 도시한 도면이다. 3 is a block diagram showing another example of a big data collection system according to an embodiment of the present invention. FIG. 3 is a diagram illustrating a configuration in which various servers and functional components are provided when operating each component shown in FIGS. 1 and 2.
이하, 도 3의 설명은 도 1 및 도 2에 도시된 구성부들과 대비하여 설명하기로 한다.Hereinafter, the description of FIG. 3 will be described in comparison with the components illustrated in FIGS. 1 and 2.
도 3을 참조하면, 본 발명에 따른 빅데이터 수집 시스템은 컨텐츠 수집부(100), OCR 분석부(200), 텍스트 분석부(300), 제1 내지 제3 메인 서버(710 내지 730), 제1 및 제2 서브 서버(510, 520) 그리고 저장부(600)를 포함할 수 있다.3, the big data collection system according to the present invention includes a
설명에 앞서, 컨텐츠 수집부(100), OCR 분석부(200) 및 텍스트 분석부(300)는 도 1에 도시된 구성과 동일한 구성요소이므로 상세한 설명은 생략하도록 한다.Prior to the description, since the
제1 내지 제3 메인 서버(710 내지 730)는 도 2에 도시된 데이터 처리부(410), 연관성 분석부(420) 및 데이터 베이스 생성부(430)와 동일하거나, 유사한 기능을 수행할 수 있다. The first to third
제1 및 제2 서브 서버(510, 520)는 도 1에 도시된 암호화부(500)와 동일하 기능을 수행할 수 있다.The first and
구체적으로, 제1 메인 서버(710)는 컨텐츠 수집부(100), OCR 분석부(200), 텍스트 분석부(300)로부터 전송된 정보들을 분류하고, 이를 저장할 수 있다.Specifically, the first
제1 메인 서버(710)는 결합 또는 연관된 데이터들을 설정된 항목별로 분류하고, 분류된 데이터를 분류된 데이터를 제1 서브 서버(510)에 전송할 수 있다. 이때, 제1 메인 서버(710)는 분류 기준으로 IP 등의 식별정보, 시간 등을 필수 기준으로 사용한다.The first
또한, 제1 메인 서버(710)는 고유넘버 취합 데이터를 제2 메인 서버(720)에 제공할 수 있다.In addition, the first
제2 메인 서버(720)는 제1 서브 서버(510)에서 제공받은 암호화 데이터와 제1 메인 서버(710)에서 전송된 데이터들을 이용하여 중복 데이터 및 연관 데이터를 분석한다. The second
제2 메인 서버(720)는 제1 서브 서버(510)에서 제공받은 암호화 데이터와 데이터 처리부(410)에서 전송된 데이터들을 이용하여 중복 데이터 및 연관 데이터를 분석한다. 제2 메인 서버(720)는 자신이 가지고 있는 고유넘버의 데이터를 이용하여 연관 데이터들을 분석하고, 이를 취합한다. 이렇게 취합된 데이터들은 새로운 고유넘버가 부여되고 재암화하도록 제2 서브 서버(520)에 전송된다.The second
제3 메인 서버(730)는 사용자 요구에 따른 통계 자료를 생성할 수 있도록 사용자가 설정한 고유넘버를 설정하고, 이를 컨텐츠 수집부(100)로 전송할 수 있다.The third
제3 메인 서버(730)는 생성되는 데이터를 저장부(600)에 저장하도록 할 수 있다.The third
제1 서브 서버(510)는 제1 메인 서버(710)에서 제공되는 분류 데이터를 각 노드별로 블록체인화하여 저장할 수 있다. 제1 서브 서버(510)는 각 분류 데이터를 시간순으로 저장하고, 결과는 제2 메인 서버(720)에 제공할 수 있다.The
제2 서브 서버(520)는 연관성 분석이 완료된 데이터들을 재암호화할 수 있다. 즉, 제2 서브 서버(520)는 제 2 메인 서버(400)에서 제공되는 고유넘버를 이용하여 각 고유넘버별로 데이터를 시간순으로 저장할 수 있다. 이때, 제2 서브 서버(520)에 저장되는 데이터는 블록체인화하여 저장될 수 있다.The
상기에서 설명한 바와 같이, 본 발명의 실시 예에 따른 빅데이터 수집 시스템은 수집된 정보를 블록체인으로 암호화하여 개인 정보 유출을 방지할 수 있다. 또한, 컨텐츠 수집시에 특정되는 고유넘버를 사용하므로 고객 요청에 대응하여 다양한 분류별 통계 정보를 제공할 수 있다.As described above, the big data collection system according to an embodiment of the present invention can prevent personal information from leaking by encrypting the collected information with a block chain. In addition, since a unique number specified when collecting content is used, various classification-specific statistical information can be provided in response to customer requests.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The above description of the present invention is for illustrative purposes only, and those of ordinary skill in the art to which the present invention pertains will be able to understand that other specific forms can be easily modified without changing the technical spirit or essential features of the present invention. will be. Therefore, it should be understood that the embodiments described above are illustrative in all respects and are not limiting. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as being distributed may also be implemented in a combined form.
본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is indicated by the claims to be described later, and all changes or modified forms derived from the meaning and scope of the claims and their equivalent concepts should be construed as being included in the scope of the present invention.
100: 컨텐츠 수집부
200: OCR 분석부
300: 텍스트 분석부
400: 메인 서버
500: 암호화부
600: 저장부100: content collection unit
200: OCR analysis unit
300: text analysis unit
400: main server
500: encryption unit
600: storage
Claims (5)
상기 컨텐츠 수집부에서 수집된 정보들 중 영상 또는 이미지 컨텐츠에서 텍스트를 분리하는 OCR 분석부;
상기 컨텐츠 수집부에서 수집된 정보들 중 텍스트를 분석하는 텍스트 분석부;
상기 컨텐츠 수집부에서 수집된 정형 또는 비정형 정보와, 상기 OCR 분석부 또는 텍스트 분석부로부터 전송된 정보들을 분류하고, 저장하는 메인 서버;
상기 메인 서버에서 분류된 정보를 암호화하는 암호화부; 및
상기 암호화부에서 암호화된 정보를 사용자 요구에 의한 형태로 저장하는 저장부를 포함하되,
상기 메인 서버는
상기 전송된 정보들을 사용자 정의에 따라 재구성하여 분류하는 것을 특징으로 하는 빅데이터 수집 시스템.
A content collection unit that collects structured or unstructured information;
An OCR analysis unit for separating text from video or image content among information collected by the content collection unit;
A text analysis unit that analyzes text among information collected by the content collection unit;
A main server for classifying and storing the structured or unstructured information collected by the content collection unit and the information transmitted from the OCR analysis unit or the text analysis unit;
An encryption unit for encrypting the classified information in the main server; And
Including a storage unit for storing the information encrypted by the encryption unit in a form according to a user request,
The main server is
A big data collection system, characterized in that the transmitted information is reconstructed and classified according to a user definition.
상기 컨텐츠 수집부는
상기 사용자 정의에 설정된 고유넘버를 할당 받아 상기 고유넘버에 해당하는 정보를 수집하는 것을 특징으로 하는 빅데이터 수집 시스템.
The method of claim 1,
The content collection unit
A big data collection system, characterized in that receiving a unique number set in the user definition and collecting information corresponding to the unique number.
상기 메인 서버는
수집된 정보들 중 연관성을 분석하여 연관성이 있는 정보를 별도로 분류하고, 분류된 정보에 고유넘버를 부여하는 것을 특징으로 하는 빅데이터 수집 시스템.
The method of claim 1,
The main server is
A big data collection system, characterized in that, among the collected information, a relationship is analyzed, related information is separately classified, and a unique number is assigned to the classified information.
상기 암호화부는
상기 분류된 정보를 블록체인 암호화하되,
상기 메인 서버에서 사용자 정의에 의해 설정된 고유넘버에 따라 시간순으로 암호화거나, 연관성이 있는 정보별로 암호화하는 것을 특징으로 하는 빅데이터 수집 시스템.
The method of claim 3,
The encryption unit
Blockchain encryption of the classified information,
A system for collecting big data, characterized in that the main server encrypts in chronological order according to a unique number set by a user definition or for each related information.
상기 OCR 분석부는 수집된 컨텐츠 중 영상 또는 이미지에서 텍스트를 분리하는 것을 특징으로 하는 빅데이터 수집 시스템.
The method of claim 1,
The OCR analysis unit is a big data collection system, characterized in that separating the text from the image or image of the collected content.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190119065A KR102272021B1 (en) | 2019-09-26 | 2019-09-26 | Bigdata collecting system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190119065A KR102272021B1 (en) | 2019-09-26 | 2019-09-26 | Bigdata collecting system |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210036704A true KR20210036704A (en) | 2021-04-05 |
KR102272021B1 KR102272021B1 (en) | 2021-07-02 |
Family
ID=75461887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190119065A KR102272021B1 (en) | 2019-09-26 | 2019-09-26 | Bigdata collecting system |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102272021B1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20240029945A (en) * | 2022-08-29 | 2024-03-07 | 네이버 주식회사 | Method, computer device, and computer program for item ledger platform |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190008163A (en) * | 2018-11-27 | 2019-01-23 | 한국과학기술원 | Method and system for tracking transaction of the user personal information based in blockchain |
KR20190029197A (en) * | 2017-09-12 | 2019-03-20 | 현대자동차주식회사 | Apparatus for collecting vehicle data and method thereof |
KR20190093755A (en) * | 2018-01-11 | 2019-08-12 | 강병구 | Big data-based image text recognition and customized foodstuff recommendation methods and system |
-
2019
- 2019-09-26 KR KR1020190119065A patent/KR102272021B1/en active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190029197A (en) * | 2017-09-12 | 2019-03-20 | 현대자동차주식회사 | Apparatus for collecting vehicle data and method thereof |
KR20190093755A (en) * | 2018-01-11 | 2019-08-12 | 강병구 | Big data-based image text recognition and customized foodstuff recommendation methods and system |
KR20190008163A (en) * | 2018-11-27 | 2019-01-23 | 한국과학기술원 | Method and system for tracking transaction of the user personal information based in blockchain |
Also Published As
Publication number | Publication date |
---|---|
KR102272021B1 (en) | 2021-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Feng et al. | Twibot-20: A comprehensive twitter bot detection benchmark | |
Kumari et al. | Amfb: Attention based multimodal factorized bilinear pooling for multimodal fake news detection | |
Hayawi et al. | DeeProBot: a hybrid deep neural network model for social bot detection based on user profile data | |
Zafarani et al. | User identification across social media | |
Eryurek et al. | Data governance: The definitive guide | |
Mosallanezhad et al. | Domain adaptive fake news detection via reinforcement learning | |
US11177937B1 (en) | Apparatus and method for establishing trust of anonymous identities | |
Fairhurst et al. | Using keystroke dynamics for gender identification in social network environment | |
Dhingra et al. | Spam analysis of big reviews dataset using Fuzzy Ranking Evaluation Algorithm and Hadoop | |
Spangher et al. | Analysis of Strategy and Spread of Russia-sponsored Content in the US in 2017 | |
Kruspe et al. | Detection of actionable tweets in crisis events | |
US9886701B1 (en) | Endorsement abuse detection via social interactions | |
Lofi et al. | Design patterns for hybrid algorithmic-crowdsourcing workflows | |
Chandrasekaran et al. | SoK: Machine learning governance | |
Noorshams et al. | Ties: temporal interaction embeddings for enhancing social media integrity at facebook | |
Uppada et al. | An image and text-based multimodal model for detecting fake news in OSN’s | |
CN114883005A (en) | Data classification and classification method and device, electronic equipment and storage medium | |
Yan et al. | The perils of classifying political orientation from text | |
KR102272021B1 (en) | Bigdata collecting system | |
Ibrahim et al. | A hybrid-based filtering approach for user authentication | |
Tsimperidis et al. | User attribution through keystroke dynamics-based author age estimation | |
Petit | Introducing privacy in current web search engines | |
Al Kubaizi et al. | Mining Expertise Using Social Media Analytics | |
Rodríguez‐Vidal et al. | Authority and priority signals in automatic summary generation for online reputation management | |
Khan et al. | Authenticating facebook users based on widget interaction behavior |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |