KR20240036263A - System for uploading and downloading graphic materials based on AI and deep learning - Google Patents

System for uploading and downloading graphic materials based on AI and deep learning Download PDF

Info

Publication number
KR20240036263A
KR20240036263A KR1020220114847A KR20220114847A KR20240036263A KR 20240036263 A KR20240036263 A KR 20240036263A KR 1020220114847 A KR1020220114847 A KR 1020220114847A KR 20220114847 A KR20220114847 A KR 20220114847A KR 20240036263 A KR20240036263 A KR 20240036263A
Authority
KR
South Korea
Prior art keywords
data
deep learning
search
pipeline
data collection
Prior art date
Application number
KR1020220114847A
Other languages
Korean (ko)
Inventor
이원석
최원혁
박지안
이관현
황찬우
서원덕
이주현
Original Assignee
이원석
최원혁
박지안
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이원석, 최원혁, 박지안 filed Critical 이원석
Priority to KR1020220114847A priority Critical patent/KR20240036263A/en
Publication of KR20240036263A publication Critical patent/KR20240036263A/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 AI와 딥러닝기반의 그래픽 자료 업로드 및 다운로드 시스템에 관한 것으로, 고객들이 직접 만든 그래픽 자료를 홈페이지에 올리고 받는 시스템을 기본으로 하며, 고객들이 공급자이자 수요자가 되어 AI와 딥러닝기반의 기술을 이용하여 해시태그나 고객의 주요 검색어에 따라 그래픽 자료를 추천함과 함께 구글 학술의 논문이나 특허와 구글, 바이두, 네이버 등의 검색 기반 엔진의 그래픽 자료를 추천할 수 있도록 한 것이다.
본 발명은 스크래피를 이용한 데이터 수집을 통해 웹상에 있는 이미지 데이터들과 텍스트 데이터들을 데이터 수집부(10)에서 수집하고, 각 분야별 상위 100개 연관 자료들을 필터하여 NLP중 LSTM, RNN을 이용해 자료의 연관성을 찾고 연관검색어 시스템을 통해 알맞은 데이터를 검색하여 데이터 수집DB(21)에 저장하며, 각 분야별 상위 10개 연관 자료들을 필터하여 소셜 네트워크 알고리즘을 저자, 논문제목 등 다른 요소들과 결합해 새로운 특징을 생성하고 기존 딥러닝과 결합하여 정확한 결과를 불러오며, 워드2벡터나 Tf-idf노멀라이제이션을 이용하여 정확도나 정밀도를 향상시키는 데이터가 정제 데이터수집DB(22)에 저장된 하나의 데이터 저장부(20)를 구비하여 상기 데이터저장부(20)의 출력이 텍스트 데이터(31)와 이미지 데이터(32)를 가진 파이프라인(30)으로 보내지고 파이프라인(30)의 데이터가 다시 상기 데이터저장부(20)의 정제 데이터수집DB(22)로 보내지도록 이루어진 것이다.
The present invention relates to a graphic data upload and download system based on AI and deep learning. It is based on a system for uploading and receiving graphic data created by customers on a homepage, and customers become suppliers and consumers and use AI and deep learning-based technology. By using , it is possible to recommend graphic materials according to hashtags or customers' main search terms, as well as research papers and patents from Google Scholar and graphic materials from search-based engines such as Google, Baidu, and Naver.
The present invention collects image data and text data on the web in the data collection unit 10 through data collection using scrapy, filters the top 100 related data in each field, and uses LSTM and RNN among NLP to determine the correlation of the data. Search for appropriate data through a related search term system and store it in the data collection DB (21). By filtering the top 10 related data in each field, new features are created by combining social network algorithms with other factors such as authors and paper titles. It generates and combines with existing deep learning to retrieve accurate results, and data that improves accuracy or precision using Word 2 vectors or Tf-idf normalization is stored in the refined data collection DB 22 (one data storage unit ( 20), so that the output of the data storage unit 20 is sent to the pipeline 30 with text data 31 and image data 32, and the data of the pipeline 30 is sent back to the data storage unit (20). It is made to be sent to the refined data collection DB (22) of 20).

Description

AI와 딥러닝기반의 그래픽 자료 업로드 및 다운로드 시스템{System for uploading and downloading graphic materials based on AI and deep learning}{System for uploading and downloading graphic materials based on AI and deep learning}

본 발명은 AI와 딥러닝기반의 그래픽 자료(graphic materials) 업로드 및 다운로드 시스템에 관한 것으로, 특히 고객들이 직접 만든 그래픽 자료를 홈페이지에 올리고 받는 시스템을 기본으로 하고, 고객들이 공급자이자 수요자가 되어 AI와 딥러닝(심층학습)기반의 기술(RNN, LSTM 기반 텍스트 추천시스템)을 이용하여 해시태그(Hashtag)나 고객의 주요 검색어에 따라 그래픽 자료를 추천함과 함께 구글 학술의 논문이나 특허와 바이두, 네이버 등의 검색 기반 엔진의 그래픽 자료를 추천할 수 있도록 한 것이다.The present invention relates to a system for uploading and downloading graphic materials based on AI and deep learning. In particular, it is based on a system for uploading and receiving graphic materials created by customers on a homepage, and customers become suppliers and consumers and use AI and Using deep learning-based technology (RNN, LSTM-based text recommendation system), it recommends graphic materials according to hashtags or key customer search terms, as well as research papers and patents from Google Scholar, Baidu, and Naver. It is designed to recommend graphic materials from search-based engines such as.

최근, 인터넷이 급속히 보급되면서 전자 메일을 이용한 광고, 홈페이지 배너 광고, 동영상 컨텐츠 광고 등의 새로운 형식의 광고가 생겨났으며, 인터넷을 기반으로 전자상거래, 전자광고, 인터넷 폰 등 다양한 서비스들이 제공되고 있어 사용자들이 인터넷을 이용하여 손쉽게 서비스를 받을 수 있다.Recently, with the rapid spread of the Internet, new types of advertisements such as advertisements using e-mail, homepage banner advertisements, and video content advertisements have emerged, and various services such as e-commerce, electronic advertisements, and Internet phones are being provided based on the Internet. Users can easily receive services using the Internet.

따라서, 인터넷상에서 특정한 자료를 검색하는 서비스는 인터넷을 효율적으로 이용하기 위해 필수적인 서비스로 인식되고 있다. Therefore, services for searching specific data on the Internet are recognized as essential services for efficient use of the Internet.

다시 말해, 사용자가 특정 자료를 검색하려는 경우 해당 사이트의 URL이나 IP 주소를 알지 못하더라도 정보 검색 시스템을 이용한 인터넷 검색 서비스를 제공하는 사이트에 접속하고, 검색하려는 자료의 키워드를 입력함으로써 원하는 결과 데이터를 서비스받을 수 있다.In other words, when a user wants to search for specific data, even if he or she does not know the URL or IP address of the site, he or she accesses a site that provides an Internet search service using an information retrieval system and enters the keyword of the data to be searched to obtain the desired result data. Service is available.

다양한 신기술을 흡수하며 진화해온 광고 및 미디어 산업이 최근 AI(Artificial Intelligence)와의 접목을 모색하고 있으며, 광고와 미디어 시장의 포화에 따른 경쟁 격화와 기계가 스스로 학습할 수 있는 머신 러닝 기술의 급속한 발전 및 AI를 구동할 수 있는 컴퓨터 비용의 하락 등이 AI 기술을 적용한 광고 기술의 발전을 가속화하고 있다.The advertising and media industries, which have evolved by absorbing a variety of new technologies, are recently seeking integration with AI (Artificial Intelligence). Competition is intensifying due to saturation of the advertising and media markets, and the rapid development of machine learning technology that allows machines to learn on their own. The decline in the cost of computers capable of running AI is accelerating the development of advertising technology that applies AI technology.

미디어 산업은 제작과 유통 및 시청자 대응 등 다양한 영역에 걸쳐 AI를 활용하고 있으며, AI는 미래 광고 및 미디어 산업에서 없어서는 안 될 존재로 점차 입지를 굳히고 있다.The media industry is utilizing AI across a variety of areas, including production, distribution, and viewer response, and AI is gradually solidifying its position as an indispensable entity in the future advertising and media industries.

광고를 한다는 것은 일종의 추천 엔진을 가동하는 것인데 딥 러닝은 추천에 탁월한 능력을 가지고 있는 것으로, 딥러닝(심층학습)은 사람의 사고방식을 컴퓨터에게 가르치는 기계학습의 한 분야이며, 어떠한 데이터가 있을 때 이를 컴퓨터가 알아 들을 수 있는 형태(예를 들어, 이미지의 경우는 픽셀정보를 열벡터로 표현하는 등)로 표현(representation)하고 이를 학습에 적용하기 위해 많은 연구가 진행되고 있으며, 이러한 노력의 결과로 DNN(Deep Neural Networks), CDNN(Convolutional Deep Neural Networks), DBN(Deep Belief Networks)과 같은 다양한 딥 러닝 기법들이 컴퓨터 비전, 음성인식, 자연어 처리, 음성/신호처리 등의 분야에 적용되고 있다.Advertising means running a kind of recommendation engine, and deep learning has excellent recommendations. Deep learning is a field of machine learning that teaches computers how people think, and when there is some data, A lot of research is being done to represent this in a form that computers can understand (for example, in the case of images, pixel information is expressed as a column vector, etc.) and to apply it to learning, and the results of these efforts are Various deep learning techniques such as Deep Neural Networks (DNN), Convolutional Deep Neural Networks (CDNN), and Deep Belief Networks (DBN) are being applied to fields such as computer vision, speech recognition, natural language processing, and voice/signal processing.

최근, 디지털 시대가 가속화되면서 더 많은 영상 콘텐츠의 제작이 필요하고, 4차 산업시대로의 진입과 코로나 팬데믹으로 인해 비대면 서비스의 시장이 빠르게 확산되고 있으며, 온라인 시대를 맞아 기업과 소비자 모두 영상콘텐츠 제작의 니즈가 강화되었다.Recently, as the digital era accelerates, the production of more video content is needed, and the market for non-face-to-face services is rapidly expanding due to the entry into the 4th industrial era and the coronavirus pandemic, and in the online era, both companies and consumers are using video. The need for content creation has strengthened.

기업들은 온라인 채널을 통해 브랜드 및 제품을 홍보 및 광고 목적으로 영상제작을 필요로 하며, 개인 역시 각자의 일상 및 재능을 영상으로 제작하여 소통하는 기술을 필요로 한다.Companies need video production to promote and advertise their brands and products through online channels, and individuals also need technology to communicate by producing videos of their daily lives and talents.

그러나 종래에는 고객들이 인터넷을 통해 예를 들어, 그래픽 자료 등을 공급할 수는 있으나 단순한 자료의 공급으로 끝나게 되며 고객이 올린 자료를 통해 고객 자신이 수요자가 될 수 있는 시스템은 제안되어 있지 않은 실정이다.However, conventionally, customers can supply graphic data, for example, through the Internet, but it ends with a simple supply of data, and no system has been proposed in which the customer can become a consumer through the data uploaded by the customer.

또한, 고객들이 해시태그 또는 주요 검색어를 수없이 입력하여도 단지 검색에 따른 입력에 그칠 뿐 이러한 것들을 기반으로 구글 학술의 논문이나 특허와 구글, 바이두, 네이버 등의 검색기반 엔진의 그래픽 자료를 추천할 수 있도록 전혀 활용되지 못하고 있는 결점이 있다.In addition, even if customers enter hashtags or key search terms numerous times, they end up simply entering the search results. Based on these, we can recommend papers or patents from Google Scholar and graphic data from search-based engines such as Google, Baidu, and Naver. There is a drawback that it cannot be utilized at all.

특허출원번호 제10-2021-0014639호Patent Application No. 10-2021-0014639 특허출원번호 제10-2020-00123717호Patent Application No. 10-2020-00123717

본 발명은 상기와 같은 종래의 결점을 해결하기 위한 것으로, 본 발명의 목적은, 고객이 직접 만든 그래픽 자료를 홈페이지에서 올리고 받을 수 있어 고객이 공급자이면서 또한 수요자가 되는 시스템으로, AI와 딥러닝 기반 기술을 이용하여 해시태그 또는 고객의 주검색어에 따라 그래픽 자료를 추천하며, 이를 기반으로 구글 학술의 논문이나 특허와 구글, 바이두, 네이버 등의 검색기반 엔진의 그래픽 자료를 추천할 수 있도록 하는 AI와 딥러닝기반의 그래픽 자료 업로드 및 다운로드 시스템을 제공하는데 있다.The present invention is intended to solve the above-described conventional shortcomings. The purpose of the present invention is to provide a system in which customers can upload and receive graphic data created by customers on a homepage, so that customers become both suppliers and consumers, based on AI and deep learning. Using technology, it recommends graphic materials according to hashtags or customers' main search words, and based on this, AI and AI that recommend Google academic papers or patents and graphic materials from search-based engines such as Google, Baidu, and Naver. The goal is to provide a deep learning-based graphic data upload and download system.

상기와 같은 목적을 달성하기 위한 본 발명은, 파이썬을 이용한 웹스크랩핑, 즉 스크래피(scrapy)를 이용한 데이터 수집으로, 웹상에 있는 이미지 데이터들과 텍스트 데이터들을 수집할 수 있도록 한 데이터 수집부와, 각 분야별 상위 100개 연관 자료들을 필터하여 NLP(자연어처리)중에서 LSTM(순환신경망 장단기기억), RNN(순환신경망)을 이용하여 자료의 연관성을 찾고 연관검색어 시스템을 통해 알맞은 데이터를 검색하며 데이터수집DB와 정제 데이터수집DB를 갖는 데이터 저장부와, 텍스트 데이터와 이미지 데이터로 이루어지고 전처리와 딥러닝 훈련을 합친 모델인 파이프라인을 포함하여 구성함을 특징으로 한다.The present invention for achieving the above object includes a data collection unit capable of collecting image data and text data on the web through web scraping using Python, that is, data collection using scrapy; Filter the top 100 related data in each field, use LSTM (recurrent neural network long short-term memory) and RNN (recurrent neural network) among NLP (natural language processing) to find correlations between data, search for appropriate data through a related search term system, and collect data from a data collection database. It is characterized by comprising a data storage unit with a purified data collection DB, and a pipeline, which is a model consisting of text data and image data and combining preprocessing and deep learning training.

상기 파이프라인의 텍스트 데이터는, 워드 임베딩을 통해 측정치를 줄이고 LSTM을 이용하여 추천하며, 이미지 데이터는 CNN(Convollutional neural network:심층신경망)을 통해 측정치를 줄이면서 분류하고 LSTM을 이용하여 추천하도록 구성함을 특징으로 한다. The text data of the pipeline is configured to reduce measurements through word embedding and recommend using LSTM, and the image data is configured to reduce measurements through CNN (Convolutional neural network), classify, and recommend using LSTM. It is characterized by .

이상과 같은 본 발명은 고객들이 직접 만든 그래픽 자료를 홈페이지에서 올리고 받을 수 있는 것으로, AI와 딥러닝 기반 기술을 이용하여 해시태그 또는 고객의 주검색어에 따라 그래픽 자료를 추천하며, 이를 기반으로 구글 학술의 논문이나 특허와 구글, 바이두, 네이버 등의 검색 기반 엔진의 그래픽 자료를 추천할 수 있는 효과가 있다.The present invention as described above allows customers to upload and receive graphic materials created by themselves on the homepage. Using AI and deep learning-based technology, graphic materials are recommended according to hashtags or the customer's main search term, and based on this, Google Scholar It has the effect of recommending graphic materials from search-based engines such as Google, Baidu, and Naver, as well as papers and patents.

또한, 본 발명은 해시태그 또는 고객의 주검색어에 따라 그래픽 자료를 추천할 때 NLP중 LSTM, RNN을 이용하여 자료의 연관성을 찾고 연관검색어 시스템을 통해 알맞은 데이터를 검색하며 전처리과정에서 단어간의 연관성 탐색을 위한 워드2벡터나 Tf-idf노멀라이제이션 등을 이용하여 정확도나 정밀도를 향상시킬 수 있는 효과가 있다.In addition, when recommending graphic data according to hashtags or the customer's main search term, the present invention uses LSTM and RNN among NLP to find the correlation between the data, searches for appropriate data through a related search word system, and explores the correlation between words in the pre-processing process. There is an effect of improving accuracy and precision by using word2 vector or Tf-idf normalization.

도 1은 본 발명의 AI와 딥러닝기반의 그래픽 자료 업로드 및 다운로드 시스템이 블럭구성도
도 2와 도 3은 본 발명 그래픽자료를 제공하기 위한 홈페이지의 주화면을 나타낸 것이다.
Figure 1 is a block diagram of the AI and deep learning-based graphic data upload and download system of the present invention.
Figures 2 and 3 show the main screen of the homepage for providing graphic materials of the present invention.

이하, 본 발명의 실시예를 첨부된 도면을 참고로 하여 상세히 설명하면 다음과 같다.Hereinafter, embodiments of the present invention will be described in detail with reference to the attached drawings.

도 1은 본 발명의 AI와 딥러닝기반의 그래픽 자료 업로드 및 다운로드 시스템이 블럭구성도이고, 도 2와 도 3은 본 발명 그래픽자료를 제공하기 위한 홈페이지의 주화면을 나타낸 것으로, 이에 도시된 바와 같이, 파이썬을 이용한 웹스크랩핑, 즉 스크래피(scrapy)를 이용한 데이터 수집을 통해 웹상에 있는 이미지 데이터들과 텍스트 데이터들을 수집할 수 있는 데이터 수집부(10)와, 각 분야별 상위 100개 연관 자료들을 필터하여 NLP중 LSTM, RNN을 이용하여 자료의 연관성을 찾고 연관검색어 시스템을 통해 알맞은 데이터를 검색하여 저장된 데이터 수집DB(21), 각 분야별 상위 10개 연관 자료들을 필터하여 소셜 네트워크 알고리즘을 저자, 논문제목 등 다른 요소들과 결합해 새로운 특징을 생성하고 이를 기존 딥러닝과 결합하여 정확한 결과를 불러오며, 워드2벡터나 Tf-idf노멀라이제이션을 이용하여 정확도나 정밀도를 향상시키는 데이터가 저장된 정제 데이터수집DB(22)를 가진 데이터 저징부(20)와, 텍스트 데이터(31)와 이미지 데이터(32)로 이루어지고 전처리와 딥러닝 훈련을 합친 모델인 파이프라인(30)을 포함하여 구성된다.Figure 1 is a block diagram of the AI and deep learning-based graphic data upload and download system of the present invention, and Figures 2 and 3 show the main screen of the homepage for providing graphic data of the present invention, as shown here. Likewise, a data collection unit 10 that can collect image data and text data on the web through web scraping using Python, that is, data collection using scrapy, and the top 100 related data in each field. Filter to find the correlation of data using LSTM and RNN among NLP, search for appropriate data through a related search term system, collect stored data DB (21), and filter the top 10 related data in each field to use social network algorithm. Author, thesis Refined data that creates new features by combining them with other elements such as titles, retrieves accurate results by combining them with existing deep learning, and stores data that improves accuracy or precision using word2 vectors or Tf-idf normalization. It is composed of a data storage unit 20 with a collection DB 22, and a pipeline 30, which is a model consisting of text data 31 and image data 32 and combining preprocessing and deep learning training.

상기 텍스트 데이터(31)는, 워드 임베딩(예를 들어, 단어간의 연관성을 탐색하는 워드 2벡터)을 통해 측정치(dimension)를 효율적으로 줄이며, 장기 메모리 기억이 가능한 딥러닝기법의 LSTM을 이용하여 추천한다. The text data 31 is recommended using LSTM, a deep learning technique that efficiently reduces dimensions through word embedding (e.g., word 2 vectors that search for associations between words) and can be stored in long-term memory. do.

상기 이미지데이터(32)는, 딥러닝기법인 CNN을 통해 측정치를 점차적으로 줄여나가며 분류하고 추천한다.The image data 32 is classified and recommended by gradually reducing the measurement values through CNN, a deep learning technique.

이와 같이 구성된 본 발명의 작용을 설명한다.The operation of the present invention configured as described above will be explained.

본 발명은 고객들이 직접 만든 그래픽 자료를 홈페이지에서 올리고 받는 시스템을 기본으로 하는 것으로, 고객들이 공급자이자 수요자가 된다.The present invention is based on a system for uploading and receiving graphic materials created by customers on a homepage, and customers become both suppliers and consumers.

상기 내용을 기반으로, AI와 딥러닝 기반의 기술(RNN, LSTM 기반 text recommendation system)을 이용하여, 해시태그(Hashtag)나 고객의 주요 검색어에 따라 그래픽 자료를 추천한다.Based on the above, we use AI and deep learning-based technology (RNN, LSTM-based text recommendation system) to recommend graphic materials according to hashtags or customers' main search terms.

여기서, 상기 해시태그는, 트위터의 기능 중 하나로, '해시(#)'를 붙인 태그를 트위터 내용에 적어두면 링크가 형성되어 같은 태그를 작성한 글들끼리 모아주는 기능으로, 해시 부호 뒤에 특정 주제의 단어를 넣음으로써 그 주제에 대한 글이라는 것을 표현한다.Here, the hashtag is one of Twitter's functions. If a tag with a 'hash (#)' is written in the Twitter content, a link is formed and posts with the same tag are gathered together. The hash sign is followed by a word of a specific topic. By inserting , it is expressed that the article is about that topic.

또한, 본 발명의 데이터 저장부(20)에서는 워드2벡터나 TF-IDF(Term Frequency-Inverse Document Frequency) 노멀라이제이션 등을 이용하여 정확도나 정밀도를 향상시킨다. In addition, the data storage unit 20 of the present invention improves accuracy and precision by using word 2 vector or TF-IDF (Term Frequency-Inverse Document Frequency) normalization.

상기 TF-IDF는 정보검색과 텍스트 마이닝에서 이용하는 가중치로, 여러 문서로 이루어진 문서군에서 어떤 단어가 특정 문서내에서 얼마나 중요한 것인지를 나타내는 통계적 수치이며, 문서의 핵심어를 추출하거나 검색 엔진에서 검색 결과의 순위를 결정하거나 또는 문서들 사이의 비슷한 정도를 구하는 등의 용도로 사용할 수 있다.The TF-IDF is a weight used in information retrieval and text mining. It is a statistical value that indicates how important a word is in a specific document in a document group consisting of several documents, and is used to extract key words from a document or search results in a search engine. It can be used for purposes such as determining ranking or finding the degree of similarity between documents.

즉, TF(단어 빈도)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값으로, 이 값이 높을수록 문서에서 중요하다고 생각할 수 있으나, 단어 자체가 문서군 내에서 자주 사용되는 경우, 이는 그 단어가 흔하게 등장한다는 것을 의미하며 이를 DF(문서빈도)라고 하는데 이 값의 역수를 IDF(역문서 빈도, inverse document frequency)라고 하는 것으로 TF-IDF는 TF와 IDF를 곱한 값이다.In other words, TF (word frequency) is a value that indicates how often a specific word appears in a document. The higher this value, the more important the document may be considered to be, but if the word itself is frequently used within the document group, this means that the word is It means that it appears frequently, and it is called DF (document frequency). The inverse of this value is called IDF (inverse document frequency). TF-IDF is the product of TF and IDF.

상기 IDF값은 문서군의 성격에 따라 결정되는데, 예컨대, '원자'라는 낱말은 일반적인 문서들 사이에서는 잘 나오지 않기 때문에 IDF 값이 높아지고 문서의 핵심어가 될 수 있지만, 원자에 대한 문서를 모아놓은 문서군의 경우 이 낱말은 상투어가 되어 각 문서들을 세분화하여 구분할 수 있는 다른 낱말들이 높은 가중치를 얻게 된다.The IDF value is determined depending on the nature of the document group. For example, the word 'atom' does not appear often in general documents, so the IDF value is high and it can become a key word in the document, but it is a document that collects documents about atoms. In the case of a group, this word becomes a cliché, and other words that can be distinguished by subdividing each document receive high weight.

상기 내용들을 기반으로, 구글 학술의 논문이나 특허와 구글, 바이두, 네이버 등의 검색 기반 엔진의 그래픽 자료를 추천한다.Based on the above, we recommend papers and patents from Google Scholar and graphic materials from search-based engines such as Google, Baidu, and Naver.

본 발명의 플랫폼은 데이터 수집부(10)와 데이터 저장부(20) 및 파이프라인(30)으로 이루어진다.The platform of the present invention consists of a data collection unit 10, a data storage unit 20, and a pipeline 30.

첫째, 데이터 수집부(10)는, 파이썬(python)을 이용한 웹스크랩핑, 즉 스크래피(scrapy)를 이용한 데이터 수집을 통해 웹상에 있는 텍스트 데이터(12)와 이미지 데이터(13)를 수집할 수 있다.First, the data collection unit 10 can collect text data 12 and image data 13 on the web through web scraping using Python, that is, data collection using scrapy. .

상기 파이썬(python)은 프로그램을 설계하는 프로그래밍 언어 중 하나로, 컴퓨터는 0과 1을 인식하여 작동하기 때문에 과거에는 0과 1을 활용한 기계어로 프로그래밍을 했으나, 0과 1을 활용한 기계어는 매우 어렵고 복잡하여 보다 쉬운 방법이 연구되어 탄생한 것이 프로그래밍 언어이며, 컴퓨터가 알아들을 수 있는 기계어를 보다 쉽게 나타낼 수 있게 해 주는 언어로 파이썬은 이러한 프로그래밍 언어 중 하나로, 간결하고 쉬우며 문법이 다른 프로그래밍 언어에 비해 쉬워 표현하는 구조도 사람이 대화하는 형식을 이용함으로서 초보자도 쉽게 배울 수 있다.Python is one of the programming languages for designing programs. Computers operate by recognizing 0 and 1, so in the past, programming was done in machine language using 0 and 1, but machine language using 0 and 1 is very difficult. A programming language was created by researching an easier method due to complexity. It is a language that makes it easier to express machine language that a computer can understand. Python is one of these programming languages. It is concise, easy, and has a syntax that compares to other programming languages. Even beginners can easily learn the simple expression structure by using the format of human conversation.

상기 스크래피는, 파이썬을 이용한 웹데이터 추출로, 고객들이 만든 그래픽 자료를 홈페이지에 올리고 받는 데이터를 기반으로 한다.The scrapy is a web data extraction using Python, and is based on data received by uploading graphic materials created by customers to the homepage.

즉, 스크래퍼는 파이썬으로 작성된 오픈소스 웹 크롤링 프레임워크로, 웹 데이터의 수집을 목표로 설계되었으며. API를 이용하여 데이터를 추출하고, 범용 웹 크롤러로 사용되는 것으로, 비동기 네트워킹 라이브러리(asynchronous networking library)인 트위스티드(Twisted)를 기반으로 하므로 성능이 우수하고 CSS(스타일 시트 언더)표현식으로 HTML소스에서 데이터 추출이 가능하다. In other words, scraper is an open source web crawling framework written in Python, designed with the goal of collecting web data. It extracts data using an API and is used as a general-purpose web crawler. It is based on Twisted, an asynchronous networking library, so it has excellent performance and extracts data from HTML sources using CSS (style sheet under) expressions. Extraction is possible.

상기 데이터 수집부(10)는 빅 데이터 센터로, 웹스크랩핑(Wep scrapping) 또는 하둡(Hadoop) 등을 통해 데이터를 수집하고 딥러닝을 이용한 전처리를 수행하는 것으로, 썸원스링크 서버(SumOnesLink server)를 통해 데이터를 수집하고, 구글, 네이버 등 대형 포탈 일반 포토, 그래픽을 통해 데이터를 수집하며, 각종 자료들을 통해 데이터를 수집한다.The data collection unit 10 is a big data center that collects data through web scraping or Hadoop and performs preprocessing using deep learning, and is called the SumOnesLink server. Data is collected through general photos and graphics from large portals such as Google and Naver, and data is collected through various materials.

여기서, 상기 하둡은 크게 2가지 HDFS(Hadoop Distributed File System), Map/Reduce로 구성되며, 대용량 데이터의 관리 및 분석에 적합하여 오픈소스계열의 웹서버인 아파치(Apache)의 오픈 소스 프레임워크로 대용량의 데이터를 처리하고 분석하는 데 사용되는 것으로, 구글에서 만든 구글 파일 시스템을 기반으로 태어난 분산시스템이며, 오픈 소스이기 때문에 라이센스 비용이 필요치 않고, 초기에 작은 클러스터를 구성하여 운영할 수 있으며, 데이터의 증가에 따라 시스템 확장이 용이하도록 설계되어 있어 일반적인 상용 데이터 분석 솔루션에 비하여 초기 비용이 저렴하다.Here, Hadoop is largely composed of two types of HDFS (Hadoop Distributed File System) and Map/Reduce. It is suitable for the management and analysis of large amounts of data and is an open source framework of Apache, an open source web server. It is used to process and analyze data. It is a distributed system based on the Google File System created by Google. Because it is open source, it does not require a license fee and can be operated by forming a small cluster at the beginning. It is designed to be easy to expand the system as growth increases, so the initial cost is lower than that of general commercial data analysis solutions.

둘째, 데이터 저장부(20)는 데이터 수집DB(21)와 정제 데이터 수집DB(22)를 포함하며, 각 분야별 상위 100개 연관 자료들을 필터하여 NLP중 LSTM, RNN을 이용하여 자료의 연관성을 찾고 연관검색어 시스템을 통해 알맞은 데이터를 검색한다.Second, the data storage unit 20 includes a data collection DB 21 and a refined data collection DB 22, and filters the top 100 related data in each field to find correlations between the data using LSTM and RNN among NLP. Search for appropriate data through a related search term system.

여기서, 상기 NPL은 컴퓨터가 이해할 수 있도록 자연어를 바꾸는 것을 말하고, RNN은 입력과 출력을 시퀀스단위로 처리하는 것을 말하며, LSTM은 순서가 중요한 특징(feature)의 요소일 때 흔히 적용하는 RNN의 한 종류로, 기계학습에서 어려운 문제를 해결하고 최첨단 결과를 달성하는 데에 사용되며, RNN이 가진 장기의존성 문제를 해결하기 위해 다양한 RNN이 나왔는데 LSTM도 그 중 하나이다.Here, the NPL refers to changing natural language so that a computer can understand it, RNN refers to processing input and output in sequence units, and LSTM is a type of RNN commonly applied when order is an important feature element. It is used to solve difficult problems and achieve cutting-edge results in machine learning, and various RNNs have been developed to solve the long-term dependency problem of RNNs, and LSTM is one of them.

또한, 데이터저장부(20)의 정제 데이터수집 DB(22)에서는, 각 분야별 상위 10개 연관 자료들을 필터하여 소셜 네트워크 알고리즘을 저자, 논문제목 등 다른 요소들과 결합해 새로운 특징을 생성하고, 이를 기존 딥러닝과 결합하여 더 정확한 결과를 불러오며, 단어간의 연관성 탐색을 위한 워드2벡터나 Tf-idf노멀라이제이션 등을 이용하여 정확도나 정밀도를 향상시킨다In addition, the refined data collection DB 22 of the data storage unit 20 filters the top 10 related data for each field and creates new features by combining the social network algorithm with other factors such as author and paper title. Combined with existing deep learning, it retrieves more accurate results, and improves accuracy and precision by using word2 vectors or Tf-idf normalization to explore relationships between words.

셋째, 파이프라인(30)은 상기 데이터 저장부(20)로부터 데이터를 입력받으며, 텍스트 데이터(31)와 이미지 데이터(32)로 이루어진 것으로, 상기 파이프라인(30)은 전처리와 딥러닝 훈련을 합친 모델이다.Third, the pipeline 30 receives data from the data storage unit 20 and consists of text data 31 and image data 32. The pipeline 30 combines preprocessing and deep learning training. It's a model.

상기 텍스트 데이터(31)는, 워드 임베딩(예를 들어, 단어간의 연관성을 탐색하는 워드 2벡터)을 통해 측정치를 효율적으로 줄이며, 장기 메모리 기억이 가능한 딥러닝기법의 LSTM을 이용하여 추천하는 것으로, 상기 추천은 워드 엠보딩과 같은 뜻이나 의미를 가지고 있는 단어들을 다르게 표현하거나 묘사한 것을 종합하여 나타낸 것이다 The text data 31 is recommended by efficiently reducing the measurement value through word embedding (e.g., a word 2 vector that searches for associations between words) and using LSTM, a deep learning technique capable of long-term memory storage, The above recommendation is a comprehensive representation of words that have the same meaning or meaning as word emboarding, expressing or describing them differently.

상기 이미지 데이터(32)는 딥러닝기법인 CNN을 통해 측정치를 점차적으로 줄여나가며 분류를 하고 추천한다The image data 32 is classified and recommended by gradually reducing the measurement value through CNN, a deep learning technique.

상술한 바와 같은 본 발명은 상기 실시예에 국한되는 것은 아니며, 본 발명이 속하는 기술분야에서 다양한 실시예를 통하여 유용하게 적용할 수 있음은 물론이다.The present invention as described above is not limited to the above embodiments, and of course can be usefully applied through various embodiments in the technical field to which the present invention pertains.

10:데이터 수집부 11:회사 서버
12:텍스트 데이터 13:이미지 데이터
20:데이터 저장부 21:데이터수집DB
22:정제데이터수집DB 30:파이프라인
31:텍스트 데이터 32:이미지 데이터
10: Data collection department 11: Company server
12:Text data 13:Image data
20: data storage unit 21: data collection DB
22: Purification data collection DB 30: Pipeline
31:Text data 32:Image data

Claims (5)

파이썬을 이용한 웹스크랩핑을 기반으로 데이터를 수집하고, 웹상에 있는 이미지 데이터들과 텍스트 데이터들을 수집하는 데이터 수집부와;
각 분야별 상위 100개 연관 자료들을 필터하여 NLP중에서 LSTM, RNN을 이용하여 자료의 연관성을 찾고 연관검색어 시스템을 통해 알맞은 데이터를 검색하는 데이터 수집DB, 파이프 라인으로부터 각 분야별 상위 10개 연관 자료들을 필터하여 소셜 네트워크 알고리즘을 저자, 논문제목 등의 다른 요소들과 결합해 새로운 특징을 생성하고 이를 기존 딥러닝과 결합하여 정확한 결과를 불러와 데이터를 정제하는 정제 데이터수집DB를 가진 데이터 저장부와;
텍스트 데이터와 이미지 데이터로 이루어지고 전처리와 딥러닝 훈련을 합친 모델인 파이프라인;
을 포함하여 구성된 것을 특징으로 하는 AI와 딥러닝기반의 그래픽 자료 업로드 및 다운로드 시스템.
a data collection unit that collects data based on web scraping using Python and collects image data and text data on the web;
Filter the top 100 related data in each field to find correlations between data using LSTM and RNN among NLP, and filter the top 10 related data in each field from the data collection DB and pipeline to search for appropriate data through a related search term system. A data storage unit with a purified data collection DB that combines social network algorithms with other elements such as authors and paper titles to create new features and combine them with existing deep learning to retrieve accurate results and purify the data;
Pipeline, a model consisting of text data and image data and combining preprocessing and deep learning training;
An AI and deep learning-based graphic data upload and download system comprising:
제1항에 있어서, 상기 데이터 수집부가,
회사 서버, 텍스트 데이터, 이미지 데이터로 이루어져 하둡을 통해 데이터를 수집하고 딥러닝을 이용해 전처리를 하는 것을 특징으로 하는 AI와 딥러닝기반의 그래픽 자료 업로드 및 다운로드 시스템.
The method of claim 1, wherein the data collection unit,
An AI and deep learning-based graphic data upload and download system that collects data through Hadoop and preprocesses it using deep learning, consisting of company servers, text data, and image data.
제1항에 있어서, 상기 데이터 저장부가,
워드2벡터나 Tf-idf노멀라이제이션을 이용하여 정확도나 정밀도를 향상시키도록 구성된 것을 특징으로 하는 AI와 딥러닝기반의 그래픽 자료 업로드 및 다운로드 시스템.
The method of claim 1, wherein the data storage unit,
An AI and deep learning-based graphic data upload and download system that is designed to improve accuracy and precision using word2 vectors or Tf-idf normalization.
제1항에 있어서, 상기 파이프라인의 텍스트 데이터가,
워드 임베딩을 통해 측정치를 줄이고 LSTM을 이용하여 추천하는 것을 특징으로 하는 AI와 딥러닝기반의 그래픽 자료 업로드 및 다운로드 시스템.
The method of claim 1, wherein the text data of the pipeline is:
An AI and deep learning-based graphic data upload and download system that reduces measurements through word embedding and makes recommendations using LSTM.
제1항에 있어서, 상기 파이프라인의 이미지데이터가,
이미지데이터를 위한 딥러닝기법인 CNN을 통해 측정치를 점차적으로 줄여나가면서 분류하고 LSTM을 이용하여 추천하는 것을 특징으로 하는 AI와 딥러닝기반의 그래픽 자료 업로드 및 다운로드 시스템.
The method of claim 1, wherein the image data of the pipeline is,
An AI and deep learning-based graphic data upload and download system that classifies measurements by gradually reducing them through CNN, a deep learning technique for image data, and makes recommendations using LSTM.
KR1020220114847A 2022-09-13 2022-09-13 System for uploading and downloading graphic materials based on AI and deep learning KR20240036263A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220114847A KR20240036263A (en) 2022-09-13 2022-09-13 System for uploading and downloading graphic materials based on AI and deep learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220114847A KR20240036263A (en) 2022-09-13 2022-09-13 System for uploading and downloading graphic materials based on AI and deep learning

Publications (1)

Publication Number Publication Date
KR20240036263A true KR20240036263A (en) 2024-03-20

Family

ID=90483368

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220114847A KR20240036263A (en) 2022-09-13 2022-09-13 System for uploading and downloading graphic materials based on AI and deep learning

Country Status (1)

Country Link
KR (1) KR20240036263A (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200123717A (en) 2019-04-22 2020-10-30 윤훈찬 An apparatus for eliminating halitosis with halitosis meter
KR20210014639A (en) 2018-06-01 2021-02-09 아르끄마 프랑스 Method for preparing lithium bis(fluorosulfonyl)imide salt

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210014639A (en) 2018-06-01 2021-02-09 아르끄마 프랑스 Method for preparing lithium bis(fluorosulfonyl)imide salt
KR20200123717A (en) 2019-04-22 2020-10-30 윤훈찬 An apparatus for eliminating halitosis with halitosis meter

Similar Documents

Publication Publication Date Title
US11347963B2 (en) Systems and methods for identifying semantically and visually related content
Salloum et al. Analysis and classification of Arabic newspapers’ Facebook pages using text mining techniques
US10235681B2 (en) Text extraction module for contextual analysis engine
Vargiu et al. Exploiting web scraping in a collaborative filtering-based approach to web advertising.
US10430806B2 (en) Input/output interface for contextual analysis engine
JP4637969B1 (en) Properly understand the intent of web pages and user preferences, and recommend the best information in real time
Markellou et al. Using semantic web mining technologies for personalized e-learning experiences
CN107918644B (en) News topic analysis method and implementation system in reputation management framework
CN111159341B (en) Information recommendation method and device based on user investment and financial management preference
Sundaramoorthy et al. Newsone—an aggregation system for news using web scraping method
Roopak et al. OntoKnowNHS: ontology driven knowledge centric novel hybridised semantic scheme for image recommendation using knowledge graph
Das et al. A CV parser model using entity extraction process and big data tools
Chen et al. Tag recommendation by machine learning with textual and social features
Bouadjenek et al. Personalized social query expansion using social annotations
Kaur et al. A Review on Sentimental Analysis on Facebook Comments by using Data Mining Technique
Saravanan et al. Extraction of Core Web Content from Web Pages using Noise Elimination.
KR20240036263A (en) System for uploading and downloading graphic materials based on AI and deep learning
Kumar et al. Web Mining and Web Usage Mining for Various Human-Driven Applications
Dave et al. Identifying big data dimensions and structure
Pradana et al. An Android-based Hoax Detection for Social Media
Bijakšić et al. Social networks as challenge for marketing Intelligence
CN114741587A (en) Article recommendation method, device, medium and equipment
Rehbein Historical Network Research, Digital History, and Digital Humanities
Devika et al. An event detection on twitter using ECLAT (equivalence class transformation) algorithm with TRCM (transaction based rule change mining)
Nazari et al. MoGaL: Novel Movie Graph Construction by Applying LDA on Subtitle