KR102244651B1 - A system for providing recommended keywords for news scrap, a method for pre-configuring and updating keywords used for news scrap using the same, and a method for providing recommended keywords including the same - Google Patents

A system for providing recommended keywords for news scrap, a method for pre-configuring and updating keywords used for news scrap using the same, and a method for providing recommended keywords including the same Download PDF

Info

Publication number
KR102244651B1
KR102244651B1 KR1020200103497A KR20200103497A KR102244651B1 KR 102244651 B1 KR102244651 B1 KR 102244651B1 KR 1020200103497 A KR1020200103497 A KR 1020200103497A KR 20200103497 A KR20200103497 A KR 20200103497A KR 102244651 B1 KR102244651 B1 KR 102244651B1
Authority
KR
South Korea
Prior art keywords
news
keyword
word
scrap
data
Prior art date
Application number
KR1020200103497A
Other languages
Korean (ko)
Inventor
명민효
박재영
박지훈
Original Assignee
(주)다하미 커뮤니케이션즈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)다하미 커뮤니케이션즈 filed Critical (주)다하미 커뮤니케이션즈
Priority to KR1020200103497A priority Critical patent/KR102244651B1/en
Application granted granted Critical
Publication of KR102244651B1 publication Critical patent/KR102244651B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • G06F16/3323Query formulation using system suggestions using document space presentation or visualization, e.g. category, hierarchy or range presentation and selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

In one aspect, the present invention relates to a recommended keyword providing system for news scrap, which includes: a user dictionary word data processing unit (110) collecting and processing news scrap data scraped by a user to generate and manage a first keyword for the news scrap of the user; and a user dictionary word keyword output unit (120) receiving a first keyword output condition selected by the user and visualizing and outputting the first keyword managed by the user dictionary word data processing unit according to the input first keyword output condition.

Description

뉴스 스크랩을 위한 추천 키워드 제공 시스템, 이를 이용한 뉴스 스크랩에 사용되는 키워드 사전 구성 및 업데이트 방법, 및 이를 포함하는 추천 키워드 제공방법{A system for providing recommended keywords for news scrap, a method for pre-configuring and updating keywords used for news scrap using the same, and a method for providing recommended keywords including the same}A system for providing recommended keywords for news scrap, a method for pre-configuring and updating keywords used for news scrap using the same, and a method for providing recommended keywords including the same}

본 발명은 추천 키워드 제공 시스템, 키워드 사전 구성 및 업데이트 방법 및 추천 키워드 제공방법에 관한 것으로, 보다 상세하게는 뉴스 스크랩을 위한 추천 키워드 제공 시스템, 이를 이용한 뉴스 스크랩에 사용되는 키워드 사전 구성 및 업데이트 방법, 및 이를 포함하는 추천 키워드 제공방법에 관한 것이다.The present invention relates to a system for providing a recommended keyword, a method for configuring and updating a keyword dictionary, and a method for providing a recommended keyword, and more particularly, a system for providing a recommended keyword for a news scrap, a method for configuring and updating a keyword dictionary used for a news scrap using the same, And it relates to a method for providing a recommended keyword including the same.

통신 기술이 발달하고 인터넷 사용이 보편화됨에 따라 인터넷 사이트를 통해 각종 기사나 정보들이 공개되는 경우가 많다. 따라서 사용자들은 각종 인터넷 사이트에 접속하여 다양한 기사나 정보를 공유하며, 경우에 따라 기사나 정보의 필요한 부분을 캡쳐 또는 스크랩하여 사용하기도 한다. 예를 들어, 인터넷을 통해 제공되는 방대한 양의 정보들 중 관심있는 어느 한 분야의 정보들을 수집하고자 하는 경우, 또는 매일 쏟아지는 기사나 정보들 중 주요 기사나 정보들만을 발췌하고자 하는 경우 해당 기사 또는 정보들을 캡쳐 또는 스크랩할 필요가 있다.As communication technology develops and Internet use becomes more common, various articles and information are often disclosed through Internet sites. Accordingly, users access various Internet sites to share various articles and information, and in some cases, capture or scrap the necessary parts of articles or information to use. For example, if you want to collect information from a field of interest among the vast amount of information provided through the Internet, or if you want to extract only the main articles or information among articles or information that are poured out every day, the article or information You need to capture or scrape them.

한편, 정보 또는 기사의 캡처 또는 스크랩시 통상 사전에 대상이 되는 기사나 정보를 사용자가 직접 특정 키워드를 통해 검색하여 검색결과 노출된 기사나 정보들 중 캡쳐 또는 스크랩 대상이 되는 기사나 정보를 선택하고 있다. Meanwhile, when capturing or scraping information or articles, the user directly searches for the target article or information in advance through a specific keyword, and selects the article or information to be captured or scrapped from among the articles or information exposed in the search result. have.

그러나, 기사나 정보의 양이 방대해짐에 따라 종래 특정 키워드 검색시 매우 많은 기사나 정보가 노출되고, 사용자는 어떤 기사나 정보를 선택해야 할지 여부를 결정하는 데 또 다른 많은 시간과 노력이 소모되고 선별의 정확도가 저하되는 문제가 있다.However, as the amount of articles or information becomes vast, a lot of articles or information are exposed when searching for a specific keyword in the related art, and a lot of time and effort are consumed in deciding which article or information to select or not for the user. There is a problem that the accuracy of selection is deteriorated.

따라서, 사용자에게 맞춤화되고 사용이 편리한 캡쳐 또는 스크랩 대상이 되는 기사를 제공하는 방법 및 시스템의 개발이 절실히 요구되고 있다.Accordingly, there is an urgent need to develop a method and system for providing articles that are customized and easy to use to be captured or scrapped to users.

등록특허공보 등록번호 10-1773781호(발명의 명칭 웹 기반의 사용자 지향적 데이터 시각화 방법 및 장치, 등록일자 2017년 08월 28일)Registered Patent Publication No. 10-1773781 (Name of the invention Web-based user-oriented data visualization method and device, registration date August 28, 2017)

이에 따라 본 발명은 사용자의 관심에 맞춤화되고 사용이 편리한 뉴스 스크랩을 위한 추천 키워드 제공 시스템, 이를 이용한 뉴스 스크랩에 사용되는 키워드 사전 구성 및 업데이트 방법, 및 이를 포함하는 추천 키워드 제공방법을 제공하는 것을 목적으로 한다.Accordingly, an object of the present invention is to provide a system for providing a recommended keyword for a news scrap that is tailored to the user's interests and is convenient to use, a method for configuring and updating a keyword dictionary used for news scrap using the same, and a method for providing a recommended keyword including the same. It is done.

상기 목적을 달성하기 위하여 본 발명은 일측면에서 뉴스 스크랩을 위한 추천 키워드 제공 시스템에 관한 것으로, 사용자가 스크랩한 뉴스 스크랩 데이터를 수집하고 이를 가공하여 상기 사용자의 뉴스 스크랩을 위한 제1 키워드를 생성하고 관리하는 사용자사전단어 데이터 처리부(110) 및 사용자에 의하여 선택된 제1 키워드 출력 조건을 입력받아 상기 입력된 제1 키워드 출력조건에 따라 사용자사전단어 데이터 처리부에서 관리되는 제1 키워드를 호출하여 시각화하여 출력하는 사용자사전단어 키워드 출력부(120)를 포함하는 것을 특징으로 한다.In order to achieve the above object, the present invention relates to a system for providing a recommended keyword for news scrap, in one aspect, by collecting and processing news scrap data scraped by a user to generate a first keyword for the user's news scrap. The user dictionary word data processing unit 110 to be managed and the first keyword output condition selected by the user are received, and the first keyword managed by the user dictionary word data processing unit is called and visualized according to the inputted first keyword output condition. It characterized in that it comprises a user dictionary word keyword output unit 120.

바람직하게는 상기 제1 키워드는 해당 사용자 정보와 연관되어 키워드 단어와 수집 날짜, 빈도에 따른 점수 등의 정보와 함께 사용자사전 키워드 데이터로 사용자사전데이터 DB에 저장되고 새로이 수집되는 해당 사용자의 뉴스 스크랩 데이터의 업데이트에 따라 사용자사전데이터 DB에 저장된 사용자사전 키워드 데이터가 생성되거나 업데이트된다.Preferably, the first keyword is associated with the corresponding user information and is stored in the user dictionary data DB as user dictionary keyword data along with information such as the keyword word, collection date, and score according to frequency, and newly collected news scrap data of the user. User dictionary keyword data stored in the user dictionary data DB is created or updated according to the update of.

또한 바람직하게는 상기 사용자사전단어 키워드 출력부(120)는 핵심단어를 시각화하는 기법을 통해 제1 키워드를 시각화하여 사용자에게 제공한다.In addition, preferably, the user dictionary word keyword output unit 120 visualizes and provides the first keyword to the user through a technique for visualizing key words.

여기서 상기 핵심단어를 시각화하는 기법은 워드 클라우드(word cloud) 방식 및 과거 빈도에 따른 점수 데이터의 추이를 추이선 표로 시각적으로 표시하는 방식을 포함하며, 워드 클라우드(word cloud) 방식을 통해 제1 키워드를 출력하고, 워드 클라우드(word cloud) 내 단어를 사용자가 클릭시 해당 데이터의 과거 빈도에 따른 점수 데이터의 추이를 추이선 표로 시각적으로 표시하는 것이 바람직하다.Here, the technique of visualizing the key words includes a word cloud method and a method of visually displaying the trend of score data according to the past frequency in a trend line table, and the first keyword through a word cloud method. When a user clicks a word in the word cloud, it is preferable to visually display the trend of score data according to the past frequency of the corresponding data in a trend line table.

나아가 바람직하게는 뉴스 매체로부터 뉴스데이터를 수집하고 이를 가공하여 뉴스 스크랩을 위한 제2 키워드를 생성하고 관리하는 범용사전데이터 처리부(130) 및 사용자에 의하여 선택된 제2 키워드 출력 조건을 입력받아 상기 입력된 제2 키워드 출력 조건에 따라 상기 범용사전데이터 처리부에서 관리되는 제2 키워드를 호출하여 시각화하여 출력하는 범용사전단어 키워드 출력부(140)를 더 포함한다.Further, preferably, the general-purpose dictionary data processing unit 130 for generating and managing second keywords for news scrap by collecting and processing news data from the news media, and the second keyword output condition selected by the user are input and the inputted It further includes a universal dictionary word keyword output unit 140 for visualizing and visualizing a second keyword managed by the universal dictionary data processing unit according to a second keyword output condition.

여기서 바람직하게는 상기 제2 키워드는, 키워드 단어와 수집 날짜, 빈도에 따른 점수 등의 정보와 함께 범용사전 키워드 데이터로 범용사전데이터 DB에 저장되고 새로이 수집되는 뉴스 데이터의 업데이트에 따라 범용사전데이터 DB에 저장된 범용사전 키워드 데이터가 생성되거나 업데이트된다.Here, preferably, the second keyword is stored in the universal dictionary data DB as universal dictionary keyword data along with information such as keyword words, collection date, and score according to frequency, and according to the update of newly collected news data, the universal dictionary data DB The keyword data stored in the universal dictionary is created or updated.

다른 측면에서 본 발명은 뉴스 스크랩에 사용되는 키워드 사전 구성 및 업데이트 방법에 관한 것으로, 사용자가 스크랩한 뉴스 스크랩 데이터를 수집하고 이를 가공하여 상기 사용자의 뉴스 스크랩을 위한 제1 키워드를 생성하고 관리하는 뉴스 스크랩 정보를 이용한 사용자 사전 생성 및 업데이트 과정(S110)을 포함하여, 생성된 사용자의 뉴스 스크랩을 위한 제1 키워드는 해당 사용자 정보와 연관되어 키워드 단어와 수집 날짜, 빈도에 따른 점수 등의 정보와 함께 사용자사전 키워드 데이터로 사용자사전데이터 DB(114)에 저장되는 것을 특징으로 한다.In another aspect, the present invention relates to a method for configuring and updating a keyword dictionary used for news scrap, and collecting and processing news scrap data scraped by a user to generate and manage a first keyword for the user's news scrap. Including the user dictionary creation and update process using scrap information (S110), the first keyword for the generated user's news scrap is related to the corresponding user information, along with information such as keyword words, collection date, and score according to frequency. Characterized in that it is stored in the user dictionary data DB (114) as user dictionary keyword data.

바람직하게는 사용자 사전 생성 및 업데이트 과정(S110)은, 연동되는 뉴스정보 스크랩 시스템(200)으로부터 사용자가 스크랩한 뉴스 스크랩 데이터를 수집하는 스크랩데이터 수집과정(S111), 상기 수집된 스크랩데이터를 가공하여 뉴스 스크랩을 위한 키워드를 생성하는 스크랩데이터 가공과정(S112), 및 상기 생성된 제1 키워드를 사용자사전데이터 DB(114)에 저장하여 관리하는 제1 저장 및 관리과정(S113)을 포함하여 수행된다.Preferably, the user dictionary creation and update process (S110) is a scrap data collection process (S111) of collecting news scrap data scraped by a user from the linked news information scrap system 200, and processing the collected scrap data. A scrap data processing process (S112) of generating keywords for news scrap, and a first storage and management process (S113) of storing and managing the generated first keyword in the user dictionary data DB 114 are performed. .

여기서 상기 뉴스정보 스크랩 시스템(200)에서 해당 사용자가 지면 뉴스 또는 온라인 뉴스를 선택하여 스크랩하여 저장한 뉴스 스크랩 데이터 및 스크랩한 날짜 정보가 사용자의 식별정보와 연관되어 상기 뉴스정보 스크랩 시스템(200)에 저장되며, 상기 스크랩데이터 수집과정(S111)에서, 사용자의 식별정보를 이용하여 뉴스정보 스크랩 시스템의 데이터 DB에 저장된 뉴스 스크랩 데이터 및 스크랩한 날짜 정보가 사용자 별로 수집 또는 요청되어 수신되는 것이 바람직하다.Here, in the news information scrap system 200, the news scrap data and the scrap date information stored by the user selecting and scrapping the paper news or online news are associated with the user's identification information, and the news information scrap system 200 is sent to the news information scrap system 200. It is stored, and in the scrap data collection process (S111), it is preferable that news scrap data and scrap date information stored in the data DB of the news information scrap system are collected or requested and received for each user by using the user's identification information.

또한 여기서 상기 스크랩데이터 가공과정(S112)은, 사전 저장된 배제어를 호출하는 과정 및 뉴스 제목에서 배제어를 제거하는 배제어 제거 과정을 수행하여 상기 뉴스 스트랩 데이터의 뉴스 제목중 존재하는 키워드로서 필요 없는 단어을 배제하는 배제어 제거 과정, 배제어가 제거된 뉴스 제목에서 명사를 제외한 단어를 제외하여 명사만을 추출하여 명사 이외의 단어를 제거하는 명사 추출과정, 뉴스 제목에 등장한 명사 리스트와 해당 명사와 같이 쓰이는 다른 명사들의 단어 쌍을 생성하는 명사 단어 리스트 및 단어 쌍 리스트 생성과정, 및 리스트의 단어 또는 단어쌍에 빈도에 따른 점수를 계산하여 출력하는 단어 및 단어쌍 점수 계산과정을 포함하는 것이 바람직하다.In addition, in the scrap data processing process (S112), a process of calling a pre-stored excluded word and a process of removing the excluded word to remove the excluded word from the news title are performed, so that there is no need as a keyword present in the news title of the news strap data. A noun extraction process that removes words other than nouns by extracting only the nouns from the news title from which the nouns have been removed, and the nouns that appear in the news title and the nouns used with the nouns. It is preferable to include a noun word list and a word pair list generation process for generating word pairs of other nouns, and a word and word pair score calculation process for calculating and outputting a score according to a frequency of words or word pairs in the list.

여기서 바람직하게는 상기 제1 저장 및 관리과정(S113)은, 제1 키워드인 단어 또는 단어 쌍에 대하여 사용자 사전 데이터 DB에 존재하는 지를 조회하는 과정, 존재하는 단어 또는 단어 쌍의 경우, 저장 대상 제1 키워드인 단어 또는 단어 쌍의 점수를 날짜별 단어 또는 단어 쌍의 점수로 사용자 사전 데이터 DB에 저장하고, 기존 존재하는 제1 키워드인 단어 또는 단어의 누적 점수를 조회하여, 저장 대상 제1 키워드인 단어 또는 단어 쌍의 점수를 기존 존재하는 제1 키워드인 단어 또는 단어 쌍의 누적 점수에 합산하여 사용자 사전 데이터 DB에 저장하는 과정, 존재하는 단어 또는 단어 쌍이 아닌 경우, 날짜별 제1 키워드인 단어 또는 단어 쌍의 점수를 사용자 사전 데이터 DB에 저장하고, 저장 대상 제1 키워드인 단어 또는 단어의 누적 점수를 생성하여, 저장 대상 제1 키워드인 단어 또는 단어 쌍의 점수를 생성된 제1 키워드인 단어 또는 단어 쌍의 누적 점수로 사용자 사전 데이터 DB에 저장하는 과정을 포함한다.Here, preferably, the first storage and management process (S113) is a process of inquiring whether a word or word pair, which is a first keyword, exists in the user dictionary data DB, and in the case of an existing word or word pair, the storage target first 1 The score of the keyword word or word pair is stored in the user dictionary data DB as the score of the word or word pair by date, and the cumulative score of the word or word that is the existing first keyword is inquired, and the first keyword to be stored is The process of summing the scores of words or word pairs with the cumulative scores of words or word pairs, which are existing first keywords, and storing them in the user dictionary data DB. If the words or word pairs are not present, words that are the first keyword for each date or The score of the word pair is stored in the user dictionary data DB, and a word or a cumulative score of the word as the first keyword to be stored is generated, and the score of the first keyword to be stored or the word pair is generated. It includes the process of storing the accumulated scores of word pairs in the user dictionary data DB.

나아가 바람직하게는 뉴스 매체로부터 뉴스데이터를 수집하고 이를 가공하여 뉴스 스크랩을 위한 제2 키워드를 생성하고 관리하는 범용 사전 생성 및 업데이트 과정(S120)을 더 포함하여, 생성된 사용자의 뉴스 스크랩을 위한 제2 키워드는 키워드 단어와 수집 날짜, 빈도에 따른 점수 등의 정보와 함께 범용사전 키워드 데이터로 범용사전데이터 DB(124)에 저장된다.Furthermore, preferably, it further includes a general-purpose dictionary generation and update process (S120) for generating and managing second keywords for news scrap by collecting and processing news data from news media, 2 The keywords are stored in the universal dictionary data DB 124 as universal dictionary keyword data along with information such as keyword words, collection dates, and scores according to frequency.

여기서 상기 범용 사전 생성 및 업데이트 과정(S120)은, 범용사전용 데이터로 뉴스 데이터를 수집하는 뉴스 데이터 수집 과정(S121), 상기 수집된 뉴스 데이터를 가공하여 뉴스 스크랩을 위한 제2 키워드를 생성하는 뉴스 데이터 가공 과정(S122), 제2 키워드로서 범용 사전 데이터 DB에 저장하여 관리하는 제2 키워드 저장 및 관리 과정(S123)을 포함하여 수행되는 것이 바람직하다.Here, the general-purpose dictionary generation and update process (S120) includes a news data collection process (S121) for collecting news data as general-purpose dictionary data, and a news for generating a second keyword for scrapping the news by processing the collected news data. It is preferable that a data processing process (S122) and a second keyword storage and management process (S123) of storing and managing as a second keyword in a general-purpose dictionary data DB (S123) are performed.

또 다른 측면에서 본 발명은 추천 키워드 제공방법에 관한 것으로, 상기 뉴스 스크랩에 사용되는 키워드 사전 구성 및 업데이트 방법 중 하나를 포함한다.In another aspect, the present invention relates to a method of providing a recommended keyword, and includes one of a method of configuring and updating a keyword dictionary used in the news scrap.

바람직하게는 사용자 인터페이스 처리부(150)를 통해 입력된 사용자의 키워드 선택에 따라 사전 설정된 방식으로 키워드를 출력하여 표시하는 키워드 출력 과정(S300)을 포함하여, 핵심단어를 시각화하는 기법을 통해 출력되는 키워드를 시각화하여 제공하는 것을 특징으로 한다.Keywords output through a technique for visualizing key words, including a keyword output process (S300) of outputting and displaying keywords in a preset manner according to the user's keyword selection input through the user interface processing unit 150. It characterized in that it provides by visualizing.

상술한 바와 같은 본 발명에 의하면, 사용자의 관심에 맞춤화되고 사용이 편리한 뉴스 스크랩을 위한 추천 키워드 제공 시스템, 이를 이용한 뉴스 스크랩에 사용되는 키워드 사전 구성 및 업데이트 방법, 및 이를 포함하는 추천 키워드 제공방법을 제공할 수 있는 효과를 갖는다.According to the present invention as described above, a system for providing a recommended keyword for a news scrap tailored to the user's interest and convenient to use, a keyword dictionary configuration and update method used for a news scrap using the same, and a method for providing a recommended keyword including the same are provided. It has an effect that can be provided.

도 1은 본 발명이 적용되는 뉴스 스크랩 환경을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예의 추천 키워드 제공시스템(100)의 구성도이다.
도 3은 본 발명의 일 실시예의 사용자사전단어 데이터 처리부(110)의 세부 구성 및 사용자사전단어 키워드 출력부(120)를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예의 범용사전단어데이터 처리부(130)의 세부 구성 및 범용사전단어 키워드 출력부(140)를 설명하기 위한 도면이다.
도 5는 본 발명의 뉴스 스크랩을 위한 추천 키워드 제공 시스템을 이용한 뉴스 스크랩에 사용되는 키워드 사전 구성 및 업데이트 방법 및 추천 키워드 제공방법을 설명하기 위한 흐름도이다.
도 6 및 도 7은 본 발명의 일 실시예의 키워드 사전 구성 및 업데이트 방법의 상세 과정을 설명하기 위한 도면이다.
도 8은 본 발명의 키워드 출력 조건 입력 과정(S200) 및 키워드 출력 과정(S300)을 설명하기 위한 도면이다.
도 9 내지 12는 본 발명의 일 실시예에 따라 시각화되어 출력된 키워드의 형태의 예시도이다.
1 is a diagram illustrating a news scrap environment to which the present invention is applied.
2 is a block diagram of a system 100 for providing a recommended keyword according to an embodiment of the present invention.
3 is a diagram illustrating a detailed configuration of the user dictionary word data processing unit 110 and the user dictionary word keyword output unit 120 according to an embodiment of the present invention.
4 is a view for explaining the detailed configuration of the universal dictionary word data processing unit 130 and the universal dictionary word keyword output unit 140 according to an embodiment of the present invention.
5 is a flowchart illustrating a method of configuring and updating a keyword dictionary used for a news scrap using a system for providing a recommended keyword for a news scrap according to the present invention, and a method of providing a recommended keyword.
6 and 7 are diagrams for explaining a detailed process of a method for configuring and updating a keyword dictionary according to an embodiment of the present invention.
8 is a diagram illustrating a keyword output condition input process (S200) and a keyword output process (S300) according to the present invention.
9 to 12 are exemplary diagrams of a form of a keyword visualized and output according to an embodiment of the present invention.

이하, 도면을 참조하여 본 발명을 실시하기 위한 구체적인 내용을 실시예에 기초하여 설명한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는 적절하게 설명된다면 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다. Hereinafter, specific contents for carrying out the present invention will be described based on examples with reference to the drawings. These embodiments are described in detail sufficient to enable a person skilled in the art to practice the present invention. It should be understood that the various embodiments of the present invention are different from each other, but need not be mutually exclusive. For example, specific shapes, structures, and characteristics described herein may be implemented in other embodiments without departing from the spirit and scope of the present invention in relation to one embodiment. In addition, it should be understood that the location or arrangement of individual components within each disclosed embodiment may be changed without departing from the spirit and scope of the present invention. Accordingly, the detailed description to be described below is not intended to be taken in a limiting sense, and the scope of the present invention, if properly described, is limited only by the appended claims, along with all scopes equivalent to those claimed by the claims. Like reference numerals in the drawings refer to the same or similar functions over several aspects.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있는 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백히 특별히 정의되어 있지 않은 한 이상적으로 또는 과도하게 해석되지 않는다.Unless otherwise defined, all terms (including technical and scientific terms) used in the present specification may be used with meanings that can be commonly understood by those of ordinary skill in the art to which the present invention belongs. In addition, terms defined in a commonly used dictionary are not interpreted ideally or excessively unless explicitly defined specifically.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings in order to enable those of ordinary skill in the art to easily implement the present invention.

도 1은 본 발명이 적용되는 뉴스 스크랩 환경을 설명하기 위한 도면이다.1 is a diagram illustrating a news scrap environment to which the present invention is applied.

본 발명은 뉴스 스크랩을 위한 추천 키워드 제공 시스템, 이에 사용되는 뉴스 스크랩 정보를 이용한 사용자 사전구축 방법 및 이를 이용한 추천 키워드 제공방법은 도 1에서와 같은 온라인으로 연결된 환경에서 제공된다.The present invention provides a system for providing a recommended keyword for a news scrap, a user dictionary construction method using the news scrap information used therein, and a method for providing a recommended keyword using the same in an online connected environment as shown in FIG. 1.

도 1을 참조하면, 본 발명의 추천 키워드 제공시스템(100)은, 후술하는 뉴스정보 스크랩 시스템(200)과 연동하며, 상기 뉴스정보 스크랩 시스템(200)에서 사용자가 스크랩한 뉴스 스크랩 데이터를 수집하고 이를 가공하여 상기 사용자의 뉴스 스크랩을 위한 키워드를 생성하고 관리하고, 상기 관리되는 키워드를 출력하여 뉴스정보 스크랩 시스템(200) 내지 이를 사용하는 사용자에게 제공하는 것을 특징으로 한다. 해당 사용자가 스크랩한 과거 스크랩한 뉴스 스크랩 데이터를 기반으로 해당 사용자가 스크랩에 사용할 추천 키워드 생성하여 제공함으로써 사용자의 관심 주제에 부합하는 맞춤 뉴스의 검색이나 추천이 가능해진다.Referring to FIG. 1, the recommended keyword providing system 100 of the present invention interlocks with a news information scrap system 200 to be described later, and collects news scrap data scraped by a user from the news information scrap system 200. It is characterized in that by processing this, a keyword for the user's news scrap is generated and managed, and the managed keyword is output and provided to the news information scrap system 200 or a user who uses the same. By generating and providing recommended keywords to be used for scrap by the user based on the scrap data of the news scrapped by the user in the past, it is possible to search or recommend customized news that fits the user's interest topic.

또한, 실시예에 따라서는, 키워드의 추출시 추출된 단어를 가공하여 단어 쌍을 생성하여 키워드로서 제공함으로써 단순 단어의 사용자의 관심 주제의 검색이나 추천에 더욱 부합하는 추천 키워드를 제공할 수 있으며, 추천 키워드의 제공시 기간을 한정하고 키워드 단어의 빈도에 따른 점수를 이용하여 점수의 순위에 따라 제공 범위를 한정하여 추천 키워드를 출력해 제공함으로써 사용자의 관심 주제의 검색이나 추천에 더욱 부합하는 추천 키워드를 제공할 수 있다. In addition, depending on the embodiment, by processing the extracted word when extracting the keyword to generate a word pair and providing it as a keyword, it is possible to provide a recommended keyword more suitable for searching or recommending a topic of interest of a user of a simple word. When providing recommended keywords, by limiting the period of time and by using the score according to the frequency of the keyword words, the range of the offer is limited according to the ranking of the score, and the recommended keywords are output and provided, so that the recommended keywords more match the search or recommendation of the subject of interest of the user. Can provide.

또한, 실시예에 따라서는 본 발명의 추천 키워드 제공시스템(100)은 온라인 또는 오프라인의 경로를 통해 뉴스 정보를 제공하는 뉴스 정보매체(300)로부터의 뉴스 데이터를 수집하고 이를 가공하여 뉴스 스크랩을 위한 키워드를 생성하고 관리하며, 이를 출력하여 뉴스정보 스크랩 시스템(200) 내지 이를 사용하는 사용자에게 제공할 수 있다. 이를 통해 과거 스크랩한 뉴스 스크랩 데이터가 존재하지 않는 신규 고객에게 추천 키워드를 제공하는 것이 가능해진다.In addition, according to an embodiment, the recommended keyword providing system 100 of the present invention collects news data from the news information medium 300 that provides news information through an online or offline route, and processes it for news scrap. Keywords can be created and managed, outputted, and provided to the news information scraping system 200 or a user who uses them. Through this, it becomes possible to provide recommended keywords to new customers who do not have news scrap data scrapped in the past.

추천 키워드 제공시스템(100)에서 관리되는 키워드의 출력은 사용자 인터페이스(미도시)를 통해 사용자에게 복수의 키워드 출력 조건을 제공하고 사용자에 의하여 선택된 키워드 출력 조건을 입력받아 입력된 키워드 출력조건에 따라 관리되는 키워드를 호출하여 출력하며, 본 발명의 일 실시예에 있어서는, 출력시 본 발명의 특징적인 방법으로 시각화하여 출력할 수 있다. The output of keywords managed by the recommended keyword providing system 100 provides a plurality of keyword output conditions to the user through a user interface (not shown), receives the keyword output conditions selected by the user, and manages according to the input keyword output conditions. The keyword is called and output, and in an embodiment of the present invention, it can be visualized and output in a manner characteristic of the present invention upon output.

뉴스 정보매체(300)는 온라인 뉴스 및 종래 신문 등 지면 뉴스의 제공 데이터 또는 매체의 형태일 수 있다.The news information medium 300 may be in the form of data or media for providing paper news such as online news and conventional newspapers.

뉴스정보 스크랩 시스템(200)은 사용자가 원하는 정보 또는 기사를 선택하여 캡처 내지 스크랩하여 사용하도록 하는 시스템으로, 뉴스정보 스크랩 시스템의 데이터 DB를 포함하여 사용자가 스크랩한 뉴스 스크랩 데이터를 상기 사용자와 연관하여 이미지 데이터(문자 인식된 이미지 포함) 형태로 저장하여 관리한다. 상기 저장되어 관리되는 사용자가 스크랩한 뉴스 스크랩 데이터는 뉴스정보 스크랩 시스템(200)과 연동하는 본 발명의 추천 키워드 제공시스템(100)에 의하여 수집되거나, 본 발명의 추천 키워드 제공시스템(100)에 사전 설정된 방식으로 자동 제공되어 후술하는 사용자사전데이터 처리부에 포함된 사용자사전단어데이터 DB에 저장되거나, 상기 뉴스정보 스크랩 시스템의 데이터 DB에 사용자사전데이터 DB가 연동하도록 구성될 수 있다.The news information scrap system 200 is a system that allows a user to select and capture or scrape desired information or articles. The news scrap data scraped by the user, including the data DB of the news information scrap system, is associated with the user. It is stored and managed in the form of image data (including text recognized images). The stored and managed news scrap data is collected by the recommended keyword providing system 100 of the present invention in connection with the news information scraping system 200, or in advance in the recommended keyword providing system 100 of the present invention. The user dictionary data DB may be automatically provided in a set manner and stored in the user dictionary word data DB included in the user dictionary data processing unit to be described later, or the user dictionary data DB may be interlocked with the data DB of the news information scrap system.

사용자는 본 발명의 추천 키워드 제공시스템(100)에서 생성되어 관리되는 뉴스 스크랩을 위한 키워드를 제공받아 뉴스정보 스크랩 시스템(200)을 통해 캡처 또는 스크랩시 사용자가 제공된 키워드를 사용하여 검색하고 상기 키워드 검색결과 노출된 기사나 정보들 중 캡쳐 또는 스크랩 대상이 되는 기사나 정보를 선택하여 캡쳐한다.The user is provided with keywords for news scrap generated and managed by the recommended keyword providing system 100 of the present invention, and when capturing or scraping through the news information scrap system 200, the user searches using the provided keyword and searches the keyword. Among the articles or information exposed as a result, an article or information to be captured or scrapped is selected and captured.

도 2는 본 발명의 일 실시예의 추천 키워드 제공시스템(100)의 구성도이다.2 is a block diagram of a system 100 for providing a recommended keyword according to an embodiment of the present invention.

도 2를 참조하면, 본 실시예의 추천 키워드 제공시스템(100)은, 사용자가 스크랩한 뉴스 스크랩 데이터를 수집하고 이를 가공하여 상기 사용자의 뉴스 스크랩을 위한 제1 키워드를 생성하고 관리하는 사용자사전단어 데이터 처리부(110) 및 사용자에 의하여 선택된 제1 키워드 출력 조건을 입력받아 상기 입력된 제1 키워드 출력조건에 따라 사용자사전단어 데이터 처리부에서 관리되는 제1 키워드를 호출하여 시각화하여 출력하는 사용자사전단어 키워드 출력부(120)를 포함한다.Referring to FIG. 2, the recommended keyword providing system 100 of the present embodiment collects and processes news scrap data scraped by a user to generate and manage a first keyword for the user's news scrap. A user dictionary word keyword output that receives the first keyword output condition selected by the processing unit 110 and the user, calls and visualizes the first keyword managed by the user dictionary word data processing unit according to the input first keyword output condition Includes part 120.

사용자의 뉴스 스크랩 데이터를 수집하고 이를 가공하여 생성된 제1 키워드는, 해당 사용자 정보와 연관되어 키워드 단어와 수집 날짜, 빈도에 따른 점수 등의 정보와 함께 사용자사전 키워드 데이터로 사용자사전데이터 DB에 저장되고 새로이 수집되는 해당 사용자의 뉴스 스크랩 데이터의 업데이트에 따라 사용자사전데이터 DB에 저장된 사용자사전 키워드 데이터가 생성되거나 업데이트될 수 있다. The first keyword generated by collecting and processing the user's news scrap data is stored in the user dictionary data DB as user dictionary keyword data along with information such as the keyword word, collection date, and score according to the frequency associated with the user information. The user dictionary keyword data stored in the user dictionary data DB may be generated or updated according to the update of the news scrap data of the corresponding user that is newly collected.

또한, 실시예에 따라서는, 뉴스 매체로부터 뉴스데이터를 수집하고 이를 가공하여 뉴스 스크랩을 위한 제2 키워드를 생성하고 관리하는 범용사전데이터 처리부(130) 및 사용자에 의하여 선택된 제2 키워드 출력 조건을 입력받아 상기 입력된 제2 키워드 출력 조건에 따라 상기 범용사전데이터 처리부에서 관리되는 제2 키워드를 호출하여 시각화하여 출력하는 범용사전단어 키워드 출력부(140)를 포함할 수 있다.In addition, according to an embodiment, the universal dictionary data processing unit 130 that collects news data from news media and processes it to generate and manage a second keyword for news scrap, and a second keyword output condition selected by the user are input. It may include a universal dictionary word keyword output unit 140 for visualizing and visualizing a second keyword managed by the universal dictionary data processing unit according to the received and inputted second keyword output condition.

뉴스 매체로부터 뉴스데이터를 수집하고 이를 가공하여 생성된 제2 키워드는, 키워드 단어와 수집 날짜, 빈도에 따른 점수 등의 정보와 함께 범용사전 키워드 데이터로 범용사전데이터 DB에 저장되고 새로이 수집되는 뉴스 데이터의 업데이트에 따라 범용사전데이터 DB에 저장된 범용사전 키워드 데이터가 생성되거나 업데이트될 수 있다. The second keyword generated by collecting news data from the news media and processing it is stored in the universal dictionary data DB as universal dictionary keyword data along with information such as keyword words, collection date, and score according to frequency, and newly collected news data. According to the update of the universal dictionary keyword data stored in the universal dictionary data DB may be created or updated.

또한, 사용자에게 복수의 키워드 출력 조건을 제공하고, 상기 출력된 복수의 키워드 출력 조건 중 사용자의 선택을 입력받는 사용자 인터페이스 처리부(150)를 포함할 수 있다.In addition, it may include a user interface processing unit 150 that provides a plurality of keyword output conditions to a user and receives a user's selection from among the plurality of output keyword output conditions.

도 3은 본 발명의 일 실시예의 사용자사전단어 데이터 처리부(110)의 세부 구성 및 사용자사전단어 키워드 출력부(120)를 설명하기 위한 도면이다.3 is a diagram illustrating a detailed configuration of the user dictionary word data processing unit 110 and the user dictionary word keyword output unit 120 according to an embodiment of the present invention.

도 3을 참조하면, 본 실시예의 사용자사전단어 데이터 처리부(110)는, 스크랩데이터 수집모듈(111), 스크랩데이터 가공모듈(112), 제1 저장 및 관리모듈(113), 사용자사전데이터 DB(114)를 포함하며, 사용자사전 모니터링 모듈(115)를 포함할 수 있다.3, the user dictionary word data processing unit 110 of this embodiment includes a scrap data collection module 111, a scrap data processing module 112, a first storage and management module 113, and a user dictionary data DB ( 114) and may include a user dictionary monitoring module 115.

스크랩데이터 수집모듈(111)은, 뉴스정보 스크랩 시스템(200)으로부터 사용자가 스크랩한 뉴스 스크랩 데이터를 수집하는 기능을 수행한다. 그 상세한 수집 기능을 수행하는 방법의 실시예는 도 6을 참조한 스크랩데이터 수집과정(S111)과 관련하여 상술한다.The scrap data collection module 111 performs a function of collecting news scrap data scraped by a user from the news information scrap system 200. An embodiment of a method for performing the detailed collection function will be described in detail with respect to the scrap data collection process S111 with reference to FIG. 6.

스크랩데이터 가공모듈(112)은, 상기 수집된 뉴스 스크랩 데이터를 가공하여 뉴스 스크랩을 위한 제1 키워드를 생성하는 기능을 수행한다. 스크랩데이터 가공모듈(112)의 제1 키워드를 생성하는 기능을 수행하는 방법의 실시예는 도 6을 참조하여 스크랩데이터 가공과정(S112)과 관련하여 상술한다. The scrap data processing module 112 performs a function of generating a first keyword for news scrap by processing the collected news scrap data. An embodiment of a method of performing the function of generating the first keyword of the scrap data processing module 112 will be described in detail with reference to FIG. 6 with respect to the scrap data processing process (S112).

제1 저장 및 관리모듈(113)은, 생성된 제1 키워드를 사용자 사전 데이터 DB에 저장하여 관리하는 기능을 수행한다. 제1 저장 및 관리모듈(113)의 기능을 수행하는 방법의 실시예는 도 6을 참조하여 제1 저장 및 관리과정(S113)과 관련하여 상술한다.The first storage and management module 113 performs a function of storing and managing the generated first keyword in the user dictionary data DB. An embodiment of a method of performing the function of the first storage and management module 113 will be described in detail with respect to the first storage and management process S113 with reference to FIG. 6.

사용자사전데이터 DB(114)는 생성된 제1 키워드를 저장하는 데이터 베이스 이다.The user dictionary data DB 114 is a database that stores the generated first keyword.

사용자사전 모니터링 모듈(115)은, 사용자 사전 데이터 DB의 로그 파일의 마지막 로그 기록과 모니터링 모듈의 로그 파일의 로그 기록을 비교하여 이상을 발견하며, 실시예에 따라서는 이상의 발견시 이상 발견 메시지를 개발자 등에게 통보하는 과정을 수행한다.The user dictionary monitoring module 115 detects an abnormality by comparing the last log record of the log file of the user dictionary data DB with the log record of the log file of the monitoring module. Perform the process of notifying the back.

사용자사전단어 키워드 출력부(120)는, 제1 키워드의 복수의 출력 조건을 제공하고 사용자 인터페이스 처리부(150)를 통해 상기 출력된 복수의 제1 키워드 출력 조건 중 사용자의 선택을 입력받아 제1 키워드를 출력하여 사용자에게 제공한다.The user dictionary word keyword output unit 120 provides a plurality of output conditions of a first keyword and receives a user's selection from among the plurality of output conditions of the first keyword through the user interface processing unit 150 and receives a first keyword. Is printed and provided to the user.

실시예에 따라서는 사용자사전단어 키워드 출력부(120)는 핵심단어를 시각화하는 기법을 통해 출력되는 키워드를 시각화하여 사용자에게 제공할 수 있으며, 시각화하는 기법으로는 워드 클라우드(word cloud) 방식 및 과거 빈도에 따른 점수 데이터의 추이를 추이선 표로 시각적으로 표시하는 방식이 사용될 수 있다.Depending on the embodiment, the user dictionary word keyword output unit 120 may visualize keywords output through a technique for visualizing key words and provide them to the user. A method of visually displaying the trend of score data according to frequency in a trend line table may be used.

또한, 이 경우 제1 출력 조건에 따라 워드 클라우드(word cloud) 방식을 통해 제1 키워드를 출력하며, 워드 클라우드(word cloud) 내 단어를 사용자가 클릭시 해당 데이터의 과거 빈도에 따른 점수 데이터의 추이를 추이선 표로 시각적으로 표시할 수 있다.In addition, in this case, the first keyword is output through a word cloud method according to the first output condition, and when a user clicks a word in the word cloud, the trend of score data according to the past frequency of the corresponding data Can be visually displayed as a trend line table.

도 4는 본 발명의 일 실시예의 범용사전단어데이터 처리부(130)의 세부 구성 및 범용사전단어 키워드 출력부(140)를 설명하기 위한 도면이다. 4 is a view for explaining the detailed configuration of the universal dictionary word data processing unit 130 and the universal dictionary word keyword output unit 140 according to an embodiment of the present invention.

도 4를 참조하면, 본 실시예의 범용사전단어데이터 처리부(130)는, 뉴스데이터 수집모듈(131), 뉴스데이터 가공모듈(132), 제2 저장 및 관리모듈(133), 범용사전 데이터 DB(134)를 포함하며, 범용사전 모니터링 모듈(135)를 포함할 수 있다. 4, the universal dictionary word data processing unit 130 of this embodiment includes a news data collection module 131, a news data processing module 132, a second storage and management module 133, a universal dictionary data DB ( 134), and may include a universal pre-monitoring module 135.

뉴스데이터 수집모듈(131)은, 범용사전용 데이터로 뉴스 데이터를 수집하는 기능을 수행하며, 그 상세한 수집 기능을 수행하는 방법의 실시예는 도 7을 참조하여 뉴스 데이터 수집과정(S121)과 관련하여 상술한다.The news data collection module 131 performs a function of collecting news data as general-purpose data, and an embodiment of a method for performing the detailed collection function is related to the news data collection process (S121) with reference to FIG. 7. It will be described in detail.

뉴스데이터 가공모듈(132)은, 상기 수집된 뉴스 데이터를 가공하여 뉴스 스크랩을 위한 제2 키워드를 생성하는 기능을 수행하며, 제2 키워드를 생성하는 기능을 수행하는 방법의 실시예는 도 7을 참조하여 뉴스 데이터 가공과정(S122)과 관련하여 상술한다. The news data processing module 132 performs a function of generating a second keyword for a news scrap by processing the collected news data, and an embodiment of a method of performing a function of generating a second keyword is shown in FIG. 7. With reference to the news data processing process (S122) will be described in detail.

제2 저장 및 관리모듈(133)은, 생성된 제2 키워드를 범용 사전 데이터 DB(134)에 저장하여 관리하는 기능을 수행한다. 제2 저장 및 관리모듈(133)의 기능을 수행하는 방법의 실시예는 도 7을 참조하여 제2 저장 및 관리과정(S123)과 관련하여 상술한다.The second storage and management module 133 performs a function of storing and managing the generated second keyword in the universal dictionary data DB 134. An embodiment of a method of performing the function of the second storage and management module 133 will be described in detail with respect to the second storage and management process S123 with reference to FIG. 7.

범용사전 데이터 DB(134)는, 생성된 제2 키워드를 저장하는 데이터베이스이다.The general-purpose dictionary data DB 134 is a database that stores the generated second keyword.

범용사전 모니터링 모듈(135)은, 범용 사전 데이터 DB의 로그 파일의 마지막 로그 기록과 모니터링 모듈의 로그 파일의 로그 기록을 비교하여 이상을 발견하며, 실시예에 따라서는 이상의 발견시 이상 발견 메시지를 개발자 등에게 통보하는 과정을 수행한다.The general-purpose dictionary monitoring module 135 detects an abnormality by comparing the last log record of the log file of the general-purpose dictionary data DB with the log record of the log file of the monitoring module. Perform the process of notifying the back.

본 실시예의 범용사전단어 키워드 출력부(140)는, 핵심단어를 시각화하는 기법을 통해 출력되는 키워드를 시각화하여 사용자에게 제공할 수 있으며, 시각화하는 기법으로는 워드 클라우드(word cloud) 방식이 사용될 수 있다.The universal dictionary word keyword output unit 140 of the present embodiment can visualize keywords output through a technique for visualizing key words and provide them to a user, and a word cloud method can be used as a visualization technique. have.

도 5는 본 발명의 뉴스 스크랩을 위한 추천 키워드 제공 시스템을 이용한 뉴스 스크랩에 사용되는 키워드 사전 구성 및 업데이트 방법 및 추천 키워드 제공방법을 설명하기 위한 흐름도이며, 도 6 및 도 7은 본 발명의 일 실시예의 키워드 사전 구성 및 업데이트 방법의 상세 과정을 설명하기 위한 도면, 도 8은 본 발명의 키워드 출력 조건 입력 과정(S200) 및 키워드 출력 과정(S300)을 설명하기 위한 도면, 도 9는 본 발명의 일 실시예에 따라 시각화되어 출력된 키워드의 형태의 예시도이다.5 is a flowchart illustrating a method of configuring and updating a keyword dictionary used in a news scrap using a system for providing a recommended keyword for a news scrap of the present invention, and a method of providing a recommended keyword, and FIGS. 6 and 7 are an embodiment of the present invention. A diagram for explaining a detailed process of an example keyword dictionary configuration and an update method, FIG. 8 is a diagram for explaining a keyword output condition input process (S200) and a keyword output process (S300) of the present invention, and FIG. 9 is an embodiment of the present invention. It is an exemplary diagram of the form of a keyword visualized and output according to an embodiment.

본 발명의 추천 키워드 제공방법은 뉴스 스크랩 정보를 이용한 사용자 사전구축 방법을 포함하여, 상술한 추천 키워드 제공시스템(100)에 의하여 수행된다. The recommended keyword providing method of the present invention is performed by the above-described recommended keyword providing system 100, including a user pre-construction method using news scrap information.

도 5를 참조하면, 추천 키워드 제공방법은, 키워드 사전 구성 및 업데이트 과정(S100), 키워드 출력 조건 입력 과정(S200), 키워드 출력 과정(S300)을 포함하여 수행되어, 관리되는 키워드를 출력하여 뉴스정보 스크랩 시스템(200) 내지 이를 사용하는 사용자에게 제공(S400)한다.Referring to FIG. 5, a method of providing a recommended keyword is performed including a keyword dictionary configuration and update process (S100), a keyword output condition input process (S200), and a keyword output process (S300), and outputs a managed keyword to provide news. It is provided to the information scraping system 200 or a user who uses it (S400).

키워드 사전 구성 및 업데이트 과정(S100)은, 사용자의 뉴스 스크랩을 위한 키워드를 생성하고 관리하는 과정이다.The keyword dictionary configuration and update process (S100) is a process of creating and managing keywords for a user's news scrap.

본 발명의 키워드 사전 구성 및 업데이트 과정(S100)은 사용자가 스크랩한 뉴스 스크랩 데이터를 수집하고 이를 가공하여 상기 사용자의 뉴스 스크랩을 위한 키워드를 생성하고 관리하는 뉴스 스크랩 정보를 이용한 사용자 사전 생성 및 업데이트 과정(S110)을 포함하여 수행된다.The keyword dictionary configuration and update process (S100) of the present invention is a process of creating and updating a user dictionary using news scrap information for generating and managing keywords for the user's news scrap by collecting and processing news scrap data scrapped by the user. It is performed including (S110).

본 실시예의 경우 생성된 사용자의 뉴스 스크랩을 위한 제1 키워드는 해당 사용자 정보와 연관되어 키워드 단어와 수집 날짜, 빈도에 따른 점수 등의 정보와 함께 사용자사전 키워드 데이터로 사용자사전데이터 DB(114)에 저장된다. In the present embodiment, the first keyword for the generated user's news scrap is related to the user information, and the user dictionary data DB 114 is used as user dictionary keyword data along with information such as the keyword word, the collection date, and the score according to the frequency. Is saved.

도 6을 참조하면, 본 실시예의 사용자 사전 생성 및 업데이트 과정(S110)은 연동되는 뉴스정보 스크랩 시스템(200)으로부터 사용자가 스크랩한 뉴스 스크랩 데이터를 수집하는 스크랩데이터 수집과정(S111), 상기 수집된 스크랩데이터를 가공하여 뉴스 스크랩을 위한 키워드를 생성하는 스크랩데이터 가공과정(S112), 상기 생성된 키워드를 사용자사전데이터 DB(114)에 저장하여 관리하는 제1 저장 및 관리과정(S113)을 포함하여 수행되며, 사용자 사전 모니터링 과정(S114)를 포함하여 수행될 수 있다. 6, the user dictionary creation and update process (S110) of this embodiment is a scrap data collection process (S111) of collecting news scrap data scraped by a user from the linked news information scrap system 200, and the collected Including a scrap data processing process (S112) of processing scrap data to generate keywords for news scrap, and a first storage and management process (S113) of storing and managing the generated keywords in the user dictionary data DB (114). It is performed, and may be performed including a user pre-monitoring process (S114).

스크랩데이터 수집과정(S111)은, 뉴스정보 스크랩 시스템(200)으로부터 사용자가 스크랩한 뉴스 스크랩 데이터를 수집하는 과정이다.The scrap data collection process (S111) is a process of collecting news scrap data scraped by a user from the news information scrap system 200.

뉴스정보 스크랩 시스템의 데이터 DB에는 뉴스정보 스크랩 시스템(200)에서 해당 사용자가 지면 뉴스 또는 온라인 뉴스를 선택하여 스크랩하여 저장한 뉴스 스크랩 데이터 및 스크랩한 날짜 정보가 사용자의 식별정보와 연관되어 저장되어 있을 수 있으며, 뉴스 스크랩 데이터는 지면 뉴스의 경우 사용자가 캡쳐한 이미지 또는 이를 문자 인식한 텍스트 데이터의 형태로 저장되며, 온라인 뉴스의 경우 사용자가 캡쳐한 이미지 또는 이를 문자 인식한 텍스트 데이터나 선택 카피한 텍스트 데이터의 형태로 저장되어 있다. In the data DB of the news information scrap system, the news scrap data and the scrap date information saved by the user selecting and scrapping the paper news or online news from the news information scrap system 200 are stored in association with the user's identification information. In the case of paper news, the news scrap data is stored in the form of an image captured by the user or text data that recognizes the text, and in the case of online news, the image captured by the user or text data that recognizes the text or a selective copy of the text It is stored in the form of data.

스크랩데이터 수집과정(S111)은 스크랩데이터 수집모듈(111)에 의하여 수집되거나, 요청에 의한 스크랩 데이터 송신 및 수신의 과정에 의하여 수신될 수 있으며, 사용자의 식별정보를 이용하여 뉴스정보 스크랩 시스템의 데이터 DB에 저장된 뉴스 스크랩 데이터 및 스크랩한 날짜 정보가 사용자별로 수집 또는 요청되어 수신될 수 있다. The scrap data collection process (S111) may be collected by the scrap data collection module 111, or may be received by the process of sending and receiving scrap data by request, and data of the news information scrap system using the user's identification information. News scrap data and scrap date information stored in the DB may be collected or requested for each user and received.

실시예에 따라, 특정 기간(수집 시작날짜 및 수집 종료날짜)을 지정하여 지정된 기간 내의 사용자의 뉴스 스크랩 데이터를 한정하여 수집 또는 요청하여 수신할 수 있다. 다수의 사용자가 있는 경우 멀티쓰레드 방식으로 동시에 각 사용자별로 병렬로 수집 또는 수신할 수 있으며, 회사인 사용자와 개인 또는 직원 등 일반 사용자를 구분하여, 회사인 사용자의 뉴스 스크랩 데이터를 한정하여 수집 또는 요청하여 수신할 수 있다. According to an embodiment, a specific period (collection start date and collection end date) may be specified to limit the user's news scrap data within a specified period to be collected or requested and received. If there are multiple users, it can be collected or received in parallel for each user at the same time in a multi-threaded method, and it is possible to collect or request by limiting news scrap data of company users by classifying general users such as company users and individuals or employees. You can receive it.

사용자가 관심이 있어 스크랩한 뉴스 스크랩 데이터를 입력데이터를 이용하여 사용자 키워드 사전을 구성 및 업데이트하여 이를 통해 사용자가 스크랩시 사용할 키워드를 제공함으로써 사용자의 관심이 높은 단어에 대한 키워드가 제공될 가능성이 높아지는 효과가 있다. By constructing and updating the user keyword dictionary using the input data of the news clipping data that the user is interested in, the possibility of providing keywords for words of high interest to the user is increased by providing keywords for the user to use when scraping. It works.

스크랩데이터 가공과정(S112)은, 상기 수집된 뉴스 스크랩 데이터를 가공하여 뉴스 스크랩을 위한 키워드를 생성하는 과정으로, 본 실시예의 경우 다음의 세부 가공과정을 거쳐 제1 키워드를 생성한다.The scrap data processing process (S112) is a process of generating keywords for news scrap by processing the collected news scrap data. In this embodiment, a first keyword is generated through the following detailed processing process.

① 스크랩데이터 수집모듈(111)에 의하여 수집되거나 수신된 뉴스 스크랩 데이터가 사용자가 캡쳐한 이미지인 경우 사전에 문자 인식(OCR)과정을 수행하여 텍스트 데이터 형태로 변환하는 과정 ① When the news scrap data collected or received by the scrap data collection module 111 is an image captured by a user, a process of converting into text data form by performing a character recognition (OCR) process in advance

② 배제어 제거 과정② Exclusion word removal process

사전 저장된 배제어를 호출하는 과정 및 뉴스 제목에서 배제어를 제거하는 배제어 제거 과정을 수행하여 뉴스 제목 중 존재하는 키워드로서 필요 없는 단어를 배제한다.The process of calling the pre-stored excluded word and the process of removing the excluded word from the news title are performed to exclude unnecessary words as existing keywords in the news title.

배제어를 호출하는 과정에서는, 데이터베이스에 뉴스 제목 중 배제되어야 할 단어로 사전 선별되어 저장된 배제어를 데이터베이스로부터 호출하여 배제어 리스트로 출력한다.In the process of calling the excluded words, the excluded words that have been pre-selected and stored as words to be excluded from the news titles in the database are called from the database and output as a list of excluded words.

배제어 출력 리스트 예) 카툰, 칼럼,케이블 위성, iptv 종합편성채널, 케이블 위성 하이라이트, 케이블 위성tv, 터치캐치 콕콕, 톡톡톡 생활외국어, 편성표, 포토 ...Excluded word output list Ex) Cartoon, column, cable satellite, iptv comprehensive programming channel, cable satellite highlight, cable satellite tv, touch catch cock, tap tok tap foreign language, schedule, photo ...

배제어 제거 과정에서는 배제어 리스트를 입력하여, 원본 뉴스 제목에서 배제어가 제거된 뉴스 제목을 출력한다.In the process of removing excluded words, a list of excluded words is input, and the news title with the excluded words removed from the original news title is output.

원본 뉴스 제목 예) [건강한 가족] 한국전쟁 종군 의료인 부모님의 숭고한 뜻 미군 주둔지서 잇는다Original news title example) [Healthy Family] The sublime meaning of parents of medical personnel in the Korean War military is connected by the US military base.

배제어가 제거된 뉴스 제목 예) 한국전쟁 종군 의료인 부모님의 숭고한 뜻 미군 주둔지서 잇는다News title with excluded words removed Example) The sublime meaning of the parents of medical workers in the Korean War, followed by the US military garrison

③ 명사 추출과정(명사 이외 단어 제거 과정)③ Noun extraction process (process of removing words other than nouns)

배제어가 제거된 뉴스 제목에서 명사를 제외한 단어를 제외하여 명사만을 추출하는 과정으로, 명사만을 오늘의 키워드로 사용하기 위해 수행된다.This is a process of extracting only nouns by excluding words excluding nouns from the news title from which the excluded words have been removed, and is performed to use only nouns as today's keywords.

제1 한국어 형태소 분석기(아리랑 분석기)를 이용하여 명사 이외의 단어를 제거하는 제1 분석과정과 제2 한국어 형태소 분석기(코모란 분석기)를 이용하여 제1 형태소 분석기에서 제외되지 않은 단어를 제거하는 제2 분석과정을 수행하여 명사만을 추출한다. 이는 제1 한국어 형태소 분석기(아리랑 분석기)에서 제외되지 않은 명사 이외의 단어를 제2 한국어 형태소 분석기(코모란 분석기)를 통하여 제외하여 한국어 형태소의 부족한 분석 능력을 보완하기 위함이다. A first analysis process for removing words other than nouns using the first Korean morpheme analyzer (Arirang analyzer) and a second method for removing words that are not excluded from the first morpheme analyzer using the second Korean morpheme analyzer (Comoran analyzer). 2 Perform an analysis process to extract only nouns. This is to supplement the insufficient analysis ability of Korean morphemes by excluding words other than nouns that are not excluded from the first Korean morpheme analyzer (Arirang analyzer) through the second Korean morpheme analyzer (Comoran analyzer).

체언 중 명사를 제외한 대명사, 동사 형용사 등 용언, 관형사 부사 등 수식언, 감탄사 등 독립언, 기타 관계언 및 기호 등이 분석되어 제거된다. Pronouns, verb adjectives and other pronouns, verb adjectives, modifiers, interjections, independent words, and other related words and symbols are analyzed and removed.

제1 한국어 형태소 분석기(아리랑 분석기)를 이용한 제1 분석과정은, 배제어가 제거된 뉴스 제목이 입력되어, 형태소 중 명사 단위의 형태소 리스트가 출력된다.In the first analysis process using the first Korean morpheme analyzer (Arirang Analyzer), the news title from which the excluded words are removed is input, and a list of morphemes in units of nouns among the morphemes is output.

입력 예) 한국전쟁 종군 의료인 부모님의 숭고한 뜻 미군 주둔지서 잇는다Example of input) The sublime meaning of the parents of the medical personnel of the Korean War soldiers is connected to the US military base.

출력 예) [한국전쟁, 종군, 의료인, 부모님, 숭고, 뜻, 미군, 주둔지] Example of output) [Korean War, military personnel, medical personnel, parents, sublime, will, US military, garrison]

제2 한국어 형태소 분석기(코모란 분석기)를 이용한 제2 분석과정은, 명사 단위의 형태소 리스트와, 제거하기 위한 품사 리스트 즉 체언 중 명사를 제외한 대명사, 동사 형용사 등 용언, 관형사 부사 등 수식언, 감탄사 등 독립언, 기타 관계언 및 기호의 리스트가 품사 태그의 형태로 입력되어 해당 품사 태그에 속하지 않는 명사 리스트가 출력된다.The second analysis process using the second Korean morpheme analyzer (comoran analyzer) includes a list of morphemes in units of nouns, a list of parts of speech to be removed, i.e. pronouns excluding nouns among body verbs, verbs such as adjectives, modifiers such as adverbs of tube detectives, interjections, etc. A list of independent words, other related words, and symbols are input in the form of a part of speech tag, and a list of nouns that do not belong to the corresponding part of speech tag is displayed.

입력 예) [한국전쟁, 종군, 의료인, 부모님, 숭고, 뜻, 미군, 주둔지] , ("MM","MAJ","IC","JKS","JKC","JKG","JKO","JKB","JKV","JKQ","JX","JC","NP","MAG","EP","EF","ETM","XPN","XSV","XSA","XR","SS","SF","SE","SO") Input example) [Korean War, military service, medical personnel, parents, sublime, meaning, US military, garrison], ("MM","MAJ","IC","JKS","JKC","JKG","JKO" ,"JKB","JKV","JKQ","JX","JC","NP","MAG","EP","EF","ETM","XPN","XSV"," XSA","XR","SS","SF","SE","SO")

참고로, 본 실시예의 경우 https://docs.komoran.kr/firststep/postypes.html의 21세기 세종계획에 따른 품사 태그가 사용되었다.For reference, in this embodiment, a POS tag according to the 21st century Sejong Plan of https://docs.komoran.kr/firststep/postypes.html was used.

출력 예) [한국전쟁, 종군, 의료인, 부모님, 뜻, 미군, 주둔지]Example of output) [Korean War, military personnel, medical personnel, parents, will, US military, garrison]

④ 명사 단어 리스트 및 단어 쌍 리스트 생성과정④ Noun word list and word pair list creation process

명사 단어 리스트 및 단어 쌍 리스트 생성과정은 뉴스 제목에 포함된 명사 리스트와 해당 명사와 같이 쓰이는 다른 명사들의 단어 쌍을 생성하는 과정으로, 형태소 분석기들을 통해 분해된 명사 리스트가 입력되어 단어 리스트, 단어쌍 리스트 (단어는 0, 단어쌍은 1로 구분)가 출력된다.The process of creating a noun word list and word pair list is a process of creating a noun list included in the news title and word pairs of other nouns used with the noun. A list (words separated by 0, word pairs separated by 1) is displayed.

입력 예) [한국전쟁, 종군, 의료인, 부모님, 뜻, 미군, 주둔지]Input example) [Korean War, military personnel, medical personnel, parents, will, US military, garrison]

출력 예) {1=[[한국전쟁 종군, 종군 의료인, 의료인 부모님, 부모님 미군, 미군 주둔지]], 0=[[한국전쟁, 종군, 의료인, 부모님, 미군, 주둔지]]}Example of output) {1=[[Korean War veterans, veterans medical personnel, medical personnel parents, parents US soldiers, US military garrison]], 0=[[Korean War, veterans, medical personnel, parents, US soldiers, garrison]]}

이를 통해 단어 쌍을 이용하여 키워드를 생성함으로써 단어만으로 파악할 수 없는 정보를 단어 쌍을 통하여 유추할 수 있는 키워드를 생성할 수 있게 된다.Through this, by generating a keyword using a pair of words, it is possible to generate a keyword capable of inferring information that cannot be grasped with only words through the pair of words.

최초 입력 예) [건강한 가족] 한국전쟁 종군 의료인 부모님의 숭고한 뜻 미군 주둔지서 잇는다 First input example) [Healthy family] The noble meaning of parents of medical personnel during the Korean War

최종 출력 예) {1=[[한국전쟁 종군, 종군 의료인, 의료인 부모님, 부모님 미군, 미군 주둔지]], 0=[[한국전쟁, 종군, 의료인, 부모님, 미군, 주둔지]]}Final output example) {1=[[Korean War veterans, veterans medical personnel, medical personnel parents, parents US soldiers, US military garrison]], 0=[[Korean War, veterans, medical personnel, parents, US soldiers, garrison]]}

⑤ 가공한 단어 및 단어 쌍 점수 계산과정⑤ Process of calculating processed word and word pair score

가공한 단어 및 단어 쌍 점수 계산과정에서는 리스트의 단어 또는 단어쌍에 빈도에 따른 점수를 계산하는 과정으로, 본 발명은 하기 수식 1과 같은 소위 TF-IDF 알고리즘을 이용해 단어 점수를 계산하여, 단어 또는 단어 쌍의 빈도에 따른 단어 점수나 이들의 합산을 통해 중요 키워드를 추출하도록 한다. In the process of calculating the processed word and word pair score, a score according to frequency is calculated for a word or word pair in a list. In the present invention, the word score is calculated using a so-called TF-IDF algorithm such as Equation 1 below, Key keywords are extracted through word scores according to the frequency of word pairs or their summation.

[수식 1][Equation 1]

빈도에 따른 단어 점수=[(해당 제목내 단어 출현 빈도) / (해당 제목 전체 단어 갯수) * log( 전체 제목 갯수 / (1+ 특정 단어의 전체 제목에서의 등장 빈도))]Word score according to frequency=[(the frequency of occurrence of words in the subject) / (the total number of words in the subject) * log(the total number of subjects / (1+ the frequency of appearance in the entire subject of a specific word))]

본 수식 1을 통해 빈도가 높지만 범용적인 단어 또는 단어 쌍의 점수가 낮아지고, 특정적인 단어 또는 단어 쌍의 점수가 높아지는 효과를 가지며, 반환 값으로 {날짜 : {0 : [단어:점수, 단어:점수...]} , {1: [단어쌍:점수,,,,]}}이 출력된다.This formula 1 is highly frequent, but has the effect of lowering the score of a general word or word pair, and increasing the score of a specific word or word pair. As a return value, {date: {0: [word:score, word: Score...]}, {1: [word pair: score,,,,]}} is displayed.

가공한 단어 및 단어 쌍 점수 계산과정은 가공한 뉴스(날짜별 단어리스트, 단어 쌍 리스트)가 입력되어, 단어 점수 리스트 (점수 내림차순된 단어 또는 단어 쌍의 단어 점수 리스트)가 출력된다.In the process of calculating the processed word and word pair scores, processed news (word list by date, word pair list) is input, and a word score list (a word score list of words or word pairs in descending order of scores) is output.

입력 예) {2020-06-22={1=[[안양시의회 총무경제위, 총무경제위 행정복지센터, 행정복지센터 신축, 신축 점검], [임실군의회 정례회, 정례회 3차, 3차 본회의, 본회의 폐회], [경남 캠핑], ...]}}Example of input) {2020-06-22={1=[[Anyang City Council General Affairs and Economy Committee, General Affairs and Economy Committee Administrative Welfare Center, Administrative Welfare Center new construction, new construction inspection], [Imsil County Assembly regular meeting, regular meeting 3rd, 3rd plenary session, closing of the plenary session ], [Gyeongnam Camping], ...]}}

출력 예) 단어 점수의 경우 : [개최=44.873993339525335, 지원=44.873993339525335, 추진=44.873993339525335,...]Example of output) In the case of word score: [Holding=44.873993339525335, Application=44.873993339525335, Promotion=44.873993339525335,...]

단어쌍 점수의 경우 : [한국여자오픈 우승=18.780043559951523, 내셔널 타이틀=18.780043559951523, 회장 취임=14.754463323906272, ...]In the case of word pair score: [Winner of the Korean Women's Open = 18.780043559951523, National Title = 18.780043559951523, Inauguration of President = 14.754463323906272, ...]

제1 저장 및 관리과정(S113)은, 저장 대상 제1 키워드인 단어 또는 단어 쌍을 제1 키워드로서 사용자 사전 데이터 DB에 저장하여 관리하는 과정으로, 본 실시예의 경우 다음의 세부 과정을 거쳐 제1 키워드로서 저장하여 관리한다.The first storage and management process (S113) is a process of storing and managing a word or word pair as a first keyword to be stored in the user dictionary data DB as a first keyword. Store and manage as keywords.

① 선정된 저장 대상 제1 키워드인 단어 또는 단어 쌍에 대하여 사용자 사전 데이터 DB에 존재하는 지를 조회하는 과정 ① The process of inquiring whether a word or word pair, which is the selected first keyword to be stored, exists in the user dictionary data DB

② 존재하는 단어 또는 단어 쌍의 경우, 저장 대상 제1 키워드인 단어 또는 단어 쌍의 점수를 날짜별 단어 또는 단어 쌍의 점수로 사용자 사전 데이터 DB에 저장하고, 기존 존재하는 제1 키워드인 단어 또는 단어의 누적 점수를 조회하여, 저장 대상 제1 키워드인 단어 또는 단어 쌍의 점수를 기존 존재하는 제1 키워드인 단어 또는 단어 쌍의 누적 점수에 합산하여 사용자 사전 데이터 DB에 저장하는 과정② In the case of an existing word or word pair, the score of the word or word pair that is the first keyword to be stored is stored in the user dictionary data DB as the score of the word or word pair by date, and the word or word that is the existing first keyword The process of inquiring the cumulative score of, adding the score of the word or word pair, which is the first keyword to be stored, to the cumulative score of the word or word pair, which is the existing first keyword, and storing it in the user dictionary data DB

③ 존재하는 단어 또는 단어 쌍이 아닌 경우, 날짜별 제1 키워드인 단어 또는 단어 쌍의 점수를 사용자 사전 데이터 DB에 저장하고, 저장 대상 제1 키워드인 단어 또는 단어의 누적 점수를 생성하여, 저장 대상 제1 키워드인 단어 또는 단어 쌍의 점수를 생성된 제1 키워드인 단어 또는 단어 쌍의 누적 점수로 사용자 사전 데이터 DB에 저장하는 과정③ If the word or word pair does not exist, the score of the word or word pair, which is the first keyword by date, is stored in the user dictionary data DB, and the cumulative score of the word or word, which is the first keyword to be stored, is generated, 1 The process of storing the score of the keyword word or word pair in the user dictionary data DB as the cumulative score of the generated first keyword word or word pair

사용자 사전 데이터 DB는 저장 작업이 종료될 때마다 저장 날짜 및 저장 유무의 로그 기록을 사용자 사전 데이터 DB의 로그 파일로서 저장되며, 본 발명의 사용자 사전 모니터링 모듈(115)는 사용자 사전 데이터 DB의 마지막 저장 작업이 종료 될 때 저장 날짜 및 저장 유무의 로그 기록을 모니터링 모듈의 로그 파일에 기록할 수 있다. The user dictionary data DB stores the storage date and log records of whether or not the storage operation is terminated as a log file of the user dictionary data DB, and the user dictionary monitoring module 115 of the present invention stores the last user dictionary data DB. When the work is finished, the storage date and the log record of whether or not to be saved can be recorded in the log file of the monitoring module.

사용자 사전 모니터링 과정(S114)은, 사용자 사전 데이터 DB의 로그 파일의 마지막 로그 기록과 모니터링 모듈의 로그 파일의 로그 기록을 비교하여 이상을 발견하는 과정으로 이상의 발견시 이상 발견 메시지를 개발자 등에게 통보하는 과정을 수행한다.The user pre-monitoring process (S114) is a process of finding an abnormality by comparing the last log record of the log file of the user dictionary data DB with the log record of the log file of the monitoring module. Carry out the process.

도 7을 참조하면, 본 실시예의 키워드 사전 구성 및 업데이트 과정(S100)은실시예에 따라서는, 뉴스 매체로부터 뉴스데이터를 수집하고 이를 가공하여 뉴스 스크랩을 위한 키워드를 생성하고 관리하는 범용 사전 생성 및 업데이트 과정(S120)을 포함하여 수행될 수 있으며, 본 실시예의 경우 생성된 사용자의 뉴스 스크랩을 위한 제2 키워드는 키워드 단어와 수집 날짜, 빈도에 따른 점수 등의 정보와 함께 범용사전 키워드 데이터로 범용사전데이터 DB(124)에 저장된다.Referring to FIG. 7, the keyword dictionary configuration and update process (S100) of this embodiment is a general-purpose dictionary generation and management for generating and managing keywords for news scrap by collecting news data from a news medium and processing it according to an embodiment. It may be performed including the update process (S120), and in this embodiment, the second keyword for the generated user's news scrap is general-purpose dictionary keyword data along with information such as a keyword word, a collection date, and a score according to frequency. It is stored in the dictionary data DB (124).

본 실시예의 범용 사전 생성 및 업데이트 과정(S120)은, 도 7을 참조하면, 뉴스 데이터 수집 과정(S121), 뉴스 데이터 가공 과정(S122), 제2 키워드 저장 및 관리 과정(S123)을 포함하여 수행될 수 있으며, 범용사전 모니터링 과정(S124)을 포함할 수 있다. The general-purpose dictionary generation and update process (S120) of this embodiment is performed, including a news data collection process (S121), a news data processing process (S122), and a second keyword storage and management process (S123), referring to FIG. It may be, and may include a general-purpose pre-monitoring process (S124).

뉴스 데이터 수집 과정(S121)은, 범용사전용 데이터로 뉴스 데이터를 수집하는 과정으로, 뉴스데이터 수집모듈(131)에 의하여 수행된다. The news data collection process (S121) is a process of collecting news data as general-purpose data, and is performed by the news data collection module 131.

수집되는 뉴스 데이터는 지면 뉴스 데이터와 온라인 뉴스 데이터를 포함한다. 지면 뉴스 데이터는 언론사로부터 제공받은 뉴스 지면 이미지를 문자 인식하여 텍스트 데이터로 변환한 형태로, 별도 지면 뉴스 데이터 DB(미도시)에 등록된 날짜, 지면 정보, 제목 텍스트를 포함하는 데이터 (구성 예 : "2020-07-10 13:50:00" , A01면, "아이들이 행복한 향수뜰 행복돌봄, 마을 주민들이 함께 해요")로 저장되어 관리되며, 뉴스 데이터 수집 과정(S121)에서 지면 뉴스 데이터 DB(미도시)로부터 등록된 날짜, 지면 정보, 제목 텍스트를 포함하는 지면 뉴스 데이터를 수집한다. The collected news data includes paper news data and online news data. Paper news data is a form of text data by recognizing a news page image provided by a media company, and data including the date, page information, and title text registered in a separate paper news data DB (not shown) (Example of composition: "2020-07-10 13:50:00", page A01, "nostalgic garden where children are happy, happy caring for the villagers") is stored and managed, and the news data DB is printed in the news data collection process (S121). Paper news data including the registered date, page information, and title text is collected from (not shown).

온라인 뉴스 데이터는 언론사로부터 제공받은 뉴스 데이터와 온라인 뉴스 매체로부터 수집되는 뉴스 데이터이다. 온라인 매체로부터의 뉴스 데이터 수집을 위하여 뉴스데이터 수집모듈(131)은 소프트웨어 형태의 온라인 수집기(미도시)를 포함할 수 있다. 별도 온라인 뉴스 데이터 DB(미도시)에 등록된 날짜, 지면 정보, 제목 텍스트를 포함하는 데이터로 저장되어 관리되며, 수집되는 온라인 뉴스 데이터는 별도 온라인 검색엔진(미도시)에 실시간으로 등록되어 검색가능한 상태로 관리되고 온라인 뉴스 데이터 DB(미도시)로부터 등록된 날짜, 제목 텍스트를 포함하는 온라인 뉴스 데이터를 수집되고, 검색엔진(미도시)을 통해 수집된 날짜, 시간 기준으로 검색엔진을 통해 수집 또는 요청하여 수집된 데이터를 수신한다. Online news data is news data provided by media companies and news data collected from online news media. In order to collect news data from an online medium, the news data collection module 131 may include an online collector (not shown) in the form of software. It is stored and managed as data including the date, page information, and title text registered in a separate online news data DB (not shown), and the collected online news data is registered in real time in a separate online search engine (not shown) and can be searched. Online news data that is managed as a state and includes the registered date and title text from the online news data DB (not shown), and collected through a search engine based on the date and time collected through a search engine (not shown), or Receive the collected data on request.

실시예에 따라, 수집 기간(수집 시작날짜 및 수집 종료날짜)을 지정하여 지정된 수집 기간 내의 뉴스 데이터를 수집 또는 요청하여 수신할 수 있으며, 수집 기간의 지정이 없는 경우 수집 시작날짜와 수집 종료날짜는 실행시간 기준으로 사전 설정된 시간 전의 시간 구간(예컨대, 10분의 단위 간격)으로 수집 시작날짜 및 수집 종료날짜가 설정(예컨대, 수집 시작날짜는 실행시간 기준 20분전 00초, 수집 종료 날짜는 실행시간 기준 10분전 59초)으로 설정하여, 최근의 뉴스 데이터를 수집하여 실시간 뉴스 데이터의 업데이트에 유사하도록 수행될 수 있다. Depending on the embodiment, the collection period (collection start date and collection end date) may be specified to collect or request and receive news data within the specified collection period. If no collection period is specified, the collection start date and collection end date are The collection start date and the collection end date are set in a time interval before the preset time based on the execution time (e.g., 10 minute intervals) (e.g., the collection start date is 00 seconds before the execution time, and the collection end date is the execution time. It is set to 59 seconds before 10 minutes), and the latest news data may be collected and performed so as to be similar to the real-time news data update.

위와 같이 실시간 또는 실시간과 유사하게 최근의 지면 뉴스 및 온라인 뉴스 데이터가 수집되는 구성을 통해, 종래의 워드클라우드가 특정 문서군을 이용해 단어 점수를 나타내고 결과를 보여주는 기능에 한정됨에 반하여, 본 발명은 키워드의 대상 단어의 빈도수에 따른 점수의 지속적인 업데이트를 위해 실시간으로 수집되는 지면 뉴스와 온라인 뉴스를 활용하므로, 본 발명의 경우 실시간으로 수집되는 뉴스를 통해 키워드의 대상인 단어의 빈도수에 따른 점수를 지속적으로 업데이트하는 것이 가능하고, 단어의 빈도수에 따른 점수가 지속적으로 업데이트 되기 때문에 시간이 흐름에 따라 급격히 변하는 당일의 화제 정도가 단어의 점수의 변화로 충실히 나타낼 수 있게 된다. As described above, through a configuration in which recent paper news and online news data are collected in real-time or similar to real-time, the conventional word cloud is limited to the function of displaying word scores and results using a specific document group, whereas the present invention is a keyword Since paper news and online news collected in real time are used to continuously update the score according to the frequency of the target word, in the case of the present invention, the score according to the frequency of the target word of the keyword is continuously updated through the news collected in real time. It is possible to do so, and since the score according to the frequency of the word is continuously updated, the degree of the topic of the day, which changes rapidly over time, can be faithfully represented by the change in the score of the word.

뉴스 데이터 수집 과정(S121)은 본 실시예의 경우 다음의 세부 과정을 거쳐 뉴스 데이터를 수집한다.In the news data collection process (S121), in the case of the present embodiment, news data is collected through the following detailed process.

① 수집 기간 지정과정 ① Collection period designation process

수집 기간(수집 시작날짜 및 수집 종료날짜)을 지정하는 경우에는 수집 시작날짜 및 수집 종료날짜를 날짜, 시간, 분을 입력으로 받을 수 있다. 구분은 기호 #으로 구분한다.In the case of designating the collection period (collection start date and collection end date), the date, hour, and minute can be received as inputs for the collection start date and collection end date. Separation is separated by the symbol #.

예) 2020-06-30#7#40 2020-06-30#7#50 => 2020년 6월 30일 7시 40분부터 2020년 6월 30일 7시 50분 전까지의 기간 (2020-06-30 07:40:00~ 2020-06-30 07:49:59)Example) 2020-06-30#7#40 2020-06-30#7#50 => From 7:40 on June 30, 2020 to 7:50 on June 30, 2020 (2020-06 -30 07:40:00~ 2020-06-30 07:49:59)

수집 기간(수집 시작날짜 및 수집 종료날짜)을 지정하지 않을 경우에는 수집 시작날짜 및 수집 종료날짜를 오늘 날짜의 현재 시간에서 20분전 시간대의 10분 단위 간격을 입력할 수 있다.If the collection period (collection start date and collection end date) is not specified, the collection start date and collection end date can be entered in 10-minute intervals in the time zone 20 minutes before the current time of today's date.

예) 현재 시각 2020-06-30 08:00:00일 때 => 2020-06-30 07:40:00~ 2020-06-30 07:49:59 까지의 기간을 입력으로 간주한다.Example) When the current time is 2020-06-30 08:00:00 => 2020-06-30 07:40:00 ~ 2020-06-30 07:49:59 The period from 2020-06-30 07:49:59 is regarded as input.

② 뉴스 데이터의 수집과정② Collection process of news data

지면 뉴스 데이터의 수집은, 사전 저장된 지면 매체 리스트를 호출하여 지면 매체의 선택을 입력받아 선택된 매체 리스트를 출력하는 과정과 선택된 매체의 리스트와 설정된 수집 기간의 지면 뉴스 데이터를 수집하는 과정을 통해 수행된다.The collection of paper news data is performed through a process of calling a pre-stored paper media list, receiving a selection of paper media, and outputting a selected media list, and collecting the selected media list and paper news data for a set collection period. .

선택된 매체 리스트를 출력하는 과정을 수행함으로써 선택된 매체 리스트가 출력되며, 이를 통해 원하는 주요 일간지, 주요 지방지 등의 선별된 매체의 오늘의 지면 뉴스 데이터를 수집할 수 있다. By performing the process of outputting the selected media list, the selected media list is output. Through this, it is possible to collect the news data of the selected media such as major daily newspapers and major local newspapers.

지면 뉴스 데이터를 수집하는 과정에는 선택된 매체 리스트와 설정된 수집 기간이 입력되어, 선택된 매체 리스트의 지면 매체의 설정된 수집 기간 내의 지면 뉴스 데이터가 제목, 날짜, 해당 뉴스가 포함된 지면 정보를 포함하여 출력되어 수집된다. 해당 뉴스가 포함된 지면 정보를 포함함으로써, 1면 뉴스에 대한 뉴스 데이터를 별도 구분하여 관리 또는 사용할 수 있게 된다.In the process of collecting paper news data, the selected media list and the set collection period are input, and the paper news data within the set collection period of the paper media of the selected media list is output including the title, date, and page information including the news. Is collected. By including the page information including the corresponding news, news data for the news on the first page can be separately managed or used.

지면 뉴스 데이터 예) : [[안양시의회 총무경제위 행정복지센터 신축 점검, 2020-06-30, 002면], [임실군의회 정례회 제3차 본회의 폐회, 2020-06-30, 009면], [경남에서 캠핑하세요, 2020-06-30, 001면], ...]News data example): [[Anyang City Council General Affairs and Economy Committee Administrative Welfare Center Construction Inspection, 2020-06-30, p.002], [Imsil County Assembly regular meeting 3rd plenary session closing, 2020-06-30, p. 009], [Gyeongnam Camping in, 2020-06-30, p. 001], ...]

온라인 뉴스 데이터의 수집은, 온라인 뉴스 데이터를 수집하기 위한 쿼리를 구성하는 과정 및 구성된 쿼리를 온라인 뉴스 검색엔진에 입력하는 과정을 통해 수행될 수 있다. The collection of online news data may be performed through a process of constructing a query for collecting online news data and a process of inputting the constructed query into an online news search engine.

쿼리를 구성하는 과정은 입력 미디어 리스트, 날짜 (앞서 설정한 날짜 값), 최대 뉴스 반환 갯수가 입력되며, 온라인 뉴스 검색엔진 서버에 요청할 쿼리가 출력된다. 최대 뉴스 반환 개수를 설정함으로써 하루 수집되는 상당한 건의 온라인 뉴스(평균 13만건)로 범용사전을 구성할 때 오늘의 뉴스 중 누락되는 것이 없도록 하기 위함이다.In the process of constructing a query, the input media list, date (the previously set date value), and the maximum number of news returns are entered, and the query requested to the online news search engine server is output. By setting the maximum number of news returns, it is to ensure that none of today's news is omitted when a general-purpose dictionary is constructed with a large number of online news collected a day (average 130,000).

미디어 리스트 입력 예) Media list input example)

media_number = "1_2_94_3_667_4_5_6_1599_7_8_10_9_408_ ..." (underbar _ 로 미디어 넘버를 구분)media_number = "1_2_94_3_667_4_5_6_1599_7_8_10_9_408_ ..." (media numbers are separated by underbar _)

날짜 입력 예) 날짜: (2020-06-30 07:40:00~ 2020-06-30 07:49:59)Date input example) Date: (2020-06-30 07:40:00~ 2020-06-30 07:49:59)

최대 뉴스 반환 갯수 예) 갯수: 50000개Maximum number of news returns ex) Number: 50000

쿼리를 온라인 뉴스 검색엔진에 입력하는 과정은 상기 구성된 쿼리가 입력되어 온라인 뉴스 데이터가 제목, 날짜를 포함하여 출력된다.In the process of inputting the query to the online news search engine, the configured query is input and the online news data including the title and date are output.

온라인 뉴스 데이터 예) [ [[건강한 가족] 한국전쟁 종군 의료인 부모님의 숭고한 뜻 미군 주둔지서 잇는다, 2020-06-22], [면세점 명품 200억어치 최대 60% 싸게 득템할 기회, 2020-06-22], ...]Example of online news data) [[[Healthy Family] The noble meaning of parents of medical workers in the Korean War War soldiers connected with the US military base, 2020-06-22], [Opportunity to get 20 billion worth of duty-free luxury goods at a discount of up to 60%, 2020-06-22 ], ...]

뉴스 데이터 가공 과정(S122)은, 상기 수집된 뉴스 데이터를 가공하여 뉴스 스크랩을 위한 키워드를 생성하는 과정으로, 본 실시예의 경우 다음의 세부 가공과정을 거쳐 단어 또는 단어 쌍을 제2 키워드로 생성한다.The news data processing process (S122) is a process of generating a keyword for news scrap by processing the collected news data. In the present embodiment, a word or word pair is generated as a second keyword through the following detailed processing process. .

① 배제어 제거 과정① The process of removing negative words

사전 저장된 배제어를 호출하는 과정 및 뉴스 제목에서 배제어를 제거하는 배제어 제거 과정을 수행하여 뉴스 제목중 존재하는 키워드로서 필요 없는 단어를 배제한다.The process of calling the pre-stored excluded word and the process of removing the excluded word from the news title are performed to exclude unnecessary words as existing keywords in the news title.

배제어를 호출하는 과정에서는, 데이터베이스에 뉴스 제목 중 배제되어야 할 단어로 사전 선별되어 저장된 배제어를 데이터베이스로부터 호출하여 배제어 리스트로 출력한다.In the process of calling the excluded words, the excluded words that have been pre-selected and stored as words to be excluded from the news titles in the database are called from the database and output as a list of excluded words.

배제어 출력 리스트 예) 카툰, 칼럼, 케이블 위성, iptv 종합편성채널, 케이블 위성 하이라이트, 케이블 위성tv, 터치캐치 콕콕, 톡톡톡 생활외국어, 편성표, 포토 ...Excluded word output list ex) Cartoon, column, cable satellite, iptv comprehensive programming channel, cable satellite highlight, cable satellite tv, touch catch cock, tap tok tap foreign language, schedule, photo ...

배제어 제거 과정에서는 배제어 리스트를 입력하여, 원본 뉴스 제목에서 배제어가 제거된 뉴스 제목을 출력한다.In the process of removing excluded words, a list of excluded words is input, and the news title with the excluded words removed from the original news title is output.

원본 뉴스 제목 예) [건강한 가족] 한국전쟁 종군 의료인 부모님의 숭고한 뜻 미군 주둔지서 잇는다Original news title example) [Healthy Family] The sublime meaning of parents of medical personnel in the Korean War military is connected by the US military base.

배제어가 제거된 뉴스 제목 예) 한국전쟁 종군 의료인 부모님의 숭고한 뜻 미군 주둔지서 잇는다News title with excluded words removed Example) The sublime meaning of the parents of medical workers in the Korean War, followed by the US military garrison

② 명사 추출과정(명사 이외 단어 제거 과정)② Noun extraction process (process of removing words other than nouns)

배제어가 제거된 뉴스 제목에서 명사를 제외한 단어를 제외하여 명사만을 추출하는 과정으로, 명사만을 오늘의 키워드로 사용하기 위해 수행된다.This is a process of extracting only nouns by excluding words excluding nouns from the news title from which the excluded words have been removed, and is performed to use only nouns as today's keywords.

제1 한국어 형태소 분석기(아리랑 분석기)를 이용하여 명사 이외의 단어를 제거하는 제1 분석과정과 제2 한국어 형태소 분석기(코모란 분석기)를 이용하여 제1 형태소 분석기에서 제외되지 않은 단어를 제거하는 제2 분석과정을 수행하여 명사만을 추출한다. 이는 제1 한국어 형태소 분석기(아리랑 분석기)에서 제외되지 않은 명사 이외의 단어를 제2 한국어 형태소 분석기(코모란 분석기)를 통하여 제외하여 한국어 형태소의 부족한 분석 능력을 보완하기 위함이다. A first analysis process for removing words other than nouns using the first Korean morpheme analyzer (Arirang analyzer) and a second method for removing words that are not excluded from the first morpheme analyzer using the second Korean morpheme analyzer (Comoran analyzer). 2 Perform an analysis process to extract only nouns. This is to supplement the insufficient analysis ability of Korean morphemes by excluding words other than nouns that are not excluded from the first Korean morpheme analyzer (Arirang analyzer) through the second Korean morpheme analyzer (Comoran analyzer).

체언 중 명사를 제외한 대명사, 동사 형용사 등 용언, 관형사 부사 등 수식언,감탄사 등 독립언, 기타 관계언 및 기호 등이 분석되어 제거된다. Pronouns, verb adjectives and other pronouns and verb adjectives, modifiers such as adverbs of ceremonial adverbs, independent words such as exclamation, and other related words and symbols are analyzed and removed.

제1 한국어 형태소 분석기(아리랑 분석기)를 이용한 제1 분석과정은, 배제어가 제거된 뉴스 제목이 입력되어, 형태소 중 명사 단위의 형태소 리스트가 출력된다.In the first analysis process using the first Korean morpheme analyzer (Arirang Analyzer), the news title from which the excluded words are removed is input, and a list of morphemes in units of nouns among the morphemes is output.

입력 예) 한국전쟁 종군 의료인 부모님의 숭고한 뜻 미군 주둔지서 잇는다Example of input) The sublime meaning of the parents of the medical personnel of the Korean War soldiers is connected to the US military base.

출력 예) [한국전쟁, 종군, 의료인, 부모님, 숭고, 뜻, 미군, 주둔지]Example of output) [Korean War, military personnel, medical personnel, parents, sublime, will, US military, garrison]

제2 한국어 형태소 분석기(코모란 분석기)를 이용한 제2 분석과정은, 명사 단위의 형태소 리스트와, 제거하기 위한 품사 리스트 즉 체언 중 명사를 제외한 대명사, 동사 형용사 등 용언, 관형사 부사 등 수식언, 감탄사 등 독립언, 기타 관계언 및 기호의 리스트가 품사 태그의 형태로 입력되어 해당 품사 태그에 속하지 않는 명사 리스트가 출력된다.The second analysis process using the second Korean morpheme analyzer (comoran analyzer) includes a list of morphemes in units of nouns, a list of parts of speech to be removed, i.e. pronouns excluding nouns among body verbs, verbs such as adjectives, modifiers such as adverbs of tube detectives, interjections, etc. A list of independent words, other related words, and symbols are input in the form of a part of speech tag, and a list of nouns that do not belong to the corresponding part of speech tag is displayed.

입력 예) [한국전쟁, 종군, 의료인, 부모님, 숭고, 뜻, 미군, 주둔지] , ("MM","MAJ","IC","JKS","JKC","JKG","JKO","JKB","JKV","JKQ","JX","JC","NP","MAG","EP","EF","ETM","XPN","XSV","XSA","XR","SS","SF","SE","SO") Input example) [Korean War, military service, medical personnel, parents, sublime, meaning, US military, garrison], ("MM","MAJ","IC","JKS","JKC","JKG","JKO" ,"JKB","JKV","JKQ","JX","JC","NP","MAG","EP","EF","ETM","XPN","XSV"," XSA","XR","SS","SF","SE","SO")

참고로, 본 실시예의 경우 https://docs.komoran.kr/firststep/postypes.html의 21세기 세종계획에 따른 품사 태그가 사용되었다.For reference, in this embodiment, a POS tag according to the 21st century Sejong Plan of https://docs.komoran.kr/firststep/postypes.html was used.

출력 예) [한국전쟁, 종군, 의료인, 부모님, 뜻, 미군, 주둔지]Example of output) [Korean War, military personnel, medical personnel, parents, will, US military, garrison]

③ 명사 단어 리스트 및 단어 쌍 리스트 생성과정③ Noun word list and word pair list creation process

명사 단어 리스트 및 단어 쌍 리스트 생성과정은 뉴스 제목에 포함된 명사 리스트와 해당 명사와 같이 쓰이는 다른 명사들의 단어 쌍을 생성하는 과정으로, 형태소 분석기들을 통해 분해된 명사 리스트가 입력되어 단어 리스트, 단어쌍 리스트 (단어는 0, 단어쌍은 1로 구분)가 출력된다.The process of creating a noun word list and word pair list is a process of creating a noun list included in the news title and word pairs of other nouns used with the noun. A list (words separated by 0, word pairs separated by 1) is displayed.

입력 예) [한국전쟁, 종군, 의료인, 부모님, 뜻, 미군, 주둔지]Input example) [Korean War, military personnel, medical personnel, parents, will, US military, garrison]

출력 예) {1=[[한국전쟁 종군, 종군 의료인, 의료인 부모님, 부모님 미군, 미군 주둔지]], 0=[[한국전쟁, 종군, 의료인, 부모님, 미군, 주둔지]]}Example of output) {1=[[Korean War veterans, veterans medical personnel, medical personnel parents, parents US soldiers, US military garrison]], 0=[[Korean War, veterans, medical personnel, parents, US soldiers, garrison]]}

이를 통해 단어 쌍을 이용하여 키워드를 생성함으로써 단어만으로 파악할 수 없는 정보를 단어 쌍을 통하여 유추할 수 있는 키워드를 생성할 수 있게 된다.Through this, by generating a keyword using a pair of words, it is possible to generate a keyword capable of inferring information that cannot be grasped with only words through the pair of words.

최초 입력 예) [건강한 가족] 한국전쟁 종군 의료인 부모님의 숭고한 뜻 미군 주둔지서 잇는다 First input example) [Healthy family] The noble meaning of parents of medical personnel during the Korean War

최종 출력 예) {1=[[한국전쟁 종군, 종군 의료인, 의료인 부모님, 부모님 미군, 미군 주둔지]], 0=[[한국전쟁, 종군, 의료인, 부모님, 미군, 주둔지]]}Final output example) {1=[[Korean War veterans, veterans medical personnel, medical personnel parents, parents US soldiers, US military garrison]], 0=[[Korean War, veterans, medical personnel, parents, US soldiers, garrison]]}

④ 가공한 단어 및 단어 쌍 점수 계산과정④ Process of calculating processed word and word pair score

가공한 단어 및 단어 쌍 점수 계산과정에서는 리스트의 단어 또는 단어쌍에 빈도에 따른 점수를 계산하는 과정으로, 본 발명은 하기 수식 1과 같은 소위 TF-IDF 알고리즘을 이용해 단어 점수를 계산하여, 단어 또는 단어 쌍의 빈도에 따른 단어 점수나 이들의 합산을 통해 중요 키워드를 추출하도록 한다. In the process of calculating the processed word and word pair score, a score according to frequency is calculated for a word or word pair in a list. In the present invention, the word score is calculated using a so-called TF-IDF algorithm such as Equation 1 below, Key keywords are extracted through word scores according to the frequency of word pairs or their summation.

[수식 1][Equation 1]

빈도에 따른 단어 점수=[(해당 제목내 단어 출현 빈도) / (해당 제목 전체 단어 갯수) * log( 전체 제목 갯수 / (1+ 특정 단어의 전체 제목에서의 등장 빈도))]Word score according to frequency=[(the frequency of occurrence of words in the subject) / (the total number of words in the subject) * log(the total number of subjects / (1+ the frequency of appearance in the entire subject of a specific word))]

본 수식 1을 통해 빈도가 높지만 범용적인 단어 또는 단어 쌍의 점수가 낮아지고, 특정적인 단어 또는 단어 쌍의 점수가 높아지는 효과를 가지며, 본 수식 1은 반환 값으로 {날짜 : {0 : [단어:점수, 단어:점수...]} , {1: [단어쌍:점수,,,,]}}의 출력된다.Although this formula 1 is highly frequent, it has the effect of lowering the score of a general word or word pair, and increasing the score of a specific word or word pair. This formula 1 is a return value of {date: {0: [word: Score, word: score...]}, {1: [word pair: score,,,,]}} will be displayed.

가공한 단어 및 단어 쌍 점수 계산과정은 가공한 뉴스(날짜별 단어리스트, 단어 쌍 리스트)가 입력되어, 단어 점수 리스트 (점수 내림차순된 단어 또는 단어 쌍의 단어 점수 리스트)가 출력된다.In the process of calculating the processed word and word pair scores, processed news (word list by date, word pair list) is input, and a word score list (a word score list of words or word pairs in descending order of scores) is output.

입력 예) {2020-06-22={1=[[안양시의회 총무경제위, 총무경제위 행정복지센터, 행정복지센터 신축, 신축 점검], [임실군의회 정례회, 정례회 3차, 3차 본회의, 본회의 폐회], [경남 캠핑], ...]}}Example of input) {2020-06-22={1=[[Anyang City Council General Affairs and Economy Committee, General Affairs and Economy Committee Administrative Welfare Center, Administrative Welfare Center new construction, new construction inspection], [Imsil County Assembly regular meeting, regular meeting 3rd, 3rd plenary session, closing of the plenary session ], [Gyeongnam Camping], ...]}}

출력 예) 단어 점수의 경우 : [개최=44.873993339525335, 지원=44.873993339525335, 추진=44.873993339525335,...]Example of output) In the case of word score: [Holding=44.873993339525335, Application=44.873993339525335, Promotion=44.873993339525335,...]

단어쌍 점수의 경우 : [한국여자오픈 우승=18.780043559951523, 내셔널 타이틀=18.780043559951523, 회장 취임=14.754463323906272, ...]In the case of word pair score: [Winner of the Korean Women's Open = 18.780043559951523, National Title = 18.780043559951523, Inauguration of President = 14.754463323906272, ...]

제2 저장 및 관리과정(S123)은, 저장 대상 제2 키워드인 단어 또는 단어 쌍을 제2 키워드로서 범용 사전 데이터 DB에 저장하여 관리하는 과정으로, 본 실시예의 경우 다음의 세부 과정을 거쳐 제2 키워드로서 저장하여 관리한다.The second storage and management process (S123) is a process of storing and managing a word or word pair as a second keyword to be stored in a universal dictionary data DB as a second keyword. Store and manage as keywords.

① 선정된 저장 대상 제2 키워드인 단어 또는 단어 쌍에 대하여 범용 사전 데이터 DB에 존재하는 지를 조회하는 과정 ① Process of inquiring whether a word or word pair, which is the second keyword to be stored, is present in the general-purpose dictionary data DB.

② 존재하는 단어 또는 단어 쌍의 경우, 저장 대상 제2 키워드인 단어 또는 단어 쌍의 점수를 날짜별 단어 또는 단어 쌍의 점수로 범용 사전 데이터 DB에 저장하고 기존 존재하는 제2 키워드인 단어 또는 단어의 누적 점수를 조회하여, 저장 대상 제2 키워드인 단어 또는 단어 쌍의 점수를 기존 존재하는 제2 키워드인 단어 또는 단어 쌍의 누적 점수에 합산하여 범용 사전 데이터 DB에 저장하는 과정② In the case of an existing word or word pair, the score of the word or word pair, which is the second keyword to be saved, is stored in the universal dictionary data DB as the score of the word or word pair by date, and The process of inquiring the cumulative score, summing the score of the word or word pair, which is the second keyword to be stored, to the cumulative score of the word or word pair, which is the existing second keyword, and storing it in the general-purpose dictionary data DB.

③ 존재하는 단어 또는 단어 쌍이 아닌 경우, 날짜별 제2 키워드인 단어 또는 단어 쌍의 점수를 범용 사전 데이터 DB에 저장하고, 저장 대상 제2 키워드인 단어 또는 단어의 누적 점수를 생성하여, 저장 대상 제1 키워드인 단어 또는 단어 쌍의 점수를 생성된 제2 키워드인 단어 또는 단어 쌍의 누적 점수로 범용 사전 데이터 DB에 저장하는 과정③ If the word or word pair does not exist, the score of the word or word pair, which is the second keyword by date, is stored in the universal dictionary data DB, and the cumulative score of the word or word, which is the second keyword to be stored, is generated, 1 The process of storing the score of the word or word pair as a keyword in the general-purpose dictionary data DB as the cumulative score of the generated second keyword word or word pair

범용 사전 데이터 DB는 저장 작업이 종료될 때마다 저장 날짜 및 저장 유무의 로그 기록을 범용 사전 데이터 DB의 로그 파일로서 저장되며, 본 발명의 범용 사전 모니터링 모듈(125)은 범용 사전 데이터 DB의 마지막 저장 작업이 종료될 때 저장 날짜 및 저장 유무의 로그 기록을 모니터링 모듈의 로그 파일에 기록할 수 있다. The general-purpose dictionary data DB stores the storage date and log records of whether or not the storage operation is finished as a log file of the general-purpose dictionary data DB, and the general-purpose dictionary monitoring module 125 of the present invention stores the last of the general-purpose dictionary data DB. When the work is finished, the storage date and the log record of whether or not to be saved can be recorded in the log file of the monitoring module.

범용사전 모니터링 과정(S124)은, 범용 사전 데이터 DB의 로그 파일의 마지막 로그 기록과 모니터링 모듈의 로그 파일의 로그 기록을 비교하여 이상을 발견하는 과정으로 이상의 발견시 이상 발견 메시지를 개발자 등에게 통보하는 과정을 수행한다. The general-purpose pre-monitoring process (S124) is a process of finding an abnormality by comparing the last log record of the log file of the general-purpose dictionary data DB with the log file of the monitoring module. Carry out the process.

키워드 출력 조건 입력 과정(S200)은, 사용자 인터페이스 처리부(150)를 통해 사용자에게 복수의 키워드 출력 조건을 제공하고, 사용자 인터페이스 처리부(150)를 통해 상기 출력된 복수의 키워드 출력 조건 중 사용자의 선택을 입력받는 과정이다.In the keyword output condition input process (S200), a plurality of keyword output conditions are provided to the user through the user interface processing unit 150, and the user's selection among the plurality of keyword output conditions outputted through the user interface processing unit 150 is selected. This is the process of receiving input.

상기 제1 키워드의 복수의 출력 조건과 제2 키워드의 복수의 출력 조건은 서로 상이할 수 있으며, 사용자 인터페이스 처리부(150)에 의하여 독립적인 사용자 인터페이스를 제공하여 사용자의 선택을 각각 독립적으로 입력받을 수 있다.The plurality of output conditions of the first keyword and the plurality of output conditions of the second keyword may be different from each other, and an independent user interface is provided by the user interface processing unit 150 so that the user's selection can be independently input. have.

키워드 출력 조건 입력 과정(S200)은 제1 키워드의 복수의 출력 조건을 제공하고 사용자 인터페이스 처리부(150)를 통해 상기 출력된 복수의 제1 키워드 출력 조건 중 사용자의 선택을 입력받는 입력과정 제1 키워드 출력 조건 입력과정(S210)을 포함하여 수행된다.The keyword output condition input process (S200) is an input process of providing a plurality of output conditions of a first keyword and receiving a user's selection from among the plurality of first keyword output conditions output through the user interface processing unit 150. It is performed including an output condition input process (S210).

제1 키워드 출력 조건은, 키워드 추출의 기간 구분을 포함할 수 있으며, 단어 쌍 여부 선택을 포함할 수 있다.The first keyword output condition may include classification of a period of keyword extraction, and may include selection of word pairs.

기간 구분은 기간 누적 상위 키워드, 주간 상위 키워드, 월간 상위 키워드, 분기 상위 키워드로 구분될 수 있으며, '기간 누적 상위 키워드'는 추천 키워드 제공시스템(100)의 서비스 사용기간 동안 빈도에 따른 점수의 합산 값이 큰 사전 설정된 순위 내 제1 키워드, '주간 상위 키워드'는 기간 누적에 포함되지 않은 제1 키워드로서 이전 7일 동안 빈도에 따른 점수의 합산 값이 큰 사전 설정된 순위 내 제1 키워드, '월간 상위 키워드'는 기간 누적에 포함되지 않은 제1 키워드로서 이전 30일 동안 빈도에 따른 점수의 합산 값이 큰 사전 설정된 순위 내 제1 키워드, '분기 상위 키워드'는 기간 누적에 포함되지 않은 제1 키워드로서 이전 90일 동안 빈도에 따른 점수의 합산 값이 큰 사전 설정된 순위 내 제1 키워드에 대한 출력 조건일 수 있으며, '단어 쌍 여부'선택은 단어 쌍 키워드를 출력할 지 또는 일반 단어 키워드를 출력할 지에 대한 입력으로 '단어 쌍 여부' 선택은, 일반 단어의 출력조건이 디폴트로 설정되고, 별도 단어 쌍의 선택에 따라 단어 쌍의 출력조건으로 입력될 수 있으며, 실시예에 따라 일반 단어 선택 또는 단어 쌍의 선택 중 하나가 각각 출력조건으로 입력될 수도 있다. Period classification can be divided into period cumulative top keywords, weekly top keywords, monthly top keywords, and quarterly top keywords, and'period cumulative top keywords' is the sum of scores according to frequency during the service use period of the recommended keyword providing system 100 The first keyword in the preset ranking with a large value,'Weekly Top keyword' is the first keyword not included in the period accumulation, and the first keyword in the preset ranking with a large sum of scores according to frequency over the previous 7 days,'Monthly The'Top Keywords' is the first keyword not included in the period accumulation, the first keyword in the preset ranking with a large sum of scores according to the frequency over the previous 30 days, and the'Quarterly Top Keywords' is the first keyword not included in the period accumulation As a result, it may be an output condition for the first keyword in the preset ranking where the sum of the scores according to the frequency for the previous 90 days is large. In the selection of'word pair or not' as an input for'word pair', the output condition of a general word is set as a default, and it can be input as an output condition of a word pair according to the selection of a separate word pair. Depending on the embodiment, the general word selection or the word One of the paired selections may each be input as an output condition.

키워드 출력 조건 입력 과정(S200)은 실시예에 따라서는 제2 키워드의 복수의 출력 조건을 제공하고 사용자 인터페이스 처리부(150)를 통해 상기 출력된 복수의 제2 키워드 출력 조건 중 사용자의 선택을 입력받는 입력과정 제2 키워드 출력 조건 입력과정(S220)을 포함하여 수행될 수 있다.In the keyword output condition input process (S200), according to an embodiment, a plurality of output conditions of a second keyword are provided, and a user's selection among the plurality of output conditions of the second keyword is inputted through the user interface processing unit 150. The input process may be performed including a second keyword output condition input process (S220).

제2 키워드의 출력 조건은, 오늘의 주요 키워드, 오늘의 신문 1면 주요 키워드로 구분될 수 있으며, 단어 쌍 여부 선택을 포함할 수 있다. '오늘의 주요 키워드'는 검색 당일의 온라인 뉴스 및 지면 뉴스의 빈도에 따른 점수의 합산 값이 큰 사전 설정된 순위 내 제2 키워드, '오늘의 신문 1면 주요 키워드'는 검색 당일의 지면 뉴스 1면의 빈도에 따른 점수의 합산 값이 큰 사전 설정된 순위 내 제2 키워드에 대한 출력 조건일 수 있으며, '단어 쌍 여부'의 선택은 단어 쌍 키워드를 출력할 지 또는 일반 단어 키워드를 출력할 지에 대한 입력으로 '단어 쌍 여부'의 선택은, 일반 단어의 출력조건이 디폴트로 설정되고, 별도 단어 쌍의 선택에 따라 단어 쌍의 출력조건으로 입력될 수 있으며, 실시예에 따라 일반 단어 선택 또는 단어 쌍의 선택 중 하나가 각각 출력 조건으로 입력될 수도 있다. The output condition of the second keyword may be classified into a main keyword of the day and a main keyword on the first page of the newspaper of the day, and may include selection of a word pair. 'Today's Key Keywords' is the second keyword in the preset ranking with a large sum of scores according to the frequency of online news and paper news on the search day, and'Today's Newspaper Page 1 Key Keywords' is the page news page on the search day. It may be an output condition for the second keyword in the preset ranking where the sum of the scores according to the frequency of is large, and the selection of'word pairing' is an input on whether to output word pair keywords or general word keywords. In the selection of'word pair or not', the output condition of the general word is set as a default, and the output condition of the word pair may be input according to the selection of a separate word pair. One of the choices may be input as an output condition, respectively.

키워드 출력 조건 입력 과정(S200)은, 사용자 인터페이스 처리부(150)가 사용자사전 키워드 데이터로부터 제1 키워드를 출력하도록 제1 키워드 출력 조건 입력과정(S210)을 개시할지 또는 범용사전 데이터부터 제2 키워드를 출력하도록 제2 키워드 출력 조건 입력과정(S220)을 개시할지 여부를 사용자로 하여금 선택하도록 하는 인터페이스를 제공하여 사용자의 선택을 입력받는 뉴스 분석 유형 선택 과정를 포함하여 수행할 수 있다. In the keyword output condition input process (S200), whether to start the first keyword output condition input process (S210) so that the user interface processing unit 150 outputs the first keyword from the user dictionary keyword data or the second keyword from the universal dictionary data. An interface for allowing a user to select whether to start the second keyword output condition input process (S220) to be output may be provided to perform including a news analysis type selection process in which the user's selection is input.

도 8을 참조하면, 본 발명의 뉴스 스크랩을 위한 추천 키워드 제공 시스템(100)의 메인 화면에는 뉴스 분석 유형 선택 UI는 메인 화면에 이미 표시되어 포함되어 있거나, 사용자의 메인 화면에서의 선택에 의하여 뉴스 분석 유형 선택 UI(S00)표시될 수 있다.Referring to FIG. 8, in the main screen of the system 100 for providing recommended keywords for news scrap of the present invention, the news analysis type selection UI is already displayed and included in the main screen, or news is selected by the user's selection on the main screen. Analysis type selection UI (S00) may be displayed.

뉴스 분석 유형 선택 UI(S00)에는 도 9 내지 도 12의 최 상단에서와 같이, 제1 키워드 출력 조건 입력과정(S210)을 개시하는 제1 유형 선택항목 예컨대 '프리미엄 기사 분석'과 제2 키워드 출력 조건 입력과정(S220)을 개시하는 제2 유형 선택항목 예컨대 '오늘의 뉴스 분석'이 표시된다.In the news analysis type selection UI (S00), as at the top of FIGS. 9 to 12, a first type selection item that initiates the first keyword output condition input process (S210), for example,'premium article analysis' and a second keyword output. A second type selection item for initiating the condition input process (S220), for example,'today's news analysis' is displayed.

제1 키워드 출력 조건 입력과정(S210)은 뉴스 분석 유형 선택 UI에서 제1 유형 선택항목 예컨대 '프리미엄 기사 분석'이 사용자에 의하여 선택되면 상기 선택을 입력받는 제1 유형의 선택 입력과정(S211), 제1 출력 조건 입력 UI를 출력하여 표시하는 제1 출력 조건 입력 UI 출력 과정(S212)을 포함하며, 상기 출력된 제1 출력 조건 입력 UI를 통해 키워드 추출 기간 범위인 '기간 구분'이 도 9 및 도 10에서와 같이 누적, 주간, 월간, 분기, 기간설정 등으로 표시되며, 단어 쌍 키워드를 출력할 지 또는 일반 단어 키워드를 출력할 지에 대한 선택을 입력받는 '단어 쌍 여부'의 선택 UI가 '단일 단어', '단어 쌍'의 형태로 표시되고, 이어 출력된 제1 출력 조건 입력 UI를 통해 사용자가 제1 출력 조건을 선택하면, 사용자에 의하여 선택된 제1 출력 조건을 입력받는 제1 출력조건 입력과정(S213)을 포함하여 수행된다.The first keyword output condition input process (S210) is a first type selection input process (S211) in which the selection is input when a first type selection item such as'premium article analysis' is selected by the user in the news analysis type selection UI, Including a first output condition input UI output process (S212) of outputting and displaying a first output condition input UI, and'period division', which is a keyword extraction period range through the outputted first output condition input UI, is shown in FIG. 9 and As shown in FIG. 10, the selection UI for'word pairing' is displayed in accumulative, weekly, monthly, quarterly, period setting, etc., and a selection of whether to output word pair keywords or general word keywords is input. A first output condition in which the first output condition selected by the user is inputted when the user selects the first output condition through the first output condition input UI displayed in the form of a single word' or'word pair'. It is performed including the input process (S213).

제1 출력조건 입력과정(S213)에서 입력된 제1 출력 조건에 따라 제1 키워드 출력과정(S310)이 수행된다. A first keyword output process (S310) is performed according to the first output condition input in the first output condition input process (S213).

제2 키워드 출력 조건 입력과정(S220)은 뉴스 분석 유형 선택 UI에서 제2 유형 선택항목 예컨대 '오늘의 뉴스 분석'이 사용자에 의하여 선택되면 상기 선택을 입력받는 제2 유형의 선택 입력과정(S221), 제2 출력 조건 입력 UI를 출력하여 표시하는 제2 출력 조건 입력 UI 출력 과정(S222)을 포함하며, 도 11 및 도 12에서와 같이 상기 출력된 제2 출력 조건 입력 UI를 통해 '오늘의 주요 키워드' 또는 '오늘의 신문 1면 주요 키워드'를 선택할 지가 표시되며, 단어 쌍 키워드를 출력할 지 또는 일반 단어 키워드를 출력할 지에 대한 선택을 입력받는 '단어 쌍 여부'의 선택 UI가 '단일 단어' 및 '단어 쌍'에서와 같이 표시되고, 이어 출력된 제2 출력 조건 입력 UI를 통해 사용자가 제2 출력 조건을 선택하면, 사용자에 의하여 선택된 제2 출력 조건을 입력받는 제2 출력조건 입력과정(S223)을 포함하여 수행된다.The second keyword output condition input process (S220) is a second type selection input process in which the selection is input when a second type selection item, such as'today's news analysis', is selected by the user in the news analysis type selection UI (S221). , Including a second output condition input UI output process (S222) of outputting and displaying the second output condition input UI, and through the outputted second output condition input UI as in FIGS. 'Keyword' or'Keyword on the front page of the newspaper of the day' is displayed, and the selection UI of'Word Pair' is'Single Word', where you can select whether to output word pair keywords or general word keywords. The second output condition input process in which the second output condition selected by the user is inputted when the user selects the second output condition through the second output condition input UI displayed as in'and'word pair' and then output It is performed including (S223).

제2 출력조건 입력과정(S223)에서 입력된 제2 출력 조건에 따라 제2 키워드 출력과정(S320)이 수행된다. A second keyword output process (S320) is performed according to the second output condition input in the second output condition input process (S223).

키워드 출력 과정(S300)은, 사용자 인터페이스 처리부(150)를 통해 입력된 사용자의 키워드 출력 조건의 선택에 따라 사전 설정된 방식으로 키워드를 출력하여 표시하는 과정이다.The keyword output process (S300) is a process of outputting and displaying a keyword in a preset manner according to a user's selection of a keyword output condition input through the user interface processing unit 150.

키워드 출력 과정(S300)은 핵심단어를 시각화하는 기법 즉, 워드 클라우드(word cloud) 방식을 통해 출력되는 일반 단어 또는 단어 쌍인 키워드를 시각화하여 제공할 수 있다.The keyword output process S300 may visualize and provide keywords that are general words or word pairs output through a technique for visualizing key words, that is, a word cloud method.

상기 제1 키워드의 출력 형태는 제2 키워드의 출력 형태와 서로 상이할 수 있으며, 사용자 인터페이스 처리부(150)에 의하여 각각 다양한 방식으로 제1 키워드 또는 제2 키워드를 시각화하여 제공할 수 있다. The output type of the first keyword may be different from the output type of the second keyword, and the user interface processing unit 150 may visualize and provide the first keyword or the second keyword in various ways, respectively.

본 실시예의 경우 키워드 출력 과정(S300)은 제1 키워드의 출력 과정(310)을 포함하여, 도 8에서와 같이 제1 출력조건 입력과정(S213)에서 입력된 제1 출력 조건에 따라 도 9(a)와 같이, 누적 기간('누적'), 일반 단어('단일 단어')가 선택된 경우 워드 클라우드(word cloud) 방식을 통해 일반 단어인 제1 키워드를 출력하며, 도 9(a)의 워드 클라우드(word cloud) 내 단어를 클릭시 또는 우측의 키워드 순위 내 단어의 클릭시 해당 데이터의 과거 빈도에 따른 점수 데이터의 추이를 도 9(b)에서와 같은 추이선 표로 시각적으로 표시하고, 도 10(a)와 같이, 누적 기간('누적'), 단어 쌍('단어 쌍')이 선택된 경우 워드 클라우드(word cloud) 방식을 통해 단어 쌍인 제1 키워드를 출력하며, 도 10(a)의 워드 클라우드(word cloud) 내 단어쌍 또는 우측의 키워드 순위 내 단어 쌍의 클릭시 해당 데이터의 과거 빈도에 따른 단어 쌍의 점수 데이터의 추이를 도 10(b)에서와 같은 추이선 표로 시각적으로 표시한다.In the case of the present embodiment, the keyword output process (S300) includes the output process 310 of the first keyword, and according to the first output condition input in the first output condition input process (S213) as shown in FIG. As shown in a), when the cumulative period ('cumulative') and the general word ('single word') are selected, the first keyword, which is a general word, is output through a word cloud method, and the word of FIG. 9(a) When a word in the cloud (word cloud) is clicked or when a word in the keyword ranking on the right is clicked, the trend of score data according to the past frequency of the corresponding data is visually displayed in a trend line table as in FIG. 9(b), and FIG. 10 As shown in (a), when the cumulative period ('cumulative') and the word pair ('word pair') are selected, the first keyword, which is a word pair, is output through a word cloud method, and the word in FIG. 10(a) When a word pair in a word cloud or a word pair in the keyword ranking on the right is clicked, the trend of the score data of the word pair according to the past frequency of the corresponding data is visually displayed in a trend line table as shown in FIG. 10(b).

또한, 본 실시예의 경우 키워드 출력 과정(S300)은 제2 키워드의 출력 과정(320)을 포함하여, 도 8에서와 같이 제2 출력조건 입력과정(S223)에서 입력된 제2 출력 조건에 따라 도 11과 같이, 오늘의 주요 키워드, 일반 단어('단일 단어')가 선택된 경우 워드 클라우드(word cloud) 방식을 통해 일반 단어인 제2 키워드를 출력하며, 도 12와 같이, 오늘의 주요 키워드, 단어 쌍('단어 쌍')이 선택된 경우 워드 클라우드(word cloud) 방식을 통해 단어 쌍인 제2 키워드를 출력한다.In addition, in the case of the present embodiment, the keyword output process (S300) includes the output process 320 of the second keyword, and is shown in accordance with the second output condition input in the second output condition input process (S223) as shown in FIG. As shown in Fig. 11, when today's main keyword and general word ('single word') are selected, a second keyword, which is a general word, is output through a word cloud method. As shown in FIG. 12, today's main keyword and word When a pair ('word pair') is selected, a second keyword, which is a word pair, is output through a word cloud method.

사용자는 본 발명의 추천 키워드 제공시스템(100)에서 생성되어 관리되는 뉴스 스크랩을 위한 키워드로서 상기 제1 키워드 및/또는 제2 키워드를 제공받아 뉴스정보 스크랩 시스템(200)을 통해 캡처 또는 스크랩시 사용자가 제공된 키워드를 사용하여 검색하고 상기 키워드 검색결과 노출된 기사나 정보들 중 캡쳐 또는 스크랩 대상이 되는 기사나 정보를 선택하여 캡쳐하며, 사용자가 스크랩한 뉴스 스크랩 데이터를 상기 사용자와 연관하여 이미지 데이터(문자 인식된 이미지 포함) 형태로 뉴스정보 스크랩 시스템의 데이터 DB에 저장되어 관리된다. 상기 저장되어 관리되는 사용자가 스크랩한 뉴스 스크랩 데이터는 스크랩 시스템(300)과 연동하는 본 발명의 추천 키워드 제공시스템(100)에 의하여 수집되거나, 본 발명의 추천 키워드 제공시스템(100)에 사전 설정된 방식으로 자동 제공되어 사용자사전데이터 처리부에 포함된 사용자사전단어데이터 DB에 저장되거나, 상기 스크랩 시스템의 데이터 DB에 사용자사전데이터 DB가 연동되어, 상술한 키워드 사전 구성 및 업데이트 과정(S100)의 수행에 사용된다. The user is provided with the first keyword and/or the second keyword as a keyword for news scrap generated and managed by the recommended keyword providing system 100 of the present invention and captured or scraped through the news information scrap system 200. Is searched using the provided keyword, and among the articles or information exposed as a result of the keyword search, an article or information that is to be captured or scraped is selected and captured, and the news scrap data scraped by the user is associated with the user and image data ( (Including text recognized images) is stored and managed in the data DB of the news information scrap system. The stored and managed news scrap data is collected by the recommended keyword providing system 100 of the present invention interlocking with the scrap system 300, or a method preset in the recommended keyword providing system 100 of the present invention. The user dictionary data DB is automatically provided and stored in the user dictionary word data DB included in the user dictionary data processing unit, or the user dictionary data DB is linked to the data DB of the scrap system and used to perform the above-described keyword dictionary configuration and update process (S100). do.

본 발명은 특정 기능들 및 그의 관계들의 성능을 나타내는 방법 단계들의 목적을 가지고 위에서 설명되었다. 이러한 기능적 구성 요소들 및 방법 단계들의 경계들 및 순서는 설명의 편의를 위해 여기에서 임의로 정의되었다. 상기 특정 기능들 및 관계들이 적절히 수행되는 한 대안적인 경계들 및 순서들이 정의될 수 있다. 그러므로 임의의 그러한 대안적인 경계들 및 순서들은 상기 청구된 발명의 범위 및 사상 내에 있다. 추가로, 이러한 기능적 구성 요소들의 경계들은 설명의 편의를 위해 임의로 정의되었다. 어떠한 중요한 기능들이 적절히 수행되는 한 대안적인 경계들이 정의될 수 있다. 마찬가지로, 흐름도 블록들은 또한 어떠한 중요한 기능성을 나타내기 위해 여기에서 임의로 정의되었을 수 있다. 확장된 사용을 위해, 상기 흐름도 블록 경계들 및 순서는 정의되었을 수 있으며 여전히 어떠한 중요한 기능을 수행한다. 그러므로 기능적 구성 요소들 및 흐름도 블록들 및 순서들 둘 다의 대안적인 정의들은 청구된 본 발명의 범위 및 사상 내에 있다.The present invention has been described above with the purpose of method steps representing the performance of specific functions and their relationships. The boundaries and order of these functional components and method steps have been arbitrarily defined herein for convenience of description. Alternative boundaries and orders may be defined as long as the specific functions and relationships are properly performed. Therefore, any such alternative boundaries and sequences are within the scope and spirit of the claimed invention. In addition, the boundaries of these functional components have been arbitrarily defined for convenience of description. Alternative boundaries can be defined as long as certain important functions are performed properly. Likewise, flowchart blocks may also have been arbitrarily defined herein to indicate any significant functionality. For extended use, the flow diagram block boundaries and order may have been defined and still perform some important function. Therefore, alternative definitions of both functional elements and flowchart blocks and sequences are within the scope and spirit of the claimed invention.

또한 본 발명은 하나 이상의 실시 예들의 용어로, 적어도 부분적으로 설명되었을 수 있다. 본 발명의 실시 예는 본 발명, 그 측면, 그 특징, 그 개념, 및/또는 그 예를 나타내기 위해 여기에서 사용된다. 본 발명을 구현하는 장치, 제조의 물건, 머신, 및/또는 프로세스의 물리적인 실시 예는 여기에 설명된 하나 이상의 실시 예들을 참조하여 설명된 하나 이상의 측면들, 특징들, 개념들, 예들 등을 포함할 수 있다. 더구나, 전체 도면에서, 실시 예들은 상기 동일한 또는 상이한 참조 번호들을 사용할 수 있는 상기 동일하게 또는 유사하게 명명된 기능들, 단계들, 모듈들 등을 통합할 수 있으며, 그와 같이, 상기 기능들, 단계들, 모듈들 등은 상기 동일한 또는 유사한 기능들, 단계들, 모듈들 등 또는 다른 것들일 수 있다.In addition, the present invention may have been described at least partially in terms of one or more embodiments. Embodiments of the invention are used herein to represent the invention, its aspects, its features, its concepts, and/or examples thereof. A physical embodiment of an apparatus, article of manufacture, machine, and/or process embodying the present invention refers to one or more aspects, features, concepts, examples, etc. described with reference to one or more embodiments described herein. Can include. Moreover, in the entire drawing, embodiments may incorporate the same or similarly named functions, steps, modules, etc., which may use the same or different reference numbers, and as such, the functions, Steps, modules, etc. may be the same or similar functions, steps, modules, etc. or others.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시 예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시 예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.As described above, in the present invention, specific matters such as specific components, etc., and limited embodiments and drawings have been described, but these are provided only to help a more general understanding of the present invention, and the present invention is not limited to the above embodiments. , If a person of ordinary skill in the field to which the present invention belongs, various modifications and variations are possible from these descriptions.

따라서, 본 발명의 사상은 설명된 실시 예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.Therefore, the spirit of the present invention is limited to the described embodiments and should not be defined, and all things that are equivalent or equivalent to the claims as well as the claims to be described later fall within the scope of the inventive concept. .

100 : 추천 키워드 제공시스템, 110 : 사용자사전단어 데이터 처리부
120 : 사용자사전단어 키워드 출력부, 130 : 범용사전데이터 처리부
140 : 범용사전단어 키워드 출력부, 150 : 사용자 인터페이스 처리부
200 : 뉴스정보 스크랩 시스템, 300 : 뉴스 정보매체
100: recommended keyword providing system, 110: user dictionary word data processing unit
120: user dictionary word keyword output unit, 130: general-purpose dictionary data processing unit
140: universal dictionary word keyword output unit, 150: user interface processing unit
200: news information scrap system, 300: news information medium

Claims (15)

삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 뉴스 스크랩에 사용되는 키워드 사전 구성 및 업데이트 방법에 있어서,
사용자가 스크랩한 뉴스 스크랩 데이터를 수집하고 이를 가공하여 상기 사용자의 뉴스 스크랩을 위한 제1 키워드를 생성하고 관리하는 뉴스 스크랩 정보를 이용한 사용자 사전 생성 및 업데이트 과정(S110)을 포함하여,
생성된 사용자의 뉴스 스크랩을 위한 제1 키워드는 해당 사용자 정보와 연관되어 키워드 단어와 수집 날짜, 빈도에 따른 점수의 정보와 함께 사용자사전 키워드 데이터로 사용자사전데이터 DB(114)에 저장되며,
사용자 사전 생성 및 업데이트 과정(S110)은,
연동되는 뉴스정보 스크랩 시스템(200)으로부터 사용자가 스크랩한 뉴스 스크랩 데이터를 수집하는 스크랩데이터 수집과정(S111),
상기 수집된 스크랩데이터를 가공하여 뉴스 스크랩을 위한 키워드를 생성하는 스크랩데이터 가공과정(S112), 및
상기 생성된 제1 키워드를 사용자사전데이터 DB(114)에 저장하여 관리하는 제1 저장 및 관리과정(S113)을 포함하여 수행되고,
상기 스크랩데이터 가공과정(S112)은,
사전 저장된 배제어를 호출하는 과정 및 뉴스 제목에서 배제어를 제거하는 배제어 제거 과정을 수행하여 상기 뉴스 스크랩 데이터의 뉴스 제목 중 존재하는 키워드로서 필요 없는 단어를 배제하는 배제어 제거 과정,
배제어가 제거된 뉴스 제목에서 명사를 제외한 단어를 제외하여 명사만을 추출하여 명사 이외의 단어를 제거하는 명사 추출과정,
뉴스 제목에 등장한 명사 리스트와 해당 명사와 같이 쓰이는 다른 명사들의 단어 쌍을 생성하는 명사 단어 리스트 및 단어 쌍 리스트 생성과정, 및
리스트의 단어 또는 단어 쌍에 빈도에 따른 점수를 계산하여 출력하는 단어 및 단어 쌍 점수 계산과정을 포함하는 것을 특징으로 하는 뉴스 스크랩에 사용되는 키워드 사전 구성 및 업데이트 방법.
In the keyword dictionary composition and update method used for news scrap,
Including a user dictionary generation and update process (S110) using news scrap information for collecting and processing news scrap data scraped by a user to generate and manage a first keyword for the user's news scrap,
The first keyword for the generated user's news scrap is stored in the user dictionary data DB 114 as user dictionary keyword data along with information on the keyword word, the collection date, and the score according to the frequency in association with the corresponding user information,
User dictionary creation and update process (S110),
Scrap data collection process (S111) of collecting news scrap data scraped by a user from the linked news information scrap system 200,
A scrap data processing process (S112) of processing the collected scrap data to generate keywords for news scrap, and
It is performed including a first storage and management process (S113) of storing and managing the generated first keyword in the user dictionary data DB 114,
The scrap data processing process (S112),
A process of removing a word that is not necessary as a keyword present in the news title of the news scrap data by performing a process of calling a pre-stored excluded word and a process of removing the excluded word from the news title,
Noun extraction process in which words other than nouns are removed by extracting only nouns by excluding words excluding nouns from the news title from which the excluded words are removed
A noun word list and word pair list generation process for generating a list of nouns appearing in the news title and word pairs of other nouns used with the noun, and
A method of configuring and updating a keyword dictionary used in news scrap, comprising a process of calculating and outputting a score according to a frequency of words or word pairs in a list.
삭제delete 청구항 7에 있어서,
상기 뉴스정보 스크랩 시스템(200)에서 해당 사용자가 지면 뉴스 또는 온라인 뉴스를 선택하여 스크랩하여 저장한 뉴스 스크랩 데이터 및 스크랩한 날짜 정보가 사용자의 식별정보와 연관되어 상기 뉴스정보 스크랩 시스템(200)에 저장되며,
상기 스크랩데이터 수집과정(S111)에서, 사용자의 식별정보를 이용하여 뉴스정보 스크랩 시스템의 데이터 DB에 저장된 뉴스 스크랩 데이터 및 스크랩한 날짜 정보가 사용자 별로 수집 또는 요청되어 수신되는 것을 특징으로 하는 뉴스 스크랩에 사용되는 키워드 사전 구성 및 업데이트 방법.
The method of claim 7,
In the news information scrap system 200, the news scrap data and the scrap date information stored by the user selecting and scrapping paper news or online news are stored in the news information scrap system 200 in association with the user's identification information. And
In the scrap data collection process (S111), news scrap data and scrap date information stored in the data DB of the news information scrap system using the user's identification information are collected or requested and received for each user. How to configure and update the keyword dictionary used.
삭제delete 청구항 7에 있어서,
상기 제1 저장 및 관리과정(S113)은,
제1 키워드인 단어 또는 단어 쌍에 대하여 사용자 사전 데이터 DB에 존재하는지를 조회하는 과정,
존재하는 단어 또는 단어 쌍의 경우, 저장 대상 제1 키워드인 단어 또는 단어 쌍의 점수를 날짜별 단어 또는 단어 쌍의 점수로 사용자 사전 데이터 DB에 저장하고, 기존 존재하는 제1 키워드인 단어 또는 단어의 누적 점수를 조회하여, 저장 대상 제1 키워드인 단어 또는 단어 쌍의 점수를 기존 존재하는 제1 키워드인 단어 또는 단어 쌍의 누적 점수에 합산하여 사용자 사전 데이터 DB에 저장하는 과정,
존재하는 단어 또는 단어 쌍이 아닌 경우, 날짜별 제1 키워드인 단어 또는 단어 쌍의 점수를 사용자 사전 데이터 DB에 저장하고, 저장 대상 제1 키워드인 단어 또는 단어의 누적 점수를 생성하여, 저장 대상 제1 키워드인 단어 또는 단어 쌍의 점수를 생성된 제1 키워드인 단어 또는 단어 쌍의 누적 점수로 사용자 사전 데이터 DB에 저장하는 과정을 포함하는 것을 특징으로 하는 뉴스 스크랩에 사용되는 키워드 사전 구성 및 업데이트 방법.
The method of claim 7,
The first storage and management process (S113),
The process of inquiring whether a word or word pair, which is a first keyword, exists in the user dictionary data DB,
In the case of an existing word or word pair, the score of the word or word pair that is the first keyword to be stored is stored in the user dictionary data DB as the score of the word or word pair by date, and The process of inquiring the cumulative score, summing the score of the word or word pair, which is the first keyword to be stored, to the cumulative score of the word or word pair, which is the existing first keyword, and storing it in the user dictionary data DB,
If the word or word pair does not exist, the score of the word or word pair that is the first keyword for each date is stored in the user dictionary data DB, and a cumulative score of the word or word that is the first keyword to be stored is generated, and the storage target first A method of configuring and updating a keyword dictionary used for news scrap, comprising the step of storing the score of a word or word pair as a keyword as a cumulative score of a word or word pair as a generated first keyword in a user dictionary data DB.
청구항 7에 있어서,
뉴스 매체로부터 뉴스데이터를 수집하고 이를 가공하여 뉴스 스크랩을 위한 제2 키워드를 생성하고 관리하는 범용 사전 생성 및 업데이트 과정(S120)을 더 포함하여,
생성된 사용자의 뉴스 스크랩을 위한 제2 키워드는 키워드 단어와 수집 날짜, 빈도에 따른 점수 등의 정보와 함께 범용사전 키워드 데이터로 범용사전데이터 DB(124)에 저장되는 것을 특징으로 하는 뉴스 스크랩에 사용되는 키워드 사전 구성 및 업데이트 방법.
The method of claim 7,
Including a general-purpose dictionary generation and update process (S120) of collecting and processing news data from news media to generate and manage second keywords for news scrap,
The second keyword for the generated user's news scrap is used for news scrap, characterized in that it is stored in the universal dictionary data DB 124 as universal dictionary keyword data along with information such as keyword words, collection date, and score according to frequency. How to configure and update your keyword dictionary.
청구항 12에 있어서,
상기 범용 사전 생성 및 업데이트 과정(S120)은,
범용사전용 데이터로 뉴스 데이터를 수집하는 뉴스 데이터 수집 과정(S121),
상기 수집된 뉴스 데이터를 가공하여 뉴스 스크랩을 위한 제2 키워드를 생성하는 뉴스 데이터 가공 과정(S122)
제2 키워드로서 범용 사전 데이터 DB에 저장하여 관리하는 제2 키워드 저장 및 관리 과정(S123)을 포함하여 수행되는 것을 특징으로 하는 뉴스 스크랩에 사용되는 키워드 사전 구성 및 업데이트 방법.
The method of claim 12,
The general-purpose dictionary generation and update process (S120),
News data collection process (S121) of collecting news data as general-purpose data
News data processing process of generating a second keyword for news scrap by processing the collected news data (S122)
A method of configuring and updating a keyword dictionary used for news scrap, comprising a second keyword storage and management process (S123) that stores and manages a second keyword as a second keyword in a general-purpose dictionary data DB.
추천 키워드 제공방법에 있어서,
청구항 7, 청구항 9, 청구항 11 내지 청구항 13중 어느 한 항의 뉴스 스크랩에 사용되는 키워드 사전 구성 및 업데이트 방법을 포함하는 추천 키워드 제공방법.
In the method of providing recommended keywords,
A method of providing a recommended keyword, including a method of configuring and updating a keyword dictionary used in the news scrap of any one of claims 7, 9 and 11 to 13.
청구항 14에 있어서,
사용자 인터페이스 처리부(150)를 통해 입력된 사용자의 키워드 선택에 따라 사전 설정된 방식으로 키워드를 출력하여 표시하는 키워드 출력 과정(S300)을 포함하여, 핵심단어를 시각화하는 기법을 통해 출력되는 키워드를 시각화하여 제공하는 것을 특징으로 하는 뉴스 스크랩에 사용되는 키워드 사전 구성 및 업데이트 방법을 포함하는 추천 키워드 제공방법.
The method of claim 14,
Including the keyword output process (S300) in which keywords are output and displayed in a preset manner according to the user's keyword selection input through the user interface processing unit 150, the keywords output through a technique for visualizing key words are visualized. A method of providing recommended keywords including a method of configuring and updating a keyword dictionary used in news scrap, characterized in that providing.
KR1020200103497A 2020-08-18 2020-08-18 A system for providing recommended keywords for news scrap, a method for pre-configuring and updating keywords used for news scrap using the same, and a method for providing recommended keywords including the same KR102244651B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200103497A KR102244651B1 (en) 2020-08-18 2020-08-18 A system for providing recommended keywords for news scrap, a method for pre-configuring and updating keywords used for news scrap using the same, and a method for providing recommended keywords including the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200103497A KR102244651B1 (en) 2020-08-18 2020-08-18 A system for providing recommended keywords for news scrap, a method for pre-configuring and updating keywords used for news scrap using the same, and a method for providing recommended keywords including the same

Publications (1)

Publication Number Publication Date
KR102244651B1 true KR102244651B1 (en) 2021-04-26

Family

ID=75733453

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200103497A KR102244651B1 (en) 2020-08-18 2020-08-18 A system for providing recommended keywords for news scrap, a method for pre-configuring and updating keywords used for news scrap using the same, and a method for providing recommended keywords including the same

Country Status (1)

Country Link
KR (1) KR102244651B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230097624A (en) 2021-12-24 2023-07-03 한전케이디엔주식회사 Appratus for recommending power generation fuel news using self supervised learning topic modeling and method thereof

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014021861A (en) * 2012-07-20 2014-02-03 Nippon Telegr & Teleph Corp <Ntt> Document search keyword presentation device, method, and program
US20150039432A1 (en) * 2013-08-05 2015-02-05 Yahoo! Inc. Keyword recommendation
KR20150022583A (en) * 2013-08-23 2015-03-04 주식회사 케이티 Apparatus for extracting keyword and method thereof
KR101773781B1 (en) 2016-05-31 2017-09-01 주식회사 뉴스젤리 Method and apparatus for user oriented data visualzation based on the web
KR20190102529A (en) * 2018-02-26 2019-09-04 광운대학교 산학협력단 Apparatus and method for analyzing target using topic
WO2020111827A1 (en) * 2018-11-29 2020-06-04 주식회사 로켓펀치 Automatic profile generation server and method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014021861A (en) * 2012-07-20 2014-02-03 Nippon Telegr & Teleph Corp <Ntt> Document search keyword presentation device, method, and program
US20150039432A1 (en) * 2013-08-05 2015-02-05 Yahoo! Inc. Keyword recommendation
KR20150022583A (en) * 2013-08-23 2015-03-04 주식회사 케이티 Apparatus for extracting keyword and method thereof
KR101773781B1 (en) 2016-05-31 2017-09-01 주식회사 뉴스젤리 Method and apparatus for user oriented data visualzation based on the web
KR20190102529A (en) * 2018-02-26 2019-09-04 광운대학교 산학협력단 Apparatus and method for analyzing target using topic
WO2020111827A1 (en) * 2018-11-29 2020-06-04 주식회사 로켓펀치 Automatic profile generation server and method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
박승택 외 5인, 기계학습 기반의 뉴스 추천 서비스 구조와 그 효과에 대한 고찰: 카카오의 루빅스를 중심으로, 사이버커뮤니케이션 통권 제34권 제1호, 2017.3. *
최광선, 김수동, 온라인 뉴스 가치 평가 및 개인화 기법, 한국산학기술학회논문지 제16권 제12호, 2015, 8195-8209페이지. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230097624A (en) 2021-12-24 2023-07-03 한전케이디엔주식회사 Appratus for recommending power generation fuel news using self supervised learning topic modeling and method thereof

Similar Documents

Publication Publication Date Title
Tran et al. E-Myscéal: embedding-based interactive lifelog retrieval system for LSC'22
US20150261773A1 (en) System and Method for Automatic Generation of Information-Rich Content from Multiple Microblogs, Each Microblog Containing Only Sparse Information
JP6529133B2 (en) Apparatus, program and method for analyzing the evaluation of topics in multiple regions
JP6779405B1 (en) Infringement information extraction systems, methods and programs
KR20130083703A (en) Apparatus and method for searching personalized contents of a traver destination based on user position log of a mobile terminal
JP2011070291A (en) Device, system and method for extraction of topic word, and program
JP4677563B2 (en) Decision support system and decision support method
KR102244651B1 (en) A system for providing recommended keywords for news scrap, a method for pre-configuring and updating keywords used for news scrap using the same, and a method for providing recommended keywords including the same
JP2017107391A (en) Text mining method, and text mining program
US11487837B2 (en) Method for summarizing multimodal content from webpages
Parizi et al. EmoNews: an Emotional News Recommender System.
JP2022073872A (en) System, method, and program for extracting infringement information
CN110990673B (en) Method and system for obtaining questionnaire focus
Sainger Sentiment analysis-an assessment of online public opinion: a conceptual review
Cheng et al. Context-based page unit recommendation for web-based sensemaking tasks
Khatoon Real-time twitter data analysis of Saudi telecom companies for enhanced customer relationship management
US20220292127A1 (en) Information management system
Tran et al. Myscéal: a deeper analysis of an interactive lifelog search engine
Hoxha et al. Towards a modular recommender system for research papers written in albanian
JP2006139484A (en) Information retrieval method, system therefor and computer program
Umar et al. Comparing the Performance of Data Mining Algorithms in Predicting Sentiments on Twitter
JP2002183175A (en) Text mining method
Kiomourtzis et al. NOMAD: Linguistic Resources and Tools Aimed at Policy Formulation and Validation.
KR100718745B1 (en) Patent retrieve system and method by using text mining
WO2015047075A1 (en) A system and method for ranking recommendations

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant