KR20220102181A - Apparatus for Searching Fraudulent News and Driving Method Thereof, and Computer Readable Recording Medium - Google Patents

Apparatus for Searching Fraudulent News and Driving Method Thereof, and Computer Readable Recording Medium Download PDF

Info

Publication number
KR20220102181A
KR20220102181A KR1020210003514A KR20210003514A KR20220102181A KR 20220102181 A KR20220102181 A KR 20220102181A KR 1020210003514 A KR1020210003514 A KR 1020210003514A KR 20210003514 A KR20210003514 A KR 20210003514A KR 20220102181 A KR20220102181 A KR 20220102181A
Authority
KR
South Korea
Prior art keywords
negative
news
index
words
positive
Prior art date
Application number
KR1020210003514A
Other languages
Korean (ko)
Other versions
KR102461825B1 (en
Inventor
신은혜
김도우
이종설
Original Assignee
대한민국(행정안전부 국립재난안전연구원장)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 대한민국(행정안전부 국립재난안전연구원장) filed Critical 대한민국(행정안전부 국립재난안전연구원장)
Priority to KR1020210003514A priority Critical patent/KR102461825B1/en
Publication of KR20220102181A publication Critical patent/KR20220102181A/en
Application granted granted Critical
Publication of KR102461825B1 publication Critical patent/KR102461825B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/943News

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to a negative news search device, a driving method of the device, and a computer-readable recording medium. The negative news search device according to an embodiment of the present invention includes: a storage unit for classifying negative words and positive words by parts of speech and storing a list; and a control unit for filtering the previously collected news articles based on the part-of-speech information related to the parts of speech in the stored list, using the negative and positive words of the filtered news article and the negative and positive words in the (pre-)stored parts of speech list to calculate the negative and positive indices, respectively, and operating the calculated negative and positive indices to calculate the final negative index.

Description

부정뉴스 탐색장치 및 그 장치의 구동방법, 그리고 컴퓨터 판독가능 기록매체{Apparatus for Searching Fraudulent News and Driving Method Thereof, and Computer Readable Recording Medium}Apparatus for Searching Fraudulent News and Driving Method Thereof, and Computer Readable Recording Medium

본 발명은 부정뉴스 탐색장치 및 그 장치의 구동방법, 그리고 컴퓨터 판독가능 기록매체에 관한 것으로서, 더 상세하게는 가령 국가 재난 상황 등에 대비하기 위해 뉴스 기사를 활용해 부정 뉴스를 선별하고 선별한 부정 뉴스에서 지적 사항 등을 콘텐츠로 하여 재난 상황 극복을 위해 활용하려는 부정뉴스 탐색장치 및 그 장치의 구동방법, 그리고 컴퓨터 판독가능 기록매체에 관한 것이다.The present invention relates to a fraudulent news search device, a method of driving the device, and a computer-readable recording medium, and more particularly, to select and select fraudulent news using news articles to prepare for, for example, a national disaster situation. It relates to a device for detecting fraudulent news, a method of driving the device, and a computer-readable recording medium, which is intended to be used to overcome a disaster situation by using the pointed out items as content.

최근 인터넷의 발달로 빅데이터 분석이 발전하고 있다. 데이터마이닝(data mining)은 많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 추출해 내고 의사 결정에 이용하는 과정을 말한다. 즉, 데이터에 숨겨진 패턴과 관계를 찾아내어 광맥을 찾아내듯이 정보를 발견해 내는 것이다. 여기에서 정보 발견이란, 데이터에 고급 통계 분석과 모델링 기법을 적용하여 유용한 패턴과 관계를 찾아내는 과정으로서, 데이터베이스 마케팅의 핵심 기술이라고 할 수 있다.With the recent development of the Internet, big data analysis is developing. Data mining refers to the process of discovering useful correlations hidden among large amounts of data, extracting actionable information in the future, and using it for decision-making. In other words, it is to discover information as if finding a vein by finding hidden patterns and relationships in data. Here, information discovery is the process of finding useful patterns and relationships by applying advanced statistical analysis and modeling techniques to data, and it can be said to be a core technology of database marketing.

예를 들어, 한 백화점에서 판매 데이터베이스의 데이터를 분석하여 금요일 오전에는 어떤 상품들이 잘 팔리는가, 그리고 팔리는 상품들간에는 어떤 상관관계가 있는가 등을 발견하고 이를 마케팅에 반영하는 것이다. 따라서, 데이터마이닝의 필수 요소는 신뢰도가 높은 충분한 자료이다. 이것은 신뢰도 높은 충분한 자료가 정확한 예견을 가능하게 하기 때문이다. 그러나 너무 많은 자료는 오히려 데이터마이닝의 예견 능력을 떨어뜨릴 수 있으므로, 최적의 결과를 산출할 수 있는 의미 있는 자료의 확보가 필요하다.For example, by analyzing data from a sales database in a department store, what products are selling well on Friday mornings and what kind of correlation there are between selling products, etc., are reflected in marketing. Therefore, an essential element of data mining is sufficient data with high reliability. This is because reliable and sufficient data make accurate predictions possible. However, too much data can lower the predictive ability of data mining, so it is necessary to secure meaningful data that can produce optimal results.

한국에서 데이터마이닝은 아직은 초기 단계에 머물러 있지만, 곧 일반화될 것으로 기대된다. 그 이유는 데이터 마이닝을 하기 위한 최적의 시스템이 되는 데이터웨어하우스가 국내에 이미 많이 구축되어 있기 때문이다. 또, 기업의 요구 사항이 주로 고객관리에 중점을 두는 데이터베이스 마케팅 쪽으로 가고 있기 때문에 데이터마이닝의 발달은 필연적이라고 할 수 있다.Although data mining in Korea is still in its infancy, it is expected to become common soon. The reason is that many data warehouses, which are optimal systems for data mining, have already been established in Korea. In addition, the development of data mining is inevitable because the company's requirements are going towards database marketing, which mainly focuses on customer management.

그런데, 현재 국가 차원에서 특히 재난 상황과 관련하여 뉴스 기사 등을 활용하여 정책 등에 반영하려는 등의 유용한 시스템이 구축되어 있지 않아 이에 대한 시스템의 구축이 절실히 요구되고 있다.However, at the national level, particularly in relation to disaster situations, a useful system such as using news articles to reflect policies and the like has not been established, so the establishment of a system for this is urgently required.

한국등록특허공보 제10-1741509호(2017.05.24)Korean Patent Publication No. 10-1741509 (2017.05.24) 한국등록특허공보 제10-1599675호(2016.02.25)Korean Patent Publication No. 10-1599675 (2016.02.25) 한국등록특허공보 제10-2104316호(2020.04.20)Korean Patent Publication No. 10-2104316 (2020.04.20)

본 발명의 실시예는 가령 국가 재난 상황 등에 대비하기 위해 뉴스 기사를 활용해 부정 뉴스를 선별하고 선별한 부정 뉴스에서 지적 사항 등을 콘텐츠로 하여 재난 상황 극복을 위해 활용하려는 부정뉴스 탐색장치 및 그 장치의 구동방법, 그리고 컴퓨터 판독가능 기록매체를 제공함에 그 목적이 있다.In an embodiment of the present invention, for example, in order to prepare for a national disaster, fraudulent news is selected by using news articles, and the illegal news search device and the device thereof are intended to be utilized to overcome a disaster situation by using the points pointed out in the selected fraudulent news as content. It is an object of the present invention to provide a method of driving and a computer-readable recording medium.

본 발명의 실시예에 따른 부정뉴스 탐색장치는, 부정단어 및 긍정단어를 품사별로 구분하여 목록을 저장하는 저장부, 및 상기 저장한 품사와 관련되는 품사 정보를 근거로 기수집한 뉴스 기사를 필터링하고, 상기 필터링한 뉴스 기사의 단어들과 상기 저장한 품사별 목록의 부정단어 및 긍정단어를 이용하여 부정지수 및 긍정지수를 각각 산출하며, 상기 산출한 부정지수 및 상기 산출한 긍정지수를 연산하여 최종의 부정지수를 산출하는 제어부를 포함한다.A negative news search apparatus according to an embodiment of the present invention includes a storage unit for storing a list by classifying negative and positive words by part-of-speech, and filtering previously collected news articles based on the stored part-of-speech information related to the part-of-speech. And, by using the words of the filtered news article and the stored negative and positive words in the list of parts of speech, respectively, a negative index and a positive index are calculated, and the calculated negative index and the calculated positive index are calculated, A control unit for calculating the final negative index is included.

상기 제어부는, 상기 필터링한 뉴스 기사의 단어들에 대한 뉴스 기사 내 중요도를 더 고려하여 추가로 필터링해 상기 부정지수를 산출하며, 상기 뉴스 기사 내 중요도를 판단하기 위해 TF-IDF(Term Frequency - Inverse Document Frequency) 모델을 이용할 수 있다.The control unit calculates the negative index by further filtering in consideration of the importance in the news article with respect to the words of the filtered news article, and to determine the importance in the news article, TF-IDF (Term Frequency - Inverse) Document Frequency) model can be used.

상기 제어부는, 상기 추가로 필터링해 얻은 단어들을 상기 품사별 목록의 부정단어 및 긍정단어와 비교하여 코사인 유사도(cosine similarity)를 측정하여 상기 부정지수를 산출하며, 각 부정단어마다 상기 코사인 유사도를 측정하여 가장 높은 값이 나오는 부정단어를 대표값으로 하는 대표값들의 총합을 상기 부정지수로 산출할 수 있다.The control unit calculates the negative index by measuring cosine similarity by comparing the words obtained by the additional filtering with negative words and positive words in the list of parts of speech, and measures the cosine similarity for each negative word Thus, the sum of the representative values having the negative word having the highest value as the representative value can be calculated as the negative index.

상기 제어부는, 상기 산출한 부정지수를 상기 뉴스 기사의 본문 길이로 나누어 정규화하고, 상기 정규화한 부정지수에 상기 산출한 긍정지수를 연산처리하여 상기 최종의 부정지수를 산출할 수 있다.The controller may divide the calculated negative index by the body length of the news article to normalize it, and calculate the calculated positive index to the normalized negative index to calculate the final negative index.

또한, 본 발명의 실시예에 따른 부정뉴스 탐색장치의 구동방법은, 저장부가, 부정단어 및 긍정단어를 품사별로 구분하여 목록을 저장하는 단계, 및 제어부가, 상기 저장한 품사와 관련되는 품사 정보를 근거로 기수집한 뉴스 기사를 필터링하고, 상기 필터링한 뉴스 기사의 단어들과 상기 저장한 품사별 목록의 부정단어 및 긍정단어를 이용하여 부정지수 및 긍정지수를 각각 산출하며, 상기 산출한 부정지수 및 상기 산출한 긍정지수를 연산하여 최종의 부정지수를 산출하는 단계를 포함한다.In addition, the driving method of the negative news search apparatus according to an embodiment of the present invention includes the steps of: a storage unit classifying negative words and positive words by part-of-speech and storing the list; and the control unit, storing part-of-speech information related to the stored part of speech information Filters news articles collected based on and calculating a final negative index by calculating the index and the calculated positive index.

상기 산출하는 단계는, 상기 필터링한 뉴스 기사의 단어들에 대한 뉴스 기사 내 중요도를 더 고려하여 추가로 필터링해 상기 부정지수를 산출하는 단계를 더 포함하며, 상기 뉴스 기사 내 중요도를 판단하기 위해 TF-IDF 모델을 이용할 수 있다.The calculating step further includes calculating the negative index by further filtering in consideration of the importance in the news article with respect to the words of the filtered news article, and TF to determine the importance in the news article. -IDF model is available.

상기 산출하는 단계는, 상기 추가로 필터링해 얻은 단어들을 상기 품사별 목록의 부정단어 및 긍정단어과 비교하여 코사인 유사도를 측정하여 상기 부정지수를 산출하는 단계, 및 각 부정단어마다 상기 코사인 유사도를 측정하여 가장 높은 값이 나오는 부정단어를 대표값으로 하는 대표값들의 총합을 상기 부정지수로 산출하는 단계를 더 포함할 수 있다.The calculating step includes calculating the negative index by measuring the cosine similarity by comparing the additionally filtered words with negative and positive words in the list of parts of speech, and measuring the cosine similarity for each negative word. The method may further include calculating, as the negative index, a sum of representative values using the negative word having the highest value as the representative value.

상기 산출하는 단계는, 상기 산출한 부정지수를 상기 뉴스 기사의 본문 길이로 나누어 정규화하는 단계, 및 상기 정규화한 부정지수에 상기 산출한 긍정지수를 연산처리하여 상기 최종의 부정지수를 산출하는 단계를 더 포함할 수 있다.The calculating step includes normalizing the calculated negative index by dividing the length of the body of the news article, and calculating the final negative index by calculating the calculated positive index on the normalized negative index. may include more.

한편, 본 발명의 실시예에 따른 컴퓨터 판독가능 기록매체는, 부정뉴스 탐색장치의 구동방법을 실행하기 위한 프로그램을 포함하는 컴퓨터 판독가능 기록매체로서, 상기 부정뉴스 탐색장치의 구동방법은, 부정단어 및 긍정단어를 품사별로 구분하여 목록을 저장하는 단계, 및 상기 저장한 품사와 관련되는 품사 정보를 근거로 기수집한 뉴스 기사를 필터링하고, 상기 필터링한 뉴스 기사의 부정단어 및 긍정단어들과 상기 저장한 품사별 목록의 부정단어 및 긍정단어를 이용하여 부정지수 및 긍정지수를 각각 산출하며, 상기 산출한 부정지수 및 상기 산출한 긍정지수를 연산하여 최종의 부정지수를 산출하는 단계를 실행한다.On the other hand, a computer-readable recording medium according to an embodiment of the present invention is a computer-readable recording medium including a program for executing a driving method of a fraudulent news search apparatus, wherein the driving method of the fraudulent news search apparatus includes, and storing the list by classifying positive words by part-of-speech, and filtering news articles collected based on the stored part-of-speech information related to the part-of-speech, negative words and positive words of the filtered news article, and the A negative index and a positive index are respectively calculated using the negative and positive words of the stored list of parts-of-speech, and the final negative index is calculated by calculating the calculated negative index and the calculated positive index.

본 발명의 실시예에 따르면 가령 국가 재난 등과 관련하여 정책 반영시 언론 기사 등에서 지적하는 지적 사항을 함께 활용함으로써 정책의 효율성을 증대시킬 수 있을 것이다.According to an embodiment of the present invention, when policy is reflected in relation to a national disaster, etc., it is possible to increase the efficiency of the policy by utilizing the points pointed out in the media article.

도 1은 본 발명의 실시예에 따른 부정뉴스 탐색 시스템을 나타내는 도면,
도 2는 본 발명의 실시예에 따른 부정뉴스 탐색장치로서 도 1의 사용자 단말장치의 세부구조를 예시한 블록다이어그램,
도 3은 도 2의 부정뉴스 탐색부의 다른 세부구조를 예시한 블록다이어그램, 그리고
도 4는 본 발명의 실시예에 따른 부정뉴스 탐색장치의 구동과정을 나타내는 흐름도이다.
1 is a view showing a fraudulent news search system according to an embodiment of the present invention;
2 is a block diagram illustrating the detailed structure of the user terminal device of FIG. 1 as a fraudulent news search apparatus according to an embodiment of the present invention;
3 is a block diagram illustrating another detailed structure of the fraudulent news search unit of FIG. 2, and
4 is a flowchart illustrating a driving process of a fraudulent news search apparatus according to an embodiment of the present invention.

이하, 도면을 참조하여 본 발명의 실시예에 대하여 상세히 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

도 1은 본 발명의 실시예에 따른 부정뉴스 탐색시스템을 나타내는 도면이다.1 is a diagram illustrating a fraudulent news search system according to an embodiment of the present invention.

도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 부정뉴스 탐색시스템(90)은 사용자 단말장치(100), 통신망(110) 및 뉴스 서비스장치(120)의 일부 또는 전부를 포함한다.As shown in FIG. 1 , the fraudulent news search system 90 according to an embodiment of the present invention includes a part or all of a user terminal device 100 , a communication network 110 , and a news service device 120 .

여기서, 사용자 단말장치(100) 및 뉴스 서비스장치(120) 중 적어도 하나의 장치는 본 발명의 실시예에 따른 부정뉴스 탐색장치로서 동작할 수 있으며, 2개의 장치가 부정뉴스 탐색장치로서 동작하는 경우에는 서로 협업하여 동작할 수 있으며, "일부 또는 전부를 포함"한다는 것은 통신망(110)과 같은 일부 구성요소가 생략되어 사용자 단말장치(100)와 뉴스 서비스장치(120)가 다이렉트(예: P2P) 통신을 수행하거나, 뉴스 서비스장치(120)를 구성하는 구성요소의 일부 또는 전부가 통신망(110)의 네트워크장치(예: 무선교환장치 등)에 통합되어 구성될 수 있는 것 등을 의미하는 것으로서, 발명의 충분한 이해를 돕기 위하여 전부 포함하는 것으로 설명한다.Here, at least one of the user terminal device 100 and the news service device 120 may operate as a fraudulent news search device according to an embodiment of the present invention, and when two devices operate as a fraudulent news search device can operate in cooperation with each other, and "including some or all" means that some components such as the communication network 110 are omitted, so that the user terminal device 100 and the news service device 120 are direct (eg, P2P) It means that a part or all of the components constituting the news service device 120 may be integrated into a network device (eg, a wireless switching device, etc.) of the communication network 110 to perform communication or to be configured. In order to help a sufficient understanding of the invention, it will be described as including everything.

사용자 단말장치(100)는 본 발명의 실시예에 따른 부정뉴스 탐색장치로서 동작할 수 있으며, 데스크탑컴퓨터, 랩탑컴퓨터, 태블릿PC, 스마트폰, 스마트 TV 등을 포함할 수 있다. 물론, 국내 S사의 갤러시*어와 같은 웨어러블장치도 포함할 수 있다. 본 발명의 실시예에 따른 사용자 단말장치(100)는 부정뉴스의 탐색이 가능하다면 다양한 장치가 가능할 수 있으며, 부정뉴스 탐색을 위한 프로그램을 실행할 수 있으면 어떠한 장치도 무관한다.The user terminal device 100 may operate as a fraudulent news search apparatus according to an embodiment of the present invention, and may include a desktop computer, a laptop computer, a tablet PC, a smart phone, a smart TV, and the like. Of course, it may also include a wearable device such as a domestic S company's Galaxy *. The user terminal device 100 according to an embodiment of the present invention may use various devices as long as it is possible to search for fraudulent news, and any device may be used as long as it can execute a program for searching for fraudulent news.

사용자 단말장치(100)는 대표적으로 국가 재난 상황 등에 대비하기 위하여 뉴스 등의 언론 기사에서 부정뉴스를 탐지하고 탐지한 언론 기사의 부정지수를 산출함으로써 이를 통해 해당 언론 기사에서 국가 재난과 관련하여 지적하는 지적 사항을 콘텐츠로서 취득하여 이를 국가 재난 대비나 대처, 또는 예방을 위한 정책 등에 반영하기 위하여 사용할 수 있도록 한다. 따라서, 본 발명의 실시예에 따른 사용자 단말장치(100)는 국가 정부 기관의 연구원 등에서 특정 연구원에 의해 사용되는 컴퓨터 등이 바람직할 수 있다.The user terminal device 100 typically detects fraudulent news in media articles such as news in order to prepare for a national disaster situation, etc. Acquire the points pointed out as content and use them to reflect national disaster preparedness, response, or prevention policies. Therefore, the user terminal device 100 according to the embodiment of the present invention may preferably be a computer used by a specific researcher, such as a researcher of a national government institution.

예를 들어, 사용자 단말장치(100)는 본 발명의 실시예에 따른 동작을 수행하기 위한 프로그램을 기저장할 수 있다. 물론 프로그램은 저장매체를 통해 설치하거나 통신망(110)을 통해 프로그램 개발사의 서버에 접속하여 다운로드받는 등 다양한 형태로 설치될 수 있다. 또한, 사용자 단말장치(100)는 통신망(110)을 통해 뉴스 서비스장치(120)에 접속하여 국가 재난 등과 관련한 언론 기사를 수집하고 폴더(folder)를 생성해 그에 저장할 수 있다. 물론, 해당 폴더에 저장되는 언론기사는 국가 재난과 관련되는 뉴스 기사로서 100개 이내가 되거나 그 이상이 될 수도 있다. 물론 수집된 뉴스 기사는 폴더에 저장되는 것 이외에 엑셀 등의 파일 형태로 저장될 수도 있다. 본 발명의 실시예에 따른 뉴스 기사는 다양한 형태로 처리될 수 있으므로, 어느 하나의 형태에 특별히 한정하지는 않을 것이다. 다만, 뉴스 기사의 제목과 본문의 콘텐츠를 이용할 수 있다면 어떠한 형태여도 무관하다. 가령, 해당 언론 기사의 URL 주소정보를 이용하는 경우에는 해당 주소정보로 접속하여 제목 및 기사를 수집하는 것도 얼마든지 가능할 수 있다.For example, the user terminal device 100 may pre-store a program for performing an operation according to an embodiment of the present invention. Of course, the program may be installed in various forms, such as being installed through a storage medium or downloaded by accessing a server of a program developer through the communication network 110 . In addition, the user terminal device 100 may access the news service device 120 through the communication network 110 , collect media articles related to national disasters, etc., create a folder and store it therein. Of course, the number of news articles stored in the folder may be less than 100 or more as news articles related to national disasters. Of course, the collected news articles may be saved in a file format such as Excel in addition to being saved in a folder. Since a news article according to an embodiment of the present invention may be processed in various forms, it will not be particularly limited to any one form. However, as long as the title of the news article and the content of the main text are available, any form is irrelevant. For example, when URL address information of the relevant media article is used, it may be possible to collect titles and articles by accessing the address information.

구체적으로, 사용자 단말장치(100)는 본 발명의 실시예에 따른 프로그램을 실행하는 경우 모니터 화면상에는 폴더를 드래그하거나 수집된 뉴스 기사 파일을 드래그하여 분석이 이루어지도록 할 수 있다. 이에 따라, 부정지수가 산출되고, 모니터 화면에서 분석 결과를 표시하는 일 영역에는 각각의 뉴스 기사에 대한 항목 또는 헤드라인과 그 일측에는 산출된 부정지수가 표시될 수 있다. 가령, 본 발명의 실시예에서는 부정지수가 5.0 이상인 뉴스 기사에 관심이 있으므로 부정지수가 5.0 이상인 뉴스 기사만을 일측에 모아 화면상에 보여지도록 할 수 있다. UX/UI와 관련하여 다양한 형태가 가능하므로, 어느 하나의 형태에 특별히 한정하지는 않을 것이다.Specifically, when the user terminal device 100 executes the program according to the embodiment of the present invention, analysis may be performed by dragging a folder on the monitor screen or by dragging a collected news article file. Accordingly, a negative index is calculated, and an item or headline for each news article and the calculated negative index may be displayed on one side of the area displaying the analysis result on the monitor screen. For example, in the embodiment of the present invention, since there is an interest in news articles having a negative index of 5.0 or higher, only news articles having a negative index of 5.0 or greater are collected on one side and displayed on the screen. Since various forms are possible in relation to UX/UI, it will not be particularly limited to any one form.

국가 연구소의 연구원 등이 사용하는 컴퓨터상에 본 발명의 실시예에 따른 분석을 통해 부정지수가 표시되는 경우, 해당 연구원은 부정지수를 근거로 뉴스 기사를 선별하여 본문을 다시 확인하고, 해당 뉴스 기사를 통해 국가 재난 등과 관련한 지적 사항 등을 확인하여 정책 등에 반영할 수 있을 것이다.When a negative index is displayed through analysis according to an embodiment of the present invention on a computer used by a researcher of a national research institute, the researcher selects a news article based on the negative index, checks the text again, and the corresponding news article Through this, it will be possible to check the pointed out matters related to national disasters, etc. and reflect them in policies.

물론 본 발명의 실시예에서는 연구원 등이 사용하는 컴퓨터 등에 특별히 한정하지는 않을 것이며, 또한 국가 재난에 특별히 한정하지도 않을 것이다. 다시 말해, 본 발명의 실시예에 따른 부정뉴스의 탐색 방법은 어플리케이션(이하, 앱)의 형태로 사용자들의 스마트폰에서도 얼마든지 활용될 수 있으며, 나아가 가짜 뉴스 등을 선별하기 위하여 사용될 수도 있기 때문이다. 가령, 앱의 형태로 제작되는 경우에는 일반인들도 앱스토아 등을 통해 앱을 내려받아 이용하는 것도 얼마든지 가능할 수 있다.Of course, the embodiment of the present invention will not be particularly limited to computers used by researchers, etc., and will not be particularly limited to national disasters. In other words, the method of searching for fraudulent news according to an embodiment of the present invention can be freely used in users' smartphones in the form of an application (hereinafter, an app), and furthermore, it can be used to screen for fake news. . For example, if it is produced in the form of an app, it may be possible for the general public to download and use the app through the App Store.

또한, 사용자 단말장치(100)는 본 발명의 실시예에 따른 동작이 뉴스 서비스장치(120)에서 이루어지는 경우에는 해당 뉴스 서비스장치(120)에 접속하여 자신이 수집한 뉴스 기사들에 대한 목록이나 파일을 제공하여 위에서와 같은 서비스(예: 뉴스 기사에 대한 부정지수를 얻는 서비스)를 이용하는 것도 얼마든지 가능하다. 따라서 본 발명의 실시예에서는 어느 하나의 형태에 특별히 한정하지는 않을 것이다. 다시 말해, 본 발명의 실시예에서는 사용자 단말장치(100)에서 국가 재난 등과 관련해 관심있는 뉴스 기사를 수집하고, 수집한 뉴스 기사들을 기저장한 프로그램을 이용해 분석하여 분석 결과를 화면에서 부정지수의 형태로 확인할 수 있지만, 뉴스 서비스장치(120)에서 분석을 수행하거나 뉴스 서비스장치(120)와 연동하여 본 발명의 실시예에 따른 동작을 수행하는 것도 얼마든지 가능하다. 물론 사용자 단말장치(100)나 뉴스 서비스장치(120)와 별도로 부정뉴스 탐색 동작을 수행하는 별도의 장치(예: 서버)를 구축하는 것도 얼마든지 가능할 수 있을 것이다.In addition, when the operation according to the embodiment of the present invention is performed in the news service device 120 , the user terminal device 100 accesses the corresponding news service device 120 and lists or files the news articles collected by the user terminal device 100 . It is also possible to use the same service as above (eg, a service to obtain a negative index for a news article) by providing Therefore, the embodiment of the present invention will not be particularly limited to any one form. In other words, in the embodiment of the present invention, the user terminal device 100 collects interesting news articles related to national disasters, analyzes the collected news articles using a pre-stored program, and displays the analysis result in the form of a negative index on the screen. However, it is possible to perform the analysis in the news service device 120 or to perform the operation according to the embodiment of the present invention in conjunction with the news service device 120 . Of course, it may be possible to construct a separate device (eg, a server) that performs a fraudulent news search operation separately from the user terminal device 100 or the news service device 120 .

통신망(110)은 유무선 통신망을 모두 포함한다. 가령 통신망(110)으로서 유무선 인터넷망이 이용되거나 연동될 수 있다. 여기서 유선망은 케이블망이나 공중 전화망(PSTN)과 같은 인터넷망을 포함하는 것이고, 무선 통신망은 CDMA, WCDMA, GSM, EPC(Evolved Packet Core), LTE(Long Term Evolution), 와이브로(Wibro) 망 등을 포함하는 의미이다. 물론 본 발명의 실시예에 따른 통신망(110)은 이에 한정되는 것이 아니며, 차세대 이동통신 시스템의 접속망으로서 가령 클라우드 컴퓨팅 환경하의 클라우드 컴퓨팅망, 5G망 등에 사용될 수 있다. 가령, 통신망(110)이 유선 통신망인 경우 통신망(110) 내의 액세스포인트는 전화국의 교환국 등에 접속할 수 있지만, 무선 통신망인 경우에는 통신사에서 운용하는 SGSN 또는 GGSN(Gateway GPRS Support Node)에 접속하여 데이터를 처리하거나, BTS(Base Transceiver Station), NodeB, e-NodeB 등의 다양한 중계기에 접속하여 데이터를 처리할 수 있다.The communication network 110 includes both wired and wireless communication networks. For example, a wired/wireless Internet network may be used or interlocked as the communication network 110 . Here, the wired network includes an Internet network such as a cable network or a public telephone network (PSTN), and the wireless communication network includes CDMA, WCDMA, GSM, Evolved Packet Core (EPC), Long Term Evolution (LTE), and Wibro networks. meaning to include Of course, the communication network 110 according to the embodiment of the present invention is not limited thereto, and may be used as an access network of a next-generation mobile communication system, for example, a cloud computing network under a cloud computing environment, a 5G network, and the like. For example, when the communication network 110 is a wired communication network, the access point in the communication network 110 can connect to a switching center of a telephone company, etc., but in the case of a wireless communication network, it connects to a SGSN or GGSN (Gateway GPRS Support Node) operated by a communication company to transmit data. Data can be processed by accessing various repeaters such as a BTS (Base Transceiver Station), NodeB, and e-NodeB.

통신망(110)은 액세스포인트를 포함할 수 있다. 여기서의 액세스포인트는 건물 내에 많이 설치되는 펨토(femto) 또는 피코(pico) 기지국과 같은 소형 기지국을 포함한다. 여기서, 펨토 또는 피코 기지국은 소형 기지국의 분류상 영상편집장치(130) 등을 최대 몇 대까지 접속할 수 있느냐에 따라 구분된다. 물론 액세스포인트는 사용자 단말장치(100)와 지그비 및 와이파이 등의 근거리 통신을 수행하기 위한 근거리 통신모듈을 포함할 수 있다. 액세스포인트는 무선통신을 위하여 TCP/IP 혹은 RTSP(Real-Time Streaming Protocol)를 이용할 수 있다. 여기서, 근거리 통신은 와이파이 이외에 블루투스, 지그비, 적외선, UHF(Ultra High Frequency) 및 VHF(Very High Frequency)와 같은 RF(Radio Frequency) 및 초광대역 통신(UWB) 등의 다양한 규격으로 수행될 수 있다. 이에 따라 액세스포인트는 데이터 패킷의 위치를 추출하고, 추출된 위치에 대한 최상의 통신 경로를 지정하며, 지정된 통신 경로를 따라 데이터 패킷을 다음 장치, 예컨대 뉴스 서비스장치(120)로 전달할 수 있다. 액세스포인트는 일반적인 네트워크 환경에서 여러 회선을 공유할 수 있으며, 예컨대 라우터(router), 리피터(repeater) 및 중계기 등이 포함된다.The communication network 110 may include an access point. Here, the access point includes a small base station, such as a femto or pico base station, which is often installed in a building. Here, the femto or pico base station is classified according to the maximum number of video editing devices 130, etc. that can be connected to the small base station. Of course, the access point may include a short-range communication module for performing short-distance communication such as Zigbee and Wi-Fi with the user terminal device 100 . The access point may use TCP/IP or Real-Time Streaming Protocol (RTSP) for wireless communication. Here, short-range communication may be performed in various standards such as Bluetooth, Zigbee, infrared, radio frequency (RF) such as ultra high frequency (UHF) and very high frequency (VHF), and ultra-wideband communication (UWB) in addition to Wi-Fi. Accordingly, the access point may extract the location of the data packet, designate the best communication path for the extracted location, and forward the data packet to the next device, for example, the news service device 120 along the designated communication path. The access point may share several lines in a general network environment, and includes, for example, a router, a repeater, and a repeater.

뉴스 서비스장치(120)는 뉴스를 제공하는 언론사, 야후나 네*버, 다*음 등과 같은 포털 운영사의 서버 등을 포함할 수 있다. 이외에도 뉴스 서비스장치(120)는 뉴스를 제공하는 다양한 장치를 포함할 수 있다. 예를 들어, 본 발명의 실시예에 따른 부정뉴스 탐색 과정은 텍스트 형태의 뉴스 기사뿐 아니라, 동영상 형태의 뉴스 기사도 얼마든지 탐색이 가능할 수 있다. 예를 들어, 동영상의 음성 등을 인식하여 텍스트화하고, 텍스트화된 콘텐츠를 본 발명의 실시예에 이용할 수 있다. 따라서, 본 발명의 실시예에 따른 뉴스 서비스장치(120)는 텍스트 형태의 뉴스 기사뿐 아니라 동영상 형태의 뉴스 기사도 제공하는 장치를 모두 포함할 수 있다.The news service device 120 may include a media company that provides news, a server of a portal operator such as Yahoo, Never, Da* Daum, and the like. In addition, the news service device 120 may include various devices that provide news. For example, in the fraudulent news search process according to an embodiment of the present invention, it may be possible to search for news articles in the form of videos as well as news articles in text format. For example, the voice of a moving image may be recognized and converted into text, and the textualized content may be used in an embodiment of the present invention. Accordingly, the news service device 120 according to the embodiment of the present invention may include both a news article in a text format and a news article in a video format.

앞서 언급한 대로, 뉴스 서비스장치(120)는 사용자 단말장치(100)에서 제공하는 뉴스 기사나 뉴스 기사와 관련한 정보(예: URL 정보 등)를 근거로 부정지수를 산출하는 동작을 수행할 수 있으며, 이의 경우에는 뉴스 서비스장치(120)에서 이러한 분석이 가능할 수 있지만, 별도의 장치를 구성하는 부정뉴스 탐색장치로서 동작하도록 구축할 수도 있다. 다만, 본 발명의 실시예에서는 국가 재난과 관련한 부정뉴스를 탐색하고자 하고, 또 정부 산하의 국립재난안전연구원 등에 한하여 설명하는 만큼 연구원이 사용하는 컴퓨터 등의 사용자 단말장치(100)에서 본 발명의 실시예에 따른 동작이 이루어지는 것이 바람직하므로 더 이상의 설명은 생략한다.As mentioned above, the news service device 120 may perform an operation of calculating a negative index based on a news article or news article-related information (eg, URL information, etc.) provided by the user terminal device 100, , in this case, such analysis may be possible in the news service device 120, but it may also be constructed to operate as a fraudulent news search device constituting a separate device. However, in the embodiment of the present invention, the present invention is performed in the user terminal device 100 such as a computer used by the researcher as much as it is intended to search for fraudulent news related to national disasters, and only the government-affiliated National Disaster and Safety Research Institute, etc. Since it is preferable to perform the operation according to the example, further description is omitted.

예를 들어, 사용자 단말장치(100)의 사용자는 포털 서비스에 접속하여 즉 뉴스 서비스장치(120)에 접속하여 자신이 관심있는 키워드를 검색창에 입력함으로써 뉴스 기사와 관련한 검색 목록을 화면에서 확인할 수 있다. 그리고 화면에 표시되어 있는 뉴스 기사를 하나씩 수집할 수 있지만, 뉴스 서비스장치(120)에서 검색된 뉴스 기사를 일괄적으로 선택하여 수집할 수 있는 기능이 있다면(예: 전체선택 등) 이를 이용하여 100개 이내 또는 그 이상의 뉴스 기사를 수집하여 폴더에 저장시키거나 엑셀 파일 형태로 수집할 수 있다. 물론, 여기서 엑셀 파일의 경우에도 뉴스 기사의 제목과 본문을 포함하는 것이 바람직하다.For example, the user of the user terminal device 100 can check the search list related to news articles on the screen by accessing the portal service, that is, accessing the news service device 120 and inputting a keyword of interest to the user in the search box. have. In addition, the news articles displayed on the screen can be collected one by one, but if there is a function to collectively select and collect news articles retrieved from the news service device 120 (eg, select all, etc.), 100 You can collect or more news articles and save them in a folder or collect them in the form of an Excel file. Of course, even in the case of the Excel file, it is preferable to include the title and body of the news article here.

도 2는 본 발명의 실시예에 따른 부정뉴스 탐색장치로서 도 1의 사용자 단말장치의 세부구조를 예시한 블록다이어그램이다.FIG. 2 is a block diagram illustrating a detailed structure of the user terminal device of FIG. 1 as a fraudulent news search apparatus according to an embodiment of the present invention.

도 2에 도시된 바와 같이, 본 발명의 실시예에 따른 사용자 단말장치(100)는 데스크탑 컴퓨터, 랩탑 컴퓨터, 나아가 태블릿PC와 같은 컴퓨터로서, 통신 인터페이스부(200), 제어부(210), 부정뉴스 탐색부(220) 및 저장부(230)의 일부 또는 전부를 포함하며, 사용자 명령을 수신하는 사용자 인터페이스부, UI 화면 등을 표시하는 디스플레이부 등을 더 포함할 수 있다.As shown in FIG. 2 , the user terminal device 100 according to an embodiment of the present invention is a computer such as a desktop computer, a laptop computer, and furthermore a tablet PC, and includes a communication interface unit 200 , a control unit 210 , and negative news. Some or all of the search unit 220 and the storage unit 230 are included, and may further include a user interface unit for receiving a user command, a display unit for displaying a UI screen, and the like.

여기서, "일부 또는 전부를 포함한다"는 것은 저장부(230)와 같은 일부 구성요소가 생략되어 구성되거나, 부정뉴스 탐색부(220)와 같은 일부 구성요소가 제어부(210)와 같은 다른 구성요소에 통합되어 구성될 수 있는 것 등을 의미하는 것으로 발명의 충분한 이해를 돕기 위하여 전부 포함하는 것으로 설명한다.Here, “including some or all” means that some components such as the storage unit 230 are omitted, or some components such as the negative news search unit 220 are other components such as the control unit 210 . It is described as including all in order to help a sufficient understanding of the invention as meaning that it can be configured by being integrated in the present invention.

통신 인터페이스부(200)는 도 1의 통신망(110)을 경유하여 프로그램 개발사의 서버 등에 접속하여 본 발명의 실시예에 따른 프로그램을 다운로드받아 저장하거나, EEPROM의 형태로 프로그램을 부정뉴스 탐색부(220)에 저장시키거나 CD, USB 등의 저장매체를 통해 프로그램을 저장시키기 위해 동작할 수 있다.The communication interface unit 200 connects to the server of the program developer via the communication network 110 of FIG. 1 to download and store the program according to the embodiment of the present invention, or to search the illegal news search unit 220 for the program in the form of EEPROM. ), or it can be operated to store a program through a storage medium such as CD or USB.

또한, 통신 인터페이스부(200)는 사용자 단말장치(100)를 사용하는 사용자의 요청에 따라 뉴스 서비스장치(120)에 접속하여 가령 국가 재난 등과 관련한 언론 기사를 수신하여 제어부(210)로 제공할 수 있다. 물론 통신 인터페이스부(200)는 뉴스 기사를 수집하는 과정에서 이미지가 있는 경우 이를 처리하기 위하여 디코딩 등의 동작을 수행할 수 있다. 좀더 구체적으로 통신 인터페이스부(200)는 뉴스 서비스장치(120)와 통신하기 위하여 변/복조, 먹싱/디먹싱, 인코딩/디코딩, 해상도를 변환하는 스케일링 등의 다양한 동작을 수행할 수 있으며, 이는 당업자에게 자명하므로 더 이상의 설명은 생략하다.In addition, the communication interface unit 200 may access the news service device 120 according to a request of a user using the user terminal device 100 to receive, for example, a press article related to a national disaster and provide it to the control unit 210 . have. Of course, when there is an image in the process of collecting news articles, the communication interface unit 200 may perform an operation such as decoding to process it. In more detail, the communication interface unit 200 may perform various operations such as modulation/demodulation, muxing/demuxing, encoding/decoding, and scaling for converting a resolution in order to communicate with the news service device 120 , which are those skilled in the art. Since it is self-explanatory, further explanation is omitted.

제어부(210)는 도 2의 사용자 단말장치(100)를 구성하는 통신 인터페이스부(200), 부정뉴스 탐색부(220) 및 저장부(230)의 전반적인 제어 동작을 담당한다. 예를 들어, 제어부(210)는 본 발명의 실시예에 따른 부정뉴스 탐색을 위한 프로그램을 부정뉴스 탐색부(220)에 저장시킬 수 있다. 그리고, 사용자의 요청이 있는 경우 부정뉴스 탐색부(220)를 제어하여 해당 프로그램을 실행시킬 수 있다.The control unit 210 is in charge of overall control operations of the communication interface unit 200, the fraudulent news search unit 220, and the storage unit 230 constituting the user terminal device 100 of FIG. For example, the control unit 210 may store a program for searching for fraudulent news according to an embodiment of the present invention in the fraudulent news search unit 220 . And, when there is a user's request, the program may be executed by controlling the fraudulent news search unit 220 .

또한, 제어부(210)는 사용자가 수집하는 국가 재난 등과 관련한 뉴스 기사가 통신 인터페이스부(200)에서 제공되면 이를 저장부(230)에 저장한 후 불러내어 부정뉴스 탐색부(220)로 제공해 부정지수 등이 산출되도록 할 수 있다. 이외에도 제어부(210)는 본 발명의 실시예에 따른 뉴스 기사의 부정뉴스 탐색을 위하여 부정뉴스 탐색부(220)와 다양한 동작을 수행할 수 있다.In addition, when the news articles related to national disasters collected by the user are provided by the communication interface unit 200, the control unit 210 stores them in the storage unit 230 and then calls them and provides them to the fraudulent news search unit 220 to provide the negative index etc. can be produced. In addition, the control unit 210 may perform various operations with the fraudulent news search unit 220 in order to search for fraudulent news of a news article according to an embodiment of the present invention.

부정뉴스 탐색부(220)는 제어부(210)의 요청에 따라 부정뉴스 탐색과 관련한 전반적인 동작을 수행한다. 예를 들어 부정뉴스 탐색부(220)는 사용자가 특정 주제(예: 국가 재난 등)와 관련하여 수집한 뉴스 기사에 대하여 뉴스 기사별로 부정지수를 산출하고 이를 근거로 특정 뉴스 기사의 콘텐츠를 사용자가 살필 수 있도록 한다. 이를 위하여 부정뉴스 탐색부(220)는 뉴스와 관련한 부정단어나 긍정단어의 품사별 목록을 생성하여 부정단어와 긍정단어의 정보 즉 데이터를 품사별로 구분하여 저장한다. 그리고, 수집한 뉴스 기사와 관련한 콘텐츠가 수신되면 기저장한 부정단어와 긍정단어를 이용해 목록(혹은 사전)에 없는 단어들은 모두 삭제한다. 본 발명의 실시예에서는 이를 필터링한다고 명명할 수 있다.The fraudulent news search unit 220 performs an overall operation related to the search for fraudulent news according to the request of the control unit 210 . For example, the fraudulent news search unit 220 calculates a negative index for each news article with respect to the news articles collected by the user in relation to a specific topic (eg, a national disaster, etc.) make it possible to check To this end, the negative news search unit 220 generates a list of negative words or positive words related to news by part-of-speech, and stores information of negative words and positive words, that is, data by part-of-speech. And, when content related to the collected news article is received, all words not in the list (or dictionary) are deleted using pre-stored negative and positive words. In an embodiment of the present invention, this may be called filtering.

물론 본 발명의 실시예에서는 이보다는 뉴스 기사의 원문을 형태소 분석을 통해 품사별로 분류하고, 목록에 저장되어 단어들의 품사 정보를 근거로 단어들을 선별해 내며, 이를 위하여 목록의 품사 정보를 이용할 수 있지만, 화면상에 품사 정보를 별도로 입력하도록 하는 UI 화면을 제공하고 이를 통해 입력되는 품사 정보를 이용할 수도 있으므로, 본 발명의 실시예에서는 어느 하나의 형태에 특별히 한정하지는 않을 것이다. 부정뉴스 탐색부(220)는 선별된 단어들, 가령 부정단어나 긍정단어에 대하여도 TF-IDF와 같은 모델을 통해 하나의 뉴스 기사 내에서 얼마나 중요도를 갖는지를 분석하여 낮은 값을 갖는 단어들을 또한 삭제할 수 있다. 여기서, TF-IDF는 정보 검색과 텍스트 마이닝에서 이용하는 가중치로, 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치이다(예: 기자, 뉴스 등). TF-IDF를 이용하는 이유는 필터링된 뉴스 기사에서의 부정지수 산출시 정확도를 높이기 위함이다. 예를 들어, '기자'나 '뉴스'와 같은 단어들은 모든 기사들에 포함되어 있고 부정뉴스 탐색시 중요한 키워드를 작용하지 않기 때문에 TF-IDF 값이 낮을 것으로 예상된다. 이러한 경우 이 단어들은 제외한다. 따라서, 이 단계는 부정지수 산출 전, 미리 작업을 해야하는 단계이다.Of course, in the embodiment of the present invention, the original text of the news article is classified by part-of-speech through morpheme analysis, and the words are selected based on the part-of-speech information of the words stored in the list, and for this purpose, the part-of-speech information of the list can be used. , since a UI screen for separately inputting the part-of-speech information on the screen may be provided and the part-of-speech information input through this may be used, the embodiment of the present invention will not be particularly limited to any one form. The negative news search unit 220 analyzes how important selected words, for example, negative words or positive words, in one news article through a model such as TF-IDF, and also words having a low value. can be deleted. Here, TF-IDF is a weight used in information retrieval and text mining, and is a statistical number indicating how important a word is in a specific document when there is a document group consisting of several documents (eg, reporter, news, etc.). The reason for using TF-IDF is to increase the accuracy when calculating the negative index in the filtered news article. For example, the TF-IDF value is expected to be low because words such as 'reporter' or 'news' are included in all articles and do not act as important keywords when searching for negative news. In this case, these words are excluded. Therefore, this step is a step that needs to be done before calculating the negative index.

부정뉴스 탐색부(220)는 선별된 즉 필터링된 부정단어나 긍정단어에 대하여 코사인 유사도 측정을 통해 부정지수를 산출하기 위한 동작을 수행한다. 예를 들어, 선별된 부정단어가 총 n라 가정하면, 각 부정단어마다 품사별로 사전에 저장되어 있는 부정단어들과의 코사인 유사도를 측정하여 가장 높은 값의 단어를 대표값으로 한다. 이러한 방식으로 n번 반복하여 나온 대표값들의 합을 뉴스의 부정지수로 산출할 수 있다. 가령, 사전에 저장되는 명사 부정단어가 1000개이고, 선별된 명사 부정단어가 50개이면, 50개의 부정단어를 각각 사전의 동일 품사에 해당하는 단어들과 비교하여 큐사인 유사도를 측정해 대표값을 얻고, 이와 과정으로 대표값을 합산하여 하나의 뉴스 기사에 대한 부정지수를 산출한다. 자세한 내용은 이후에 좀더 다루기로 한다.The negative news search unit 220 performs an operation for calculating a negative index through cosine similarity measurement with respect to the selected, that is, filtered negative or positive words. For example, assuming that the number of selected negative words is n, the cosine similarity of each negative word with negative words stored in advance for each negative word is measured, and the word with the highest value is used as a representative value. In this way, the sum of representative values repeated n times can be calculated as the negative index of news. For example, if the number of negative noun words stored in the dictionary is 1000 and the number of selected noun negative words is 50, each of the 50 negative words is compared with words corresponding to the same part-of-speech in the dictionary, and the cue sign similarity is measured to obtain a representative value. In this process, the representative values are summed to calculate the negative index for one news article. More details will be dealt with later.

TF-IDF 값이 낮은 단어들을 제외하고 남은 단어들에 대해 품사별 목록의 부정단어와 비교하여 코사인 유사도를 측정하여 부정지수를 산출하고, 각 부정단어마다 코사인 유사도를 측정하여 가장 높은 값이 나오는 부정단어를 대표값으로 하는 대표값들의 총합을 부정지수로 산출한다. 물론 긍정단어의 경우에는 긍정단어의 품사별 목록의 긍정단어와 비교하여 긍정지수를 산출하는 형태로 이루어질 수 있다.The negative index is calculated by measuring the cosine similarity of the remaining words except for the words with the low TF-IDF value by comparing them with the negative words in the list of parts of speech, and measuring the cosine similarity of each negative word to determine the highest value The sum of the representative values using the word as the representative value is calculated as a negative index. Of course, in the case of a positive word, it can be made in the form of calculating a positive index by comparing it with the positive word in the list of positive words by part-of-speech.

또한, 부정뉴스 탐색부(220)는 산출한 부정지수의 정확도를 높이기 위하여 뉴스 기사의 본문길이를 반영할 수 있다. 즉 본문길이가 길수록 단어가 많이 존재하므로 정규화할 필요가 있는 것이다. 따라서, 부정뉴스 탐색부(220)는 부정지수를 본문길이로 나눠 정규화한다. 이후 부정뉴스 탐색부(220)는 위에서와 같은 방식으로 산출한 긍정지수를 부정지수에서 빼주어 즉 각각 산출한 부정지수와 긍정지수를 연산하여 최종의 부정지수를 산출하게 된다. 가령, 하나의 뉴스 기사마다 부정지수가 산출되므로, 100개의 뉴스 기사가 수집되어 분석되는 경우에는 100개의 기사에 대한 각각의 부정지수가 산출될 수 있다.In addition, the negative news search unit 220 may reflect the length of the body of the news article in order to increase the accuracy of the calculated negative index. In other words, the longer the text length, the more words there are, so it is necessary to normalize it. Accordingly, the negative news search unit 220 normalizes the negative index by dividing it by the body length. Thereafter, the negative news search unit 220 subtracts the positive index calculated in the same manner as above from the negative index, that is, calculates the calculated negative index and positive index, respectively, to calculate the final negative index. For example, since a negative index is calculated for each news article, when 100 news articles are collected and analyzed, each negative index for 100 articles may be calculated.

저장부(230)는 사용자에 의해 수집된 뉴스 기사에 대한 콘텐츠 즉 기사의 제목이나 본문이 저장될 수 있으므로, 목록의 형태로 저장될 수 있다. 또한, 프로그램의 실행 이전에 미리 부정단어와 긍정단어 등이 저장부(230)에 저장될 수 있지만, 이러한 부정단어와 긍정단어들에 대한 데이터는 부정뉴스 탐색부(220)의 프로그램 내 레지스트리에 저장될 수도 있으므로, 본 발명의 실시예에서는 어느 하나의 형태에 특별히 한정하지는 않을 것이다.The storage unit 230 may store content for news articles collected by the user, that is, the title or body of the article, and thus may be stored in the form of a list. In addition, negative words and positive words may be stored in the storage unit 230 before the execution of the program, but the data for these negative words and positive words are stored in the program registry of the negative news search unit 220 . Since it may be, the embodiment of the present invention will not be particularly limited to any one form.

한편, 본 발명의 다른 실시예로서 제어부(210)는 CPU 및 메모리를 포함할 수 있으며, 원칩화하여 형성될 수 있다. CPU는 제어회로, 연산부(ALU), 명령어해석부 및 레지스트리 등을 포함하며, 메모리는 램을 포함할 수 있다. 제어회로는 제어동작을, 그리고 연산부는 2진비트정보의 연산동작을, 그리고 명령어해석부는 인터프리터나 컴파일러 등을 포함하여 고급언어를 기계어로, 또 기계어를 고급언어로 변환하는 동작을 수행할 수 있으며, 레지스트리는 소프트웨어적인 데이터 저장에 관여할 수 있다. 상기의 구성에 따라, 가령 도 1의 사용자 단말장치(100)의 동작 초기에 부정뉴스 탐색부(220)에 저장되어 있는 프로그램을 복사하여 메모리 즉 램(RAM)에 로딩한 후 이를 실행시킴으로써 데이터 연산 처리 속도를 빠르게 증가시킬 수 있다.On the other hand, as another embodiment of the present invention, the control unit 210 may include a CPU and a memory, and may be formed as a single chip. The CPU includes a control circuit, an arithmetic unit (ALU), an instruction interpreter and a registry, and the memory may include a RAM. The control circuit may perform a control operation, the operation unit may perform an operation operation of binary bit information, and the instruction interpretation unit may perform an operation of converting a high-level language into machine language and/or converting a machine language into a high-level language, including an interpreter or compiler. , the registry may be involved in software data storage. According to the above configuration, for example, at the beginning of the operation of the user terminal device 100 of FIG. 1 , the program stored in the fraudulent news search unit 220 is copied, loaded into a memory, that is, a RAM, and then data is calculated by executing it. The processing speed can be increased quickly.

도 3은 도 2의 부정뉴스 탐색부의 다른 세부구조를 예시한 블록다이어그램이다.3 is a block diagram illustrating another detailed structure of the fraudulent news search unit of FIG. 2 .

도 3에 도시된 바와 같이, 도 2의 부정뉴스 탐색부(220)는 도 3에서와 같은 부정뉴스 탐색부(220')의 구조를 가질 수 있으며, 단어 목록부(300), 뉴스원문 축소부(310), 지수 산출부(320) 및 최종지수 결정부(330)의 일부 또는 전부를 포함하며, 여기서 "일부 또는 전부를 포함"한다는 것은 앞서서의 의미와 동일하다.As shown in FIG. 3 , the fraudulent news search unit 220 of FIG. 2 may have the structure of the fraudulent news search unit 220 ′ as in FIG. 3 , the word list unit 300 and the original news reduction unit 310, including some or all of the index calculating unit 320 and the final index determining unit 330, where "includes some or all" has the same meaning as above.

도 3에서 단어 목록부(300), 뉴스원문 축소부(310), 지수 산출부(320) 및 최종지수 결정부(330)는 하드웨어(H/W), 소프트웨어(S/W), 또는 그 조합에 의해 구성될 수 있으므로 본 발명의 실시예에서는 어느 하나의 형태에 특별히 한정하지는 않을 것이다.3, the word list unit 300, the news original text reduction unit 310, the index calculation unit 320, and the final index determination unit 330 are hardware (H/W), software (S/W), or a combination thereof. Since it may be configured by , it will not be particularly limited to any one form in the embodiment of the present invention.

단어 목록부(300)는 부정단어나 긍정단어를 품사별로 분류하여 저장한다. 가령 부정단어는 막막, 허술, 뒷북 등 총 2000여개의 단어가 사용될 수 있다. 명사(NN) 100개, 어근(XR) 200개, 일반부사(MAG) 200개 등으로 분류될 수 있다. 또한, 긍정단어는 마련, 추진, 강화 등의 단어들이 사용될 수 있다.The word list unit 300 classifies and stores negative or positive words by parts of speech. For example, a total of about 2,000 words can be used for negative words, such as makmak, laziness, and back book. It can be classified into 100 nouns (NN), 200 roots (XR), and 200 general adverbs (MAG). In addition, as the affirmative word, words such as provision, promotion, reinforcement, etc. may be used.

뉴스원문 축소부(310)는 하나의 뉴스에 제목과 본문을 형태소 분석을 통해 품사를 태깅하고, 부정단어(혹은 긍정단어) 목록에 있는 품사만 남기고 관련 없는 단어들은 삭제한다. 이를 위하여 가령 DB나 메모리에 저장되어는 품사 정보를 이용하거나 별도의 UI 화면을 통해 입력되는 품사 정보를 이용할 수 있다. 또한, TF-IDF를 통해 중요도가 낮은 값을 가진 단어도 삭제한다. TF-IDF는 품사에 의해 선별된 특정 단어가 하나의 뉴스 기사 내에서 얼마나 중요하게 고려되는지를 나타내는 수치이다. 이와 같이 뉴스원문 축소부(310)는 하나의 뉴스 기사 전체에서 원하지 않는 단어들을 삭제 즉 필터링함으로써 뉴스 원문의 텍스트 분량을 축소하는 것이다.The news original text reduction unit 310 tags one piece of news through morphological analysis of the title and text, and deletes unrelated words while leaving only the part-of-speech in the negative word (or positive word) list. For this purpose, for example, part-of-speech information stored in a DB or memory may be used, or part-of-speech information input through a separate UI screen may be used. Also, words with low importance are deleted through TF-IDF. TF-IDF is a numerical value indicating how important a specific word selected by part-of-speech is considered in one news article. As described above, the news original text reduction unit 310 reduces the text amount of the original news text by deleting or filtering unwanted words from all one news article.

또한, 지수 산출부(320)는 부정지수를 산출할 뿐 아니라 긍정지수를 산출할 수 있다. 예를 들어, 뉴스원문 축소부(310)를 통해 남은 단어(w)가 n개라 가정하자. 따라서 n개 중 남은 단어 1개와 부정단어간의 코사인 유사도를 측정하여 가장 높은 값이 위의 남은 단어 1개의 대표값이 된다. 단, 남은 단어 1개의 품사와 같은 가령 목록상의 부정단어들간의 코사인 유사도를 측정한다In addition, the index calculator 320 may calculate the positive index as well as the negative index. For example, it is assumed that there are n words (w) remaining through the news original text reduction unit 310 . Therefore, the cosine similarity between one remaining word and a negative word among n is measured, and the highest value becomes the representative value of the remaining one above. However, it measures the cosine similarity between negative words on the list, such as the part-of-speech of one remaining word.

지수 산출부(320)는 나아가 n번 반복하여 나온 값들의 합을 해당 뉴스의 부정지수로 한다. n개에 대한 부정지수의 산출은 <수학식 1>과 같이 나타낼 수 있다.The index calculation unit 320 further sets the sum of the values repeated n times as the negative index of the news. The calculation of negative indices for n pieces can be expressed as <Equation 1>.

Figure pat00001
Figure pat00001

예를 들어 보면, 뉴스원문 축소부(310)에서 선별된 단어가 100가 존재한다고 가정하자. 이때, 명사는 70개, 어근은 20개, 일반부사는 10개이다. 이의 경우 명사 1개와 부정단어 내 명사 1000개간의 코사인 유사도를 측정하여 가장 큰값을 구하고, 70개의 부정단어에 대하여 반복한다. 70개의 각 명사에 대하여 유사도를 측정한다. 즉 위에서 남은 단어 중 명사가 70개이기 때문이다. 또한, 어근 1개와 부정단어 내 어근 200개간의 코사인 유사도를 측정하여 가장 큰값을 구하고, 20번을 반복한다. 남은 단어 중 어근이 20개이기 때문이다. 나아가, 일반부사 1개와 부정단어 일반부사 200개간의 코사인 유사도를 측정하여 가장 큰값을 구하고, 10번을 한다. 남은 단어 중 일반부사가 10개이기 때문이다. 이와 같은 방식으로 나온 대표값 100개의 합이 해당 뉴스의 부정지수가 된다.For example, it is assumed that there are 100 words selected by the news original text reduction unit 310 . At this time, there are 70 nouns, 20 roots, and 10 general adverbs. In this case, the largest value is obtained by measuring the cosine similarity between one noun and 1000 nouns in the negative word, and repeat for 70 negative words. The similarity is measured for each of the 70 nouns. This is because there are 70 nouns among the remaining words above. Also, measure the cosine similarity between one root and 200 roots in the negative word to find the largest value, and repeat 20 times. This is because there are 20 roots of the remaining words. Furthermore, measure the cosine similarity between one general adverb and 200 general adverbs of the negative word to find the largest value, and repeat 10 times. This is because there are 10 general adverbs among the remaining words. The sum of 100 representative values obtained in this way becomes the negative index of the news.

또한, 최종지수 결정부(혹은 최종지수 산출부)(330)는 지수 산출부(320)에서 산출된 부정지수에 대하여 본문길이를 반영하고, 긍정단어의 지수를 반영한다. 다시 말해, 본문길이가 길수록 단어가 많이 존재하므로 정규화가 필요하다. 따라서 지수 산출부(320)에서 나온 부정지수를 본문 길이로 나눠 정규화한다. 또한, 긍정단어(예: 마련, 추진, 강화 등)로 위의 부정지수 산출 과정과 동일하게 수행하여 긍정지수를 산출하여 나온 긍정지수를 부정지수에 적용하여 최종 부정지수를 산출할 수 있다. 즉 최종 부정지수는 위의 지수 산출부(320)에서 각각 산출된 부정지수에서 긍정지수를 연산, 가령 뺄셈 처리함으로써 얻을 수 있다.In addition, the final index determination unit (or the final index calculation unit) 330 reflects the text length for the negative index calculated by the index calculation unit 320, and reflects the index of the positive word. In other words, the longer the text length, the more words there are, so normalization is necessary. Therefore, the negative exponent output from the exponent calculation unit 320 is divided by the length of the text and normalized. In addition, the final negative index can be calculated by applying the positive index obtained by calculating the positive index by performing the same procedure as the above negative index calculation process with positive words (eg, preparation, promotion, reinforcement, etc.). That is, the final negative index can be obtained by calculating, for example, subtracting the positive index from the negative index calculated by the above index calculation unit 320 .

본 발명의 실시예에서는 각 뉴스 기사에 대하여 위에서와 같은 방식으로 최종 부정지수를 산출하고, 최종적으로 산출된 각 뉴스 기사의 부정지수는 다양한 형태로 그래픽 처리되어 사용자가 사용자 단말장치(100)의 화면에서 볼 수 있도록 생성될 수 있다. 따라서, 가령 본 발명의 실시예에 따른 부정뉴스 탐색장치로서 도 1의 사용자 단말장치(100)는 각 뉴스 기사의 일측에 최종 산출한 부정지수를 표시하기 위한 그래픽 처리부를 더 포함할 수 있을 것이다.In the embodiment of the present invention, the final negative index is calculated for each news article in the same manner as above, and the finally calculated negative index of each news article is graphically processed in various forms so that the user can display the screen of the user terminal device 100 . can be created for viewing. Accordingly, for example, as a fraudulent news search apparatus according to an embodiment of the present invention, the user terminal device 100 of FIG. 1 may further include a graphic processing unit for displaying the finally calculated negative index on one side of each news article.

도 4는 본 발명의 실시예에 따른 부정뉴스 탐색장치의 구동과정을 나타내는 흐름도이다.4 is a flowchart illustrating a driving process of a fraudulent news search apparatus according to an embodiment of the present invention.

설명의 편의상 도 4를 도 1과 함께 참조하면 본 발명의 실시예에 따른 도 1의 사용자 단말장치(100) 및 뉴스 서비스장치(120) 중 적어도 하나의 장치는 본 발명의 실시예에 따른 부정뉴스 탐색장치(100, 120)로서, 또는 별도로 부정뉴스 탐색장치가 구축될 수 있지만, 부정단어 및 긍정단어에 대한 품사별 목록을 저장한다(S400). 일종의 품사별 단어 사전을 생성한다고도 볼 수 있다.For convenience of explanation, referring to FIG. 4 together with FIG. 1, at least one of the user terminal device 100 and the news service device 120 of FIG. As the search apparatuses 100 and 120, or separately, a negative news search apparatus may be constructed, but a list of parts of speech for negative words and positive words is stored (S400). It can also be seen that a dictionary of words for each part of speech is created.

또한, 본 발명의 실시예에 따른 부정뉴스 탐색장치(100, 120)는 저장한 목록의 품사와 관련되는 품사 정보를 이용하여, 기수집한 뉴스 기사를 필터링하고, 이를 통해 가령 원문의 텍스트 분량을 축소하고, 필터링한 뉴스 기사의 부정단어 및 긍정단어들을 이용하여 부정지수 및 긍정지수를 각각 산출하며, 산출한 부정지수와 산출한 긍정지수를 연산하여 최종의 부정지수를 산출한다(S410).In addition, the fraudulent news search apparatus 100, 120 according to an embodiment of the present invention filters the collected news articles by using the part-of-speech information related to the part-of-speech in the stored list, and through this, for example, the amount of text in the original text. A negative index and a positive index are respectively calculated using the negative and positive words of the reduced and filtered news article, and the calculated negative index and the calculated positive index are calculated to calculate the final negative index (S410).

예를 들어, 하나의 뉴스 기사에 대하여 필터링 동작 즉 기저장한 단어들의 품사 정보를 근거로 선별함으로써 원문 기사의 내용 즉 단어들은 축소된다. 단어의 분량이 축소되는 것이다. 이때, 부정뉴스 탐색장치(100, 120)는 뉴스 기사 내에서 각 단어들의 중요도를 고려하여 단어들을 추가로 선별할 수 있다. 또한, 부정뉴스 탐색장치(100, 120)는 선별된 단어들(예: 부정단어, 긍정단어)에 대하여 품사별로 코사인 유사도를 측정한다. 유사도 측정을 위해 비교되는 대상은 위의 기저장된 단어들이다. 가령, 명사에 대하여 저장된 단어가 1000개이고, 선별된 단어가 70개라고 가정하면, 70개 중 각각의 단어들과 1000개의 단어들의 유사도를 측정함으로써 70개의 단어에 대한 각각의 대표값을 얻을 수 있고, 이들의 합으로 해당 뉴스 기사의 부정지수를 산출한다. 다만, 코사인 유사도의 비교 대상은 동일 품사의 범주에 있어야 한다.For example, the content of the original article, ie, words, is reduced by filtering one news article, ie, selecting it based on pre-stored part-of-speech information. The number of words is reduced. In this case, the fraudulent news search apparatuses 100 and 120 may additionally select words in consideration of the importance of each word in the news article. In addition, the negative news search apparatuses 100 and 120 measure the cosine similarity of selected words (eg, negative words, positive words) for each part of speech. The objects to be compared to measure the similarity are the above pre-stored words. For example, assuming that 1000 words are stored for a noun and 70 selected words, each representative value for 70 words can be obtained by measuring the similarity between each word among 70 and 1000 words, , to calculate the negative index of the news article by the sum of them. However, the comparison target of cosine similarity must be in the same part-of-speech category.

또한, 부정뉴스 탐색장치(100, 120)는 부정지수가 산출되면 해당 뉴스 기사의 본문길이와 긍정지수를 고려하여 최종적으로 부정지수를 산출한다. 산출된 부정지수를 분문길이로 나눠 정규화하고, 긍정지수를 뺄셈 처리함으로써 특정 뉴스 기사에 대한 최종의 부정지수를 산출할 수 있는 것이다.In addition, when the negative index is calculated, the negative news search apparatuses 100 and 120 finally calculate the negative index in consideration of the length of the body of the news article and the positive index. The final negative index for a specific news article can be calculated by dividing the calculated negative index by the text length, normalizing it, and subtracting the positive index.

상기한 내용 이외에도 본 발명의 실시예에 따른 부정뉴스 탐색장치(100, 120)는 다양한 동작을 수행할 수 있으며, 기타 자세한 내용은 앞서 충분히 설명하였으므로 그 내용들로 대신하고자 한다.In addition to the above, the fraudulent news search apparatuses 100 and 120 according to an embodiment of the present invention can perform various operations, and since other detailed information has been sufficiently described above, it will be replaced with the contents.

한편, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합하거나 결합하여 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시 예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다. 이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 비일시적 저장매체(non-transitory computer readable media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시 예를 구현할 수 있다.On the other hand, even though it has been described that all components constituting the embodiment of the present invention are combined or operated in combination, the present invention is not necessarily limited to this embodiment. That is, within the scope of the object of the present invention, all the components may operate by selectively combining one or more. In addition, all of the components may be implemented as one independent hardware, but some or all of the components are selectively combined to perform some or all of the functions of one or a plurality of pieces of hardware. It may be implemented as a computer program having Codes and code segments constituting the computer program can be easily deduced by those skilled in the art of the present invention. Such a computer program is stored in a computer-readable non-transitory computer readable media, read and executed by the computer, thereby implementing an embodiment of the present invention.

여기서 비일시적 판독 가능 기록매체란, 레지스터, 캐시(cache), 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라, 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로, 상술한 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리 카드, ROM 등과 같은 비일시적 판독가능 기록매체에 저장되어 제공될 수 있다.Here, the non-transitory readable recording medium refers to a medium that stores data semi-permanently and can be read by a device, not a medium that stores data for a short moment, such as a register, cache, memory, etc. . Specifically, the above-described programs may be provided by being stored in a non-transitory readable recording medium such as a CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM, and the like.

이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안 될 것이다.In the above, preferred embodiments of the present invention have been illustrated and described, but the present invention is not limited to the specific embodiments described above, and it is common in the technical field to which the present invention pertains without departing from the gist of the present invention as claimed in the claims. Various modifications may be made by those having the knowledge of, of course, and these modifications should not be individually understood from the technical spirit or perspective of the present invention.

100, 120: 부정뉴스 탐색장치 100: 사용자 단말장치
110: 통신망 120: 뉴스 서비스장치
200: 통신 인터페이스부 210: 제어부
220, 220': 부정뉴스 탐색부 230: 저장부
300: 단어 목록부 310: 뉴스원문 축소부
320: 지수 산출부 330: 최종지수 결정부
100, 120: fraudulent news search device 100: user terminal device
110: communication network 120: news service device
200: communication interface unit 210: control unit
220, 220': negative news search unit 230: storage unit
300: word list section 310: news original text reduction section
320: index calculation unit 330: final index determination unit

Claims (9)

부정단어 및 긍정단어를 품사별로 구분하여 목록을 저장하는 저장부; 및
상기 저장한 목록의 품사에 관련되는 품사 정보를 근거로 기수집한 뉴스 기사를 필터링하고, 상기 필터링한 뉴스 기사의 단어들과 상기 저장한 품사별 목록의 부정단어 및 긍정단어를 이용하여 부정지수 및 긍정지수를 각각 산출하며, 상기 산출한 부정지수 및 상기 산출한 긍정지수를 연산하여 최종의 부정지수를 산출하는 제어부;를
포함하는 부정뉴스 탐색장치.
a storage unit for storing a list by classifying negative and positive words by part-of-speech; and
Filtering news articles collected based on the part-of-speech information related to the part-of-speech of the stored list, and using the words of the filtered news article and the negative and positive words of the stored list of parts-of-speech, negative index and A control unit that calculates each positive index and calculates the calculated negative index and the calculated positive index to calculate the final negative index;
Including fraudulent news search device.
제1항에 있어서,
상기 제어부는, 상기 필터링한 뉴스 기사의 단어들에 대한 뉴스 기사 내 중요도를 더 고려하여 추가로 필터링해 상기 부정지수를 산출하며, 상기 뉴스 기사 내 중요도를 판단하기 위해 TF-IDF(Term Frequency - Inverse Document Frequency) 모델을 이용하는 부정뉴스 탐색장치.
According to claim 1,
The control unit calculates the negative index by further filtering in consideration of the importance in the news article with respect to the words of the filtered news article, and to determine the importance in the news article, TF-IDF (Term Frequency - Inverse) A device for detecting fraudulent news using the Document Frequency) model.
제2항에 있어서,
상기 제어부는, 상기 추가로 필터링해 얻은 단어들을 상기 품사별 목록의 부정단어 및 긍정단어과 비교하여 코사인 유사도(cosine similarity)를 측정하여 상기 부정지수를 산출하며, 각 부정단어마다 상기 코사인 유사도를 측정하여 가장 높은 값이 나오는 부정단어를 대표값으로 하는 대표값들의 총합을 상기 부정지수로 산출하는 부정뉴스 탐색장치.
3. The method of claim 2,
The control unit calculates the negative index by measuring cosine similarity by comparing the words obtained by the additional filtering with negative and positive words in the list of parts of speech, and measuring the cosine similarity for each negative word. A fraudulent news search device for calculating the sum of representative values with the negative word having the highest value as the representative value as the negative index.
제3항에 있어서,
상기 제어부는, 상기 산출한 부정지수를 상기 뉴스 기사의 본문 길이로 나누어 정규화하고, 상기 정규화한 부정지수에 상기 산출한 긍정지수를 연산처리하여 상기 최종의 부정지수를 산출하는 부정뉴스 탐색장치.
4. The method of claim 3,
The control unit normalizes the calculated negative index by dividing the length of the body of the news article, and calculates the final negative index by calculating the calculated positive index on the normalized negative index.
저장부가, 부정단어 및 긍정단어를 품사별로 구분하여 목록을 저장하는 단계; 및
제어부가, 상기 저장한 목록의 품사에 관련되는 품사 정보를 근거로 기수집한 뉴스 기사를 필터링하고, 상기 필터링한 뉴스 기사의 단어들과 상기 저장한 품사별 목록의 부정단어 및 긍정단어를 이용하여 부정지수 및 긍정지수를 각각 산출하며, 상기 산출한 부정지수 및 상기 산출한 긍정지수를 연산하여 최종의 부정지수를 산출하는 단계;를
포함하는 부정뉴스 탐색장치의 구동방법.
storing, by the storage unit, a list of negative words and positive words by part-of-speech; and
The control unit filters the news articles collected based on the part-of-speech information related to the part-of-speech in the stored list, and uses the words of the filtered news article and negative and positive words in the stored list of parts-of-speech. Calculating a negative index and a positive index, respectively, calculating the final negative index by calculating the calculated negative index and the calculated positive index;
A driving method of a fraudulent news search device, including.
제5항에 있어서,
상기 산출하는 단계는,
상기 필터링한 뉴스 기사의 단어들에 대한 뉴스 기사 내 중요도를 더 고려하여 추가로 필터링해 상기 부정지수를 산출하는 단계;를 더 포함하며,
상기 뉴스 기사 내 중요도를 판단하기 위해 TF-IDF 모델을 이용하는 부정뉴스 탐색장치의 구동방법.
6. The method of claim 5,
The calculating step is
Further comprising; further filtering the words of the filtered news article in consideration of the importance in the news article to calculate the negative index by further filtering;
A driving method of a fraudulent news search apparatus using a TF-IDF model to determine the importance in the news article.
제6항에 있어서,
상기 산출하는 단계는,
상기 추가로 필터링해 얻은 단어들을 상기 품사별 목록의 부정단어 및 긍정단어과 비교하여 코사인 유사도를 측정하여 상기 부정지수를 산출하는 단계; 및
각 부정단어마다 상기 코사인 유사도를 측정하여 가장 높은 값이 나오는 부정단어를 대표값으로 하는 대표값들의 총합을 상기 부정지수로 산출하는 단계;를 더 포함하는 부정뉴스 탐색장치의 구동방법.
7. The method of claim 6,
The calculating step is
calculating the negative index by measuring the cosine similarity by comparing the words obtained by the additional filtering with negative and positive words in the list for each part-of-speech; and
Measuring the cosine similarity for each negative word, calculating the sum of representative values using the negative word having the highest value as the representative value as the negative index;
제7항에 있어서,
상기 산출하는 단계는,
상기 산출한 부정지수를 상기 뉴스 기사의 본문 길이로 나누어 정규화하는 단계; 및
상기 정규화한 부정지수에 상기 산출한 긍정지수를 연산처리하여 상기 최종의 부정지수를 산출하는 단계;를
더 포함하는 부정뉴스 탐색장치의 구동방법.
8. The method of claim 7,
The calculating step is
normalizing the calculated negative index by dividing it by the length of the body of the news article; and
calculating the final negative index by calculating the calculated positive index on the normalized negative index;
Driving method of the fraudulent news search device further comprising.
부정뉴스 탐색장치의 구동방법을 실행하기 위한 프로그램을 포함하는 컴퓨터 판독가능 기록매체로서,
상기 부정뉴스 탐색장치의 구동방법은,
부정단어 및 긍정단어를 품사별로 구분하여 목록을 저장하는 단계; 및
상기 저장한 목록의 품사와 관련되는 품사 정보를 근거로 기수집한 뉴스 기사를 필터링하고, 상기 필터링한 뉴스 기사의 단어들과 상기 저장한 품사별 목록의 부정단어 및 긍정단어를 이용하여 부정지수 및 긍정지수를 각각 산출하며, 상기 산출한 부정지수 및 상기 산출한 긍정지수를 연산하여 최종의 부정지수를 산출하는 단계;를
실행하는 컴퓨터 판독가능 기록매체.
As a computer-readable recording medium including a program for executing a driving method of a fraudulent news search apparatus,
The driving method of the fraudulent news search device,
storing a list by classifying negative words and positive words by part-of-speech; and
Filtering news articles collected based on the part-of-speech information related to the part-of-speech in the stored list, and using the words of the filtered news article and the negative and positive words of the stored list of parts-of-speech, negative index and Calculating each positive index, calculating the final negative index by calculating the calculated negative index and the calculated positive index;
A computer-readable recording medium that executes.
KR1020210003514A 2021-01-11 2021-01-11 Apparatus for Searching Fraudulent News and Driving Method Thereof, and Computer Readable Recording Medium KR102461825B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210003514A KR102461825B1 (en) 2021-01-11 2021-01-11 Apparatus for Searching Fraudulent News and Driving Method Thereof, and Computer Readable Recording Medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210003514A KR102461825B1 (en) 2021-01-11 2021-01-11 Apparatus for Searching Fraudulent News and Driving Method Thereof, and Computer Readable Recording Medium

Publications (2)

Publication Number Publication Date
KR20220102181A true KR20220102181A (en) 2022-07-20
KR102461825B1 KR102461825B1 (en) 2022-11-07

Family

ID=82609123

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210003514A KR102461825B1 (en) 2021-01-11 2021-01-11 Apparatus for Searching Fraudulent News and Driving Method Thereof, and Computer Readable Recording Medium

Country Status (1)

Country Link
KR (1) KR102461825B1 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150015423A (en) * 2014-12-08 2015-02-10 한양대학교 에리카산학협력단 News recommendation system and method for recommending news
KR101599675B1 (en) 2015-07-02 2016-03-03 한국기업데이터 주식회사 Apparatus and method for predicting degree of corporation credit risk using corporation news searching technology based on big data technology
KR101741509B1 (en) 2015-07-01 2017-06-15 지속가능발전소 주식회사 Device and method for analyzing corporate reputation by data mining of news, recording medium for performing the method
KR102104316B1 (en) 2018-03-19 2020-04-27 동국대학교 산학협력단 Apparatus for predicting stock price of company by analyzing news and operating method thereof
KR20200048693A (en) * 2018-10-30 2020-05-08 삼성에스디에스 주식회사 System for performing sentimental analysis and the method thereof
KR20200127636A (en) * 2019-05-03 2020-11-11 주식회사 자이냅스 A program recording midium for an automatic sentiment information labeling to news articles for providing sentiment information

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150015423A (en) * 2014-12-08 2015-02-10 한양대학교 에리카산학협력단 News recommendation system and method for recommending news
KR101741509B1 (en) 2015-07-01 2017-06-15 지속가능발전소 주식회사 Device and method for analyzing corporate reputation by data mining of news, recording medium for performing the method
KR101599675B1 (en) 2015-07-02 2016-03-03 한국기업데이터 주식회사 Apparatus and method for predicting degree of corporation credit risk using corporation news searching technology based on big data technology
KR102104316B1 (en) 2018-03-19 2020-04-27 동국대학교 산학협력단 Apparatus for predicting stock price of company by analyzing news and operating method thereof
KR20200048693A (en) * 2018-10-30 2020-05-08 삼성에스디에스 주식회사 System for performing sentimental analysis and the method thereof
KR20200127636A (en) * 2019-05-03 2020-11-11 주식회사 자이냅스 A program recording midium for an automatic sentiment information labeling to news articles for providing sentiment information

Also Published As

Publication number Publication date
KR102461825B1 (en) 2022-11-07

Similar Documents

Publication Publication Date Title
US10504120B2 (en) Determining a temporary transaction limit
KR101855147B1 (en) An analysis method for user preference and device therefor
CN106991175B (en) Customer information mining method, device, equipment and storage medium
CN111666304B (en) Data processing device, data processing method, storage medium, and electronic apparatus
CN101999121A (en) Recommendation information evaluation apparatus and recommendation information evaluation method
CN108932320B (en) Article searching method and device and electronic equipment
CN107908616B (en) Method and device for predicting trend words
CN105718533A (en) Information pushing method and device
CN102063456A (en) Method for positioning to optic center of webpage automatically and device
TWI457775B (en) Method for sorting and managing websites and electronic device of executing the same
CN111666383A (en) Information processing method, information processing device, electronic equipment and computer readable storage medium
CN110032616A (en) A kind of acquisition method and device of document reading conditions
CN109241238B (en) Article searching method and device and electronic equipment
KR101651963B1 (en) Method of generating time and space associated data, time and space associated data generation server performing the same and storage medium storing the same
KR101667796B1 (en) Method, system and recording medium for providing real-time change aspect of search result
KR20190036834A (en) APPARATUS AND METHOD FOR PROVIDING MASH-UP SERVICE OF SaaS APPLICATIONS
CN116932906A (en) Search term pushing method, device, equipment and storage medium
KR102461825B1 (en) Apparatus for Searching Fraudulent News and Driving Method Thereof, and Computer Readable Recording Medium
CN115470190A (en) Multi-storage-pool data classification storage method and system and electronic equipment
JP6384469B2 (en) Information processing apparatus, information processing system, control method, and program
KR101862178B1 (en) Method for customized posting and server implementing the same
CN111984839A (en) Method and apparatus for rendering a user representation
KR102485460B1 (en) System providing customized statistical analysis service and method of operation of system
KR101640426B1 (en) Apparatus for analysis of mobile big data
KR20190052437A (en) Method for analyzing unstructured data and apparatus using the same

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right