KR20200082218A - 비신뢰 데이터에 대한 신뢰도 검증 방법 - Google Patents

비신뢰 데이터에 대한 신뢰도 검증 방법 Download PDF

Info

Publication number
KR20200082218A
KR20200082218A KR1020180172599A KR20180172599A KR20200082218A KR 20200082218 A KR20200082218 A KR 20200082218A KR 1020180172599 A KR1020180172599 A KR 1020180172599A KR 20180172599 A KR20180172599 A KR 20180172599A KR 20200082218 A KR20200082218 A KR 20200082218A
Authority
KR
South Korea
Prior art keywords
reliability
data
sns
verifying
news
Prior art date
Application number
KR1020180172599A
Other languages
English (en)
Inventor
윤지원
박세진
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020180172599A priority Critical patent/KR20200082218A/ko
Publication of KR20200082218A publication Critical patent/KR20200082218A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명에 따른 비신뢰 데이터에 대한 신뢰도 검증 방법은, 비신뢰 데이터에 대한 신뢰도를 검증하는 서버에 의하여, 개인이 SNS 상에 개시한 게시물에서 키워드를 추출하는 단계; 웹 상에서 상기 키워드를 포함하는 뉴스 기사를 크롤링하는 단계; 및 상기 크롤링된 뉴스 기사의 개수를 기초로 하여 상기 개인이 SNS 상에 개시한 게시물의 신뢰도를 평가하는 단계를 포함하는, 비신뢰 데이터에 대한 신뢰도 검증 방법을 제공하고자 한다.

Description

비신뢰 데이터에 대한 신뢰도 검증 방법{METHOD FOR VERIFYING THE RELIABILITY OF THE NON_TRUST DATA}
본 발명은 비신뢰 데이터에 대한 신뢰도 검증 방법에 관한 것으로서, 웹에서 수집할 수 있는 정형화되지 않은 데이터, 즉 개인 SNS 등에 개시되는 데이터를 신뢰할 수 없는 데이터라고 가정하고 이에 대해 신뢰도를 검증하기 위한 방법에 관한 것이다.
일반적으로 웹 페이지의 신뢰도를 검증하기 위한 기술은 웹 크롤링을 통해 키워드를 추출하고, 이를 시계열로 분석하여 데이터의 신뢰도를 검증하는 방법이 있다. 여기서 웹 크롤링에 대해 설명하면, 웹 크롤러(web crawler)라는 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램을 통하여 수행되는 작업을 '웹 크롤링'(web crawling) 혹은 '스파이더링'(spidering)이라고 하는 것이다. 예를 들어, 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링을 할 수 있다. 웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며, 검색 엔진은 이렇게 생성된 페이지를 보다 빠른 검색을 위해 인덱싱한다. 또한 크롤러는 링크 체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹 페이지의 특정 형태의 정보를 수집하는 데도 사용된다.
한편, 위와 같은 방법은 뉴스를 제공하는 웹 사이트 상에 적용되지만 현재까지 SNS 페이지 상에 적용되지 않고 있다. 그러나, 화제, 사고, 산사태와 같은 급한 상황이 발생한 경우 SNS가 뉴스 기사보다 빠르게 정보를 제공할 수 있다는 장점이 있다. 예를 들어, 뉴스 기사의 경우 대략 오전 1시에서 4:30사이에는 정보를 거의 제공하지 않는 반면에 SNS는 사용자가 시시각각으로 정보를 제공할 수 있다. 또한, 뉴스 기사는 사고의 크기가 큰 사건 이외에는 제공되지 않는 문제점이 있다. 위와 같은 문제점을 해결하고, SNS 페이지 상의 정보를 활용하기 위해, SNS 페이지 상의 정보에 대한 신뢰도 검증이 필요한 시점이다.
대한민국공개특허공보 10-2017-0122458(2017. 11. 06. 공개)
본 발명에 따른 비신뢰 데이터에 대한 신뢰도 검증 방법은 개인의 SNS를 통해 제공되는 정보에 대한 신뢰도 검증을 가능하게 하고자 한다.
본 발명에 따른 비신뢰 데이터에 대한 신뢰도 검증 방법은, 비신뢰 데이터에 대한 신뢰도를 검증하는 서버에 의하여, 개인이 SNS 상에 개시한 게시물에서 키워드를 추출하는 단계; 웹 상에서 상기 키워드를 포함하는 뉴스 기사를 크롤링하는 단계; 및 상기 크롤링된 뉴스 기사의 개수를 기초로 하여 상기 개인이 SNS 상에 개시한 게시물의 신뢰도를 평가하는 단계를 포함하는, 비신뢰 데이터에 대한 신뢰도 검증 방법을 제공하고자 한다.
본 발명에 따른 비신뢰 데이터에 대한 신뢰도 검증 방법은 개인이 SNS를 통해 공개한 정보에 대해 신뢰도를 검증하고, 검증된 정보를 지속적으로 활용하여 추후에 SNS의 해당 계정을 신뢰할 수 있는 정보의 공개자로 관리할 수 있다는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 비신뢰 데이터의 신뢰도를 검증하는 방법을 보여주는 개략도이다.
도 2는 시계열에 따른 특정 키워드를 포함한 컨텐츠의 개수 변화에 관한 그래프를 보여주는 도면이다.
도 3은 최초 특정 키워드를 포함한 개인 SNS 화면을 보여주는 도면이다.
도 4는 실시간 뉴스 속보로부터 특정 키워드를 포함한 데이터를 추출하는 것을 보여주기 위한 도면이다.
도 5는 시계열에 따른 뉴스 기사의 개수 변화에 관한 그래프를 보여주는 도면이다.
아래에서는 첨부한 도면을 참조하여, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고, 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하에서는, 첨부된 도면을 참조하여 비신뢰 데이터에 대한 신뢰도 검증 방법에 대하여 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 비신뢰 데이터의 신뢰도를 검증하는 방법을 보여주는 개략도이다. 도 2는 시계열에 따른 특정 키워드를 포함한 컨텐츠의 개수 변화에 관한 그래프를 보여주는 도면이다. 도 3은 최초 특정 키워드를 포함한 개인 SNS 화면을 보여주는 도면이다. 도 4는 실시간 뉴스 속보로부터 특정 키워드를 포함한 데이터를 추출하는 것을 보여주기 위한 도면이다. 도 5는 시계열에 따른 뉴스 기사의 개수 변화에 관한 그래프를 보여주는 도면이다.
도 1 내지 도 5를 참조하면, 본 발명은 비신뢰 데이터에 대한 신뢰도 검증 방법에 관한 것으로서, 웹에서 수집할 수 있는 정형화되지 않은 데이터, 즉 개인 SNS 등에 개시되는 데이터를 신뢰할 수 없는 데이터라고 가정하고 이에 대해 신뢰도를 검증하기 위한 방법에 관한 것이다.
본 발명에 따른 비신뢰 데이터에 대한 신뢰도 검증 방법은 먼저 개인 SNS에서 특정 사건에 대한 내용이 언급된 것을 검출할 수 있다. 여기서 특정 사건에 대한 내용이란 특정 사건에 관한 키워드나 사진 등이 될 수 있다.
그 다음으로, 특정 사건 내용의 데이터의 신뢰도를 검증하기 위해 시간에 따른 SNS 데이터와 뉴스 기사를 크롤링하고, 각각의 키워드를 확인할 수 있다. 여기서 키워드는 뉴스 기사를 실시간으로 서치한 결과 뉴스 기사에 동일한 키워드 등장하면 이를 포커싱하여 30분 단위로 뉴스 기사의 키워드를 수집할 수 있다.
결과적으로, 시간별로 키워드를 포함한 뉴스 기사의 개수가 증가하면 개인 SNS의 비신뢰 데이터의 신뢰도 높아지며, 신뢰도가 검증된 것으로 판단할 수 있다.
도 2의 (a)를 참조하면, 대체적으로 개인 SNS에서의 사건 언급에 대한 데이터는 뉴스 데이터보다 동시 혹은 더 먼저 발생할 수 있다. 여기에서, x는 특정 사건이 발생하여 이에 대한 개인 SNS 사진이나 데이터가 올라온 시점이라고 볼 수 있다. 또한, 특정 사건에 대한 데이터가 SNS 또는 뉴스 기사에 업로드되는 개수는 시간이 지남에 따라 더 많아지는 것을 볼 수 있다.
도 2의 (b)를 참조하면, y는 특정 사건에 대해서 공식적인 뉴스 기사, 공기관에서의 데이터가 올라오는 시점이라고 볼 수 있다. 여기에서, x와 y의 차이가 나는 기간인 i동안 개인 SNS에서 수집된 해당 정보가 진짜인지에 대한 신뢰도가 확보되지 않는데, 이 기간에서는 다른 채널에서 개시되는 데이터들을 비교 분석하여, 신뢰도를 조금씩 증가시킬 수 있는 방법이 수행될 수 있다. y시점 이후에는 미리 수집한 개인 SNS에 대한 신뢰도가 대폭으로 상승하며, 뉴스 기사에 없는 내용이라도 개인SNS에 개시되는 내용에 대하여 세세한 정보를 추출할 수 있다.
도 3을 참조하면, 개인 SNS의 일 예로서, 인스타그램에서 수집하고자 하는 특정 날씨와 관련된 키워드(지진, 해일, 폭우, 폭설, 우박 등) 를 포함하는 데이터를 수집할 수 있다. 예를 들어, "눈" 이라는 특정 키워드를 포함하는 데이터와 이에 대한 "서울" 등의 지역(서울, 부산, 대전, 광주, 대구 등)에 관련된 키워드들을 추출할 수 있다.
개인 SNS에서 위와 같은 데이터를 수집한 뒤, 크롤링을 수행하고 SNS데이터를 이용해서 특정 키워드를 포함하는 다른 SNS 데이터를 검색할 수 있다. 이 때, 다른 데이터가 검색되는 경우에는 신뢰도가 증가될 수 있다. 이후 실시간 뉴스 기사에서 위와 같은 키워드를 포함하는 데이터가 추출되는 경우, 이에 대한 시간대별 뉴스 기사의 개수를 확인할 수 있다. 실시간 뉴스 속보는 각각 신뢰할 수 있는 기관을 통해 빠른 속도로 제공되므로, 시간별로 키워드를 포함하는 기사의 개수를 확인함에 따라 개인SNS에 개시된 데이터가 현재 이슈가 되는 데이터임을 확인하여 신뢰도를 검증할 수 있다.
예를 들어, 도 4 및 도 5를 참조하면, 실시간 뉴스 기사는 포털 사이트를 통해 정보가 공개되며, YTN, 연합뉴스, 머니투데이, 디지털타임스 등의 다른 기관의 뉴스 속보를 포함할 수 있다. 이를 통해 30분 단위로 기사를 추출했을 때, 평균 460개의 뉴스 속보를 추출할 수 있는데, 이들을 대상으로 개인 SNS에서 추출된 특정 키워드가 포함되는 뉴스 속보의 개수를 검출하도록 한다. 예를 들어, 정보가 확산되는 시간을 2시간으로 정하고 이에 대한 데이터를 확인할 수 있다.
이로써, 개인 SNS에서 추출된 특정 키워드가 포함되는 뉴스 속보의 개수가 많을수록 개인SNS의 게시물은 신뢰도가 높은 것으로 판단될 수 있고, 추후에 이러한 게시자를 신뢰도 높은 게시자로 분류하여, 더 정확하고 빠른 뉴스를 검색하기 위한 정보로서 활용할 수 있다.
이상의 설명은 본 발명의 기술적 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예는 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술적 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (1)

  1. 비신뢰 데이터에 대한 신뢰도를 검증하는 서버에 의하여,
    개인이 SNS 상에 개시한 게시물에서 키워드를 추출하는 단계;
    웹 상에서 상기 키워드를 포함하는 뉴스 기사를 크롤링하는 단계; 및
    상기 크롤링된 뉴스 기사의 개수를 기초로 하여 상기 개인이 SNS 상에 개시한 게시물의 신뢰도를 평가하는 단계를 포함하는, 비신뢰 데이터에 대한 신뢰도 검증 방법.
KR1020180172599A 2018-12-28 2018-12-28 비신뢰 데이터에 대한 신뢰도 검증 방법 KR20200082218A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180172599A KR20200082218A (ko) 2018-12-28 2018-12-28 비신뢰 데이터에 대한 신뢰도 검증 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180172599A KR20200082218A (ko) 2018-12-28 2018-12-28 비신뢰 데이터에 대한 신뢰도 검증 방법

Publications (1)

Publication Number Publication Date
KR20200082218A true KR20200082218A (ko) 2020-07-08

Family

ID=71600370

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180172599A KR20200082218A (ko) 2018-12-28 2018-12-28 비신뢰 데이터에 대한 신뢰도 검증 방법

Country Status (1)

Country Link
KR (1) KR20200082218A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220106297A (ko) 2021-01-22 2022-07-29 인하대학교 산학협력단 교원 업적 검증 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170122458A (ko) 2016-04-27 2017-11-06 서울대학교산학협력단 암호문의 크기가 감소되는 동형 암호화 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170122458A (ko) 2016-04-27 2017-11-06 서울대학교산학협력단 암호문의 크기가 감소되는 동형 암호화 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220106297A (ko) 2021-01-22 2022-07-29 인하대학교 산학협력단 교원 업적 검증 시스템

Similar Documents

Publication Publication Date Title
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
US9003524B2 (en) System and method for analyzing web content
CN101971591B (zh) 分析网址的系统及方法
CN102436563B (zh) 一种检测页面篡改的方法及装置
CN101490685A (zh) 提高浏览网页的用户机的安全等级的方法
CN103297394B (zh) 网站安全检测方法和装置
CN106095979B (zh) Url合并处理方法和装置
CN102591965B (zh) 一种黑链检测的方法及装置
CN105184159A (zh) 网页篡改的识别方法和装置
Dadkhah et al. An introduction to journal phishings and their detection approach
CN102446255B (zh) 一种检测页面篡改的方法及装置
CN104077396A (zh) 一种钓鱼网站检测方法及装置
CN107786537B (zh) 一种基于互联网交叉搜索的孤页植入攻击检测方法
CN104063309A (zh) 基于模拟攻击的Web应用程序漏洞检测方法
US9871826B1 (en) Sensor based rules for responding to malicious activity
CN103701769A (zh) 一种检测网络危害源头的方法与系统
Gu et al. An efficient approach to detecting phishing web
CN106021418A (zh) 新闻事件的聚类方法及装置
Vargas et al. Knowing your enemies: Leveraging data analysis to expose phishing patterns against a major US financial institution
CN106503266A (zh) 文档分类方法及装置
KR102124935B1 (ko) 크라우드 소싱을 활용한 재난 모니터링 시스템, 재난 모니터링 방법 및 이를 수행하기 위한 컴퓨터 프로그램
CN104036190A (zh) 一种检测页面篡改的方法及装置
Shyni et al. Phishing detection in websites using parse tree validation
KR20200082218A (ko) 비신뢰 데이터에 대한 신뢰도 검증 방법
CN104036189A (zh) 页面篡改检测方法及黑链数据库生成方法