KR20160063498A - 머하웃 기반의 소셜 정보 수집 시스템 - Google Patents

머하웃 기반의 소셜 정보 수집 시스템 Download PDF

Info

Publication number
KR20160063498A
KR20160063498A KR1020140166552A KR20140166552A KR20160063498A KR 20160063498 A KR20160063498 A KR 20160063498A KR 1020140166552 A KR1020140166552 A KR 1020140166552A KR 20140166552 A KR20140166552 A KR 20140166552A KR 20160063498 A KR20160063498 A KR 20160063498A
Authority
KR
South Korea
Prior art keywords
information
advertisement
social
module
social information
Prior art date
Application number
KR1020140166552A
Other languages
English (en)
Inventor
조광훈
Original Assignee
조광훈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 조광훈 filed Critical 조광훈
Priority to KR1020140166552A priority Critical patent/KR20160063498A/ko
Publication of KR20160063498A publication Critical patent/KR20160063498A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 단순한 키워드 변경 또는 변형에 의한 광고성 소셜 정보를 필터링 하며, 기계 학습의 반복을 통해 그 정확도를 향상시키고, 필터링 된 광고성 소셜 정보를 지속적으로 분석 및 학습함으로써 광고성 소셜 정보가 필터링된 소셜 정보를 수집하는 머하웃 기반의 소셜 정보 수집 시스템을 제안한다. 이를 위해 본 발명은 광고성 소셜 정보를 학습 데이터로 하여 상기 광고성 소셜 정보의 광고속성 정보를 판단하는 머하웃 모듈 및 웹 크롤러를 통해 소셜 정보를 수집하며, 소셜 정보에 대해 상기 광고 속성 정보를 적용하여 필터링을 수행하는 필터링 모듈을 구비하는 정보수집 모듈을 포함하며, 머하웃 모듈은, 정보수집 모듈에서 필터링된 소셜 정보 중 관리자 지정된 지정 소셜 정보에 대해 광고속성 정보를 분석하여 정보수집 모듈의 필터링 모듈을 업데이트할 수 있다.

Description

머하웃 기반의 소셜 정보 수집 시스템{Social data collecting system using mahout machine}
본 발명은 소셜 정보 수집 시스템에 관한 것으로, 더욱 상세하게는 머하웃 기반의 기계학습을 통해 광고성 소셜 정보의 속성을 규정하고, 광고성 소셜 정보, 및 이와 연동되는 종속 속성정보를 토대로 소셜 정보를 필터링하며, 지정 소셜정보를 참조하여 날로 진화하는 광고성 소셜 정보를 지속적으로 학습함으로써 효율적인 광고 소셜 정보를 필터링하는 머하웃 기반의 소셜 정보 수집 시스템에 관한 것이다.
트위터, 블로그, 페이스북을 비롯한 수많은 소셜 네트워크(SNS : Social Networking Service)에는 소셜 네트워크에 등록된 게시글, 및 게시글에 대한 댓글과 답글에 수많은 광고정보가 부가되어 소셜 네트워크 분석에 장애가 되고 있다.
타인과의 소통을 위해 소셜 네트워크에 등록된 게시글에는 게시글의 주제와 무관하거나 또는 게시글의 주제와 관련성이 있으면서 상품이나 서비스 판매로 유도하는 글이 올라오고 있으며, 파워 블로거, 리-트윗이 높은 트위터의 게시글에 의도적으로 광고성 게시글을 부가하는 경우도 많다. 예컨대, 갤럭시 시리즈의 신형 휴대단말기가 출시된 직후, 신형 휴대단말기에 대한 분석글이 블로그에 게시되는 경우, 신형 휴대단말기에 대한 광고성 댓글이 달리거나 판매점으로 유도하는 게시글 또는 가격정보가 댓글로서 달리는 경우를 흔히 볼 수 있다.
이러한 광고성 정보는 소셜 네트워크의 소통 기능에 역효과를 주어 타인이 올바른 정보를 판단하거나 정보를 공유하는데 방해가 되고, 소셜 네트워크 정보를 이용하여 제품이나 서비스의 발전을 도모하는 기업 또는 사회적 이슈를 분석하는 업무에서는 분석 업무 자체를 어렵게 만드는 경향이 있다.
이에 대해 공개특허 제2013-0037975는 웹을 통해 수집된 웹 문서를 대상으로 불용문서를 필터링하고, 필터링된 결과물에서 신규 이슈를 탐지하여 이벤트를 추출하는 웹 동향 분석장치가 개시된 바 있다. 공개특허 제2013-0037975에서 언급된 필터링 방법은 광고를 포함한 스팸 문서, 특정 키워드가 반복적으로 사용되는 문서를 필터링하고 있는데, 키워드 기반의 필터링 방법은,
1) 올바른 정보가 광고성 정보로 오판되는 경우와,
2) 필터링 대상인 키워드를 변경하는 경우 필터링 능력을 상실하는 문제점을 갖는다.
종래의 필터링 방법은 도 1에 도시된 형태로 표현될 수 있다.
도 1은 종래의 키워드 기반의 필터링 방법에 대한 개념도를 도시한 것으로서, 도 1에 도시된 바와 같이, 웹 크롤러(Web crawler)가 소셜 네트워크(트위터, 페이스북, 블로그 등)에서 소셜 정보를 수집하고, 이후, 사용자 정의된 필터링 키워드를 포함하는 소셜 정보를 광고성 정보로 인식하여 제거하는 과정을 보인다. 그러나, 키워드 기반의 필터링 방법은 광고성 정보를 전송하는 측에서 키워드를 변경하면 쉽게 피해갈 수 있고,
올바른 정보와 광고성 정보의 구분이 모호할 수 있는 관계로 그 실용성에 의문이 제기되고 있다. 예컨대, 메일(Mail)에 수신되는 수많은 스팸 메일 또한, 키워드 기반의 필터링 시스템이 광고 메일을 필터링하는데 한계가 있음을 여실히 보여준다.
본 발명의 목적은 광고성 정보에 대한 기계 학습을 통해 소셜 네트워크에 게시되는 수많은 소셜 정보 중 광고성 정보를 필터링하는 머하웃 기반의 소셜 데이터 수집 장치를 제공함에 있다.
상기한 목적은 본 발명에 따라, 광고성 소셜 정보를 학습 데이터로 하여 광고성 소셜 정보의 광고속성 정보를 판단하는 머하웃 모듈 및 웹 크롤러를 통해 소셜 정보를 수집하며, 소셜 정보에 대해 광고 속성 정보를 적용하여 필터링을 수행하는 필터링 모듈을 구비하는 웹 크롤링 모듈을 포함하며, 머하웃 모듈은, 웹 크롤링 모듈에서 필터링된 소셜 정보 중 관리자 지정된 지정 소셜 정보에 대해 광고속성 정보를 분석하여 웹 크롤링 모듈의 필터링 모듈을 업데이트하는 머하웃 기반의 소셜 정보 수집 시스템에 의해 달성된다.
본 발명에 따르면, 단순한 키워드 변경 또는 변형에 의한 광고성 소셜 정보를 필터링 하며, 기계 학습의 반복을 통해 그 정확도를 향상시키고, 필터링 된 광고성 소셜 정보를 지속적으로 분석 및 학습함으로써 광고성 정보가 필터링된 소셜 정보를 수집할 수 있다.
도 1은 종래의 키워드 기반의 필터링 방법에 대한 개념도를 도시한다.
도 2는 본 발명의 일 실시예에 따른 머하웃 기반의 소셜 정보 수집 시스템의 개념도를 도시한다.
도 3은 속성정보 및 종속속성 정보를 설명하기 위한 참조도를 도시한다.
도 4는 도 2에 도시된 머하웃 모듈의 학습 과정에 대한 참조도면을 도시한다.
도 5는 머하웃 모듈이 소셜 네트워크의 종류에 따라 필터링을 수행하는 방법에 대한 개념도를 도시한다.
본 명세서에서 언급되는 "소셜 네트워크"는 현재 서비스 중인 트위터, 페이스북 및 블로그와 같은 서비스 또는 이에 대응하는 웹 사이트로서, 사용자간 정보 공유와 소통을 위해 마련되는 서비스 또는 이러한 서비스를 제공하는 웹사이트를 지칭할 수 있다.
본 명세서에서 언급되는 소셜 정보는 소셜 네트워크에 등록된 게시글, 댓글, 답글을 지칭하며, 게시글, 댓글, 및 답글은 텍스트, 이미지, 링크(Link), 플래시 이미지, 동영상, 이모티콘을 비롯하여 다양한 형식으로 표출될 수 있다.
본 명세서에서 언급되는 정보수집 모듈은 소셜 네트워크에 게시된 게시글, 댓글, 답글을 비롯 웹상에서 소셜 정보를 수집할 수 있는 자동화된 프로그램을 지칭할 수 있다. 정보수집 모듈은 봇(bot), 검색엔진, 스파이더(Spider)와 같이 다양한 명칭으로 지칭되고 있으나, 소셜 네트워크에서 소셜 정보를 수집한다는 점에서 정보수집 모듈에 포함되는 것으로 간주한다.
이하, 도면을 참조하여 본 발명을 상세히 설명하도록 한다.
도 2는 본 발명의 일 실시예에 따른 머하웃 기반의 소셜 정보 수집 시스템의 개념도를 도시한다.
도 2를 참조하면 실시예에 따른 머하웃 기반의 소셜 정보 수집 시스템(이하, "데이터 수집 시스템"이라 한다)은 정보수집 모듈(110), 머하웃 모듈(120), 저장모듈(130), 감성분석 모듈(140) 및 데이터베이스(150)를 포함하여 구성될 수 있다.
정보수집 모듈(110)은 트위터, 페이스북 및 블로그와 같은 소셜 네트워크에서 웹 크롤링을 수행하여 소셜 정보를 수집한다. 수집되는 소셜 정보는 소셜 네트워크에 등록된 게시글, 게시글에 대한 댓글, 댓글에 대한 답글을 포함할 수 있으며, 게시글, 댓글 및 답글에 포함되는 텍스트, 이미지, 플래시 이미지, 동영상, 이모티콘 및 음성 정보와 같은 형태일 수 있다.
정보수집 모듈(110)은 소셜 네트워크에서 소셜 정보를 수집하는 크롤링 모듈(111), 메모리(112) 및 필터링 모듈(113)을 구비하며, 크롤링 모듈(111)에서 수집된 소셜 정보는 메모리(112)에 임시 수납되고, 필터링 모듈(113)은 메모리(112)에 수납된 소셜 정보에 대해 필터링을 수행 후, 저장모듈(130)로 제공할 수 있다. 이때, 필터링 모듈(113)은,
1) 키워드 기반의 필터링을 수행하거나,
2) 머하웃 모듈(120)에서 제공되는 광고속성 정보를 토대로 필터링을 수행할 수 있다.
즉, 필터링 모듈(113)은 1)과 2)를 동시에 수행하거나 또는 2)를 단독으로 수행하여 광고성 소셜 정보를 필터링 할 수 있다.
머하웃 모듈(120)은 광고성 소셜 정보를 학습 데이터로 하여 광고성 소셜 정보의 광고속성 정보를 파악하고, 파악된 광고속성 정보를 필터링 모듈(113)로 제공할 수 있다.
머하웃 모듈(120)은 필터링 모듈(113)에 광고속성 정보를 제공하기 전, 확실한 광고성 소셜 정보를 이용하여 학습을 시작하는데, 이때 제공되는 광고성 소셜 정보는 소셜 네트워크의 종류에 따라 차별될 수 있다. 예컨대, 블로그에 대한 광고성 소셜 정보, 트위터에 대한 광고성 소셜 정보 및 페이스북에 대한 광고성 소셜 정보를 구분되게 제공받아 기계 학습을 진행할 수 있다.
또한, 머하웃 모듈(120)은 각 소셜 네트워크에 따라 구분되게 광고성 정보를 수집 및 분석할 수 있다. 이러한 구분은 각 소셜 네트워크 매채(예컨대 페이스북, 트위터, 및 블로그 등)의 특성에 따라 광고성 소셜 정보의 특징을 반영하는 것으로서, 일 예로 블로그의 경우, 광고성 소셜 정보를 직접 댓글에 등록하는 경우가 많은 반면 트위터의 경우, 리트윗 글에 포함되는 링크가 업체 관련 링크인 경우가 많은데 따른다.
머하웃 모듈(120)은 학습 데이터로서 제공되는 광고성 소셜 정보를 토대로 아래의 광고속성 정보를 파악할 수 있다.
3) 광고속성 정보는 가격정보, 링크정보, 이미지 정보 및 감성정보를 지칭할 수 있고,
3-1) 여기서, 가격정보는 소셜 정보에 가격정보가 포함되는 것을 의미할 수 있고,
3-2) 여기서, 이미지 정보는 소셜 정보에 상품 이미지가 포함되는 것을 의미할 수 있고,
3-3) 링크정보는 소셜 정보에 포함되는 상품의 판매처나 유통업체의 링크를 의미할 수 있으며,
3-4) 감성정보는 소셜 정보에 포함되는 상품에 대한 반응, 예컨대 긍정적 반응과 부정적 반응을 의미할 수 있다.
머하웃 모듈(120)은 3) 내지 3-4)에 기재된 속성정보를 파악한 후, 속성정보에 대한 종속속성 정보를 추가로 판단할 수 있다.
종속속성 정보는 둘 이상의 속성정보 중 어느 하나가 주(Main)가 되고, 다른 속성정보가 주가 되는 속성정보에 종속되는 것을 의미한다. 예컨대, 상품 이미지가 속성정보이고, 상품 이미지를 클릭할 때, 판매자 사이트로 링크되는 경우, 링크정보는 이미지 속성정보에 대한 종속속성 정보가 된다. 마찬가지로, 상품 이미지가 속성정보이고, 상품 이미지 내에 상품 가격정보가 포함되는 경우, 상품 가격정보는 상품 이미지에 대한 종속속성 정보가 된다.
속성정보와 종속속성 정보의 관계의 일 예는 아래의 각 호에 따라 표현될 수 있다.
8) 만일 속성정보가 이미지이고, 이미지가 상품에 대한 올바른 평가와만 관련된다면, 해당 이미지에는 가격 정보가 개입되지 않을 것이다.
9) 반대로, 속성정보가 이미지이고, 이미지에 대한 종속속성이 가격정보라면, 해당 이미지는 해당하는 상품에 대한 올바른 평가가 아니라 해당 상품의 구매를 유도하는 광고성 소셜 정보일 것이다.
8)과 9)에 기재된 바와 같이 하나의 속성정보(이미지에 대한 속성정보) 및 이에 해당하는 종속속성 정보의 관계는 소셜 정보가 올바른 소셜 정보인지, 아니면, 광고성 소셜 정보인지를 판단하는데 중요한 판단기준이 될 수 있다.
머하웃 모듈(120)은 속성정보 및 속성정보에 종속되는 종속속성 정보의 관계를 이용하여 소셜 정보에 대한 필터링 기준으로서 광고속성 정보를 생성할 수 있으며, 생성된 광고속성 정보는 필터링 모듈(113)에 제공되고, 필터링 모듈(113)은 광고속성 정보에 따라 메모리(112)에 수납된 소셜 정보 중 올바른 것과 광고성 소셜 정보를 구분하고, 올바른 것은 저장모듈(130)로 제공할 수 있다.
저장모듈(130)은 한 쌍의 스토리지로 구성될 수 있다. 그 중 하나는 임시 저장을 위해 마련되는 임시 저장모듈(131)에 해당하고 다른 하나는 하둡 데이터베이스에 저장하기 위한 하둡 저장모듈(132)에 해당한다. 하둡 저장모듈(132)에 저장된 소셜 정보는 관리자 모듈(140)로 제공되며, 관리자 모듈(140)에서는 필터링된 소셜 정보 중 광고성 소셜 정보가 있는지 판단할 수 있다. 관리자 모듈(140)에서 광고성 소셜 정보로 분류된 것은 머하웃 모듈(120)로 제공되며, 머하웃 모듈(120)은 관리자 모듈(140)에서 제공되는 광고성 소셜 정보를 학습 데이터로 하여 더욱 정밀한 필터링 기준에 따른 광고속성 정보를 작성하여 필터링 모듈(113)로 제공할 수 있다.
데이터베이스(150)는 관리자 모듈(140)에서 재차 필터링된 소셜 정보를 저장한다. 저장된 소셜 정보는 기업에서 상품이나 서비스 분석에 이용될 수 있으며, 사회, 문화 분석을 위한 업체나 학술단체에서 이용할 수도 있다. 이 외에 소셜 정보를 이용하여 기업, 제품, 서비스, 사회현상이나 이슈를 분석하거나 추출하고자하는 다양한 계층에서 데이터베이스(150)에 저장된 소셜 정보를 이용할 수 있을 것이다.
도 3은 속성정보 및 종속속성 정보를 설명하기 위한 참조도를 도시한다.
도 3을 참조하면, 하나의 소셜 정보는 텍스트 및 링크정보(13) 및 이미지 정보(11)로 구성되는데, 텍스트 및 링크정보(13)는 매장(상품 판매장) 링크(13a)가 포함되거나 또는 컨텐츠 링크(13b)가 포함될 수 있다.
매장 링크(13a)는 소셜 정보에 포함되는 링크 정보가 상품이나 서비스를 제공하는 매장으로 연결되도록 하는 것으로, 링크 정보라 하더라도 이처럼 매장 링크(13a)를 포함하고 있다면, 해당 링크를 포함하는 텍스트 및 링크정보는 광고성 소셜 정보일 가능성이 크다고 볼 수 있다.
반면, 텍스트 및 링크정보에 포함되는 링크 정보가 컨텐츠 링크(13b)인 경우, 텍스트 및 링크 정보는 비 광고성 소셜 정보라고 판단할 수 있다.
이미지 정보(11)가 상품이나 서비스에 대한 이미지 정보라고 가정할 때, 해당 이미지가 상품이나 서비스의 품질을 논하는 올바른 소셜 정보인지, 광고성 소셜 정보인지를 판단하기 곤란할 수 있다. 그러나, 이미지 정보(11)를 하나의 속성정보로 보고, 이미지 정보(11)에 종속되는 가격정보(12)를 종속속성 정보로 보는 경우, 해당 이미지(11)는 상품(또는 서비스)을 판매하기 위한 이미지(11)로 판단할 수 있다. 반대로, 이미지(11) 내에 가격 정보(12)를 포함하지 않는다면, 비 광고성 소셜 정보로 판단할 수도 있다. 물론, 이미지(11) 내에 가격 정보(12)가 포함되지 않는 광고성 소셜 정보도 있으므로 이러한 조건 하나만으로 광고성 소셜 정보를 판단하는 것은 아니며, 각 속성정보(11, 13)에 대한 광고성 여부를 종합적으로 판단하여야 할 것이다. 이를 위해, 각 속성정보(11, 13)에는 가중치가 부여되고, 부여된 가중치의 합이 사전에 설정된 기준치를 만족하는가를 판단하여 최종적으로 광고성 소셜 정보인가를 판단하는 것이 바람직하다.
상기한 바와 같이 하나의 소셜 정보를 복수의 속성의 결합 관계로 표현하면, 단순히 링크 정보(13a, 13b)가 존재한다고 하여 해당 소셜 정보를 광고성 소셜 정보로 판단하는 오류를 발생시키지 않을 수 있다.
도 4는 도 2에 도시된 머하웃 모듈의 학습 과정에 대한 참조도면을 도시한다. 도 4에 대한 설명은 도 2와 도 3을 함께 참조하여 설명하도록 한다.
도 4를 참조하면, 머하웃 모듈(120)은 필터링 모듈(113)로 광고속성 정보를 제공하기 전, 두 그룹의 광고성 소셜 정보를 이용하여 기계학습을 수행할 수 있다.
먼저, 머하웃 모듈(120)은 100% 확실하게 광고성 소셜 정보로 구성되는 트레이닝 그룹의 광고성 소셜정보를 이용하여 광고속성 정보를 판단한다. 머하웃 모듈(120)은 광고성 소셜 정보를 복수의 속성으로 구획하고, 구획된 각각의 속성간 연결관계, 예컨대 속성정보와 종속속성 정보의 관계를 파악하여 광고속성 정보를 생성한다.
이후, 머하웃 모듈(120)에 정상적인 소셜정보와 광고성 소셜 정보가 혼합된 테스트 그룹을 제공하고 그 결과를 판단할 수 있다. 이때, 머하웃 모듈(120)은 트레이닝 그룹을 통해 학습된 결과와 테스트 그룹에 대한 판단결과를 비교하여 테스트 그룹에 대한 판단이 정확한가를 비교할 수 있다. 이러한 기계 학습 결과가 종료되면, 머하웃 모듈(120)은 정보수집 모듈(110)에서 수집되는 소셜 정보에 대해 필터링 조건을 준비하여 필터링 모듈(113)로 제공할 수 있다.
도 5는 머하웃 모듈(120)이 소셜 네트워크의 종류에 따라 필터링을 수행하는 방법에 대한 개념도를 도시한다.
도 5를 참조하면, 머하웃 모듈(120)은 정보수집 모듈(110)에서 수집한 소셜 정보를 소셜 네트워크의 종류에 따라 서로 상이한 분석모듈로 제공할 수 있다. 이는 소셜 네트워크에 따라 광고성 소셜 정보의 특징이 상이한데 따른 것으로서, 예컨대 페이스북에서 수집된 소셜 정보는 페이스북에 관한 소셜 정보끼리 모아 분석하고, 트위터에서 수집된 소셜 정보는 트위터에서 수집된 소셜 정보끼리 모아 분석할 수 있는 것이다. 이렇게 소셜 네트워크의 종류별로 구분하여 광고성 소셜 정보를 분석하고 필터링함으로써, 단순히 키워드를 이용하거나, 이미지를 포함하는 소셜 정보를 광고성 소셜 정보로 분류하는 오류를 저감할 수 있으며, 올바른 소셜 정보를 필요로하는 다양한 업체나 계층에 정당한 소셜 정보를 공급할 수 있다.
본 명세서와 도면에 개시된 본 발명의 실시예들은 본 발명이 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.
110 : 정보수집 모듈 111 : 크롤링 모듈
112 : 메모리 113 : 필터링 모듈
120 ; 머하웃 모듈 130 : 저장 모듈
131 : 임시 저장모듈 132 : 하둡 저장모듈
140 : 감성분석 모듈 150 : 데이터베이스

Claims (7)

  1. 광고성 소셜 정보를 학습 데이터로 하여 상기 광고성 소셜 정보의 광고속성 정보를 판단하는 머하웃 모듈; 및
    웹 크롤러를 통해 소셜 정보를 수집하며, 상기 소셜 정보에 대해 상기 광고 속성 정보를 적용하여 필터링을 수행하는 필터링 모듈을 구비하는 정보수집 모듈;을 포함하며, 상기 머하웃 모듈은,
    상기 정보수집 모듈에서 필터링된 소셜 정보 중 관리자 지정된 지정 소셜 정보에 대해 광고속성 정보를 분석하여 상기 정보수집 모듈의 필터링 모듈을 업데이트하는 것을 특징으로 하는 머하웃 기반의 소셜 정보 수집 시스템.
  2. 제1항에 있어서,
    상기 머하웃 모듈은,
    상기 학습 데이터로 주어지는 광고성 소셜 정보의 구성을 참조하여 적어도 하나의 속성 정보를 파악하며,
    상기 속성 정보는 가격정보, 링크정보 및 이미지정보 및 감성정보 중 적어도 하나인 것을 특징으로 하는 머하웃 기반의 소셜 정보 수집 시스템.
  3. 제2항에 있어서,
    상기 머하웃 모듈은,
    상기 속성 정보에 포함되거나 또는 상기 속성 정보와 연동되는 종속 속성을 파악하며,
    상기 종속 속성은 상기 속성 정보 중 어느 하나가 다른 하나에 포함 또는 링크되는 형태인 것을 특징으로 하는 머하웃 기반의 소셜 정보 수집 시스템.
  4. 제2항에 있어서,
    상기 감성정보는,
    상기 속성 정보에 대한 긍정 또는 부정에 대한 정보인 것을 특징으로 하는 머하웃 기반의 소셜 정보 수집 시스템.
  5. 제4항에 있어서,
    상기 머하웃 모듈은,
    상기 감성 정보가 상기 속성 정보에 대한 긍정의 것이고, 상기 속성 정보 중 상기 링크 정보, 상기 이미지 정보 및 상기 링크 정보 중 적어도 하나와 연결될 때, 상기 소셜 정보를 광고성 소셜 정보로 학습하는 것을 특징으로 하는 머하웃 기반의 소셜 정보 수집 시스템.
  6. 제1항에 있어서,
    상기 필터링 모듈에서 상기 광고속성 정보에 따라 필터링된 광고 소셜 정보를 임시 저장하는 저장모듈; 및
    상기 임시 저장된 광고 소셜 정보를 하둡 데이터베이스에 로딩하는 데이터베이스 모듈;을 더 포함하는 것을 특징으로 하는 머하웃 기반의 소셜 정보 수집 시스템.
  7. 제1항에 있어서,
    상기 필터링 모듈은,
    키워드 필터링과 상기 광고속성 정보 양자에 대응하여 상기 소셜 정보를 필터링하는 것을 특징으로 하는 머하웃 기반의 소셜 정보 수집 시스템.
KR1020140166552A 2014-11-26 2014-11-26 머하웃 기반의 소셜 정보 수집 시스템 KR20160063498A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140166552A KR20160063498A (ko) 2014-11-26 2014-11-26 머하웃 기반의 소셜 정보 수집 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140166552A KR20160063498A (ko) 2014-11-26 2014-11-26 머하웃 기반의 소셜 정보 수집 시스템

Publications (1)

Publication Number Publication Date
KR20160063498A true KR20160063498A (ko) 2016-06-07

Family

ID=56192646

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140166552A KR20160063498A (ko) 2014-11-26 2014-11-26 머하웃 기반의 소셜 정보 수집 시스템

Country Status (1)

Country Link
KR (1) KR20160063498A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145233A (zh) * 2018-08-27 2019-01-04 山东浪潮商用系统有限公司 互联网信息采集系统
WO2019212283A1 (ko) * 2018-05-03 2019-11-07 삼성전자 주식회사 전자 장치 및 그 동작 방법
KR20220014781A (ko) * 2020-07-29 2022-02-07 주식회사 지에프씨코리아 스팸 분류기, 룰 기반 분류기 및 통계 기반 분류기를 이용하여 상품 리뷰 정보를 제공하는 소액 결제 시스템 및 소액 결제 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019212283A1 (ko) * 2018-05-03 2019-11-07 삼성전자 주식회사 전자 장치 및 그 동작 방법
US11893063B2 (en) 2018-05-03 2024-02-06 Samsung Electronics Co., Ltd. Electronic device and operation method thereof
CN109145233A (zh) * 2018-08-27 2019-01-04 山东浪潮商用系统有限公司 互联网信息采集系统
KR20220014781A (ko) * 2020-07-29 2022-02-07 주식회사 지에프씨코리아 스팸 분류기, 룰 기반 분류기 및 통계 기반 분류기를 이용하여 상품 리뷰 정보를 제공하는 소액 결제 시스템 및 소액 결제 방법

Similar Documents

Publication Publication Date Title
US20130332385A1 (en) Methods and systems for detecting and extracting product reviews
Li et al. Detecting campaign promoters on twitter using markov random fields
CN106886518B (zh) 一种微博账号分类的方法
Chang et al. An effective early fraud detection method for online auctions
US20170221111A1 (en) Method for detecting spam reviews written on websites
US20200026759A1 (en) Artificial intelligence engine for generating semantic directions for websites for automated entity targeting to mapped identities
US20170193533A1 (en) Automatic detection of user personality traits based on social media image posts
Costa et al. Detecting tip spam in location-based social networks
US20130204822A1 (en) Tools and methods for determining relationship values
CN109636430A (zh) 对象识别方法及其系统
Cherqi et al. Analysis of hacking related trade in the darkweb
Radovanović et al. Review spam detection using machine learning
Husnain et al. Estimating market trends by clustering social media reviews
Saraswathi et al. Deep Learning Enabled Social Media Recommendation Based on User Comments.
KR20160063498A (ko) 머하웃 기반의 소셜 정보 수집 시스템
CN108280102A (zh) 上网行为记录方法、装置及用户终端
Ma et al. Detecting review spam: Challenges and opportunities
US11080605B1 (en) Interest matched interaction initialization
Das et al. Business intelligence from online product review-a rough set based rule induction approach
Silpa et al. Detection of Fake Online Reviews by using Machine Learning
Kaur et al. A Review on Sentimental Analysis on Facebook Comments by using Data Mining Technique
CN114528416A (zh) 一种基于大数据的企业舆情环境监测方法和系统
Iqbal et al. Association rule analysis-based identification of influential users in the social media
Prasad et al. Analysis of the co-purchase network of products to predict amazon sales-rank
CN115062223B (zh) 社交大数据平台垃圾广告用户精准识别方法

Legal Events

Date Code Title Description
E601 Decision to refuse application