KR20160002199A - 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템 - Google Patents

연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템 Download PDF

Info

Publication number
KR20160002199A
KR20160002199A KR1020140081204A KR20140081204A KR20160002199A KR 20160002199 A KR20160002199 A KR 20160002199A KR 1020140081204 A KR1020140081204 A KR 1020140081204A KR 20140081204 A KR20140081204 A KR 20140081204A KR 20160002199 A KR20160002199 A KR 20160002199A
Authority
KR
South Korea
Prior art keywords
keyword
issue data
keywords
core
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
KR1020140081204A
Other languages
English (en)
Other versions
KR101606758B1 (ko
Inventor
권성근
Original Assignee
경일대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경일대학교산학협력단 filed Critical 경일대학교산학협력단
Priority to KR1020140081204A priority Critical patent/KR101606758B1/ko
Publication of KR20160002199A publication Critical patent/KR20160002199A/ko
Application granted granted Critical
Publication of KR101606758B1 publication Critical patent/KR101606758B1/ko
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 웹 페이지를 통해 의도하지 않은 핵심 키워드를 추출 후, 핵심 키워드와 가장 연관성이 낮의 연관 키워드를 추출하고, 이를 이용하여 핫 이슈가 될 가능성이 있는 이슈 데이터를 추출하는 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템을 제안한다. 이를 위해 본 발명은 네트워크 접속되는 복수의 웹 페이지에 접속하여 키워드를 수집하는 이슈 데이터 추출 서버를 통해 수행되며, 웹 수집을 통해 웹 페이지에서의 노출 빈도를 참조하여 핵심 키워드를 추출하고, 핵심 키워드와 동반 노출되는 복수의 연관 키워드를 추출하는 단계, 연관 키워드들을 노출 빈도가 낮은 순위에 따라 정렬하는 단계 및 노출 빈도가 낮은 순위에 따라 정렬된 연관 키워드들 중 적어도 하나를 이슈 데이터로 분류하는 단계를 포함하여 구성될 수 있다.

Description

연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템{Issue data extracting method and system using relevant keyword}
본 발명은 이슈 데이터 추출방법 및 시스템에 관한 것으로, 더욱 상세하게는 웹 페이지를 통해 의도하지 않은 핵심 키워드를 추출 후, 핵심 키워드와 가장 연관성이 낮의 연관 키워드를 추출하고, 이를 이용하여 핫 이슈가 될 가능성이 있는 이슈 데이터를 추출하는 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템에 관한 것이다.
인터넷을 통해 유통되는 정보의 량이 증가함에 따라, 인터넷을 통해 유통되는 정보를 찾기 위한 다양한 검색방법이 이용되고 있다.
가장 대중화된 키워드 검색방법은 사용자가 입력하는 키워드를 포함하는 웹 페이지나 콘텐츠를 사용자 단말기(예컨대 퍼스널 컴퓨터, 스마트폰 및 노트북 등)로 제공하는 검색방법으로 사용자 입력된 키워드와 매칭되는 검색결과를 선별하고, 선별된 검색 결과물 중 가장 많은 사용자가 선택한 순서에 따라 정렬하거나 스폰서의 광고비 입력 순서에 따라 정렬하여 사용자 단말기로 검색 결과물을 제공하고 있다.
그러나, 키워드 검색방법은 사용자가 입력한 키워드를 포함하는 모든 인터넷 콘텐츠가 검색되므로 사용자가 입력한 키워드와 동의어를 가지거나 유사한 의미를 갖는 검색 결과물을 검색하지 못할 우려가 있다. 이에 대해, 등록특허 10-0493688(R1)에서는 사용자가 입력한 검색 키워드에 대해 연관 키워드를 추출하고, 연관 키워드들 중 검색 키워드와의 연관성이 높거나 노출 빈도가 높은 연관 키워드를 검색 결과 리스트에 추가하는 "키워드 확장장치 및 방법과 키워드 확장장치를 이용한 검색 시스템"을 제안한 바 있다. 등록특허 10-0493688은 사용자가 직접 입력하는 키워드와 연관된 연관 키워드를 검색에 활용한다는 측면에서, 더 확장된 검색 결과를 제공하고 있다.
다른 한편, 등록특허 10-1178208(R2)에서는 인터넷 게시물 또는 게시물에 포함되는 색인어를 추가로 연관 검색어로서 추출하여 인터넷을 재 검색 함으로써, 검색 결과물이 누락되지 않도록 하는 "키워드 추출 장치 및 방법"을 제안한 바 있다.
또한, 등록특허 10-1052631(R3)는 동일 시간대에 발생하는 키워드를 참조하여 키워드와 연관어 사이의 하이어라키 구조를 구축하고 하이어라키 구조를 이용하여 복수의 키워드를 동일 개념의 그룹으로 그루핑하는 "동시발생빈도를 이용한 검색어에 대한 연관어 제공방법 및 이를 이용한 장치"를 제안한 바 있다.
R1, R2 및 R3을 통해 예시한 바와 같이, 종래의 연관어 검색방법은 사용자가 의도한 검색 결과물을 최대한 확보하는데 초점이 맞추어져 있으며, 사용자가 입력한 키워드의 범위와 연관성이 적은 새로운 정보를 찾아내는데 한계를 갖는다.
본 발명의 목적은 의도된 키워드 입력을 통해 정보를 구하지 않으며, 이슈가 되는 핵심 키워드와 연관성이 가장 낮은 연관 키워드 그룹을 구한 뒤, 이를 이용하여 핫 이슈가 될 가능성이 있는 이슈 데이터를 추출하는 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템을 제공함에 있다.
위와 같은 목적을 달성하기 위하여, 본 발명의 실시예에 따른 연관 키워드를 이용한 이슈 데이터 추출방법은 연관 키워드 추출단계, 정렬 단계 및 이슈 데이터 분류단계를 포함하여 구성될 수 있다.
연관 키워드 추출단계는 웹 수집을 통해 웹 페이지에서의 노출 빈도를 참조하여 핵심 키워드를 추출하고, 핵심 키워드와 동반 노출되는 복수의 연관 키워드를 추출하는 단계에 대응하고, 정렬 단계는, 연관 키워드들을 노출 빈도가 낮은 순서에 따라 정렬하는 단계에 대응하며, 이슈 데이터 분류단계는 노출 빈도가 낮은 순서에 따라 정렬된 연관 키워드들 중 적어도 하나를 이슈 데이터로 분류하는 단계에 해당할 수 있다.
위와 같은 목적을 달성하기 위하여, 본 발명의 실시예에 따른 연관 키워드를 이용한 이슈 데이터 추출 시스템은 핵심 키워드 추출부, 연관 키워드 추출부 및 이슈 데이터 추출부를 포함하여 구성될 수 있다.
핵심 키워드 추출부는 네트워크 접속되는 복수의 웹 페이지에 접속하여 웹 페이지에 분포하는 키워드를 웹 페이지 또는 스트링(String) 단위로 수집하고, 핵심 키워드 추출부는 키워드들 중 노출 빈도가 가장 높은 것부터 사용자 설정된 제1노출 빈도 순위에 대응하는 키워드를 핵심 키워드로 분류하고, 연관 키워드 추출부는 핵심 키워드와 스트링 또는 웹 페이지 단위로 동반 노출되는 연관 키워드를 추출하며, 이슈 데이터 추출부는 연관 키워드 중 노출 빈도가 가장 낮은 노출 빈도 순위부터 사용자 설정된 제2노출 빈도 순위에 대응하는 것을 이슈 데이터로 분류할 수 있다.
본 발명에 따르면 정해진 키워드를 이용하지 않고도 사회적으로 이슈화될 사안과 관련된 핫 이슈 데이터를 추출할 수 있다. 본 발명은 어떤 의도를 가지고 이슈에 접근하는 대신, 웹 공간을 통해 의도하지 않은 핫 이슈를 찾아내는데 이용될 수 있다.
도 1은 본 발명의 일 실시예에 따른 연관 키워드를 이용한 이슈 데이터 추출 시스템에 대한 개념도를 도시한다.
도 2는 종래의 연관 검색어 추출 방법을 개념적으로 표현한 참조도면을 도시한다.
도 3은 실시예에 따른 이슈 데이터 시스템의 연관 검색어 추출 방법을 개념적으로 표현한 참조도면을 도시한다.
도 4는 실시예에 따른 이슈 데이터 시스템이 연관 키워드들 중에서 이슈 데이터를 추출하는 방법에 대한 참조도면을 도시한다.
도 5는 본 발명에 따른 연관 키워드를 이용한 이슈 데이터 추출방법에 따른 흐름도를 도시한다.
본 명세서에서 언급되는 사용자 단말기는, 퍼스널 컴퓨터, 노트북, 스마트폰 및 기타 메모리, 프로세서 및 디스플레이장치를 구비하는 다양한 컴퓨팅 장치를 의미할 수 있다.
본 명세서에서 언급되는 이슈 데이터는 텍스트, 이미지, 동영상 또는 이들이 선택적으로 조합된 형태일 수 있다.
본 명세서에서 언급되는 웹 페이지는 기업이나 사업체의 웹 페이지, 개인 홈페이지, 블로그, 온라인 쇼핑몰, 언론사 웹 페이지, 트위터, 블로그, 페이스북, 및 포털과 같은 다양한 형태의 것을 지칭할 수 있으며, 이 외에도 인터넷을 통해 접근 가능한 콘텐츠를 구비하는 경우에도 웹 페이지라 지칭할 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이때, 첨부된 도면에서 동일한 구성 요소는 가능한 동일한 부호로 나타내고 있음에 유의한다. 또한, 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략할 것이다. 마찬가지 이유로 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 개략적으로 도시되었다.
도 1은 본 발명의 일 실시예에 따른 연관 키워드를 이용한 이슈 데이터 추출 시스템에 대한 개념도를 도시한다.
도 1을 참조하면, 실시예에 따른 연관 키워드를 이용한 이슈 데이터 추출 시스템(이하, "이슈 데이터 시스템"이라 함)(100)은 핵심 키워드 추출을 위해, 네트워크 접속되는 복수의 웹 페이지를 통해 키워드를 수집할 수 있다. 도 1에서는 페이스 북(Face book), 트위터(Twitter), 포털(Portal) 및 블로그(Blog)를 통해 웹 페이지 단위로 키워드를 수집하거나 콘텐츠 단위로 키워드를 수집할 수 있다. 예시된 웹 페이지 이외에도, 개인 홈페이지, 언론사 웹 페이지, 온라인 마켓 및 기타 다양한 형태의 웹 페이지가 핵심 키워드 추출에 이용될 수 있다.
실시예에 따른 이슈 데이터 시스템(100)은 별도의 검색 키워드를 이용하지 않는 특징이 있다. 실시예에 따른 이슈 데이터 시스템(100)은 이슈 데이터 시스템(100)을 관리하는 사용자로부터 별도의 검색어를 제공받지 않으며, 기준기간 동안(예컨대 수 일(日) 내지 수 년(年)) 정해진 그룹의 웹 페이지를 통해 검색어를 획득하여 핵심 키워드를 추출하거나, 랜덤하게 선택되는 웹 페이지에서 수집된 키워드를 이용하여 핵심 키워드를 추출할 수 있다.
이때, 이슈 데이터 시스템(100)은 기준기간 동안 수집된 키워드를 토대로 핵심 키워드를 추출할 수 있는데, 이는 사회적인 이슈라는 것이 일정기간 동안만 유효한 경우가 많은데 따른다. 이슈 데이터 시스템(100)이 오래된 과거부터 현재까지의 키워드 전체를 대상으로 핵심 키워드를 추출하는 경우, 과거의 대형 이슈인 사건에 대한 검색결과가 핵심 키워드 선택에 영향을 끼칠 수 있는데 이러한 과거 이슈에 대한 영향을 최소화하기 위해, 이슈 데이터 시스템(100)은 기준기간 동안의 검색 결과를 이용하여 핵심 키워드를 추출할 수 있다.
이슈 데이터 시스템(100)은 웹 페이지로부터 수집한 키워드의 노출 빈도를 참조하여 하나 또는 둘 이상의 핵심 키워드를 추출할 수 있다. 이때, 이슈 데이터 는 사용자가 이슈 데이터 시스템(100)에 별도의 검색 키워드를 입력하지 않는 상태에서 자동으로 추출될 수 있다.
핵심 키워드가 추출되면, 이슈 데이터 시스템(100)은 각 웹 페이지에서 핵심 키워드를 포함하는 스트링(String) 또는 문단에서 연관 키워드를 추출할 수 있다. 여기서, 스트링은 하나의 문장 또는 문구를 의미할 수 있으며, 통상 핵심 키워드를 포함하는 스트링은 핵심 키워드와 관련이 있는 내용으로 구성되는 바, 핵심 키워드를 포함하는 스트링에서 연관 검색어를 추출하는 경우, 연관 검색어는 핵심 키워드와 높은 연관성을 갖는 것으로 판단할 수 있다.
실시예에 따른 이슈 데이터 시스템(100)은 핵심 키워드를 추출한 후, 아래의 방법에 따라 연관 검색어를 추출할 수 있다.
1) 핵심 키워드를 추출한 웹 페이지(이하, 제1페이지라 함) 또는 핵심 키워드를 추출한 웹 페이지의 스트링에서 연관 검색어를 추출하는 방법.
2) 핵심 키워드를 추출 후, 제1페이지를 제외한 타 페이지(이하, 제2페이지라 함)에서 연관 검색어를 추출하는 방법.
3) 핵심 키워드를 추출 후, 제1페이지 및 제2페이지에서 연관 검색어를 추출하는 방법.(제1페이지에서 추출하는 연관 검색어는 핵심 키워드를 포함하는 스트링 또는 문단에서 추출하고, 제2페이지에서는 핵심 키워드를 검색 키워드로 하여 추출할 수 있다.)
1)의 연관 키워드 추출 방법은 핵심 키워드와 관련성이 보장되는 연관 키워드를 추출하는데 유용하고,
2)의 연관 키워드 추출 방법은 핵심 키워드를 포함하는 스트링이나 웹 페이지를 회피함으로써, 제1페이지와 관련되지 않은 새로운 이슈를 찾는데 유용하며,
3)의 연관 키워드 추출방법은 핵심 키워드와의 연관성을 유지하면서 새로운 이슈를 찾기 위해 절충된 연관 키워드 추출방법에 대응할 수 있다.
이슈 데이터 시스템(100)은 연관 키워드를 하나 또는 복수 개 추출할 수 있으며, 추출된 연관 키워드를 노출 빈도가 낮은 순서에 따라 정렬할 수 있다.
이는 본 실시예에서 매우 중요한 개념으로, 통상의 키워드 검색이나 연관 검색이 노출 빈도가 높은 순서에 따라 정렬되는 반면, 실시예에 따른 이슈 데이터 시스템(100)은 노출 빈도가 낮은 순서에 따라 연관 키워드를 정렬하고, 이를 통해 이슈를 찾아낸다는데 그 특징이 있다. 종래의 연관 검색어 추출방법과 실시예에 따른 이슈 데이터 시스템(100)의 연관 검색어 추출 방법은 도 2와 도 3을 함께 참조하여 설명하도록 한다.
먼저, 도 2는 종래의 연관 검색어 추출 방법을 개념적으로 표현한 참조도면으로서, 도 2에 도시된 바와 같이, 종래의 연관 검색어 추출 방법은 검색 키워드(11)를 사용자가 검색창(10)에 입력하고, 검색창(10)에 입력된 검색 키워드와 연관된 연관 키워드를 사용자에게 제시하는 것을 알 수 있다.
예컨대, 검색 키워드(11)가 "카드유출"인 경우 종래의 검색 시스템은 검색 키워드(카드유출)(11)과 동반 노출되는 노출 빈도가 높은 연관 검색어로서 "재발급", "국민카드", "2차 유출", '2차 피해", "개인정보" 및 "카드번호"와 같은 연관 검색어를 추출하여 사용자에게 제공한다. 이러한 연관 검색어는 검색 키워드와 동반 노출되는 노출 빈도가 높을 것이 요구되는데, 이는 사용자가 원하는 검색 키워드를 확장하는 개념인데 따른다.
다음으로, 도 3은 실시예에 따른 이슈 데이터 시스템(100)의 연관 검색어 추출 방법을 개념적으로 표현한 참조도면으로서, 도 3을 참조하면, 이슈 데이터 시스템(100)은 핵심 키워드(카드유출)와의 동반 노출 빈도가 가장 낮은 연관 키워드를 중심으로 정렬하는 것을 볼 수 있다.
도 3에서, 이슈 데이터 시스템(100)은 "카드유출"이라는 핵심 키워드를 통해 추출한 연관 키워드들 중 노출 빈도 또는 핵심 키워드와의 동반 노출 빈도(스트링 내에서의 동반 노출 빈도 또는 문단 내에서의 동반 노출 빈도)가 가장 낮은 "재보선", "배후" 및 "김의원"과 같은 연관 검색어를 중심으로 정렬하고, 이들 연관 키워드를 핵심 키워드와 조합하여 "카드유출-배후", "카드유출-재보선" 및 "카드유출-김의원"과 같은 키워드 셋을 형성할 수 있다. 상기한 키워드 셋은 도 2를 통해 예시된 "국민카드-개인정보", "국민카드-카드번호"와 같은 연관 키워드와는 달리 가장 노출 빈도가 낮은 경우에 속하므로, 아직 세상에 널리 알려지지 않은 이슈거나, 사실 확인이 요구되는 이슈일 가능성이 크고, 이러한 이슈는 현재까지 대중적인 내용을 포함하지 않기에, 핫 이슈(Hot issue)로서의 역할이 기대된다고 볼 수 있다.
도 3에서, S1 영역은 실시예에 따른 이슈 데이터 시스템(100)이 연관 검색어를 노출 빈도가 낮은 순서에 따라 정렬하여 이슈 데이터를 추출한 것을 예시하는 반면, S2 영역은 종래의 연관 검색어가 정렬되는 것을 예시하여 종래의 연관 검색어 추출방법과 실시예에 따른 이슈 데이터 시스템(100)의 연관 검색어 추출방법이 대비되도록 나타내고 있다.
S2 영역에 도시된 종래의 연관 검색어 추출방법에 따르면, 핵심 키워드로서 "카드유출"이 추출되었다고 가정할 때, "국민카드", "카드번호" 및 "개인정보"와 같은 키워드가 연관 키워드로서 추출되는데, 이러한 연관 검색어는 사실 핵심 키워드(카드유출)에 대한 새로운 이슈를 유발하기 어려운 것들이며, 기존의 이슈가 유지될 뿐 새로운 이슈를 유도하기 어려운 측면이 있다.
반면, S1 영역에 도시된 실시예에 따른 연관 검색어 추출방법에 따르면, 핵심 검색어가 "카드유출"일 때, 이에 연관되는 연관 검색어가 "재보선", "배후" 및 "김의원"과 같으므로, 핵심 검색어(카드유출)와 연동될 때, 파괴적인 이슈를 창출할 가능성이 크며 이슈 연관성이 높다고 할 수 있다. 이처럼, 실시예에 따른 이슈 데이터 시스템(100)은 사용자가 어떠한 이슈를 찾기 위해, 검색어를 조합하거나 찾을 필요가 없으면서도 훗날 핫 이슈화될 정보를 자동으로 추출할 수 있다는 점에서, 기존의 연관 검색어 추출방법과 차별될 수 있다.
도 1에서, 실시예에 따른 이슈 데이터 시스템(100)은 웹 페이지에서 핵심 키워드를 추출 후, 핵심 키워드를 포함하는 스트링이나 문단 또는 콘텐츠에서 연관 키워드를 추출한다고 언급한 바 있다. 이슈 데이터 시스템(100)이 연관 키워드를 추출할 때, 노출 빈도의 순서에 따라 이슈 데이터를 최종 결정할 수 있다. 이는 도 4를 함께 참조하여 설명하도록 한다.
도 4는 실시예에 따른 이슈 데이터 시스템이 연관 키워드들 중에서 이슈 데이터를 추출하는 방법에 대한 참조도면을 도시한다.
도 4를 참조하면, 실시예에 따른 이슈 데이터 시스템(100)은 핵심 키워드(11)에 대한 연관 키워드가 노출되는 노출 빈도가 가장 낮은 것(A1)부터 높은 것(An)의 순서에 따라 정렬하며, 정렬된 연관 키워드(A1 ∼ An) 중 사용자 설정된 순위, 또는 비율에 따라 최종적으로 이슈 데이터가 선택될 수 있다.
예컨대, 이슈 데이터 시스템(100)을 제어하는 사용자가 있고, 해당 사용자가 노출 빈도가 가장 낮은 것(A1)부터 세 번째 순위에 대응하는 것(A3) 까지를 이슈 데이터로 설정한다고 가정하면, 이슈 데이터는 A1 ∼ A3이 해당될 수 있다.
다른 한편, 이슈 데이터 시스템(100)은 사용자 설정된 비율에 따라 이슈 데이터를 선택할 수도 있다. 예컨대, A1 ∼ An 중 노출 빈도가 0.1% 이하와 같은 조건에 따라 이슈 데이터를 선택할 수도 있으며, 이 경우, 이슈 데이터는 복수 개가 선택될 수 있다.
바람직하게는, 이슈 데이터 시스템(100)은 핵심 키워드 추출부(110), 연관 키워드 추출부(120), 이슈 데이터 추출부(130), 부가정보 추출부(140) 및 데이터베이스(150)를 포함하여 구성될 수 있다.
핵심 키워드 추출부(110)는 페이스 북(Face book), 트위터(Twitter), 포털(Portal) 및 블로그(Blog)를 통해 웹 페이지 단위로 키워드를 수집하거나 콘텐츠 단위로 키워드를 수집할 수 있다. 예시된 웹 페이지 이외에도, 개인 홈페이지, 언론사 홈페이지, 개인 홈페이지, 온라인 마켓 및 기타 다양한 형태의 웹 페이지가 핵심 키워드 추출에 이용될 수 있다. 한편, 핵심 키워드 추출부(110)는 별도의 검색 키워드를 요구하지 않는다. 별도의 검색 키워드를 요구하는 대신, 핵심 키워드 추출부(110)는 웹 페이지를 통해 다양한 정보를 웹 스크롤링하며, 웹 스크롤링된 정보를 구성하는 키워드를 수집하고, 수집된 키워드들의 노출 빈도를 참조하여 현재 이슈가 되는 핵심 키워드를 판단할 수 있다. 이때, 핵심 키워드 추출부(110)는 노출 순위 또는 노출 비율에 따라 핵심 키워드를 추출할 수 있으며, 노출 순위는 가장 노출 빈도가 높은 것부터 이슈 데이터 시스템(100)을 관리하는 사용자가 설정한 노출 순위에 따라 결정되거나, 사용자 설정된 노출 비율에 따라 결정될 수 있다. 다만 한정하지는 않는다.
연관 키워드 추출부(120)는 핵심 키워드 추출부(110)에서 추출된 핵심 키워드를 이용하여 연관 키워드를 추출할 수 있다. 연관 키워드 추출부(120)는 핵심 키워드를 포함하는 스트링, 문단 또는 웹 콘텐츠에서 연관 키워드를 추출할 수 있다. 연관 키워드 추출부(120)는 핵심 키워드와 동일한 스트링에서 노출되는 연관 키워드, 핵심 키워드를 포함하는 문단에서 함께 노출되는 연관 키워드 또는 핵심 키워드를 포함하는 스트링이나 콘텐츠를 제외한 타 스트링이나 콘텐츠에서 추출될 수도 있다.
이슈 데이터 추출부(130)는 연관 키워드 추출부(120)에서 추출된 연관 키워드들 중 노출 빈도가 가장 낮은 노출 빈도 순위부터 사용자 설정된 노출 빈도 순위에 대응하는 연관 키워드를 이슈 데이터로 추출할 수 있다. 또는 이슈 데이터 추출부(130)는 사용자 설정된 노출 빈도에 따라 이슈 데이터를 추출할 수도 있다. 예컨대, 이슈 데이터 추출부(130)는 핵심 키워드와의 동반 노출 빈도가 0.1% 이하인 연관 키워드를 이슈 데이터로 선택할 수 있다.
부가정보 추출부(140)는 이슈 데이터를 검색 키워드로 하여 웹 페이지에 대해 재 검색을 수행하며, 이를 통해, 이슈 데이터와 관련된 텍스트, 동영상 및 이미지와 같은 부가정보를 추출할 수 있다.
부가정보 추출부(140)는 이슈 데이터와 관련된 이미지를 위주로 검색하게 되는데, 이를 통해 텍스트 검색 기반의 이슈 데이터에 이미지 정보를 부가하여 멀티미디어 정보의 형태로 구현하기 위한 것이다. 멀티미디어 정보로 구현된 이슈 데이터는 텍스트와 이미지(예컨대, 사진)로 구성될 수 있는데, 이 경우, 멀티미디어 정보로 구현된 이슈 데이터는 핫 이슈를 필요로 하는 업종(뉴스 미디어, 방송, 및 출판)의 종사자들이 핫 이슈를 쉽게 찾아 이용할 수 있도록 한다.
데이터베이스(150)는 핵심 키워드 추출부(110)에서 웹 스크롤링을 할 때, 웹 스크롤링된 로우(Raw) 데이터를 저장하고, 핵심 키워드 추출부(110)에서 로우(Raw) 데이터를 이용하여 핵심 키워드를 추출하는데 이용될 수 있다. 또는 데이터베이스(150)는 연관 검색어 추출부(120)에서 추출된 연관 키워드를 기준기간 단위로 저장하거나, 또는 기준기간 단위로 추출된 이슈 데이터를 기준기간 단위로 저장해둘 수 있다. 이 외에 데이터베이스(150)는 부가정보 추출부(140)에서 이슈 데이터를 검색 키워드로 하여 검색된 부가정보를 핵심 키워드, 연관 키워드 또는 이슈 데이터와 연동시켜 저장할 수 있다.
도 5는 본 발명에 따른 연관 키워드를 이용한 이슈 데이터 추출방법에 따른 흐름도를 도시한다. 도 5에 대한 설명은 도 1 내지 도 4를 함께 참조하여 설명하도록 한다.
도 5를 참조하면 실시예에 따른 연관 키워드를 이용한 이슈 데이터 추출방법은 먼저, 이슈 데이터 시스템(100)이 네트워크 접속되는 웹 페이지에 봇(Bot) 또는 웹 수집 프로그램을 이용하여 웹 스크롤링(Web scrolling)을 하여 웹 페이지에 포함되는 키워드를 추출할 수 있다. 추출된 키워드는 데이터베이스(150)에 저장되고, 데이터베이스(150)에 저장된 키워드들은 핵심 키워드 추출부(110)를 통해 노출 빈도가 높은 순위에 해당하는 것을 핵심 키워드로 추출할 수 있다(S201). 다음으로, 연관 키워드 추출부(120)는 핵심 키워드 추출부(110)에서 추출된 핵심 키워드와 동반 노출되는 연관 키워드를 추출할 수 있다(S202).
연관 키워드는 핵심 키워드와 동일 스트링이나 문단에서 추출하거나, 핵심 키워드를 포함하는 웹 콘텐츠에서 추출할 수 있으며, 이 외에도 핵심 키워드가 포함되는 스트링, 문단 및 웹 콘텐츠를 제외한 타 스트링, 타 문단 및 타 웹 콘텐츠에서 수집될 수도 있다. 다만 한정하지는 않는다.
연관 키워드를 추출 후, 이슈 데이터 시스템(100)은 희소성 여부를 판단할 수 있다(S203).
희소성의 높고 낮음은 핵심 키워드에 대한 연관 키워드들 중 핵심 키워드와 동반 노출되는 노출 빈도가 가장 낮은 것을 기준으로 노출 빈도 순위 또는 노출 비율에 따라 결정될 수 있다.
일 예로서, 노출 빈도가 가장 낮은 연관 키워드를 1순위로 하여, 그 다음 낮은 연관 키워드를 2순위로 하는 방식으로 정렬할 수 있으며, 정렬된 결과를 하나의 리스트로 형성할 수 있다(S204). 다음으로, 이슈 데이터 시스템(100)은 생성된 리스트에서 노출 빈도 순위 또는 노출 비율에 따라 이슈 데이터를 최종 추출할 수 있다(S205). 반면, 연관 키워드들 중 희소성이 높은 경우에는 일반적인 핵심 키워드로 분류하며(S205), 일반 핵심 키워드 중에서는 이슈 데이터를 추출하지 않고 이슈 데이터 추출을 종료한다.
한편, 본 명세서와 도면에 개시된 본 발명의 실시예들은 본 발명이 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.
100 : 이슈 데이터 시스템 110 : 핵심 키워드 추출부
120 : 연관 키워드 추출부 130 : 이슈 데이터 추출부
140 : 부가정보 추출부 150 : 데이터베이스

Claims (8)

  1. 네트워크 접속되는 복수의 웹 페이지에 접속하여 키워드를 수집하는 이슈 데이터 추출 서버를 통해 수행되며,
    웹 수집을 통해 웹 페이지에서의 노출 빈도를 참조하여 핵심 키워드를 추출하고, 상기 핵심 키워드와 동반 노출되는 복수의 연관 키워드를 추출하는 단계;
    상기 연관 키워드들을 노출 빈도가 낮은 순위에 따라 정렬하는 단계; 및
    상기 노출 빈도가 낮은 순위에 따라 정렬된 연관 키워드들 중 적어도 하나를 이슈 데이터로 분류하는 단계;를 포함하는 것을 특징으로 하는 연관 키워드를 이용한 이슈 데이터 추출방법.
  2. 제1항에 있어서,
    상기 이슈 데이터는,
    상기 노출 빈도가 가장 낮은 것부터 사용자 설정된 노출 빈도 순위에 대응하는 연관 키워드인 것을 특징으로 하는 연관 키워드를 이용한 이슈 데이터 추출방법.
  3. 제1항에 있어서,
    상기 연관 키워드는,
    동일 스트링(String) 내에서 상기 핵심 키워드와 동반 노출되는 키워드 또는 동일 웹 페이지 내에서 상기 핵심 키워드와 동반 노출되는 키워드 중 적어도 하나인 것을 특징으로 하는 연관 키워드를 이용한 이슈 데이터 추출방법.
  4. 제1항에 있어서,
    상기 핵심 키워드는,
    상기 웹 수집에 의해 노출 빈도가 가장 높은 것부터 사용자 설정된 노출 빈도 순위의 범위 내에서 설정되는 것을 특징으로 하는 연관 키워드를 이용한 이슈 데이터 추출방법.
  5. 네트워크 접속되는 복수의 웹 페이지에 접속하여 웹 페이지에 분포하는 키워드를 웹 페이지 또는 스트링(String) 단위로 수집하고, 상기 키워드들 중 노출 빈도가 가장 높은 것부터 사용자 설정된 제1노출 빈도 순위에 대응하는 키워드를 핵심 키워드로 분류하는 핵심 키워드 추출부;
    상기 핵심 키워드와 상기 스트링 또는 상기 웹 페이지 단위로 동반 노출되는 연관 키워드를 추출하는 연관 키워드 추출부; 및
    상기 연관 키워드 중 노출 빈도가 가장 낮은 노출 빈도 순위부터 사용자 설정된 제2노출 빈도 순위에 대응하는 것을 이슈 데이터로 분류하는 이슈 데이터 추출부;를 포함하는 것을 특징으로 하는 연관 키워드를 이용한 이슈 데이터 추출 시스템.
  6. 제5항에 있어서,
    상기 이슈 데이터를 키워드로 하여 상기 이슈 데이터와 관련된 부가정보를 추출하는 부가정보 추출부;를 더 포함하는 것을 특징으로 하는 연관 키워드를 이용한 이슈 데이터 추출 시스템.
  7. 제5항에 있어서,
    상기 웹 수집부는,
    상기 웹 페이지에 둘 이상의 콘텐츠가 존재하는 경우, 각 콘텐츠별로 키워드를 추출하는 것을 특징으로 하는 연관 키워드를 이용한 이슈 데이터 추출 시스템.
  8. 제5항에 있어서,
    상기 스트링은,
    상기 핵심 키워드를 포함하는 문장 및 문단 중 어느 하나인 것을 특징으로 하는 연관 키워드를 이용한 이슈 데이터 추출 시스템.
KR1020140081204A 2014-06-30 2014-06-30 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템 Active KR101606758B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140081204A KR101606758B1 (ko) 2014-06-30 2014-06-30 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140081204A KR101606758B1 (ko) 2014-06-30 2014-06-30 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20160002199A true KR20160002199A (ko) 2016-01-07
KR101606758B1 KR101606758B1 (ko) 2016-03-28

Family

ID=55168894

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140081204A Active KR101606758B1 (ko) 2014-06-30 2014-06-30 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템

Country Status (1)

Country Link
KR (1) KR101606758B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241699A (zh) * 2016-12-26 2018-07-03 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
KR101941924B1 (ko) * 2018-10-29 2019-01-25 주식회사 인라이플 자율 인지 신경망 기반 연관 모델 학습을 이용한 나노 의도 분석 서비스 제공 방법
KR101976841B1 (ko) * 2018-10-29 2019-05-15 한경훈 자율 인지 신경망 기반 연관 모델 학습을 이용한 의사 결정 서비스 제공 방법
KR102001375B1 (ko) * 2019-02-19 2019-07-18 미래에셋대우 주식회사 금융뉴스 스팸구별 장치 및 그 방법
KR102585107B1 (ko) * 2023-03-21 2023-10-06 주식회사 중고나라 연관 검색어 관리 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100068532A (ko) * 2008-12-15 2010-06-24 한국전자통신연구원 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법
US20120072406A1 (en) * 2009-03-17 2012-03-22 Fujitsu Limited Search processing method and apparatus
KR20130037976A (ko) * 2011-10-07 2013-04-17 한국전자통신연구원 토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 시스템, 탐지 방법 및 탐지 장치
KR101318843B1 (ko) * 2011-08-30 2013-10-17 성균관대학교산학협력단 시간 정보를 활용한 블로그 카테고리 분류 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100068532A (ko) * 2008-12-15 2010-06-24 한국전자통신연구원 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법
US20120072406A1 (en) * 2009-03-17 2012-03-22 Fujitsu Limited Search processing method and apparatus
KR101318843B1 (ko) * 2011-08-30 2013-10-17 성균관대학교산학협력단 시간 정보를 활용한 블로그 카테고리 분류 방법 및 장치
KR20130037976A (ko) * 2011-10-07 2013-04-17 한국전자통신연구원 토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 시스템, 탐지 방법 및 탐지 장치

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241699A (zh) * 2016-12-26 2018-07-03 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN108241699B (zh) * 2016-12-26 2022-03-11 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
KR101941924B1 (ko) * 2018-10-29 2019-01-25 주식회사 인라이플 자율 인지 신경망 기반 연관 모델 학습을 이용한 나노 의도 분석 서비스 제공 방법
KR101976841B1 (ko) * 2018-10-29 2019-05-15 한경훈 자율 인지 신경망 기반 연관 모델 학습을 이용한 의사 결정 서비스 제공 방법
KR102001375B1 (ko) * 2019-02-19 2019-07-18 미래에셋대우 주식회사 금융뉴스 스팸구별 장치 및 그 방법
KR102585107B1 (ko) * 2023-03-21 2023-10-06 주식회사 중고나라 연관 검색어 관리 방법

Also Published As

Publication number Publication date
KR101606758B1 (ko) 2016-03-28

Similar Documents

Publication Publication Date Title
Lu et al. Opinion integration through semi-supervised topic modeling
US9323827B2 (en) Identifying key terms related to similar passages
WO2017020451A1 (zh) 信息推送方法和装置
CN112966009B (zh) 脉络化知识面板
Foley et al. Learning to extract local events from the web
Zangerle et al. Using tag recommendations to homogenize folksonomies in microblogging environments
US10025783B2 (en) Identifying similar documents using graphs
CN103430172A (zh) 检索装置、检索方法及程序
KR101606758B1 (ko) 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템
CN104919457A (zh) 用于丰富社交媒体以改进个性化用户体验的方法和装置
US20160048575A1 (en) System and method for topics extraction and filtering
US20150206101A1 (en) System for determining infringement of copyright based on the text reference point and method thereof
US9904736B2 (en) Determining key ebook terms for presentation of additional information related thereto
KR20110019131A (ko) 소셜 관계를 이용한 정보 검색 장치 및 방법
JP6130270B2 (ja) メディアコンテンツに対応するコメント集合をソートして明示するコメントリスト公開サーバ、プログラム及び方法
Xu et al. Mining Web search engines for query suggestion
JP2014085694A (ja) 検索装置、検索プログラムおよび検索方法
Jatowt et al. Multi-lingual analysis of future-related information on the web
Brenner et al. MediaEval Benchmark: Social Event Detection in collaborative photo collections.
Djuana Tjhwa et al. Learning personalized tag ontology from user tagging information
JP6152333B2 (ja) メディアコンテンツに対応する要約語を明示する装置、サーバ、プログラム及び方法
Baeza-Yates et al. The new frontier of web search technology: Seven challenges
KR102434880B1 (ko) 멀티미디어 플랫폼 기반 지식 공유 서비스 제공 시스템
KR101308821B1 (ko) 검색엔진용 키워드 추출 시스템 및 추출 방법
KR101140263B1 (ko) 텍스트 패턴 추출을 이용하여 웹문서를 정제하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체

Legal Events

Date Code Title Description
A201 Request for examination
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20140630

PA0201 Request for examination
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20150623

Patent event code: PE09021S01D

PG1501 Laying open of application
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20160125

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20160316

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20160322

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20160323

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
FPAY Annual fee payment

Payment date: 20190410

Year of fee payment: 4

PR1001 Payment of annual fee

Payment date: 20190410

Start annual number: 4

End annual number: 4

FPAY Annual fee payment

Payment date: 20200310

Year of fee payment: 5

PR1001 Payment of annual fee

Payment date: 20200310

Start annual number: 5

End annual number: 5

PC1903 Unpaid annual fee
PR0401 Registration of restoration

Patent event code: PR04011E01D

Patent event date: 20211126

Comment text: Registration of Restoration

PR1001 Payment of annual fee

Payment date: 20211126

Start annual number: 6

End annual number: 6

PR1001 Payment of annual fee

Payment date: 20220118

Start annual number: 7

End annual number: 7

PR1001 Payment of annual fee

Payment date: 20230131

Start annual number: 8

End annual number: 8