KR101347884B1 - 사이트 특성 단어를 이용한 연관 사이트 제공 방법 및 시스템 - Google Patents

사이트 특성 단어를 이용한 연관 사이트 제공 방법 및 시스템 Download PDF

Info

Publication number
KR101347884B1
KR101347884B1 KR1020100115731A KR20100115731A KR101347884B1 KR 101347884 B1 KR101347884 B1 KR 101347884B1 KR 1020100115731 A KR1020100115731 A KR 1020100115731A KR 20100115731 A KR20100115731 A KR 20100115731A KR 101347884 B1 KR101347884 B1 KR 101347884B1
Authority
KR
South Korea
Prior art keywords
site
word
search
providing
search term
Prior art date
Application number
KR1020100115731A
Other languages
English (en)
Other versions
KR20100138858A (ko
Inventor
김병학
Original Assignee
네이버 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네이버 주식회사 filed Critical 네이버 주식회사
Priority to KR1020100115731A priority Critical patent/KR101347884B1/ko
Publication of KR20100138858A publication Critical patent/KR20100138858A/ko
Application granted granted Critical
Publication of KR101347884B1 publication Critical patent/KR101347884B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/156Query results presentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

사이트 특성 단어를 이용한 연관 사이트 제공 방법 및 시스템이 개시된다. 연관 사이트 제공 방법은 사이트에 유입된 적어도 하나의 검색어를 노출하는 단계, 상기 노출된 적어도 하나의 검색어 중 어느 하나가 선택된 경우, 상기 검색어에 대한 연관 사이트를 검출하는 단계 및 상기 선택된 검색어와 링크로 연결하여 상기 검출된 연관 사이트를 제공하는 단계를 포함한다.

Description

사이트 특성 단어를 이용한 연관 사이트 제공 방법 및 시스템{METHOD AND SYSTEM FOR PROVIDING RELEVANCE SITE USING CHRACTERISTIC WORD OF SITE}
본 발명은 연관 사이트 제공 방법 및 시스템에 관한 것으로, 보다 상세하게는 검색어와 연관된 사이트, 특정 사이트와 연관된 사이트를 제공하는 연관 사이트 제공 방법 및 시스템에 관한 것이다.
사용자들은 자신이 개설하거나 타인이 개설한 미니홈피, 블로그 또는 카페 등과 같은 사이트에 어떤 검색어를 통해 접근하는지 알고 싶어하는 경우가 종종 있다. 예를 들어, 블로그 등에 '와인', '축구'와 관련된 글을 게재하는 사용자는 자신이 게시한 '와인'에 대한 글을 타인이 어떤 검색어를 통해 접근하는 지 알고 싶어하는 경우가 있다. 유입되는 검색어를 분석함으로써, 타인의 관심도를 파악할 수 있고, 사용자는 이러한 타인의 관심도를 반영하여 보다 효과적으로 자신의 글을 최상위로 노출시킬 수 있는 기회가 많아질 수 있다. 또한, 유입된 검색어를 분석하여 타인의 관심도를 파악함으로써 자신의 블로그를 보다 효과적으로 광고하고, 노출시킬 수 있다.
또한, 유입된 검색어를 분석함으로써, 해당 검색어와 관련이 있는 사이트를 검색할 필요성도 요구될 수 있다. 더 나아가, 특정 사이트에 대해 관련이 있는 사이트를 검색하고자 하는 필요성도 제기될 수 있다. 이러한 검색어의 역추적을 통해 효과적으로 사이트를 홍보할 수 있다. 그리고, 사이트의 문서에 포함된 내용을 대중에 보다 효과적으로 게시할 수 있다. 결국, 이러한 잠재적인 홍보 효과를 요구하는 만족시킬 수 있는 발명이 요구되고 있다.
본 발명은 미니홈피, 블로그 또는 카페 등과 같은 각종 사이트에 접근하기 위해 유입된 검색어를 노출시킴으로써, 상기 사이트에 접근하는데 유입된 검색어에 대한 정보를 제공할 수 있는 연관 사이트 제공 방법 및 시스템을 제공한다.
본 발명은 노출된 검색어에 대해 선택하는 경우, 검색어와 링크로 연결된 연관 사이트를 제공함으로써, 검색어에 대한 추가적인 정보를 제공할 수 있는 연관 사이트 제공 방법 및 시스템을 제공한다.
본 발명은 검색어, 색인어, 태그 단어, 카테고리 단어와 같은 사이트의 특성 단어를 이용하여 연관 사이트를 검출함으로써 특성 단어의 내용을 반영하는 연관 사이트를 용이하게 검색할 수 있는 연관 사이트 제공 방법 및 시스템을 제공한다.
본 발명은 미니홈피, 블로그 또는 카페 등과 같은 사이트 간에 특성 정보를 이용하여 사이트 간 연관도를 파악함으로써, 특정 사이트에 대한 연관 사이트를 검출할 수 있는 연관 사이트 제공 방법 및 시스템을 제공한다.
본 발명의 일실시예에 따른 연관 사이트 제공 방법은 사이트에 유입된 적어도 하나의 검색어를 노출하는 단계, 상기 노출된 적어도 하나의 검색어 중 어느 하나가 선택된 경우, 상기 검색어에 대한 연관 사이트를 검출하는 단계 및 상기 선택된 검색어와 링크로 연결하여 상기 검출된 연관 사이트를 제공하는 단계를 포함한다.
본 발명의 일실시예에 따른 연관 사이트 제공 방법은 사이트에 대한 적어도 하나의 특성 단어를 결정하여 상기 특성 단어 각각의 단어 벡터를 생성하는 단계, 상기 생성된 사이트 단어 벡터를 이용하여 사이트 사이의 단어 벡터 연관도를 계산하는 단계 및 상기 단어 벡터 연관도를 이용하여 연관 사이트를 검출하는 단계를 포함한다.
본 발명의 일실시예에 따른 연관 사이트 제공 시스템은 사이트에 유입된 적어도 하나의 검색어를 노출하는 검색어 노출부, 상기 노출된 적어도 하나의 검색어 중 어느 하나가 선택된 경우, 상기 검색어에 대한 연관 사이트를 검출하는 연관 사이트 검출부 및 상기 선택된 검색어와 링크로 연결하여 상기 검출된 연관 사이트를 제공하는 연관 사이트 제공부를 포함한다.
본 발명의 일실시예에 따른 연관 사이트 제공 시스템은 사이트에 대한 적어도 하나의 특성 단어를 결정하여 상기 특성 단어 각각의 단어 벡터를 생성하는 단어 벡터 생성부, 상기 생성된 사이트 단어 벡터를 이용하여 사이트 사이의 단어 벡터 연관도를 계산하는 단어 벡터 연관도 계산부 및 상기 단어 벡터 연관도를 이용하여 연관 사이트를 검출하는 연관 사이트 검출부를 포함한다.
본 발명에 따르면, 미니홈피, 블로그 또는 카페 등과 같은 각종 사이트에 접근하기 위해 유입된 검색어를 노출시킴으로써, 상기 사이트에 접근하는데 유입된 검색어에 대한 정보를 제공할 수 있는 연관 사이트 제공 방법 및 시스템이 제공된다.
본 발명에 따르면, 노출된 검색어에 대해 선택하는 경우, 검색어와 링크로 연결된 연관 사이트를 제공함으로써, 검색어에 대한 추가적인 정보를 제공할 수 있는 연관 사이트 제공 방법 및 시스템이 제공된다.
본 발명에 따르면, 검색어, 색인어, 태그 단어, 카테고리 단어와 같은 사이트의 특성 단어를 이용하여 연관 사이트를 검출함으로써 특성 단어의 내용을 반영하는 연관 사이트를 용이하게 검색할 수 있는 연관 사이트 제공 방법 및 시스템이 제공된다.
본 발명에 따르면, 미니홈피, 블로그 또는 카페 등과 같은 사이트 간에 특성 정보를 이용하여 사이트 간 연관도를 파악함으로써, 특정 사이트에 대한 연관 사이트를 검출할 수 있는 연관 사이트 제공 방법 및 시스템이 제공된다.
도 1은 본 발명의 일실시예에 따른 연관 사이트 제공 방법을 도시한 플로우차트이다.
도 2는 본 발명의 일실시예에 따른 연관 사이트 제공 방법에 따라 사이트에 유입된 검색어를 노출하는 일례를 도시한 도면이다.
도 3은 본 발명의 일실시예에 따른 선택된 검색어에 대해 연관 사이트를 제공하는 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 다른 일실시예에 따른 연관 사이트 제공 방법을 도시한 플로우차트이다.
도 5는 본 발명의 일실시예에 따른 사이트와 사이트 간 사이트 단어 벡터의 연관도를 통해 연관 사이트를 검출하는 과정을 설명하기 위한 도면이다.
도 6은 본 발명의 일실시예에 따른 연관 사이트 제공 시스템을 도시한 블록 다이어그램이다.
도 7은 본 발명의 다른 일실시예에 따른 연관 사이트 제공 시스템을 도시한 블록 다이어그램이다.
이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다. 다만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다. 본 발명의 일실시예에 따른 연관 사이트 제공 방법은 연관 사이트 제공 시스템에 의해 수행될 수 있다.
도 1은 본 발명의 일실시예에 따른 연관 사이트 제공 방법을 도시한 플로우차트이다.
본 발명의 일실시예에 따른 연관 사이트 제공 방법은 사이트에 유입된 적어도 하나의 검색어를 노출할 수 있다(S101). 일례로, 사이트에 유입된 적어도 하나의 검색어는 노출하는 단계(S101)는 상기 적어도 하나의 검색어 및 상기 적어도 하나의 검색어 각각에 대한 사이트 유입률을 노출할 수 있다. 이 때, 사이트에 유입된 적어도 하나의 검색어는 노출하는 단계(S101)는 상기 적어도 하나의 검색어를 검색어 각각의 유입률에 따라 정렬하여 노출할 수 있다. 일례로, 사이트는 미니홈피, 블로그 또는 카페를 포함할 수 있다. 사이트의 종류는 한정되지 않고, 온라인 상에서 URL 등의 링크를 통해 접속할 수 있는 것이면 모두 포함될 수 있다.
일례로, 검색어에 대한 사이트 유입률은 해당 사이트에 접근한 횟수와 검색어 별 접근 횟수로 계산될 수 있다. 예를 들어, 'A'라는 사이트에 a, b, c라는 검색어로 유입되었다고 가정할 수 있다. 이 때, 'A' 사이트에 접근한 횟수가 총 100건이고, 이 중 검색어 'a'로 유입된 횟수가 50건, 검색어 'b'로 유입된 횟수가 37건, 검색어 'c'로 유입된 횟수가 13건이라고 하자. 그러면, 검색어 각각에 대한 사이트 유입률은 'a'는 50%, 'b'는 37%, 'c'는 13%로 계산될 수 있다. 그리고, 사이트에 유입된 적어도 하나의 검색어는 노출하는 단계(S101)는 사이트 유입률에 따라 'A', 'b', 'c' 순으로 정렬하여 노출할 수 있다.
본 발명의 일실시예에 따른 연관 사이트 제공 방법은 상기 노출된 적어도 하나의 검색어 중 어느 하나가 선택된 경우, 상기 검색어에 대한 연관 사이트를 검출할 수 있다(S102). 상기 예를 참조하면, 사용자가 'b' 검색어를 선택하는 경우, 검색어에 대한 연관 사이트를 검출하는 단계(S102)는 'b' 검색어에 대한 연관 사이트를 검출할 수 있다.
보다 구체적으로, 'abcde'라는 블로그에 대한 검색어 유입 순위 1위로 '재즈'라는 검색어가 노출된 경우, 사용자가 '재즈'를 선택하면, 연관 사이트 제공 방법은 '재즈'와 연관있는 블로그, 카페 또는 미니홈피 등과 같은 연관 사이트를 검출하여 제공할 수 있다. 즉, 본 발명의 일실시예에 따른 연관 사이트 제공 방법은 특정 검색어와 연관이 있는 연관 사이트를 제공할 수 있다.
일례로, 검색어에 대한 연관 사이트를 검출하는 단계(S102)는 사이트를 수집하여 상기 수집된 사이트에 대한 적어도 하나의 특성 단어를 결정할 수 있다. 이 때, 검색어에 대한 연관 사이트를 검출하는 단계(S102)는 수집할 수 있는 모든 범위의 사이트를 수집하여 데이터베이스에 저장할 수 있다. 그리고, 검색어에 대한 연관 사이트를 검출하는 단계(S102)는 데이터베이스에 저장된 사이트에 대한 적어도 하나의 특성 단어를 결정할 수 있다. 이 때, 특성 단어는 해당 사이트의 대표적인 특성을 나타내는 단어라고 할 수 있다. 다만, 사이트 내 다수의 목록을 통해 다양한 종류의 글이 포스팅된 경우, 특성 단어는 하나 이상일 수 있다.
이 때, 상기 적어도 하나의 특성 단어를 결정하는 단계는 사이트의 문서에 접근하기 위해 유입된 적어도 하나의 검색어를 상기 사이트의 특성 단어로 결정할 수 있다. 일례로, 사이트의 문서에 접근하기 위해 유입된 적어도 하나의 검색어는 미리 설정한 기간 동안 누적된 검색 로그 데이터를 통해 결정될 수 있다.
또한, 상기 적어도 하나의 특성 단어를 결정하는 단계는 상기 사이트에 포함된 문서에 대한 적어도 하나의 색인어를 상기 사이트의 특성 단어로 결정할 수 있다. 즉, 수집된 사이트에 포함된 문서의 특성을 나타낼 수 있는 색인어를 사이트의 특성 단어로 결정할 수 있다. 예를 들어, '와인'과 관련된 블로그의 경우, 해당 블로그에 포함된 문서는 '와인'에 관한 내용을 포함할 수 있으며 색인어도 '와인'과 관련 있는 단어일 수 있다.
이 때, 사이트의 전체 문서에 공통으로 자주 노출되는 단어 또는 거의 노출되지 않는 단어가 색인어가 되는 경우, 상기 색인어가 사이트의 특성을 효율적으로 반영되지 않을 수 있다. 따라서, 상기 적어도 하나의 특성 단어를 결정하는 단계는 상기 적어도 하나의 색인어 중 미리 설정한 문서 노출 빈도 범위에 속하는 색인어를 상기 사이트의 특성 단어로 결정할 수 있다.
또한, 상기 적어도 하나의 특성 단어를 결정하는 단계는 상기 사이트에 포함된 문서를 작성할 때 입력된 적어도 하나의 태그 단어를 상기 사이트의 특성 단어로 결정할 수 있다. 이 때, 태그 단어는 문서 작성자가 문서의 내용에 대한 대표적인 특징으로 입력한 단어라고 할 수 있다.
또한, 상기 적어도 하나의 특성 단어를 결정하는 단계는 상기 사이트에 포함된 문서를 분류하는 적어도 하나의 카테고리 단어를 상기 사이트의 특성 단어로 결정할 수 있다. 즉, 사이트의 관리자가 문서를 분류하기 위해 생성한 카테고리 (예를 들면, 음악, 여행, 사진 등)가 해당 사이트의 특성 단어가 될 수 있다.
또한, 검색어에 대한 연관 사이트를 검출하는 단계(S102)는 상기 결정된 적어도 하나의 특성 단어가 상기 검색어와 연관 관계에 있는 경우, 상기 사이트를 상기 검색어에 대한 연관 사이트로 판단할 수 있다.
예를 들면, 'A'라는 검색어가 선택되었을 때, 수집된 사이트 중 결정된 특성 단어가 'A'와 연관 관계에 있는 사이트는 'A' 검색어와 관련된 문서를 포함하고 있으므로, 'A'라는 검색어와 연관이 있다고 할 수 있다.
이 때, 검색어와 특성 단어가 완전히 동일한 것에 한정되지 않고, 유사하거나 동종 분야에 있는 등 연관 관계를 이루고 있는 경우, 특성 단어를 포함하는 사이트는 검색어에 대한 연관 사이트로 검출될 수 있다.
본 발명의 일실시예에 따른 연관 사이트 제공 방법은 상기 선택된 검색어와 링크로 연결하여 상기 검출된 연관 사이트를 제공할 수 있다(S103). 일례로, 검출된 연관 사이트를 제공하는 단계(S103)는 검색어와 연관 관계에 있는 다수의 연관 사이트의 목록을 제공할 수 있다. 또한, 일례로, 검출된 연관 사이트를 제공하는 단계(S103)는 상기 검출된 연관 사이트에 포함된 문서 중 상기 선택된 검색어가 노출된 문서를 제공할 수 있다.
도 2는 본 발명의 일실시예에 따른 연관 사이트 제공 방법에 따라 사이트에 유입된 검색어를 노출하는 일례를 도시한 도면이다.
도 2는, 사용자가 'A'라는 사이트(202)를 입력하는 경우, 'A' 사이트에 유입된 검색어 순위를 제공하는 검색 결과(201)를 나타내고 있다. 앞에서 언급했듯이, 사이트는 미니홈피, 블로그 또는 카페를 포함할 수 있다.
검색어 리스트(203)를 참고하면, 'A'사이트에 유입된 검색어 중 가장 많이 유입된 적어도 하나의 검색어가 도시되고 있다. 상기 검색어 각각은 유입률과 함께 노출될 수 있으며, 이 때, 검색어 순위는 유입률에 따라 결정될 수 있다.
본 발명의 일실시예에 따른 연관 사이트 제공 방법은 사용자가 노출된 검색어를 선택하는 경우, 선택된 검색어에 대한 연관 사이트를 제공할 수 있다. 예를 들어, 사용자가 1순위 검색어 'ab'를 선택하는 경우, 연관 사이트 제공 방법은 'ab'와 관련 있는 연관 사이트를 검출하여 제공할 수 있다. 동일한 방식으로, 사용자가 2순위 검색어 'cd'를 선택하는 경우, 연관 사이트 제공 방법은 'cd'와 관련 있는 연관 사이트를 검출하여 제공할 수 있다. 이 때, 선택된 검색어에 대한 연관 사이트를 제공하는 구체적인 과정은 도 3에서 구체적으로 설명된다.
도 3은 본 발명의 일실시예에 따른 선택된 검색어에 대해 연관 사이트를 제공하는 과정을 설명하기 위한 도면이다.
도 3을 참조하면, 사용자가 검색어 순위가 1위인 검색어 'ab'를 선택한 경우 검색어(301) 'ab'와 관련된 'A 사이트'(302), 'B 사이트'(303), 'C 사이트'(304)가 검출되어 제공될 수 있다. 일례로, 검출된 사이트는 리스트 형태로 제공될 수 있다. 또한, 검출된 사이트는 선택된 검색어(301)가 포함된 문서와 함께 노출되어 제공될 수 있다. 또한, 검출된 사이트는 선택된 검색어(301)와 연관 관계에 있는 단어가 포함된 문서와 함께 노출되어 제공될 수 있다.
도 2에서 이미 설명했듯이, 수집된 사이트에서 상기 사이트에 유입된 적어도 하나의 검색어, 상기 사이트의 문서에 대한 적어도 하나의 색인어, 상기 사이트와 관련된 적어도 하나의 태그 단어 또는 상기 사이트의 문서를 분류하는 적어도 하나의 카테고리 단어 중 어느 하나가 특성 단어로 결정될 수 있다. 연관 사이트 제공 방법은 결정된 특성 단어와 검색어(301)가 연관 관계에 있는 경우, 상기 사이트를 연관 사이트로 검출할 수 있다.
도 4는 본 발명의 다른 일실시예에 따른 연관 사이트 제공 방법을 도시한 플로우차트이다. 도 4는 도 1과 달리, 특정 사이트와 관련 있는 연관 사이트를 제공하는 연관 사이트 제공 방법을 도시하고 있다.
본 발명의 일실시예에 따른 연관 사이트 제공 방법은 사이트에 대한 적어도 하나의 특성 단어를 결정하여 상기 특성 단어 각각의 단어 벡터를 생성할 수 있다(S401). 일례로, 특성 단어 각각의 단어 벡터를 생성하는 단계(S401)는 사이트의 문서에 접근하기 위해 유입된 적어도 하나의 검색어를 상기 사이트의 특성 단어로 결정할 수 있다. 이 때, 특성 단어 각각의 단어 벡터를 생성하는 단계(S401)는 상기 사이트의 문서에 접근한 총 접근 횟수와 상기 적어도 하나의 검색어 각각의 접근 횟수를 이용하여 상기 적어도 하나의 검색어에 대한 단어 벡터를 생성할 수 있다. 즉, 특성 단어가 검색어인 경우, 단어 벡터는 상기 검색어에 대한 사이트 유입률로 계산될 수 있다.
일례로, 특성 단어 각각의 단어 벡터를 생성하는 단계(S401)는 상기 사이트에 포함된 문서에 대한 적어도 하나의 색인어를 상기 사이트의 특성 단어로 결정할 수 있다. 이 때, 사이트의 전체 문서에 공통으로 자주 노출되는 단어 또는 거의 노출되지 않는 단어가 색인어가 되는 경우, 상기 색인어가 사이트의 특성을 효율적으로 반영되지 않을 수 있다. 따라서, 특성 단어 각각의 단어 벡터를 생성하는 단계(S401)는 상기 적어도 하나의 색인어 중 미리 설정한 문서 노출 빈도 범위에 속하는 색인어를 상기 사이트의 특성 단어로 결정할 수 있다.
이 때, 특성 단어 각각의 단어 벡터를 생성하는 단계(S401)는 사이트의 문서에서 전체 색인어에 대해 각각의 색인어가 노출되는 비율을 계산하여 단어 벡터를 계산할 수 있다. 예를 들면, 색인어 1은 30%, 색인어 2는 20%의 형태로 단어 벡터가 계산될 수 있다.
일례로, 특성 단어 각각의 단어 벡터를 생성하는 단계(S401)는 상기 사이트에 포함된 문서를 작성할 때 입력된 적어도 하나의 태그 단어를 상기 사이트의 특성 단어로 결정할 수 있다.
이 때, 특성 단어 각각의 단어 벡터를 생성하는 단계(S401)는 사이트의 문서에서 전체 태그 단어에 대해 각각의 태그 단어가 노출되는 비율을 계산하여 단어 벡터를 계산할 수 있다. 예를 들면, 태그 단어 1은 30%, 태그 단어 2는 20%의 형태로 단어 벡터가 계산될 수 있다.
일례로, 특성 단어 각각의 단어 벡터를 생성하는 단계(S401)는 상기 사이트에 포함된 문서를 분류하는 적어도 하나의 카테고리 단어를 상기 사이트의 특성 단어로 결정할 수 있다.
이 때, 특성 단어 각각의 단어 벡터를 생성하는 단계(S401)는 사이트의 문서에서 전체 카테고리 단어에 대해 각각의 카테고리 단어가 노출되는 비율을 계산하여 단어 벡터를 계산할 수 있다. 예를 들면, 카테고리 단어 1은 25%, 카테고리 단어 2는 14%의 형태로 단어 벡터가 계산될 수 있다. 도 1과 달리, 도 3에서 특성 단어는 기준이 되는 사이트와 비교 대상이 되는 사이트 각각에 대해 결정될 수 있다.
본 발명의 일실시예에 따른 연관 사이트 제공 방법은 상기 생성된 사이트 단어 벡터를 이용하여 사이트 사이의 단어 벡터 연관도를 계산할 수 있다(S402). 이 때, 사이트 사이의 단어 벡터 연관도를 계산하는 단계(S402)는 상기 사이트 단어 벡터의 크기를 이용하여 상기 사이트 사이의 단어 벡터 연관도를 계산할 수 있다. 즉, 단어 벡터 연관도는 단어 벡터 사이의 가중치를 기반으로 계산될 수 있다.
일례로, 사이트 사이의 단어 벡터 연관도를 계산하는 단계(S402)는 코사인 유사도(cosine similarity)를 이용하여 상기 사이트 단어 벡터 사이의 각을 계산할 수 있다. 즉, 코사인 유사도는 두 벡터 간의 내적을 이용하는 방법이라고 할 수 있다.
예를 들면, 'A 사이트'의 특성 단어가 '와인, 음악, 유럽 여행'이고, 'B 사이트'의 특성 단어가 '와인, 사진, 프랑스 여행' 이라고 가정하자. 그리고, 특성 단어 각각에 대한 단어 벡터는 'A 사이트' 의 경우 (0.6, 0.3, 0.1)이고, 'B 사이트'의 경우 (0.3, 0.5, 0.2)라고 할 수 있다. 그러면, 단어 벡터 연관도는 0.6*0.3+0.1*0.2=0.2로 결정될 수 있다.
일례로, 사이트의 특성 단어 사이에 연관도가 높은 경우, 각각의 특성 단어에 가중치를 부여하는 방식도 적용될 수 있다. 즉, 'A 사이트'와 'B 사이트'의 경우 '와인'이라는 특성 단어가 동일하므로, 연관도가 더 높기 때문에 다른 특성 단어보다 더 많은 가중치를 부여할 수 있다.
본 발명의 일실시예에 따른 연관 사이트 제공 방법은 상기 단어 벡터 연관도를 이용하여 연관 사이트를 검출할 수 있다(S403). 일례로, 연관 사이트를 검출하는 단계(S403)는 단어 벡터 연관도에 따라 상기 사이트 사이의 거리를 판단하는 단계 및 상기 사이트 사이의 거리가 짧은 순서로 사이트를 정렬하여 미리 설정한 순위에 속하는 사이트를 연관 사이트로 검출하는 단계를 포함할 수 있다.
예를 들어, 단어 벡터 연관도가 기준이 되는 'A 사이트'에 대해 'B 사이트'와 단어 벡터 연관도는 0.7이고, 'C 사이트'와 단어 벡터 연관도는 0.4라고 하면, 'A 사이트'는 'C 사이트'보다 'B 사이트'와 더 거리가 가깝다고 판단될 수 있다. 연관 사이트를 검출하는 단계(S403)는 기준이 되는 A 사이트에 대해 거리가 짧은 순서로 사이트를 정렬하고, 미리 설정한 순위(예를 들어, 5위)에 속하는 사이트만 연관 사이트로 검출하여 제공할 수 있다.
도 5는 본 발명의 일실시예에 따른 사이트와 사이트 간 사이트 단어 벡터의 연관도를 통해 연관 사이트를 검출하는 과정을 설명하기 위한 도면이다.
도 5를 참고하면, 본 발명의 일실시예에 따른 연관 사이트 제공 방법은 기준이 되는 'A 사이트(501)'에 대해 연관 사이트를 검출하여 제공할 수 있다. 이 때, 연관 사이트 제공 방법은 수집된 사이트인 'B 사이트(502)', 'C 사이트(503)' 및 'D 사이트(504)'와 연관도를 판단하여 연관 사이트를 검출할 수 있다. 이 때, 연관 사이트 제공 방법은 기준이 되는 'A 사이트(501)' 와 비교 대상이 되는 'B 사이트(502)', 'C 사이트(503)' 및 'D 사이트(504)' 각각으로부터 적어도 하나의 특성 단어를 결정할 수 있다. 앞에서 이미 언급했듯이, 특성 단어는 각 사이트의 검색어, 색인어, 태그 단어 또는 카테고리 단어를 통해 결정될 수 있다. 그리고, 연관 사이트 제공 방법은 결정된 특성 단어 각각에 대한 단어 벡터를 결정할 수 있다.
이 때, 연관 사이트 제공 방법은 'A 사이트(501)'의 단어 벡터와 'B 사이트(502)', 'C 사이트(503)' 및 'D 사이트(504)' 각각의 단어 벡터 간의 단어 벡터 연관도를 계산할 수 있다. 그리고, 연관 사이트 제공 방법은 단어 벡터 연관도가 클수록 사이트 간의 거리가 가깝다고 판단할 수 있다. 또한, 예를 들어, 연관 사이트 제공 방법은 'A 사이트(501)'와 거리가 가까운 순서대로 'C 사이트(503)', 'D 사이트(504)' 및 'B 사이트(502)로 정렬하였다고 가정하자. 또한, 연관 사이트 제공 방법은 상위 2위까지 연관 사이트로 검출한다고 가정하자. 그러면 연관 사이트 제공 방법은 상위 2위에 속하는 'C 사이트(503)' 및 'D 사이트(504)'를 연관 사이트로 검출하여 제공할 수 있다.
도 6은 본 발명의 일실시예에 따른 연관 사이트 제공 시스템을 도시한 블록 다이어그램이다. 본 발명의 일실시예에 따른 연관 사이트 제공 시스템(600)은 검색어 노출부(601), 연관 사이트 검출부(602) 및 연관 사이트 제공부(603)를 포함할 수 있다.
검색어 노출부(601)는 사이트에 유입된 적어도 하나의 검색어를 노출할 수 있다.
이 때, 검색어 노출부(601)는 상기 적어도 하나의 검색어 및 상기 적어도 하나의 검색어 각각에 대한 사이트 유입률을 노출할 수 있다. 그리고, 검색어 노출부(601)는 검색어 각각에 대한 사이트 유입률에 따라 정렬하여 노출할 수 있다.
연관 사이트 검출부(602)는 상기 노출된 적어도 하나의 검색어 중 어느 하나가 선택된 경우, 상기 검색어에 대한 연관 사이트를 검출할 수 있다. 일례로, 연관 사이트 검출부는 특성 단어 결정부(604) 및 연관 사이트 판단부(605)를 포함할 수 있다.
특성 단어 결정부(604)는 사이트를 수집하여 상기 수집된 사이트에 대한 적어도 하나의 특성 단어를 결정할 수 있다.
일례로, 특성 단어 결정부(604)는 사이트의 문서에 접근하기 위해 유입된 적어도 하나의 검색어를 상기 사이트의 특성 단어로 결정할 수 있다.
일례로, 특성 단어 결정부(604)는 상기 사이트에 포함된 문서에 대한 적어도 하나의 색인어를 상기 사이트의 특성 단어로 결정할 수 있다.
일례로, 특성 단어 결정부(604)는 상기 사이트에 포함된 문서를 작성할 때 입력된 적어도 하나의 태그를 상기 사이트의 특성 단어로 결정할 수 있다.
일례로, 특성 단어 결정부(604)는 상기 사이트에 포함된 문서를 분류하는 적어도 하나의 카테고리 단어를 상기 사이트의 특성 단어로 결정할 수 있다.
연관 사이트 판단부(605)는 상기 결정된 적어도 하나의 특성 단어 중 상기 검색어를 포함하는 경우, 상기 검색어와 상기 사이트를 연관 사이트로 판단할 수 있다.
연관 사이트 제공부(603)는 상기 선택된 검색어와 링크로 연결하여 상기 검출된 연관 사이트를 제공할 수 있다. 이 때, 연관 사이트 제공부(603)는 연관 사이트의 리스트를 제공할 수 있다. 또한, 연관 사이트 제공부(603)는 상기 검출된 연관 사이트에 포함된 문서 중 상기 검색어가 노출된 문서를 제공할 수 있다.
도 7은 본 발명의 다른 일실시예에 따른 연관 사이트 제공 시스템을 도시한 블록 다이어그램이다.
본 발명의 일실시예에 따른 연관 사이트 제공 시스템(700)은 단어 벡터 생성부(701), 단어 벡터 연관도 계산부(702) 및 연관 사이트 검출부(703)를 포함할 수 있다.
단어 벡터 생성부(701)는 사이트에 대한 적어도 하나의 특성 단어를 결정하여 상기 특성 단어 각각의 단어 벡터를 생성할 수 있다.
일례로, 단어 벡터 생성부(701)는 사이트의 문서에 접근하기 위해 유입된 적어도 하나의 검색어를 상기 사이트의 특성 단어로 결정할 수 있다. 이 때, 단어 벡터 생성부(701)는 상기 사이트의 문서에 접근한 총 접근 횟수와 상기 적어도 하나의 검색어 각각의 접근 횟수를 이용하여 사이트 유입률을 계산할 수 있다. 이 때, 계산된 사이트 유입률은 검색어에 대한 단어 벡터일 수 있다.
일례로, 단어 벡터 생성부(701)는 상기 사이트에 포함된 문서에 대한 적어도 하나의 색인어를 상기 사이트의 특성 단어로 결정할 수 있다. 이 때, 단어 벡터 생성부(701)는 사이트의 문서에서 전체 색인어에 대해 각각의 색인어가 노출되는 비율을 계산하여 단어 벡터를 생성할 수 있다.
일례로, 단어 벡터 생성부(701)는 상기 사이트에 포함된 문서를 작성할 때 입력된 적어도 하나의 태그를 상기 사이트의 특성 단어로 결정할 수 있다. 이 때, 단어 벡터 생성부(701)는 사이트의 문서에서 전체 태그 단어에 대해 각각의 태그 단어가 노출되는 비율을 계산하여 단어 벡터를 생성할 수 있다.
일례로, 단어 벡터 생성부(701)는 상기 사이트에 포함된 문서를 분류하는 적어도 하나의 카테고리 단어를 상기 사이트의 특성 단어로 결정할 수 있다. 이 때, 단어 벡터 생성부(701)는 사이트의 문서에서 전체 카테고리 단어에 대해 각각의 카테고리 단어가 노출되는 비율을 계산하여 단어 벡터를 생성할 수 있다.
단어 벡터 연관도 계산부(702)는 상기 생성된 사이트 단어 벡터를 이용하여 사이트 사이의 단어 벡터 연관도를 계산할 수 있다. 단어 벡터 연관도 계산부(702)는 상기 사이트 단어 벡터의 크기를 이용하여 상기 사이트 사이의 단어 벡터 연관도를 계산할 수 있다.
연관 사이트 검출부(703)는 상기 단어 벡터 연관도를 이용하여 연관 사이트를 검출할 수 있다. 일례로, 연관 사이트 검출부(703)는 상기 단어 벡터 연관도에 따라 상기 사이트 사이의 거리를 판단할 수 있다. 그리고, 연관 사이트 검출부(703)는 상기 사이트 사이의 거리가 짧은 순서로 사이트를 정렬하여 미리 설정한 순위에 속하는 사이트를 연관 사이트로 검출할 수 있다.
도 6 및 도 7에 대한 구체적인 설명은 도 1 내지 도 5의 설명을 참고할 수 있다.
또한, 본 발명의 일실시예에 따른 연관 사이트 제공 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.
600: 연관 사이트 제공 시스템
601: 검색어 노출부
602: 연관 사이트 검출부
603: 연관 사이트 제공부
604: 특성 단어 결정부
605: 연관 사이트 판단부

Claims (4)

  1. 사이트에 유입된 적어도 하나의 검색어를 상기 사이트에 대한 검색어 각각의 사이트 유입률에 따라 정렬하여 노출하는 단계;
    상기 노출된 적어도 하나의 검색어 중 어느 하나가 선택된 경우, 상기 선택된 검색어에 대한 연관 사이트를 검출하는 단계; 및
    상기 선택된 검색어와 상기 검출된 연관 사이트를 링크로 연결하여 상기 사이트에 유입된 검색어의 연관 사이트를 제공하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 사이트에 유입된 적어도 하나의 검색어를 노출하는 단계는,
    상기 노출된 적어도 하나의 검색어 각각에 대한 사이트 유입률을 더 노출하는 것을 특징으로 하는 방법.
  3. 사이트에 유입된 적어도 하나의 검색어를 상기 사이트에 대한 검색어 각각의 사이트 유입률에 따라 정렬하여 노출하는 검색어 노출부;
    상기 노출된 적어도 하나의 검색어 중 어느 하나가 선택된 경우, 상기 선택된 검색어에 대한 연관 사이트를 검출하는 연관 사이트 검출부; 및
    상기 선택된 검색어와 상기 검출된 연관 사이트를 링크로 연결하여 상기 사이트에 유입된 검색어의 연관 사이트를 제공하는 연관 사이트 제공부
    를 포함하는 연관 사이트 제공 시스템.
  4. 제3항에 있어서,
    상기 검색어 노출부는,
    상기 노출된 적어도 하나의 검색어 각각에 대한 사이트 유입률을 더 노출하는 것을 특징으로 하는 연관 사이트 제공 시스템.
KR1020100115731A 2010-11-19 2010-11-19 사이트 특성 단어를 이용한 연관 사이트 제공 방법 및 시스템 KR101347884B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100115731A KR101347884B1 (ko) 2010-11-19 2010-11-19 사이트 특성 단어를 이용한 연관 사이트 제공 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100115731A KR101347884B1 (ko) 2010-11-19 2010-11-19 사이트 특성 단어를 이용한 연관 사이트 제공 방법 및 시스템

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020080018511A Division KR101042445B1 (ko) 2008-02-28 2008-02-28 사이트 특성 단어를 이용한 연관 사이트 제공 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20100138858A KR20100138858A (ko) 2010-12-31
KR101347884B1 true KR101347884B1 (ko) 2014-01-07

Family

ID=43512181

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100115731A KR101347884B1 (ko) 2010-11-19 2010-11-19 사이트 특성 단어를 이용한 연관 사이트 제공 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR101347884B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101646230B1 (ko) * 2014-08-19 2016-08-08 주식회사 모브릭 미디어 릴레이 장치 및 방법
KR101684690B1 (ko) * 2016-01-26 2016-12-07 주식회사 모브릭 미디어 릴레이 장치 및 방법
CN111382566B (zh) * 2018-12-28 2024-05-24 北京搜狗科技发展有限公司 一种站点主题的确定方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010092922A (ko) * 2000-03-27 2001-10-27 이현구 유사 웹사이트의 검색 방법
JP2002215674A (ja) * 2001-01-22 2002-08-02 Kddi Corp Webページ閲覧支援システム、方法及びプログラム
KR20070102034A (ko) * 2006-04-13 2007-10-18 엘지전자 주식회사 문서검색 결과를 이용한 군집화 시스템 및 그 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010092922A (ko) * 2000-03-27 2001-10-27 이현구 유사 웹사이트의 검색 방법
JP2002215674A (ja) * 2001-01-22 2002-08-02 Kddi Corp Webページ閲覧支援システム、方法及びプログラム
KR20070102034A (ko) * 2006-04-13 2007-10-18 엘지전자 주식회사 문서검색 결과를 이용한 군집화 시스템 및 그 방법

Also Published As

Publication number Publication date
KR20100138858A (ko) 2010-12-31

Similar Documents

Publication Publication Date Title
US11741173B2 (en) Related notes and multi-layer search in personal and shared content
US8135739B2 (en) Online relevance engine
US9418128B2 (en) Linking documents with entities, actions and applications
JP5329540B2 (ja) ユーザ中心の情報探索方法、コンピュータ読み取り可能な記録媒体およびユーザ中心の情報探索システム
US8825641B2 (en) Measuring duplication in search results
US11347758B2 (en) Method and apparatus for processing search data
KR101254362B1 (ko) 공통 접사를 이용한 키워드 순위를 제공하는 방법 및시스템
KR101541306B1 (ko) 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
KR100954842B1 (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
EP2529323A2 (en) Improved searching using semantic keys
Yulianti et al. Tweet‐biased summarization
JP4970919B2 (ja) 閲覧対象情報の評価システム、方法、およびプログラム
KR101347884B1 (ko) 사이트 특성 단어를 이용한 연관 사이트 제공 방법 및 시스템
KR100913049B1 (ko) 사용자 선호도를 이용한 긍정/부정 검색 결과 제공 방법 및시스템
Guo et al. An opinion feature extraction approach based on a multidimensional sentence analysis model
KR102299525B1 (ko) 제품 평가 마이닝 방법 및 이를 수행하는 장치
KR101042445B1 (ko) 사이트 특성 단어를 이용한 연관 사이트 제공 방법 및 시스템
JP5427119B2 (ja) 類似文書検索装置、類似文書検索方法、そのプログラムおよび記録媒体
KR101544142B1 (ko) 화제도 기반의 검색 제공 방법 및 시스템
KR101614843B1 (ko) 사회 이슈에 대한 은폐를 탐지하는 방법 및 판단 장치
Efremova et al. A geo-tagging framework for address extraction from web pages
An et al. Improving local search with open geographic data
JP7455913B2 (ja) レビュー分析によって下位アイテムのカテゴリを自動分類して検索に活用する方法、システム、およびコンピュータプログラム
Horch et al. Extracting product offers from e-shop websites
US9858291B1 (en) Detection of related local entities

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161024

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20171011

Year of fee payment: 5