KR20090036929A - 문서 탐색 서비스 제공 방법 및 시스템 - Google Patents

문서 탐색 서비스 제공 방법 및 시스템 Download PDF

Info

Publication number
KR20090036929A
KR20090036929A KR1020070102231A KR20070102231A KR20090036929A KR 20090036929 A KR20090036929 A KR 20090036929A KR 1020070102231 A KR1020070102231 A KR 1020070102231A KR 20070102231 A KR20070102231 A KR 20070102231A KR 20090036929 A KR20090036929 A KR 20090036929A
Authority
KR
South Korea
Prior art keywords
document
tree structure
cluster
title
user
Prior art date
Application number
KR1020070102231A
Other languages
English (en)
Other versions
KR100902674B1 (ko
Inventor
곽태영
이은지
김병학
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020070102231A priority Critical patent/KR100902674B1/ko
Priority to JP2008260587A priority patent/JP2009093659A/ja
Publication of KR20090036929A publication Critical patent/KR20090036929A/ko
Application granted granted Critical
Publication of KR100902674B1 publication Critical patent/KR100902674B1/ko
Priority to JP2011114168A priority patent/JP5313295B2/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • G06Q30/0256User search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • G06Q30/0271Personalized advertisement

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

문서 탐색 서비스 제공 방법 및 시스템이 개시된다. 더욱 상세하게는 트리 구조로 분류된 문서를 탐색할 수 있는 문서 탐색 서비스를 제공하는 방법으로서, 문서에 대한 접근 수단을 제공하는 단계; 접근 수단에 대한 사용자 반응 정보를 획득하는 단계; 및 반응 정보를 고려하여 트리 구조를 갱신하는 단계를 포함하는 문서 탐색 서비스 제공 방법이 개시된다. 이에 의하면, 문서를 트리 구조로 분류하여 제공하는 탐색 서비스를 이용하는 사용자의 문서 열람 성향을 반영함으로써, 사용자에게 보다 직관적인 탐색 서비스를 제공할 수 있으며, 트리 구조의 구성을 보다 정확하게 조정할 수 있게 된다.
문서 분류, 문서 탐색, 제목 클러스터링, 디렉토리 매핑, 트리 구조

Description

문서 탐색 서비스 제공 방법 및 시스템 {Method and system for serving document exploration service}
본 발명은 문서 탐색 서비스 제공 방법 및 시스템에 관한 것이다.
웹 상에서는 다양한 관심사에 대한 수많은 문서들이 존재한다. 사용자들은 자신이 원하는 정보에 대한 질의어 정보를 검색엔진에 전달함으로써 정보를 획득할 수 있다. 그러나, 매번 자신이 관심있는 주제에 대한 질의어를 입력하는 일은 매우 번거로운 일이다.
한편, 검색어 입력 등의 절차를 거치치 않고 자신이 원하는 정보에 접근하기 위해서 특정분야에 전문성을 가지는 버티컬 사이트(vertical site) 및 블로그(blog) 등에 접속하여 해당 분야의 최신 정보를 획득할 수 있다.
이러한 버티컬 사이트 및 블로그에서 존재하는 정보들의 수준은 나날이 향상되어 가고 있으며, 해당 분야에서 가장 빠르고 깊이 있는 정보를 회득할 수 있는 미디어로서 발전해가고 있다.
그러나, 여러 버티컬 사이트 및 블로그에 걸쳐 흩어져 있는 정보들을 열람하기 위해 각 사이트를 방문하는 것 역시 사용자에게 불편함을 초래할 수 있다. 이에 대한 보완책으로 버티컬 사이트 및 블로그는 알에스에스 피드(RSS Feed, Really Simple Syndication Feed)를 제공하며, 이를 구독하기 위해 알에스에스 구독기(RSS Reader)와 같은 프로그램들이 사용될 수 있다.
그러나, 각 알에스에스 피드들은 서로 독립적으로 정보를 제공하고, 동일하거나 극히 유사한 내용을 가지는 문서라고 하여도 별개의 정보로서 취급하므로 사용자가 정보를 탐색, 열람하는 과정에서 효율성을 향상시키기 위한 추가적인 노력이 요구된다.
본 발명은 트리 구조로 분류된 문서를 탐색할 수 있는 문서 탐색 서비스를 제공하는 방법으로서, 사용자의 반응 정보를 고려함으로써 트리 구조를 갱신하는 문서 탐색 서비스 제공 방법 및 시스템을 제공하는 것이다.
한편, 본 발명은 문서 탐색 서비스를 이용하는 사용자의 문서 열람 성향을 반영하여 트리 구조를 갱신함으로써 보다 직관적이면서도 정확하게 조정된 트리 구조를 형성하는 문서 탐색 서비스 제공 방법 및 시스템을 제공하는 것이다.
본 발명의 일 측면에 따르면, 트리 구조로 분류된 문서를 탐색할 수 있는 문서 탐색 서비스를 제공하는 방법으로서, 문서에 대한 접근 수단을 제공하는 단계; 접근 수단에 대한 사용자 반응 정보를 획득하는 단계 및 반응 정보를 고려하여 트리 구조를 갱신하는 단계를 포함하는 문서 탐색 서비스 제공 방법이 제공된다. .
문서에 대한 접근 수단을 제공하는 단계는 트리 구조를 시각화하기 위한 수단을 제공할 수 있다. 사용자 반응 정보는 문서의 트리 구조가 시각화 되는 수단에 대한 사용자의 반응 정보를 수집함으로써 수행될 수 있다.
문서 탐색 서비스 제공 방법에서 트리 구조를 갱신하는 단계는 트리 구조에서 사용자의 반응 빈도가 소정 값 이하인 연결을 단절시킬 수 있다.
또한, 트리 구조를 갱신하는 단계는 문서의 열람자가 입력한 질의어 정보를 더 고려하여 트리 구조를 갱신할 수 있다.
문서 탐색 서비스를 제공하는 데 사용되는 트리 구조는, 문서를 주제에 따라서 분류하는 단계; 문서의 제목을 추출하는 단계; 추출된 제목에 기초하여 클러스터(cluster)를 형성하는 단계 및 클러스터를 주제에 속하는 소정의 디렉토리에 매핑(mapping)하는 단계를 포함하는 트리 구조 형성 방법에 의하여 형성될 수 있다.
이러한 트리 구조 형성 방법에서, 문서는 하나 또는 복수개의 필드를 포함하는 것을 특징으로 하고, 문서의 제목을 추출하는 단계는 문서를 구성하는 필드의 속성을 고려하여 제목을 추출할 수 있다.
한편, 클러스터를 형성하는 단계에서 추출된 제목을 음절단위로 구분하여 제목 중에서 다른 문서와 공유되는 부분을 클러스터의 중심개념 후보로 선정할 수 있다. 중심개념 후보는 추출된 제목에 대한 엔-그램(n-gram) 분석을 이용하여 선정될 수 있다.
또한, 본 발명의 다른 측면에 따르면, 트리 구조로 분류된 문서를 탐색할 수 있는 문서 탐색 서비스를 제공하는 시스템으로서, 문서에 대한 접근 수단을 제공하는 문서 제공부; 접근 수단에 대한 사용자 반응 정보를 획득하는 반응 정보 획득부; 및 반응 정보를 고려하여 트리 구조를 갱신하는 트리 구조 갱신부를 포함하는 문서 탐색 서비스 제공 시스템이 제공된다.
문서 탐색 서비스 제공 시스템에서, 문서 제공부는 트리 구조를 시각화하기 위한 수단을 제공할 수 있으며, 반응 정보 획득부는 문서 제공부에 의하여 제공된 시각화 수단에 대한 사용자의 반응 정보를 수집할 수 있다.
문서 탐색 서비스 제공 시스템에서, 트리 구조 갱신부는 트리 구조에서 사용자의 반응 빈도가 소정 값 이하인 연결을 단절시킬 수 있다.
또한, 트리 구조 갱신부는 문서의 열람자가 질의어 정보를 더 고려하여 문서의 트리 구조를 갱신할 수 있다.
문서 탐색 서비스 제공 시스템은 문서의 트리 구조를 형성하는 트리 구조 형성부를 포함할 수 있다. 트리 구조 형성부는 문서를 주제에 따라서 문서 분류부; 문서의 제목을 추출하는 제목 추출부; 추출된 제목에 기초하여 클러스터를 형성하는 클러스터 형성부 및 클러스터를 주제에 속하는 소정의 디렉토리에 매핑하는 디렉토리 매핑부를 포함할 수 있다.
한편, 문서는 하나 또는 복수개의 필드를 포함하는 것을 특징으로 하고, 제목 추출부는 문서를 구성하는 필드의 속성을 고려하여 제목을 추출할 수 있다.
또한, 클러스터 형성부는 추출된 제목을 음절단위로 구분하여 제목 중에서 다른 문서와 공유되는 부분을 클러스터의 중심개념 후보로 선정할 수 있다. 중심개념 후보는 추출된 제목에 대한 엔-그램(n-gram) 분석을 이용하여 선정될 수 있다.
한편, 본 발명의 문서 탐색 서비스 제공 방법은 컴퓨터에 의하여 수행될 수 있으며, 컴퓨터에서 실행하기 위한 프로그램을 기록하는 컴퓨터 판독 가능한 기록매체에 기록될 수 있다.
전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.
본 발명의 바람직한 일 실시예에 따르면, 트리 구조로 분류된 문서를 탐색할 수 있는 문서 탐색 서비스를 제공함에 있어서, 사용자의 반응 정보를 고려함으로써 트리 구조를 갱신하는 문서 탐색 서비스 제공 방법 및 시스템을 구현할 수 있다.
한편, 본 발명의 바람직한 일 실시예에 따르면, 문서 탐색 서비스를 이용하는 사용자의 문서 열람 성향을 반영하여 트리 구조를 갱신함으로써 보다 직관적이면서도 정확하게 조정된 트리 구조를 형성하는 문서 탐색 서비스 제공 방법 및 시스템이 구현될 수 있다.
이하, 본 발명에 따른 문서 탐색 서비스 제공 방법 및 시스템의 실시예를 첨부도면을 참조하여 상세히 설명하기로 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 본 발명의 일 실시예에 따른 문서 탐색 서비스 제공 방법의 흐름도이고, 도 2는 본 발명의 일 실시예에 따른 문서 탐색 서비스 제공 시스템의 구성도이다.
도 1 및 도 2를 참조하면, 탐색 서비스 제공 서버(210), 문서 분류부(211), 제목 추출부(212), 클러스터 형성부(213), 디렉토리 매핑부(214), 문서 제공부(215), 반응 정보 획득부(216), 트리 구조 갱신부(217), 원본 문서 데이터베이스(221), 탐색 서비스 데이터베이스(222), 반응 정보 데이터베이스(223), 사용자 단말기(230) 및 트리 구조 형성부(240)가 도시되어 있다.
트리 구조 형성 단계(S110)는 문서 탐색 서비스 제공 방법 및 시스템에 의하여 제공될 문서들간의 연결관계를 표현하는 트리 구조를 형성하는 단계이다. 트리 구조 형성 단계(S110)는 트리 구조 형성부(240)에 의하여 수행될 수 있다.
트리 구조 형성 단계(S110)는 문서를 주제에 따라서 분류하는 단계(S110), 분류된 문서들의 제목을 추출하는 단계(S114), 추출된 제목에 기초하여 문서의 클러스터를 형성하는 단계(S116) 및 문서의 클러스터를 디렉토리로 매핑하는 단계(S118)을 포함할 수 있으며, 이하에서 각 세부 단계들의 동작을 설명한다.
문서를 주제에 따라서 분류하는 단계(S112)는 문서 분류부(211)에 의하여 원본 문서 데이터베이스(221)내의 문서들을 분류하는 단계이다.
문서 분류부(211)는 원본 문서 데이터베이스(221)로부터 문서에 대한 정보 를 획득하고, 분류의 구조에 관한 정보 등을 탐색 서비스 데이터베이스(222)로부터 획득한다. 획득한 정보들에 기초하여 문서가 어떤 분류와 매칭되는지를 결정하고, 문서와 분류 사이의 매칭 관계에 대한 정보를 탐색 서비스 데이터베이스(222)에 저장한다.
본 단계에서 문서 분류부(211)는 문서에 포함된 정보를 사용하여 문서가 특정한 키워드를 포함하고 있는지 여부 및 특정한 내용을 포함하고 있는지 여부 등을 판단함으로써, 문서를 주제별로 분류할 수 있다.
일 예로,'와인'이라는 분류와 매칭되는 적합한 문서인지 여부는 해당 문서가 '와인'이라는 분류명 자체 및 분류명의 동의어를 포함하고 있는지 여부와 '와인'과 깊은 관계가 있는 것으로 판단될 수 있는 키워드인 '소믈리에', '디켄팅' 등을 포함하고 있는지 여부 등을 고려하여 결정될 수 있다.
한편, 문서와 분류와의 매칭여부를 결정함에 있어서, 분류관련 키워드의 포함 여부를 수치화 하여 기준으로서 활용할 수 있다. 일 예로, 특정 주제와 관련된 키워드 들이 포함되는 경우 소정의 점수를 부여하고 이 점수들의 합이 일정한 기준을 넘는 경우 해당 분류와 매칭되는 것으로 결정할 수 있다.
문서의 분류 단계에서 하나의 문서가 반드시 하나의 분류에만 매칭되는 것으로 판단되는 것은 아니다. 일 예로, '와인'이라는 분류와 '일본 만화'라는 분류가 존재하는 경우, 와인을 주제로 다룬 일본만화인 '신의 물방울'에 대한 감상평등을 다루는 문서는 '와인'에 대한 분류는 물론 '일본 만화'라는 분류에 동시에 매칭될 수 있다.
원본 문서 데이터베이스(221)에는 탐색 서비스 제공 서버(210)에 의하여 분류되고 재구성될 수 있는 원본 문서들에 대한 정보가 저장된다. 이러한 원본 문서들은 궁극적으로 사용자 단말기(230)로 제공될 수 있다. 원본 문서는 웹 상에서 웹 로봇 등에 의하여 수집될 수 있다.
한편, 본 발명의 원본 문서 데이터베이스(221)에 저장되는 원본 문서들은 소정의 속성을 가진 문서들을 포함할 수 있다. 일 예로, 버티컬 사이트 및 블로그에서 사용되는 구조화된 문서가 원본 문서로 사용될 수 있다.
이러한 구조화된 문서들은 문서 내의 컨텐츠를 하나 또는 복수개의 영역 또는 구획으로 나누어 저장할 수 있다. 이러한 영역 또는 구획들은 필드(field)로 명명될 수 있다. 일 예로 블로그의 포스트(post)과 같은 문서의 경우 제목 필드, 본문 필드, 작성 시각 필드 및 해당 포스트에 대한 키워드 필드 등을 포함할 수 있다.
이러한 문서에 관하여, 그 작성자는 각각의 필드명에 상응하는 컨텐츠를 입력함으로써 문서를 생성할 수 있으므로, 필드명과 그에 해당하는 컨텐츠는 후술하는 제목 추출 단계 등에서 유용하게 사용될 수 있다.
또한, 이러한 버티컬 사이트 및 블로그 들에서는 문서들 간의 관계 역시 구조화되어 있을 수 있다. 이러한 문서의 구조화된 관계는 해당 사이트에서의 디렉토리 형태로 나타날 수 있다.
일 예로, 영화를 주제로 하는 버티컬 사이트는 해당 사이트의 문서를 분류하는 디렉토리로서 '영화 감상평','영화 순위'및 '최신 개봉작'등이 디렉토리를 포 함할 수 있으며, 블로그 역시 각각의 포스트를 분류하는 디렉토리에 관한 정보를 가질 수 있다.
이러한 버티컬 사이트 및 블로그에서의 디렉토리 이름은 그 사이트가 다루는 주제와 연관된 키워드로서 사용될 수 있다. 이러한 키워드들은 앞서 언급된 문서의 주제별 분류 단계에서 활용되어 그 분류의 정확도를 개선하는 데 사용될 수 있다.
본 발명에서 문서라고 하는 용어는 전자적으로 기록된 문서들을 통칭하는 용어로 이해될 수 있다. 문서는 에이치티엠엘(HTML)등의 마크업 랭귀지를 사용하여 기술되고 *.htm 등의 확장자를 가질 수 있으나, 특정한 기술 형태 및 확장자를 가진 파일에 한정되는 것으로 해석되지는 않는다.
탐색 서비스 데이터베이스(222)는 문서 분류부(211)에 의하여 결정된 문서와 분류간의 매칭 관계에 대한 정보가 저장된다. 문서 별로 각 분류에 대한 매칭여부가 저장될 수 있으며, 각 분류별 관련 키워드 포함여부를 수치화하여 저장할 수 있다.
한편, 앞서 언급된 원본 문서 데이터베이스(221) 및 탐색 서비스 데이터베이스(222)에서의 정보 저장방법 및 형태 등은 본 발명의 목적범위 내에서 다양하게 변화될 수 있다.
문서들의 제목을 추출하는 단계(S114)는 제목 추출부(212)가 원본 문서 데이터베이스(221)에 저장된 문서들의 제목을 추출하는 단계이다. 문서의 제목이란, 문서의 내용 및 주제를 함축하고 있는 단어, 구 또는 문장을 의미한다.
제목 추출부(212)는 원본 문서 데이터베이스(221)에 저장된 문서의 정보를 이용하여 각 문서의 제목을 추출하고, 추출된 제목을 탐색 서비스 데이터베이스(222)에 저장한다.
본 단계에서, 제목 추출부(212)는 문서들에 포함된 정보를 이용하여 문서의 제목을 추출할 수 있다. 문서의 구조, 문서에 포함된 단어들의 출현 빈도 및 문서가 사용자 단말기(230)에서 브라우징 될 경우의 속성 등이 제목 결정의 기준으로 사용될 수 있다.
즉, 제목을 추출하는 과정에서 사용되는 문서 정보는 문서에 직접적으로 포함된 컨텐츠 텍스트만이 아니라, 문서가 사용자 단말기(230)에서 열람되는 형태에 관한 정보 등을 포함하는 개념으로 이해될 수 있다.
일 예로, 블로그 등의 웹 사이트는 구조화된 문서들을 포함할 수 있다. 이러한 문서들은 각각의 이름을 가진 필드(field)에 정보를 저장할 수 있다. '제목', '(title)'등의 필드 이름을 가지는 필드에 포함된 텍스트를 제목으로 선정할 수 있다.
또 다른 예로, 문서가 사용자 단말기(230)의 웹 브라우저 등을 통하여 브라우징 되는 경우, 문서내의 다른 내용보다 상대적으로 크게 표시되거나 차별화되는 속성을 가지고 표현되어 강조되는 텍스트 역시 제목의 후보구로 고려될 수 있다.
추출된 제목에 기초하여 문서의 클러스터를 형성하는 단계(S116)는 클러스터 형성부(213)가 문서의 제목 정보에 기초하여 클러스터링을 수행하는 단계이다.
클러스터 형성부(213)는 탐색 서비스 데이터베이스(222)로부터 획득한 문서의 제목 정보에 기초하여 문서들의 클러스터를 형성한다. 형성된 클러스터에 관한 정보는 탐색 서비스 데이터베이스(222)에 저장된다.
문서의 클러스터는 중심개념을 공유하는 문서들의 그룹을 의미한다. 문서의 클러스터는 각 문서의 제목들에서 공통되는 부분들이 존재하는지 여부를 고려하여 형성될 수 있다. 각 클러스터는 중심개념을 이용하여 명명될 수 있다.
문서의 제목 중 다른 문서와 공통되는 문자열이 클러스터의 중심개념의 후보가 될 수 있으며, 공통되는 문자열을 가지는 문서의 개수가 소정값 이상인 경우 하나의 독립된 클러스터가 형성될 수 있다.
일 예로, 한 문서의 제목이 '소믈리에 따라잡기: 와인 에티켓 - 함께 즐기는 와인'이고 다른 문서의 제목이 '테이블 매너 5편 - 와인 에티켓'인 경우 두 제목에서 공통되는 부분인 '와인 에티켓'이 중심개념으로 추출될 수 있다.
문서의 제목에서 중복되는 부분을 중심개념으로 추출하는 과정에서 엔-그램(n-gram) 분석 방법이 사용될 수 있다. 이 경우, 제목은 음절 단위로 분리되어 소정 개수의 음절을 가지는 문자열로 재조합 될 수 있다.
이러한 재조합된 문자열 중에서 중복되는 부분이 중심개념의 후보가 될 수 있다. 앞선 예시의 경우 두 개의 음절을 가진 '와인'과 다섯 개의 음절을 가진 '와인 에티켓'이 중심개념의 후보로서 고려될 수 있다.
이와 같이, 문서들의 제목에서 동일한 중복 부분이 여러 개 있는 경우, 그 중에서 하나의 중복 부분을 중심개념으로 결정하는 과정이 요구될 수 있다. 이 때, 중복 부분의 음절수, 중복부분과 문서의 분류명과의 관계 및 해당 중복부분을 가지는 문서의 수 등이 결정기준으로 사용될 수 있다.
상술한 예에서, 중복 부분은 '와인', '에티켓'및 '와인 에티켓'이다. 이 경우 '와인'은 문서들이 포함된 주제인 '와인'과 동일하므로 하나의 클러스터의 중심개념으로는 적절하지 않을 수 있다.
중복 부분을 가지는 문서들의 개수 측면에서도, '와인'을 공유하는 문서의 개수는 하나의 클러스터로 형성하기에는 지나치게 큰 값일 수 있다. 이와 같이 클러스터 중심개념의 후보를 결정하는 경우, 그 중심개념의 후보를 공유하는 문서들의 개수를 소정의 범위로 제한하는 것이 요구될 수 있다.
또한, 중심개념 후보의 길이 역시 고려대상이 될 수 있다. 지나치게 짧은 중심개념 후보의 경우 그 품사가 조사이거나 특정한 분류로 사용되기에 부적절한 일반적 용어일 가능성이 있다.
한편, 길이가 긴 중심개념 후보의 경우 그 후보를 공유하는 클러스터 내의 문서들간의 관련도가 높을 것이 기대되며, 노이즈가 포함될 확률이 작은 것으로 기대될 수 있으므로, 중심개념 후보 중에서 가장 긴 후보를 우선적으로 고려할 수 있다.
상술한 예의 경우, 나머지 두 중심개념 후보가 '와인 에티켓'에 포함되므로 가장 길이가 긴 '와인 에티켓'을 우선 후보로 고려할 수 있으며, '와인 에티켓'을 공유하는 문서 수 등의 다른 기준을 만족하는 것으로 판단되는 경우 단일 클러스터를 구성하는 중심개념으로 선정될 수 있다.
또한, '와인'이라는 주제에 포함된 문서에서 '에티켓'을 공유하는 문서의 개수와 '와인 에티켓'을 공유하는 문서의 수가 극히 유사한 경우라면 보다 구체적인 '와인 에티켓'을 중심개념으로 선정하는 것이 효율적일 수 있다.
이러한 중심개념 들 중에서 소정의 개수 이상의 문서가 연관된 것을 기준으로 클러스터를 구성할 수 있다. 클러스터를 이루는 중심개념 및 그 중심개념을 공유하는 클러스터에 속하는 문서에 관한 정보는 탐색 서비스 데이터베이스(222)에 저장된다.
문서의 클러스터를 디렉토리로 매핑하는 단계(S118)는 디렉토리 매핑부(214)가 문서의 클러스터를 각 클러스터의 중심개념을 기준으로 디렉토리에 매핑하는 단계이다.
디렉토리는 문서의 분류 즉, 주제의 하위개념으로서 하나 또는 복수의 클러스터를 포함할 수 있는 소주제를 의미한다. 일 예로, 문서가 분류된 주제가 '와인'인 경우 그 디렉토리로서 '와인의 산지', '와인의 역사' 및 '와인 에티켓'등이 포함될 수 있으며, '와인의 산지'디렉토리는 와인의 생산지로 알려진 '보르도'및 '부르고뉴'등의 지명을 중심개념으로 형성된 클러스터를 포함할 수 있다.
디렉토리 매핑부(214)는 탐색 서비스 데이터베이스(222)로부터 디렉토리 구조에 관한 정보 및 클러스터에 대한 정보를 획득하여 각 디렉토리에 매핑될 클러스터를 결정한다. 결정된 디렉토리 매핑 정보는 탐색 서비스 데이터베이스(222)에 저장된다.
클러스터가 매핑될 디렉토리는 해당 클러스터의 중심 개념이 그 디렉토리와 관계된 키워드를 포함하고 있는지 여부로 결정될 수 있다.
일 예로, 디렉토리가 '와인 에티켓'인 경우 디렉토리 이름에서는 '에티켓'이 디렉토리 포함여부를 결정하기 위한 키워드가 될 수 있다. 이미'와인'분류에 해당하는 것으로 판단된 문서들에 대해 형성된 클러스터를 매핑하는 과정에서는 분류명인 '와인'자체는 제외한 키워드로 디렉토리를 매핑하는 것이 효율적일 수 있다.
한편, 이러한 키워드 들에 대해서는 사전식 나열법을 사용하여 해당 키워드를 확장하는 것이 요구될 수 있다. '에티켓'은 동의어, 유의어 및 표기언어를 달리하는 키워드로 확장될 수 있다.
이 경우 '예절', 'etiquette', '매너' 및 'manner'등의 키워드가 디렉토리 매핑을 위한 추가적인 키워드로 고려될 수 있다. 이를 통해 디렉토리 매핑의 효율성을 향상시킬 수 있다.
이러한 디렉토리 매핑을 위한 키워드 역시 디렉토리 구조에 관한 정보의 일부로서 탐색 서비스 데이터베이스(222)에 저장될 수 있다.
이상에서 트리 구조 형성 단계(S110)의 각 세부 단계들의 동작을 설명하였다. 형성된 트리 구조는 분류되는 문서 자체에 포함되는 정보를 이용하여 형성될 수 있다. 이 경우 트리 구조는 바람직하지 않은 문서, 클러스터 및 그들의 연결을 포함할 수 있다. 이와 같이 노이즈를 포함하는 트리 구조는 갱신전의 트리 구조로서 도 3을 참조하여 설명될 것이다.
문서를 제공하는 단계(S120)는 문서 제공부(215)가 사용자 단말기(230)로 클러스터링된 문서들을 디렉토리 별로 제공하는 단계이다.
본 단계는 소정의 주제 즉, 분류에 속하는 디렉토리 구조 및 디렉토리에 속하는 클러스터의 포함관계를 시각화하여 제공함으로써 사용자가 자신이 관심분야에 문서들을 손쉽게 탐색할 수 있도록 하는 것에 특징이 있다.
사용자는 사용자 단말기(230)를 통해 자신이 관심을 가지고 있는 주제에 관한 정보를 탐색 서비스 제공 서버(210)로 전송한다. 이는 해당 주제에 대한 탐색 서비스를 제공하는 웹 페이지에 대한 링크를 클릭하는 동작 등에 의하여 수행될 수 있다.
문서 제공부(215)는, 사용자의 관심 주제에 관한 정보가 포함된, 사용자 단말기(230)에서의 요청을 수신하여 이에 대한 응답으로 앞서 언급한 단계들에서 분류되고 클러스터링된 문서들에 대한 접근 링크를 포함하는 웹 페이지를 제공할 수 있다. 이를 통해 탐색 서비스가 사용자에게 제공된다.
한편, 문서 탐색 서비스를 제공하기 위해 문서 제공부(215)는 클러스터링된 문서들에 대한 정보를 탐색 서비스 데이터베이스(222)로부터 획득한다.
문서 제공부(215)의 응답이 제공되는 형태 및 양식은 씨에스에스(CSS, cascading style sheets)등을 이용하여 조절될 수 있다. 또한, 별도의 컨텐츠 매니지먼트 시스템(CMS, content management system)을 이용하는 것도 가능하다.
사용자의 반응 정보를 획득하는 단계(S130)는 반응 정보 획득부(216)가 사용자의 반응 정보를 획득하는 단계이다.
본 실시예에서 탐색 서비스는 문서 제공부(215)에 의하여 시각화된 트리 구조를 사용자에게 제공할 수 있다. 이러한 트리 구조의 시각화는 도 5 및 도 6에 도시된 분류 구조 표시 영역(510), 탐색 위치 표시 영역(520) 및 클러스터 표시 영역(530)등에서 이루어질 수 있다.
이러한 영역에서 사용자는 각 영역에서 자신이 탐색하고자 하는 디렉토리, 클러스터 및 문서에 연관된 부분을 클릭하는 방법 등으로 반응할 수 있다. 이와 같이 자신의 탐색위치를 결정하고 문서를 열람하기 위해 취해지는 사용자의 반응에 관한 정보는 반응 정보 획득부(216)에 의하여 수집된다.
획득된 반응 정보는 반응 정보 데이터베이스(223)에 저장되며, 사용자 반응 정보는 사용자에 대한 식별정보, 반응 시각, 반응 대상에 대한 정보를 포함할 수 있다. 이와 같이 수집되고 저장된 사용자 반응 정보는 트리 구조를 갱신하는 기초 자료로 활용될 수 있다.
한편, 문서 제공부(215)는 트리 구조에 포함된 문서에 포함된 정보를 검색하기 위한 검색 수단을 제공할 수 있다. 이러한 검색 수단은 문서 제공부(215)가 사용자 단말기(230)로 제공하는 웹 페이지 등에 포함된 검색창 등의 형태로 제공될 수 있다. 이러한 검색창에 입력된 질의어 역시 사용자의 반응 정보로서 트리 구조의 갱신에 사용될 수 있다.
문서의 트리 구조를 갱신하는 단계(S140)는 트리 구조 갱신부(217)가 문서의 트리 구조를 갱신하는 단계이다. 트리 구조 갱신부(217)는 반응 정보 데이터베이스(232)에 저장된 사용자의 반응 정보에 기초하여 문서의 트리 구조를 갱신할 수 있다.
트리 구조의 갱신은 불필요한 디렉토리, 클러스터 및 문서를 트리에서 배제하는 형식 등으로 이루어 질 수 있다.
일 예로, 특정한 클러스터에 속하는 문서에 대한 링크가 사용자에게 지속적으로 제공되었음에도 사용자에 의한 열람빈도가 다른 문서들에 비해 상대적으로 낮은 경우, 해당 문서와 클러스터와의 연결을 단절함으로써 트리 구조를 갱신할 수 있다.
이와 유사하게 특정한 클러스터에 대한 사용자의 반응 빈도가 상대적으로 낮은 경우 해당 클러스터를 배제하는 것도 가능하다.
또한, 포함된 하위분류에 대한 사용자 열람빈도를 고려하여 상위분류를 변경할 수 있다. 일 예로, 특정 디렉토리에 포함된 클러스터들에 대한 사용자 방문 빈도가 지나치게 낮은 경우 그 디렉토리를 트리 구조에서 배제할 수 있다.
이와 같은 트리 구조의 변경은, 트리 구조의 각 구성요소들 간의 연결 정도를 수치화 함으로써 수행될 수 있다. 일 예로, 사용자가 빈번하게 이용하는 탐색 경로에 대해 소정의 점수를 부여함으로써, 빈번하게 이용되는 탐색경로에 포함된 연결들에 대해서는 높은 점수를 부여할 수 있으며 그 반대의 경우 해당 연결은 낮은 점수를 부여할 수 있다. 이 경우, 소정 값 이하의 점수를 갖는 연결들을 단절 대상의 후보로 선정하는 방법에 의하여 트리 구조의 갱신이 가능하다.
또한, 특정 문서에 대해 사용자들이 유입된 탐색 경로의 비율 역시 트리 구조를 갱신하는 기초로서 고려될 수 있다. 문서가 둘 이상의 상위 개념과 관련되는 경우, 사용자가 유입되는 경로가 특정 경로에 편중되어 있다면 그 경로만을 남기는 형태로 트리 구조를 갱신할 수 있다. 특정 경로로 유입되는 비율이 극히 낮은 경우에는 그 경로를 배제할 수 있음은 물론이다.
이와 같이, 탐색경로에 대한 사용자의 조회 빈도 및 특정 문서와 관련된 유입경로 등은 문서 분류부(215)에 의하여 제공된 정보에 대한 사용자의 반응 정보에 기초하여 산출될 수 있다.
한편, 트리 구조의 갱신은 트리 구조에 속하는 문서를 열람한 열람자들이 입력한 질의어 정보를 더 고려하여 갱신될 수 있다. 웹 상의 문서를 검색하여 열람하는 경우 그 문서를 포함하는 검색결과를 입력하기 위해 입력한 질의어는 그 문서와 관련되어 있는 것으로 판단될 수 있다. 일 예로, 검색 엔진에서 '보르도 와인'이라는 질의어를 입력한 사용자가 열람한 문서는 '보르도 와인'과 관련된 문서로 판단될 수 있다.
한편, 새로운 디렉토리 및 클러스터를 형성하는 것에 의하여서도 트리 구조는 갱신될 수 있다. 원본 문서 데이터베이스(221)에 새로운 문서들이 추가되는 경우 이러한 새 문서들은 기존의 트리 구조에 새로이 연결될 수 있다.
앞서 언급된 바와 같이 문서의 클러스터를 형성함에 있어서, 클러스터에 포함된 문서의 개수 역시 고려대상이 될 수 있다. 새로운 문서의 추가로 인해 특정 클러스터에 포함된 문서의 개수가 지나치게 커지는 경우 해당 클러스터를 여러 개의 클러스터로 분리하는 것도 가능하다. 이 경우, 클러스터를 디렉토리로 변경하는 것 역시 고려될 수 있다
이와 같이 갱신된 트리 구조는 탐색 서비스 데이터베이스(222)에 저장될 수 있다. 또한, 갱신된 트리 구조는 문서 제공부(215)에 의하여 사용자에게 제공되며, 이를 통해 사용자는 보다 정확한 분류 결과를 가지는 트리 구조를 탐색할 수 있게 된다.
한편, 본 발명의 일 실시예에 따른 탐색 서비스 제공 서버(210)는 광고 제공부(218)을 더 포함할 수 있다.
광고 제공부(218)는 광고 컨텐츠를 사용자 단말기(230)로 제공할 수 있다. 광고 컨텐츠는 광고 데이터베이스(224)에 저장될 수 있으며, 광고 제공부(218)에 의하여 호출되어 사용자 단말기(230)로 전송될 수 있다.
사용자 단말기(230)로 전송될 광고 컨텐츠를 결정하는 요소로서, 사용자에 관한 정보 및 사용자가 탐색하는 문서에 관한 정보 등이 고려될 수 있다.
일 예로, 사용자가 문서 탐색 서비스를 이용하는 과정에서 로그인(log-in) 절차를 수행한 경우, 사용자의 연령, 직업, 성별, 거주지역 등의 사용자의 개인 정보가 광고 컨텐츠 결정 요소로서 고려될 수 있다.
한편, 사용자 단말기(230)를 통하여 열람되는 문서에 관한 정보들이 광고 컨텐츠 결정 요소로 고려될 수 있다. 사용자가 입력한 질의어(query) 정보 역시 고려될 수 있다.
또한, 사용자가 본 발명의 일 실시예에 따른 문서 탐색 서비스를 이용하는 과정에서 획득되는 정보들 역시 컨텐츠 결정 요소로 고려될 수 있다.
이와 같이, 사용자에 관한 정보 및 사용자가 탐색하는 문서에 관한 정보 등 을 이용하여 제공될 광고 컨텐츠를 결정함으로써, 제공되는 광고의 효과가 극대화 될 수 있다는 장점이 있다.
도 3은 본 발명의 일 실시예에 따른 갱신 전 문서 트리 구조를 예시한 도면이고, 도 4는 본 발명의 일 실시예에 따른 갱신 후 문서 트리 구조를 예시한 도면이다.
도 3 및 도 4를 참조하면, 원본 문서 데이터베이스(221)에 속하는 문서들은 분류(주제), 디렉토리, 클러스터, 문서 순으로 연결되는 계층구조에 의하여 구조화 되어 있다.
도 3 및 도 4를 참조하면, 문서들이 구조화되는 상위 개념인 분류(주제)는 '와인'이다. 특정 문서가 '와인' 분류에 해당하는지 여부는 문서 분류부(211)에 의하여 판단된다.
분류(주제)는 그 하위개념으로서 하나 또는 복수개의 디렉토리를 포함할 수 있다. '와인' 분류는 '와인의 산지', '와인의 역사' 및 '와인 에티켓'으로 명명된 디렉토리를 포함한다.
디렉토리의 명칭은 사용자가 문서를 탐색하고자 하는 그룹의 이름으로 기능할 수 있으므로, 원본 문서 데이터베이스(221)에 저장된 문서들의 출처인 버티컬 사이트 및 블로그 등에서 사용하는 문서그룹의 명칭을 디렉토리 이름으로 사용함으로써 사용자의 문서 탐색 효율을 높일 수 있다.
디렉토리는 그 하위에 하나 또는 복수개의 클러스터를 포함할 수 있다. '와 인의 산지'디렉토리는 '보르도','부르고뉴', '캄파니아'및 '보르도 TV'로 명명된 클러스터를 포함한다.
클러스터 역시 하나 또는 복수개의 문서를 포함할 수 있으며, 도 3에 예시된 문서 2의 경우 그 제목에 '보르도'및 '부르고뉴'를 포함하므로 '보르도' 클러스터와 '부르고뉴'클러스터 모두에 포함될 수 있다.
한편, 버티컬 사이트 및 블로그에서 사용되는 디렉토리의 명칭 및 이러한 사이트에 포함된 구조화된 문서들의 필드 정보들이 문서를 주제별로 분류하고 클러스터링하는 데 사용될 수 있음은 도 1 및 도 2의 상세한 설명에서 언급된 바와 같다.
한편, '와인을 닮은 보르도 TV'라는 제목을 가지는 문서 3는 와인에 대한 문서가 아닌 한국의 전자제품 업체에서 생산한 텔레비전에 관한 문서로서 와인에 관한 문서로 분류되는 것이 부적절한 노이즈 문서이다.
그러나, 문서 3은 그 제목에 '와인'및 '보르도'라는 문자열을 포함하고, 문서의 컨텐츠로서 와인과 관련된 마케팅 활동, 제품 개발 컨셉트를 포함하여 '와인' 분류에서 별도의 클러스터로 포함되는 결과를 초래할 수 있다.
이러한 문서들은 와인에 대한 관심을 가지고 문서를 탐색하는 방문자의 주의를 끌지 못할 것이므로, 다른 문서들에 비해 낮은 조회수를 기록할 수 있다. 이러한 방문자의 반응 정보는 트리 구조의 갱신에 반영될 수 있다.
한편, 앞서 언급된 바와 같이 문서의 열람자가 입력한 질의어 정보 역시 트리 구조의 갱신에 반영될 수 있다. 문서 3을 열람하는 사용자가 입력한 질의어의 분포가 '와인'이나 '보르도'가 아닌 제품의 생산자인'삼성전자'이거나 'TV'에 편중되어 있는 경우 이를 트리 구조에 반영하여 '와인' 분류에서 문서 3을 배제할 수 있다.
한편, 앞서 언급된 바와 같이 문서로 유입되는 경로의 비율이 트리 구조의 갱신에 반영될 수 있다. 일 예로, 문서 3이 분류(주제) '와인'뿐만 아니라 분류(주제)'TV'(미도시)에 연결되어 있는 경우 문서 3을 열람하는 사용자는 후자와 관련된 탐색경로로 문서 3에 접근할 사용자의 비율이 상대적으로 클 수 있다. 이 경우, 그 편중도가 소정의 값을 넘어가면 문서 3과 관련된 '와인'분류의 경로를 차단함으로써 트리 구조를 갱신할 수 있다.
이에 따라 갱신 후의 트리 구조를 나타내는 도 5에서는 클러스터 '보르도 TV'와 문서 3이 제거되었다.
한편, '캄파니아산 모쩨렐라 치즈 - 보르도 와인과 제격'이라는 제목을 가지는 문서 4의 경우 포함된 컨텐츠는 모쩨렐라 치즈에 대한 것으로서, 와인 생산지로서의 보르도에 대한 내용을 다룬 문서가 아니다.
따라서, 와인의 생산지로서의 보르도에 대한 관심을 가지고 클러스터 '보르도'를 탐색하는 사용자의 조회 빈도가 문서 1에 비해 낮을 수 있다. 이 경우, 트리 구조 갱신 과정에서 문서 4는 클러스터 '보르도'와의 연결이 단절될 수 있으며, 도 4는 그 결과를 나타낸다.
한편, 이 과정에서 조회 빈도만이 아닌 유입 경로의 비율이 고려될 수 있음은 앞서 살펴본 바와 같다.
그러나 '캄파니아'는 이탈리아 와인의 생산지이기도 하므로 문서 3의 경우와 달리 클러스터 자체가 제거되지 않을 수 있다. 이와 같이 클러스터 및 문서 자체를 주제에서 배제하는 것 이외에도 트리 구조에서의 연결을 변경하는 것에 의하여 트리 구조가 갱신될 수 있다.
도 5는 본 발명의 일 실시예에 따른 갱신 전 문서 탐색 서비스 제공 화면을 예시한 도면이고, 도 6는 본 발명의 일 실시예에 따른 갱신 후 문서 탐색 서비스 제공 화면을 예시한 도면이다. 즉, 도 5는 도 3에 관한 문서 탐색 서비스 제공 화면이고, 도 6은 도 4에 관한 문서 탐색 서비스 제공 화면이다.
도 5 및 도 6을 참조하면, 분류 표시 영역(500), 분류 구조 표시 영역(510), 탐색 위치 표시 영역(520), 클러스터 표시 영역(530) 및 문서 링크(532)가 도시되어 있다.
앞서 살펴본 바와 같이 본 실시예의 문서 탐색 서비스를 제공하기 위해 문서 제공부(215)는 사용자 단말기(230)로 제공되는 웹 페이지를 생성하고 전송할 수 있다.
문서 탐색 서비스에서 제공되는 웹 페이지는 도 5 및 도 6에 예시된 것과 같은 화면 구성을 가질 수 있다. 이러한 화면구성에는 탐색 대상 문서의 구조화를 시각화하기 위한 표시 영역 들이 포함될 수 있다.
분류 표시 영역(500)은 문서가 구조화되는 상위개념인 분류(주제)에 관한 정보가 표시되는 영역이다. 본 실시예에서는 분류명인 '와인'이 상대적으로 차별화 된 속성으로 표시되어 있다.
분류 구조 표시 영역(510)은 도 3 및 도 4에 예시된 트리 구조를 사용자에게 제공하는 영역이다. 도 4의 경우 사용자가 탐색하고 있는 디렉토리인 '와인의 산지'와 클러스터 '보르도'는 다른 항목들과 차별화된 속성으로 표시되었다.
또한, 사용자가 탐색하고 있는 디렉토리와 클러스터를 표시하는 탐색 위치 표시 영역(520)이 추가적으로 제공될 수 있다.
클러스터 표시 영역(530)은 사용자가 탐색하고 있는 클러스터에 속하는 문서들에 대한 접근 수단을 제공하는 영역이다. 본 실시예에서 사용자가 탐색하고 있는 클러스터의 중심개념은 '보르도'로서 클러스터 표시 영역(530)에는 '보르도'라는 중심개념과 관련된 문서에 대한 접근 수단으로서의 문서 링크(532)들이 제공될 수 있다.
클러스터 표시 영역(530)에는 사용자가 탐색하고 있는 클러스터에 속하는 문서들에 대한 문서 링크(532)가 제공된다. 문서 링크(532)는 참조하는 문서의 제목정보를 앵커 텍스트로 표시할 수 있다.
문서 링크(532)는 각 문서에 대한 링크이다. 이 링크를 선택함으로써 사용자는 자신이 탐색하고자 하는 정보를 포함하는 문서의 내용에 접근할 수 있다. 이 경우, 선택된 문서의 컨텐츠는 사용자 단말기(230)에서 새로운 브라우저 창을 생성함으로써 제공될 수 있으며, 도 5 및 도 6와 같은 문서 탐색 서비스 제공화면이 표시된 브라우저 창의 일부 또는 전부를 갱신함으로써도 제공될 수 있다.
사용자는 도 5 및 도 6에서 제공되는 각 영역의 항목을 클릭하는 방법 등으 로 선택함으로써 자신의 탐색 대상을 변경할 수 있다. 이에 대한 응답으로 문서 제공부(215)는 분류 구조 표시 영역(510), 탐색 위치 표시 영역(520) 및 클러스터 표시 영역(530)에 시각화되는 문서에 관한 정보를 제공할 수 있다.
한편, 이러한 사용자들의 문서 탐색 행위에 관한 정보는 사용자 반응 정보로서 반응 정보 데이터베이스(232)에 저장될 수 있다. 이들 사용자 반응 정보에 기초하여 트리 구조 갱신부(217)가 트리 구조를 갱신할 수 있음은 앞서 살펴본 바와 같다.
상술한 화면 구성을 통해 사용자에게 디렉토리 구조 및 클러스터링 구조를 시각적으로 전달함으로써 사용자가 방문하는 버티컬 사이트 및 블로그 등을 개별적으로 방문하지 않으면서도 관심 분야에 대한 정보를 효율적으로 탐색할 수 있으며, 상술한 화면에 대한 사용자의 반응정보 등을 트리 구조에 반영함으로써 트리 구조를 보다 정확하고 효율적이도록 갱신할 수 있다.
도 7은 본 발명의 일 실시예에 따른 광고 표시 영역을 포함하는 문서 탐색 서비스 제공 화면을 예시한 도면이다. 도 7을 참조하면, 분류 표시 영역(500), 분류 구조 표시 영역(510), 탐색 위치 표시 영역(520), 클러스터 표시 영역(530) 및 광고 표시 영역(510)이 도시되어 있다.
광고 표시 영역(710)은 광고 제공부(218)가 사용자 단말기(230)로 제공하는 광고 컨텐츠가 표시되는 영역이다. 광고 표시 영역(710)에는 텍스트 광고 컨텐츠(711) 및 애니메이션 광고 컨텐츠(712)가 표시되어 있다.
텍스트 광고 컨텐츠(711) 및 애니메이션 광고 컨텐츠(712)는 광고주와 관련된 추가적인 정보를 포함하고 있는 사이트로 접속할 수 있는 링크 등을 추가적으로 포함할 수 있다.
광고 표시 영역(710)에 표시되는 되는 광고는, 클릭 횟수에 상응하여 광고 비용이 집행되는 피피씨(PPC, pay per click) 모델 및/또는 노출 횟수에 상응하여 광고 비용이 집행되는 피피브이(PPV, pay per view) 모델 등에 기초하여 운영될 수 있다.
한편, 광고 표시 영역(710)에 표시되는 광고 컨텐츠를 결정하는 요소로서 사용자에 관한 정보 및 사용자가 탐색하는 문서에 관한 정보 등이 고려될 수 있음은 앞서 살펴본 바와 같다.
일 예로, 문서의 주제(분류), 디렉토리, 클러스터 및 문서의 제목에 관한 정보가 광고 컨텐츠 결정 요소로 고려될 수 있다. 도 5를 참조하면, 사용자가 탐색하고 있는 주제는 '와인', 디렉토리는 '와인의 산지', 클러스터는 '보르도'이다. 이러한 정보에 기초하여 '보르도 와인 공동구매 신청'이라는 타이틀을 가진 텍스트 광고 컨텐츠(711)를 제공함으로써 광고의 효과를 최대화 할 수 있다.
한편, 문서 탐색 서비스 제공 방법은 컴퓨터 프로그램으로 작성 가능하다. 상기 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 상기 프로그램은 컴퓨터가 읽을 수 있는 정보저장매체(computer readable media)에 저장되고, 컴퓨터에 의하여 읽 혀지고 실행됨으로써 문서 탐색 서비스 제공 방법을 구현한다. 상기 정보저장매체는 자기 기록매체, 광 기록매체, 및 캐리어 웨이브 매체를 포함한다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
이제까지 본 발명에 대하여 그 실시예를 중심으로 살펴보았다. 전술한 실시예 외의 많은 실시예들이 본 발명의 특허청구범위 내에 존재한다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예는 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으 며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 문서 탐색 서비스 제공 방법의 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 문서 탐색 서비스 제공 시스템의 구성도이다.
도 3은 본 발명의 일 실시예에 따른 갱신 전 문서 트리 구조를 예시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 갱신 후 문서 트리 구조를 예시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 갱신 전 문서 탐색 서비스 제공 화면을 예시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 갱신 후 문서 탐색 서비스 제공 화면을 예시한 도면이다.
도 7은 본 발명의 일 실시예에 따른 광고 표시 영역을 포함하는 문서 탐색 서비스 제공 화면을 예시한 도면이다.
<도면의 주요부분에 대한 부호의 설명>
210: 탐색 서비스 제공 서버 211: 문서 분류부
212: 제목 추출부 213: 클러스터 형성부
214: 디렉토리 매핑부 215: 문서 제공부
216: 반응 정보 획득부 217: 트리 구조 갱신부
218: 광고 제공부
221: 원본 문서 데이터베이스 222: 탐색 서비스 데이터베이스
223: 반응 정보 데이터베이스 224: 광고 데이터베이스
230: 사용자 단말기 240: 트리 구조 형성부
500: 분류 표시 영역 510: 분류 구조 표시 영역
520: 탐색 위치 표시 영역 530: 클러스터 표시 영역
532: 문서 링크 710: 광고 표시 영역
711: 텍스트 광고 컨텐츠 712: 애니메이션 광고 컨텐츠

Claims (18)

  1. 트리 구조로 분류된 문서를 탐색할 수 있는 문서 탐색 서비스를 제공하는 방법으로서,
    상기 문서에 대한 접근 수단을 제공하는 단계;
    상기 접근 수단에 대한 사용자 반응 정보를 획득하는 단계 및
    상기 반응 정보를 고려하여 상기 트리 구조를 갱신하는 단계를 포함하는 문서 탐색 서비스 제공 방법.
  2. 제1항에 있어서,
    상기 접근 수단을 제공하는 단계는
    상기 트리 구조를 시각화하기 위한 수단을 제공하는 것을 특징으로 하는 문서 탐색 서비스 제공 방법.
  3. 제2항에 있어서,
    상기 사용자 반응 정보를 획득하는 단계는
    상기 시각화 수단에 대한 사용자의 반응 정보를 수집하는 것을 특징으로 하는 문서 탐색 서비스 제공 방법.
  4. 제1항에 있어서
    상기 트리 구조를 갱신하는 단계는
    상기 트리 구조에서 사용자의 반응 빈도가 소정 값 이하인 연결을 단절시키는 것을 특징으로 하는 문서 탐색 서비스 제공 방법.
  5. 제1항에 있어서
    상기 트리 구조를 갱신하는 단계는
    상기 문서의 열람자가 입력한 질의어 정보를 더 고려하는 것을 특징으로 하는 문서 탐색 서비스 제공 방법.
  6. 제1항에 있어서, 상기 트리 구조는
    문서를 주제에 따라서 분류하는 단계;
    상기 문서의 제목을 추출하는 단계;
    상기 추출된 제목에 기초하여 클러스터(cluster)를 형성하는 단계 및
    상기 클러스터를 상기 주제에 속하는 소정의 디렉토리에 매핑(mapping)하는 단계를 포함하는 트리 구조 형성 방법에 의하여 형성되는 것을 특징으로 하는 문서 탐색 서비스 제공 방법.
  7. 제6항에 있어서,
    상기 문서는 하나 또는 복수개의 필드를 포함하는 것을 특징으로 하고,
    상기 문서의 제목을 추출하는 단계는 상기 문서를 구성하는 필드의 속성을 고려하여 상기 제목을 추출하는 것을 특징으로 하는 문서 탐색 서비스 제공 방법.
  8. 제6항에 있어서
    상기 클러스터를 형성하는 단계는
    상기 추출된 제목을 음절단위로 구분하여 상기 제목 중에서 다른 문서와 공유되는 부분을 상기 클러스터의 중심개념 후보로 선정하는 것을 특징으로 하는 문서 탐색 서비스 제공 방법.
  9. 제1항 내지 제8항 중 어느 한 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록하는 컴퓨터 판독 가능한 기록매체.
  10. 트리 구조로 분류된 문서를 탐색할 수 있는 문서 탐색 서비스를 제공하는 시스템으로서,
    상기 문서에 대한 접근 수단을 제공하는 문서 제공부;
    상기 접근 수단에 대한 사용자 반응 정보를 획득하는 반응 정보 획득부 및
    상기 반응 정보를 고려하여 상기 트리 구조를 갱신하는 트리 구조 갱신부를 포함하는 문서 탐색 서비스 제공 시스템.
  11. 제10항에 있어서,
    상기 문서 제공부는
    상기 트리 구조를 시각화하기 위한 수단을 제공하는 것을 특징으로 하는 문서 탐색 서비스 제공 시스템.
  12. 제11항에 있어서,
    상기 반응 정보 획득부는
    상기 시각화 수단에 대한 사용자의 반응 정보를 수집하는 것을 특징으로 하는 문서 탐색 서비스 제공 시스템.
  13. 제10항에 있어서
    상기 트리 구조 갱신부는
    상기 트리 구조에서 사용자의 반응 빈도가 소정 값 이하인 연결을 단절시키는 것을 특징으로 하는 문서 탐색 서비스 제공 시스템.
  14. 제10항에 있어서
    상기 트리 구조 갱신부는
    상기 문서의 열람자가 입력한 질의어 정보를 더 고려하는 것을 특징으로 하는 문서 탐색 서비스 제공 시스템.
  15. 제10항에 있어서,
    상기 문서 탐색 서비스 제공 시스템은
    상기 트리구조를 형성하는 트리 구조 형성부를 더 포함하는 것을 특징으로 하는 문서 탐색 서비스 제공 시스템.
  16. 제15항에 있어서,
    상기 트리 구조 형성부는
    상기 문서를 주제에 따라서 분류하는 문서 분류부;
    상기 문서의 제목을 추출하는 제목 추출부;
    상기 추출된 제목에 기초하여 클러스터를 형성하는 클러스터 형성부 및 상기 클러스터를 상기 주제에 속하는 소정의 디렉토리에 매핑하는 디렉토리 매핑부를 포함하는 것을 특징으로 하는 문서 탐색 서비스 제공 시스템.
  17. 제16항에 있어서,
    상기 문서는 하나 또는 복수개의 필드를 포함하는 것을 특징으로 하고,
    상기 제목 추출부는 상기 문서를 구성하는 필드의 속성을 고려하여 상기 제목을 추출하는 것을 특징으로 하는 문서 탐색 서비스 제공 시스템.
  18. 제16항에 있어서
    상기 클러스터 형성부는
    상기 추출된 제목을 음절단위로 구분하여 상기 제목 중에서 다른 문서와 공유되는 부분을 상기 클러스터의 중심개념 후보로 선정하는 것을 특징으로 하는 문서 탐색 서비스 제공 시스템.
KR1020070102231A 2007-10-10 2007-10-10 문서 탐색 서비스 제공 방법 및 시스템 KR100902674B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020070102231A KR100902674B1 (ko) 2007-10-10 2007-10-10 문서 탐색 서비스 제공 방법 및 시스템
JP2008260587A JP2009093659A (ja) 2007-10-10 2008-10-07 文書探索サービス提供方法及びシステム
JP2011114168A JP5313295B2 (ja) 2007-10-10 2011-05-20 文書探索サービス提供方法及びシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070102231A KR100902674B1 (ko) 2007-10-10 2007-10-10 문서 탐색 서비스 제공 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20090036929A true KR20090036929A (ko) 2009-04-15
KR100902674B1 KR100902674B1 (ko) 2009-06-15

Family

ID=40665518

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070102231A KR100902674B1 (ko) 2007-10-10 2007-10-10 문서 탐색 서비스 제공 방법 및 시스템

Country Status (2)

Country Link
JP (2) JP2009093659A (ko)
KR (1) KR100902674B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019112367A1 (ko) * 2017-12-08 2019-06-13 주식회사 사이냅데이터 다중 분류 트리 방식 기반의 정보 관리 방법

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2420262B1 (en) 2010-08-19 2013-04-17 Sorin Group Italia S.r.l. Blood processing unit with modified flow path
JP6386580B2 (ja) 2014-02-28 2018-09-05 ソリン・グループ・イタリア・ソシエタ・ア・レスポンサビリタ・リミタータSorin Group Italia S.r.l. 追加される充填量を最小にする、酸素供給器と一体化される動脈フィルタを提供するためのシステム
US10814056B2 (en) 2014-11-12 2020-10-27 Sorin Group Italia S.R.L. Elastic protection tube for a hollow fiber blood processing apparatus
EP3294368B1 (en) 2015-05-12 2019-06-26 Sorin Group Italia S.r.l. Blood gas exchanger with restriction element or elements to reduce gas exchange
KR102158049B1 (ko) * 2018-11-05 2020-09-21 서강대학교산학협력단 Cf 트리를 활용한 범위 질의 기반의 데이터 클러스터링 장치 및 방법
JP7271987B2 (ja) * 2019-02-14 2023-05-12 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11203319A (ja) * 1998-01-19 1999-07-30 Seiko Epson Corp 文書分類方法および装置並びに文書分類処理プログラムを記録した記録媒体
JP2001147940A (ja) * 1999-11-22 2001-05-29 Toshiba Corp 検索システム及び検索方法
KR100416477B1 (ko) * 2000-12-01 2004-01-31 (주)코어로직스 지능형 문서 관리 장치 및 그 방법
JP2002288189A (ja) * 2001-03-27 2002-10-04 Seiko Epson Corp 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体
JP4756762B2 (ja) * 2001-03-30 2011-08-24 富士通株式会社 変更支援装置及びコンピュータプログラム
KR20030083904A (ko) * 2002-04-23 2003-11-01 엘지전자 주식회사 Xml 문서의 구조정보 처리방법
DE60333238D1 (de) * 2002-06-28 2010-08-12 Nippon Telegraph & Telephone Extrahierung von Information aus strukturierten Dokumenten
JP2007213209A (ja) * 2006-02-08 2007-08-23 Sharp Corp データ管理装置、データ記憶装置、データ管理方法、プログラム、および記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019112367A1 (ko) * 2017-12-08 2019-06-13 주식회사 사이냅데이터 다중 분류 트리 방식 기반의 정보 관리 방법

Also Published As

Publication number Publication date
JP5313295B2 (ja) 2013-10-09
JP2009093659A (ja) 2009-04-30
JP2011154739A (ja) 2011-08-11
KR100902674B1 (ko) 2009-06-15

Similar Documents

Publication Publication Date Title
US11693864B2 (en) Methods of and systems for searching by incorporating user-entered information
JP5608286B2 (ja) 無限ブラウズ
US9390144B2 (en) Objective and subjective ranking of comments
US7912847B2 (en) Comparative web search system and method
JP5238418B2 (ja) 情報推薦装置および情報推薦方法
US8135739B2 (en) Online relevance engine
US20180004850A1 (en) Method for inputting and processing feature word of file content
JP4637969B1 (ja) ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法
US8484179B2 (en) On-demand search result details
KR20070039072A (ko) 검색 엔진에서의 결과물 기반의 광고 개인화
JP5313295B2 (ja) 文書探索サービス提供方法及びシステム
KR20070038146A (ko) 검색 결과에서 배치 내용 정렬의 개인화
Paliouras et al. PNS: A personalized news aggregator on the web
Khan et al. The role of news title for linking during preservation process in digital archives
Kuroiwa et al. Dynamic personalization for book recommendation system using web services and virtual library enhancements
Wang et al. Beyond hyperlinks: organizing information footprints in search logs to support effective browsing
KR100902673B1 (ko) 제목 클러스터링에 기초한 문서 탐색 서비스 제공 방법 및시스템
Wang et al. Search logs as information footprints: Supporting guided navigation for exploratory search
JP2018125016A (ja) 情報処理装置、情報処理方法
Penev Search in personal spaces
JP2006139487A (ja) 情報概要提示装置
Lu Automatic search interface clustering and search result processing in metasearch engine
KR20110023308A (ko) 폭소노미와 링크 기반 랭킹 기법을 이용한 집단지성 기반 웹 페이지 검색 방법 및 이를 수행하기 위한 시스템

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120329

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160329

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20170328

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20190401

Year of fee payment: 11