KR20090120843A - 사용자 웹 사용 정보에 기반한 멀티 컨셉 네트워크 생성시스템 및 방법 - Google Patents

사용자 웹 사용 정보에 기반한 멀티 컨셉 네트워크 생성시스템 및 방법 Download PDF

Info

Publication number
KR20090120843A
KR20090120843A KR1020080046864A KR20080046864A KR20090120843A KR 20090120843 A KR20090120843 A KR 20090120843A KR 1020080046864 A KR1020080046864 A KR 1020080046864A KR 20080046864 A KR20080046864 A KR 20080046864A KR 20090120843 A KR20090120843 A KR 20090120843A
Authority
KR
South Korea
Prior art keywords
web page
web
user
information
concept network
Prior art date
Application number
KR1020080046864A
Other languages
English (en)
Other versions
KR100987330B1 (ko
Inventor
윤태복
윤광호
김재광
이동훈
이지형
Original Assignee
성균관대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 성균관대학교산학협력단 filed Critical 성균관대학교산학협력단
Priority to KR1020080046864A priority Critical patent/KR100987330B1/ko
Priority to US12/388,915 priority patent/US20090292691A1/en
Publication of KR20090120843A publication Critical patent/KR20090120843A/ko
Application granted granted Critical
Publication of KR100987330B1 publication Critical patent/KR100987330B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

다수의 사용자에 의해 이용되는 검색사이트에서 사용되는 키워드 및 웹페이지 정보를 수집하여, 상기 키워드에 대한 멀티 컨셉 네트워크를 생성하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템 및 방법에 관한 것으로서, (a) 상기 사용자가 상기 사이트에서 검색을 하기 위해 입력하는 키워드 및, 상기 키워드 검색결과에 따라 열람하는 웹페이지 정보를 수집하는 단계; (b) 상기 키워드 각각에 대하여, 사용자별로 열람한 웹페이지를 선별하는 단계; (c) 상기 키워드 각각에 대하여, 선별된 상기 웹페이지를 하나의 노드로 만들고, 상기 웹페이지 노드들을 사용자별로 그룹화 하여 일렬로 연결하여 상기 키워드를 중심으로 배열하는 단계; (d) 상기 키워드를 중심으로 배열된 웹페이지 노드의 그룹 간에 유사도를 구하여 상기 유사도가 소정의 기준치보다 높으면, 상기 그룹들을 합쳐 하나의 일렬로 연결된 그룹으로 구성하는 단계를 포함하는 구성을 마련한다.
상기와 같은 시스템 및 방법에 의하면, 사용자 관심 키워드에 대하여 사용자별로 웹페이지 사용정보를 수집하여 웹페이지 연결망을 구성함으로써, 다양한 성향 정보에 따른 웹페이지 연결망을 제공할 수 있다.
멀티 컨셉 네트워크, 웹 추천, 키워드, 웹페이지, 사용자, Multi Concept Network, Web Recommendation, User Modeling

Description

사용자 웹 사용 정보에 기반한 멀티 컨셉 네트워크 생성 시스템 및 방법 { A system and method generating multi-concept networks based on user's web usage data }
본 발명은 다수의 사용자에 의해 이용되는 검색사이트에서 사용되는 키워드 및 웹페이지 정보를 수집하여, 상기 키워드에 대한 멀티 컨셉 네트워크를 생성하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템 및 방법에 관한 것이다.
또, 본 발명은 해당 키워드에 대하여 사용자별로 열람한 웹페이지를 그룹화하여 상기 키워드를 중심으로 배열하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템 및 방법에 관한 것이다.
일반적으로 사용자는 웹을 통해 자신이 원하는 정보를 얻기 위하여 많은 시간과 노력을 들이고 있다. 그러나 소비하는 시간과 노력에 비해 사용자는 만족할 만할 결과를 얻기는 쉽지 않다. 이것은 IT기술의 발달과 함께 웹 정보는 기하급수적으로 증가하여, 대량의 데이터로부터 원하는 정보를 얻기가 어렵기 때문이다.
따라서 상기와 같은 문제를 해결하기 위하여 다양한 연구가 시도되고 있다. 웹 환경에서 사용자가 원하는 정보를 보다 지능적으로 서비스하기 위해서는 크게 웹 콘텐츠 및 구조를 이해하기 위한 연구와 사용자의 웹 사용 정보를 분석하는 방법으로 나뉠 수 있다. 특히 후자의 웹 사용 정보를 분석하여 웹 페이지의 유효성을 측정하는 연구는 데이터 마이닝(Data mining) 기법을 기초로 하여 활발히 진행되고 있다. 상기 연구는 웹 페이지 추천을 위한 기반 기술로서도 매우 유용하게 사용된다.
사용자 관심 키워드에 대하여 적절한 정보 제공을 위한 웹 페이지 추천과 관련된 연구는 아래와 같이 매우 다양한 모습을 보이고 있다. 웹에서 사용자의 활동을 시퀀스로 나타내고 사용자간 유사성을 비교 분석하는 연구[참고문헌 1,2 참조], 사용자의 웹페이지 사용정보를 분석하기 위하여 사용자의 행위 정보를 이용한 웹 페이지 평가 연구[참고문헌 3 참조], 사용자의 웹페이지 경로 정보를 기반으로 기존 사용자의 경로 정보 중 필요한 정보만을 찾아 DB를 생성하고 서비스하는 연구[참고문헌 4 참조], 단순히 하나의 웹 페이지가 아닌 여러 웹 페이지의 연관된 탐험 행위를 조사 분석하는 연구[참고문헌 5 참조] 등이 개시되고 있다.
[참고문헌 1] Chang H. Joh, Theo A. Arentze, Harry J. P. Timmermans, "A position-sensitive sequence alignment method illustrated for space-time activity-diary data, " Environment and Planning A 2001, vol. 33, pages 313~338, 2001.
[참고문헌 2] Birgit Hay, Geert Wets, Koen Vanhoof, "Clustering navigation patterns on a website using a Sequence Alignment Method," Proc. Intelligent Techniques for Web Personalization: 17th Int. Joint Conf. Artificial Intelligence, 2000.
[참고문헌 3] M.M. Sufyan Beg, Nesar Ahmad, "Web search enhancement by mining user actions," Information Sciences vol. 177, pp.5203~5218, 2007.
[참고문헌 4] 강귀영, "사용자 경로 정보를 이용한 웹페이지 추천 시스템" , 이화여자대학교 석사학위 논문, 2001.
[참고문헌 5] Ryen W. White, Steven M. Drucker, "Investigating Behavioral Variability in Web Search," The International World Wide Web Conference 2007.
상기한 바와 같이, 기존의 연구들의 형태는 웹 페이지 사용에 대한 로그 정보를 마이닝하여 패턴을 찾고 웹 사용 정보를 모델링한다. 즉, 기존의 웹 사용 마이닝(Web Usage Mining)을 통한 웹페이지 평가 방법은 다수 사용자의 웹 페이지 사 용 행위를 분석하여 일괄적이고 획일적인 결과를 생성한다.
하지만, 다수 사용자의 다양한 성향이 고려되지 못한 모델 생성으로 제한된 서비스가 제공되는 문제를 가지고 있다. 다수 사용자의 웹 페이지 사용정보는 다양한 성향 정보를 가지고 있으며, 다양한 성향 정보가 반영될 수 있는 분석 방법이 요구된다.
본 발명의 목적은 상술한 바와 같은 문제점을 해결하기 위한 것으로, 다수의 사용자에 의해 이용되는 검색사이트에서 사용되는 키워드 및 웹페이지 정보를 수집하여, 상기 키워드에 대한 멀티 컨셉 네트워크를 생성하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템 및 방법을 제공하는 것이다.
또, 본 발명의 목적은 해당 키워드에 대하여 사용자별로 열람한 웹페이지를 그룹화하여 상기 키워드를 중심으로 배열하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템 및 방법을 제공하는 것이다.
상기 목적을 달성하기 위해 본 발명은 다수의 사용자에 의해 이용되는 검색사이트에서 사용되는 키워드 및 웹페이지 정보를 수집하여, 특정 키워드에 대한 멀티 컨셉 네트워크를 생성하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 방법에 관한 것으로서, (a) 상기 사용자가 상기 사이트에서 검색을 하기 위해 입력하는 키워드 및, 상기 키워드 검색결과에 따라 열람하는 웹페이지 정보를 수집하는 단계; (b) 상기 키워드 각각에 대하여, 사용자별로 열람한 웹페이지를 선별하는 단계; (c) 상기 키워드 각각에 대하여, 선별된 상기 웹페이지를 하나의 노드로 만들고, 상기 웹페이지 노드들을 사용자별로 그룹화 하여 일렬로 연결하여 상기 키워드를 중심으로 배열하는 단계; (d) 상기 키워드를 중심으로 배열된 웹페이지 노드의 그룹 간에 유사도를 구하여 상기 유사도가 소정의 기준치보다 높으면, 상기 그룹들을 합쳐 하나의 일렬로 연결된 그룹으로 구성하는 단계를 포함하는 것을 특징으로 한다.
또, 본 발명은 웹 사용정보 기반 멀티 컨셉 네트워크 생성 방법에 있어서, 상기 (a)단계에서, 상기 수집하는 웹페이지 정보는 웹페이지의 URL을 포함하고, 상기 수집하는 웹페이지 정보는 상기 웹페이지의 평가요소로서, 웹페이지의 사용 시작시간 및 종료시간, 다운로드 유무, 편집명령 사용유무, 즐겨찾기 추가 유무, 웹페이지의 콘텐츠 크기 중 어느 하나 이상을 포함하는 것을 특징으로 한다.
또, 본 발명은 웹 사용정보 기반 멀티 컨셉 네트워크 생성 방법에 있어서, 상기 (b)단계에서, 상기 웹페이지 정보의 평가요소들에 가중치를 부여하여 합한 값을 이용하여 웹페이지의 가중치를 구하고, 상기 웹페이지의 가중치가 소정의 기준을 만족하는 경우에 한하여 상기 웹페이지를 선별하는 것을 특징으로 한다.
또, 본 발명은 웹 사용정보 기반 멀티 컨셉 네트워크 생성 방법에 있어서, 상기 (b)단계에서, 상기 웹페이지 정보의 평가요소들 Attributei ( i = 1, 2, ..., n )에 대하여, 다음 [식 1]에 의하여 구해지는 PageWeight 값을 웹페이지의 가중치로 정하고, 상기 웹페이지의 가중치가 소정의 기준치 이상인 웹페이지들만 선별하는 것을 특징으로 한다.
[식 1]
Figure 112008035847111-PAT00001
또, 본 발명은 웹 사용정보 기반 멀티 컨셉 네트워크 생성 방법에 있어서, 상기 (c)단계에서, 하나의 그룹에 중복되는 웹페이지가 있으면 가장 먼저 열람한 웹페이지로 합치는 것을 특징으로 한다.
또, 본 발명은 웹 사용정보 기반 멀티 컨셉 네트워크 생성 방법에 있어서, 상기 (d)단계에서, 상기 두 그룹이 하나의 그룹이 합쳐지면, 상기 두 그룹에 중복되는 웹페이지는 가장 먼저 열람한 웹페이지로 합치는 것을 특징으로 한다.
또, 본 발명은 웹 사용정보 기반 멀티 컨셉 네트워크 생성 방법에 있어서, 상기 웹페이지가 합쳐지면, 상기 웹페이지의 가중치는 합쳐지는 웹페이지의 가중치들을 합한 값으로 정하는 것을 특징으로 한다.
또, 본 발명은 웹 사용정보 기반 멀티 컨셉 네트워크 생성 방법에 있어서, 상기 (d)단계에서, 두 그룹 간의 유사도는 중복되는 웹페이지의 개수와 중복되지 않는 웹페이지의 개수에 가중치를 곱하여 구해지는 것을 특징으로 한다.
또, 본 발명은 상기 (d)단계에서, 두 그룹 간의 유사도를 [식 2]에 의하여 구하는 것을 특징으로 한다.
[식 2]
Figure 112008035847111-PAT00002
단, S는 두 그룹이 공통으로 포함하는 웹페이지 개수이고, U는 두 그룹이 공통으로 포함하지 않는 웹페이지 개수이고, Ws는 두 그룹이 공통으로 갖는 웹페이지에 대한 가중치이고, Wu은 두 그룹이 공통으로 갖지 않는 웹페이지에 대한 가중치를 의미한다.
또한, 본 발명은 상기 웹 사용정보 기반 멀티 컨셉 네트워크 생성 방법을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
또한, 본 발명은 다수의 사용자에 의해 이용되는 검색사이트에서 사용되는 키워드 및 웹페이지 정보를 수집하여, 특정 키워드에 대한 멀티 컨셉 네트워크를 생성하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템에 관한 것으로서, 상기 사용자가 상기 사이트에서 검색을 하기 위해 입력하는 키워드 및, 상기 키워드 검색결과에 따라 열람하는 웹페이지 정보를 수집하는 웹사용 수집부; 상기 키워드 각각에 대하여, 사용자별로 열람한 웹페이지를 선별하는 페이지 선별부; 상기 키워드 각각에 대하여, 선별된 상기 웹페이지를 하나의 노드로 만들고, 상기 웹페이지 노드들을 사용자별로 그룹화 하여 일렬로 연결하여 상기 키워드를 중심으로 배열하는 연결망 생성부; 상기 키워드를 중심으로 배열된 웹페이지 노드의 그룹 간에 유사도를 구하여 상기 유사도가 소정의 기준치보다 높으면, 상기 그룹들을 합쳐 하나의 일렬로 연결된 그룹으로 구성하는 연결망 정제부를 포함하는 것을 특징으로 한다.
또, 본 발명은 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템에 있어서, 상기 웹사용 수집부에서, 상기 수집하는 웹페이지 정보는 웹페이지의 URL을 포함하고, 상기 수집하는 웹페이지 정보는 상기 웹페이지의 평가요소로서, 웹페이지의 사용 시작시간 및 종료시간, 다운로드 유무, 편집명령 사용유무, 즐겨찾기 추가 유무, 웹페이지의 콘텐츠 크기 중 어느 하나이상을 포함하는 것을 특징으로 한다.
또, 본 발명은 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템에 있어서, 상기 페이지 선별부는, 상기 웹페이지 정보의 평가요소들에 가중치를 부여하여 합한 값을 이용하여 웹페이지의 가중치를 구하고, 상기 웹페이지의 가중치가 소정의 기준을 만족하는 경우에 한하여 상기 웹페이지를 선별하는 것을 특징으로 한다.
또, 본 발명은 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템에 있어서, 상기 페이지 선별부는, 상기 웹페이지 정보의 평가요소들 Attributei ( i = 1, 2, ..., n )에 대하여, 다음 [식 2]에 의하여 구해지는 PageWeight 값을 웹페이지의 가중치로 정하고, 상기 웹페이지의 가중치가 소정의 기준치 이상인 웹페이지들만 선별하는 것을 특징으로 한다.
[식 3]
Figure 112008035847111-PAT00003
또, 본 발명은 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템에 있어서, 상기 연결망 생성부는, 하나의 그룹에 중복되는 웹페이지가 있으면 가장 먼저 열람한 웹페이지로 합치는 것을 특징으로 한다.
또, 본 발명은 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템에 있어서, 상기 연결망 정제부는, 상기 두 그룹이 하나의 그룹이 합쳐지면, 상기 두 그룹에 중복되는 웹페이지는 가장 먼저 열람한 웹페이지로 합치는 것을 특징으로 한다.
또, 본 발명은 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템에 있어서, 상기 웹페이지가 합쳐지면, 상기 웹페이지의 가중치는 합쳐지는 웹페이지의 가중치들을 합한 값으로 정하는 것을 특징으로 한다.
또, 본 발명은 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템에 있어서, 상기 연결망 정제부에서, 두 그룹 간의 유사도는 중복되는 웹페이지의 개수와 중복되지 않는 웹페이지의 개수에 가중치를 곱하여 구해지는 것을 특징으로 한다.
또, 본 발명은 상기 연결망 정제부에서, 두 그룹 간의 유사도를 [식 4]에 의하여 구하는 것을 특징으로 한다.
[식 4]
Figure 112008035847111-PAT00004
단, S는 두 그룹이 공통으로 포함하는 웹페이지 개수이고, U는 두 그룹이 공통으로 포함하지 않는 웹페이지 개수이고, Ws는 두 그룹이 공통으로 갖는 웹페이지에 대한 가중치이고, Wu은 두 그룹이 공통으로 갖지 않는 웹페이지에 대한 가중치를 의미한다.
또한, 본 발명은 제 1항의 방법에 의하여 생성된 멀티 컨셉 네트워크를 이용하여, 검색사이트에서 웹페이지를 검색하는 사용자에게 웹페이지를 추천하는 멀티 컨셉 네트워크를 이용한 웹페이지 추천 방법에 관한 것으로서, (e) 다수의 키워드와 상기 키워드를 중심으로 그룹화되어 배열된 웹페이지 노드들로 구성된 상기 멀티 컨셉 네트워크를 입력받아 저장하는 단계; (f) 사용자가 검색사이트에서 입력하는 키워드 및, 상기 키워드 검색결과에 따라 열람하는 웹페이지 정보를 캡쳐하는 단계; (g) 키워드로 열람한 상기 웹페이지를 선별하는 단계; (h) 상기 선별된 웹페이지들이 상기 멀티 컨셉 네트워크의 동일한 키워드를 중심으로 배열된 웹페이지 노드의 그룹과 연관성이 있는지를 판단하는 단계; (i) 상기 (h)단계에서 연관성이 있는 것으로 판단되면, 상기 웹페이지 노드의 그룹에 속하는 웹페이지들을 상기 사용자에게 추천하는 단계를 포함하는 것을 특징으로 한다.
또, 본 발명은 멀티 컨셉 네트워크를 이용한 웹페이지 추천 방법에 있어서, 상기 (g)단계에서, 상기 웹페이지 정보의 평가요소들에 가중치를 부여하여 합한 값을 이용하여 웹페이지의 가중치를 구하고, 상기 웹페이지의 가중치가 소정의 기준을 만족하는 경우에 한하여 상기 웹페이지를 선별하는 것을 특징으로 한다.
또, 본 발명은 멀티 컨셉 네트워크를 이용한 웹페이지 추천 방법에 있어서, 상기 (h)단계에서, 열람한 웹페이지들과 웹페이지 노드의 그룹 간의 연관도는 중복되는 웹페이지의 개수와 중복되지 않는 웹페이지의 개수에 가중치를 곱하여 구해지고, 상기 연관도가 소정의 기준치 이상이면, 상기 열람한 웹페이지들과 웹페이지 노드의 그룹 간에 연관성이 있는 것으로 판단하는 것을 특징으로 한다.
또한, 본 발명은 제 10항의 시스템에 의하여 생성된 멀티 컨셉 네트워크를 이용하여, 검색사이트에서 웹페이지를 검색하는 사용자에게 웹페이지를 추천하는 멀티 컨셉 네트워크를 이용한 웹페이지 추천 시스템에 관한 것으로서, 다수의 키워드와 상기 키워드를 중심으로 그룹화되어 배열된 웹페이지 노드들로 구성된 멀티 컨셉 네트워크를 입력받아 저장하는 연결망 저장부; 사용자가 검색사이트에서 입력하는 키워드 및, 상기 키워드 검색결과에 따라 열람하는 웹페이지 정보를 캡쳐하는 웹사용 캡쳐부; 상기 키워드로 열람한 웹페이지들이 상기 멀티 컨셉 네트워크의 동일한 키워드를 중심으로 배열된 웹페이지 노드의 그룹과 연관성이 있는지를 판단하는 연관성 판단부; 상기 연관성 판단부에서 연관성이 있는 것으로 판단되면, 상기 웹페이지 노드의 그룹에 속하는 웹페이지 정보들을 상기 사용자에게 추천하는 페이지 추천부를 포함하는 것을 특징으로 한다.
또, 본 발명은 멀티 컨셉 네트워크를 이용한 웹페이지 추천 시스템에 있어서, 상기 연관성 판단부에서, 열람한 웹페이지들과 웹페이지 노드의 그룹 간의 연관도는 중복되는 웹페이지의 개수와 중복되지 않는 웹페이지의 개수에 가중치를 곱하여 구해지고, 상기 연관도가 소정의 기준치 이상이면, 상기 열람한 웹페이지들과 웹페이지 노드의 그룹 간에 연관성이 있는 것으로 판단하는 것을 특징으로 한다.
상술한 바와 같이, 본 발명에 따른 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템 및 방법에 의하면, 사용자 관심 키워드에 대하여 사용자별로 웹페이지 사용정보를 수집하여 웹페이지 연결망을 구성함으로써, 다양한 성향 정보에 따른 웹페이지 연결망을 제공할 수 있는 효과가 얻어진다.
또, 본 발명에 따른 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템 및 방법에 의하면, 관심 키워드에 대하여 사용자가 열람하는 몇 개의 웹페이지로부터 사용자의 성향을 추측하여, 동일한 성향을 가진 다른 사용자가 열람한 웹페이지를 추천할 수 있는 효과가 얻어진다.
이하, 본 발명의 실시를 위한 구체적인 내용을 도면에 따라서 설명한다.
또한, 본 발명을 설명하는데 있어서 동일 부분은 동일 부호를 붙이고, 그 반복 설명은 생략한다.
먼저, 본 발명을 실시하기 위한 전체시스템과 상기 시스템을 통해 생성하고자 하는 멀티 컨셉 네트워크의 개념을 도 1 내지 도 3을 참조하여 설명한다. 도 1은 본 발명을 실시하기 위한 전체 시스템의 구성을 예시한 도면이다. 도 2는 검색사이트에서 키워드를 통해 원하는 정보가 담겨진 웹페이지를 검색하는 일반적인 절차를 설명하는 흐름도이고, 도 3은 본 발명에 따른 멀티 컨셉 네트워크의 일례를 예시한 도면이다.
도 1에서 보는 바와 같이, 일반적으로 사용자(10)는 인터넷 상에서 정보를 얻기 위해서 먼저 검색사이트(20)에 접속한다. 그리고 사용자(10)는 검색사이트(20)에서 찾고자 하는 정보와 관련된 키워드를 입력하여 웹페이지들을 검색한다.
사용자(10)는 검색사이트(20)에 접속시 개인용 컴퓨터(PC), 노트북, 휴대폰, PDA 등 사용자 단말기를 이용한다. 따라서 도 1에서의 도면부호 10은 사용자 단말기를 의미하나, 사용자 단말기 이외에 사용자를 지칭하는 부호로 사용된다. 즉, 상기 도면부호가 사용자를 지칭하는 도면부호로 기재될 때에는 사용자(10)가 사용자 단말기(10)를 이용하여 어떤 작업을 수행하는 의미로 기재된다. 한편, 사용자 단말기(10)는 검색사이트(20)에 접속하여 검색할 수 있는 단말기라면 어느 장치도 해당된다.
검색사이트(20)는 웹페이지를 검색할 수 있는 서비스를 제공하는 일반적인 웹서버를 의미한다. 특히, 상기 검색사이트(20)는 키워드를 입력하여 키워드와 관련된 웹페이지를 검색해주는 웹서버이다. 한편, 검색사이트(20)는 다수의 사용 자(10)들로부터 접속되어 상기 다수의 사용자(10)들에게 검색 서비스를 제공한다.
사용자 단말기(10)와 검색사이트(20)는 인터넷 등 네트워크(16)를 통해 연결된다. 상기 네트워크(16)는 유선 인터넷, 무선 인터넷 등 검색사이트(20)에 접속하여 검색 서비스를 받을 수 있는 네트워크라면 어느 것이라도 무방하다.
본 발명에 따른 멀티 컨셉 네트워크 생성 시스템(40)은 검색사이트(20)에서 사용자(10)가 키워드로 웹페이지를 검색하고 검색된 웹페이지를 열람하는 정보를 수집 또는 캡쳐한다. 상기 시스템(40)은 검색사이트(20)에 상기 정보들을 수집 또는 캡쳐하기 위한 모듈을 설치하거나, 검색사이트(20)의 앞단에 사용자 단말기(10)와의 송수신 정보를 수집 또는 캡쳐할 수 있는 장치를 설치한다. 상기와 같이 웹사이트(40)가 사용자(10)에게 서비스하는 정보를 캡쳐 또는 수집하는 기술은 본 분야에 공지기술이므로 구체적 설명은 생략한다.
다음으로, 일반적인 사용자(10)가 원하는 정보를 찾기 위해 검색사이트(20)에서 검색하는 절차를 도 2를 참조하여 보다 구체적으로 살펴본다.
도 2에서 보는 바와 같이, 먼저 사용자(10)는 검색사이트(20)에 접속하여 원하는 정보와 관련이 있는 키워드를 입력하여 검색사이트(20)에 검색을 요청한다(S1). 검색사이트(20)는 상기 키워드가 포함된 웹페이지들을 검색하여 그 목록을 사용자(10)에게 제공한다(S2). 물론 검색사이트(20)는 상기 키워드가 가장 많은 웹페이지를 우선적으로 보여주는 등 검색결과를 보다 효과적으로 보여주기 위한 나름의 검색 정책들이 있다. 그러나 검색사이트(20)에서 보여주는 검색결과는 대부분 사용자가 원하는 정보에 적확한 웹페이지들을 바로 제시하지는 못한다.
따라서 사용자(10)는 제시받은 웹페이지 목록들을 일일이 검토하여 본인이 원하는 정보가 들어있는 웹페이지를 찾는다(S3). 즉, 사용자(10)는 목록 중에서 원하는 정보가 있을 것 같은 웹페이지 목록을 찾고, 상기 목록을 찾으면 그 웹페이지를 열람한다(S4). 그러나 열람된 웹페이지가 모두 사용자(10)가 원하는 정보를 담고 있지는 않을 것이다. 따라서 사용자(10)는 열람한 웹페이지가 자신이 원하는 정보를 담고 있지 않으면, 바로 빠져나와 다른 웹페이지 목록을 살펴본다(S6).
만약 열람된 페이지에 사용자(10)가 원하는 정보가 담겨져 있으면, 사용자(10)는 상기 웹페이지를 자세히 보기 위해 상기 웹페이지에서 많은 시간을 머물 것이다. 또는 사용자(10)는 상기 웹페이지를 복사하거나 즐겨찾기에 등록하는 등 상기 웹페이지의 정보를 보관하기 위한 작업들을 수행할 것이다(S5).
사용자(10)는 원하는 정보를 찾으면 검색을 종료할 것이다(S7). 그러나 사용자(10)는 원하는 정보를 찾지 못하면 다시 웹페이지 목록을 검토할 것이다(S3). 또 상기 키워드를 통해 검색된 웹페이지 목록에서 원하는 정보를 찾지 못하면, 사용자(10)는 다른 키워드를 입력하여 웹페이지 목록을 갱신할 것이다.
다음으로, 본 발명에 따른 멀티 컨셉 네트워크 생성 시스템(40)이 생성하는 멀티 컨셉 네트워크의 개념을 도 3을 참조하여 설명한다.
본 발명에 따른 멀티 컨셉 네트워크 생성 시스템(40)이 검색사이트(20)에서 수집하는 정보는 사용자(10)가 원하는 정보를 찾기 위해 입력되는 키워드 및 상기 키워드로 찾은 웹페이지들 중 열람한 웹페이지 정보들이다.
그런데 사용자(10)마다 원하는 정보는 서로 다르나 키워드는 동일하게 이용하는 경우가 많다. 예를 들어 "축구"라는 키워드를 이용하여 사용자들이 원하는 정보를 웹에서 검색한다고 가정하자. 어떤 사용자는 축구경기 진행현황에 대한 정보를 얻고자 하는 경우가 있을 것이고, 어떤 경우는 축구선수에 대한 정보를 얻기 위한 경우가 있을 것이다. 또 다른 경우는 축구 용품 등의 구매를 위한 검색이 있을 수 있을 것이다. 이처럼 하나의 키워드에 대하여, 각각의 사용자는 서로 다른 경향의 정보를 얻고자 한다.
즉, 하나의 키워드에 대하여 서로 다른 성향을 갖는다. 이러한 성향을 반영하여 구성하는 모델을 멀티 컨셉 네트워크(Multi Concept Network : MC-Net)라 부르기로 한다. 이것은 사용자간에 배경지식이나 가치관의 차이로 각각의 키워드에 대하여 생각하는 점이 사용자 마다 다르다는 의미를 반영한 표현이다.
다시 말하면, 본 발명에 따른 멀티 컨셉 네트워크 생성 시스템(40)은 사용자의 키워드 중심의 웹 검색 및 웹 사용 로그 정보를 수집하고 분석하여 멀티 컨셉 네트워크(Multi Concept Network : MC-Net)를 생성한다. 멀티 컨셉 네트워크는 사용자 관심 키워드에 대한 의미 있는 웹 페이지들의 연결 형태를 사용자들의 성향에 따라 다르게 표현하는 네트워크이다. 키워드는 다양한 성향 정보를 포함하고 있으며, 각 성향 정보에 따라 다른 웹 페이지 연결망을 가지고 있다. 즉, 멀티 컨셉 네트워크는 사용자의 웹 페이지 사용정보를 분석하여 키워드 기반의 웹 페이지 연결망을 생성하는 것을 의미한다.
앞서 설명한 예를 다시 들면, "축구"라는 키워드에 대하여, 축구경기, 축구선수, 또는 축구용품에 대한 검색이 있다. 상기와 같이, 다수 사용자의 웹 사용 정보를 기반으로 키워드 성향 네트워크를 나타낼 수 있는데, 이 네트워크를 도 3과 같이 표현할 수 있다. 도 3은 사용자 관심 키워드에 대하여 분석과정을 거쳐 생성된 멀티 컨셉 네트워크(MC-Net)의 예이다. 사용자의 관심 키워드에 따라 의미 있는 웹페이지 10개(Web page 1~10)가 수집되었고, 3개(Consept #1~#3)의 성향으로 분류된 모습을 보이고 있다.
상기와 같은 멀티 컨셉 네트워크는 키워드에 대한 다양한 성향 정보를 포함하고 있는 네트워크이므로, 사용자간에 배경지식이나 가치관의 차이로 각각의 키워드에 대하여 생각하는 점이 사용자 마다 다른 것을 표현할 수 있다. 따라서 이를 이용하면, 웹 검색 추천, 키워드 기반 광고, 단어 간 의미 파악 등의 분야에서 유용하게 사용할 수 있다.
다음으로, 본 발명의 일실시예에 따른 웹 사용정보 기반 멀티 컨셉 네트워크 생성 방법을 도 4 내지 도 8을 참조하여 설명한다. 도 4는 본 발명의 일실시예에 따른 웹 사용정보 기반 멀티 컨셉 네트워크 생성 방법을 설명하는 흐름도이다. 도 5 내지 도 8은 상기 도 4의 방법의 각 단계에서 처리되는 일례를 예시한 도면들이다.
도 4에서 보는 바와 같이, 본 발명의 일실시예에 따른 웹 사용정보 기반 멀티 컨셉 네트워크 생성 방법은 (a) 사용자(10)가 검색사이트(20)에서 검색을 하기 위해 입력하는 키워드 및, 상기 키워드 검색결과에 따라 열람하는 웹페이지 정보를 수집하는 단계(S10); (b) 상기 키워드 각각에 대하여, 사용자별로 열람한 웹페이지를 선별하는 단계(S20); (c) 상기 키워드 각각에 대하여, 선별된 상기 웹페이지를 하나의 노드로 만들고, 상기 웹페이지 노드들을 사용자별로 그룹화 하여 일렬로 연결하여 상기 키워드를 중심으로 배열하는 단계(S30); (d) 상기 키워드를 중심으로 배열된 웹페이지 노드의 그룹 간에 유사도를 구하여 상기 유사도가 소정의 기준치보다 높으면, 상기 그룹들을 합쳐 하나의 일렬로 연결된 그룹으로 구성하는 단계(S40)로 구성된다.
상기 (a)단계는 사용자(10)가 검색사이트(20)에서 검색을 하기 위해 입력하는 키워드 및, 상기 키워드 검색결과에 따라 열람하는 웹페이지 정보를 수집하는 단계(S10)이다. 앞서 설명한 바와 같이, 웹 환경에서 사용자(10)들은 자신이 원하는 정보를 얻기 위하여 Google, Yahoo, Naver 등 다양한 검색사이트(20)를 이용하여 웹페이지에 접근한다. 그리고 사용자(10)들은 키워드를 입력하여 웹페이지들을 검색하고 열람한다. 상기 사용자(10)가 입력하는 키워드 및 열람하는 정보들이 수집된다.
도 5a에서 보는 바와 같이, 수집된 정보는 하나의 키워드 "월드컵"에 대하여 열람한 웹페이지들로 구성된다. 특히, 한 사용자가 열람한 웹페이지들을 연결하여 연결망을 형성시킨다. 도 5에서는, 각 사용자들, 즉, 사용자1 내지 사용자5 각각에 대하여 열람한 웹페이지들을 하나로 연결하여 표시한다. 웹페이지는 P1 내지 P9까지로 표시되고 있다. 예를 들면, 사용자 2가 "축구"에 대한 키워드로 열람한 페이 지는 P2와 P3 이고, 사용자 4는 P8, P2 그리고 P9 를 열람한 것이다.
즉, 각 사용자는 동일한 키워드 "축구"을 이용하지만, 각기 검색 목적, 즉, 원하는 정보가 다르다. 즉, 각 사용자가 이용하는 "축구" 키워드에 대한 웹페이지들의 성향이 다르다.
한편, 상기 (a)단계에서, 상기 수집하는 웹페이지 정보는 웹페이지의 URL을 포함하고, 상기 수집하는 웹페이지 정보는 상기 웹페이지의 평가요소로서, 웹페이지의 사용 시작시간 및 종료시간, 다운로드 유무, 편집명령 사용유무, 즐겨찾기 추가 유무, 웹페이지의 콘텐츠 크기 중 어느 하나이상을 포함한다.
사용자(10)가 어떤 키워드를 이용하여 검색하고 특정 웹페이지를 의미 있게 보았다면, 그 정보는 웹 검색 추천을 위한 유용한 정보로 활용될 수 있다. 사용자 관심 키워드, 사용자 ID, 그리고 사용한 웹페이지에서의 사용자(10)의 행위 정보는 웹페이지가 얼마나 사용자(10)에게 유용하게 사용되었는지를 측정할 수 있는 요소들이다. 웹페이지를 사용한 사용자(10)의 수집할 수 있는 행위 정보로는 사용자 ID와 관심 키워드를 기준으로 사용한 웹페이지 URL, 페이지 사용 시작 시간, 웹페이지 사용 종료 시간, 다운로드 유무, Copy & Paste 명령 (Ctrl +C) 유무, 즐겨찾기 추가 유무, 웹 페이지의 컨텐츠 크기 등 다양하다.
상기 (b)단계는 상기 키워드 각각에 대하여, 사용자별로 열람한 웹페이지를 선별하는 단계(S20)이다.
사용자의 관심 키워드에 따른 수집된 웹페이지 사용 로그 정보를 이용하는 분석에 앞서, 전처리(Preprocess)작업이 필요하다. 사용한 웹페이지의 시간이 너무 작다고 하면 사용자가 원하는 내용이 아니라고 판단할 수 있는데, 이런 경우 분석에서 제외시켜야 한다. 또한 웹 로그 수집 과정에서 시스템 오류로 인한 잘못된 데이터도 분석에서 제외시켜야 한다.
예를 들면, 앞서 설명된 도 2에서, 사용자(10)는 검색된 웹페이지 목록을 살펴보고 원하는 정보가 담겨있을 것이라 판단되는 웹페이지를 열람하지만, 실제 열람한 웹페이지에 원하는 정보가 없을 수도 있다. 따라서 이와 같이 열람한 웹페이지들은 제외시켜야 한다. 즉, 실제로 사용자(10)에게 유용했던 웹페이지들만 포함시켜야 한다.
웹 페이지가 사용자에게 얼마나 유용했는가에 대한 정량적 표현을 위하여 웹 페이지 점수(Web Page Scoring) 방법을 이용한다. 여기에서 중요한 것은 점수 산정에 사용되는 각 요소간의 관계가 얼마만큼 상호간에 영향을 미치는가 하는 것이다. 일반적으로 점수는 0~1의 값으로 결정하는데, 각 요소는 가중치 값을 이용하여 중요도를 결정한다. 본 논문에서는 각 요소의 의미를 동등하게 보고 가중치를 부여하였다.
이를 위해, 상기 (b)단계에서, 상기 웹페이지 정보의 평가요소들에 가중치를 부여하여 합한 값을 이용하여 웹페이지를 선별한다. 구체적으로, 상기 (b)단계에서, 상기 웹페이지 정보의 평가요소들 Attributei ( i = 1, 2, ..., n )에 대하여, 다음 [수학식 1]에 의하여 구해지는 PageWeight 값이 소정의 기준치 이상인 웹 페이지들만 선별한다.
Figure 112008035847111-PAT00005
PageWeightj는 사용자가 어떤 키워드를 기반으로 참고한 여러 페이지들 중 j번째 웹 페이지를 나타내며, n은 웹 페이지 평가를 위해 사용되는 요소(시간, 즐겨찾기 유무 등 사용자 웹 행위)의 개수를 의미한다. Attributei는 i번째 요소를 말하며, Ci는 i번째 요소의 가중치(상수)이다.
PageWeightj 는 0에서 1사이의 값을 가지며, 1에 가까울수록 사용자가 의미 있게 본 웹 페이지라고 할 수 있다.
도 5b의 예를 들면, "축구"란 키워드를 이용하여 5명의 사용자로부터 열람된 웹페이지에 대한 정보로부터 PageWeightj를 구한다. 도 5b의 웹페이지 원 아래에 1이하의 숫자들이 PageWeightj들이다. 선별하기 위한 기준치를 0.01로 잡으면, 사용자3의 5(0.002)는 기준치 이하이고, 4(0.34)와 1(0.27)은 기준치 이상이므로, 1과 4만 선별된다.
한편, 도 5a의 사용자4에서는, "축구"에 대한 키워드에 대하여, 8 웹페이지를 2번 열람하게 되는데, 첫 번째 열람한 경우는 PageWeightj 가 0.009로 선별에서 제외되지만, 두 번째 열람한 경우는 PageWeightj 가 0.36로 선별된다. 즉, 사용자(10)가 한 웹페이지를 여러 번 열람하였다면, 상기 열람한 웹페이지의 PageWeightj 중에서 제일 높은 PageWeightj 가 소정의 기준치를 넘으면 상기 웹페이지는 선별된다.
마지막으로, 페이지가중치(PageWeight)가 높은 웹페이지 순으로 키워드에 가까이 연결한다. 도 5b의 마지막 그림에서 보듯이, 사용자 3의 "축구"라는 키워드에 4가 가중치 0.34로 제일 높고, 그 다음이 1이 가중치 0.27로 그 다음이다. 따라서 상기와 같은 가중치의 크기 순으로 키워드 가까이 연결한다.
상기 웹페이지들의 페이지가중치(PageWeight)는 전처리 과정으로서 의미없는 웹페이지를 걸러내는 평가치로서 이용되지만, 사용자가 웹페이지에 얼마나 많은 관심이 있는지에 대한 척도가 되기도 한다. 따라서 상기 페이지가중치(PageWeight) 값은 각 웹페이지 또는 노드의 사용자 관심도의 크기를 표현한 것이고, 상기 웹페이지 그룹에서 그 그룹의 성향을 가장 잘 표현하는 웹페이지로서의 역할 크기를 표현한 것으로 볼 수 있다. 즉, 키워드에 가까이 연결되어 배열된 웹페이지일수록 사용자 관심도가 높은 웹페이지임을 알 수 있다.
도 5c에서 보는 바와 같이, 앞의 과정을 거치면, 각 사용자별로 하나의 키워드에 대하여, 전처리 과정을 거쳐 형성된 키워드 중심으로 웹페이지가 배열된다..
상기 (c)단계는 상기 키워드 각각에 대하여, 선별된 상기 웹페이지를 하나의 노드로 만들고, 상기 웹페이지 노드들을 사용자별로 그룹화 하여 일렬로 연결하여 상기 키워드를 중심으로 배열하는 단계(S30)이다. 특히, 상기 (c)단계에서 시간상 먼저 열람한 웹페이지를 상기 키워드에 더 가까이 연결한다. 또, 상기 (c)단계에서, 하나의 그룹에 중복되는 웹페이지가 있으면 가장 먼저 열람한 웹페이지로 합한다.
즉, 도 5c의 사용자별 키워드에 대한 웹페이지 배열은 도 6과 같이 통합된 키워드 네트워크로 표현할 수 있다. 즉, 키워드를 중심에 두고, 각 사용자별로 상기 키워드에 대하여 열람되고 선별된 웹페이지들을 하나의 그룹으로 연결하여 구성한다. 상기와 같이 구성하면, 도 6에서 보는 바와 같이, 키워드를 중심으로 방사형으로 각 웹페이지들이 연결망 또는 네트워크로 형성된다.
그런데, 도 6과 같이 생성된 네트워크의 경우, 전처리 과정을 거쳐 의미 없는 웹페이지는 제거되었으나, 사용자 개개인에 따른 연결망이 생성되어 복잡하고 거대한 모습을 보이게 된다. 따라서 분석을 통하여 유사한 웹페이지를 참고한 사용자들 간의 통폐합 과정을 거쳐야 한다.
상기 (d)단계는 상기 키워드를 중심으로 배열된 웹페이지 노드의 그룹 간에 유사도를 구하여 상기 유사도가 소정의 기준치보다 높으면, 상기 그룹들을 합쳐 하나의 일렬로 연결된 그룹으로 구성하는 단계(S40)이다. 특히, 상기 (d)단계에서, 두 그룹 간의 유사도는 중복되는 웹페이지의 개수와 중복되지 않는 웹페이지의 개수에 가중치를 곱하여 구한다.
즉, 관심 키워드를 기준으로 단순히 사용자가 참고한 웹 페이지의 그룹을 나열하는 것을 넘어서 유사한 웹 페이지를 참고한 사용자들 간의 함축적인 표현이 가능하다면 생성된 네트워크를 이해하는데 더 도움이 될 것이다. 또한, 만약 n명의 사용자 정보가 수집될 경우 네트워크는 n개의 가지(또는 그룹, Branch)를 가지게 되는데, n이 클수록 네트워크의 관리 및 연산에 드는 비용이 상승하게 된다. 따라서 유사한 경향을 가지는 그룹(또는 가지, 배열)을 합하여 하나의 배열로 만드는 것이 필요하다.
다음 [수학식 2]는 상기 두 그룹의 유사성을 비교하기 위한 수식이다. 즉, 두 그룹의 유사도를 구하는 수식이다.
Figure 112008035847111-PAT00006
S는 두 그룹이 공통으로 포함하는 웹페이지 개수이고, U는 두 그룹이 공통으로 포함하지 않는 웹페이지 개수이다. 또한, Ws는 두 그룹이 공통으로 갖는 웹페이지에 대한 가중치이고, Wu은 두 그룹이 공통으로 갖지 않는 웹페이지에 대한 가중치를 의미한다. 두 그룹의 유사도가 소정의 기준치를 넘으면 통합하게 되고, 웹페이지 가중치는 서로 합하여 하나의 가중치로 만든다.
네트워크의 그룹을 요약정리 하여 합하기 위해서는 먼저 두 사용자 그룹을 선별하고 두 그룹을 비교한다. 도 7에서 도 5c의 사용자 1 내지 사용자 5의 경우를 예를 들어 설명한다. 사용자 1은 웹페이지 P1을 포함하고, 사용자 3은 웹페이지 P4 와 P1을 포함하고, 사용자 5는 P6, P1 웹페이지를 이용하였다.
예를 들어 동일한 경우 가중치 5, 틀릴 때 가중치 1이라고 하면, 도 7a에서 보는 바와 같이, 사용자 1과 사용자 3의 가중치는 (1*5) + (1 * (-1)) = 4이다. 두 웹페이지 그룹을 합칠 것인가 하는 유사도의 기준치를 3으로 잡으면, 상기 사용자 1과 사용자 3은 서로 유사도는 3으로서 기준치를 넘으므로 통합그룹 A로 합친다. 이때, P1의 페이지가중치는 사용자1의 0.2와 사용자 3의 0.27가 합쳐져 0.47이 된다. 따라서 통합그룹 A에서 P1의 페이지가중치가 P4보다 크므로 앞으로 나와 연결된다. 또, 도 7b에서 보는 바와 같이, 사용자 5와 상기 통합그룹 A는 다시 유사도를 구한다. 즉, 사용자 5과 통합그룹 A의 가중치는 (1*5) + (2 * (-1)) = 3이다. 따라서 역시 통합그룹 B로 합치게 된다. 이때도 P1의 페이지 가중치는 사용자 5의 0.07과 통합그룹 A의 0.47이 합쳐져서 0.54가 된다. 통합그룹 B는 P1, P4, P6의 웹페이지로 구성되게 되고 연결순서는 페이지가중치에 따라 도 7b와 같이 연결된다.
한편, 도 5c에서 사용자 2와 사용자 4는 모두 P2를 포함하고 있지만, 양 그룹의 유사도를 구하면 (1*5) + (3 * (-1)) = 2 가 되므로, 유사도가 3미만이므로 합치지 않게 된다.
그림 5c의 웹 페이지 그룹의 유사도를 분석하여 결합하여 도 8과 같이 “축구”라는 키워드에 3개의 성향을 나타내는 멀티 컨셉 네트워크(Multi Concept Network : MC-Net)가 생성되었다.
도 8에서 보는 바와 같이 생성된 멀티 컨셉 네트워크는 키워드에 기반하여 한 가지 성향에 대한 연관 웹페이지 정보만을 가지는 것이 아닌 다양한 성향에 대 한 정보를 표현하는 네트워크 구조를 가진다. 어떤 키워드에 대하여 하나의 의미만을 가진 웹페이지 선별이 아닌, 사용자가 의도한 성향에 적절하게 대응할 수 있는 정보를 포함한다.
다음으로, 본 발명의 일실시예에 따른 멀티 컨셉 네트워크를 이용한 웹페이지 추천 방법을 도 9를 참조하여 설명한다. 도 9는 상기 웹페이지를 추천하는 방법을 설명하는 흐름도이다.
도 9에서 보는 바와 같이, 상기 멀티 컨셉 네트워크를 이용한 웹페이지 추천 방법은 (e) 다수의 키워드와 상기 키워드를 중심으로 그룹화되어 배열된 웹페이지 노드들로 구성된 상기 멀티 컨셉 네트워크를 입력받아 저장하는 단계(S50); (f) 사용자가 검색사이트에서 입력하는 키워드 및, 상기 키워드 검색결과에 따라 열람하는 웹페이지 정보를 캡쳐하는 단계(S60); (g) 키워드로 열람한 상기 웹페이지를 선별하는 단계(S65); (h) 상기 선별된 웹페이지들이 상기 멀티 컨셉 네트워크의 동일한 키워드를 중심으로 배열된 웹페이지 노드의 그룹과 연관성이 있는지를 판단하는 단계(S70); (i) 상기 (h)단계에서 연관성이 있는 것으로 판단되면, 상기 웹페이지 노드의 그룹에 속하는 웹페이지들을 상기 사용자에게 추천하는 단계(S80)로 구성된다.
상기 (e)단계는 앞서 설명된 멀티 컨셉 네트워크를 생성하는 방법으로 구해진 멀티 컨셉 네트워크를 이용하기 위하여 이를 구하여 사전에 저장하는 단계이다(S50).
그리고 사용자(10)가 검색사이트(20)를 검색하는 행위에 대한 정보를 캡쳐한다. 즉, 상기 (f)단계에서 사용자가 검색사이트에서 입력하는 키워드 및, 상기 키워드 검색결과에 따라 열람하는 웹페이지 정보를 캡쳐한다(S60).
상기 (g)단계는 키워드로 열람한 상기 웹페이지를 선별하는 단계(S65)이다. 선별하는 방법은 앞서 멀티 컨셉 네트워크를 생성하는 방법에서 (b)단계의 선별하는 절차와 동일하다.
상기 캡쳐된 웹페이지 정보와 연관성이 있는 멀티 컨셉 네트워크의 웹페이지 그룹을 찾는다. 즉, (h)단계에서 상기 선별된 웹페이지들이 상기 멀티 컨셉 네트워크의 동일한 키워드를 중심으로 배열된 웹페이지 노드의 그룹과 연관성이 있는지를 판단한다(S70). 특히, 상기 (h)단계에서, 열람한 웹페이지들과 웹페이지 노드의 그룹 간의 연관도는 중복되는 웹페이지의 개수와 중복되지 않는 웹페이지의 개수에 가중치를 곱하여 구해지고, 상기 연관도가 소정의 기준치 이상이면, 상기 열람한 웹페이지들과 웹페이지 노드의 그룹 간에 연관성이 있는 것으로 판단한다.
즉, 앞서 사용자(10)가 열람한 페이지들과 저장된 멀티 컨셉 네트워크의 웹페이지들의 그룹 간에 연관도는 앞서 멀티 컨셉 네트워크의 웹페이지들의 그룹간의 유사도와 동일한 방법으로 구한다. 또한, 연관도의 기준치도 유사도의 기준치와 동일하게 정한다.
유사도는 결국 두 웹페이지들 간의 성향이 유사함을 판단하는 것이므로, 사용자(10)가 열람하는 웹페이지의 성향이 유사하면 곧 연관성이 있는 것으로 판단하기 때문이다.
그러나 다른 실시예로서, 상기 연관도에 대한 기준치를 상기 유사도에 대한 기준치에 비해 완화할 수도 있다. 즉, 연관도의 기준치가 유사도에 비해 보다 낮으면, 사용자(10)가 멀티 컨셉 네트워크에 포함된 일부 웹페이지만 열람해도 연관성이 있는 것으로 판단되어 연관된 웹페이지 그룹 내의 다른 웹페이지들이 추천될 것이다. 또, 여러 개의 웹페이지 그룹들이 추천될 수도 있다.
한편, 앞서 연관도를 구하기 위해 대상이 되는 사용자(10)가 열람한 웹페이지들은 모두 전처리가 되어 선별된 웹페이지들이어야 한다. 즉, 앞서 멀티 컨셉 네트워크를 생성하는 과정에서 전처리를 설명한 바와 같이, 사용자(10)가 열람하는 웹페이지들 중 의미 없이 열람하는 웹페이지들은 제외되어야 한다.
상기 (i)단계에서, 상기 (h)단계에서 연관성이 있는 것으로 판단되면, 상기 웹페이지 노드의 그룹에 속하는 웹페이지들을 상기 사용자에게 추천한다(S80). 이때 앞서 웹페이지의 가중치에 따라 높은 가중치인 웹페이지를 우선순위가 높게 추천해줄 수 있다.
도 8의 예를 들면, 만약 사용자가 “축구”이라는 키워드를 이용하여 참고한 페이지가 3과 6이라고 하면, 웹 페이지 10이나 7을 추천할 수 있을 것이다.
다음으로, 본 발명의 일실시예에 따른 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템(30)을 도 10을 참조하여 설명한다. 도 10은 본 발명의 일실시예에 따른 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템의 구성에 대한 블록도이다.
도 10에서 보는 바와 같이, 상기 멀티 컨셉 네트워크 생성 시스템(30)은 웹 사용 수집부(31), 페이지 선별부(32), 연결망 생성부(33), 연결망 정제부(34)를 포함한다.
웹사용 수집부(31)는 상기 사용자가 상기 사이트에서 검색을 하기 위해 입력하는 키워드 및, 상기 키워드 검색결과에 따라 열람하는 웹페이지 정보를 수집한다. 특히, 웹사용 수집부(31)는 상기 수집하는 웹페이지 정보는 웹페이지의 URL을 포함하고, 상기 수집하는 웹페이지 정보는 상기 웹페이지의 평가요소로서, 웹페이지의 사용 시작시간 및 종료시간, 다운로드 유무, 편집명령 사용유무, 즐겨찾기 추가 유무, 웹페이지의 콘텐츠 크기 중 어느 하나이상을 포함한다.
페이지 선별부(32)는 상기 키워드 각각에 대하여, 사용자별로 열람한 웹페이지를 선별한다. 페이지 선별부(32)는 상기 웹페이지 정보의 평가요소들에 가중치를 부여하여 합한 값을 이용하여 웹페이지를 선별한다. 또, 페이지 선별부(32)는 상기 웹페이지 정보의 평가요소들 Attributei ( i = 1, 2, ..., n )에 대하여, 상기 [수학식 1]에 의하여 구해지는 PageWeight 값이 소정의 기준치 이상인 웹페이지들만 선별한다.
연결망 생성부(33)는 상기 키워드 각각에 대하여, 선별된 상기 웹페이지를 하나의 노드로 만들고, 상기 웹페이지 노드들을 사용자별로 그룹화 하여 일렬로 연결하여 상기 키워드를 중심으로 배열한다. 특히, 연결망 생성부(33)는 시간상 먼저 열람한 웹페이지를 상기 키워드에 더 가까이 연결한다. 또, 상기 연결망 생성부(33)는 하나의 그룹에 중복되는 웹페이지가 있으면 가장 먼저 열람한 웹페이지로 합친다.
연결망 정제부(34)는 상기 키워드를 중심으로 배열된 웹페이지 노드의 그룹 간에 유사도를 구하여 상기 유사도가 소정의 기준치보다 높으면, 상기 그룹들을 합쳐 하나의 일렬로 연결된 그룹으로 구성한다. 특히, 연결망 정제부(34)는 두 그룹 간의 유사도는 중복되는 웹페이지의 개수와 중복되지 않는 웹페이지의 개수에 가중치를 곱하여 구한다.
다음으로, 본 발명의 일실시예에 따른 멀티 컨셉 네트워크를 이용한 웹페이지 추천 시스템을 도 11을 참조하여 설명한다. 도 11은 본 발명의 일실시예에 따른 멀티 컨셉 네트워크를 이용한 웹페이지 추천 시스템의 구성에 대한 블록도이다.
도 11에서 보는 바와 같이, 상기 웹페이지 추천 시스템(50)은 생성된 멀티 컨셉 네트워크를 통해 관련 키워드를 추천해주기 위해서, 연결망 저장부(51), 웹사용 캡쳐부(52), 연관성 판단부(53), 페이지 추천부(54)를 포함하여 구성한다.
연결망 저장부(51)는 상기 연결망 정제부에서 구성된, 다수의 키워드와 상기 키워드를 중심으로 그룹화되어 배열된 웹페이지 노드들을 멀티 컨셉 네트워크로 구성하여 저장한다.
웹사용 캡쳐부(52)는 사용자가 검색사이트에서 입력하는 키워드 및, 상기 키워드 검색결과에 따라 열람하는 웹페이지 정보를 캡쳐한다.
연관성 판단부(53)는 상기 키워드로 열람한 웹페이지들이 상기 멀티 컨셉 네트워크의 동일한 키워드를 중심으로 배열된 웹페이지 노드의 그룹과 연관성이 있는 지를 판단한다. 특히, 연관성 판단부(53)는 열람한 웹페이지들과 웹페이지 노드의 그룹 간의 연관도는 중복되는 웹페이지의 개수와 중복되지 않는 웹페이지의 개수에 가중치를 곱하여 구해지고, 상기 연관도가 소정의 기준치 이상이면, 상기 열람한 웹페이지들과 웹페이지 노드의 그룹 간에 연관성이 있는 것으로 판단한다.
페이지 추천부(54)는 상기 연관성 판단부에서 연관성이 있는 것으로 판단되면, 상기 웹페이지 노드의 그룹에 속하는 웹페이지 정보들을 상기 사용자에게 추천한다.
한편, 상기 웹페이지 추천 시스템(50)은 데이터를 저장하기 위하여 데이터베이스(60)를 이용한다. 상기 데이터베이스(60)는 사용자(10)의 캡쳐한 웹사용 정보, 즉, 키워드 및 웹페이지 정보를 저장하는 웹사용정보DB(61)나 연결망DB(62)를 포함할 수 있다. 상기 웹페이지 추천 시스템(50)은 상기 데이터베이스(50)를 별도로 구축할 수도 있지만, 멀티 컨셉 네트워크 생성 시스템(30)에서 사용하는 데이터베이스(40)를 공유하여 이용할 수도 있다.
또한, 상기 웹페이지 추천 시스템(50)과 멀티 컨셉 네트워크 생성 시스템(30)을 별도의 시스템으로 설명하고 있으나, 하나의 시스템으로 구성하여 운영할 수도 있다. 예를 들면, 양 시스템 모두 검색사이트(20)에 설치되어 동시에 결합되어 이용될 수도 있다. 멀티 컨셉 네트워크 시스템(30)은 사용자가 이용하는 키워드 및 웹페이지 정보를 계속 수집하여 멀티 컨셉 네트워크를 지속적으로 갱신하고, 웹페이지 추천 시스템(50)은 갱신된 데이터를 이용하여 사용자(10)에게 웹페이지를 추천해줄 수 있다.
상기 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템에 대한 설명 중 미흡한 부분은 앞서 설명된 웹 사용정보 기반 멀티 컨셉 네트워크 생성 방법에 대한 설명을 참고한다.
앞서, 멀티 컨셉 네트워크를 이용하여 웹페이지를 추천하는 실시예를 설명하였으나, 멀티 컨셉 네트워크를 이용하여 웹페이지 추천이외에도 많은 분야에 적용이 가능하다. 예를 들면, 단어의 시맨틱을 기계적으로 이해할 수 있는 기반 기술에 적용할 수 있다. 두 개의 키워드가 있다고 가정할 때, 두 키워드의 멀티 컨셉 네트워크(MC-Net)가 비슷한 구성을 가지고 있다면, 상기 두 개의 키워드는 연관성이 있다고 할 수 있다. 따라서 두 개의 키워드를 시맨틱으로 연결하여 구성하는 방법이 가능하다.
다음으로, 본 발명의 일실시예에 따라 웹 사용정보 기반 멀티 컨셉 네트워크를 생성하기 위한 실험을 도 12와 도 13을 참조하여 설명한다. 도 12는 본 발명의 일실시예에 따라 웹 사용정보 기반 멀티 컨셉 네트워크를 생성하기 위한 실험에 사용되는 키워드를 도시한 도면이고, 도 13은 도 12의 실험에 따라 생성된 멀티컨셉 네트워크의 결과를 예시한 도면이다.
도 12에서 보는 바와 같이, 본 실험에서는 구글, 야후, 네이버 검색 엔진의 2006년, 2007년 인기 검색 순위 Top 30 에서 게임 및 특정 사이트 검색을 제외한 키워드 20개를 선별하여 사용하였다. 특정사이트(로또, 국세청, EBS 등)를 접속하기 위한 키워드나 게임(서든어택, 던전앤파이터 등)플레이를 목적으로 하여 사용한 키워드의 경우 검색 결과에 대하여 한 번 클릭(One-Click)으로 사용자가 원하는 사이트로 이동하게 된다. 어떤 키워드 대해서 모든 사용자가 원하는 절대적인 한 개의 사이트가 존재한다면, 추천의 의미가 없다고 할 수 있다. 실험대상은 7명을 선발하여 실시하였다. 수집된 데이터를 보면 전체 823개의 웹 페이지를 방문하였고, 이중 의미 없는 웹페이지를 제거하고 451개 웹페이지를 이용하여 멀티 컨셉 네트워크 생성에 사용하였다.
멀티 컨셉 네트워크 생성 방법을 통하여 141개의 그룹을 83개의 그룹으로 결합하였다. 도 13은 멀티 컨셉 네트워크 생성방법을 사용하여 키워드 '연예인 N양'의 네트워크를 표현한 그림이다.
웹페이지 1, 4, 5를 포함하는 집합은 '연예인 N양'의 임신과 이혼에 관한 기사였으며 페이지 8, 2, 9는 '연예인 N양'의 결혼 전 기사, 페이지 3, 6, 10, 7, 2는 '연예인 N양'에 대한 포괄적인 기사였다.
본 발명에 따른 멀티 컨셉 네트워크 생성 방법 및 시스템은 키워드에 대한 다양한 성향 정보를 포함하고 있는 멀티 컨셉 네트워크 생성하는 기술이다. 즉, 사용자의 검색 행위 분석을 통하여 키워드 별로 멀티 컨셉 네트워크를 생성하는 것이 가능하며, 생성된 상기 네트워크는 광고, 웹 페이지 추천, 키워드 의미 분석을 위한 기반 기술로 활용이 가능하다.
이상, 본 발명자에 의해서 이루어진 발명을 상기 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 상기 실시 예에 한정되는 것은 아니고, 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.
본 발명은 키워드에 대한 다양한 성향 정보를 포함하고 있는 웹페이지를 그룹화하여 생성하는 기술에 적용이 가능하다. 특히, 사용자의 검색 행위 분석을 통하여 키워드 별로 웹페이지를 그룹화하여 멀티 컨셉 네트워크를 생성하고, 생성된 상기 네트워크는 광고, 웹 페이지 추천, 키워드 의미 분석을 위한 기반 기술로 활용이 가능하다.
도 1은 본 발명을 실시하기 위한 전체 시스템의 구성을 예시한 도면이다.
도 2는 검색사이트에서 키워드를 통해 원하는 정보가 담겨진 웹페이지를 검색하는 일반적인 절차를 설명하는 흐름도이다.
도 3은 본 발명에 따른 멀티 컨셉 네트워크의 일례를 예시한 도면이다.
도 4는 본 발명의 일실시예에 따른 웹 사용정보 기반 멀티 컨셉 네트워크 생성 방법을 설명하는 흐름도이다.
도 5는 본 발명의 일실시예에 따라 사용자별 열람하는 페이지를 선별하는 일례를 예시한 도면이다.
도 6은 본 발명의 일실시예에 따라 선별된 웹페이지를 키워드 중심으로 배열하는 일례를 예시한 도면이다.
도 7은 본 발명의 일실시예에 따라 키워드 중심으로 배열된 웹페이지 그룹간의 유사도에 따라 합치는 일례를 예시한 도면이다.
도 8은 본 발명의 일실시예에 따라 완성된 멀티 컨셉 네트워크의 일례를 예시한 도면이다.
도 9는 본 발명의 일실시예에 따른 멀티 컨셉 네트워크를 이용한 웹페이지 추천 방법을 설명하는 흐름도이다.
도 10은 본 발명의 일실시예에 따른 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템의 구성에 대한 블록도이다.
도 11은 본 발명의 일실시예에 따른 멀티 컨셉 네트워크를 이용한 웹페이지 추천 시스템의 구성에 대한 블록도이다.
도 12는 본 발명의 일실시예에 따라 웹 사용정보 기반 멀티 컨셉 네트워크를 생성하기 위한 실험에 사용되는 키워드를 도시한 도면이다.
도 13은 도 12의 실험에 따라 생성된 멀티컨셉 네트워크의 결과를 예시한 도면이다.
* 도면의 주요 부분에 대한 부호의 설명 *
10 : 사용자 단말기 16 : 인터넷
20 : 검색 사이트 30 : 멀티 컨셉 네트워크 생성 시스템
31 : 웹사용 수집부 32 : 페이지 선별부
33 : 연결망 생성부 34 : 연결망 정제부
40,60 : 데이터베이스 41,61 : 웹사용 정보DB
42,62 : 연결망DB 50 : 웹페이지 추천 시스템
51 : 연결망 저장부 52 : 웹사용 캡쳐부
53 : 연관성 판단부 54 : 페이지 추천부

Claims (24)

  1. 다수의 사용자에 의해 이용되는 검색사이트에서 사용되는 키워드 및 웹페이지 정보를 수집하여, 특정 키워드에 대한 멀티 컨셉 네트워크를 생성하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 방법에 있어서,
    (a) 상기 사용자가 상기 사이트에서 검색을 하기 위해 입력하는 키워드 및, 상기 키워드 검색결과에 따라 열람하는 웹페이지 정보를 수집하는 단계;
    (b) 상기 키워드 각각에 대하여, 사용자별로 열람한 웹페이지를 선별하는 단계;
    (c) 상기 키워드 각각에 대하여, 선별된 상기 웹페이지를 하나의 노드로 만들고, 상기 웹페이지 노드들을 사용자별로 그룹화 하여 일렬로 연결하여 상기 키워드를 중심으로 배열하는 단계;
    (d) 상기 키워드를 중심으로 배열된 웹페이지 노드의 두 그룹 간에 유사도를 구하여 상기 유사도가 소정의 기준치보다 높으면, 상기 두 그룹들을 합쳐 하나의 일렬로 연결된 그룹으로 구성하는 단계를 포함하는 것을 특징으로 하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 방법.
  2. 제 1항에 있어서, 상기 (a)단계에서,
    상기 수집하는 웹페이지 정보는 웹페이지의 URL을 포함하고,
    상기 수집하는 웹페이지 정보는 상기 웹페이지의 평가요소로서, 웹페이지의 사용 시작시간 및 종료시간, 다운로드 유무, 편집명령 사용유무, 즐겨찾기 추가 유무, 웹페이지의 콘텐츠 크기 중 어느 하나 이상을 포함하는 것을 특징으로 하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 방법.
  3. 제 2항에 있어서, 상기 (b)단계에서,
    상기 웹페이지 정보의 평가요소들에 가중치를 부여하여 합한 값을 이용하여 웹페이지의 가중치를 구하고, 상기 웹페이지의 가중치가 소정의 기준을 만족하는 경우에 한하여 상기 웹페이지를 선별하는 것을 특징으로 하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 방법.
  4. 제 3항에 있어서, 상기 (b)단계에서,
    상기 웹페이지 정보의 평가요소들 Attributei ( i = 1, 2, ..., n )에 대하여, 다음 [식 1]에 의하여 구해지는 PageWeight 값을 웹페이지의 가중치로 정하고, 상기 웹페이지의 가중치가 소정의 기준치 이상인 웹페이지들만 선별하는 것을 특징으로 하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 방법.
    [식 1]
    Figure 112008035847111-PAT00007
  5. 제 3항에 있어서, 상기 (c)단계에서,
    하나의 그룹에 중복되는 웹페이지가 있으면 가장 먼저 열람한 웹페이지로 합치는 것을 특징으로 하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 방법.
  6. 제 3항에 있어서, 상기 (d)단계에서,
    상기 두 그룹이 하나의 그룹이 합쳐지면, 상기 두 그룹에 중복되는 웹페이지는 가장 먼저 열람한 웹페이지로 합치는 것을 특징으로 하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 방법.
  7. 제 5항 또는 제 6항에 있어서,
    상기 웹페이지가 합쳐지면, 상기 웹페이지의 가중치는 합쳐지는 웹페이지의 가중치들을 합한 값으로 정하는 것을 특징으로 하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 방법.
  8. 제 1항에 있어서, 상기 (d)단계에서,
    두 그룹 간의 유사도는 중복되는 웹페이지의 개수와 중복되지 않는 웹페이지의 개수에 가중치를 곱하여 구해지는 것을 특징으로 하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 방법.
  9. 제 8항에 있어서, 상기 (d)단계에서,
    두 그룹 간의 유사도를 [식 2]에 의하여 구하는 것을 특징으로 하는 웹 사용 정보 기반 멀티 컨셉 네트워크 생성 방법.
    [식 2]
    Figure 112008035847111-PAT00008
    단, S는 두 그룹이 공통으로 포함하는 웹페이지 개수이고, U는 두 그룹이 공통으로 포함하지 않는 웹페이지 개수이고, Ws는 두 그룹이 공통으로 갖는 웹페이지에 대한 가중치이고, Wu은 두 그룹이 공통으로 갖지 않는 웹페이지에 대한 가중치를 의미한다.
  10. 다수의 사용자에 의해 이용되는 검색사이트에서 사용되는 키워드 및 웹페이지 정보를 수집하여, 특정 키워드에 대한 멀티 컨셉 네트워크를 생성하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템에 있어서,
    상기 사용자가 상기 사이트에서 검색을 하기 위해 입력하는 키워드 및, 상기 키워드 검색결과에 따라 열람하는 웹페이지 정보를 수집하는 웹사용 수집부;
    상기 키워드 각각에 대하여, 사용자별로 열람한 웹페이지를 선별하는 페이지 선별부;
    상기 키워드 각각에 대하여, 선별된 상기 웹페이지를 하나의 노드로 만들고, 상기 웹페이지 노드들을 사용자별로 그룹화 하여 일렬로 연결하여 상기 키워드를 중심으로 배열하는 연결망 생성부;
    상기 키워드를 중심으로 배열된 웹페이지 노드의 그룹 간에 유사도를 구하여 상기 유사도가 소정의 기준치보다 높으면, 상기 그룹들을 합쳐 하나의 일렬로 연결된 그룹으로 구성하는 연결망 정제부를 포함하는 것을 특징으로 하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템.
  11. 제 10항에 있어서, 상기 웹사용 수집부에서,
    상기 수집하는 웹페이지 정보는 웹페이지의 URL을 포함하고,
    상기 수집하는 웹페이지 정보는 상기 웹페이지의 평가요소로서, 웹페이지의 사용 시작시간 및 종료시간, 다운로드 유무, 편집명령 사용유무, 즐겨찾기 추가 유무, 웹페이지의 콘텐츠 크기 중 어느 하나이상을 포함하는 것을 특징으로 하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템.
  12. 제 11항에 있어서, 상기 페이지 선별부는,
    상기 웹페이지 정보의 평가요소들에 가중치를 부여하여 합한 값을 이용하여 웹페이지의 가중치를 구하고, 상기 웹페이지의 가중치가 소정의 기준을 만족하는 경우에 한하여 상기 웹페이지를 선별하는 것을 특징으로 하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템.
  13. 제 12항에 있어서, 상기 페이지 선별부는,
    상기 웹페이지 정보의 평가요소들 Attributei ( i = 1, 2, ..., n )에 대하여, 다음 [식 2]에 의하여 구해지는 PageWeight 값을 웹페이지의 가중치로 정하고, 상기 웹페이지의 가중치가 소정의 기준치 이상인 웹페이지들만 선별하는 것을 특징으로 하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템.
    [식 3]
    Figure 112008035847111-PAT00009
  14. 제 12항에 있어서, 상기 연결망 생성부는,
    하나의 그룹에 중복되는 웹페이지가 있으면 가장 먼저 열람한 웹페이지로 합치는 것을 특징으로 하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템.
  15. 제 12항에 있어서, 상기 연결망 정제부는,
    상기 두 그룹이 하나의 그룹이 합쳐지면, 상기 두 그룹에 중복되는 웹페이지 는 가장 먼저 열람한 웹페이지로 합치는 것을 특징으로 하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템.
  16. 제 14항 또는 제 15항에 있어서,
    상기 웹페이지가 합쳐지면, 상기 웹페이지의 가중치는 합쳐지는 웹페이지의 가중치들을 합한 값으로 정하는 것을 특징으로 하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템.
  17. 제 10항에 있어서, 상기 연결망 정제부에서,
    두 그룹 간의 유사도는 중복되는 웹페이지의 개수와 중복되지 않는 웹페이지의 개수에 가중치를 곱하여 구해지는 것을 특징으로 하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템.
  18. 제 17항에 있어서, 상기 연결망 정제부는,
    두 그룹 간의 유사도를 [식 4]에 의하여 구하는 것을 특징으로 하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 시스템.
    [식 4]
    Figure 112008035847111-PAT00010
    단, S는 두 그룹이 공통으로 포함하는 웹페이지 개수이고, U는 두 그룹이 공통으로 포함하지 않는 웹페이지 개수이고, Ws는 두 그룹이 공통으로 갖는 웹페이지에 대한 가중치이고, Wu은 두 그룹이 공통으로 갖지 않는 웹페이지에 대한 가중치를 의미한다.
  19. 제 1 항 내지 제 6 항 중 어느 한 항의 웹 사용정보 기반 멀티 컨셉 네트워크 생성 방법을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  20. 제 1항의 방법에 의하여 생성된 멀티 컨셉 네트워크를 이용하여, 검색사이트에서 웹페이지를 검색하는 사용자에게 웹페이지를 추천하는 멀티 컨셉 네트워크를 이용한 웹페이지 추천 방법에 있어서,
    (e) 다수의 키워드와 상기 키워드를 중심으로 그룹화되어 배열된 웹페이지 노드들로 구성된 상기 멀티 컨셉 네트워크를 입력받아 저장하는 단계;
    (f) 사용자가 검색사이트에서 입력하는 키워드 및, 상기 키워드 검색결과에 따라 열람하는 웹페이지 정보를 캡쳐하는 단계;
    (g) 키워드로 열람한 상기 웹페이지를 선별하는 단계;
    (h) 상기 선별된 웹페이지들이 상기 멀티 컨셉 네트워크의 동일한 키워드를 중심으로 배열된 웹페이지 노드의 그룹과 연관성이 있는지를 판단하는 단계;
    (i) 상기 (h)단계에서 연관성이 있는 것으로 판단되면, 상기 웹페이지 노드의 그룹에 속하는 웹페이지들을 상기 사용자에게 추천하는 단계를 포함하는 것을 특징으로 하는 멀티 컨셉 네트워크를 이용한 웹페이지 추천 방법.
  21. 제 20항에 있어서, 상기 (g)단계에서,
    상기 웹페이지 정보의 평가요소들에 가중치를 부여하여 합한 값을 이용하여 웹페이지의 가중치를 구하고, 상기 웹페이지의 가중치가 소정의 기준을 만족하는 경우에 한하여 상기 웹페이지를 선별하는 것을 특징으로 하는 웹 사용정보 기반 멀티 컨셉 네트워크 생성 방법.
  22. 제 20항에 있어서, 상기 (h)단계에서,
    열람한 웹페이지들과 웹페이지 노드의 그룹 간의 연관도는 중복되는 웹페이지의 개수와 중복되지 않는 웹페이지의 개수에 가중치를 곱하여 구해지고,
    상기 연관도가 소정의 기준치 이상이면, 상기 열람한 웹페이지들과 웹페이지 노드의 그룹 간에 연관성이 있는 것으로 판단하는 것을 특징으로 하는 멀티 컨셉 네트워크를 이용한 웹페이지 추천 방법.
  23. 제 10항의 시스템에 의하여 생성된 멀티 컨셉 네트워크를 이용하여, 검색사이트에서 웹페이지를 검색하는 사용자에게 웹페이지를 추천하는 멀티 컨셉 네트워크를 이용한 웹페이지 추천 시스템에 있어서,
    다수의 키워드와 상기 키워드를 중심으로 그룹화되어 배열된 웹페이지 노드들로 구성된 멀티 컨셉 네트워크를 입력받아 저장하는 연결망 저장부;
    사용자가 검색사이트에서 입력하는 키워드 및, 상기 키워드 검색결과에 따라 열람하는 웹페이지 정보를 캡쳐하는 웹사용 캡쳐부;
    상기 키워드로 열람한 웹페이지들이 상기 멀티 컨셉 네트워크의 동일한 키워드를 중심으로 배열된 웹페이지 노드의 그룹과 연관성이 있는지를 판단하는 연관성 판단부;
    상기 연관성 판단부에서 연관성이 있는 것으로 판단되면, 상기 웹페이지 노드의 그룹에 속하는 웹페이지 정보들을 상기 사용자에게 추천하는 페이지 추천부를 포함하는 것을 특징으로 하는 멀티 컨셉 네트워크를 이용한 웹페이지 추천 시스템.
  24. 제 23항에 있어서, 상기 연관성 판단부에서,
    열람한 웹페이지들과 웹페이지 노드의 그룹 간의 연관도는 중복되는 웹페이 지의 개수와 중복되지 않는 웹페이지의 개수에 가중치를 곱하여 구해지고,
    상기 연관도가 소정의 기준치 이상이면, 상기 열람한 웹페이지들과 웹페이지 노드의 그룹 간에 연관성이 있는 것으로 판단하는 것을 특징으로 하는 멀티 컨셉 네트워크를 이용한 웹페이지 추천 시스템.
KR1020080046864A 2008-05-21 2008-05-21 사용자 웹 사용 정보에 기반한 멀티 컨셉 네트워크 생성시스템 및 방법 KR100987330B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020080046864A KR100987330B1 (ko) 2008-05-21 2008-05-21 사용자 웹 사용 정보에 기반한 멀티 컨셉 네트워크 생성시스템 및 방법
US12/388,915 US20090292691A1 (en) 2008-05-21 2009-02-19 System and Method for Building Multi-Concept Network Based on User's Web Usage Data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080046864A KR100987330B1 (ko) 2008-05-21 2008-05-21 사용자 웹 사용 정보에 기반한 멀티 컨셉 네트워크 생성시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20090120843A true KR20090120843A (ko) 2009-11-25
KR100987330B1 KR100987330B1 (ko) 2010-10-13

Family

ID=41342824

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080046864A KR100987330B1 (ko) 2008-05-21 2008-05-21 사용자 웹 사용 정보에 기반한 멀티 컨셉 네트워크 생성시스템 및 방법

Country Status (2)

Country Link
US (1) US20090292691A1 (ko)
KR (1) KR100987330B1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140154657A1 (en) * 2012-11-02 2014-06-05 Coursesmart Llc System and method for assessing a user's engagement with digital resources
US20160035230A1 (en) * 2009-08-07 2016-02-04 Vital Source Technologies, Inc. Assessing a user's engagement with digital resources
KR101348670B1 (ko) * 2012-03-22 2014-02-14 신동헌 지식구조화 기반의 소셜 네트워크 서비스 제공 시스템 및 방법
CN103365842B (zh) * 2012-03-26 2016-08-24 阿里巴巴集团控股有限公司 一种页面浏览推荐方法及装置
JP2014232907A (ja) * 2013-05-28 2014-12-11 雄太 安藤 現在位置に基づくサイトページを所望条件順に携帯端末に表示する方法及びシステム
CN104391955B (zh) * 2014-11-27 2018-02-23 北京国双科技有限公司 网页相关性检测方法及装置
CN110442766A (zh) * 2019-07-11 2019-11-12 新华三大数据技术有限公司 网页数据采集方法、装置、设备及存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6061700A (en) * 1997-08-08 2000-05-09 International Business Machines Corporation Apparatus and method for formatting a web page
US20030069873A1 (en) * 1998-11-18 2003-04-10 Kevin L. Fox Multiple engine information retrieval and visualization system
US6941321B2 (en) * 1999-01-26 2005-09-06 Xerox Corporation System and method for identifying similarities among objects in a collection
AU4954200A (en) * 1999-06-04 2000-12-28 Seiko Epson Corporation Document sorting method, document sorter, and recorded medium on which document sorting program is recorded
AUPR208000A0 (en) * 2000-12-15 2001-01-11 80-20 Software Pty Limited Method of document searching
US7356530B2 (en) * 2001-01-10 2008-04-08 Looksmart, Ltd. Systems and methods of retrieving relevant information
US20030020749A1 (en) * 2001-07-10 2003-01-30 Suhayya Abu-Hakima Concept-based message/document viewer for electronic communications and internet searching
US7028027B1 (en) * 2002-09-17 2006-04-11 Yahoo! Inc. Associating documents with classifications and ranking documents based on classification weights
US7373612B2 (en) * 2002-10-21 2008-05-13 Battelle Memorial Institute Multidimensional structured data visualization method and apparatus, text visualization method and apparatus, method and apparatus for visualizing and graphically navigating the world wide web, method and apparatus for visualizing hierarchies
KR20040049498A (ko) * 2002-12-06 2004-06-12 주식회사 데이터씽크 웹 및 클라이언트를 활용한 실시간 통계분석 컨텐츠 제공방법
US7194466B2 (en) * 2003-05-01 2007-03-20 Microsoft Corporation Object clustering using inter-layer links
US7406459B2 (en) * 2003-05-01 2008-07-29 Microsoft Corporation Concept network
JP2005122683A (ja) 2003-09-22 2005-05-12 Nippon Telegr & Teleph Corp <Ntt> 情報提供方法及びシステム及び情報提供プログラム
US7493322B2 (en) * 2003-10-15 2009-02-17 Xerox Corporation System and method for computing a measure of similarity between documents
US20060047649A1 (en) * 2003-12-29 2006-03-02 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
US7343374B2 (en) * 2004-03-29 2008-03-11 Yahoo! Inc. Computation of page authority weights using personalized bookmarks
WO2005107405A2 (en) * 2004-05-04 2005-11-17 Boston Consulting Group, Inc. Method and apparatus for selecting, analyzing and visualizing related database records as a network
US8078607B2 (en) * 2006-03-30 2011-12-13 Google Inc. Generating website profiles based on queries from webistes and user activities on the search results
US7475072B1 (en) * 2005-09-26 2009-01-06 Quintura, Inc. Context-based search visualization and context management using neural networks
GB0613197D0 (en) * 2006-07-01 2006-08-09 Ibm An improved method and system for finding the focus of a document
KR20080024712A (ko) * 2006-09-14 2008-03-19 삼성전자주식회사 사용자의 검색 히스토리를 이용한 모바일 정보 검색 방법,분류 방법 및 정보 검색 시스템
US8055664B2 (en) * 2007-05-01 2011-11-08 Google Inc. Inferring user interests

Also Published As

Publication number Publication date
US20090292691A1 (en) 2009-11-26
KR100987330B1 (ko) 2010-10-13

Similar Documents

Publication Publication Date Title
US9652537B2 (en) Identifying terms associated with queries
Li et al. Combining usage, content, and structure data to improve web site recommendation
Berendt et al. Analysis of navigation behaviour in web sites integrating multiple information systems
KR101532715B1 (ko) 서치 결과를 향상시키기 위해 사용자로부터의 피드백을 적용하는 서치 엔진
US9158854B2 (en) Methods for organizing information accessed through a web browser
Chen et al. Facilitating effective user navigation through website structure improvement
US20060155751A1 (en) System and method for document analysis, processing and information extraction
US20100274753A1 (en) Methods for filtering data and filling in missing data using nonlinear inference
US20060004753A1 (en) System and method for document analysis, processing and information extraction
Leake et al. Aiding knowledge capture by searching for extensions of knowledge models
US20090024946A1 (en) Techniques for Organizing Information Accessed Through a Web Browser
KR100987330B1 (ko) 사용자 웹 사용 정보에 기반한 멀티 컨셉 네트워크 생성시스템 및 방법
KR100859918B1 (ko) 사용자 피드백을 이용하여 검색된 컨텐츠를 평가하고 평가결과를 이용하여 검색 결과를 제공하는 방법 및 장치
Jiang et al. A clickstream data analysis of Chinese academic library OPAC users' information behavior
US20100031178A1 (en) Computer system, information collection support device, and method for supporting information collection
KR100557874B1 (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
Cheng et al. Context-based page unit recommendation for web-based sensemaking tasks
JP2014102625A (ja) 情報検索システム、プログラム、および方法
Murata Visualizing the structure of web communities based on data acquired from a search engine
Li et al. Using distinctive information channels for a mission-based Web recommender system
KR20140056685A (ko) 인디케이터를 이용한 정보 관리 장치
Bokhari et al. Retrieval effectiveness of news search engines: a theoretical framework
Bonnel et al. A Framework to Evaluate Interface Suitability for a Given Scenario of Textual Information Retrieval.
Alli Result Page Generation for Web Searching: Emerging Research and
Jenifer et al. Web mining overview, taxonomy, literature survey: a review

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee