KR20030078813A - 인터넷 검색 엔진 - Google Patents

인터넷 검색 엔진 Download PDF

Info

Publication number
KR20030078813A
KR20030078813A KR1020030046310A KR20030046310A KR20030078813A KR 20030078813 A KR20030078813 A KR 20030078813A KR 1020030046310 A KR1020030046310 A KR 1020030046310A KR 20030046310 A KR20030046310 A KR 20030046310A KR 20030078813 A KR20030078813 A KR 20030078813A
Authority
KR
South Korea
Prior art keywords
user
propensity
information
exposure
search
Prior art date
Application number
KR1020030046310A
Other languages
English (en)
Inventor
김일
Original Assignee
김일
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김일 filed Critical 김일
Priority to KR1020030046310A priority Critical patent/KR20030078813A/ko
Publication of KR20030078813A publication Critical patent/KR20030078813A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명은 인터넷 이용자가 인터넷 검색 엔진에 접속하여 검색할 때, 이용자의 성향에 따른 맞춤 검색 결과를 제공하는 인터넷 검색 엔진 장치에 관한 것으로,
인터넷 검색 엔진의 인덱스 데이터베이스를 구축하기 위하여, (1)웹로봇을 이용하여 웹페이지를 수집하는 단계; (2)수집된 웹페이지의 노출크기, 웹페이지 내에 포함된 하이퍼링크 및 이미지 등의 웹컨텐츠에 대한 노출위치 및 노출크기를 분석하는 단계; (3)노출분석에 의하여 웹페이지의 노출지수를 계산하는 단계; (4)웹페이지에 대하여 형태소를 분석하는 단계; (5)형태소 분석의 결과와 노출지수를 이용하여 인덱스 데이터베이스를 구축하는 단계와,
인터넷 검색 엔진을 이용하는 이용자의 성향 데이터베이스를 구축하기 위하여, (1)상기 이용자의 성향 정보를 분석하기 위해 검색 엔진과 인터넷 홈페이지에 이용자의 성향을 분석할 수 있는 프로그램을 설치하는 단계; (2)성향 분석 프로그램이 설치된 홈페이지를 본 발명에 의한 검색 엔진에서 정보를 검색하여 홈페이지를 방문하였을 경우, 참조 로그를 이용하여 해당 이용자의 홈페이지 이용 정보를 수집하는 단계; (3)이용자의 홈페이지 이용 정보를 분석하여 개인별 성향 정보를 분석하여 저장하는 단계; (4)이용자의 이용 정보 중 웹페이지 방문수, 북마크 등록수 등의 인기도를 분석하여 데이터베이스를 갱신하는 단계,
이용자가 인터넷 검색 엔진을 이용하는 단계에서, (1)이용자가 검색 엔진에 접속하여 검색어를 입력하는 단계; (2)이용자가 입력한 검색어에 대한 결과를 추출하기 위하여 상기 이용자의 성향을 적재하는 단계; (3)이용자가 입력한 검색어에 대하여 이용자의 성향에 맞는 웹페이지를 추출하는 단계; (4)추출된 웹페이지를 유사도, 방문 인기도, 노출지수 등에 따라서 검색 결과를 재배열하고 이용자에게 제시하는 단계를 포함하는 것을 특징으로 한다.

Description

인터넷 검색 엔진{ Internet Search Engine }
본 발명은 인터넷상의 웹페이지 검색 분야에 관한 것으로, 웹페이지가 인터넷 이용자에게 노출되는 정도를 분석하고 검색 엔진 이용자의 성향에 따른 검색 결과를 제공하는 개인화된 인터넷 검색 장치에 관한 것이다.
종래의 검색 방법은 검색 로봇을 이용하여 인터넷상의 자료를 찾아 분류하여 데이터베이스화하고, 이용자가 찾고자하는 검색어를 입력하면 구축된 데이터베이스를 검색하여 입력된 검색어와 매칭되는 사이트나 웹페이지 정보를 제공하거나 이용자에게 검색 업체가 구축한 분류 트리를 제시하여 이용자 자신이 분류 트리를 따라 내려가며 자신이 원하는 사이트나 웹페이지를 탐색하는 방식을 제공하고 있다.
웹페이지에 대한 인기도를 분석하는 방법에 있어서, 웹페이지로 연결된 링크의 수를 이용하거나, 검색 결과에 제시된 항목 중 이용자가 클릭한 횟수를 이용하거나, 컴퓨터의 캐시 내에 저장되어 있는 탐색 정보를 수집하여 이용하거나, 툴바와 같은 프로그램을 이용하여 인기도를 결정하는 방법을 사용한다.
상기와 같은 인기도 결정 방법에 있어서, 웹페이지로 연결된 링크의 수를 이용하여 분석하는 경우에는 웹페이지로 연결된 링크의 노출위치, 또는 노출크기에 따라 현저하게 차이가 난다. 그러나 현재의 분석 방법은 노출위치와 노출크기를 고려하지 않고 있다.
검색 엔진 이용자의 탐색 정보를 수집하여 분석하는 방법에 있어서, 검색 결과로 제시된 웹페이지를 클릭한 횟수를 측정하는 방법과 이용자 컴퓨터의 캐시 내에 저장되어 있는 탐색 정보를 수집하거나, 툴바와 같은 프로그램을 이용하여 탐색 정보를 수집하는 방법을 사용하고 있다. 툴바와 같은 프로그램을 이용하는 경우에 해당 프로그램의 오류로 인하여 웹브라우저의 사용을 불편하게 하는 등 많은 불편이 야기되고 있으며, 툴바와 같은 탐색 정보를 수집하는 프로그램이 설치된 이용자에 한하여만 분석이 가능하다.
개인화된 검색을 제공하는 방법에 있어서, 검색 엔진을 이용할 때 사용된 검색어를 이용하고 있지만, 검색 엔진에서 제시된 결과 중 유용한 사이트를 발견하게 되면 사이트를 북마크하고 다음 접속부터는 직접 사이트를 접속하게 되는 서치갭 현상이 발생하게 됨으로 인하여 검색 엔진에서 사용된 검색어를 분석하여 개인화된 정보 검색 결과를 제공하는데 있어서 정확도가 떨어지는 단점이 발생하게 된다.
따라서, 툴바나 컴퓨터의 캐시 정보로 수집된 이용자의 탐색 정보를 분석하여 개인화를 진행하는 것이 필수적이다. 하지만 이러한 방법은 이용자가 해당 프로그램을 설치하여야만 가능한 것으로 검색 엔진의 이용 정보만을 이용하여 개인화된 서비스를 실시하기에는 한계가 따른다.
개인화된 검색 결과를 제공하는데 있어서 상기에 제시된 문제점을 해결하기 위하여, 본 발명이 이루고자 하는 기술적 과제는 웹페이지의 노출지수를 분석하여 데이터베이스를 구축하는 방법에 있어서, 인터넷상의 웹페이지에 대한 노출크기 및 웹페이지로 연결된 하이퍼링크에 대한 노출위치 및 노출크기를 분석하여 링크의 노출지수를 분석하는 프로그램과 검색 엔진을 이용하는 이용자의 성향을 분석하는 방법에 있어서, 검색 엔진 장치에는 검색어를 입력하여 웹페이지를 검색한 이용자에 대하여 이용자가 남긴 로그 파일을 분석하여 검색 엔진에서의 이용자 성향과 홈페이지에서의 이용자 성향을 분석할 수 있는 프로그램과 홈페이지에는 검색 엔진을 통하여 홈페이지를 방문한 이용자에 대하여 참조 경로를 이용하여 해당 검색 엔진의 성향 분석 프로그램과 해당 웹페이지의 인기도를 분석하여 이용자의 성향 정보를 제공하는 프로그램과 검색 엔진에서 개인화 검색 결과를 제공함에 있어서, 상기 성향 정보와 노출 정보를 이용하여 검색 엔진 이용자에게 맞춤 검색 결과를 제시하는 검색 프로그램을 구비하는 것이 바람직하다.
도 1은 본 발명에 따른 인테넷 검색 엔진 장치를 구성하는 시스템의 구성과 작용에 따른 도면이다.
도 2는 본 발명에 따른 인터넷 검색 엔진 장치에서 웹페이지를 수집하여 노출지수를 분석하고 웹페이지를 인덱싱하는 인덱스 서버 시스템의 구성과 작용에 따른 도면이다.
도 3은 본 발명에 따른 인덱싱 과정 중 웹컨텐츠에 대한 노출위치 및 노출크기 분석에 대한 흐름도를 나타내는 도면이다.
도 4는 본 발명에 따른 인터넷 검색 엔진 장치를 이용하여 웹페이지를 탐색할 때 이용자가 이용한 정보가 로그 파일에 기록되는 예에 대한 도면이다.
도 5는 본 발명에 따른 인터넷 검색 엔진 장치를 이용하는 이용자의 성향을 분석하기 위한 성향 분석 시스템 사이의 상호 작용에 따른 도면이다.
도 6은 본 발명에 따른 인터넷 검색 엔진 장치의 성향 분석 시스템의 구성과 작용에 따른 도면이다.
도 7은 본 발명에 따른 인터넷 검색 엔진을 이용하여 방문한 이용자에 대한 성향 정보를 요청하기 위하여 로그 파일을 분석한 후에 참조 경로를 이용하여 검색엔진의 성향 분석 시스템에 성향 정보를 요청하는 흐름도를 나타낸다.
도 8은 본 발명에 따른 인터넷 검색 엔진 장치에서 참조 경로를 이용하여 홈페이지를 방문한 이용자의 성향 정보 요청 서비스를 수행하기 위하여 검색 엔진의 성향 분석 시스템이 성향 정보를 제공하는 흐름도를 나타낸다.
도 9는 인터넷 이용자가 인터넷을 탐색할 때, 탐색중인 홈페이지에 관심이 많거나 유용한 정보가 있을 때, 홈페이지를 재방문하기 위해 북마크를 하는 행동을 나타낸 것이다.
도 10은 본 발명에 따른 인터넷 검색 엔진 장치에서 웹페이지에 연결된 링크의 노출위치 및 노출크기를 이용하여 링크 인기도를 계산하기 위한 링크 구조를 나타내는 도면이다.
도 11은 도 3의 흐름도를 구현한 예로, 인터넷에서 제공되는 웹페이지를 다운로드하여 웹브라우저와 동일하게 표현한 후, 웹페이지 내부에 포함된 웹컨텐츠에 대하여 노출위치 및 노출크기를 분석하는 화면이다.
도 12는 본 발명에서 제공하는 인터넷 검색 엔진의 일실시 예를 나타내는 도면으로, 이용자의 성향에 따른 맞춤 검색 결과를 제시하는 단계에 대한 흐름도이다.
도 13은 도 12에 의한 맞춤 검색 결과에 대한 예시로 웹페이지의 노출크기, 파일크기, 다운로드 파일크기, 데드링크 분석, 링크 노출 분석 등의 결과를 제시하는 화면이다.
도 14는 도 13에 제시된 맞춤 검색 결과 중 웹페이지에 대한 웹컨텐츠의 노출위치, 노출크기 등의 웹페이지에 대한 링크 노출 분석 화면이다.
도 15는 도 13에 제시된 맞춤 검색 결과 중 이미지, 자바애플릿, 플래시 등의 웹컨텐츠에 대한 웹컨텐츠의 노출위치, 노출크기 등의 웹컨텐츠에 대한 링크 노출 분석 화면이다.
상기의 기술적 과제를 이루기 위하여 본 발명에 따른 인터넷 검색 엔진은 노출 분석에 의한 인덱스 데이터베이스를 구축하는 방법과 로그 파일을 이용하여 검색 엔진 이용자의 성향을 분석한 후 참조 경로를 이용하여 이용자의 성향 정보를제공하는 방법과 개인화된 검색 결과를 제공하기 위하여 이용자의 성향 정보와 웹페이지의 노출지수를 이용하여 이용자에게 맞는 맞춤 검색 결과를 제공하는 방법을 포함하여 구성된다.
인덱스 데이터베이스를 구축하는 방법은 (1)웹로봇을 이용하여 웹페이지를 수집하는 단계; (2)수집된 웹페이지의 노출크기와 웹페이지로 연결된 하이퍼링크의 노출위치 및 노출크기에 대한 분석을 실시하는 단계; (3)노출분석에 의하여 웹페이지의 노출지수를 계산하는 단계; (4)웹페이지에 대하여 형태소를 분석하는 단계; (5)형태소 분석의 결과와 노출지수를 이용하여 인덱스 데이터베이스를 구축하는 단계를 포함한다.
인터넷 검색 엔진 이용자에 대한 성향 데이터베이스 구축 방법은 (1)상기 이용자의 성향 정보를 분석하기 위해 인터넷 홈페이지에서 생성된 로그 파일을 이용하여 이용자의 성향을 분석할 수 있는 프로그램을 설치하는 단계; (2)성향 분석 프로그램이 설치된 홈페이지를 본 발명에 의한 검색 엔진에서 정보를 검색하여 방문하였을 경우, 참조 로그를 이용하여 해당 이용자의 홈페이지 이용 정보를 수집하는 단계; (3)이용자의 홈페이지 이용 정보를 분석하여 개인별 성향 정보를 분석하여 저장하는 단계; (4)이용자의 이용 정보 중 웹페이지 방문수, 북마크 등록 여부 등의 분석을 통하여 웹페이지의 인기도를 분석하여 데이터베이스를 갱신하는 단계를 포함한다.
인터넷 검색 엔진 이용자에게 맞춤 검색 결과를 제공하는 방법은 (1)상기 이용자가 검색 엔진에 접속하여 검색어를 입력하는 단계; (2)이용자가 입력한 검색어에 대한 결과를 추출하기 위하여 상기 이용자의 성향을 적재하는 단계; (3)이용자가 입력한 검색어와 이용자의 성향에 맞는 웹페이지를 추출하는 단계; (4)추출된 웹페이지를 유사도, 방문인기도, 노출지수 등에 따라서 검색 결과를 재배열하고 이용자에게 제시하는 단계를 포함한다.
이하에서, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예에 대하여 상세히 설명한다.
도 1은 본 발명의 실시 예에 따른 인터넷 검색 엔진 장치를 구성하는 시스템의 구성과 작용에 따른 개념도를 나타낸 것이다.
S101은 인터넷상의 운영되는 웹서버(W1-Wn)를 방문하여 웹서버에서 서비스되는 웹페이지를 수집하여 인덱싱하는 인덱스 서버로, 수집한 웹페이지를 웹페이지 데이터베이스(D101)에 저장한 후, 웹페이지에 포함된 텍스트를 추출하여 형태소 분석을 통하여 인덱스 데이터베이스(D102)에 저장하고 웹페이지에 포함된 웹컨텐츠의 노출위치 및 노출크기를 분석하고 웹페이지에 대한 인기도를 적용하여 해당 웹페이지에 대한 노출지수를 계산하여 노출분석 데이터베이스(D103)에 저장한다.
S102는 인터넷상에서 운영되는 웹서버(W1-Wn)에 설치된 성향 분석 프로그램이 요청하는 검색 엔진 이용자(C1-Cn)의 성향 정보를 이용자 데이터베이스(D104)와 성향 분석 데이터베이스(D105)를 조회하여 이용자의 성향 정보 제공하고 웹서버를 이용한 이용 정보를 제공받아 성향을 분석하여 성향 분석 데이터베이스(D105)에 저장한다.
S103은 이용자가 검색 엔진에 접속하여 검색을 시도할 경우, 개인화 검색을 요청한 경우에는 검색어에 대하여 인덱스 데이터베이스, 이용자 데이터베이스, 성향 분석 데이터베이스를 조회하여 검색어를 포함한 웹페이지의 유사도와 이용자의 성향에 맞는 웹페이지를 추출한 후, 노출 분석 데이터베이스에서 노출 정보에 의해 재배열하여 이용자에게 제시한다. 이용자가 일반 검색을 요청한 경우에는 검색어에 대하여 인덱스 데이터베이스를 조회하여 검색어를 포함한 웹페이지의 유사도에 의하여 웹페이지를 추출한 후, 노출 분석 데이터베이스에서 노출 정보에 의해 재배열하여 이용자에게 제시한다.
도 2에 도시된 것은 웹컨텐츠의 노출위치 및 노출크기에 의하여 노출지수를 분석하고 형태소 분석을 통하여 인덱싱을 처리하는 흐름도를 나타낸다. 웹컨텐츠 다운로더 모듈(S205)은 분석할 웹페이지(S201)를 다운로드하는 기능을 수행하며 다운로드가 완료된 웹페이지에 대하여 웹페이지 데이터베이스(S202)에 저장하고 웹컨텐츠 표현 모듈(S206)을 통하여 웹브라우저와 동일한 형태로 화면에 표현한다. 노출위치 및 노출크기 분석 모듈(S207)은 화면에 표현된 웹컨텐츠에 대하여 노출위치 및 노출크기를 분석하여 노출 분석 데이터베이스(S203)에 저장한다.
노출 분석이 완료되면 웹페이지 내에 포함된 텍스트를 추출하여 형태소 분석(S208) 과정을 거친 후, 인덱스를 생성하여(S209) 인덱스 데이터베이스(S204)에 저장한다.
도 3은 본 발명의 웹컨텐츠 노출위치 및 노출크기에 대한 분석 방법의 흐름을 나타낸 개념도이다.
홈페이지에서 제공하는 웹컨텐츠에 대한 노출위치 및 노출크기에 대한 분석을 실시하기 위하여 분석할 웹페이지가 입력되면(S301), 웹컨텐츠 다운로더 모듈은 입력한 웹페이지를 다운로드한다(S302). 웹페이지가 다운로드 완료되면 웹페이지를 파싱하여 내부에 포함된 이미지, 자바애플릿, 플래시 등의 웹컨텐츠를 모두 다운로드한다.
웹컨텐츠에 대한 다운로드가 완료되면(S303), 다운로드된 웹컨텐츠를 인터넷에서 사용되는 웹브라우저와 동일하게 표현한다(S304). 다운로드된 웹페이지에 대한 문서의 크기를 가로 크기와 세로 크기를 픽셀 단위로 분석한다(S305).
웹페이지에 포함된 하이퍼링크, 이미지, 자바애플릿, 플래시 등 다양한 웹 컨텐츠에 대한 정보를 추출한다(S306).
웹페이지에 웹컨텐츠가 존재하는지 검사하여(S307) 존재하지 않으면 분석을 종료하고, 웹컨텐츠가 존재할 경우 해당 웹컨텐츠에 대한 노출위치 및 노출크기를 픽셀 단위로 분석한다(S308).
이때, 노출위치는 웹페이지가 표현된 화면에서 좌측 맨위를 (0, 0)으로 기준하여 픽셀단위로 그 위치를 분석하며, 노출위치가 동적으로 변하는지, 고정되어 있는지에 대한 정보를 부가적으로 분석한다.
노출크기는 해당 웹컨텐츠가 표현된 실제 크기를 픽셀 단위로 분석하며 해당 크기가 웹브라우저의 설정에 따라 동적으로 변하는지 또는 고정인지를 분석한다.
웹컨텐츠의 노출위치와 노출크기가 동적으로 변화하는 경우, 일반적인 웹브라우저를 사용하여 표현될 때를 기준으로 분석한다.
특정 웹컨텐츠에 대한 노출위치 및 노출크기에 대한 분석 방법은 다음 그림과 같다.
상기 그림에서 좌표 (x0, y0)는 웹브라우저의 좌측 상단에 내용이 표시되는 최초 지점이 된다.
상기 그림은 웹브라우저와 동일한 형태로 웹컨텐츠를 표현하도록 구현되었으며, 처음 표현되는 웹컨텐츠는 "http://www.dreamnow.co.kr/images/DreamNow.gif"라는 이미지로서 이에 대한 노출위치 분석 범위는 상기 그림의 좌표 (x1, y1)에서 좌표 (x2, y2)까지이다.
좌표 (x1, y1)과 좌표 (x2, y2)에 의해 노출위치를 분석하면 (x1, y1)과 (x2, y2)의 좌표인 (20, 20)에서 (200, 45)이다. 노출위치를 이용하여 노출크기를 분석하면 이미지 폭(Width)은 180(x2-x1 : 200-20) 픽셀이며, 이미지 높이(Height)는 25(y2-y1 : 45-20) 픽셀이 된다.
상기와 같은 분석 방법으로 웹페이지 문서에 포함된 모든 웹컨텐츠에 동일한 분석 방법을 적용하여 노출위치와 노출크기를 분석한다.
웹컨텐츠에 대한 노출위치 및 노출크기에 대한 분석이 완료되면, 웹페이지의 크기 정보와 웹페이지에 포함된 웹컨텐츠에 대한 노출위치 및 노출크기 정보를 아래 그림과 같은 형태로 데이터베이스에 저장한(S309) 후, 웹페이지에 대한 노출위치 및 노출크기에 대한 분석을 완료한다(S310).
아래 그림은 본 발명에 따른 웹페이지 내에 포함된 하이퍼링크에 대한 노출분석 예를 나타낸다.
웹페이지에 대한 노출 분석 정보는 다음과 같이 웹페이지가 웹브라우저에 의해 노출되는 실제 크기를 가로와 세로의 크기로 픽셀 형태로 분석한다. 웹페이지의 다운로드 양을 분석하기 위해 웹페이지의 파일 크기와 함께 웹페이지 내에 포함된 이미지 및 기타 객체에 대한 분석을 수행하고 해당 이미지나 객체의 파일크기를 분석한 후, 웹페이지를 표현하기 위한 다운로드 파일 크기를 분석하고, 웹페이지로부터 연결되는 링크의 수를 분석한다.
웹페이지로부터 분석된 하이퍼링크 A, B, C에 대하여 노출위치, 노출크기, 노출형태, 하이퍼링크로 연결된 웹페이지에 대한 노출 분석 정보는 아래와 같이 분석하여 노출위치와 노출크기 및 노출형태에 대한 분석을 통하여 웹페이지에 대한 노출지수를 계산한다.
도 4는 인터넷 이용자가 인터넷을 탐색하는 예를 나타낸 것으로, 본 발명에 따른 검색 엔진이 WWW.SEARCH.COM라 하면, WWW.SEARCH.COM에 접속하여 찾고자하는 정보를 검색하기 위해 검색어를 입력하고 그 결과 중 WWW.A.COM/A.HTML을 검색하였을 경우이다.
인터넷 이용자(S401)가 인터넷망(S402)을 이용하여 검색 엔진 WWW.SEARCH.COM(S403)의 M.HTML(S404)에서 검색어를 입력하고 그 결과가 R.CGI(S405)로 제시되었을 때, R.CGI(S405)에서 제시된 홈페이지 WWW.A.COM(S407)의 A.HTML(S408)을 방문하여 B.HTML(S409)을 탐색하였다고 하였을 때, WWW.SEARCH.COM (S403)와 WWW.A.COM(S407)는 로그 파일 S(S406)와 로그 파일 A(S410)에 이용자(S401)가 탐색한 정보가 기록되게 된다.
상기 인터넷 이용자가 탐색한 순서가 1, 2, 3, 4라고 할 때, 탐색 순서 1, 2는 WWW.SEARCH.COM의 로그 파일에 기록되며, 탐색 순서 3, 4는 WWW.A.COM의 로그파일에 기록된다.
상기 그림은 도 4의 인터넷 이용자가 탐색한 웹페이지에 대한 이용 내역이 기록된 로그 파일 정보 중 일부를 나타내며, 로그에 기록되는 방법은 홈페이지를 운영하는 웹서버 종류에 따라 다소 차이가 있으나, 예시된 정보는 모든 웹서버에서 기록되는 내용이다.
로그 파일에 기록된 내용에는 현재 탐색중인 웹페이지를 소개한 참조 경로 정보가 참조 로그에 기록된다. 참조 로그에 기록된 참조 경로를 분석함으로써, 이용자의 정확한 탐색 패턴을 분석할 수 있다. 탐색 패턴 중, http://WWW.SEARCH.COM/R.CGI에서 http://WWW.A.COM/A.HTML로 이동한 경우 WWW.A.COM에 기록된 참조 로그를 분석함으로써, http://WWW.SEARCH.COM/R.CGI을 통하여 방문한 이용자라는 것을 알 수 있다.
WWW.SEARCH.COM과 WWW.A.COM의 로그 파일을 분석하여 이용자의 성향을 분석한 후, 참조 로그에 기록된 참조 경로를 분석함으로써, WWW.A.COM에서는 WWW.SEARCH.COM의 R.CGI를 통하여 방문한 이용자에 대하여 WWW.SEARCH.COM에 해당이용자에 대한 성향 분석 정보를 요청할 수 있다.
도 5는 본 발명에 따른 검색 엔진의 성향 분석 시스템과 성향 정보 요청 홈페이지의 성향 분석 시스템 사이의 성향 정보 요청 방법 및 제공 방법에 의한 성향 정보 획득 방법을 설명하기 위한 도면이다.
본 발명에 따른 성향 정보 획득 방법은 검색 엔진 이용자의 성향 정보를 획득하기 위하여 검색 엔진(S503)에는 검색 엔진에서 생성된 로그 파일을 이용하여 성향 정보를 분석한 후 성향 분석 데이터베이스에 적재하여 성향 정보 요청자의 요청을 수행하기 위한 성향 정보 제공 프로그램을 구비하고, 성향 정보 요청 홈페이지에서는 홈페이지에서 생성된 로그 파일을 분석하여 성향 정보를 추출하여 성향 분석 데이터베이스에 적재하는 프로그램과 본 발명에 의한 검색 엔진을 이용하여 방문한 참조 경로가 존재할 경우, 검색 엔진의 성향 분석 시스템에 성향 정보를 요청하는 프로그램을 구비한 다수의 성향 정보 요청자(S501-1 ∼ S501-3)와 성향 정보 요청과 제공 서비스를 원활히 수행하기 위한 인터넷망 (S502)으로 구성된다.
참조 경로에 의한 성향 정보 획득 방법이 성공적으로 운영되기 위해서는 다수의 홈페이지가 성향 정보 요청자로 참여하는 것이 바람직하다.
도 6은 본 발명에 의한 인터넷 검색 엔진 장치의 성향 분석 시스템의 구성과 작용에 따른 도면이다.
본 발명에 의한 장치는 성향 정보를 분석하기 위하여 홈페이지에서 생성된로그 파일(S601-1, S601-2)과 이용자의 프로파일을 적재하고 있는 이용자 데이터베이스(S602), 로그 파일을 분석한 후 성향 분석 정보를 적재하는 성향 분석 데이터베이스(S603), 원격지의 웹서버로부터 로그 파일을 다운로드하기 위한 로그 파일 다운로더(S604), 로그 파일을 읽어들여 분석하는 로그 파일 분석기(S605), 등록된 이용자에 대한 목록을 읽어들여 해당 이용자의 성향을 분석하는 성향 분석기(S606)로 구성되며, 분석된 성향 정보를 이용하여 검색 엔진의 성향 분석 시스템에 성향 정보를 요청하거나 요청된 성향 정보를 제공하기 위한 통신 프로그램(S607) 및 통신 프로그램을 통하여 검색 엔진의 성향 분석 시스템에 성향 정보를 요청하는 성향 정보 요청 모듈(S608), 성향 정보 요청시 이를 조회한 후 해당 성향 정보를 제공하는 성향 정보 제공 모듈(S609)로 구성된다.
도 7은 성향 정보 요청 홈페이지에 기록된 로그 파일을 이용하여 이용자의 성향을 분석한 후, 참조 경로가 존재하는 경우, 검색 엔진의 성향 분석 시스템에 성향 정보를 요청하는 단계에 대한 흐름도이다. 성향 정보 요청 홈페이지에 기록된 로그 파일을 분석(S701)하여 참조 경로가 존재하는지(S702) 검사한 후, 참조 경로가 존재하지 않으면 바로 종료한다. 참조 경로가 존재하면 검색 엔진의 성향 분석 시스템에 성향 정보를 요청하기 위하여 도메인, 참조 경로(URL), IP, 이용 시간 등의 정보를 하나의 목록으로 성향 정보 요청 목록을 작성(S703)한다. 성향 정보 요청 목록 작성이 완료되면 요청할 목록 중 하나를 로드(S704)한다. 검색 엔진의 성향 분석 시스템에 대하여 성향 정보 요청이 가능한지 검사(S705)한다. 성향 정보요청이 가능하지 않으면 다음 요청 목록을 로드(S704)한다. 성향 정보 요청이 가능하면, 검색 엔진의 성향 분석 시스템에 성향 정보를 요청(S706)하고 요청한 성향 정보가 수신되면 성향 정보를 갱신(S707)한 후, 요청할 목록이 남아있는지 확인(S708)한다. 요청할 목록이 존재하면 요청 목록을 로드(S704)하여 성향 정보 요청을 수행하고, 더 이상 요청할 목록이 없으면 종료(S709)한다.
도 8은 검색 엔진의 성향 분석 시스템에서 성향 정보 요청에 대한 성향 정보 조회 및 제공 단계에 대한 흐름도이다. 검색 엔진의 성향 분석 시스템은 검색 엔진에서 생성된 로그 파일을 분석(S801)하여 이용자에 대한 성향 정보를 성향 정보 데이터베이스에 적재(S802)한다. 통신 프로그램에서 이용자에 대한 성향 정보 요청 서비스가 수신(S803)되면, IP, 참조 경로(URL), 이용 시간 등의 정보로 성향 정보를 조회(S804)한다. 성향 정보가 존재하는지 검사(S805)하여 성향 정보가 존재하면 전송할 성향 정보를 생성(S806)한 후, 성향 정보 요청 컴퓨터에게 성향 정보를 전송(S807)한다. 성향 정보가 존재하지 않으면, 성향 정보 부재 정보를 생성하여 전송(S808)한 후, 다음 성향 정보 요청을 처리하기 위해 대기한다.
도 9는 인터넷 이용자가 인터넷을 탐색할 때, 현재 탐색중인 홈페이지에 관심이 많거나 유용한 정보가 있을 때, 홈페이지를 재방문하기 위해 북마크하는 행동을 나타낸 것이다.
웹브라우저에 북마크하는 이용자의 행동은 아래 그림과 같은 형태로 웹서버의 로그 파일에 기록된다.
로그 파일에 기록된 북마크 행동 정보는 이용자의 성향을 분석하는데 좋은 자료로 사용될 수 있다. 또한 해당 홈페이지의 경우에도 북마크가 많이 된다는 것은 하이퍼링크는 존재하지 않지만 방문자의 방문을 유도하는 보이지 않는 링크로서 중요한 역할을 함으로서 성향 분석 정보 요청시 북마크의 여부를 함께 전송한다.
도 10은 본 발명에 따른 검색 방법에서 웹페이지 사이를 연결하는 하이퍼링크의 노출위치 및 노출크기에 따른 노출지수를 분석하여 링크 인기도를 계산하기 위한 도면을 나타내고 있다.
웹페이지 P3의 노출지수는 웹페이지 P3의 노출크기와 웹페이지 P3에 포함된 텍스트형 컨텐츠가 차지하는 비율, 웹페이지 P3로 링크된 웹페이지에 대한 노출지수의 합으로 웹페이지 링크 인기도를 계산한다.
참조 경로에 의해 해당 웹페이지로 이동하는 이용자의 수와 이용자가 북마크하는 등록수를 획득하여 이용자에 의한 방문 인기도를 분석하고 북마크에 의한 잠재 링크를 분석한다.
노출지수 분석은 웹페이지의 노출크기, 웹페이지가 제공하는 컨텐츠 중 텍스트형 컨텐츠가 차지하는 비율을 이용한 내부 노출지수 분석, 웹페이지로 링크된 외부 홈페이지에 의한 외부 노출지수 분석, 일정 기간 동안 이용한 방문자 수 및 북마크 수를 이용한 방문자 노출지수 분석으로 구분하여 아래와 같은 형태로 저장한다.
P es : 웹페이지 P의 노출크기(폭 × 높이) → PE (Pixel2)
P tr : 웹페이지 P에 포함된 텍스트형 컨텐츠가 차지하는 비율(%)
P oe : 웹페이지 P로 링크된 웹페이지의 노출지수의 합
P p : 웹페이지 P의 방문 인기도
→ 참조 로그에 의한 분석으로 일정기간 방문한 방문자 수
P br : 웹페이지 P의 북마크 등록수
→ 참조 로그에 의한 분석으로 해당 웹페이지를 이용하여 방문한 이용자가 북마크에 등록한 수
도 11은 도 3에서 설명한 기능을 구현하여 인터넷에서 제공되는 홈페이지에 대하여 웹브라우저와 동일한 다운로드 및 표현 기능을 갖추고 내부에 포함된 웹컨텐츠에 대한 노출위치 및 노출크기를 분석하는 화면으로 해당 웹페이지에 대한 화면과 웹페이지에 포함된 웹컨텐츠 중 일부인 이미지에 대하여 노출위치 및 노출크기에 대한 정보를 분석하는 화면이다.
도 12는 본 발명에서 제공하는 검색 엔진의 일실시 예를 나타내는 도면으로, 이용자가 검색어를 입력(S121)하면, 개인화 검색을 원하는지 일반 검색을 원하는지 판단(S122)하여 개인화 검색을 원하는 경우, 이용자의 성향 정보를 읽어들여(S123) 이용자가 입력한 검색어를 포함하는 웹페이지 중 이용자의 성향에 맞는 웹페이지를 추출한다(S124).
일반 검색을 원하는 경우, 검색어를 포함하는 웹페이지를 추출한다(S125).
추출된 웹페이지에 대하여 유사도, 방문인기도, 노출지수에 따라서 웹페이지를 재배열한다(S126).
노출지수는 내부 노출지수, 외부 노출지수, 방문자에 의한 노출지수에 의해 결정되며, 웹페이지 노출에 의한 랭킹 순위 EPR(Exposure Page Rank)는 아래와 같이 계산한다.
이때 참조 로그 분석에 의해 방문자에 의한 노출지수가 존재하지 않는 경우 방문자에 의한 노출지수의 계수는 0으로 한다.
재배열된 검색 결과는 한 페이지에 보여질 검색 결과수 등 이용자가 선택한 출력 형태에 따라 결과를 출력한다(S127).
도 13은 본 발명에서 제공하는 검색 결과에 대한 예시로 웹페이지의 노출크기, 파일크기, 다운로드 파일크기, 데드링크 분석, 링크 노출 분석 등의 결과를 제공한다.
도 14는 본 발명에서 제공하는 웹컨텐츠의 노출위치 및 노출크기 정보에 대한 조회화면으로 text/html 형태의 웹페이지에 대한 조회 결과 화면이다.
도 15는 본 발명에서 제공되는 웹컨텐츠의 노출위치 및 노출크기 정보에 대한 조회화면으로 이미지, 자바애플릿, 플래시 등의 웹컨텐츠에 대한 조회 결과 화면이다.
이상에서 설명한 바와 같이,
기존의 검색 엔진이 웹페이지에 연결된 링크의 갯수에 따른 링크 인기도를 검색 결과에 반영하거나 웹페이지 인기도를 반영하기 위해 인터넷을 이용하는 이용자의 컴퓨터에 인터넷을 탐색한 정보가 저장되어 있는 디스크의 캐시나 웹브라우저의 툴바를 이용하여 클라이언트 기반에서 웹페이지의 인기도를 측정하는 방법을 사용하고 있다.
본 발명에 의하면, 인터넷상에 노출된 하이퍼링크의 노출위치 및 노출크기에 대한 노출 분석 정보와 웹서버에 기록된 참조 로그에 의해 웹페이지 방문수 및 북마크 등록수를 이용하여 이용자에 의한 방문 노출지수와 웹페이지의 인기도에 따른 웹페이지의 중요도를 계산하여 데이터베이스에 저장하고
참조 로그를 이용하여 검색 엔진 이용자가 탐색한 웹사이트의 중요도를 분석하기 위해 웹페이지 방문수, 북마크 등록 여부, 이용한 웹페이지수 등을 분석하여 이용자의 성향을 상세히 분석하여 이용자 성향 데이터베이스에 저장한다.
이용자가 본 발명에 따른 개인화된 검색 엔진을 이용할 경우, 성향 데이터베이스에 저장된 이용자의 성향 정보를 기반으로 이용자에게 알맞은 맞춤 검색 정보를 제공할 수 있다.

Claims (8)

  1. (a)인터넷상의 웹페이지를 수집하여 노출지수를 분석하는 단계;
    (b)검색 엔진을 이용하여 홈페이지를 방문한 이용자의 성향을 분석하기 위하여 참조 로그를 이용하여 성향 정보를 요청하고 제공하는 단계;
    (c)검색 엔진에 접속하여 개인화된 검색을 요청할 경우, 이용자의 성향 정보를 이용하여 이용자에게 맞춤 검색 결과를 추출하여 제시하는 단계를 포함하는 맞춤 검색 방법.
  2. 제 1항에 있어서, 상기 (a)단계는
    (a)인터넷 상에서 제공되는 웹페이지를 수집하는 단계;
    (b)수집된 웹페이지에 대하여 웹브라우저와 동일한 형태로 표현하는 단계;
    (c)웹페이지와 웹페이지에 포함된 하이퍼링크, 이미지, 플래시 등의 웹컨텐츠에 대하여 노출위치, 노출크기를 분석하는 단계;
    (d)웹페이지에 포함된 텍스트가 차지하는 비율을 분석하는 단계;
    (e)분석된 노출 정보를 노출지수로 계산하여 데이터베이스에 저장하는 단계를 포함하는 웹컨텐츠 노출 분석 방법.
  3. 제 2항에 있어서, 상기 (c)단계는
    (a)웹페이지의 노출크기를 폭, 높이로 픽셀 단위로 분석하는 단계;
    (b)웹페이지에 포함된 웹컨텐츠가 표현된 위치를 브라우저의 왼쪽 맨위를 (0, 0)을 기준으로 (x, y) 좌표를 픽셀 형태로 분석하는 단계;
    (c)웹컨텐츠의 노출크기를 폭, 높이로 픽셀 단위로 분석하는 단계를 포함하는 웹컨텐츠 노출 분석 방법.
  4. 제 1항에 있어서 (b)단계는
    (a)참조 로그를 이용한 성향 분석 프로그램을 검색 엔진과 홈페이지의 로그 파일을 분석할 수 있는 컴퓨터에 설치하는 단계;
    (b)검색 엔진에서 로그 파일을 분석하여 성향 정보를 데이터베이스에 저장하는 단계;
    (c)홈페이지에서 로그 파일을 분석하여 성향 정보를 데이터베이스에 저장하는 단계;
    (d)홈페이지에서 참조 로그를 이용하여 방문한 이용자에 대하여 검색 엔진에 성향 정보를 요청하는 단계;
    (e)상기 요청 단계에 있어서, 해당 이용자의 이용 정보 및 북마크 여부를 전송하는 단계;
    (f)검색 엔진으로부터 요청한 성향 정보를 데이터베이스에 저장하는 단계;
    (g)검색 엔진에서는 홈페이지로부터 전송되어온 이용자의 이용 정보 및 북마크 여부를 분석하여 성향 정보를 도출하여 데이터베이스에 저장하는 단계를 포함한 성향 분석 방법.
  5. 제 4항에 있어서, (d)성향 정보 요청 단계는
    (a)홈페이지의 성향 분석 프로그램을 이용하여 검색 엔진을 통하여 접속한 이용자를 추출하는 단계;
    (b)추출한 이용자의 성향 정보를 요청하기 위하여 접속 시간, IP 주소, 유알엘(URL)을 정보로 성향 정보를 요청하는 단계;
    (c)검색 엔진의 성향 분석 시스템에서 요청된 이용자의 접속 시간, IP 주소, 유알엘(URL)을 이용하여 성향 정보를 조회하여 전송하는 단계;
    (d)검색 엔진의 성향 분석 시스템으로부터 수신된 성향 정보를 데이터베이스에 저장하는 단계를 포함하는 참조 로그 정보를 이용한 성향 정보 요청 방법.
  6. 제 1항에 있어서, (c)단계는,
    (a)검색 엔진 이용자가 개인화 검색 서비스를 이용하기 위해 로그인하는 단계;
    (b)원하는 정보를 찾기 위해 검색어를 입력하고 전송하는 단계;
    (c)이용자로부터 검색어를 수신한 검색 엔진은 참조 로그를 활용하여 분석된 이용자의 성향 정보를 읽어오는 단계;
    (d)이용자의 성향 정보에 맞는 웹페이지를 추출하는 단계;
    (e)웹페이지 노출지수, 외부 홈페이지 노출지수, 이용자 노출지수를 이용하여 웹페이지를 재배열하는 단계;
    (f)재배열된 웹페이지를 이용자에게 제시하는 단계를 포함한 검색 결과 제공 방법.
  7. 제 6항에 있어서, (e)단계는
    (a)웹페이지의 노출크기 및 텍스트 정보의 비율을 이용하여 노출지수를 계산하는 단계;
    (b)외부 홈페이지에 노출된 링크에 대하여 노출위치 및 노출크기에 따른 노출지수와 해당 웹페이지의 노출지수를 계산하는 단계;
    (c)인터넷 이용자에 의한 방문수, 북마크 수를 분석한 이용자에 의한 노출지수를 계산하는 단계;
    (d)상기 노출지수를 인기도별로 차등 적용하여 재배열하는 방법.
  8. 제 1항에서 제 7항의 방법을 컴퓨터로 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
KR1020030046310A 2003-07-09 2003-07-09 인터넷 검색 엔진 KR20030078813A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020030046310A KR20030078813A (ko) 2003-07-09 2003-07-09 인터넷 검색 엔진

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030046310A KR20030078813A (ko) 2003-07-09 2003-07-09 인터넷 검색 엔진

Publications (1)

Publication Number Publication Date
KR20030078813A true KR20030078813A (ko) 2003-10-08

Family

ID=32388458

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030046310A KR20030078813A (ko) 2003-07-09 2003-07-09 인터넷 검색 엔진

Country Status (1)

Country Link
KR (1) KR20030078813A (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006057544A1 (en) * 2004-11-29 2006-06-01 Nhn Corporation Method for providing search service and system for executing the method
WO2006101282A1 (en) * 2005-03-23 2006-09-28 Kwang Hyun Cho The real-time data grouping-searching method and the networking method of the computer servers in the internet environment
KR100726886B1 (ko) * 2005-08-19 2007-06-12 (주)수도프리미엄엔지니어링 인터넷 웹 문서 검색 시스템 및 그 방법
WO2007114563A1 (en) * 2006-04-06 2007-10-11 Nhn Corporation System and method for providing recommended word of adjustment each user and computer readable recording medium recording program for implementing the method
KR100786379B1 (ko) * 2006-01-19 2007-12-17 주식회사 위즈링크 웹 브라우저 주소창을 이용한 개인 맞춤 웹 사이트 접속 및 웹 검색 방법 및 장치와 이를 위한 프로그램을 기록한 기록매체
KR101120641B1 (ko) * 2010-06-10 2012-03-16 주식회사 다음커뮤니케이션 검색 서비스 제공 장치 및 검색 서비스 제공 방법
US11714804B2 (en) 2021-04-09 2023-08-01 Coupang Corp. Method and apparatus for managing link related to keyword advertisement

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006057544A1 (en) * 2004-11-29 2006-06-01 Nhn Corporation Method for providing search service and system for executing the method
WO2006101282A1 (en) * 2005-03-23 2006-09-28 Kwang Hyun Cho The real-time data grouping-searching method and the networking method of the computer servers in the internet environment
KR100726886B1 (ko) * 2005-08-19 2007-06-12 (주)수도프리미엄엔지니어링 인터넷 웹 문서 검색 시스템 및 그 방법
KR100786379B1 (ko) * 2006-01-19 2007-12-17 주식회사 위즈링크 웹 브라우저 주소창을 이용한 개인 맞춤 웹 사이트 접속 및 웹 검색 방법 및 장치와 이를 위한 프로그램을 기록한 기록매체
WO2007114563A1 (en) * 2006-04-06 2007-10-11 Nhn Corporation System and method for providing recommended word of adjustment each user and computer readable recording medium recording program for implementing the method
US8793270B2 (en) 2006-04-06 2014-07-29 Nhn Corporation System and method for providing personalized recommended word and computer readable recording medium recording program for implementing the method
KR101120641B1 (ko) * 2010-06-10 2012-03-16 주식회사 다음커뮤니케이션 검색 서비스 제공 장치 및 검색 서비스 제공 방법
US11714804B2 (en) 2021-04-09 2023-08-01 Coupang Corp. Method and apparatus for managing link related to keyword advertisement

Similar Documents

Publication Publication Date Title
Marine-Roig et al. A detailed method for destination image analysis using user-generated content
US7933917B2 (en) Personalized search method and system for enabling the method
JP5474038B2 (ja) モバイルサイトマップ
US8452793B2 (en) Query refinement based on user selections
KR100644399B1 (ko) 정보 액세스 지원 방법, 시스템 및 이를 위한 기록매체
US8046323B2 (en) Context based bookmark
KR100645608B1 (ko) 사용자 방문 유알엘 로그를 이용한 정보 검색 서비스 제공 서버 및 그 방법
KR100509276B1 (ko) 웹페이지별 방문인기도에 기반한 웹페이지 검색방법 및 그장치
US7653654B1 (en) Method and system for selectively accessing files accessible through a network
KR20040026167A (ko) 사용자가 입력한 유알엘 및/또는 검색어에 근거하여광고를 제공하는 방법 및 장치
KR100859918B1 (ko) 사용자 피드백을 이용하여 검색된 컨텐츠를 평가하고 평가결과를 이용하여 검색 결과를 제공하는 방법 및 장치
US7421416B2 (en) Method of managing web sites registered in search engine and a system thereof
JP4875911B2 (ja) コンテンツ特定方法及び装置
KR20110084414A (ko) 웹페이지 접속시간 및 방문도에 기반한 웹검색 방법 및 웹검색 시스템
KR20030078813A (ko) 인터넷 검색 엔진
JP2003141155A (ja) Webページ検索システムおよびWebページ検索プログラム
KR20020028044A (ko) 데이터베이스 링크 키워드 포털서비스 방법
JP2004206492A (ja) ドキュメント表示方法およびそれを用いたリンク先選択機能付ゲートウェイ装置
JP2008077353A (ja) キーワード分類方法、サーバコンピュータ、及びプログラム
JP2006155275A (ja) 情報抽出方法及び情報抽出装置
JP5297295B2 (ja) WWW情報閲覧システムと方法およびWebブラウザとプログラム
Weakliam et al. Delivering personalized context-aware spatial information to mobile devices
KR100371805B1 (ko) 관련 웹 사이트 제공 방법 및 시스템
JP5108707B2 (ja) 検索サーバ装置、検索方法及びプログラム
JP4715031B2 (ja) 構造化文書変換システム及び構造化文書変換プログラム

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination