KR100755468B1 - 웹 페이지 구조 분석을 통한 웹 사이트의 정보 파악 방법 - Google Patents

웹 페이지 구조 분석을 통한 웹 사이트의 정보 파악 방법 Download PDF

Info

Publication number
KR100755468B1
KR100755468B1 KR1020070052016A KR20070052016A KR100755468B1 KR 100755468 B1 KR100755468 B1 KR 100755468B1 KR 1020070052016 A KR1020070052016 A KR 1020070052016A KR 20070052016 A KR20070052016 A KR 20070052016A KR 100755468 B1 KR100755468 B1 KR 100755468B1
Authority
KR
South Korea
Prior art keywords
page
web page
information
message
web
Prior art date
Application number
KR1020070052016A
Other languages
English (en)
Inventor
최문성
배병선
Original Assignee
(주)이즈포유
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)이즈포유 filed Critical (주)이즈포유
Priority to KR1020070052016A priority Critical patent/KR100755468B1/ko
Application granted granted Critical
Publication of KR100755468B1 publication Critical patent/KR100755468B1/ko
Priority to CN200880017826A priority patent/CN101689176A/zh
Priority to JP2010510216A priority patent/JP5134684B2/ja
Priority to US12/602,069 priority patent/US8392470B2/en
Priority to PCT/KR2008/003023 priority patent/WO2008147126A1/en
Priority to EP08765985A priority patent/EP2171612A4/en
Priority to RU2009149199/08A priority patent/RU2424562C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/389Keeping log of transactions for guaranteeing non-repudiation of a transaction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0236Filtering by address, protocol, port number or service, e.g. IP-address or URL
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Accounting & Taxation (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Finance (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명에 따른 웹 페이지 구조 분석을 통한 정보 파악 방법은, 웹 페이지 이동 시작 시 이동 시작 메시지를 발생하되, 상기 이동 시작 메시지는 각 웹 페이지를 식별하기 위해 발급된 아이디를 포함하는, 제 1단계; 웹 페이지 이동 완료 시 이동 완료 메시지를 발생하되, 상기 이동 완료 메시지는 해당 웹 페이지의 URL 정보 및 자신이 상기 아이디를 통해 해당 웹 페이지가 메인 페이지인지 서브 페이지인지 여부를 수록한 소속 정보를 포함하는, 제 2단계; 웹 페이지 로딩이 모두 완료되었을 때 어느 웹 페이지의 이동 완료가 되었는지를 분석한 정보를 포함하는 문서 완료 메시지를 발생하는 제 3 단계; 상기 메시지들을 취합하여 메시지 데이터베이스를 생성하는 제 4단계; 상기 메시지 데이터베이스의 분석을 통해 특정 유저의 방문 상황 및 접속 현황의 웹 사이트 정보를 파악하는 제 5단계;로 구성된 것을 특징으로 한다.

Description

웹 페이지 구조 분석을 통한 웹 사이트의 정보 파악 방법{METHOD FOR GRASPING INFORMATION OF WEB SITE THROUGH ANALYZING STRUCTURE OF WEB PAGE}
도 1은 본 발명에 따른 웹 페이지 구조 분석을 통한 웹 사이트 정보 파악 방법의 실행을 위해 기본적으로 구성되는 시스템을 도시한 블록도.
도 2는 웹 페이지에서 인디케이터가 부착 구현된 상태를 예시한 사용 상태도.
도 3은 본 발명에 따른 웹 페이지 구조 분석을 통한 웹 사이트 정보 파악 방법의 개략적인 절차를 도시한 순서도.
도 4는 본 발명에 따른 웹 페이지 이동 시 메시지의 발생 순서를 도시한 개념도.
도 5는 본 발명에 따른 이동 메시지를 통해 생성되는 웹 페이지의 트리 구조를 도시한 개념도.
도 6은 본 발명에 따른 페이지 완료 상태를 확인하는 상태를 도시한 개념도.
도 7은 복합 페이지의 새로 고침 시에 페이지의 이동 여부를 파악하는 절차를 도시한 개념도.
도 8은 단일 페이지의 새로 고침 시에 페이지의 이동 여부를 파악하는 절차를 도시한 개념도.
도 9는 서브 페이지의 변경으로 서브 페이지의 이동 사이클만 변경되었을 때 페이지 이동 여부를 판단하는 절차를 도시한 개념도.
<도면 주요 부분에 대한 부호의 설명>
100: 인디케이터 230: 인디케이터 실행 모듈
200: 추적 프로그램 240: 인디케이터 확인 모듈
210: 메시지 발생 모듈 300: 관리 서버
220: 메시지 저장 모듈 310: 메시지 분석 모듈
본 발명은 웹 페이지 구조 분석을 통한 웹 사이트의 정보 파악 방법에 관한 것으로서, 보다 상세히는 클라이언트 서버에 미리 설치된 추적 프로그램을 통하여 웹 페이지의 접속 및 이동시마다 특정 메시지를 발생하는 것에 의하여 웹 페이지의 구조를 분석하는 방식으로 클라이언트 서버를 사용하는 일반 유저의 특정 웹 페이지의 접속을 비롯한 웹 서핑 이동 경로를 파악하여 이를 데이터베이스화함으로 웹 사이트의 접속 현황, 유저의 관심 분야, CRM 및 타겟 고객 관리 등의 다양한 정보 파악 및 관리 효과를 얻을 수 있는 웹 페이지 구조 분석을 통한 웹 사이트의 정보 파악 방법에 관한 것이다.
현재, 특정 웹 페이지로의 유저 접속 현황 등의 정보를 파악하기 위한 것으로 로그 분석이 널리 이용되고 있는 바, 로그 분석은 웹 사이트의 방문자 분석을 통하여 방문자수, 페이지 뷰(view)수, 쿠키값 분석 등을 통하여 방문자의 정보를 분석하여 웹 사이트의 상황을 파악하기 위한 것이다.
이러한 로그 분석 방법은, 1) 특정 웹 페이지를 관리하는 웹 서버에 로그 파일을 직접 삽입하여 로그 파일에서 접속 등의 신호 발생을 데이터화하여 이러한 데이터를 분석하는 로그 파일 삽입 방식, 2) 웹 사이트 내에 스크립트 내지 코드를 삽입하여 코드값을 통하여 데이터를 생성 및 분석하는 코드 삽입 방식, 3) 외부 통계자료를 통한 간접적인 로그 분석 방식 등으로 이루어져 있다.
그런데, 상기 방식 중에서 로그 파일을 삽입하는 방식의 경우 접속자 수가 많을 경우 로그 파일의 데이터 량이 방대해져 전문 분석 기관에 의뢰하지 않고서는 분석 자체가 불가능한 문제가 있고, 코드를 삽입하는 방식은 적은 방문자 수를 가진 웹 사이트에서는 유용할 수 있으나 일정 수 이상의 방문객이 웹 사이트에 접속할 경우에는 오히려 로그 파일 삽입 방식보다 작업량이 방대해지는 문제가 있었다.
또한, 무엇보다 상기 로그 분석은 웹 사이트에 코드 내지 로그 파일을 삽입해야하는 현실 때문에 주로 웹 사이트 운영자가 자신이 운영하는 웹 사이트의 이용 현황을 알아보는 정도에서만 활용될 수밖에 없었다. 즉, 운영자 중심으로 로그 분석이 이루어지는 것이 현실적인 로그 분석의 한계였다.
그런데, 자신이 운영하는 웹 사이트의 이용 현황 뿐 아니라 경쟁 웹 사이트의 이용 현황을 전략적으로 파악하거나 특정 집단의 유저가 주로 어느 웹 사이트를 방문하는지 여부, 광고주의 경우 광고를 수행하려는 여러 웹 사이트 중에서 어느 웹 사이트 및 웹 페이지가 유저 관심도가 높게 나오는지 여부, 유저의 웹 서핑 이동 사이클을 통하여 CRM를 분석하고자 할 때에는 자신의 운영 웹 사이트 이외의 다른 웹 사이트의 접속 현황을 파악해야 하기 때문에 현재 알려진 웹 사이트의 운영자가 주체가 되어 로그 분석을 하는 방식으로는 이러한 다른 웹 사이트의 이용 정보 내지 고객 성향 분석 정보 등을 전혀 얻지 못한다는 문제가 따른다.
다시 말해, 날로 경쟁이 치열해지는 웹 마케팅 분야에서 단지 자신이 운영하는 웹 사이트의 접속 현황만을 파악하는 기존의 로그 분석 방식으로는 결코 경쟁업체보다 전략 마케팅적 우위를 점할 수 없을 뿐 아니라 유저의 요구 사항에 발 빠르게 대처할 수 있는 방법을 제시하지 못하기 때문에 보다 새롭고 특별한 웹 사이트 분석 방법의 필요성이 대두된다.
이러한 목적에 부응하기 위한 일 례로서, 웹 사이트의 운영자가 아닌 유저를 주체로 하여 유저의 웹 서핑 현황 내지 이동 경로를 파악함으로써 특정 집단의 유저별로 웹 사이트의 접속 등의 정보를 추출하는 방법을 강구할 수 있을 것이다.
이 때 특정 유저가 특정 웹 사이트에 접속을 했는지 여부, 웹 서핑의 경로가 어떻게 되는지를 파악하기 위해서는 먼저 유저의 접속이 이루어지는 특정 웹 페이지의 구조를 분석하고, 분석된 웹 페이지의 구조에 알맞은 접속 신호 발생 내지 제반 신호 처리가 이루어져야 한다는 전제 조건이 따른다.
일반적으로 웹 페이지는 단일 페이지와 frameset 내지 iframe을 이용한 복합 페이지로 이루어져 있다.
단일 페이지는 가장 일반적인 웹 페이지 구조로서 html에서 frameset과 iframe과 같은 태그를 사용하지 않고 하나의 URL 주소만을 갖고 단일의 웹 서버와 연결되는 웹 페이지를 말하며, 복합 페이지는 frameset과 iframe과 같은 태그를 사용하여 하나의 페이지에서 각기 다른 URL 주소를 가지고 단일 내지 복수의 웹 페이지와 연결된 웹 페이지를 말한다. 복합 페이지의 경우, 페이지의 이동을 구분할 수 있고 주소창에 표시되는 URL에 해당하는 페이지인 메인 페이지와, 이 메인 페이지 내부에 framest 내지 iframe으로 발생하는 서브 페이지로 구분할 수 있다.
유저가 이용하는 인터넷 웹 사이트들은 모두 이러한 단일 내지 복합 웹 페이지로 이루어져 있는 바, 이러한 웹 페이지들은 각 웹 사이트마다 link 되어 있는 경우가 많아 유저의 다양한 이동이 가능한 상황이며, 유저는 웹 페이지 이동을 하는 경우 웹 페이지의 다운로딩 작업이 모두 종료된 이후 다른 웹 페이지로 이동한다는 특정 규칙을 가지는 것이 아니라, 웹 페이지 로딩 중 이동, 임의의 중단 등의 불규칙적인 이동을 하게 된다.
보다 구체적으로는, 웹 페이지의 구조 분석을 위해서는 다음과 같은 복합적인 문제를 해결해야 한다.
1) 웹 페이지는 단일 내지 복합의 웹 페이지로 이루어져 있고, 유저의 웹 서핑에 따라 이 웹 페이지들이 반복적으로 이동이 되기 때문에 이러한 웹 페이지의 종류에 따라 정확한 구조 분석이 수행되어야 한다.
2) 복합 페이지일 경우, 내부에 서브 페이지를 가지고 있고 이러한 서브 페이지들의 로딩이 완료되어야 전체적인 페이지 로딩이 완료되는 바, 복합 페이지 내 의 서브 페이지들은 인지하여야 한다.
3) 웹 페이지의 이동이 아닌 새로 고침(refresh)일 경우 페이지 내부의 컨텐츠들만이 변경이 되므로, 새로고침 시에 페이지 내부의 컨텐츠가 동일한지 여부를 파악해야 한다.
4) 페이지 내부의 프레임만 바뀌는 경우, 그 프레임이 사용자가 임의로 선택하여 바꾼 것인지 아니면 페이지 내에서 주기적으로 바꾼 것인지 여부를 확인해야 한다.
5) 단일 페이지는 별도의 서브 페이지를 보유하고 있지 않으므로 이 때 서브 페이지의 존재 확인 이외의 방법으로 단일 페이지의 새로 고침 여부를 파악할 수 있는 방법을 모색해야 한다.
따라서 자신이 운영하지 않는 여러 웹 사이트의 다양한 이용 상태를 파악하기 위하여 유저 중심의 웹 페이지의 이동 상황을 체크하고자 할 때, 유저의 웹 페이지의 이동 상황을 보다 정확하게 파악하기 위해서는 이러한 각 종류의 웹 페이지의 구조를 정확하게 분석하여 유저가 웹 페이지에 접속하여 웹 문서를 모두 다운로드 받았거나 새로 고침, 불규칙 이동 등의 상기 언급한 다양한 이동 스타일을 파악하는 것이 필요하다.
본 발명은 상기 기술의 문제점을 극복하기 위해 안출된 것으로, 로그 파일이나 스크립트를 웹 서버에 삽입하지 않을 뿐 아니라 자신이 운영하는 웹 사이트 이 외에 다른 운영자가 운영하는 여러 웹 사이트의 제반 이용 상황을 파악하기 위해 유저의 웹 사이트 이용 현황 정보를 데이터 처리하여 이를 분석하는 방식을 따르되, 유저의 웹 사이트 이용 현황 정보 획득을 위한 기본 전제가 되는 유저의 웹 페이지 이동 경로를 추적하기 위한 일환으로 웹 페이지 이동 시 각 웹 페이지마다 웹 페이지 이동 메시지를 발생 및 데이터 처리하는 방법을 제공하는 것이 주요 목적이다.
본 발명의 다른 목적은 단일 웹 페이지 내지 복합 웹 페이지와 같이 서로 다른 구조로 이루어진 어떠한 웹 페이지에서도 동일하게 높은 수준의 웹 페이지 이동 정보를 취득하기 위하여, 웹 페이지 이동메시지를 시계열적으로 세분화하여 이들을 각각의 웹 페이지 이동 스타일에 따라 관리 처리하도록 하는 것이다.
본 발명의 또 다른 목적은 웹 페이지의 새로 고침 시에 단일 페이지는 브라우저의 타이틀 변경 유무로서, 복합 페이지는 서브 페이지의 변경 유무를 파악하는 섬세한 방식으로서 웹 페이지 이동 여부를 판단하도록 하는 것이다.
본 발명의 추가 목적은 유저 이동 경로 파악을 위한 추적 프로그램을 클라이언트 서버에 설치하고 추적 프로그램 간에 통신이 가능하도록 하여 이러한 추적 프로그램을 사용하는 유저 간에 웹 페이지 이동 경로 등의 웹 페이지 이용 정보를 공유하여 보다 다양한 정보를 추구할 수 있도록 하는 것이다.
본 발명의 추가 목적은 상기 추적 프로그램에서 얻어진 정보를 별도의 관리 서버에 전송하여 각각의 유저들의 웹 페이지 이동 정보를 체계적으로 분석함으로 다양한 웹 마케팅 자료로서 활용하도록 하는 것이다.
본 발명의 추가 목적은 인디케이터 실행 프로그램과 연동이 되어, 웹 페이지에 부착이 된 인디케이터의 정확한 위치를 재현하고, 재현된 위치 정보 등을 관리 서버에 기록, 관리하도록 하는 것이다.
상기 목적을 달성하기 위하여, 본 발명에 따른 웹 페이지 구조 분석을 통한 정보 파악 방법은, 웹 페이지 이동 시작 시 이동 시작 메시지를 발생하되, 상기 이동 시작 메시지는 각 웹 페이지를 식별하기 위해 발급된 아이디를 포함하는, 제 1단계; 웹 페이지 이동 완료 시 이동 완료 메시지를 발생하되, 상기 이동 완료 메시지는 해당 웹 페이지의 URL 정보 및 자신이 상기 아이디를 통해 해당 웹 페이지가 메인 페이지인지 서브 페이지인지 여부를 수록한 소속 정보를 포함하는, 제 2단계; 웹 페이지 로딩이 모두 완료되었을 때 어느 웹 페이지의 이동 완료가 되었는지를 분석한 정보를 포함하는 문서 완료 메시지를 발생하는 제 3 단계; 상기 메시지들을 취합하여 메시지 데이터베이스를 생성하는 제 4단계; 상기 메시지 데이터베이스의 분석을 통해 특정 유저의 방문 상황 및 접속 현황의 웹 사이트 정보를 파악하는 제 5단계;로 구성된 것을 특징으로 한다.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세하게 설명하도록 한다. 첨부된 도면은 축척에 의하여 도시되지 않았으며, 각 도면의 동일한 참조 번호는 동일한 구성 요소를 지칭한다.
도 1은 본 발명에 따른 웹 페이지 구조 분석을 통한 웹 사이트 정보 파악 방법의 실행을 위해 기본적으로 구성되는 시스템을 도시한 블록도이다.
먼저 본 발명에서 언급되는 웹 페이지는 페이지라고도 명명이 되며, 작업 아이디 역시 스레드 아이디, 아이디라고도 명명이 된다.
본 발명은, 웹 페이지의 구조 분석 및 유저의 웹 페이지 이동 경로 파악을 통하여 로그 분석 이상의 웹 사이트 활용 정보를 얻는 것이므로 먼저 각각의 유저가 인터넷 이용을 위해 사용하는 클라이언트 서버에 유저 웹 페이지 이동 경로 분석을 위한 프로그램이 설치되어야 한다.
본 발명에서는 이를 추적 프로그램(200)이라 명명하는 바, 이러한 추적 프로그램(200)은 유저의 인식 여부에 상관없이 클라이언트 서버에 설치될 수가 있다.
이러한 추적 프로그램(200)은 다양한 전략에 의하여 클라이언트 서버에 설치하도록 하는 것이 가능한데 예를 들어, 본 출원인이 권리자인 특허 제 705474호 '웹 페이지에서 인디케이터를 이용한 정보 표시 및 관리 시스템'에서 설명이 된 인디케이터(indicator)(100)(즉 여러 특정 정보를 수록하여 웹 페이지의 특정 컨텐츠 주변에 적층이 가능함과 동시에 유저 간의 정보 공유가 이루어질 수 있는 정보 표시 창을 의미)의 사용을 위해 실행되는 인디케이터 실행 모듈(230)을 추적 프로그램(200) 내에 탑재하여 자연스럽게 인디케이터 실행 모듈(230)과 함께 클라이언트 서버 내에 설치될 수가 있다.
도 2는 웹 페이지에서 인디케이터(100)가 부착 구현된 상태를 예시한 사용 상태도이다.
보다 구체적으로 인디케이터(100)를 설명하면, 본 발명에서 말하는 인디케이터(indicator)(100)라 함은, 웹 페이지에 수록된 문서, 그림, 동영상 등에 해당하는 부분에 표시되는 것으로서, 마치 일반 노트 내지 문서에 붙이는 메모지, 예를 들어 3M사의 상표명 포스트 잇(post it)과 같은 기능을 수행하는 웹상에서의 온라인 메모지라고 표현할 수가 있다.
구체적으로, 인디케이터(100)는 일정 크기로 이루어진 블록 공간이 주어지게 되어 이 공간 내에 해당 웹 페이지의 내용에 대한 평가 및 부연 설명, 메모 등을 수행할 수가 있고 필요할 시에 해당 인디케이터(100)를 불러내면 인디케이터(100)를 표시한 상태로서 웹 페이지가 활성화되는 것이다.
이러한 인디케이터(100)는 자체적인 정보, 즉 인디케이터(100) 내의 내용, 웹 페이지에서의 부착 위치, 부착된 웹 페이지의 URL 주소 등의 정보를 보유하고 있으며 이러한 인디케이터 관련 정보는 인디케이터 실행 모듈(230)에 저장되어 관리 서버(300)로 전송이 가능하다.
이 후, 관리 서버(300)는 이러한 인디케이터 존재/위치/내용 정보를 별도의 데이터베이스로 분류하여 기록, 관리하게 되며, 이렇게 DB화된 인디케이터 정보를 통하여 기존 브라우저에서 웹 페이지 상에 별도로 부착이 된 웹 문서까지는 파악하기 힘들었던 단점을 극복하고 정확하게 웹 페이지에 부착된 인디케이터의 위치를 파악할 수가 있고, 이러한 인디케이터를 사용하는 유저의 구체적인 정보를 추출할 수가 있으며 더 나아가 이를 통해 유저의 타겟 광고, CRM 자료로 활용이 가능하게 된다.
물론, 유저가 추적 프로그램(200)의 설치를 인지한 경우 유저 프라이버시 보호 차원에 의하여 본 발명의 핵심이라 할 수 있는 유저 웹 페이지 이동 탐색 기능을 임의로 제한할 수도 있다.
도 1을 참조하면, 본 발명에 따른 웹 페이지 구조 분석을 통한 웹 사이트 정보 시스템은 메시지 데이터베이스(222)를 관리 및 분석하는 메시지 분석 모듈(310)을 구비한 관리 서버(300), 클라이언트 서버에 설치되어 유저의 웹 서핑 이동 경로를 추적하며 웹 페이지 구조 분석을 위한 자료를 마련하고 인디케이터 실행 모듈(230) 및 인디케이터 확인 모듈(240)을 내장한 추적 프로그램(200)으로 이루어져 있다.
추적 프로그램(200)은 본 발명에 따른 핵심 기능인 웹 페이지의 이동 경로를 파악하기 위한 수단으로서, 메시지 발생 모듈(210)과 메시지 저장 모듈(220), 인디케이터 실행 모듈(230), 인디케이터 확인 모듈(240)로 이루어져 있다.
메시지 발생 모듈(210)은 후술할 3가지의 웹 페이지 이동 메시지를 이동 과정 별로 발생하는 기능을 수행하는 것이고, 메시지 저장 모듈(220)은 이러한 웹 페이지 이동 메시지를 저장하여 데이터베이스화(메시지 데이터베이스(222))하여 관리 서버(300)에 전송하는 기능을 가진다. 또한, 인디케이터 실행 모듈(230)은 상기 인디케이터(100)의 생성 및 실행, 정보 수록 기능을 하며, 인디케이터 확인 모듈(240)은 이동되는 웹 페이지에서 인디케이터(100)가 존재하는지 여부를 파악하는 기능을 수행한다.
관리 서버(300)는 상기 메시지 데이터베이스(222)를 전송받아 저장, 관리하고 메시지 분석 모듈(310)을 통해 상기 메시지 데이터베이스(222)를 분석하여 웹 페이지 구조 및 이를 포함한 웹 사이트의 구조를 분석할 뿐 아니라 유저별, 웹 페이지별로 다양한 접속 통계 자료를 산출할 수 있고, 상기 인디케이터 확인 모듈(240)의 인디케이터 정보를 전송받아 웹 페이지에 부착된 인디케이터(100)의 존재 및 위치 등의 정보를 수집 및 관리하는 역할을 수행한다.
도 3은 본 발명에 따른 웹 페이지 구조 분석을 통한 웹 사이트 정보 파악 방법의 개략적인 절차를 도시한 순서도이다.
도 3을 보아 알 수 있듯이, 본 발명에 따른 방법은 크게 3가지의 페이지 이동 메시지를 웹 페이지 이동 시작부터 이동 완료에 이르기까지 순차적으로 발생하는 단계로 이루어져 있는 바, 먼저 웹 페이지 이동 메시지에 대한 설명을 하도록 한다.
웹 페이지 이동 메시지는 유저가 브라우저를 실행 시부터 발생되어 브라우저 종료 시까지 지속적으로 발생되는 메시지들 중 다음과 같은 메시지를 말한다.
1) 페이지 이동 시작 메시지 - 유저가 주소창에 URL을 직접 입력하거나 웹 페이지의 link를 클릭하였을 때 웹 페이지의 이동이 시작되는 경우 메시지 발생모듈에서 발생되는 메시지를 말한다. 이러한 페이지 이동 시작 메시지를 통하여 모든 웹 페이지 당 하나의 thread 아이디(아이디, 작업 아이디라고도 함)를 얻을 수 있 다. 만약 브라우저가 최초로 접속된 경우, 즉 처음으로 특정 웹 페이지를 접속하게 된 경우에는 신규한 thread 아이디를 얻을 수 있으며 이는 하기에서 구체화된다.
2) 페이지 이동 완료 메시지 - 이동된 웹 페이지 정보를 모두 수신한 이후 모니터 상에 웹 페이지를 디스플레이하기 직전에 발생하는 메시지를 의미한다. 이러한 페이지 이동완료 메시지는 후술하겠지만, URL 정보, 아이디 정보 등을 포함하게 된다.
3) 문서 완료 메시지 - 웹 페이지의 모든 작업이 완료되어 발생하는 메시지를 말한다. 이러한 문서완료 메시지는 하나의 thread가 완료될 때마다 발생하는 것으로, 서브 페이지 완료 및 모든 thread 완료 등의 판단을 하기 위해 꼭 필요한 메시지이다.
이는, 최상위의 thread가 마지막 발생하여 페이지의 이동이 완료될 수 있지만, 이동 완료 이후, iframe 또는 frameset등으로 페이지 내부의 일부분만 변경되어 사용자가 다른 페이지로 인식하는 경우를 파악하고자 할 때 유용하게 활용이 된다.
더불어, 인디케이터의 존재 여부를 바로 이 문서 완료 메시지 발생 단계에서 파악하게 된다.
이러한 3가지의 웹 페이지 이동 메시지를 웹 페이지 이동 과정(물론 하기에서 설명하겠지만 단일 페이지와 복합 페이지의 이동 순서는 차이가 있음)에 따라 발생함으로 웹 페이지 구조 파악을 위한 자료로 활용하게 된다.
여기서, 작업 아이디(스레드 아이디, 아이디)라 함은 페이지 이동 사이클 당 발생하는 웹 페이지 식별 기호를 의미하며, 이는 후술하겠지만 서브 페이지마다 페이지 완료/문서완료 메시지가 무작위로 발생하게 될 때 서브 페이지 등의 정확한 출처를 인식하도록 하는데 유용하게 사용이 된다.
우선, 브라우저의 발생 메시지를 얻기 위해서는 COM의 message invoke 기능을 이용해야 하며, 브라우저는 각 URL 당 하나의 스레드(thread)를 생성하여 각 웹 페이지 이동을 독립적으로 진행하는 바, 결과적으로 웹 페이지 이동은 직렬 이동이 아닌, 병렬적인 이동 방법(하기 언급할 도면에서 더욱 상세히 설명할 것임)으로 진행이 된다. 따라서 웹 페이지 구조 파악을 위해서 모든 이동 메시지가 발생할 때 각 이동 메시지, 구체적으로 특정 아이디가 어느 스레드(또는 어느 최상위 아이디)에 속하는지, 어떤 상태인지를 파악해야 한다.
이를 해결하기 위하여, 본 발명에서는 웹 페이지에 관련된 여러 정보를 생성, 추출하기 위한 이동 메시지의 발생 과정을 거치는 바 이동 메시지의 발생 순서를 보다 구체적으로 설명하면 다음과 같다.
웹 페이지의 이동이 시작되면 페이지 이동 시작 메시지가 발생하며 여기서 해당 URL의 thread 아이디(아이디, 작업 아이디라고도 함)와 기타 추가 정보를 얻을 수 있다. 만약 이 이동 시작 메시지가 브라우저 시작 이후 처음 발생한 것이라면 웹 페이지 이동을 구분할 수 있는 최 상위 작업 아이디를 얻을 수가 있게 된다.
이후 해당 페이지의 정보의 수신이 완료되면 페이지 이동 완료 메시지가 발 생된다. 이 때 어떤 thread에 해당하는 메시지인지 확인하는 바, 구체적으로 상기 이동 시작 메시지 발생 단계에서 생성된 아이디를 통해 현재 이동 완료된 웹 페이지가 어느 메인 페이지 내지 최 상위 페이지의 아이디에 관련된 것인지를 분석하는 과정을 통해 달성이 가능하다.
더불어, 이동 완료메시지 발생 단계에서는 해당 URL을 추출하는 과정을 통하여 정확한 URL 주소를 얻을 수 있다. 여기서, 이동 시작 시에 URL을 추출하지 않는 이유는 시작 시 발생하는 URL의 정보는 사용자가 입력 등의 이유로 정확하지 않은 URL일 수 있으며, 해당 웹 사이트를 관리하는 웹 서버의 URL 관련 시스템에서 이를 임의로 변경할 수 있기 때문이며, 결국 이러한 이유로 웹 페이지의 정보가 확정되어 모두 수신한 이후인 이동완료시에 URL을 추출하는 것이다.
이 두 가지의 메시지가 발생하는 동안의 각 이동 작업 당 각 아이디, URL, 아이디 발생순서 등의 정보를 트리(tree) 구조로 분석한 메시지 데이터베이스 생성을 통해 페이지의 구조를 파악한다.
마지막으로 문서완료 메시지가 발생하면 기존에 파악된 웹 페이지 트리 구조로 이루어진 메시지 데이터베이스 내 에서 어떤 웹 페이지의 작업이 완료된 것인지 파악하고(만일 최초로 방문한 웹 사이트인 경우에는 상기 확인 작업 이후 새롭게 방문된 웹 사이트에 대한 신규 트리 구조가 생성될 것임), 내부 페이지의 완료일 경우와 최 상위 작업의 완료인지를 확인하는 방식에 의하여 웹 페이지 완료 작업을 처리한다.
이 후, 이러한 각 웹 페이지에 대한 3종류의 이동 메시지는 메시지 데이터베 이스로 생성이 되어 이를 관리 서버에 전송하고, 관리 서버에서는 이러한 메시지 데이터베이스를 통해 웹 사이트의 구조 분석, 메인 페이지의 방문 통계, 서브 페이지의 방문 통계, 방문 시간과 같은 웹 사이트의 접속 현황 등의 정보뿐 아니라 특정 유저의 웹 사이트 방문 상황을 분석하여 CRM 자료, 고객 관리 자료로 활용할 수가 있고 더불어 인디케이터를 사용하는 유저를 대상으로 타겟 광고를 이룰 수 있는 기반을 얻을 수 있게 된다.
도 4는 본 발명에 따른 웹 페이지 이동 시 메시지의 발생 순서를 도시한 개념도이다.
먼저, 도 4를 설명하기 이전에 웹 사이트를 이루는 기본적인 웹 페이지의 구조에 대해 언급하고자 한다.
웹 페이지 구조는 클라이언트 화면상에 나타나는 페이지의 구조를 말하는 것으로서, 하나의 URL로 이루어진 단일 페이지 구조와 여러 개의 URL 주소로 구성된 복합 페이지 구조가 있다. 복합 페이지 구조의 경우, 페이지의 이동을 구분할 수 있고 주소 창에 표시되는 URL에 해당하는 페이지인 메인 페이지(최 상위 페이지)와 이 메인 페이지 내부에 iframe 또는 frameset으로 생기는 서브 페이지로 나눌 수 있다.
메인 페이지는 페이지 전환을 구분할 수 있는 페이지의 기본 단위의 의미를 가진다. frame을 사용하지 않는 페이지는 하나의 URL에 매칭 되는 하나의 페이지만이 존재하지만, frameset을 사용할 경우 메인 페이지에는 내부 페이지의 URL로 구 성된 frame 태그로만 구성되고 클라이언트 화면상에 표현되는 모든 내용은 내부의 frame에서 처리한다. 복합 페이지에서 일반적으로 알려진 방식에 의하면, 메인 페이지의 전환으로 기본적인 페이지 전환을 확인할 수 있지만, 내부 페이지 변경 또는 새로 고침 등은 확인 할 수 없다.
서브 페이지는 메인 페이지 하위에 포함되는 모든 페이지들을 말하는 바, 페이지 이동 구분을 파악하고자 할 때 세브 페이지만으로 확인 할 수 없지만 간접적인 방안으로 활용이 될 수 있으며, 예를 들어 서브 페이지의 이동/변경 정보를 통하여 복합 페이지의 새로 고침 또는 내부 페이지 변경을 확인할 수 있다.
따라서 복합 페이지의 경우에서는 특히 서브 페이지의 변화 여부를 주목할 필요가 있으며 이를 위해 본 발명에 따른 방법은 서브 페이지에 대해서도 별도의 3종류로 이루어진 이동 메시지들을 발생하고 이러한 서버 페이지들의 메인 페이지에의 종속 관계를 관찰하게 되어 정확한 웹 사이트 전체 구조를 파악하고자 한다.
도 4를 보아 알 수 있듯이, 복합 페이지로 이동이 될 경우 메인 페이지의 페이지 이동 시작 메시지를 시작으로 하여 내부 컨텐츠를 로딩하는 과정과 더불어 페이지 이동 완료 메시지가 발생된다. 이때 페이지 안에 다른 서브 페이지들이 존재한다면 서브 페이지들의 페이지 이동 시작/ 완료/ 문서완료 메시지가 발생하는데, 페이지 이동 시작 메시지는 순차적으로 발생하되, 기타 이동 완료/ 문서 완료 메시지는 무작위로 발생하는 순서를 가진다.
그 이유는 각 페이지 당 하나의 스레드(thread)가 생성되어 동시에 페이지 이동이 진행되기 때문에 해당 웹 페이지의 내부 컨텐츠의 로딩이 완료되는 시점을 기다림으로 메시지 발생 순서를 굳이 늦출 필요가 없기 때문이며, 다시 말해 thread를 할당하는 페이지 이동 시작 시에만 아이디 발급 단계를 포함한 상태에서 순차적으로 페이지 이동 시작 메시지가 발생하여 일단 아이디 확보를 선행하고, 그 이후는 서브페이지의 코드 량, 로딩 시간에 따라 각기 기타 메시지들이 발생되는 것이다. 이 후, 종국적으로 메인 페이지의 문서완료 메시지가 발생하게 되면, 해당 페이지 이동이 완료되는 것으로 간주를 하고 이러한 웹 페이지의 구조, 즉 URL 정보, 다른 웹 페이지에서 발행된 아이디의 연관 관계를 통한 메인 페이지 내지 서브 페이지 여부가 분석이 된다.
도 5는 본 발명에 따른 이동 메시지를 통해 생성되는 웹 페이지의 트리 구조를 도시한 개념도이다.
웹 페이지 트리 구조는 메시지 데이터베이스를 웹 페이지 별로 알기 쉽게 정리한 정보로, 다시 말해 웹 페이지 구조를 메인 정보에서 서브 정보에 이르기까지 브랜치(branch) 구조를 가지도록 함으로 전체적으로 트리 형식으로 표현한 방식으로서 최상위 페이지(메인 페이지)를 기준으로 하위 페이지(서브 페이지)로 가지를 쳐가는 구조이다.
이러한 트리 구조로서 메시지 데이터베이스를 마련하여 웹 페이지를 분석하게 되면, 본 발명에 따른 방법에서 작업 소요 시간을 줄이면서 메인 페이지, 서브 페이지 등의 위치와 소속 정보를 보다 손쉽게 찾을 수 있고, 새로운 페이지의 추가 및 삭제 변경 파악이 용이하다는 장점을 가지게 된다. 더불어, 이미 접속이 된 웹 사이트의 경우에는 웹 사이트 구조에 대한 트리 구조가 기 저장되어 있는 상태이기 때문에 기저장된 트리 구조와 비교를 하여 보다 신속하게 정보 처리를 할 수 있는 특성을 가지게 된다.
상술하였듯이, 페이지 이동 메시지들을 통해 웹 페이지의 구조를 유추하기 위하여 먼저 페이지 이동 시작 메시지 발생 단계에서 각 페이지를 구분할 수 있는 아이디를 부여하는데, 이러한 아이디 역시 페이지 트리 구조 내에 저장이 되어 있게 된다.
만일, 특정 웹 페이지를 처음으로 이동하게 되는 경우, 이동 시작 메시지 발생 단계에서 생성된 작업 아이디는 브라우저의 이동 작업이 종료될 때까지 지속적으로 유지되어 이동 작업에 대한 식별 기능을 담보하게 된다.
이렇게 최초로 이동되어 발생된 작업 아이디 이외에 발생하는 페이지의 작업 아이디들은 모두 무작위로 생성된다. 페이지의 이동시에도 새로 발생되며, 페이지의 새로 고침의 경우에도 새로 발생된다.
따라서 관리 서버에서 이러한 아이디의 비교 작업 및 기존 아이디와 신규 아이디에서 URL 정보의 일치 여부를 판단하는 과정을 통하여 특정 웹 페이지의 접속 회수, 웹 페이지의 이동 여부를 파악할 수 있게 되는 것이다.
하지만 복합 페이지에서 일부분의 페이지만 변경될 경우 작업 아이디는 새로 부여되지 않는 것을 기본으로 한다.
이러한 원칙에 따라 페이지의 변경 상태가 일반적인 페이지 이동인지, 아니면 일부분이 변경되어 새로운 페이지로 인식되어야 하는 경우인지를 판단할 수가 있다.
다음은 웹 페이지 구조 분석을 위해 발생 및 기록되는 메시지 데이터베이스를 이루는 데이터, 즉 아이디, URL 정보, 이동 메시지 발생순서 정보 등의 사용 의미에 대해 언급한다.
페이지 이동 시작 메시지가 발생하면 신규 접속 상태인지를 분석하기 위해 해당 웹 페이지의 최 상위 페이지 아이디가 미리 저장되어 있는지 확인한다. 저장되어 있지 않은 상태라면 브라우저가 처음 시작되어 아직 최초 작업 아이디가 부여되지 않은 경우임으로 새로운 최 상위 페이지 아이디를 부여한다.
이미 최 상위 페이지의 아이디가 부여된 경우라면, 두 가지의 경우로 구분이 가능하다.
즉, 최초 아이디가 재 발생된 경우에는 웹 페이지의 이동이 새로 시작되는 것으로 파악이 가능하고, 최초 아이디가 아닌 다른 아이디가 발생된 경우에는 페이지의 이동이 아닌 복합 페이지 내부의 서브 페이지의 시작임을 파악할 수 있다.
단일 페이지의 경우 페이지 이동 사이클이 단 한번 이루어짐으로 서브 페이지의 정보는 존재하지 않으므로 아이디 정보만으로 웹 페이지 구조 분석이 가능하며 다만 단일 페이지의 URL을 부가 정보로 활용하는 정보로 충분하다.
반면 복합 페이지의 경우, 페이지 아이디로만은 새로 고침 상태인지 아니면 일부 변경인지 파악하기 어렵기 때문에 아이디 이외에 페이지의 URL 및 페이지 생선 순서와 같은 정보가 발생 및 기록되어야 한다.
즉, 복합 페이지에서는 메인 페이지 이하의 서브 페이지들이 존재하기 때문 에 메인 페이지의 아이디 정보 이외에 서브 페이지의 작업 아이디, 서브 페이지의 URL, 서브 페이지의 발생 순번 등의 정보를 페이지 트리구조에 기록 관리하여 이러한 아이디 비교, URL 비교, 서브 페이지의 발생순서 정보를 종합적으로 분석하여 전체적인 복합 페이지의 이동 여부 내지 구조를 파악할 수가 있으므로, 복합 페이지에서는 필수적으로 URL 정보 및 서브 페이지 발생순서 정보가 이용된다.
하기에서는 단일 페이지 및 복합 페이지의 이동 완료 여부를 확인하는 절차를 보다 구체적으로 설명하기로 한다.
도 6은 본 발명에 따른 페이지 완료 상태를 확인하는 상태를 도시한 개념도이다.
단일 페이지의 경우, 단일 페이지 이동 사이클이 1회 발생하고 하위에 어떠한 서브 페이지를 보유하지 않고 있으므로, 별도의 트리 구조 기록 없이 3종류의 이동메시지의 발생에 의하여 페이지 완료 여부를 파악한다.
복합 페이지의 경우, 메인 페이지 이동 사이클 하위에 다수의 서브 페이지 이동 사이클이 존재하기 때문에 메인 페이지와 서브 페이지를 구분할 필요가 있는 바, 구체적으로 메인 페이지 이동 시작 메시지 발생 이후 하위의 서브 페이지 이동 메시지가 로딩 순서에 따라 무작위로 발생되어 모든 서브 페이지의 이동 과정이 완료되면 메인 페이지 이동 사이클의 문서 완료 메시지가 발생하는 과정을 거치게 된다.
이 과정에서, 메인 페이지 문서 완료 메시지가 존재하는지 여부에 따라 복합 페이지 이동 완료를 파악할 수 있다.
도 7은 복합 페이지의 새로고침 시에 페이지의 이동 여부를 파악하는 절차를 도시한 개념도이다.
상기 도 5와 같이, 페이지 트리구조가 정확하게 작성이 되었다면 그 이후 해당 웹 페이지를 방문하였을 때 전체적인 웹 페이지 구조를 파악하기 편리하게 된다.
특히 복합 페이지는 하위에 다수의 서브페이지들이 존재함으로 이후 관리(새로 고침 등)를 위해 서브페이지에 대한 정보를 페이지 트리구조에 자세히 기록할 필요가 있다.
구체적으로 도 7을 참조하면, 복합 페이지에서 새로 고침이 발생할 경우 메인 페이지를 제외한 모든 서브 페이지들의 reload가 발생한다. 이때 발생되는 페이지 이동 사이클의 아이디들은 모두 새로 발생되어 이전 페이지 작업 아이디와는 전혀 다른 아이디가 발생된다.
따라서 문서 완료 메시지 발생 이후 재차 페이지 이동 시작 메시지가 발생했을 경우 작업 아이디가 이전 작성된 페이지 트리 구조에 포함되지 않는 가와 메인 페이지의 아이디는 아닌가를 확인하여 둘 모두에 해당하지 않는다면 복합 페이지의 새로 고침임을 파악할 수 있게 된다.
도 8은 단일 페이지의 새로고침 시에 페이지의 이동 여부를 파악하는 절차를 도시한 개념도이다.
단일 페이지는 하위의 페이지 자체가 없다. 그럼으로 복합 페이지에서처럼 하위 페이지의 메시지 발생으로 페이지 새로 고침을 알아낼 수는 없다. 이것을 방지하기 위하여 다음 두 가지의 메시지를 추가로 이용하여 단일 페이지의 새로 고침상태에도 대응 할 수 있다.
타이틀 변경 메시지 다운로드 완료 메시지
브라우저의 타이틀이 바뀌면 발생하는 메시지 페이지 내부 콘텐츠들의 다운로드가 완료되면 발생하는 메시지
즉, 타이틀 변경 메시지는 브라우저의 타이틀이 변경되었을 때 발생하는 메시지이고, 다운로드 완료 메시지는 페이지 내 모든 컨텐츠의 다운로드가 완료되었을 때 발생하는 메시지이다.
다시 말해, 단일 페이지의 새로 고침이 시작되면 가장 먼저 발생하는 메시지중 하나가 타이틀 변경 메시지다. 페이지 이동 완료 이후 만약 페이지 이동 시작 메시지가 발생하지 않은 상황에서 타이틀 변경 메시지가 발생하였고, 페이지의 구조도 단일 페이지라면 페이지의 새로 고침이 일어날 수 있는 상황임을 가정해야 한다. 즉, 새로 고침이라는 개념이 이미 웹 페이지의 로딩이 완료된 이후에 이루어지는 행위이기 때문에 웹 페이지가 단일 페이지라는 정보를 확인한 이후에 후속적인 메시지 발생 여부 및 종류에 의하여 새로 고침 상태를 파악하는 것이다.
다시 말해, 문서 완료 메시지 발생 이후에 별도의 이동 시작 메시지가 발생하지 않고 타이틀 변경 메시지 및 문서의 완료의 확정을 알리는 다운로드 완료 메시지의 여부로서 단일 페이지의 새로 고침 상태를 파악할 수 있게 된다.
여기서, 타이틀 변경 메시지 발생 상황을 페이지 새로 고침으로 단정 짓지 않고 가정만 하는 이유는 타이틀 변경 메시지는 페이지 내에서 스크립트 수정 등으로 발생할 수 있는 여지가 있기 때문이며 따라서 타이틀 변경으로는 페이지 이동의 시작이 예상된다는 것만 인식하고, 타이틀 변경 메시지 이후 다운로드 완료 메시지가 발생되면 페이지의 새로 고침이 발생되었다고 인식한다.
도 9는 서브 페이지의 변경으로 서브 페이지의 이동 사이클만 변경되었을 때 페이지 이동 여부를 판단하는 절차를 도시한 개념도이다.
웹 사이트의 제작 방법에 따라서 내부의 frame으로 게시판을 구현하여 메인 페이지의 변화 없이 frame 내부의 게시판만을 변경하여 사이트의 정보를 표시하는 방법과 페이지의 광고들을 frame으로 제작하여 일정시간에 한 번씩 다른 광고로 교체하는 방법이 존재한다.
이 때 두 가지 방법 모두 내부의 페이지가 페이지 이동 사이클을 발생시키지만 처음의 게시판 같은 경우 사용자는 바뀌기 전과 바뀐 후를 다른 페이지로 인식하는 반면, 광고의 경우 수정된다 하여도 새로운 페이지로 인식하지 않는다. 따라서 서브 페이지의 이동시에는 새로운 페이지로 인식할 건지 무시해야하는 이동인지를 판단해야 한다.
메인페이지가 아닌 서브페이지만 변경될 경우 서브페이지의 작업 아이디는 새로 부여되지 않고 이전의 작업 아이디를 가지고 있다. 따라서 이 작업 아이디를 가지고 페이지 구조 트리에서 어떤 페이지에 해당하는지 찾아낸다. 그리고 새로 이 동하는 URL과 저장된 기존의 URL이 다르다면 페이지의 변경으로 인식해야 하고 그렇지 않고 같은 URL이라면 페이지의 변경을 무시한다.
그리고 URL이 다른 경우라면 새로운 URL의 상태에 따라서 하위의 서브페이지가 추가되는 경우가 있는데 이 페이지 또한 무시하지 말고 페이지 트리 구조에 추가해야 한다.
이러한 과정을 거쳐 본 발명에 따른 방법을 통하여 특정 유저의 웹 페이지의 이동 경로를 파악할 수 있게 되며, 다시 말해 특정 유저의 웹서핑 이동 경로를 수집한 데이터를 수록한 메시지 데이터베이스가 관리 서버로 전송되어 관리 서버에서는 이동 메시지 데이터베이스의 분석을 통해 각 웹 사이트의 접속 현황, 특정 유저의 접속경로 분석 등의 구체적인 통계 자료를 파악할 수가 있다.
또한, 만일 웹 페이지에 인디케이터가 부착되어 있을 경우 관리 서버는 인디케이터에 대한 정보까지 수집하여 인디케이터의 부착 위치 등의 정보 및 자료를 파악할 수도 있게 된다.
구체적으로 문서 완료 메시지가 생성되는 단계에서, 인디케이터에서 전송하는 정보가 존재하는지 여부를 확인하여 만일 존재할 경우 해당 인디케이터의 존재 정보를 문서 완료 메시지와 함께 상기 관리 서버로 전송하여, 상기 관리 서버는 이러한 메시지 데이터베이스에 인디케이터 존재 정보를 포함할 수가 있다.
또는, 문서 완료 메시지가 발생하면 문서의 정보를 관리 서버로 전송하여 해당 문서에 존재하는 인디케이터를 찾아 재전송하여 웹 페이지에 인디케이터를 포함 하여 사용자에게 보여주는 과정으로 이루어질 수도 있다.
현재의 브라우저 구조만으로는 상술한 인디케이터의 위치 내지 존재 정보를 파악하는 것이 어려웠는데, 본 발명에 따른 방법 및 이러한 인디케이터 존재 정보를 통하여 특정 웹 페이지에 부착이 된 인디케이터의 정확한 위치 정보를 재현할 수가 있고 더불어 이러한 정보를 수집하여 관리 서버에 기록/관리/저장이 가능하며, 이로 인하여 인디케이터 사용 유저를 대상으로 타겟 광고를 수행할 수도 있음과 동시에 기타 기존의 로그 분석을 통해 구체적으로 알 수 없던 정보를 수집할 수가 있다.
지금까지 설명한 바와 같이, 본 발명에 따른 웹 페이지 구조 분석을 통한 웹 사이트 정보 파악 방법의 구성 및 작용을 상기 설명 및 도면에 표현하였지만 이는 예를 들어 설명한 것에 불과하여 본 발명의 사상이 상기 설명 및 도면에 한정되지 않으며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양한 변화 및 변경이 가능함은 물론이다.
이상에서 설명한 바와 같이, 본 발명에 따른 웹 페이지 구조 분석을 통한 웹 사이트의 정보 파악 방법에 따르면,
1) 유저의 웹 서핑 경로를 분석하여 웹 사이트 정보 및 구조를 파악함으로써, 로그 파일이나 스크립트를 웹 서버에 삽입하지 않을 뿐 아니라 자신이 운영하 는 웹 사이트 이외에 다른 운영자가 운영하는 여러 웹 사이트의 제반 이용 상황을 파악할 수 있는 장점이 있고,
2) 단일 웹 페이지 내지 복합 웹 페이지와 같이 서로 다른 구조로 이루어진 어떠한 웹 페이지에서도 동일하게 높은 수준의 웹 페이지 이동 정보 및 웹 사이트 구조 및 정보를 취득할 수 있을 뿐 아니라,
3) 웹 페이지 분석을 위한 프로그램 간에 통신이 가능하도록 하여 이러한 프로그램을 사용하는 유저 간에 웹 페이지 이동 경로 등의 웹 페이지 이용 정보를 공유하여 보다 다양한 정보를 추구할 수 있음과 동시에,
4) 단일/복합 페이지의 새로 고침 여부, 서브 페이지 일부의 변경 여부를 디테일하게 파악할 수 있으며,
5) 인디케이터와 연동이 되어 기존 브라우저 구조에서 수행하기 어려웠던 웹 페이지에 부착이 된 인디케이터의 정확한 재현을 수행할 수 있을 뿐 아니라, 인디케이터를 웹상에서 정확하게 구현하는데 큰 도움을 줌과 동시에, 유저의 타겟 광고 및 CRM 자료 등의 광범위하고 전문적인 정보를 취득할 수 있다는 효과를 가진다.

Claims (9)

  1. 웹 페이지 구조 분석을 통한 웹 사이트 정보 파악 방법으로서,
    웹 페이지 이동 시작 시 이동 시작 메시지를 발생하되, 상기 이동 시작 메시지는 각 웹 페이지를 식별하기 위해 발급된 아이디를 포함하는, 제 1단계;
    웹 페이지 이동 완료 시 이동 완료 메시지를 발생하되, 상기 이동 완료 메시지는 해당 웹 페이지의 URL 정보 및 자신이 상기 아이디를 통해 해당 웹 페이지가 메인 페이지인지 서브 페이지인지 여부를 수록한 소속 정보를 포함하는, 제 2단계;
    웹 페이지 로딩이 모두 완료되었을 때 어느 웹 페이지의 이동 완료가 되었는지를 분석한 정보를 포함하는 문서 완료 메시지를 발생하는 제 3 단계;
    상기 메시지들을 취합하여 메시지 데이터베이스를 생성하는 제 4단계;
    상기 메시지 데이터베이스의 분석을 통해 특정 유저의 방문 상황 및 접속 현황의 웹 사이트 정보를 파악하는 제 5단계;로 구성된 것을 특징으로 하는, 웹 페이지 구조 분석을 통한 웹 사이트 정보 파악 방법.
  2. 제 1항에 있어서,
    복수 개의 웹 페이지를 이동할 경우 상기 제 1 내지 제 3단계에서의 메시지들의 발생순서 단계는,
    상기 이동 시작 메시지는 웹 페이지 별로 순차적으로 발생이 되고, 상기 이동 완료 메시지와 문서 완료 메시지는 상기 이동 시작 메시지 발생 이후 로딩 순서 에 따라 무작위로 발생되는 단계로 이루어지고,
    상기 메시지 발생 순서를 수록한 정보를 상기 메시지 데이터베이스에 저장하는 단계;를 포함하는 것을 특징으로 하는, 웹 페이지 구조 분석을 통한 웹 사이트 정보 파악 방법.
  3. 제 1항에 있어서,
    상기 제 4단계는,
    상기 제 1 내지 3단계에서 발생한 각 메시지들을 통해 특정 웹 사이트의 복수 개의 웹 페이지들을 메인 페이지에서 서브 페이지에까지 트리(tree) 구조로 파악한 메시지 데이터베이스를 생성하는 것을 특징으로 하는, 웹 페이지 구조 분석을 통한 웹 사이트 정보 파악 방법.
  4. 제 1항에 있어서,
    상기 제 1 단계는,
    해당 웹 페이지에 대한 최초 방문인지 여부를 파악하기 위해, 상기 메시지 데이터베이스에서 해당 웹 페이지에 대한 아이디 정보가 저장되었는지 여부를 확인하는 단계를 포함하는 것을 특징으로 하는, 웹 페이지 구조 분석을 통한 웹 사이트 정보 파악 방법.
  5. 제 1항에 있어서,
    웹 페이지가 복합 페이지의 새로고침 상태일 경우,
    서브 페이지에서 발행된 아이디가 기존 아이디와 일치하는지 여부를 비교분석하는 과정을 통해 복합 페이지의 새로고침 상태를 파악하는 단계;를 포함하는 것을 특징으로 하는, 웹 페이지 구조 분석을 통한 웹 사이트 정보 파악 방법.
  6. 제 1항에 있어서,
    웹 페이지가 단일 페이지의 새로고침 상태일 경우,
    타이틀 변경 메시지를 생성하는 단계; 및,
    웹 페이지의 내부 컨텐츠 다운로드 완료시에 다운로드 완료 메시지를 추가로 생성하는 단계;를 포함하여,
    상기 타이틀 변경 메시지와 다운로드 완료 메시지의 여부로서 단일 페이지의 새고고침 상태를 파악하는 것을 특징으로 하는, 웹 페이지 구조 분석을 통한 웹 사이트 정보 파악 방법.
  7. 제 1항에 있어서,
    복합 페이지에서 서브 페이지만 변경이 된 경우,
    서브 페이지의 작업 아이디를 재생성 없이 유지하는 단계;
    유지된 아이디를 통해 상기 메시지 데이터베이스에서 해당 웹 페이지의 위치를 검색하는 단계;
    현재의 URL 정보와 검색된 웹 페이지의 URL 정보가 다를 경우 웹 페이지의 변경으로 인식하는 단계;를 추가로 포함하는 것을 특징으로 하는, 웹 페이지 구조 분석을 통한 웹 사이트 정보 파악 방법.
  8. 제 1항에 있어서,
    상기 제 3단계는,
    해당 웹 페이지에 별도로 부착된 인디케이터가 존재하는지 여부를 확인하여, 인디케이터가 존재할 경우 별도의 인디케이터 존재 정보를 생성하는 것을 특징으로 하는, 웹 페이지 구조 분석을 통한 웹 사이트 정보 파악 방법.
  9. 제 8항에 있어서,
    상기 인디케이터 존재 정보는 인디케이터 위치 정보, 내용 정보를 포함하여 별도의 데이터베이스로 저장되는 것을 특징으로 하는, 웹 페이지 구조 분석을 통한 웹 사이트 정보 파악 방법.
KR1020070052016A 2007-05-29 2007-05-29 웹 페이지 구조 분석을 통한 웹 사이트의 정보 파악 방법 KR100755468B1 (ko)

Priority Applications (7)

Application Number Priority Date Filing Date Title
KR1020070052016A KR100755468B1 (ko) 2007-05-29 2007-05-29 웹 페이지 구조 분석을 통한 웹 사이트의 정보 파악 방법
CN200880017826A CN101689176A (zh) 2007-05-29 2008-05-29 透过分析网页结构抓取网站信息的方法
JP2010510216A JP5134684B2 (ja) 2007-05-29 2008-05-29 ウェブページ構造分析を通したウェブサイトの情報把握方法
US12/602,069 US8392470B2 (en) 2007-05-29 2008-05-29 Method for grasping information of web site through analyzing structure of web page
PCT/KR2008/003023 WO2008147126A1 (en) 2007-05-29 2008-05-29 Method for grasping information of web site through analyzing structure of web page
EP08765985A EP2171612A4 (en) 2007-05-29 2008-05-29 METHOD FOR COLLECTING INFORMATION FROM WEBSITES BY ANALYZING THE STRUCTURE OF A WEBSITE
RU2009149199/08A RU2424562C1 (ru) 2007-05-29 2008-05-29 Способ для определения информации о web-сайте посредством анализа структуры web-страницы

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070052016A KR100755468B1 (ko) 2007-05-29 2007-05-29 웹 페이지 구조 분석을 통한 웹 사이트의 정보 파악 방법

Publications (1)

Publication Number Publication Date
KR100755468B1 true KR100755468B1 (ko) 2007-09-04

Family

ID=38736504

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070052016A KR100755468B1 (ko) 2007-05-29 2007-05-29 웹 페이지 구조 분석을 통한 웹 사이트의 정보 파악 방법

Country Status (7)

Country Link
US (1) US8392470B2 (ko)
EP (1) EP2171612A4 (ko)
JP (1) JP5134684B2 (ko)
KR (1) KR100755468B1 (ko)
CN (1) CN101689176A (ko)
RU (1) RU2424562C1 (ko)
WO (1) WO2008147126A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100938816B1 (ko) * 2008-12-29 2010-01-26 주식회사 로그 접속자별 접속 통계 정보 제공 방법 및 시스템
WO2011087171A1 (ko) * 2010-01-18 2011-07-21 주식회사 로그 접속자 단말에서 발생한 이벤트의 유형을 판단하는 방법

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073678B (zh) * 2010-12-03 2013-02-27 厦门市美亚柏科信息股份有限公司 一种网站信息分析系统及其方法
US8850308B1 (en) * 2011-03-11 2014-09-30 Amazon Technologies, Inc. Automated determination of website structure
US9430118B2 (en) * 2011-04-19 2016-08-30 International Business Machines Corporation Spatially-oriented traversal animations for network address transitions
EP2817738B1 (en) * 2012-02-22 2022-06-22 Nokia Technologies Oy Predictive service access
CN103678321B (zh) * 2012-09-03 2017-11-24 阿里巴巴集团控股有限公司 页面元素确定方法及设备、用户行为路径确定方法及装置
KR101401948B1 (ko) * 2012-11-19 2014-05-30 한국인터넷진흥원 대규모 웹사이트 방문점검 방법
US9841863B1 (en) * 2012-12-20 2017-12-12 Open Text Corporation Mechanism for partial page refresh using URL addressable hierarchical page structure
CN103971244B (zh) 2013-01-30 2018-08-17 阿里巴巴集团控股有限公司 一种商品信息的发布与浏览方法、装置及系统
US9614862B2 (en) * 2013-07-24 2017-04-04 Nice Ltd. System and method for webpage analysis
CN104423973B (zh) * 2013-08-20 2020-02-18 腾讯科技(深圳)有限公司 浮动框架页面加载信息的处理方法、装置及系统
US10460015B1 (en) * 2015-03-27 2019-10-29 Open Text Corporation Assimilation in multi model webpage composition
CN104951311B (zh) * 2015-07-03 2018-04-24 北京京东尚科信息技术有限公司 一种页面制作方法及装置
RU2682863C1 (ru) * 2017-12-15 2019-03-21 Общество с ограниченной ответственностью "САЙТСЕКЬЮР" Система и способ оценки веб-сайта на соответствие законодательству о персональных данных
CN113065055B (zh) * 2021-04-21 2024-04-02 深圳赛安特技术服务有限公司 新闻资讯抓取方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11345202A (ja) 1998-06-03 1999-12-14 Hitachi Ltd サービス提供形態のカスタマイズ方法
US6014638A (en) 1996-05-29 2000-01-11 America Online, Inc. System for customizing computer displays in accordance with user preferences
KR20030040263A (ko) * 2003-04-07 2003-05-22 주식회사 드림나우 인터넷 홈페이지 이용자의 행태 정보 획득 방법 및 그 장치

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3437933B2 (ja) * 1999-01-21 2003-08-18 インターナショナル・ビジネス・マシーンズ・コーポレーション ブラウザ共有方法及びシステム
US6393479B1 (en) * 1999-06-04 2002-05-21 Webside Story, Inc. Internet website traffic flow analysis
EP1264261B1 (en) * 2000-03-14 2005-11-16 Speed-trap.com Ltd. Monitoring operation of and interaction with services provided over a network
US6895111B1 (en) * 2000-05-26 2005-05-17 Kidsmart, L.L.C. Evaluating graphic image files for objectionable content
JP2002117206A (ja) * 2000-07-28 2002-04-19 Toshiba Corp Web視聴者分析方法、Web視聴者分析プログラム、記録媒体、Web視聴者分析システム
US7305622B2 (en) * 2000-12-05 2007-12-04 Clickfox, Llc Graphical user interface and web site evaluation tool for customizing web sites
US7165105B2 (en) * 2001-07-16 2007-01-16 Netgenesis Corporation System and method for logical view analysis and visualization of user behavior in a distributed computer network
US20040268233A1 (en) * 2002-06-27 2004-12-30 Oki Electric Industry Co., Ltd. Information processing apparatus and information processing method
US20040205514A1 (en) * 2002-06-28 2004-10-14 Microsoft Corporation Hyperlink preview utility and method
US20040039776A1 (en) * 2002-08-26 2004-02-26 Eugene Ballard System and method for efficient data refresh
KR100501410B1 (ko) * 2002-11-27 2005-07-18 한국전자통신연구원 서블릿 프로그램의 재사용 가능한 비즈니스 로직으로부터이제이비 컴포넌트를 생성하는 시스템 및 방법
US7624173B2 (en) * 2003-02-10 2009-11-24 International Business Machines Corporation Method and system for classifying content and prioritizing web site content issues
JP2005189942A (ja) * 2003-12-24 2005-07-14 Nec Corp Webサイトアクセス状況の集計方法、そのシステム、およびプログラム
US7672865B2 (en) * 2005-10-21 2010-03-02 Fair Isaac Corporation Method and apparatus for retail data mining using pair-wise co-occurrence consistency
US20080046562A1 (en) * 2006-08-21 2008-02-21 Crazy Egg, Inc. Visual web page analytics
CN101131747B (zh) * 2006-08-22 2012-02-01 国际商业机器公司 捕获和/或分析客户端的Web页面事件的方法、装置及系统
US9912766B2 (en) * 2007-03-23 2018-03-06 Yahoo Holdings, Inc. System and method for identifying a link and generating a link identifier for the link on a webpage

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6014638A (en) 1996-05-29 2000-01-11 America Online, Inc. System for customizing computer displays in accordance with user preferences
JPH11345202A (ja) 1998-06-03 1999-12-14 Hitachi Ltd サービス提供形態のカスタマイズ方法
KR20030040263A (ko) * 2003-04-07 2003-05-22 주식회사 드림나우 인터넷 홈페이지 이용자의 행태 정보 획득 방법 및 그 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100938816B1 (ko) * 2008-12-29 2010-01-26 주식회사 로그 접속자별 접속 통계 정보 제공 방법 및 시스템
WO2011087171A1 (ko) * 2010-01-18 2011-07-21 주식회사 로그 접속자 단말에서 발생한 이벤트의 유형을 판단하는 방법

Also Published As

Publication number Publication date
RU2424562C1 (ru) 2011-07-20
EP2171612A4 (en) 2011-02-02
JP2010530567A (ja) 2010-09-09
CN101689176A (zh) 2010-03-31
JP5134684B2 (ja) 2013-01-30
EP2171612A1 (en) 2010-04-07
US20100235402A1 (en) 2010-09-16
US8392470B2 (en) 2013-03-05
WO2008147126A1 (en) 2008-12-04

Similar Documents

Publication Publication Date Title
KR100755468B1 (ko) 웹 페이지 구조 분석을 통한 웹 사이트의 정보 파악 방법
US8413042B2 (en) Referrer-based website personalization
US7610276B2 (en) Internet site access monitoring
CN101131747B (zh) 捕获和/或分析客户端的Web页面事件的方法、装置及系统
US8533141B2 (en) Systems and methods for rule based inclusion of pixel retargeting in campaign management
US20120054440A1 (en) Systems and methods for providing a hierarchy of cache layers of different types for intext advertising
US8239257B2 (en) Displaying online advertisements
KR100377515B1 (ko) 인터넷광고 관리방법 및 이를 위한 시스템
CN104766014A (zh) 用于检测恶意网址的方法和系统
US20110238723A1 (en) Systems and methods for web decoding
CN101443751A (zh) 用于应用爬取器的方法和装置
CN102257525A (zh) 用于基于先前捕捉的相关性数据重定向广告的系统和方法
CN110209966B (zh) 一种网页刷新方法、网页系统及电子设备
WO2010042199A1 (en) Indexing online advertisements
CN103678321A (zh) 页面元素确定方法及设备、用户行为路径确定方法及装置
AU2008200613A1 (en) Tracking web server
CN103984762A (zh) 内容呈现控制系统和方法
CN102779123B (zh) 一种网站展示内容的截屏方法、系统和前台模块及方法
KR100645742B1 (ko) 웹 문서 생성을 포함한 다양한 정보 획득을 통한 검색데이터 수집 방법 및 그 장치
CN102761573B (zh) 一种媒体信息的用户浏览行为数据的监测方法
US20090210890A1 (en) Real-time data collection via hierarchical web page parsing
CN103618696B (zh) 对cookie信息进行处理的方法和服务器
CN106294101A (zh) 页面打点测试方法和装置
CN103838862B (zh) 一种视频搜索的方法、装置及终端
CN102930058A (zh) 一种在浏览器的地址栏中实现搜索的方法和装置

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130228

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140228

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140829

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee