KR101235139B1 - 웹사이트 내부구조 자동 추출 시스템 및 추출 방법 - Google Patents

웹사이트 내부구조 자동 추출 시스템 및 추출 방법 Download PDF

Info

Publication number
KR101235139B1
KR101235139B1 KR1020120056739A KR20120056739A KR101235139B1 KR 101235139 B1 KR101235139 B1 KR 101235139B1 KR 1020120056739 A KR1020120056739 A KR 1020120056739A KR 20120056739 A KR20120056739 A KR 20120056739A KR 101235139 B1 KR101235139 B1 KR 101235139B1
Authority
KR
South Korea
Prior art keywords
website
information
browser
internal structure
web
Prior art date
Application number
KR1020120056739A
Other languages
English (en)
Inventor
김영식
Original Assignee
주식회사 비바엔에스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 비바엔에스 filed Critical 주식회사 비바엔에스
Priority to KR1020120056739A priority Critical patent/KR101235139B1/ko
Application granted granted Critical
Publication of KR101235139B1 publication Critical patent/KR101235139B1/ko
Priority to JP2015514895A priority patent/JP6044008B2/ja
Priority to PCT/KR2013/004278 priority patent/WO2013180410A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Abstract

본 발명은 웹사이트 내부구조 자동 추출 시스템에 관한 것으로, 웹사이트 내부 구조를 측정하는 적어도 하나 이상의 측정기(단말기)를 구비하며, 상기 측정기는, 단말 운영체제상의 DNS 캐시 및 브라우저 캐시를 비워서 웹사이트를 접속함으로써 응답을 주는 모든 웹서버 정보를 획득하고, 브라우저의 이벤트 정보를 통해서 브라우저와 웹서버 사이의 상세 정보를 획득하거나 브라우저와 웹서버 사이의 네트워크 패킷을 잡아서 브라우저와 웹서버 사이의 상세 정보를 획득하는 과정을 구현하는 것을 특징으로 한다. 또한, 상기 측정기는, 해당 웹사이트에 접속하여 응답을 주는 모든 웹서버에 대한 정보를 획득하도록 제어하는 제어부, 상기 웹사이트에 접속을 실현하는 웹브라우저와, 웹브라우저를 구동하는 웹브라우저의 이벤트 정보를 통해 웹서버와의 송수신 정보를 획득하는 브라우저 구동기 및 상기 웹브라우저가 이벤트 정보에서 제공하지 않는 상세한 정보를 패킷 정보를 수집하는 패킷 캡쳐 모듈을 포함하여 것을 특징으로 한다.

Description

웹사이트 내부구조 자동 추출 시스템 및 추출 방법{Detection method and system, the internal structure Website}
본 발명은 웹사이트 내부구조 자동 추출 시스템 및 추출 방법에 관한 것으로, 좀 더 상세하게는 웹사이트를 통해 제공되는 다양한 컨텐츠의 물리적 위치(컴포넌트, 도메인, 서버 등)에 해당하는 내부적 구조를 쉽게 파악할 수 있도록 웹사이트 구조를 능동적으로 추출 및 시각화할 수 있는 웹사이트 내부구조 자동 추출 시스템 및 추출방법에 관한 것이다.
포털[네이버(naver), 다음(daum) 등], 커뮤니티 사이트[페이스북(facebook), 싸이월드(cyworld) 등]등과 같은 온라인 서비스 웹사이트들은 다수의 도메인 및 서버를 통해 그 서비스가 이루어지고 있는 것이 일반적이다. 예를 들면, 포털 사이트 네이버는 사용자에게 보이는 URL은 www.naver.com 하나이지만, 내부적으로는 www.naver.com 외에도 ics.naver.com, nv1.ad.naver.com, nv2.ad.naver.com static.naver.com imgshopping.naver.com 등 10여개가 넘는 도메인으로 나위어서 각기 웹 컴포넌트들을 서비스 하고 있으며, 각각의 도메인별로 물리적인 서버들이 할당되어 있는 복잡한 구조이다.
또한, 자체 인프라 외에 CDN(Contents Delivery Network) 서비스나 클라우드 컴퓨팅과 같은 외부 인프라의 이용이 증가하면서 내부 운영자들도 해당 웹사이트의 구조를 파악하는 것이 점점 힘들어지고 있다.
또한, 적지 않은 온라인 서비스 웹사이트의 컨텐츠에는 자체 컨텐츠 외에 외부의 광고 컨텐츠나 페이스북, 트위터와 같은 SNS(Social Network Service)의 실시간 정보들을 융합(Mesh-Up)해서 제공하고 있다(제3자 컨텐츠).
도 1은 웹페이지의 일반적인 구성을 도시화한 것으로, 실질적인 웹사이트 내부 구조를 도식화하기 위한 가장 기본적인 정보이다. 웹페이지(100)는 HTML파일, CSS파일, 이미지 파일, Javascript 파일 등 화면상에 컨텐츠 표시를 위한 다수의 컴포넌트(110)들로 구성되며, 각 컴포넌트에 대한 주소인 컴포넌트 URL은 하나의 DNS 도메인(120)과 대응된다. 하나의 DNS 도메인은 하나 이상의 웹서버(130)에 대응된다. 한편 컴포넌트(110)는 인터넷 표준 RFC2046에 규정된 고유의 미디어 유형(115)의 상세한 예를 도 2와 같다.
통상 이러한 웹사이트의 내부 구조도는 기존에는 운영자가 수작업으로 작성하고 관리해 왔으나, 수시로 변화하는 서비스의 구조나 수시로 추가, 삭제, 변경되는 서버 인프라의 내용을 이러한 수작업으로는 적시에 정확하게 반영할 수 없는 문제가 있다.
더욱이 CDN 서비스, 클라우드 컴퓨팅의 이용이나 제 3자 컨텐츠의 활용과 같이 외부의 컨텐츠나 인프라 이용이 늘어나면서 웹사이트 운영자가 전체 웹사이트의 내부 구조를 파악하고 관리하는 것이 거의 불가능하게 되었다.
상기와 같은 문제점을 해결하기 위한 본 발명은 실제 사용자단에 위치하는 복수의 단말상의 브라우저(또는 브라우저를 시뮬레이션 하는 모듈)를 통해 해당 웹사이트를 직접 접속하고 브라우저와 웹서버 간의 데이터 등을 수집하고 분석함으로써 웹사이트의 내부 구조를 자동으로 추출할 수 있는 웹사이트 구조 추출 방법을 제공하고자 하는데 그 목적이 있다.
또한, 본 발명은 자동 추출한 내부 구조를 운영자가 쉽게 파악이 용이한 그래프로 표현하도록 구현되는 추출 방법을 제공하고자 하는데 그 목적이 있다.
따라서, 본 발명은 웹사이트의 물리적 내부 구조를 추출하고 시각화하여 관리자의 관리 및 메인터넌스(maintenance)를 효율적으로 구현할 수 있는 시스템 및 방법을 제공하고자 하는데 목적이 있다.
상기와 같은 목적을 달성하기 위한 본 발명은, 웹사이트 내부 구조를 측정하는 적어도 하나 이상의 측정기(단말기)를 구비하며, 상기 측정기는, 단말 운영체제상의 DNS 캐시 및 브라우저 캐시를 비워서 웹사이트를 접속함으로써 응답을 주는 모든 웹서버 정보를 획득하고, 브라우저의 이벤트 정보를 통해서 브라우저와 웹서버 사이의 상세 정보를 획득하거나 브라우저와 웹서버 사이의 네트워크 패킷을 잡아서 브라우저와 웹서버 사이의 상세 정보를 획득하는 과정을 구현하는 것을 특징으로 한다.
또한, 상기 측정기는, 해당 웹사이트에 접속하여 응답을 주는 모든 웹서버에 대한 정보를 획득하도록 제어하는 제어부, 상기 웹사이트에 접속을 실현하는 웹브라우저와, 웹브라우저를 구동하는 웹브라우저의 이벤트 정보를 통해 웹서버와의 송수신 정보를 획득하는 브라우저 구동기 및 상기 웹브라우저가 이벤트 정보에서 제공하지 않는 상세한 정보를 패킷 정보를 통해 수집하는 패킷 캡쳐 모듈을 포함하여 것을 특징으로 한다.
또한, 상기 측정기는, 운영체제를 구비한 PC 또는 휴대용 단말기에 해당하는 것을 특징으로 한다.
또한, 상기 웹브라우저는, 웹브라우저 시뮬레이터로 구성 가능한 것을 특징으로 한다.
또한, 상기 측정기는, 외부 시스템과 통신 접속하기 위한 통신부를 더 포함하며, 상기 측정기를 통해 측정된 웹사이트의 내부구조정보를 수집 및 시각화를 구현하는 수집 및 분석서버를 더 포함하는 것을 특징으로 한다.
또한, 상기 수집 및 분석서버는, 상기 통신부와 접속하는 통신부, 상기 통신부를 통해 송신된 정보를 저장하는 저장부, 상기 저장부에 저장된 정보에 대한 추가적인 분석 및 통계를 통해 웹사이트 내부 구조 정보를 추출하는 분석부, 데이터 형태로 존재하는 웹사이트 내부 구조를 그래프로 시각화하는 시각화부 및 시각화된 웹사이트 내부 구조를 디스플레이 하는 GUI를 포함하는 것을 특징으로 한다.
또한, 상기 시각화부는, 이름과 색상을 갖는 노드(Named Color Node)와 가중치를 갖는 라인(Weighted Line)으로 웹사이트, 도메인, 서버(서버 IP)간의 상관관계를 시각화하는 것을 특징으로 한다.
또한, 측정기 운영체제(OS)상의 DNS Cache 정보 및 웹브라우저의 Cache 정보를 모두 초기화하는 제 1단계, 웹브라우저(또는 브라우저 시뮬레이터)를 통해 웹사이트에 대한 탐색(navigation)하는 제 2단계, 해당 페이지에 대한 모든 탐색이 끝나는 onload 이벤트를 수신할 때 까지 웹브라우저의 내부 이벤트 정보를 hooking 하는 제 3단계 및 이벤트 hooking을 통해 해당 웹페이지를 구성하는 모든 컴포넌트의 상세 정보를 획득해서 저장하는 제 4단계를 포함하는 것을 특징으로 한다.
또한, 상기 이벤트 hooking을 통해 획득할 수 없는 정보들은 필요하다면 패킷 캡쳐를 통해 추가로 획득하는 제 5단계를 더 포함하는 것을 특징으로 한다.
또한, 상기 컴포넌트 정보는, 도메인, 컴포넌트명, 다운로드 시간, 컴포넌트 사이즈, 미디어 유형, 웹서버 IP를 포함하는 것을 특징으로 한다.
또한, Onload 이벤트를 수신하면 해당 웹페이지의 모든 탐색이 종료되었으므로, 이때까지 저장한 컴포넌트 정보들을 수집 및 분석서버로 전송(470)하고 다음 측정주기까지 대기하는 제 6단계를 더 포함하는 것을 특징으로 한다.
상기와 같이 구성되고 작용되는 본 발명은 오늘날 수시로 변화하고 복잡한 웹사이트의 내무구조를 자동으로 추출할 수 있고, 더 나아가 한눈에 그 구조를 파악할 수 있는 시각화된 형태로 표현이 가능하다. 이를 통해 웹사이트 운영자는 기존에 수작업을 통해 웹사이트 내부구조를 관리할 경우의 부정확성을 해소할 수 있고, 기존 수작업에서는 관리하기 힘들었던 외부 제3자 요소까지도 포함해서 관리할 수 있으며, 시간에 따라 변경되는 웹사이트 내부구조를 자동으로 관리할 수 있는 장점이 있다.
이를 통해 웹사이트 운영자는 안정적이고 효과적인 웹사이트 운영이 가능한 효과가 있다.
도 1은 일반적인 웹페이지의 구성도,
도 2는 일반적인 미디어 유형과 유형의 분류를 도시한 도면,
도 3은 본 발명에 따른 웹사이트 내부구조 자동 추출 시스템의 개략적인 구성도,
도 4는 본 발명에 따른 웹사이트 내부구조 자동 추출 시스템의 측정기 세부 구성도,
도 5는 본 발명에 따른 측정기의 웹사이트 내부구조 정보 추출단계의순서도,
도 6은 본 발명에 따른 측정기를 통해 획득하여 저장되는 웹사이트 정보의 데이터 구조를 도시한 도면,
도 7은 본 발명에 따른 웹사이트 내부구조 표현을 위한 데이터 구조를 도시한 도면,
도 8은 본 발명에 따른 웹사이트 내부구조의 구체적인 시각화 방법을 도시한 도면.
이하, 첨부된 도면을 참조하여 본 발명에 따른 웹사이트 내부구조 자동 추출 방법의 바람직한 실시예를 상세히 설명하면 다음과 같다.
본 발명에 따른 웹사이트 내부구조 자동 추출 방법은, 웹사이트 내부 구조를 측정하는 적어도 하나 이상의 측정기(단말기)를 구비하며, 상기 측정기는, 단말 운영체제상의 DNS 캐시 및 브라우저 캐시를 비워서 웹사이트를 접속함으로써 응답을 주는 모든 웹서버 정보를 획득하고, 브라우저의 이벤트 정보를 통해서 브라우저와 웹서버 사이의 상세 정보를 획득하거나 브라우저와 웹서버 사이의 네트워크 패킷을 잡아서 브라우저와 웹서버 사이의 상세 정보를 획득하는 과정을 구현하는 것을 특징으로 한다.
본 발명에 따른 웹사이트 내부구조 추출시스템은, 하나의 웹사이트를 구현하기 위하여 물리적으로 구성되는 컴포넌트(URL), DNS 도메인, 웹서버(IP 주소)들의 집합체에 해당하는 내부 구조를 능동적으로 검출하여 시각화할 수 있는 시스템을 제공하고자 하는데 목적이 있다.
도 3은 본 발명에 따른 웹사이트 내부구조 자동 추출 시스템의 개략적인 구성도이다. 본 발명은 도 3에 나타낸 바와 같이 인터넷(200)상에 대상이 되는 웹사이트(210)에 대해 사이트의 구성 정보를 획득하기 위한 복수의 측정기(220) 및 측정기가 획득한 정보를 수집하고 분석해서 최종 웹사이트 내부구조를 생성해서 시각화하는 수집 및 분석서버(230)로 구성된다. 복수의 측정기를 두는 이유는 일부 웹사이트는 사용자 위치에 따라 다른 웹서버가 응답하도록 내부 구성을 할 수 있기 때문이다.
웹사이트(210)는 PC 등 유선 단말에서 접속하는 유선 웹사이트 뿐 아니라 스마트폰과 같은 무선 단말에서 접속하는 모바일 웹사이트[또는 (앱: App)]이 모두 포함되며, 측정기(220)는 PC 또는 서버와 같은 유선 단말 및 스마트폰과 같은 무선 단말 상에 구현된다. 측정기는 웹사이트에 대해 주기적으로 (예 : 10분 주기) 접속을 통해 웹사이트의 구성정보를 획득한다.
도 4는 측정기와 수집 및 분석서버의 더욱 상세한 구성을 나타낸다.
측정기(220)는 웹사이트 내부구조를 추출하는 하나의 단말기에 해당하는 것으로, 일반적인 PC나 휴대용 단말기(모바일, 태블럿 등)로 구성할 수 있으며, 웹사이트에 접속하여 응답에 대응하는 웹서버 정보를 추출하는 구성을 가진다.
구체적으로 상기 측정기(220)는 전체적인 측정과정의 제어를 담당하는 제어부(300)와 수집 및 분석서버와 통신을 통해 측정할 웹사이트 정보 및 측정 주기를 수신하고 측정을 통해 획득한 정보를 수집 및 분석서버로 전송하는 통신부(310), 실제 웹사이트 접속을 하는 웹브라우저(330) 및 웹브라우저를 구동하고 웹브라우저의 이벤트 정보를 통해 웹서버와의 송수신 정보를 획득하는 브라우저구동기(320)로 구성된다.
웹브라우저(330)는 실제 웹브라우저를 사용하거나 웹브라우저 시뮬레이터로 구성될 수 있으며, 웹브라우저가 이벤트 정보에서 제공하지 않는 더욱 상세한 정보를 위해 패킷 캡쳐 모듈(340)을 통해 웹브라우저가 이벤트 정보에서 제공하지 않는 더욱 상세한 정보를 위해 패킷 캡쳐 모듈(340)을 통해 웹브라우저와 웹서버 간의 송수신 패킷 정보를 활용할 수 있다. 수집 및 분석서버는 측정기로 제어정보를 전달하고 측정기가 획득한 정보를 수집하는 통신부(350), 수집한 정보를 저장하는 저장부(360), 저장부에 의해 누적 저장된 정보에 대해 추가적인 분석 및 통계를 통해 웹사이트 내부 구조정보를 추출하는 분석부(370), 데이터 형태로 존재하는 웹사이트 내부 구조정보를 그래프로 시각화하는 시각화부(380), 실제 사용자에게 시각화된 웹사이트 내부 구조를 제공하는 GUI(390)로 구성된다.
측정기가 웹사이트 내부 구조 정보를 획득하는 더욱 상세한 절차는 도 5와 같다. 측정기는 수집 및 분석서버에서 대상 사이트 정보 및 측정 주기 정보를 얻어서(410) 실질적인 측정을 시작한다. 측정의 가장 첫 단계는 초기화(420)로 이 단계에서는 측정기 운영체제(OS)상의 DNS Cache 정보 및 웹브라우저의 Cache 정보를 모두 초기화함으로써 복잡한 웹사이트 정보를 빠짐없이 획득할 수 있도록 한다. 초기화가 끝나면, 웹브라우저(또는 브라우저 시뮬레이터)를 통해 웹사이트에 대한 탐색(navigation)을 시작(430)해서 해당 페이지에 대한 모든 탐색이 끝나는 onload 이벤트를 수신할 때 까지 웹브라우저의 내부 이벤트 정보를 hooking 한다(450). 이벤트 hooking을 통해 해당 웹페이지를 구성하는 모든 컴포넌트의 상세 정보를 획득해서 저장한다(460). 이벤트 hooking을 통해 획득할 수 없는 정보들은 필요하다면 패킷 캡쳐를 통해 추가로 획득할 수 있다. Onload 이벤트를 수신하면 해당 웹페이지의 모든 탐색이 종료되었으므로, 이때까지 저장한 컴포넌트 정보들을 수집 및 분석서버로 전송(470)하고 다음 측정주기까지 대기(480)한다. 이때 전송되는 컴포넌트 정보는 도 6과 같이 웹사이트의 내부구조를 파악할 수 있는 정보(도메인, 컴포넌트명, 다운로드 시간, 컴포넌트 사이즈, 미디어 유형, 웹서버 IP 등)를 포함한다. 다음 측정주기가 되면, 초기화부터 시작해서 동일한 단계를 반복 수행한다.
도 7은 수집 및 분석서버의 분석부(370)에서 측정기로부터 수집되어 저장된 도 6의 데이터를 통계 및 분석하여 웹사이트 내부 구조를 추출할 수 있는 데이터로 저장하는 데이터 구조의 더욱 상세한 예이다. 도 6의 데이터를 주기적(예 : 1시간 또는 1일)으로 서버 IP를 기준으로 통계를 내서 도 7과 같은 형태로 저장하는데, 주요 항목은 서버 IP, 해당 서버 IP에 대응하는 도메인, 통계 시각, 웹사이트 이름, 미디어 유형, Component Count(해당 서버 IP의 출현 횟수), 다운로드 속도 등으로 구성되며, 다운로드 속도(Download speed)는 도 6에서 다음의 수식으로 구한다.
Figure 112012042745650-pat00001
도 7의 Component Count는 해당 서버가 얼마나 많은 컴포넌트를 서비스하는지를 알 수 있는 중요한 지표이며, 다운로드 속도는 해당 서버의 서비스 속도를 나타내는 중요한 지표이다.
도 8은 수집 및 분석서버의 시각화부(380)가 도 7의 형태로 저장된 데이터를 이름과 색상을 갖는 노드(Named Color Node)와 가중치를 갖는 라인(Weighted Line)으로 구성되는 그래프 형태로 웹사이트 내부 구조를 시각화 표현하는 더욱 상세한 방법의 예를 설명한다.
상기 측정기에서 측정된 웹사이트 내부 구조를 시각적으로 쉽게 모니터링 하기 위하여 추출된 정보는 수집 및 분석서버에서 처리하여 다양한 방식으로 묘사한다.
가장 중앙의 1단계 노드(500)는 웹사이트 이름이 대응되며, 두 번째 단계의 노드(510)에는 해당 웹사이트를 구성하는 도메인들이 각각 대응되며, 세 번째 단계의 노드(530)는 도메인에 대응하는 서버 IP들이 대응된다. 2단계 및 3단계 노드는 해당 노드가 갖는 미디어 유형에 따라 각기 고유의 색상으로 표현된다. 색상 표현 방법을 더욱 상세히 설명하면, 도 5에서와 같이 웹사이트에서 주로 이용되는 3개 기본 유형(Text, Application, Image)으로 그룹핑하고, 각 기본 유형에 대해 도 8의 520에서와 같이 빛의 3원색을 이용하여 Text 유형은 빨간색, Application 유형은 초록색, Image 유형은 파란색으로 표현한다. 특정 노드가 복수개의 기본 유형을 갖는 경우에는 해당 유형의 색을 혼합한 색으로 표현한다. 구체적인 예를 들면, Text(빨간색)와 Application(초록색)을 모두 서비스 하는 도메인이나 서버 IP는 빨간색과 초록색을 혼합한 노란색으로 표현한다. 3단계 노드는 도 7의 Component Count에 비례하여 원의 크기가 정해진다. 즉, 3단계 원이 클수록 해당 서버 IP에서 많은 컴포넌트를 서비스했다는 의미를 표현한다. 또, 2단계 노드와 3단계 노드를 연결하는 라인은 해당 3단계 노드 서버의 Download Speed에 비례하여 두께를 표현함으로써, 두꺼운 라인의 서버는 더 빠른 속도로 서비스를 제공함을 표현한다.
이와 같이 구성되는 본 발명은 웹서버 정보를 추출하여 웹사이트의 내부구조를 획득함으로써 구조를 한눈에 파악할 수 있고, 시각화된 형태로 표현함으로써 기존의 관리 형태를 한층 더 효율적으로 구현할 수 있는 장점이 있다.
이상, 본 발명의 원리를 예시하기 위한 바람직한 실시예와 관련하여 설명하고 도시하였지만, 본 발명은 그와 같이 도시되고 설명된 그대로의 구성 및 작용으로 한정되는 것이 아니다. 오히려, 첨부된 청구범위의 사상 및 범주를 일탈함이 없이 본 발명에 대한 다수의 변경 및 수정이 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다.
200 : 인터넷
210 : 웹사이트
220 : 측정기
230 : 수집 및 분석서버

Claims (11)

  1. 단말 운영체제상의 DNS 캐시 및 브라우저 캐시를 비워서 웹사이트를 접속함으로써 응답을 주는 모든 웹서버 정보를 획득하고, 브라우저의 이벤트 정보를 통해서 브라우저와 웹서버 사이의 상세 정보를 획득하거나 브라우저와 웹서버 사이의 네트워크 패킷을 잡아서 브라우저와 웹서버 사이의 상세 정보를 획득하기 위하여 해당 웹사이트에 접속하여 응답을 주는 모든 웹서버에 대한 정보를 획득하도록 제어하는 제어부, 상기 웹사이트에 접속을 실현하는 웹브라우저와, 웹브라우저를 구동하는 웹브라우저의 이벤트 정보를 통해 웹서버와의 송수신 정보를 획득하는 브라우저 구동기 및 상기 웹브라우저가 이벤트 정보에서 제공하지 않는 상세한 정보를 패킷 정보를 통해 수집하는 패킷 캡쳐 모듈을 포함하여 웹사이트 내부 구조를 측정하는 적어도 하나 이상의 측정기(단말기)와,
    상기 측정기를 통해 측정된 웹사이트의 내부 구조 정보를 통신부를 통해 접속하여 제공받아 수집 및 시각화를 구현하는 수집 및 분석서버를 포함하는 웹사이트 내부구조 자동 추출 시스템.
  2. 삭제
  3. 제 1항에 있어서, 상기 측정기는,
    운영체제를 구비한 PC 또는 휴대용 단말기에 해당하는 웹사이트 내부구조 자동 추출 시스템.
  4. 제 1항에 있어서, 상기 웹브라우저는,
    웹브라우저 시뮬레이터로 구성 가능한 웹사이트 내부구조 자동 추출 시스템.
  5. 삭제
  6. 제 1항에 있어서, 상기 수집 및 분석서버는,
    상기 측정기로부터 측정된 정보를 수신받아 저장하는 저장부;
    상기 저장부에 저장된 정보에 대한 추가적인 분석 및 통계를 통해 웹사이트 내부 구조 정보를 추출하는 분석부;
    데이터 형태로 존재하는 웹사이트 내부 구조를 그래프로 시각화하는 시각화부; 및
    시각화된 웹사이트 내부 구조를 디스플레이 하는 GUI;를 포함하는 웹사이트 내부구조 자동 추출 시스템.
  7. 제 6항에 있어서, 상기 시각화부는,
    이름과 색상을 갖는 노드(Named Color Node)와 가중치를 갖는 라인(Weighted Line)으로 웹사이트, 도메인, 서버(서버 IP)간의 상관관계를 시각화하는 웹사이트 내부구조 자동 추출 시스템.
  8. 웹사이트 내부 구조를 측정하는 적어도 하나 이상의 측정기(단말기)와,
    상기 측정기를 통해 측정된 웹사이트의 내부 구조정보를 통신부를 통해 접속하여 제공받아 수집 및 시각화를 구현하는 수집 및 분석서버를 포함하여 구성되는 웹사이트 내부구조 자동 추출 방법으로,
    상기 측정기에 설치된 운영체제(OS)상의 DNS Cache 정보 및 웹브라우저의 Cache 정보를 모두 초기화하는 제 1단계;
    상기 측정기에 설치된 웹브라우저(또는 브라우저 시뮬레이터)를 통해 웹사이트에 접속하여 내부 구조 측정을 위해 해당 웹사이트를 탐색(navigation)하는 제 2단계;
    상기 웹사이트의 해당 페이지에 대한 모든 탐색이 끝나는 onload 이벤트를 수신할 때까지 웹브라우저의 내부 이벤트 정보를 hooking 하는 제 3단계;
    이벤트 hooking을 통해 해당 웹페이지를 구성하는 모든 컴포넌트의 상세 정보를 획득하는 제 4단계;
    상기 이벤트 hooking을 통해 획득할 수 없는 정보들은 패킷 캡쳐를 통해 추가로 획득하는 제 5단계; 및
    Onload 이벤트를 수신하면 해당 웹페이지의 모든 탐색이 종료되었으므로, 이때까지 저장한 컴포넌트 정보들을 수집 및 분석서버로 전송(470)하고 다음 측정주기까지 대기하는 제 6단계를 더 포함하는 웹사이트 내부구조 자동 추출 방법.
  9. 삭제
  10. 제 8항에 있어서, 상기 컴포넌트 정보는,
    도메인, 컴포넌트명, 다운로드 시간, 컴포넌트 사이즈, 미디어 유형, 웹서버 IP를 포함하여 구성되는 웹사이트 내부구조 자동 추출 방법.
  11. 삭제
KR1020120056739A 2012-05-29 2012-05-29 웹사이트 내부구조 자동 추출 시스템 및 추출 방법 KR101235139B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020120056739A KR101235139B1 (ko) 2012-05-29 2012-05-29 웹사이트 내부구조 자동 추출 시스템 및 추출 방법
JP2015514895A JP6044008B2 (ja) 2012-05-29 2013-05-14 ウェブサイト内部構造の自動抽出システム及び抽出方法
PCT/KR2013/004278 WO2013180410A1 (ko) 2012-05-29 2013-05-14 웹사이트 내부구조 자동 추출 시스템 및 추출 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120056739A KR101235139B1 (ko) 2012-05-29 2012-05-29 웹사이트 내부구조 자동 추출 시스템 및 추출 방법

Publications (1)

Publication Number Publication Date
KR101235139B1 true KR101235139B1 (ko) 2013-02-20

Family

ID=47899851

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120056739A KR101235139B1 (ko) 2012-05-29 2012-05-29 웹사이트 내부구조 자동 추출 시스템 및 추출 방법

Country Status (3)

Country Link
JP (1) JP6044008B2 (ko)
KR (1) KR101235139B1 (ko)
WO (1) WO2013180410A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010105840A (ko) * 2000-05-18 2001-11-29 구자홍 웹 서머리 장치 및 방법
KR20090106116A (ko) * 2008-04-04 2009-10-08 에스케이 텔레콤주식회사 웹 활동 추출 시스템 및 방법
KR20100095438A (ko) * 2007-12-11 2010-08-30 마이크로소프트 코포레이션 웹 페이지 도메인 모니터링
KR101070184B1 (ko) 2011-02-24 2011-10-07 주식회사 윈스테크넷 멀티스레드 사이트 크롤러를 이용한 악성코드 자동수집, 자동분석시스템과 보안장비 연동을 통한 악성코드접근차단시스템 및 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6369819B1 (en) * 1998-04-17 2002-04-09 Xerox Corporation Methods for visualizing transformations among related series of graphs
JP4768951B2 (ja) * 2002-05-20 2011-09-07 株式会社野村総合研究所 Webサイト分析システム
JP2004264929A (ja) * 2003-02-28 2004-09-24 Nippon Telegr & Teleph Corp <Ntt> Web情報の提供システム、提供方法、この方法のプログラム、およびこのプログラムを記録した記録媒体
CN101615178B (zh) * 2008-06-26 2013-01-09 日电(中国)有限公司 用于建立对象层次结构的方法和系统
JP2011081450A (ja) * 2009-10-02 2011-04-21 Hitachi Government & Public Corporation System Engineering Ltd Webサイト構成分析装置およびサイト構成分析方法
US20110307479A1 (en) * 2010-06-10 2011-12-15 Microsoft Corporation Automatic Extraction of Structured Web Content

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010105840A (ko) * 2000-05-18 2001-11-29 구자홍 웹 서머리 장치 및 방법
KR20100095438A (ko) * 2007-12-11 2010-08-30 마이크로소프트 코포레이션 웹 페이지 도메인 모니터링
KR20090106116A (ko) * 2008-04-04 2009-10-08 에스케이 텔레콤주식회사 웹 활동 추출 시스템 및 방법
KR101070184B1 (ko) 2011-02-24 2011-10-07 주식회사 윈스테크넷 멀티스레드 사이트 크롤러를 이용한 악성코드 자동수집, 자동분석시스템과 보안장비 연동을 통한 악성코드접근차단시스템 및 방법

Also Published As

Publication number Publication date
WO2013180410A1 (ko) 2013-12-05
JP6044008B2 (ja) 2016-12-14
JP2015528930A (ja) 2015-10-01

Similar Documents

Publication Publication Date Title
US11843904B2 (en) Automated combined display of measurement data
CN109241343A (zh) 一种刷量用户识别系统、方法及装置
JP2012063900A (ja) 店舗情報提供装置
US20190050422A1 (en) Analysis information management system
KR20190029115A (ko) 복수종류의 시설물 관리를 위한 스마트기기를 활용한 환경정보수집 방법
Manvell Utilising the strengths of different sound sensor networks in smart city noise management
KR20170062910A (ko) 사물 인터넷 시스템에서 외부 데이터를 가상 게이트웨이를 이용해서 입력받는 방법
KR101235139B1 (ko) 웹사이트 내부구조 자동 추출 시스템 및 추출 방법
CN115113878A (zh) 设备数据的处理系统、方法、装置、电子设备及可读介质
CN108063811A (zh) 智能设备入网跟踪方法及部件
CN113379285A (zh) 建筑环境监测方法、装置、设备、存储介质及程序产品
CN205692211U (zh) 基于云计算的旅游信息管理系统
TW201642153A (zh) 網頁評論分類方法、系統及網頁管理裝置
CN115396397B (zh) 基于转发关系确定缓存域名系统服务范围的方法和装置
KR20130008127A (ko) 인터넷 광고 클릭 집계 시스템 및 방법
van Der Schaaf et al. A mobile application for reporting disease incidents
JP2019175055A (ja) データ統合システムおよびデータ統合方法
JP2014102799A (ja) データ受配信システム及び前記データ受配信システムを利用したソーシャル・ネットワーキング・サービス
KR20190063154A (ko) 인터넷 이슈를 알려주는 장치 및 방법
CN113127722A (zh) 一种数据查询方法、装置、可读介质及电子设备
JP2015026893A (ja) ネットワーク接続履歴表示プログラム、ネットワーク接続履歴参照支援装置、ネットワーク接続履歴参照支援システム、ネットワーク接続履歴参照支援方法及びネットワーク接続履歴参照支援プログラム
KR20060081916A (ko) 생산 공정에서의 로스 모니터링 시스템 및 그 방법

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160104

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170117

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180103

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20181126

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20191231

Year of fee payment: 8