KR20100132576A - 스크래핑 및 파싱을 이용한 웹사이트 동적 페이지의 웹 로그 분석 시스템 및 분석 방법 - Google Patents

스크래핑 및 파싱을 이용한 웹사이트 동적 페이지의 웹 로그 분석 시스템 및 분석 방법 Download PDF

Info

Publication number
KR20100132576A
KR20100132576A KR1020090051238A KR20090051238A KR20100132576A KR 20100132576 A KR20100132576 A KR 20100132576A KR 1020090051238 A KR1020090051238 A KR 1020090051238A KR 20090051238 A KR20090051238 A KR 20090051238A KR 20100132576 A KR20100132576 A KR 20100132576A
Authority
KR
South Korea
Prior art keywords
parsing
hint
scraping
data
dynamic page
Prior art date
Application number
KR1020090051238A
Other languages
English (en)
Inventor
이철승
Original Assignee
(주)비즈스프링
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)비즈스프링 filed Critical (주)비즈스프링
Priority to KR1020090051238A priority Critical patent/KR20100132576A/ko
Publication of KR20100132576A publication Critical patent/KR20100132576A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명은 스크래핑 및 파싱을 이용한 웹사이트 동적 페이지의 웹로그 분석 시스템 및 분석 방법에 관한 것이다. 웹 로그 분석 시스템은 사용자 클라이언트(300)로부터 데이터를 수집하는 파싱 힌트 관리 모듈(140); 파싱 힌트 관리 모듈(140)로부터 전달된 데이터를 저장하는 파싱 힌트 데이터베이스(130); 파싱 목적 컨텐츠(240)를 스크래핑하고 그리고 파싱 힌트 데이터베이스(130)로부터 필요한 정보를 전달받아 처리하는 스크래핑 모듈(110); 스크래핑 모듈(110)로부터 전달된 데이터를 처리하는 파싱엔진(122) 및 파싱 힌트 데이터베이스(130)에 저장된 데이터를 로딩하여 파싱 엔진(122)으로 전달하는 파싱 힌트 로딩부(121)를 포함하는 파싱 모듈(120); 파싱 모듈(120)에서 처리된 데이터를 저장하는 파싱 결과 데이터베이스(150); 및 분석 대상이 되는 웹 사이트의 웹 서버의 로그 데이터(400)와 파싱 결과 데이터베이스(150)로부터 전달된 데이터를 조합하는 데이터 조합부(161)를 가지는 분석데이터 표현 모듈(160)을 포함한다.
파싱, 웹페이지, 컨텐츠, 파싱 힌트 정보, 스크래핑

Description

스크래핑 및 파싱을 이용한 웹사이트 동적 페이지의 웹 로그 분석 시스템 및 분석 방법{System for Analyzing Web-Log of Website Dynamic Page Using Scraping and Parsing and Method for Analyzing Web-Log of Website Dynamic Page}
본 발명은 스크래핑 및 파싱을 이용한 웹사이트 동적 페이지의 웹 로그 분석 시스템 및 분석 방법에 관한 것이고, 구체적으로 넓은 의미에서 웹 로그 분석 중 웹사이트 내 컨텐츠 분석에 해당하는 기술로 웹사이트의 로그 분석을 수행함에 있어서 페이지 URL(Uniform Resource Locator)의 파라미터 값의 변경을 통해 나타나는 동적 컨텐츠를 스크래핑 기술을 통해 취득하여 파라미터 값과 연계하여 저장하고 그리고 저장된 정보를 바탕으로 로그분석 리포트 생성시 이용하는 것에 의하여 사용자의 개별적인 수작업 맵핑 작업을 제거하여 분석 업무의 효율성을 개선할 수 있는 웹로그 분석 시스템 및 분석 방법에 관한 것이다.
로그분석 리포트에서 동적 페이지 URL을 나열하는 것에 의하여 리포트를 이용하는 사용자가 내용을 파악할 수 없으므로 동적 페이지의 URL 내용을 이해할 수 있는 컨텐츠명으로 대체하는 작업이 필요하다. 이와 관련된 공지 기술로 웹사이트의 동적 페이지 분석의 난해함으로 인해 단순히 동적 페이지의 URL을 나열하고 해 당 URL에 웹브라우저로 접속하여 내용을 확인하는 방법, 동적 페이지의 URL과 해당 컨텐츠의 내용을 기술하는 내용을 데이터베이스에 수작업으로 입력하여 맵핑(Mapping)시켜 분석하는 방법 또는 동적 페이지의 URL의 해당 파라미터 값과 해당 컨텐츠 내용이 담긴 데이터베이스를 백-엔드(Back-End)로 연동하는 작업을 거쳐서 분석하는 방법이 있다. 그러나 이러한 공지 기술의 경우 동적 페이지 URL이 나타내고 있는 컨텐츠를 표현하기 위하여 상당한 인력과 비용의 소요 및 기술적 접근이 요구되고 이로 인하여 로그 분석을 통해 얻을 수 있는 분석 수준의 향상에 대한 걸림돌로 인식되었다. 특히 ASP(Application Service Provider) 또는 SaaS(Software As A Service)형태로 제공되는 로그분석 방법에서 동적 컨텐츠를 저장한 데이터베이스와 연동이 사실상 불가능하다는 문제점이 있었다. 또한 최근 급증하고 있는 웹사이트의 사용자들이 직접 작성하여 게재하는 컨텐츠(UCC, User Created Contents)의 경우 수작업으로 매번 신규 등록되는 컨텐츠의 정보를 맵핑하는 것은 현실적으로 불가능하다는 문제점이 제기되어 왔다.
본 발명은 이와 같은 공지 기술의 문제점을 해결하기 위한 것으로 아래와 같은 목적을 가진다.
본 발명의 목적은 동적 페이지 URL의 파라미터 값과 해당 페이지의 컨텐츠를 대표할 수 있는 컨텐츠 명칭을 로그분석 서버가 자동적으로 스크래핑을 통하여 수집 및 저장한 후, 최종 로그 분석 리포트의 생성시에 동적 페이지 URL 또는 동적 페이지 URL에 포함된 파라미터 및 파라미터 값과 매칭하여 로그분석 리포트를 생성하는 것에 의하여 동적 페이지의 URL과 동적 컨텐츠 명칭을 수작업으로 맵핑을 할 필요가 없게 하여 동적 컨텐츠가 웹사이트 사용자에 의해 수시로 추가되더라도 별도의 로그 분석 수행 담당자의 작업 없이 효율적으로 로그분석을 수행할 수 있는 웹 로그 분석 시스템을 제공하는 것이다.
본 발명의 다른 목적은 일반적인 인터넷 환경을 통해 동적 페이지의 컨텐츠를 스크래핑하여 독자적으로 동적 페이지 URL과 이에 해당하는 컨텐츠 명칭을 매칭시켜 데이터를 보유하는 것에 의하여 로그분석 서버가 웹사이트 또는 웹사이트가 사용하는 컨텐츠 데이터베이스와 동일한 영역에 존재하지 않게 되어 직접적인 웹서버의 로그데이터 및 컨텐츠 데이터베이스에 접근하기 어려운 상황에서도 로그분석을 수행할 수 있도록 하는 웹 로그 분석 방법을 제공하는 것이다.
본 발명의 적절한 실시 형태에 따르면, 웹 로그 분석 시스템은 사용자 클라이언트로부터 데이터를 수집하는 파싱 힌트 관리 모듈; 파싱 힌트 관리 모듈로부터 전달된 데이터를 저장하는 파싱 힌트 데이터베이스; 파싱 목적 컨테츠를 스크래핑 하고 그리고 파싱 힌트 데이터베이스로부터 필요한 정보를 전달받아 처리하는 스크래핑 모듈; 스크래핑 모듈로부터 전달된 데이터를 처리하는 파싱엔진 및 파싱 힌트 데이터베이스에 저장된 데이터를 로딩하여 파싱 엔진(122)으로 전달하는 파싱 힌트 로딩부를 포함하는 파싱 모듈; 파싱 모듈(120)에서 처리된 데이터를 저장하는 파싱 결과 데이터베이스; 및 분석 대상이 되는 웹 사이트의 웹 서버의 로그 데이터와 파싱 결과 데이터베이스(150)로부터 전달된 데이터를 조합하는 데이터 조합부를 가지는 분석 데이터 표현 모듈을 포함한다.
본 발명의 다른 적절한 실시 형태에 따르면, 스크래핑 모듈은 분석 대상이 되는 웹 사이트의 웹 서버로부터 웹사이트 동적 페이지의 파싱 목적 컨텐츠를 스크래핑하는 스크래핑 엔진과 분석 대상이 되는 웹사이트의 웹서버에 대한 로그 데이터 및 파싱 힌트 데이터베이스로부터 전달되는 정보를 로딩하고 그리고 스크래핑 엔진에 데이터를 전달하는 페이지 URL 로딩부를 포함한다.
본 발명의 또 다른 적절한 실시 형태에 따르면, 분석 대상이 되는 웹 사이트의 웹 서버는 로그 분석을 하는 서버와 물리적으로 또는 네트워크적으로 동일 영역에 존재하거나 또는 서로 분리된 영역에 존재한다.
본 발명의 또 다른 적절한 실시 형태에 따르면, 웹사이트 동적 페이지의 로그 분석 방법은 사용자가 사용자 클라이언트(300)를 이용하여 파싱 힌트와 관련된 정보를 입력하는 제1 단계; 입력된 파싱 힌트에 매칭되는 동적 페이지 URL를 스크래핑하여 동적 페이지 HTML 컨텐츠를 가져오는 제2 단계; 동적 페이지 HTML 컨텐츠와 동적 페이지 관련 정보를 바탕으로 파싱 힌트를 파싱하여 저장하는 제3 단계; 및 파싱 힌트와 제2 단계와 제 3단계를 반복하여 얻어진 결과를 조합하여 이를 기초로 조합 전 로그 분석 결과 데이터를 가공하여 최종 로그분석 리포터를 생성하는 단계를 포함한다.
본 발명의 또 다른 적절한 실시 형태에 따르면, 파싱 힌트와 관련된 정보는 페이지 파일명 힌트, 파싱 앞 지점 힌트, 파싱 뒷 지점 힌트 및 파라미터 힌트를 포함한다.
본 발명의 또 다른 적절한 실시 형태에 따르면, 매칭되는 파싱 힌트는 페이지 파일명 힌트가 된다.
본 발명의 또 다른 적절한 실시 형태에 따르면, 동적 페이지 관련 정보는 동적 페이지 URL, 동적 페이지 파라미터 및 동적 페이지 파라미터 값이 된다.
본 발명의 또 다른 적절한 실시 형태에 따르면, 파싱 힌트와 관련된 정보는 DOM(Document Object Model) 객체의 ID 값이 된다.
본 발명의 또 다른 적절한 실시 형태에 따르면, HTML 컨텐츠의 추출을 위하여 DOM 객체 라이브러리가 사용된다.
본 발명의 또 다른 적절한 실시 형태에 따르면, 동적 페이지 관련 정보는 외부 로그 분석 결과 리포트가 된다.
본 발명의 또 다른 적절한 실시 형태에 따르면, 제3 단계에서 파싱 일시가 저장된다.
본 발명의 또 다른 적절한 실시 형태에 따르면, 스크래핑은 파싱 일시를 기준으로 행해진다.
본 발명의 또 다른 적절한 실시 형태에 따르면, 스크래핑은 정해진 횟수만큼 반복된다.
본 발명에 따른 웹 로그 분석 방법은 동적 페이지 URL을 직접적으로 표현하는 로그 분석 리포트에 비하여 로그 분석 리포트를 이용하는 사용자가 직접적으로 이해할 수 있는 문자열(컨텐츠)로 로그 분석 리포트를 표현하는 것에 의하여 직관적이고 빠른 분석 데이터의 이해가 가능하도록 하여 로그 분석 시스템을 운용하는 사용자가 최소한의 최초 작업을 통해 분석이 자동적으로 이루어지도록 한다는 이점을 가진다. 이로 인하여 로그 분석을 운용하는 사용자가 수시로 증가하는 동적 컨텐츠에 대해 로그 분석 결과와 매칭시키는 반복 작업이 요구되지 않으면서 분석이 자동적으로 이루어지도록 한다. 이로 인하여 데이터베이스와 직접 연동 수행하는 것에 의하여 발생하는 기술적 작업이 불필요하도록 하여 로그 분석에 소요되는 인력 리소스와 비용이 절감되도록 한다는 이점을 가진다. 또한 스크래핑 및 파싱의 방법을 통해 웹사이트가 이용하는 컨텐츠 데이터베이스와 직접적인 연동 작업 없이 데이터를 추출하여 표현하는 것에 의하여 ASP 또는 SaaS형태의 웹로그 분석 방법에 대해서도 쉽게 구현될 수 있다는 장점을 가진다. 이를 통하여 전체적으로 상당히 대중화된 로그 분석 서비스의 리포트 수준 향상을 기대할 수 있다.
아래에서 본 발명은 첨부된 도면에 제시된 실시 예를 참조하여 상세하게 설명이 되지만 실시 예는 본 발명의 명확한 이해를 위한 예시적인 것으로 본 발명의 범위는 이에 제한되지 않는다.
도 1은 본 발명에 따른 스크래핑을 이용한 웹사이트 동적 페이지의 로그분석을 위한 웹사이트 동적 페이지의 웹 로그 분석 시스템(10)의 실시 예를 도시한 것이다.
도 1을 참조하면, 본 발명에 따른 시스템(10)은 사용자 클라이언트(300)로부터 데이터를 수집하는 파싱 힌트 관리 모듈(140); 파싱 힌트 관리 모듈(140)로부터 전달된 데이터를 저장하는 파싱 힌트 데이터베이스(130); 분석 대상이 되는 웹 사이트의 웹 서버(500)로부터 인터넷(Internet)을 통하여 제공되는 웹사이트의 동적 페이지(210)의 파싱 목적 컨텐츠(240)를 인터넷을 통하여 스크래핑을 하는 스크래핑 엔진(112)과 분석 대상이 되는 웹사이트의 웹서버(500)에 대한 로그 데이터(400) 및 파싱 힌트 데이터베이스(130)로부터 전달되는 정보를 로딩하고 그리고 스크래핑 엔진(112)에 데이터를 전달하는 페이지 URL 로딩부(111)를 포함하는 스크래핑 모듈(110); 스크래핑 모듈(110)로부터 전달된 데이터를 처리하는 파싱엔진(122) 및 파싱 힌트 데이터베이스(130)에 저장된 데이터를 로딩하여 파싱 엔진(122)으로 전달하는 파싱 힌트 로딩부(121)를 포함하는 파싱 모듈(120); 파싱 모듈(120)에서 처리된 데이터를 저장하는 파싱 결과 데이터베이스(150); 및 분석 대상이 되는 웹 사이트의 웹 서버의 로그 데이터(400)와 파싱 결과 데이터베이스(150)로부터 전달된 데이터를 조합하는 데이터 조합부(161)를 가지는 분석데이터 표현 모듈(160)을 포함한다. 분석데이터 표현 모듈(160)에서 처리된 정보를 기초로 로그 분석 데이터(160)가 만들어질 수 있다. 도 1에 도시된 모듈은 기능을 기준으 로 구분된 것으로 각각의 모듈이 물리적 또는 네트워크적으로 구분된 서버에서 구동되거나 또는 다수 개의 모듈이 물리적 또는 네트워크적으로 동일한 서버에서 구동될 수 있다.
도 2a는 로그 분석 서버(100)가 분석대상 웹사이트 웹서버(500)와 동일한 물리적 영역 또는 동일한 네트워크 영역에 존재하여, 분석대상 웹사이트 웹서버(500)가 로그파일 형태로 저장된 로그 데이터(400)를 직접적으로 접근하여 분석을 수행하는 실시 예를 도시한 것이다. 이는 로그 분석이 수행되는 일반적인 실시 예에 해당한다.
도 2b는 로그분석 서버(100)가 ASP(Active Server Page) 또는 SaaS(Software as a serveice)형태로 운영되는 경우 대표적으로 나타나는 형태에 대한 실시 예를 도시한 것이다.
분석대상 웹사이트 웹서버(500)의 로그 파일을 이용하지 않고, 로그분석용 데이터 수집을 수행하는 별도 장치로부터 생성된 로그 데이터(400)를 이용하는 형태이다. 이러한 실시 예는 분석 대상 웹사이트 웹서버(500)와 연계된 동적 컨텐츠를 저장한 데이터베이스와 연결이 불가능한 경우에 해당하며 본 발명에 따른 방법이 가장 경제적으로 효용을 발휘할 수 있는 환경을 보여주는 실시 예에 해당한다.
도 3은 도 1에 따른 시스템에서 로그 분석이 실행되는 실시 예를 개략적으로 도시한 것이다.
도 3을 참조하면, 로그 분석이 시작되면 먼저 스크래핑에 의해 가져온 동적 페이지 HTML컨텐츠(214)를 파싱(Parsing) 분해하여 추출할 때 이용될 파싱 힌트가 파싱 힌트 데이터베이스(130)에 준비되었는지 여부를 확인한다(S11). 만약 파싱힌트가 없다면(NO), 사용자는 사용자 클라이언트(300)을 이용하여 로그분석 서버(100)에 파싱힌트를 입력하도록 하여 입력된 파싱힌트가 나중에 이용될 수 있도록 파싱힌트 데이터베이스(130에 저장한다(S111). 이러한 과정은 아래에서 동적 페이지(210)을 파싱하기 위한 파싱힌트 데이터베이스(130)의 구성과 관련하여 다시 설명이 될 것이다.
이와 같은 과정에서 입력되는 파싱힌트 정보는 최초 입력된 후 동적 페이지 URL의 파일명 부분 (http://mysite.com/dynamicPage.jsp?param=12345 에서 dynamicPage.jsp 부분)이 변경되지 않는 이상 파싱힌트 데이터베이스(130)에 입력된 정보가 변경될 필요가 없다.
파싱힌트 데이터베이스(130)에 파싱 힌트가 존재한다면(YES), 로그분석 서버(100)의 스크래핑 모듈(110)이 로그 데이터(400)내 존재하는 동적 페이지의 URL(211)을 읽고 그리고 스크래핑 모듈(110)이 동적 페이지(210)에 HTTP 통신 프로토콜로 접속하여 동적 페이지 HTML 컨텐츠(214)를 가져온다(S12). 이러한 과정은 아래에서 다시 설명이 될 것이다. 웹사이트는 HTTP 통신 프로토콜로 서비스가 이루어지므로, 로그분석 서버(100)의 스크래핑 모듈(110)이 분석대상 웹사이트 웹서버(500)의 물리적 또는 네트워크 상의 위치에 상관없이 스크래핑을 수행할 수 있다.
HTML 컨텐츠(214)가 얻어지면(S12), 파싱모듈(120)은 스크래핑 모듈(110)이 가져온 동적 페이지의 HTML 컨텐츠(214)를 파싱힌트 데이터베이스(130)의 각 정보 를 이용하여 파싱하여 파싱 목적 컨텐츠(240)를 얻어내어 분석 데이터 표현모듈(160)이 함께 이용하여야 하는 연관 정보들을 추가적으로 포함하여 파싱결과 데이터 베이스(150)에 저장한다(S13). 이러한 과정은 아래에서 상세하게 다시 설명이 된다.
파싱 결과 데이터베이스(150)에 관련 정보가 저장이 되면(S13), 로그 데이터(400)에 파싱이 되어야 할 동적 페이지의 URL(211)이 남아 있는지 여부가 확인된다. 동적 페이지의 URL(211)이 남아있다면(YES) 파싱 작업이 다시 순차적으로 진행이 된다. 이와 달리 동적 페이지의 URL(211)이 남아있지 않다면(NO), 분석 데이터 표현모듈(160)은 스크래핑 작업단계(S11) 및 파싱 작업단계(S13)가 완료되어 완성된 파싱결과 데이터베이스(150)와 로그데이터(400)의 데이터를 이용하여 로그분석 리포트(600)을 생성하여(S14) 로그 분석 작업이 완료된다. 이러한 과정에 대하여 아래에서 다시 상세하게 설명된다.
도 4a는 파싱 힌트의 준비 여부를 확인하는 단계(S11)에서 분석하고자 하는 웹사이트(200)의 동적 페이지(210) 내의 구성요소와 파싱하여 얻고자 하는 파싱 목적 컨텐츠(240)가 위치하는 곳을 기술적으로 설명하는 사용자가 입력해야 할 파싱 힌트와 관련된 정보의 예를 도시한 것이다.
도 4a를 참조하면, 동적 페이지(210)에 표시되는 동적 페이지 URL(211)은 일반적으로 ‘?’로 구분되어 뒤쪽에 위치하고 있는 쿼리 스트링(Query String)을 가지고 있다. 쿼리 스트링은 1개 또는 복수 개의 동적 페이지 파라미터(212)와 해당 파라미터 값(213)의 쌍으로 이루어져 있다. 동적 페이지(210)는 파라미터(212)에 해당하는 파라미터 값(213)의 변화에 따라 해당하는 웹사이트의 동적 컨텐츠를 저장한 데이터베이스에 조회하여 컨텐츠가 포함된 동적 페이지 HTML 컨텐츠(214)를 구성하게 된다. 동적 페이지 HTML컨텐츠(214)의 내용 중 동적 페이지 파라미터 값(213)에 따라 변하지 않고 동일한 내용을 유지하는 부분이 존재하고 그리고 이 부분이 컨텐츠를 파싱하는 주요 힌트로 이용된다.
도 4a의 아래쪽에 예시되어 있는 것처럼, 전자상거래 웹사이트의 상품 상세 보기 페이지에 동적 페이지 파라미터 값(213) ‘12345’에 의해 연계되는 상품 정보는 파싱 목적 컨텐츠인 ‘LCD모니터’ 문자열에 해당된다. 상기 문자열은 동적 페이지(210)의 소스 코드인 동적 페이지 HTML컨텐츠(214)내에 포함되어 있으며 파싱 목적 컨텐츠(240)의 앞뒤에 위치하는 컨텐츠 파싱 앞 지점(220)과 컨텐츠 파싱 뒷 지점(230)을 찾아 내어 파싱이 될 수 있다.
도 4b는 파싱 힌트의 준비 여부를 확인하는 단계(S11)에서 입력된 파싱힌트 데이터베이스(130)의 구성 항목 및 구성 항목이 실제 동적 페이지HTML (214)에서 파싱에 이용되는 방식에 대한 실시 예를 도시한 것이다.
도 4b를 참조하면, 파싱힌트 데이터 DB(130)는 다양한 동적페이지(210)을 파싱하기 위하여 다수의 파싱힌트를 저장해야 하므로 각각의 파싱힌트는 고유번호로 구분되어 저장된다. 페이지 파일명 힌트(133)는 스크래핑모듈(110)이 스크래핑에 이용된 동적 페이지 URL(211)가 어떤 파싱힌트를 이용해야 하는지 판단할 때 이용된다. 도 4b에서 표현된 동적 페이지 URL(211)은 파일명으로 ‘/dynamicpage.jsp’를 포함하고 있으므로, 파싱힌트 데이터베이스 DB(130)의 고유번호 ‘1’번에 해당 하는 정보가 이용될 수 있다.
실제로 동적 페이지 파라미터(212)와 동적 페이지 파라미터 값(213)은 한 개가 아닌 복수 개인 경우가 많으므로, 파라미터 힌트(136)는 S11 및 S13단계에서 이용될 동적 페이지 파라미터값(213)을 얻기 위하여 어떤 파라미터에 해당하는 값을 추출해야 하는지 결정하기 위하여 필요하다. 도 4b의 실시 예에서 ‘param’ 파라미터에 해당하는 ‘12345’가 추출된 값이 될 것이다. 파싱 앞 지점 힌트(134)와 파싱 뒷 지점 힌트(135)는 동적 페이지 HTML 컨텐츠(214)내에서 파싱 목적 컨텐츠(240)의 앞과 뒷부분의 문자열 패턴을 나타낸다. 이 정보를 바탕으로 도 4b에 표현된 ‘LCD모니터’ 문자열을 추출해내게 될 것이다.
추가적인 파싱 방법을 예로 들면, 파싱 목적 컨텐츠(240)를 추출해 냄에 있어서 앞과 뒷부분의 문자열 패턴을 이용한 매칭 방법이 아닌 JAVA언어 및 PHP언어에서 부가적으로 제공되는 DOM(Document Object Model)객체 라이브러리를 이용하여 실시 예에서 제시된 ‘<SPAN ID=”PRODUCT”>’의 ID값인 “PRODUCT”문자열을 힌트로 하여 “SPAN” Tag내에 포함된 문자열인 ‘LCD모니터’를 추출하는 방법이 가능하다. 이러한 경우 파싱힌트 데이터베이스(130)에서 파싱 앞 지점 힌트(134)와 파싱 뒷 지점 힌트(135)를 각각 저장하는 것이 아니라, ‘파싱에 이용될 DOM객체 ID’라는 하나의 항목만을 저장할 수 있다.
실시 예에서 관리정보(137)는 사용자가 파싱힌트를 관리할 때 참고하기 위한 정보를 말한다.
도 5a는 스크래핑모듈(110)이 동적 페이지 HTML 컨텐츠(214)를 얻는(S12) 실 시 예의 흐름도를 도시한 것이다.
도 5a를 참조하면, 스크래핑 모듈(110)의 페이지 URL로딩부(111)는 분석하고자 하는 웹 사이트(200)의 로그 데이터(400)에 기록된 페이지 URL을 읽어 들이고(S21) 그리고 파싱힌트 데이터베이스(130)의 페이지 파일명 힌트(133)의 패턴과 매칭되는 URL을 추출한다(S22). 이때 추출된 URL이 스크래핑 및 파싱을 통해 분석하고자 하는 동적 페이지 URL(211)가 된다. 이러한 과정은 아래에서 다시 구체적으로 설명된다. 추출된 URL(211)에서 동적 페이지 URL(211)에서 파싱힌트 데이터베이스(130)의 파라미터 힌트(136)를 이용하여 동적 페이지 파라미터 값(213)을 추출한다(S231). 추출된 동적 페이지 파라미터 값(213)은 추후 도 3와 관련하여 S13단계에서 동적 페이지 HTML 컨텐츠(214)에서 파싱을 통해 추출하여 얻게 될 파싱 목적 컨텐츠(240)와 한 쌍을 이루어 실제 로그분석에 이용이 될 것이다. 다른 한편으로 스크래핑 엔진(112)은 동적 페이지 URL(211)에 HTTP통신을 통해 동적 페이지(210)에 접속하여 동적 페이지 HTML 컨텐츠(214)를 얻어오는 스크래핑(Scrapping) 작업을 하게 된다(S232). 만약 성공적으로 스크래핑이 이루어지게 되면(YES) 앞서 추출한 동적 페이지 파라미터 값(213)과 동적 페이지 HTML 컨텐츠(214), 페이지 파일명 힌트(133) 및 동적 페이지 URL(211)을 파싱모듈(120)에 전달한다(S24). 이와 달리 스크래핑이 실패로 판명되면(NO) 지정된 횟수(실시 예에서는 3회)만큼 시도하고 그리고 계속해서 실패하면 오류 로그를 남기고 작업을 종료한다.
도 5b는 도 3의 실시 예에 제시된 HTML 컨텐츠(214)를 얻어오는 과정(S12)에서 실제적으로 로그데이터(400)에서 파싱힌트 데이터 DB(130)의 각 항목을 매칭시 켜 추출된 동적 페이지 URL(210) 및 추출된 동적 페이지 파라미터 값(213)을 얻어내는 실시 예를 도시한 것이다.
도 5b를 참조하면, 다수의 파싱힌트 데이터베이스(130) 중 첫 번째 행(ROW)의 페이지 파일명 힌트(133) ‘/dynamiPage.jsp’를 이용하여 로그 데이터(400)의 2번째 라인에서 정보를 추출한다. 또한 파라미터 힌트(136)을 이용하여 로그 데이터(400)의 해당 라인의 파라미터 값인 ‘12345’를 추출한다.
도 6a는 도 3의 실시 예에서 파싱 목적 컨텐츠(240)를 파싱된 컨테츠 문자열(152)로 얻어내는 실시 예를 도시한 것이다.
도 6a를 참조하면, 스크래핑 모듈(110)이 전달한 데이터를 이용하여 파싱모듈(120)이 페이지 파일명 힌트(133)를 기준으로 해당하는 파싱힌트 데이터베이스(130)의 파싱 앞 지점 힌트(134) 및 파싱 뒷 지점 힌트(135)를 가져온다(S31). 파싱엔진(122)은 이러한 2개의 파싱힌트를 이용하여 스크래핑 모듈(110)로부터 전달받은 동적 페이지 HTML 컨텐츠를 파싱한다(S32). 이러한 과정은 아래에서 구체적으로 다시 설명이 된다.
파싱 여부를 판단하고(S33) 만약 파싱이 성공이라면(YES) 파싱 결과는 파싱 결과 데이터베이스(150)에 저장되고(S34) 그리고 파싱 결과로 얻은 파싱 목적 컨텐츠(240)를 파싱된 컨텐츠 문자열(152)로, 스크래핑 모듈(110)으로부터 전달받은 동적 페이지 파라미터값(213)을 컨텐츠 연계 코드 값(153)으로 그리고 작업에 사용된 동적 페이지 URL(211)을 파싱한 동적 페이지 URL(151)로 저장하며 추가적으로 파싱한 일시(154)를 포함하여 저장된다(S34). 이와 달리 만약 파싱에 실패할 경우에는 오류 로그를 남기고 작업을 종료한다(S35).
도 6b는 파싱 결과 데이터베이스(150) 항목에 동적 페이지 HTML 컨텐츠(214)에서 추출된 각 항목이 저장되는 방법에 대한 실시 예를 도시한 것이다.
도 6b를 참조하면, 스크래핑모듈(110)이 스크래핑 작업에 이용한 동적 페이지 URL(211)은 분석데이터 표현모듈(160)이 데이터 조합에 이용될 수 있도록 파싱한 동적 페이지 URL(151)로 저장되고, 동적 페이지 파라미터 값(213)에서 파싱된 컨텐츠 연계 코드값(153)으로 저장되고, 그리고 동적 페이지 HTML 컨텐츠(214)에서 파싱된 파싱목적 컨텐츠(240)는 파싱된 컨텐츠 문자열(152)로 저장된다. 또한 파싱일시(154)는 차후 최근 작업한 동일한 파싱작업을 반복하지 않도록 저장된다. 데이터의 저장 과정에서 예를 들어 지정된 기간(10일)보다 오래된 데이터들만 추려서 삭제하거나 업데이트를 함으로서 최신의 정보를 유지할 수 있다.
파싱결과 고유번호는 파싱결과 데이터베이스(150)를 관리하기 위해 이용되고, 파싱힌트 고유번호는 해당 파싱결과가 파싱힌트 데이터베이스(130)의 어떤 행(ROW)에 해당하는 힌트로 파싱된 결과인지를 추후 확인하기 위하여 저장된다. 도 3의 실시 예로 제시된 S12에서 S13의 단계를 스크래핑 모듈(110) 및 파싱 모듈(120)이 반복적으로 수행함에 따라 파싱결과 데이터베이스(150)의 데이터는 한 행(ROW)씩 증가하게 될 것이다.
도 7a, 도 7b 및 도 7c는 로그 분석 리포터를 생성하는 단계(S14)에서 분석데이터 표현모듈(160)이 로그 분석 리포트(600)을 생성하는 과정에 대한 실시 예, 파싱 결과 데이터베이스(150)를 포함하는 로그분석 리포트(600)의 실시 예 및 가격 비교 검색 엔진에 제공되는 페이지를 이용한 스크래핑과 파싱 방법에 대한 실시 예를 각각 도시한 것이다.
도 7a를 참조하면, 로그 데이터(400)를 이용하여 일반적인 로그 분석 시스템이 분석을 수행함에 있어서, 로그 분석 서버(100)의 분석 데이터 표현 모듈(160)은 로그 데이터(400)로부터 분석하고자 하는 동적 페이지 URL(211)내 포함된 로그 분석 리포트(600)의 기본 데이터인 조합 전 로그분석 결과 데이터(162)를 생성한다(S41). 데이터 조합부(161)는 파싱결과 데이터 DB(150)의 파싱한 동적 페이지 URL(151)를 조합 전 로그분석 결과 데이터(162)내 존재하는 동적 페이지 URL(211)과 매칭(JOIN)시킨다(S42). 그리고 데이터베이스 매칭의 성공 여부를 판단한다(S43).
공지의 로그분석 방법에서 로그 분석 결과 데이터(162)가 최종적인 로그 분석 리포트가 된다. 그리고 본 발명에 따르면 로그 분석 결과 데이터(162)에 추가적인 작업이 가해져서 로그 분석 데이터(600)가 만들어질 수 있다. 그러므로 데이터 조합부(161)는 자체 생성한 조합 전 로그 분석 결과 데이터(162)뿐만 아니라 본 발명의 방법이 이용되지 않은 공지의 로그분석 결과 또는 다른 로그 분석 시스템이 작성한 로그 분석 결과를 이용하여 동일한 분석데이터 조합 작업을 하는 것이 가능하다.
만약 데이터베이스 매칭(JOIN)이 성공적인 항목인 경우(YES) 매칭된 동적 페이지 URL(211)에 해당하는 파싱 결과 데이터베이스(150)의 파싱된 컨텐츠 문자열(152) 및 파싱된 컨텐츠 연계 코드 값(153)을 이용하여 로그분석 결과 데이 터(162)의 동적 페이지 URL(211)을 대체하거나 또는 리포트를 조회하는 자가 쉽게 리포트를 이해할 수 있도록 보완 정보가 추가된다(S44).
본 발명에 따르면, 분석 데이터 표현모듈(160)은 로그분석 결과 데이터(162)로부터 완성된 로그분석 리포트(600)를 웹페이지 또는 기타 어플리케이션(Applicatioin)을 통해서 일반적인 로그분석 시스템이 수행하는 것과 같이 로그분석 리포트를 조회하는 사용자에게 제공될 수 있도록 한다(S45).
만약 모든 로그 데이터(400)내 동적 페이지 URL(211)을 스크래핑 및 파싱하지 못하여 파싱결과 데이터베이스(150)에 일부분의 데이터만 저장되어 있더라도 로그 분석 리포트의 작성이 가능하고 다만 로그분석 리포트(600)의 일부 항목은 파싱된 컨텐츠 문자열(152)과 컨텐츠 연계 코드값(153)의 정보가 추가되지 않은 상태로 보여질 것이다(NO). 도 3에 제시된 실시 예의 S12 및 S31 단계의 스크래핑 및 파싱할 동적 페이지 URL(211)이 더 이상 존재하지 않고 이로 인하여 반복작업이 종료된 상태인 경우라면 모든 로그 데이터(400)내 동적 페이지 URL(211)는 파싱 결과 데이터베이스(150)와 모두 매칭이 이루어지게 될 것이다.
도 7c에서 본 발명에 따른 로그 분석 방법이 가격 비교 검색 엔진에 제공되는 전자상거래 사이트의 페이지에 적용된 실시 예가 제시되어 있지만 본 발명에 따른 방법은 임의의 동적 페이지의 로그 분석 방법에 적용될 수 있다.
위에서 본 발명은 실시 예를 참조하여 상세하게 설명이 되고 그리고 이 분야에서 통상의 지식은 가진 자는 제시된 실시 예를 참조하여 본 발명의 기술적 사상을 벗어나지 않는 다양한 변형 및 수정 형태를 만들 수 있지만 본 발명은 이에 제 한되지 않는다. 다만 본 발명은 아래에 첨부된 청구범위에 의해서만 제한된다.
도 1은 본 발명에 따른 스크래핑을 이용한 웹사이트 동적 페이지의 로그분석을 위한 웹사이트 동적 페이지의 웹로그 분석 시스템의 실시 예를 도시한 것이다.
도 2a 로그 분석 서버(100)가 분석대상 웹사이트 웹서버(500)와 동일한 물리적 영역 또는 동일한 네트워크 영역에 존재하여, 분석대상 웹사이트 웹서버(500)가 로그파일 형태로 저장 로그 데이터(400)를 직접적으로 접근하여 분석을 수행하는 실시 예를 도시한 것이다.
도 2b는 로그분석 서버(100)가 ASP 또는 SaaS형태로 운영되는 경우 대표적으로 나타나는 형태에 대한 실시 예를 도시한 것이다.
도 3은 도 1에 따른 시스템에서 로그 분석이 실행되는 실시 예를 개략적으로 도시한 것이다.
도 4a는 파싱 힌트의 준비 여부를 확인하는 단계(S11)에서 분석하고자 하는 웹사이트(200)의 동적 페이지(210) 내의 구성요소와 파싱하여 얻고자 하는 파싱 목적 컨텐츠(240)가 위치하는 곳을 기술적으로 설명하여 사용자가 입력해야 할 파싱 힌트와 관련된 정보의 예를 도시한 것이다.
도 4b는 파싱 힌트의 준비 여부를 확인하는 단계(S11)에서 입력된 파싱힌트 데이터베이스(130)의 구성 항목 및 실제 동적 페이지HTML (214)에서 파싱에 이용되는 방식에 대한 실시 예를 도시한 것이다.
도 5a는 스크래핑모듈(110)이 동적 페이지 HTML 컨텐츠(214)를 얻는(S12) 실시 예의 흐름도를 도시한 것이다.
도 5b는 도 4의 실시 예에 제시된 HTML 컨텐츠(214)를 얻어오는 과정(S12)에서 실제적으로 로그데이터(400)에서 파싱힌트 데이터 DB(130)의 각 항목을 매칭시켜 추출된 동적 페이지 URL(210) 및 추출된 동적 페이지 파라미터 값(213)을 얻어내는 실시 예를 도시한 것이다.
도 6a는 도 4의 실시 예에서 파싱 목적 컨텐츠(240)를 파싱된 컨테츠 문자열(152)로 얻어내는 실시 예를 도시한 것이다.
도 6b는 파싱결과 데이터베이스(150) 항목에 동적 페이지 HTML 컨텐츠(214)에서 추출된 각 항목이 저장되는 방법에 대한 실시 예를 도시한 것이다.
도 7a, 도 7b 및 도 7c는 로그 분석 리포터를 생성하는 단계(S14)에서 분석데이터 표현모듈(160)이 로그 분석 리포트(600)을 생성하는 과정에 대한 실시 예, 파싱 결과 데이터베이스(150)를 포함하는 로그분석 리포트(600)의 실시 예 및 가격 비교 검색 엔진에 제공되는 페이지를 이용한 스크래핑과 파싱 방법에 대한 실시 예를 각각 도시한 것이다.

Claims (13)

  1. 사용자 클라이언트(300)로부터 데이터를 수집하는 파싱 힌트 관리 모듈(140);
    파싱 힌트 관리 모듈(140)로부터 전달된 데이터를 저장하는 파싱 힌트 데이터베이스(130);
    파싱 목적 컨테츠(240)를 스크래핑하고 그리고 파싱 힌트 데이터베이스(130)로부터필요한 정보를 전달받아 처리하는 스크래핑 모듈(110);
    스크래핑 모듈(110)로부터 전달된 데이터를 처리하는 파싱엔진(122) 및 파싱 힌트 데이터베이스(130)로부터 전달된 데이터를 로딩하여 파싱 엔진(122)으로 전달하는 파싱 힌트 로딩부(121)를 포함하는 파싱 모듈(120);
    파싱 모듈(120)에서 처리된 데이터를 저장하는 파싱 결과 데이터베이스(150); 및
    분석 대상이 되는 웹 사이트의 웹 서버의 로그 데이터(400)와 파싱 결과 데이터베이스(150)로부터 전달된 데이터를 조합하는 데이터 조합부(161)를 가지는 분석데이터 표현 모듈(160)을 포함하는 스크래핑 및 파싱을 이용한 웹사이트 동적 페이지의 웹 로그 분석 시스템.
  2. 청구항 1에 있어서, 스크래핑 모듈(110)은 분석 대상이 되는 웹 사이트의 웹 서버(500)로부터 웹사이트 동적 페이지(210)의 파싱 목적 컨텐츠(240)를 스크래핑 하는 스크래핑 엔진(112)과 분석 대상이 되는 웹사이트의 웹서버(500)에 대한 로그 데이터(400) 및 파싱 힌트 데이터베이스(130)로부터 전달되는 정보를 로딩하고 그리고 스크래핑 엔진(112)에 데이터를 전달하는 페이지 URL 로딩부(111)을 포함하는 스크래핑 및 파싱을 이용한 웹사이트 동적 페이지의 웹 로그 분석 시스템.
  3. 청구항 1에 있어서, 분석 대상이 되는 웹 사이트의 웹 서버는 로그 분석을 하는 서버와 물리적으로 또는 네트워크적으로 동일 영역에 존재하거나 또는 서로 분리된 영역에 존재하는 것을 특징으로 하는 스크래핑 및 파싱을 이용한 웹사이트 동적 페이지의 웹 로그 분석 시스템.
  4. 웹사이트 동적 페이지의 로그 분석 방법에 있어서,
    사용자가 사용자 클라이언트(300)을 이용하여 파싱 힌트와 관련된 정보를 입력하는제1 단계;
    입력된 파싱 힌트에 매칭되는 동적 페이지 URL(211)를 스크래핑하여 동적 페이지 HTML 컨텐츠를 가져오는 제2 단계;
    동적 페이지 HTML 컨텐츠(214)와 동적 페이지 관련 정보를 바탕으로 파싱 힌트를 파싱하여 저장하는 제3 단계; 및
    파싱 힌트와 제2 단계와 제 3단계를 반복하여 얻어진 결과를 조합하여 이를 기초로조합 전 로그 분석 결과 데이터를 가공하여 최종 로그분석 리포터를 생성하는 단계를 포함하는 스크래핑 및 파싱을 이용한 웹사이트 동적 페이지의 로그분석 방법.
  5. 청구항 4에 있어서, 파싱 힌트와 관련된 정보는 페이지 파일명 힌트(133), 파싱 앞 지점 힌트(134), 파싱 뒷 지점 힌트(135) 및 파라미터 힌트(136)를 포함하는 웹사이트 동적 페이지의 로그 분석 방법.
  6. 청구항 5에 있어서, 매칭되는 파싱 힌트는 페이지 파일명 힌트(133)이 되는 것을 특징으로 하는 포함하는 웹사이트 동적 페이지의 로그 분석 방법.
  7. 청구항 4에 있어서, 동적 페이지 관련 정보는 동적 페이지 URL(211), 동적 페이지 파라미터(212) 및 동적 페이지 파라미터 값(213)이 되는 것을 특징으로 하는 웹사이트 동적 페이지의 로그 분석 방법.
  8. 청구항 4에 있어서, 파싱 힌트와 관련된 정보는 DOM 객체의 ID 값이 되는 것을 특징으로 웹사이트 동적 페이지의 로그 분석 방법.
  9. 청구항 8에 있어서, HTML 컨텐츠의 추출을 위하여 DOM 객체 라이브러리가 사용되는 것을 특징으로 하는 웹사이트 동적 페이지의 로그 분석 방법.
  10. 청구항 4에 있어서, 동적 페이지 관련 정보는 외부 로그 분석 결과 리포트가 되는 것을 특징으로 하는 웹사이트 동적 페이지의 로그 분석 방법.
  11. 청구항 4에 있어서, 제3 단계에서 파싱 일시가 저장되는 것을 특징으로 하는 웹사이트 동적 페이지의 로그 분석 방법.
  12. 청구항 11에 있어서, 스크래핑은 파싱 일시를 기준으로 행해지는 것을 특징으로 하는 웹사이트 동적 페이지의 로그 분석 방법.
  13. 청구항 4에 있어서, 스크래핑은 정해진 횟수만큼 반복되는 것을 특징으로 하는 웹사이트 동적 페이지의 로그 분석 방법.
KR1020090051238A 2009-06-10 2009-06-10 스크래핑 및 파싱을 이용한 웹사이트 동적 페이지의 웹 로그 분석 시스템 및 분석 방법 KR20100132576A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090051238A KR20100132576A (ko) 2009-06-10 2009-06-10 스크래핑 및 파싱을 이용한 웹사이트 동적 페이지의 웹 로그 분석 시스템 및 분석 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090051238A KR20100132576A (ko) 2009-06-10 2009-06-10 스크래핑 및 파싱을 이용한 웹사이트 동적 페이지의 웹 로그 분석 시스템 및 분석 방법

Publications (1)

Publication Number Publication Date
KR20100132576A true KR20100132576A (ko) 2010-12-20

Family

ID=43508147

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090051238A KR20100132576A (ko) 2009-06-10 2009-06-10 스크래핑 및 파싱을 이용한 웹사이트 동적 페이지의 웹 로그 분석 시스템 및 분석 방법

Country Status (1)

Country Link
KR (1) KR20100132576A (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101402146B1 (ko) * 2012-08-30 2014-06-03 주식회사 핑거 모바일 디바이스에서의 웹 스크린 스크래핑 방법 및 웹 스크린 스크래핑을 제공하는 모바일 디바이스
KR20210098155A (ko) * 2020-01-31 2021-08-10 (주)블록체인글로벌 기업지원방법 및 이를 수행하는 기업지원서버
KR20220139180A (ko) * 2021-04-07 2022-10-14 주식회사 카카오뱅크 스크래핑 자동화 방법 및 이를 수행하는 서버
CN115687051A (zh) * 2022-12-30 2023-02-03 西安纽扣软件科技有限公司 一种基于点位解析的日志解析系统
CN115714707A (zh) * 2022-09-23 2023-02-24 福建慧舟信息科技有限公司 一种基于页面引擎的数据提取方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101402146B1 (ko) * 2012-08-30 2014-06-03 주식회사 핑거 모바일 디바이스에서의 웹 스크린 스크래핑 방법 및 웹 스크린 스크래핑을 제공하는 모바일 디바이스
KR20210098155A (ko) * 2020-01-31 2021-08-10 (주)블록체인글로벌 기업지원방법 및 이를 수행하는 기업지원서버
KR20220139180A (ko) * 2021-04-07 2022-10-14 주식회사 카카오뱅크 스크래핑 자동화 방법 및 이를 수행하는 서버
CN115714707A (zh) * 2022-09-23 2023-02-24 福建慧舟信息科技有限公司 一种基于页面引擎的数据提取方法及系统
CN115687051A (zh) * 2022-12-30 2023-02-03 西安纽扣软件科技有限公司 一种基于点位解析的日志解析系统
CN115687051B (zh) * 2022-12-30 2023-03-28 西安纽扣软件科技有限公司 一种基于点位解析的日志解析系统

Similar Documents

Publication Publication Date Title
US8185530B2 (en) Method and system for web document clustering
EP3534263A1 (en) Systems and methods for web analytics testing and web development
US10324896B2 (en) Method and apparatus for acquiring resource
CN103853743A (zh) 一种分布式系统及其日志查询方法
CN102073726A (zh) 搜索引擎系统及该搜索引擎系统的结构化数据引入方法
CN103716394B (zh) 下载文件的管理方法及装置
US20130232424A1 (en) User operation detection system and user operation detection method
KR20100132576A (ko) 스크래핑 및 파싱을 이용한 웹사이트 동적 페이지의 웹 로그 분석 시스템 및 분석 방법
CN103294732A (zh) 网页抓取方法及爬虫
JP2017027208A (ja) 問答情報提供システム、情報処理装置及びプログラム
CN106598991A (zh) 一种使用会话方式实现与网站交互表单自动提取的网络爬虫系统
KR20190058141A (ko) 문서로부터 추출되는 데이터를 생성하는 방법 및 그 장치
CN111858658A (zh) 数据采集方法、装置、设备及存储介质
CN111209325B (zh) 业务系统接口识别方法、装置及存储介质
Koçi et al. A data-driven approach to measure the usability of web apis
CN111158973B (zh) 一种web应用动态演化监测方法
KR101400213B1 (ko) 서브셋 폰트를 제공하는 웹 폰트 서버 및 이를 포함하는 웹 폰트 시스템
Ali et al. An integrated framework for web data preprocessing towards modeling user behavior
US20150248500A1 (en) Documentation parser
US9471650B2 (en) System and method for contextual workflow automation
CN116226494A (zh) 一种用于信息搜索的爬虫系统及方法
JP5737249B2 (ja) 負荷シミュレーション装置、シミュレーション装置、負荷シミュレーション方法、シミュレーション方法及びプログラム
CN108038124A (zh) 一种基于大数据的pdf文档采集处理方法、系统及装置
CN112069031B (zh) 异常查询方法、装置、设备及计算机可读存储介质
KR100771577B1 (ko) 웹페이지 접속 이력정보 관리방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application