KR102420706B1 - 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템 - Google Patents

타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템 Download PDF

Info

Publication number
KR102420706B1
KR102420706B1 KR1020210004004A KR20210004004A KR102420706B1 KR 102420706 B1 KR102420706 B1 KR 102420706B1 KR 1020210004004 A KR1020210004004 A KR 1020210004004A KR 20210004004 A KR20210004004 A KR 20210004004A KR 102420706 B1 KR102420706 B1 KR 102420706B1
Authority
KR
South Korea
Prior art keywords
target
unit
target data
web page
data
Prior art date
Application number
KR1020210004004A
Other languages
English (en)
Inventor
김종필
김범수
홍지원
공성랑
김영선
Original Assignee
(주)해나소프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)해나소프트 filed Critical (주)해나소프트
Priority to KR1020210004004A priority Critical patent/KR102420706B1/ko
Application granted granted Critical
Publication of KR102420706B1 publication Critical patent/KR102420706B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/81Indexing, e.g. XML tags; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • G06F16/835Query processing
    • G06F16/8373Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명은 타깃 웹 사이트 상에 접근하여, 타깃 웹 사이트로부터 타깃 웹 페이지에 접근하는 액세싱 유닛; 액세싱 유닛이 접근한 타깃 웹 페이지 상의 타깃 데이터를 지정하고 타깃 데이터의 추출을 위한 전산적 처리 작업을 플래닝하는 디렉션 유닛; 및 플래닝된 전산적 처리 작업을 통해 타깃 데이터를 추출하여 저장하는 임포팅 유닛(importing unit)을 포함하는 기술적 사상을 개시한다.

Description

타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템{System accumulating target data by approaching hierarchy of target web page}
본 발명은 타깃 데이터의 수집을 위한 시스템에 관한 것으로서, 보다 자세하게는, 타깃 데이터를 제시하는 웹 페이지 상의 계층에 선별적으로 접근한 후, 타깃 웹 페이지 상의 목적하는 타깃 데이터만을 선별하여 추출하도록 하는 시스템에 관한 기술 분야이다.
3차 산업혁명을 기반으로 4차 산업혁명은 ‘초연결성(Hyper-Connected)’, ‘초지능화(Hyper-Intelligent)의 특성을 가지고 있으며, 사물인터넷(IoT), 클라우드, 등 정보통신기술(ICT)을 통해 인간과 인간, 사물과 사물, 인간과 사물이 상호 연결되고 빅데이터와 인공지능 기술의 발달로 인해 지능화 혁명의 시대라고 할 수 있다.
특히, 빅데이터는 디지털 환경에서 생성되는 대규모 데이터로서, IBM의 조사에 따르면, 사람들이 매일 생성하는 데이터의 양은 약 250경(2.5조 퀀틸리언) 바이트에 이른다고 하는데, 이러한 데이터를 적극적으로 분석하고 이용할 필요가 있으며, 이에 따라 데이터를 보는 시각과 활용에 큰 변화가 일어나고 있다.
기존에 쌓아 두거나 버리던 데이터는 새로운 자원이 되는 시대가 됐으며, 데이터에 대한 수요와 활용이 증가하면서, 데이터 수집과 관련 시장의 성장에도 가속도가 붙고 있다.
마켓 앤 마켓은 ‘2024년까지 데이터 수집 시스템 글로벌 시장 전망’ 발표한 보고서를 통해, 데이터 수집 시장 규모가 2024년에 26억 달러에 달하며 연평균 5.9% 성장할 것으로 예측했다.
웹 데이터의 수집을 위한 기술적인 시도는 다수 존재하며, 이에 대한 선행 특허문헌도 다수 공개되어 있다.
예컨대 “부분 매칭을 이용한 웹 페이지의 데이터 추출 방법 및 그 기록매체(등록번호 제10-1045481호, 이하 특허문헌1이라 한다.)”이 존재한다.
특허문헌1에 따른 발명의 경우, 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법 및 그 기록매체에 관한 것으로, 웹 페이지의 HTML트리에서 루트로부터 추출 데이터까지의 경로가 절대 경로에 대하여 부분매치(match)되는 다수의 선형 부분매치 질의(Linear Partial Match Query)를 산출하는 제 1 산출단계와; 산출된 각 선형 부분매치 질의에 대하여 해당 매치의 정렬된 원소가 다른 매치의 정렬된 원소보다 크거나 같은 최소 매치를 산출하는 제 2 산출단계와; 최소 매치를 갖는 다수의 선형 부분매치 질의 중에서 해당 최소 매치의 정렬된 원소가 다른 최소 매치의 정렬된 원소보다 크거나 같은 부분매치 질의를 견고한 선형 부분매치 질의로 판단하는 판단 단계와; 판단 결과에 따른 선형 부분매치 질의에 의해 해당 웹 페이지의 데이터를 추출하는 추출 단계를 포함하는 것을 특징으로 한다.
또 다른 특허문헌의 예로서 “웹 데이터 수집 장치 및 방법(등록번호 제10-1913780호, 이하 특허문헌2이라 한다.)”이 존재한다.
특허문헌2에 따른 발명의 경우, 웹 데이터 스크랩핑 시스템 및 그 동작 방법을 제공한다. 특허문헌2에 따른 발명의 경우, 사용자가 지정하는 타킷 사이트를 모사하여 별도의 프레임에 렌더링하고, 이 과정에서 웹 표준을 준수하지 않는 사이트도 프록시 설정을 통해 정확히 모사되도록 한다. 그리고, 사용자는 해당 프레임에서 DOM을 직관적이고 쉽게 선택하고, 이를 제어하는 이벤트를 데이터 수집 규칙으로 생성할 수 있도록 하고 이는 시나리오에 반영되어, 자동 반복 수행 등 웹 스크랩핑 서비스가 제공될 수 있는 기술적 사상을 개시한다.
또 다른 특허문헌의 예로서, “웹 스크래핑 추출 데이터 설정 방법(등록번호 제10-1569984호, 이하 특허문헌3이라 한다.)”이 존재한다.
특허문헌3에 따른 발명의 경우, 웹 스크래핑 추출 데이터 설정 방법에 관한 것으로, 액션 엘리먼트 목록창과, 사용자에 의해 현재 선택된 액션 엘리먼트가 출력되는 시나리오 보드창과, 웹브라우저의 속성이 선택 및 출력되는 액션 엘리먼트 속성 입력창 및 웹브라우저가 각각 출력되는 GUI 방식의 웹스크래핑 설정 프로그램을 구동하는 프로그램 구동 단계와; 사용자가 액션 엘리먼트 목록창의 액션 엘리먼트 버튼을 선택하여 시나리오 보드창에 등록하는 액션 엘리먼트 선택 단계와; 액션 엘리먼트 선택 단계에서 시나리오 보드창에 등록된 액션 엘리먼트에 의해 웹브라우저의 현재페이지에 출력되는 데이터와 속성 값을 선택 및 입력하여 데이터추출 시나리오를 작성하는 시나리오 작성 단계 및; 데이터추출 단계에서 추출된 데이터와 시나리오 설정 정보를 파일로 저장하는 설정 저장 단계로 이루어지고, 설정 저장 단계에서 저장된 시나리오 설정 파일을 이용하여 웹스크래핑 메인 프로그램의 데이터 추출 설정이 추가 및 삭제 또는 변경되며, 특허문헌 3의 발명에 의해 웹 스크래핑 또는 웹 오토메이션 관련 메인 프로그램의 데이터 추출 설정을 GUI 상에서 속성 추가 방식을 이용하여 일반인도 쉽게 변경하거나 구성하는 기술적 사상을 개시한다.
기존의 공개 기술들은 전문가들에게 필요한 기술적 내용들로 대부분 채워져 있는바, 사용자들이 타깃 웹 사이트의 구체적인 웹 에디팅 지식이 어느정도 되어 있어야 효율적인 사용이 가능한 문제점이 있었다.
아울러, 타 웹 사이트로부터 웹 데이터의 추출을 위한 여러가지 접근의 다양성을 직관적으로 제공하지 못할 뿐만 아니라, 일반 대중적인 사용자가 알 필요가 없는 지식까지 겸비하도록 하는, 난해한 기술적 사상을 개시하고 있다.
등록번호 제10-1045481호 등록번호 제10-1913780호 등록번호 제10-1569984호
본 발명에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템은 상기한 바와 같은 종래 문제점을 해결하기 위해 안출된 것으로서, 다음과 같은 해결하고자 하는 과제를 제시한다.
첫째, 목적하는 웹 페이지 내에 원하는 데이터를 자동으로 획득하고자 한다.
둘째, 목적하는 데이터에 대한 웹 페이지 주소를 개별 지정하지 않아도, 목적하는 데이터의 추출이 가능하도록 한다.
셋째, 목적하는 타깃 데이터와 일정한 공통적인 데이터 혹은 연관있는 데이터까지 함께 추출할 수 있도록 한다.
본 발명의 해결 과제는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 해결과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템은 상기의 해결하고자 하는 과제를 위하여 다음과 같은 과제 해결 수단을 가진다.
본 발명에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템의 경우, 타깃 웹 사이트(target web site) 상에 접근하여, 상기 타깃 웹 사이트로부터 타깃 웹 페이지에 접근하는 액세싱 유닛(accessing unit); 상기 액세싱 유닛이 접근한 상기 타깃 웹 페이지 상의 타깃 데이터를 지정하고 상기 타깃 데이터의 추출을 위한 전산적 처리 작업을 플래닝하는 디렉션 유닛(direction unit); 및 상기 플래닝된 상기 전산적 처리 작업을 통해 상기 타깃 데이터를 추출하여 저장하는 임포팅 유닛(importing unit)을 포함하는 것을 특징으로 할 수 있다.
본 발명에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템의 경우, 상기 액세싱 유닛은, 상기 타깃 웹 사이트 내 웹 페이지들을 수직 하이어아키(hierarchy)와 수평 하이어아키(hierarchy)로 개념화하여, 상기 타깃 웹 페이지에 선별적으로 접근하는 것을 특징으로 할 수 있다.
본 발명에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템의 경우, 상기 액세싱 유닛은, 상기 타깃 웹 사이트 내 상기 웹 페이지들을 구분하고, 상기 웹 페이지들을 홈 페이지로부터 파생되는 상기 수직 하이어아키와 상기 수평 하이어아키를 개념화하는 스테이지 구획부; 및 상기 스테이지 구획부가 개념화한 상기 웹 페이지들 중, 상기 타깃 데이터가 제시된 웹 페이지를 상기 타깃 웹 페이지로 설정하고, 상기 타깃 웹 페이지에 접근하는 스테이지 추적부를 포함하는 것을 특징으로 할 수 있다.
본 발명에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템의 경우, 상기 액세싱 유닛은, 상기 스테이지 구획부에 의하여 상기 수직 하이어아키와 상기 수평 하이어아키 상에 개념화된 웹 페이지들에 개별적인 어드레스(address)로 설정하는 스테이지 설정부를 더 포함하는 것을 특징으로 할 수 있다.
본 발명에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템의 경우, 상기 액세싱 유닛은, 상기 스테이지 추적부가 접근한 상기 타깃 웹 페이지의 도메인 네임을 인식하여, 사용자에 의해 미리 설정된 도메인의 하위 도메인 네임으로 인입시키는 인클루딩부; 및 상기 타깃 웹 페이지 내, 상기 타깃 데이터에 선별적으로 접근하여, 상기 타깃 데이터만 추출하고자 하는 정보로 설정하는 타깃 접근부를 더 포함하는 것을 특징으로 할 수 있다.
본 발명에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템의 경우, 상기 디렉션 유닛은, 상기 전산적 처리 작업의 항목을 생성하는 액션 형성부; 상기 액션 형성부가 생성한 상기 항목에 상기 전산적 처리 작업의 내역을 지정하는 액션 지정부를 포함하는 것을 특징으로 할 수 있다.
본 발명에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템의 경우, 상기 액션 형성부는, 상기 항목을 복수 개 임의 생성 가능하며, 복수 개 생성된 전산적 처리 작업의 항목은 순차적 또는 선택적으로 실행되는 것을 특징으로 할 수 있다.
본 발명에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템의 경우, 상기 디렉션 유닛은, 상기 타깃 웹 페이지 내, 소정의 영역을 할당 또는 지정하여, 상기 소정의 영역에 연결된 데이터를 상기 타깃 데이터로 지정하는 타깃 지정부; 및 상기 타깃 지정부가 지정한 상기 타깃 데이터에 소정의 매개 코드를 부여하고 상기 매개 코드를 공유하는 데이터를 추가 타깃 데이터로 연계시키는 타깃 연계부를 포함하는 것을 특징으로 할 수 있다.
본 발명에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템의 경우, 상기 디렉션 유닛은, 상기 복수 개 생성된 전산적 처리 작업의 항목에 처리 순서를 임의 부여하고, 상기 임의 부여된 처리 순서에 따라 상기 전산적 처리 작업을 수행하도록 하는 플로우 지정부를 더 포함하는 것을 특징으로 할 수 있다.
본 발명에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템의 경우, 상기 임포팅 유닛은, 상기 전산적 처리 작업의 순서를 상기 임의 부여된 처리 순서에 따라 처리하여, 상기 타깃 데이터와 상기 추가 타깃 데이터로 연계된 데이터를 선별적으로 추출하여, 미리 설정된 데이터 테이블에 지정하여 저장하는 것을 특징으로 할 수 있다.
이상과 같은 구성의 본 발명에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템은 다음과 같은 효과를 제공한다.
첫째, 웹 사이트의 수직적, 혹은 수평적 계층의 분석과 더불어, 목적하는 웹 페이지를 추출해낸다.
둘째, 목적하는 웹 페이지의 추출 후, 웹 페이지의 기타 정보는 선별하여 버리고, 목적하는 타깃 데이터만을 선별하여 추출한다.
셋째, 사용자의 인위적인 수동 클릭, 엔터, 입력 등의 명령어 입력을 자동으로 플로우 차트화하여 전산적인 업무 처리가 가능하도록 하여, 불필요한 노동력을 전산적으로 수행되도록 한다.
넷째 목적하는 데이터뿐만 아니라, 목적하는 데이터와 연계된 데이터를 함께 추출하도록 하여, 추가적인 전산적 작업을 생략하도록 한다.
본 발명의 효과는 이상에서 언급한 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템의 주요 구성들을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템 중, 타깃 웹 페이지 상에 하이어아키(hierarchy)에 따른 스테이지를 구획하는 것을 도시한 개념도이다.
도 3은 본 발명의 일 실시예에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템 중, 액세싱 유닛의 하위 구성을 도시한 블록도이다.
도 4는 본 발명의 일 실시예에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템 중, 스테이지 구획부와 스테이지 추적부의 기능을 설명하기 위한 개념도이다.
도 5는 본 발명의 일 실시예에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템 중, 타깃 웹 사이트 내 타깃 데이터를 개념적으로 지정하는 것을 도시한 웹 페이지 화면이다.
도 6은 본 발명의 일 실시예에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템 중, 디렉션 유닛의 구성을 도시한 블록도이다.
도 7은 본 발명의 일 실시예에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템 중, 액션 형성과 액션 지정이 이루어지는 것을 도시한 개념도이다.
도 8은 본 발명의 일 실시예에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템 중, 타깃 데이터의 지정과 해당 타깃 데이터에 처리되는 기능을 도시한 웹 페이지 화면이다.
도 9는 본 발명의 일 실시예에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템 중, 타깃 데이터 지정과 복수 개의 지정에 따른 연계를 짓는 것을 도시한 웹 페이지 화면 상의 개념도이다.
도 10은 본 발명의 일 실시예에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템 중, 웹 페이지 화면 내 타깃 데이터의 선별과 더불어 대상 타깃 데이터를 추출하도록 하는 개념도이다.
도 11은 본 발명의 일 실시예에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템 중, 임포팅 유닛의 기능을 도시한 개념도이다.
본 발명에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 기술적 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
도 1은 본 발명의 일 실시예에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템의 주요 구성들을 도시한 블록도이다. 도 2는 본 발명의 일 실시예에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템 중, 타깃 웹 페이지 상에 하이어아키(hierarchy)에 따른 스테이지를 구획하는 것을 도시한 개념도이다. 도 3은 본 발명의 일 실시예에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템 중, 액세싱 유닛의 하위 구성을 도시한 블록도이다. 도 4는 본 발명의 일 실시예에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템 중, 스테이지 구획부와 스테이지 추적부의 기능을 설명하기 위한 개념도이다. 도 5는 본 발명의 일 실시예에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템 중, 타깃 웹 사이트 내 타깃 데이터를 개념적으로 지정하는 것을 도시한 웹 페이지 화면이다. 도 6은 본 발명의 일 실시예에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템 중, 디렉션 유닛의 구성을 도시한 블록도이다. 도 7은 본 발명의 일 실시예에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템 중, 액션 형성과 액션 지정이 이루어지는 것을 도시한 개념도이다. 도 8은 본 발명의 일 실시예에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템 중, 타깃 데이터의 지정과 해당 타깃 데이터에 처리되는 기능을 도시한 웹 페이지 화면이다. 도 9는 본 발명의 일 실시예에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템 중, 타깃 데이터 지정과 복수 개의 지정에 따른 연계를 짓는 것을 도시한 웹 페이지 화면 상의 개념도이다. 도 10은 본 발명의 일 실시예에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템 중, 웹 페이지 화면 내 타깃 데이터의 선별과 더불어 대상 타깃 데이터를 추출하도록 하는 개념도이다. 도 11은 본 발명의 일 실시예에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템 중, 임포팅 유닛의 기능을 도시한 개념도이다.
본 발명에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템의 경우, 도 1에 도시된 바와 같이, 타깃 웹 사이트(target web site, 10)로부터 사용자(1)가 목적하는 타깃 데이터(target data)를 반복적이고 지루한 작업을 통해 수집하는 것을 자동화된 전산적 처리 작업을 통해 이루어지도록 한다.
먼저, 본 발명에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템은 도 1에 도시된 바와 같이, 사용자(1)가 사용하는 단말기에 설치되어, 전산적 작업을 수행한다.
이를 위하여, 본 발명에 따른 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템은 액세싱 유닛(accessing unit, 100), 디렉션 유닛(direction unit, 200), 및 임포팅 유닛(importing unit, 300)을 포함할 수 있다.
먼저, 액세싱 유닛(100)은 타깃 웹 사이트(10)에 접속 및 접근하여 타깃 웹 사이트로부터 타깃 웹 페이지(URL')에 접근하는 구성이다.
액세싱 유닛(100)은 사용자(1)가 실행한 화면(미도시) 상에서 타깃 웹 사이트(10)의 URL을 입력하고, 후술하게 되는 디렉션 유닛(200)을 통해 전산적 처리 작업을 플래닝하게 되면, 플래닝된 전산적 처리 작업을 통해 목적하는 타깃 데이터에 접근하기 위하여 타깃 웹 사이트 내에서 전산적 처리 작업을 수행하게 된다. 이에 대해서는 후술하기로 한다.
디렉션 유닛(200)의 경우 상술한 바와 같은 전산적 처리 작업을 플래닝하는 구성이다.
디렉션 유닛(200)은 도 7에 도시된 바와 같이, 사용자(1)가 자기의 임의에 따라 타깃 웹 사이트(10) 내에서 반복적으로 수행해야하는 작업을 플로우 차트 나열하듯이 열거하면, 나열된 작업들은 순차적으로 혹은 선택적으로 진행되도록 하는 것이다.
디렉션 유닛(200)의 경우, 액세싱 유닛(100)이 접근한 타깃 웹 페이지 상의 타깃 데이터(11')를 지정하고 타깃 데이터(11')의 추출을 위한 전산적 작업을 플래닝하게 된다.
임포팅 유닛(300)은 디렉션 유닛(200)이 플래닝한 전산적 처리 작업의 수행대로 수행되어, 타깃 데이터(11')를 추출하여 원하는 형식에 따라 사용자 단말기 등에 저장하는 구성이다.
도 2 및 4에 도시된 바와 같이, 액세싱 유닛(100)은 타깃 웹 사이트(10) 내 복수 개의 웹 페이지들을 수직적으로, 수평적으로 구분하여 정렬하게 된다.
액세싱 유닛(100)은 이들 복수 개의 웹 페이지들을 수직적 하이어아키(hierarchy), 수평적 하이어아키(hierarchy)로 개념화하여 타깃 웹 페이지(URL')에 선별적으로 접근하게 된다.
보다 자세하게, 액세싱 유닛(100)은 도 4에 도시된 바와 같이, 스테이지 구획부(110) 및 스테이지 추적부(120)를 포함할 수 있다.
스테이지 구획부(110)는 도 4(a)에 도시된 바와 같이, 타깃 웹 사이트(10) 내 복수 개의 웹 페이지들을 상호 구분하고, 이들 웹 페이지들을 홈 페이지로부터 수직 하향 혹은 수평 대등하게 파생되는 수직 하이어아키와 수평 하이어아키를 개념화하게 된다.
도 4(b)에 도시된 바와 같이, 스테이지 추적부(120)의 경우, 스테이지 구획부(110)가 개념화한 웹 페이지들 중, 타깃 데이터(11')가 제시된 웹 페이지를 타깃 웹 페이지(URL')로 추적하여 발굴하여 설정하고, 타깃 웹 페이지(URL')에 추적하여 접근하게 된다.
액세싱 유닛(100)의 경우, 도 3에 도시된 바와 같이, 스테이지 설정부(130)를 더 포함할 수 있다.
스테이지 설정부(130)의 경우, 스테이지 구획부(110)에 의하여 수직 하이어아키와 수평 하이어아키 상에 개념화된 웹 페이지들에 개별적인 어드레스(address)로 설정하게 되며, 이러한 주소를 통해 목적하는 웹 페이지를 하위 도메인으로 인입시키게 된다.
액세싱 유닛(100)의 경우, 인클루딩(including)부(140) 및 타깃 접근부(150)를 포함할 수 있다.
인클루딩부(140)의 경우, 스테이지 추적부(120)가 접근한 타깃 웹 페이지의 도메인 네임(domain name)을 인식하여, 사용자에 의해 미리 설정된 도메인의 하위 도메인 네임으로 인입시키게 된다.
즉, 사용자(1)가 현재 사용하는 웹 페이지 혹은 IP 어드레스가 www.axaxaxax.com이라 하고, 타깃 웹 페이지의 홈페이지 주소가 www.ntis.go.kr이라 하면, axaxaxax.ntis.go.kr 등으로 인입시킬 수 있으며 타깃 웹 페이지의 주소 역시 여기서 하위 개념으로 인입시킬 수 있다.
아울러, 액세싱 유닛(100)은 타깃 접근부(150)를 더 포함할 수 있다.
도 5에 도시된 바와 같이, 타깃 접근부(150)는 타깃 웹 페이지(URL') 내, 타깃 데이터(11')에 선별적으로 접근하여, 타깃 데이터(11')만 추출하고자 하는 정보로 설정하게 된다. 물론, 이러한 기작은 사용자가 사용자 단말기를 통하여 특정한 타깃 데이터(11')를 지정하게 되는데, 이렇게 지정한 타깃 데이터(11')의 지정과 더불어 수행되는 전산적 처리 작업을 이루는 일련의 수행과정은 디렉션 유닛(200)으로 플래닝된다.
도 6에 도시된 바와 같이, 디렉션 유닛(200)의 경우, 액션 형성부(210) 및 액션 지정부(220)를 포함할 수 있다.
디렉션 유닛(200)은 전산적으로 처리하는 처리 작업을 자동으로 이루어지도록 하는 기능을 수행하며, 이렇게 전산적으로 처리되는 처리 작업을 도 7에 도시된 바와 같이, 사용자(1)에 의하여 임의 세팅되도록 한다.
액션 형성부(210)의 경우, 도 7에 있어서 "액션 선택"을 클릭하게 되면, 이러한 네모 칸 내에 수행하고자 하는 항목이 생성되도록 한다.
액션 지정부(220)의 경우, 액션 형성부(210)가 생성한 항목에 전산적 처리 작업의 내역을 지정하게 된다. 액션의 예시로는 "페이지 제어" 즉 페이지 넘기기 혹은 페이지 선택, "키보드 마우스 제어"즉, 마우스 클릭이나 스크롤 등일 수 있고, 이러한 작업의 반복 설정이나 마우스로 클릭하여 선택된 부분의 추출을 할 수 있도록 하는 처리 작업을 지정할 수 있다.
상술한 바와 같은 액션 형성부(210)는 도 7에서 보이는 네모 칸으로 이루어지는 항목을 복수 개로 사용자(1)가 목적하는 바에 따라 임의 생성 가능하며, 복수 개 생성된 전산적 처리 작업의 항목은 순차적 또는 선택적으로 실행되도록 할 수 있다.
디렉션 유닛(200)의 경우, 도 6에 도시된 바와 같이, 타깃 지정부(230) 및 타깃 연계부(240)를 더 포함할 수 있다.
타깃 지정부(230)의 경우, 도 8에 도시된 바와 같이, 사용자(1)가 임의로 지정하고자 하는, 타깃 데이터(11')를 첨부하고 있는 게시글을 선택하도록 할 수 있다. 이에 따라, 타깃 지정부(230)는 타깃 웹 페이지(URL') 내, 소정의 영역 예컨대, 파란색 부분과 같이, 할당 또는 지정하여, 파란색과 같은 소정의 영역에 연결된 데이터를 타깃 데이터로 지정하게 된다.
도 8에 있어서, 파란색의 부분은 소정의 게시글에 해당하고, 목적하는 타깃 데이터는 선택된 파란색 부분(소정의 영역)의 게시글 내용, 링크 파일, 혹은 첨부 파일 등일 수 있다.
타깃 연계부(240)의 경우, 타깃 지정부(230)가 지정한 타깃 데이터(11')에 소정의 매개 코드를 부여하고 매개 코드를 공유하는 데이터를 추가 타깃 데이터로 연계시키게 된다.
예컨대, 도 8 및 9에 있어서, 사용자(1)는 첫번째 게시글을 소정의 영역으로 선택하되, 첫번째 게시글 부분과 동일한 매개 코드로서 "형태," "부처명," "접수일," "마감일," "파일형태," "작성자" 등을 매개 코드로 지정하고 동일한 매개 코드를 가지는 모든 게시글 혹은 첨부 파일을 추가 타깃 데이터로 자동 지정되도록 할 수 있다.
도 6에 도시된 바와 같이, 디렉션 유닛(200)은 플로우 지정부(250)를 더 포함할 수 있다.
플로우 지정부(250)의 경우, 도 10에 도시된 바와 같이, 복수 개 생성된 전산적 처리 작업의 항목(도 6 참조)에 처리 순서를 임의 부여하고, 임의 부여된 처리 순서에 따라 전산적 처리 작업을 수행하도록 하게 되는바, 복수 개의 항목들을 선택하도록 하고, 이들 소정의 영역인 지정된 항목들의 게시글 내용과 첨부 파일을 지정된 규칙(전산적 처리 업무)에 따라 자동 수행되도록 할 수 있다.
임포팅 유닛(300)의 경우, 전산적 처리 작업의 순서를 상기 임의 부여된 처리 순서에 따라 처리하여, 타깃 데이터(11')와 추가 타깃 데이터로 연계된 데이터를 선별적으로 추출하여, 미리 설정된 데이터 테이블에 지정하여 저장하게 된다.
즉, 추출된 타깃 데이터(11')의 경우, 사용자(1)가 목적하는 포맷의 형식에 따라 자동 정렬되어 저장되도록 임포팅 유닛(300)은 기능을 수행한다.
도 11에 도시된 바와 같이, 임포팅 유닛(300)은 추출 파일과 게시글의 제목, 그리고 게시글의 내용을 상호 연계하되, 이렇게 추출되는 파일과 텍스트들은 사용자가 원하는 데이터 테이블에 상호 연계되어 매핑되도록 하여 지정 저장되도록 하고, 사용자(1)는 향후 추출된 데이터들을 정렬된 형태의 UI(User interface)를 가진 가공 데이터로 접하게 된다.
본 발명의 권리 범위는 특허청구범위에 기재된 사항에 의해 결정되며, 특허 청구범위에 사용된 괄호는 선택적 한정을 위해 기재된 것이 아니라, 명확한 구성요소를 위해 사용되었으며, 괄호 내의 기재도 필수적 구성요소로 해석되어야 한다.
1: 사용자 10: 타깃 웹 페이지(target web page)
11: 타깃 데이터(target data) 100: 액세싱 유닛(accessing unit)
110: 스테이지 구획부 120: 스테이지 추적부
130: 스테이지 설정부 140: 인클루딩(including)부
150: 타깃 접근부 200: 디렉션 유닛(direction unit)
210: 액션 형성부 220: 액션 지정부
230: 타깃 지정부 240: 타깃 연계부
250: 플로우지정부 300: 임포팅 유닛(importing unit)

Claims (10)

  1. 타깃 웹 사이트(target web site) 상에 접근하여, 상기 타깃 웹 사이트로부터 타깃 웹 페이지에 접근하는 액세싱 유닛(accessing unit);
    상기 액세싱 유닛이 접근한 상기 타깃 웹 페이지 상의 타깃 데이터를 지정하고 상기 타깃 데이터의 추출을 위한 전산적 처리 작업을 플래닝하는 디렉션 유닛(direction unit); 및
    상기 플래닝된 상기 전산적 처리 작업을 통해 상기 타깃 데이터를 추출하여 저장하는 임포팅 유닛(importing unit)을 포함하되,
    상기 액세싱 유닛은,
    상기 타깃 웹 사이트 내 웹 페이지들을 수직 하이어아키(hierarchy)와 수평 하이어아키(hierarchy)로 개념화하여, 상기 타깃 웹 페이지에 선별적으로 접근하며,
    상기 타깃 웹 사이트 내 상기 웹 페이지들을 구분하고, 상기 웹 페이지들을 홈 페이지로부터 파생되는 상기 수직 하이어아키와 상기 수평 하이어아키를 개념화하는 스테이지 구획부;
    상기 스테이지 구획부가 개념화한 상기 웹 페이지들 중, 상기 타깃 데이터가 제시된 웹 페이지를 상기 타깃 웹 페이지로 설정하고, 상기 타깃 웹 페이지에 접근하는 스테이지 추적부;
    상기 스테이지 구획부에 의하여 상기 수직 하이어아키와 상기 수평 하이어아키 상에 개념화된 웹 페이지들에 개별적인 어드레스(address)로 설정하는 스테이지 설정부;
    상기 스테이지 추적부가 접근한 상기 타깃 웹 페이지의 도메인 네임을 인식하여, 사용자에 의해 미리 설정된 도메인의 하위 도메인 네임으로 인입시키는 인클루딩부; 및
    상기 타깃 웹 페이지 내, 상기 타깃 데이터에 선별적으로 접근하여, 상기 타깃 데이터만 추출하고자 하는 정보로 설정하는 타깃 접근부를 포함하는 것을 특징으로 하는, 타깃 데이터 수집 시스템.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 제1항에 있어서, 상기 디렉션 유닛은,
    상기 전산적 처리 작업의 항목을 생성하는 액션 형성부;
    상기 액션 형성부가 생성한 상기 항목에 상기 전산적 처리 작업의 내역을 지정하는 액션 지정부를 포함하는 것을 특징으로 하는, 타깃 데이터 수집 시스템.
  7. 제6항에 있어서, 상기 액션 형성부는,
    상기 항목을 복수 개 임의 생성 가능하며, 복수 개 생성된 전산적 처리 작업의 항목은 순차적 또는 선택적으로 실행되는 것을 특징으로 하는, 타깃 데이터 수집 시스템.
  8. 제7항에 있어서, 상기 디렉션 유닛은,
    상기 타깃 웹 페이지 내, 소정의 영역을 할당 또는 지정하여, 상기 소정의 영역에 연결된 데이터를 상기 타깃 데이터로 지정하는 타깃 지정부; 및
    상기 타깃 지정부가 지정한 상기 타깃 데이터에 소정의 매개 코드를 부여하고 동일한 매개 코드를 가지는 데이터를 추가 타깃 데이터로 연계시키는 타깃 연계부를 더 포함하는 것을 특징으로 하는, 타깃 데이터 수집 시스템.
  9. 제8항에 있어서, 상기 디렉션 유닛은,
    상기 복수 개 생성된 전산적 처리 작업의 항목에 처리 순서를 임의 부여하고, 상기 임의 부여된 처리 순서에 따라 상기 전산적 처리 작업을 수행하도록 하는 플로우 지정부를 더 포함하는 것을 특징으로 하는, 타깃 데이터 수집 시스템.
  10. 제9항에 있어서, 상기 임포팅 유닛은,
    상기 전산적 처리 작업의 순서를 상기 임의 부여된 처리 순서에 따라 처리하여,
    상기 타깃 데이터와 상기 추가 타깃 데이터로 연계된 데이터를 선별적으로 추출하여, 미리 설정된 데이터 테이블에 지정하여 저장하는 것을 특징으로 하는, 타깃 데이터 수집 시스템.
KR1020210004004A 2021-01-12 2021-01-12 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템 KR102420706B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210004004A KR102420706B1 (ko) 2021-01-12 2021-01-12 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210004004A KR102420706B1 (ko) 2021-01-12 2021-01-12 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템

Publications (1)

Publication Number Publication Date
KR102420706B1 true KR102420706B1 (ko) 2022-07-15

Family

ID=82400746

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210004004A KR102420706B1 (ko) 2021-01-12 2021-01-12 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템

Country Status (1)

Country Link
KR (1) KR102420706B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116644941A (zh) * 2023-07-18 2023-08-25 北京珞安科技有限责任公司 基于物联网的工业能源规划系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101045481B1 (ko) 2009-03-20 2011-06-30 경북대학교 산학협력단 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법 및 그 기록매체
KR101569984B1 (ko) 2014-01-16 2015-11-18 이주현 웹 스크래핑 추출 데이터 설정 방법
KR101913780B1 (ko) 2017-01-04 2018-11-02 (주)해나소프트 웹 데이터 수집 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101045481B1 (ko) 2009-03-20 2011-06-30 경북대학교 산학협력단 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법 및 그 기록매체
KR101569984B1 (ko) 2014-01-16 2015-11-18 이주현 웹 스크래핑 추출 데이터 설정 방법
KR101913780B1 (ko) 2017-01-04 2018-11-02 (주)해나소프트 웹 데이터 수집 장치 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Manuel Álvarez외 3. TA Task-specific Approach for Crawling the Deep Web. 2006.8.4. 공개 1부.* *
Powermapper사이트(https://web.archive.org/web/20201215014155/https://www.powermapper.com/, 2020.12.15. 공개) 1부.* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116644941A (zh) * 2023-07-18 2023-08-25 北京珞安科技有限责任公司 基于物联网的工业能源规划系统
CN116644941B (zh) * 2023-07-18 2023-10-24 北京珞安科技有限责任公司 基于物联网的工业能源规划系统

Similar Documents

Publication Publication Date Title
US9671950B2 (en) Sample data computation for rendering of graph elements
US5905498A (en) System and method for managing semantic network display
CN106934014B (zh) 一种基于Hadoop的网络数据挖掘与分析平台及其方法
US6073170A (en) Information filtering device and information filtering method
US10423697B2 (en) User interface with navigation controls for the display or concealment of adjacent content
CN102880664B (zh) 一种页面编辑方法、装置及系统
US11416473B2 (en) Using path encoding method and relational set operations for search and comparison of hierarchial structures
JP2024020578A (ja) ウェブサイト構築システムにおけるテキストコンテンツの生成及び編集のためのシステム及び方法
US11556502B2 (en) Intelligent routing based on the data extraction from the document
JP2009069899A (ja) オブジェクト文書作成システム
CN103914488A (zh) 文档的采集、标识、关联、搜索及展现的系统
KR102420706B1 (ko) 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템
US20030001900A1 (en) Heuristic knowledge portal
US20080162508A1 (en) Smart links and dynamic favorites
KR100616152B1 (ko) 인터넷상에서 기사를 자동분류하여 타 웹사이트에 자동송출하는 제어방법
CN113407678B (zh) 知识图谱构建方法、装置和设备
KR102477021B1 (ko) 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템
KR100809452B1 (ko) 컴퓨팅 장치를 이용한 특허분류 방법 및 시스템
KR102420707B1 (ko) 타깃 웹 사이트의 강제 복속을 통한 웹 데이터 선택적 임포팅 시스템
JP3493354B2 (ja) 文書検索方法
US20240037325A1 (en) Ability to add non-direct ancestor columns in child spreadsheets
CN113176878B (zh) 自动查询方法、装置和设备
KR102513676B1 (ko) 데이터 분석 시스템 및 그 방법
US11921797B2 (en) Computer service for indexing threaded comments with pagination support
JP2002288186A (ja) 電子資料の分類管理方法およびシステム

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant