KR102477021B1 - 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템 - Google Patents

액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템 Download PDF

Info

Publication number
KR102477021B1
KR102477021B1 KR1020210004005A KR20210004005A KR102477021B1 KR 102477021 B1 KR102477021 B1 KR 102477021B1 KR 1020210004005 A KR1020210004005 A KR 1020210004005A KR 20210004005 A KR20210004005 A KR 20210004005A KR 102477021 B1 KR102477021 B1 KR 102477021B1
Authority
KR
South Korea
Prior art keywords
unit
action
target
data
target data
Prior art date
Application number
KR1020210004005A
Other languages
English (en)
Other versions
KR20220101924A (ko
Inventor
김종필
김범수
홍지원
공성랑
김영선
Original Assignee
(주)해나소프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)해나소프트 filed Critical (주)해나소프트
Priority to KR1020210004005A priority Critical patent/KR102477021B1/ko
Publication of KR20220101924A publication Critical patent/KR20220101924A/ko
Application granted granted Critical
Publication of KR102477021B1 publication Critical patent/KR102477021B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/81Indexing, e.g. XML tags; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 사용자가 추출하고자 하는 타깃 데이터와 타깃 웹 페이지에 접근하는 액세싱 유닛; 타깃 데이터를 추출하기 위해 요구되는 소정의 액션을 디자인하고 플래닝하여 수행되도록 하는 액션 디자인 유닛; 액션 디자인 유닛이 플래닝한 소정의 액션을 시계열적 프로세싱을 정렬하고, 시계열적 프로세싱을 위한 가변적 데이터 영역을 선택적으로 할당하는 큐잉 오더링 유닛; 및 큐잉 오더링 유닛에서 정렬된 시계열적인 프로세싱의 진행을 통해 소정의 액션을 진행하여 타깃 데이터를 추출하고, 추출된 타깃 데이터를 상기 사용자의 단말기로 저장하는 임포팅 유닛을 포함하는 기술적 사상을 개시한다.

Description

액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템{System for extracting target data by selectively arraying order of action}
본 발명은 타깃 데이터 추출 시스템에 관한 것으로서, 보다 자세하게는, 목적하는 타깃 데이터가 존재하는 타깃 웹 페이지에 선택적으로 접근하여, 타깃 웹 페이지에서 반복적으로 단순 수행해야하는 액션을 전산적으로 자동 수행되도록 하고, 자동 수행되는 전산적 액션의 오더를 선택적으로 정렬될 수 있도록 하는 타깃 데이터 추출 시스템에 관한 기술분야이다.
3차 산업혁명을 기반으로 4차 산업혁명은 ‘초연결성(Hyper-Connected)’, ‘초지능화(Hyper-Intelligent)의 특성을 가지고 있으며, 사물인터넷(IoT), 클라우드, 등 정보통신기술(ICT)을 통해 인간과 인간, 사물과 사물, 인간과 사물이 상호 연결되고 빅데이터와 인공지능 기술의 발달로 인해 지능화 혁명의 시대라고 할 수 있다.
특히, 빅데이터는 디지털 환경에서 생성되는 대규모 데이터로서, IBM의 조사에 따르면, 사람들이 매일 생성하는 데이터의 양은 약 250경(2.5조 퀀틸리언) 바이트에 이른다고 하는데, 이러한 데이터를 적극적으로 분석하고 이용할 필요가 있으며, 이에 따라 데이터를 보는 시각과 활용에 큰 변화가 일어나고 있다.
기존에 쌓아 두거나 버리던 데이터는 새로운 자원이 되는 시대가 됐으며, 데이터에 대한 수요와 활용이 증가하면서, 데이터 수집과 관련 시장의 성장에도 가속도가 붙고 있다.
마켓 앤 마켓은 ‘2024년까지 데이터 수집 시스템 글로벌 시장 전망’ 발표한 보고서를 통해, 데이터 수집 시장 규모가 2024년에 26억 달러에 달하며 연평균 5.9% 성장할 것으로 예측했다.
웹 데이터의 수집을 위한 기술적인 시도는 다수 존재하며, 이에 대한 선행 특허문헌도 다수 공개되어 있다.
예컨대 “부분 매칭을 이용한 웹 페이지의 데이터 추출 방법 및 그 기록매체(등록번호 제10-1045481호, 이하 특허문헌1이라 한다.)”이 존재한다.
특허문헌1에 따른 발명의 경우, 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법 및 그 기록매체에 관한 것으로, 웹 페이지의 HTML트리에서 루트로부터 추출 데이터까지의 경로가 절대 경로에 대하여 부분매치(match)되는 다수의 선형 부분매치 질의(Linear Partial Match Query)를 산출하는 제 1 산출단계와; 산출된 각 선형 부분매치 질의에 대하여 해당 매치의 정렬된 원소가 다른 매치의 정렬된 원소보다 크거나 같은 최소 매치를 산출하는 제 2 산출단계와; 최소 매치를 갖는 다수의 선형 부분매치 질의 중에서 해당 최소 매치의 정렬된 원소가 다른 최소 매치의 정렬된 원소보다 크거나 같은 부분매치 질의를 견고한 선형 부분매치 질의로 판단하는 판단 단계와; 판단 결과에 따른 선형 부분매치 질의에 의해 해당 웹 페이지의 데이터를 추출하는 추출 단계를 포함하는 것을 특징으로 한다.
또 다른 특허문헌의 예로서 “웹 데이터 수집 장치 및 방법(등록번호 제10-1913780호, 이하 특허문헌2이라 한다.)”이 존재한다.
특허문헌2에 따른 발명의 경우, 웹 데이터 스크랩핑 시스템 및 그 동작 방법을 제공한다. 특허문헌2에 따른 발명의 경우, 사용자가 지정하는 타킷 사이트를 모사하여 별도의 프레임에 렌더링하고, 이 과정에서 웹 표준을 준수하지 않는 사이트도 프록시 설정을 통해 정확히 모사되도록 한다. 그리고, 사용자는 해당 프레임에서 DOM을 직관적이고 쉽게 선택하고, 이를 제어하는 이벤트를 데이터 수집 규칙으로 생성할 수 있도록 하고 이는 시나리오에 반영되어, 자동 반복 수행 등 웹 스크랩핑 서비스가 제공될 수 있는 기술적 사상을 개시한다.
또 다른 특허문헌의 예로서, “웹 스크래핑 추출 데이터 설정 방법(등록번호 제10-1569984호, 이하 특허문헌3이라 한다.)”이 존재한다.
특허문헌3에 따른 발명의 경우, 웹 스크래핑 추출 데이터 설정 방법에 관한 것으로, 액션 엘리먼트 목록창과, 사용자에 의해 현재 선택된 액션 엘리먼트가 출력되는 시나리오 보드창과, 웹브라우저의 속성이 선택 및 출력되는 액션 엘리먼트 속성 입력창 및 웹브라우저가 각각 출력되는 GUI 방식의 웹스크래핑 설정 프로그램을 구동하는 프로그램 구동 단계와; 사용자가 액션 엘리먼트 목록창의 액션 엘리먼트 버튼을 선택하여 시나리오 보드창에 등록하는 액션 엘리먼트 선택 단계와; 액션 엘리먼트 선택 단계에서 시나리오 보드창에 등록된 액션 엘리먼트에 의해 웹브라우저의 현재페이지에 출력되는 데이터와 속성 값을 선택 및 입력하여 데이터추출 시나리오를 작성하는 시나리오 작성 단계 및; 데이터추출 단계에서 추출된 데이터와 시나리오 설정 정보를 파일로 저장하는 설정 저장 단계로 이루어지고, 설정 저장 단계에서 저장된 시나리오 설정 파일을 이용하여 웹스크래핑 메인 프로그램의 데이터 추출 설정이 추가 및 삭제 또는 변경되며, 특허문헌 3의 발명에 의해 웹 스크래핑 또는 웹 오토메이션 관련 메인 프로그램의 데이터 추출 설정을 GUI 상에서 속성 추가 방식을 이용하여 일반인도 쉽게 변경하거나 구성하는 기술적 사상을 개시한다.
기존의 공개 기술들은 전문가들에게 필요한 기술적 내용들로 대부분 채워져 있는바, 사용자들이 타깃 웹 사이트의 구체적인 웹 에디팅 지식이 어느정도 되어 있어야 효율적인 사용이 가능한 문제점이 있었다.
아울러, 타 웹 사이트로부터 웹 데이터의 추출을 위한 여러가지 접근의 다양성을 직관적으로 제공하지 못할 뿐만 아니라, 일반 대중적인 사용자가 알 필요가 없는 지식까지 겸비하도록 하는, 난해한 기술적 사상을 개시하고 있다.
등록번호 제10-1045481호 등록번호 제10-1913780호 등록번호 제10-1569984호
본 발명에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템은 상기한 바와 같은 종래 문제점을 해결하기 위해 안출된 것으로서, 다음과 같은 해결하고자 하는 과제를 제시한다.
첫째, 웹 사이트에 게재된 타깃 데이터의 선별적 접근과 추출이 가능하도록 한다.
둘째, 타깃 데이터 수집에 필요한 액션이 전산적으로 이루어져 사용자의 불필요한 노동력과 시간을 허비하지 않도록 한다.
셋째, 전산적으로 수행되는 액션의 임의 변경이 가능하도록 하는 매커니즘을 제공하고자 한다.
본 발명의 해결 과제는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 해결과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템은 상기의 해결하고자 하는 과제를 위하여 다음과 같은 과제 해결 수단을 가진다.
본 발명에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템의 경우, 사용자가 추출하고자 하는 타깃 데이터(target data)가 제시되는 타깃 웹 사이트(target web site)에 접속하고, 상기 타깃 웹 사이트로부터 타깃 웹 페이지(target web page)에 접근하는 액세싱 유닛(accessing unit); 상기 타깃 데이터를 추출하기 위해 요구되는 소정의 액션을 디자인하고 플래닝하여, 상기 소정의 액션이 상기 타깃 페이지 상에서 수행되도록 하는 액션 디자인 유닛(action design unit); 상기 액션 디자인 유닛이 플래닝한 상기 소정의 액션을 시계열적 프로세싱을 정렬하고, 시계열적 프로세싱을 위한 가변적 데이터 영역으로 선택적으로 할당하는 큐잉 오더링 유닛(queuing ordering unit); 및 상기 큐잉 오더링 유닛에서 정렬된 상기 시계열적인 프로세싱의 진행을 통해 상기 소정의 액션을 진행하여 상기 타깃 데이터를 추출하고, 추출된 상기 타깃 데이터를 상기 사용자의 단말기로 저장하는 임포팅 유닛(importing unit)을 포함하는 것을 특징으로 할 수 있다.
본 발명에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템의 경우, 상기 액세싱 유닛은, 상기 사용자가 입력하는 상기 타깃 웹 사이트의 IP 어드레스(address)를 획득하는 주소 획득부; 및 상기 IP 어드레스를 통해 상기 타깃 웹 사이트에 접속하고 상기 타깃 웹 페이지를 로딩하는 페이지 로딩부를 포함하는 것을 특징으로 할 수 있다.
본 발명에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템의 경우, 상기 액세싱 유닛은, 상기 사용자에 의하여, 상기 타깃 웹 페이지 내 소정의 영역이 선택되면, 상기 소정의 영역을 추출 대상 영역으로 지정하는 영역 지정부; 및 상기 영역 지정부가 지정한 상기 추출 대상 영역에 접근하고, 상기 추출 대상 영역에 링크된 링크 정보에 접근하는 링크 접근부를 더 포함하는 것을 특징으로 할 수 있다.
본 발명에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템의 경우, 상기 액션 디자인 유닛은, 상기 소정의 액션을 형성하는 요소 액션을 지정하기 위한 카테고리를 선택적으로 적어도 하나 이상 생성하는 항목 생성부; 및 상기 항목 생성부에 의하여 생성된 상기 카테고리에 상기 요소 액션을 선택적으로 지정하는 액션 지정부를 포함하는 것을 특징으로 할 수 있다.
본 발명에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템의 경우, 상기 액션 디자인 유닛은, 상기 요소 액션이 수행되어 추출하고자 하는 타깃 데이터와 연계된 연계 데이터를 연계 코드를 통하여 연계시키는 타깃 연계부; 및 상기 항목 생성부가 생성한 카테고리 내에 상기 액션 지정부가 지정한 상기 요소 액션들의 프로세싱을 통하여, 상기 타깃 데이터와 상기 타깃 연계부가 연계한 상기 연계 데이터를 추출하는 타깃 추출부를 더 포함하는 것을 특징으로 할 수 있다.
본 발명에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템의 경우, 상기 액션 디자인 유닛은, 상기 항목 생성부가 생성한 상기 카테고리들의 프로세싱 플로우를 선택적으로 변경하여, 상기 카테고리들의 프로세싱 플로우의 선택적 변경을 통해 상기 요소 액션의 실행 순서를 선택적으로 변경하는 플로우 지정부를 더 포함하는 것을 특징으로 하는 할 수 있다.
본 발명에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템의 경우, 상기 큐잉 오더링 유닛은, 상기 가변적 데이터 영역을 선택적으로 형성하고, 상기 가변적 데이터 영역의 집합체를 구성하는 큐잉 스택을 구비하는 것을 특징으로 할 수 있다.
본 발명에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템의 경우, 상기 큐잉 오더링 유닛은, 상기 큐잉 스택을 구성하는 상기 가변적 데이터 영역 각각에 상기 요소 액션을 각각 할당하는 스택 항목 할당부; 및 상기 큐잉 스택 내 상기 가변적 데이터 영역 각각에 상기 요소 액션을 선택적으로 배치시키는 항목 로케이팅부를 포함하는 것을 특징으로 할 수 있다.
본 발명에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템의 경우, 상기 항목 로케이팅부는, 상기 요소 액션이 배치된 상기 가변적 데이터 영역 각각을 순차 정렬, 순차 뒤바꿈 또는 임의 순차 개입을 통하여, 상기 플로우 지정부에 따라 변경된 상기 실행 순서에 따라 상기 플로우 프로세싱을 보정하는 것을 특징으로 할 수 있다.
본 발명에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템의 경우, 상기 임포팅 유닛은, 상기 타깃 웹 페이지 내 상기 타깃 데이터와 상기 연계 데이터를 선별적으로 추출하여, 미리 설정된 데이터 테이블에 지정하여 저장하는 것을 특징으로 할 수 있다.
이상과 같은 구성의 본 발명에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템은 다음과 같은 효과를 제공한다.
첫째, 사용자가 실제 수행하는 액션을 전산적으로 프로세싱되도록 플래닝하여, 이에 따라 웹 페이지로부터 데이터를 수집하게 된다.
둘째, 사용자가 원하는 타깃 데이터만 선별적으로 수집하도록 하여, 불필요한 노이즈 데이터를 제거한다.
셋째, 가변적 데이터의 매개를 통해 전산적 액션의 임의 생성과, 생성된 전산적 액션의 프로세싱 순서의 임의 변경이 가능하도록 한다.
본 발명의 효과는 이상에서 언급한 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템에 따라 사용자에 의해 타깃 웹 사이트에 접근하여 타깃 데이터를 추출하도록 하는 개념도이다.
도 2는 본 발명의 일 실시예에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템에 따라 액세싱 유닛이 타깃 웹 사이트의 하이어아키의 특정 계층에 선택적으로 접속하여, 타깃 웹 페이지에 접근하는 것을 도시하는 개념도이다.
도 3은 본 발명의 일 실시예에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템 중, 액세싱 유닛과 그 하위 구성을 도시한 블록도이다.
도 4는 본 발명의 일 실시예에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템에 따라 타깃 웹 페이지 내 소정의 영역이 지정되는 것을 도시한 웹 페이지 화면이다.
도 5는 본 발명의 일 실시예에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템 중, 액션 디자인 유닛의 블록도이다.
도 6은 본 발명의 일 실시예에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템 중, 액션 디자인 유닛에 따라 항목이 생성되고 액션이 지정되는 것을 도시한 개념도이다.
도 7 및 8은 본 발명의 일 실시예에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템 중, 타깃 데이터에 연계 코드를 통해 연계시키는 것을 도시한 개념도이다.
도 9는 본 발명의 일 실시예에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템에 따라 타깃 데이터와 연계 데이터가 지정된 것을 도시한 개념도이다.
도 10은 본 발명의 일 실시예에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템에 따라 액션 디자인 유닛과 큐잉 오더링 유닛의 기작을 설명하기 위한 개념도이다.
도 11은 본 발명의 일 실시예에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템 중, 스택 항목 설정부를 설명하기 위한 개념도이다.
도 12는 본 발명의 일 실시예에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템 중, 항목 로케이팅부를 설명하기 위한 개념도이다.
도 13은 본 발명의 일 실시예에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템 중, 임포팅 유닛에 따라 타깃 데이터와 연계 데이터가 추출되어 사용자 단말기로 가져오는 것을 도시한 개념도이다.
도 14는 본 발명의 일 실시예에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템 중, 임포팅 유닛에 따라 미리 설정된 데이터 테이블에 지정하여 저장하는 것을 도시한 개념도이다.
본 발명에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 기술적 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
도 1은 본 발명의 일 실시예에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템에 따라 사용자에 의해 타깃 웹 사이트에 접근하여 타깃 데이터를 추출하도록 하는 개념도이다. 도 2는 본 발명의 일 실시예에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템에 따라 액세싱 유닛이 타깃 웹 사이트의 하이어아키의 특정 계층에 선택적으로 접속하여, 타깃 웹 페이지에 접근하는 것을 도시하는 개념도이다. 도 3은 본 발명의 일 실시예에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템 중, 액세싱 유닛과 그 하위 구성을 도시한 블록도이다. 도 4는 본 발명의 일 실시예에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템에 따라 타깃 웹 페이지 내 소정의 영역이 지정되는 것을 도시한 웹 페이지 화면이다. 도 5는 본 발명의 일 실시예에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템 중, 액션 디자인 유닛의 블록도이다. 도 6은 본 발명의 일 실시예에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템 중, 액션 디자인 유닛에 따라 항목이 생성되고 액션이 지정되는 것을 도시한 개념도이다. 도 7 및 8은 본 발명의 일 실시예에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템 중, 타깃 데이터에 연계 코드를 통해 연계시키는 것을 도시한 개념도이다. 도 9는 본 발명의 일 실시예에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템에 따라 타깃 데이터와 연계 데이터가 지정된 것을 도시한 개념도이다. 도 10은 본 발명의 일 실시예에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템에 따라 액션 디자인 유닛과 큐잉 오더링 유닛의 기작을 설명하기 위한 개념도이다. 도 11은 본 발명의 일 실시예에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템 중, 스택 항목 설정부를 설명하기 위한 개념도이다. 도 12는 본 발명의 일 실시예에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템 중, 항목 로케이팅부를 설명하기 위한 개념도이다. 도 13은 본 발명의 일 실시예에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템 중, 임포팅 유닛에 따라 타깃 데이터와 연계 데이터가 추출되어 사용자 단말기로 가져오는 것을 도시한 개념도이다. 도 14는 본 발명의 일 실시예에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템 중, 임포팅 유닛에 따라 미리 설정된 데이터 테이블에 지정하여 저장하는 것을 도시한 개념도이다.
본 발명에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템은 도 1에 도시된 바와 같이, 어느 웹 사이트로부터 목적하는 타깃 데이터를 추출하고자 할 때 사용자의 반복적인 행동과 불필요한 행위를 줄여주게 된다.
본 발명에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템은 어느 하나의 웹 사이트 혹은 소수의 웹 사이트로부터 타깃 데이터를 추출하는 경우 보다는, 수십 내지 수백 또는 이보다 훨씬 많은 웹 페이지를 대상으로 훨씬 더 다양하고 많은 타깃 데이터를 추출하여 수집하고자 할 때, 보다 더 유용하게 된다.
이를 위하여 도 1에 도시된 바와 같이, 본 발명에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템은 액세싱 유닛(accessing unit, 100), 액션 디자인 유닛(action design unit, 200), 큐잉 오더링 유닛(queuing ordering unit, 300), 및 임포팅 유닛(importing unit, 400)을 포함할 수 있다.
먼저, 액세싱 유닛(100)의 경우, 본 발명에 따른 시스템이 타깃 데이터(11)에 접근하기 위한 기능을 수행한다.
액세싱 유닛(100)은 도 2에 도시된 바와 같이, 추출하고자 하는 타깃 데이터(11)가 제시되는 타깃 웹 사이트(10)에 접속하게 되는데, 이후, 액세싱 유닛(100)은 타깃 웹 사이트(10) 중, 타깃 데이터(11)를 링크걸고 있거나, 게재하고 있거나, 기타의 방식으로 제시하고 있는 타깃 웹 페이지에 접근하게 된다.
액세싱 유닛(100)이 타깃 웹 사이트(10)에 접속하는 최초의 방식은 사용자가 다양한 입력하는 타깃 웹 사이트(10)의 URL에 의하게 된다.
사용자는 자신의 단말기 상에 본 발명에 따른 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템을 구동하기 위한 소프트웨어를 설치하거나, SaaS(Software as a service)로서 웹으로 접속하고, 웹 상에서 본 발명에 따른 기술적 사상을 구현하는 것을 통해 타깃 웹 사이트(10)의 타깃 데이터를 추출할 수도 있다.
사용자(1)가 사용하는 사용자 단말기는 랩톱 PC, 데스크톱 PC, 태블릿 PC 등일 수 있다.
액션 디자인 유닛(200)의 경우, 사용자가 수많은 사이트에 개별 접속하고 이들 수많은 사이트의 특정 웹 페이지에 각각 접속한 후, 클릭, 검색 등의 방식으로 타깃 데이터를 개별적으로 다운로드 하고 본문을 복사하는 등의 단순 행위를 전산적으로 자동적으로 수행되도록 하는 프로세싱 플로우(processing flow)를 지정할 수 있도록 하는 기능을 수행한다.
액션 디자인 유닛(200)은 상술한 바와 같이, 타깃 데이터(11)를 추출하기 위하여 요구되는 소정의 액션 예컨대, 페이지 접속, 접속된 페이지 내 특정 선택, 선택후, 본문 복사, 제목 복사, 첨부 파일 다운 로드 및 이들 정보 정렬 등을 시계열적 프로세싱으로 생성하고 정렬하는 구성이다.
액션 디자인 유닛(200)의 경우, 이러한 시계열적 프로세싱의 생성과 정렬을 위하여 가변적 데이터 영역을 선택적으로 생성 및 할당하게 된다.
도 1에 도시된 바와 같이, 큐잉 오더링 유닛(300)의 경우, 상술한 바와 같이, 액션 디자인 유닛(200)이 플래닝한 소정의 액션들을 시계열적인 프로세싱으로 정렬하여, 가변적 데이터 영역을 선택적으로 할당하게 된다.
아울러, 임포팅 유닛(400)은 큐잉 오더링 유닛(300)에서 정렬된 시계열적인 프로세싱의 진행을 통해 상기 소정의 액션을 순차적으로 진행하여 타깃 데이터(11)를 추출하고, 추출된 타깃 데이터(11)를 사용자(1)의 단말기로 저장하게 된다.
도 3에 도시된 바와 같이, 액세싱 유닛(100)의 경우, 주소 획득부(110) 및 페이지 로딩부(120)를 포함할 수 있다.
먼저, 주소 획득부(110)의 경우, 상술한 바와 같이, 타깃 웹 페이지(10)에 접속하기 위하여 타깃 웹 사이트에 접속해야 하는데, 이러한 타깃 웹 사이트에 접속하기 위해서 사용자가 입력하는 IP 어드레스를 통해 가능하게 된다.
주소 획득부(110)는 타깃 웹 사이트의 IP 어드레스를 사용자로부터 획득하는 구성이다.
페이지 로딩부(120)의 경우, 도 2에 도시된 바와 같이, 타깃 웹 사이트 중, 타깃 데이터(11)를 제시하는 타깃 웹 페이지(10)로 접근하여 로딩하는 구성이다.
타깃 웹 사이트는 도 2에 도시된 바와 같이, 다단의 하이어아키(hierarchy)로서 다단으로 이루어질 수 있는데, 이러한 수직적 계층과 수평적 계층의 하이어아키를 분석하여, 목적하는 타깃 웹 페이지(10)로 접속하고 해당 타깃 웹 페이지(10)를 로딩하게 된다.
액세싱 유닛(100)은 도 3에 도시된 바와 같이, 영역 지정부(130) 및 링크 접근부(140)를 더 포함할 수 있다.
도 4에 도시된 바와 같이, 사용자(1)에 의하여 타깃 웹 페이지 내에 소정의 영역(11' 참조)이 선택되면, 소정의 영역을 추출하고자 하는 대상으로 지정하게 된다.
물론, 도 4에서 표시된 도면 부호 11'는 예시적으로만 시각적으로 표현한 것이며 이러한 시각적인 것에 권리를 제한할 것은 아니다.
링크 접근부(140)의 경우, 영역 지정부(130)가 지정한 추출 대상 영역에 접근하고 추출 대상 영역에 링크된 링크 정보에 접근하게 된다.
타깃 데이터가 선택된 게시글의 제목, 본문 내용, 게시자, 첨부 파일이라고 하면, 여기서의 링크 정보는 게시글과 제목에 딸린 본문 내용과 첨부 파일 등이라고 볼 수 있다.
도 5에 도시된 바와 같이, 액션 디자인 유닛(200)의 경우, 항목 생성부(210), 및 액션 지정부(220)를 포함할 수 있다.
항목 생성부(210)의 경우, 도 6에 도시된 바와 같이, 사용자가 수행할 타깃 웹 페이지(10) 상에서 수행해야할 소정의 액션을 지정하기 위한 카테고리를 적어도 하나 이상을 선택적으로 생성하게 된다.
예컨대, 도 6(a)에서 마우스의 우클릭으로 도 6(b)의 맨 아래의 항목을 생성하고, 생성된 카테고리에서는 후술하게 되는 액션을 지정하게 된다.
액션 지정부(220)의 경우, 항목 생성부(210)에 의해 생성된 카테고리에 요소 액션을 선택적으로 지정하게 된다.
소정의 액션이 집합적 개념이라면, 이러한 집합적 개념을 구성하는 개별 요소를 요소 액션이라고 지칭한다.
요소 액션은 상술한 바와 같이, 페이지 접속, 접속된 페이지 내 특정 선택, 선택후, 본문 복사, 제목 복사, 첨부 파일 다운 로드 및 이들 정보 정렬 등의 개별 요소를 의미할 수도 있으며, 마우스 클릭, 키보드 제어 등일 수도 있다.
액션 디자인 유닛(200)의 경우, 도 5에 도시된 바와 같이, 타깃 연계부(230) 및 타깃 추출부(240)를 더 포함할 수 있다.
타깃 연계부(230)의 경우, 상술한 바와 같은 요소 액션이 수행되어 추출하고자 하는 타깃 데이터(110)와 연계된 연계 데이터를 연계 코드를 통하여 연계시키게 된다.
도 7 및 8에 도시된 바와 같이, 타깃 연계부(230)가 선택된 영역의 게시글의 부처명과 동일한 부처에서 게시한 글을 모두 추출하고 싶으면, 마우스 우클릭으로 연계 선택을 클릭하고, 부처명 중, 기상청을 연계 코드로 지정하여 기상청이 부처명으로 된 항목들과 관련된 정보는 모두 연계 데이터로 설정하게 된다.
항목 생성부(210)가 생성한 카테고리 내에 액션 지정부(220)가 지정한 요소 액션들의 프로세싱을 진행하면, 타깃 추출부(240)는 타깃 데이터(11)와 연계 데이터를 모두 추출하는 기능을 수행하게 된다.
액션 디자인 유닛(200)의 경우, 도 5에 도시된 바와 같이, 플로우 지정부(250)를 더 포함할 수 있다.
플로우 지정부(250)의 경우, 도 6에서 도시된 바와 같이, 항목 생성부(210)가 생성한 카테고리들의 프로세싱 플로우를 선택적으로 변경하여 카테고리들의 프로세싱 플로우의 선택적인 변경을 통해 요소 액션의 실행 순서를 선택적으로 변경하게 된다.
즉, 도 6에서는 카테고리들이 단순하게 하향 플로우를 형성하고 있으나, 특정 카테고리 예컨대, 위에서 6번째 카테고리 후, 위에서 3번째 카테고리까지 거슬러 바로 올라가는 상향 플로우를 5회 반복하도록 할 수 있는 등, 설정할 수 있는 것이다(도 10(a) 참조).
도 10에 도시된 바와 같이, 큐잉 오더링 유닛(300)의 경우, 상술한 바와 같은 가변적 데이터 영역을 선택적으로 형성하고, 이러한 가변적 데이터들의 집합체를 형성하는 큐잉 스택(queuing stack)을 구비할 수 있다.
즉, 카테고리 하나 하나는 모두가 다 가변 데이터 영역에 설정되고 할당되는데, 이러한 카테고리에서 실행되는 액션들에 대한 정보를 가변적으로 담도록 하는 가변 데이터 영역의 집합체가 바로 큐잉 스택에 해당한다.
큐잉 스택 역시 가변 데이터 영역에 해당하며, 이러한 가변적 큐잉 스택들을 구성하는 가변 데이터 영역들 모두가 다 선택적인 생성과 삭제, 그리고 이들 순서를 임의 설정하게 된다.
플로우 지정부(250)가 최종 지정한 요소 액션들의 순서를 큐잉 오더링 유닛(300)이 형성한 큐잉 스택의 개별 가변적 데이터 영역에 순차적으로 할당하여 도 10(b)와 같이, 순차적으로 요소 액션들이 실행되도록 하여, 궁극적으로는 소정의 액션들이 완성되도록 한다.
큐잉 오더링 유닛(300)은 스택 항목 할당부(310), 및 항목 로케이팅부(320)를 포함할 수 있다.
먼저, 스택 항목 할당부(310)의 경우, 도 11에 도시된 바와 같이, 큐잉 스택을 구성하는 가변적 데이터 영역 각각에 요소 액션을 각각 할당하게 된다.
도 12에 도시된 바와 같이, 항목 로케이팅부(320)의 경우, 큐잉 스택 내 가변적 데이터 영역 각각에 요소 액션을 선택적으로 배치시키게 된다. 이 경우, 항목 로케이팅부(320)는 요소 액션이 배치된 가변적 데이터 영역 각각을 순차 정렬, 순차 뒤바꿈 또는 임의 순차 개입을 통하여, 플로우 지정부(250)에 따라 변경된 실행 순서에 따라 플로우 프로세싱을 보정할 수 있다.
도 13 및 14s에 도시된 바와 같이, 임포팅 유닛(400)은 타깃 웹 페이지(10) 내 타깃 데이터(11)와 연계 데이터를 선별적으로 추출하여, 미리 설정된 데이터 테이블에 지정하여 저장할 수 있다.
이 경우, 미리 설정된 데이터 테이블은 게시글의 명칭, 작성자, 부처명, 본문 내용, 게시된 기간, 만료 기한, 첨부 파일 등의 테이블 항목을 미리 설정할 수 있다.
본 발명의 권리 범위는 특허청구범위에 기재된 사항에 의해 결정되며, 특허 청구범위에 사용된 괄호는 선택적 한정을 위해 기재된 것이 아니라, 명확한 구성요소를 위해 사용되었으며, 괄호 내의 기재도 필수적 구성요소로 해석되어야 한다.
1: 사용자 10: 타깃 웹 페이지(target web page)
10': 선택된 타깃 웹 페이지 11: 타깃 데이터(target data)
11': 선택된 타깃 데이터 100: 액세싱 유닛(accessing unit)
110: 주소 획득부 120: 페이지 로딩부
130: 영역 지정부 140: 링크 접근부
200: 액션 디자인 유닛 210: 항목 생성부
220: 액션 지정부 230: 타깃 연계부
240: 타깃 추출부 250: 플로우 지정부
300: 큐잉 오더링 유닛 301: 큐잉 스택(queuing stack)
310: 스택 항목 할당부 320: 항목 로케이팅부
400: 임포팅 유닛(importing unit)

Claims (10)

  1. 삭제
  2. 삭제
  3. 삭제
  4. 사용자가 추출하고자 하는 타깃 데이터(target data)가 제시되는 타깃 웹 사이트(target web site)에 접속하고, 상기 타깃 웹 사이트로부터 타깃 웹 페이지(target web page)에 접근하는 액세싱 유닛(accessing unit);
    상기 타깃 데이터를 추출하기 위해 요구되는 소정의 액션을 디자인하고 플래닝하여, 상기 소정의 액션이 상기 타깃 웹 페이지 상에서 수행되도록 하는 액션 디자인 유닛(action design unit);
    상기 액션 디자인 유닛이 플래닝한 상기 소정의 액션을 시계열적 프로세싱을 정렬하고, 시계열적 프로세싱을 위한 가변적 데이터 영역을 선택적으로 할당하는 큐잉 오더링 유닛(queuing ordering unit); 및
    상기 큐잉 오더링 유닛에서 정렬된 상기 시계열적인 프로세싱의 진행을 통해 상기 소정의 액션을 진행하여 상기 타깃 데이터를 추출하고, 추출된 상기 타깃 데이터를 상기 사용자의 단말기로 저장하는 임포팅 유닛(importing unit)을 포함하되,
    상기 액션 디자인 유닛은,
    상기 소정의 액션을 형성하는 요소 액션을 지정하기 위한 카테고리를 선택적으로 적어도 하나 이상 생성하는 항목 생성부;
    상기 항목 생성부에 의하여 생성된 상기 카테고리에 상기 요소 액션을 선택적으로 지정하는 액션 지정부;
    상기 요소 액션이 수행되어 추출하고자 하는 타깃 데이터와 연계된 연계 데이터를 연계 코드를 통하여 연계시키는 타깃 연계부;
    상기 항목 생성부가 생성한 카테고리 내에 상기 액션 지정부가 지정한 상기 요소 액션들의 프로세싱을 통하여, 상기 타깃 데이터와 상기 타깃 연계부가 연계한 상기 연계 데이터를 추출하는 타깃 추출부; 및
    상기 항목 생성부가 생성한 상기 카테고리들의 프로세싱 플로우를 선택적으로 변경하여, 상기 카테고리들의 프로세싱 플로우의 선택적 변경을 통해 상기 요소 액션의 실행 순서를 선택적으로 변경하는 플로우 지정부를 포함하며,
    상기 큐잉 오더링 유닛은,
    상기 가변적 데이터 영역을 선택적으로 형성하고, 상기 가변적 데이터 영역의 집합체를 구성하는 큐잉 스택을 구비하고,
    상기 큐잉 스택을 구성하는 상기 가변적 데이터 영역 각각에 상기 요소 액션을 각각 할당하는 스택 항목 할당부; 및
    상기 큐잉 스택 내 상기 가변적 데이터 영역 각각에 상기 요소 액션을 선택적으로 배치시키는 항목 로케이팅부를 포함하며,
    상기 큐잉 스택은,
    가변 데이터 영역에 해당하여, 가변적인 상기 큐잉 스택을 구성하는 상기 가변 데이터 영역들 모두가 선택적인 생성과 삭제, 순서의 임의 설정 가능하고,
    상기 항목 로케이팅부는,
    상기 요소 액션이 배치된 상기 가변적 데이터 영역 각각을 순차 정렬, 순차 뒤바꿈 또는 임의 순차 개입을 통하여,
    상기 플로우 지정부에 따라 변경된 상기 실행 순서에 따라 상기 플로우 프로세싱을 보정하고,
    상기 임포팅 유닛은,
    상기 타깃 웹 페이지 내 상기 타깃 데이터와 상기 연계 데이터를 선별적으로 추출하여, 미리 설정된 데이터 테이블에 지정하여 저장하는 것을 특징으로 하는 타깃 데이터 추출 시스템.
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
KR1020210004005A 2021-01-12 2021-01-12 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템 KR102477021B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210004005A KR102477021B1 (ko) 2021-01-12 2021-01-12 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210004005A KR102477021B1 (ko) 2021-01-12 2021-01-12 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템

Publications (2)

Publication Number Publication Date
KR20220101924A KR20220101924A (ko) 2022-07-19
KR102477021B1 true KR102477021B1 (ko) 2022-12-13

Family

ID=82606988

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210004005A KR102477021B1 (ko) 2021-01-12 2021-01-12 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템

Country Status (1)

Country Link
KR (1) KR102477021B1 (ko)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101045481B1 (ko) 2009-03-20 2011-06-30 경북대학교 산학협력단 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법 및 그 기록매체
KR101569984B1 (ko) 2014-01-16 2015-11-18 이주현 웹 스크래핑 추출 데이터 설정 방법
KR101913780B1 (ko) 2017-01-04 2018-11-02 (주)해나소프트 웹 데이터 수집 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Manuel Álvarez외 3. TA Task-specific Approach for Crawling the Deep Web. 2006.8.4. 공개 1부.*

Also Published As

Publication number Publication date
KR20220101924A (ko) 2022-07-19

Similar Documents

Publication Publication Date Title
US5905498A (en) System and method for managing semantic network display
AU761923B2 (en) Database system
US20160371312A1 (en) System and method for the creation and use of visually-diverse high-quality dynamic visual data structures
US20180300361A1 (en) System and method for generating a visual data structure associated with business information based on a hierarchy of components
AU2018376913B2 (en) System and method for the generation and editing of text content in website building systems
CN103744853A (zh) 提供搜索引擎网页快照信息的方法及装置
AU2021258035B2 (en) System and method for the creation and use of visually- diverse high-quality dynamic visual data structures
US11874813B2 (en) Visual design system for generating a visual data structure associated with a semantic composition based on a hierarchy of components
US11556702B2 (en) Orchestration of crud operations for a hierarchical web service data model in a spreadsheet
JP2023164829A (ja) リビング文書の生成および対話型編集のためのシステムおよび方法
US8732615B2 (en) Unified interface for display and modification of data arrays
KR102420706B1 (ko) 타깃 웹 페이지의 계층의 선별적 접근을 통한 타깃 데이터 수집 시스템
KR102477021B1 (ko) 액션 오더의 선택적 정렬을 통한 타깃 데이터 추출 시스템
KR100616152B1 (ko) 인터넷상에서 기사를 자동분류하여 타 웹사이트에 자동송출하는 제어방법
CN110781430B (zh) 互联网新型虚拟数据中心系统及其构造方法
Huurdeman Supporting the complex dynamics of the information seeking process
CN112817590A (zh) 批量生成页面卡片的方法、存储介质及电子设备
KR102420707B1 (ko) 타깃 웹 사이트의 강제 복속을 통한 웹 데이터 선택적 임포팅 시스템
US20240037325A1 (en) Ability to add non-direct ancestor columns in child spreadsheets
US11921797B2 (en) Computer service for indexing threaded comments with pagination support
US20240160638A1 (en) Interactive workflow for data analytics
US20240160615A1 (en) Visual design system for generating a visual data structure associated with a semantic composition based on a hierarchy of components
US11954071B1 (en) File naming and management system
Casalánguida et al. User interface design for responsive web applications
Narayanan VTCDD Showcase

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
AMND Amendment
GRNT Written decision to grant
X701 Decision to grant (after re-examination)