KR20230016792A - 웹 사이트 수집 방법 및 장치 - Google Patents

웹 사이트 수집 방법 및 장치 Download PDF

Info

Publication number
KR20230016792A
KR20230016792A KR1020210098229A KR20210098229A KR20230016792A KR 20230016792 A KR20230016792 A KR 20230016792A KR 1020210098229 A KR1020210098229 A KR 1020210098229A KR 20210098229 A KR20210098229 A KR 20210098229A KR 20230016792 A KR20230016792 A KR 20230016792A
Authority
KR
South Korea
Prior art keywords
solution
captcha
key
solution key
website
Prior art date
Application number
KR1020210098229A
Other languages
English (en)
Inventor
최제민
윤창훈
김연근
Original Assignee
주식회사 에스투더블유
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에스투더블유 filed Critical 주식회사 에스투더블유
Priority to KR1020210098229A priority Critical patent/KR20230016792A/ko
Priority to PCT/KR2022/010199 priority patent/WO2023008785A1/ko
Priority to US17/873,378 priority patent/US20230032625A1/en
Publication of KR20230016792A publication Critical patent/KR20230016792A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/36User authentication by graphic or iconic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2133Verifying human interaction, e.g., Captcha

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명은 웹 사이트 수집 방법 및 장치에 관한 것으로, 자동 방법과 수동 방법을 결합하여 웹 사이트를 수집하는 것을 일 목적으로 한다. 이러한 목적을 달성하기 위한 본 발명은 전자 장치가 웹 사이트를 수집하는 방법에 있어서, URL에 대응하는 웹 서버에 접속하여, 상기 URL에 대응하는 웹 사이트를 전송받는 a 단계, 상기 웹 사이트에 캡차가 존재하면, 캡차 솔루션 모델을 기반으로 제1 솔루션키를 획득하는 b 단계, 제1 솔루션키를 상기 웹 서버에 전송하고, 인증 결과를 수신하는 c 단계, 제1 솔루션키의 인증을 실패하면 제1 솔루션키를 재연산하고, 기 설정된 수 이상 인증을 실패하면 사용자 단말에 캡차 해결 요청 신호를 전송하는 d 단계 및 상기 사용자 단말로부터 제2 솔루션키를 수신하여, 상기 웹 서버에 전송하고, 상기 웹 사이트를 크롤링하는 e 단계를 포함하는 것을 특징으로 한다.

Description

웹 사이트 수집 방법 및 장치{METHOD AND DEVICE OF COLLECTING WEB SITE}
본 발명은 웹 사이트 수집 방법 및 장치에 관한 것으로, 보다 자세하게는 크롤링을 통해 웹 사이트를 자동 및/또는 수동으로 수집하는 방법 및 장치에 관한 것이다.
IT 기술의 급격한 발전으로 인해, 사용자들은 장소와 시간에 무관하게 자신이 원하는 정보를 획득할 수 있게 되었다. 이에 따라, 포털 사이트 등에서는 사용자가 원하는 정보를 제공하기 위해 다양한 웹 사이트에서 데이터를 수집하는 기술이 개발되고 있다.
웹 크롤링은 사용자에게 정보를 제공하기 위해 웹 사이트에서 데이터를 수집하는 것을 말하는데, 웹 크롤링을 사용하여 자동으로 웹 사이트를 수집하는 방법의 경우 웹 사이트의 경우 접근이 어려운 문제점이 있어, 이를 해결하기 위한 기술이 필요한 실정이다.
본 발명은 전술한 문제점을 해결하기 위한 것으로서, 자동 방법과 수동 방법을 결합하여 웹 사이트를 수집하는 것을 일 목적으로 한다.
또한 본 발명은 웹 사이트를 수집함에 있어서, 캡차가 포함되어 있는 웹 사이트의 경우 캡차 솔루션 모델을 통해 솔루션키를 생성하되 솔루션키의 인증에 실패하면 사용자에게 캡차 해결을 요청하여 캡차를 해결하는 것을 일 목적으로 한다.
이러한 목적을 달성하기 위한 본 발명은 전자 장치가 웹 사이트를 수집하는 방법에 있어서, URL에 대응하는 웹 서버에 접속하여, 상기 URL에 대응하는 웹 사이트를 전송받는 a 단계, 상기 웹 사이트에 캡차가 존재하면, 캡차 솔루션 모델을 기반으로 제1 솔루션키를 획득하는 b 단계, 제1 솔루션키를 상기 웹 서버에 전송하고, 인증 결과를 수신하는 c 단계, 제1 솔루션키의 인증을 실패하면 제1 솔루션키를 재연산하고, 기 설정된 수 이상 인증을 실패하면 사용자 단말에 캡차 해결 요청 신호를 전송하는 d 단계 및 상기 사용자 단말로부터 제2 솔루션키를 수신하여, 상기 웹 서버에 전송하고, 상기 웹 사이트를 크롤링하는 e 단계를 포함하는 것을 특징으로 한다.
또한 본 발명은 URL에 대응하는 웹 서버에 접속하여, 상기 URL에 대응하는 웹 사이트를 전송받고, 상기 웹 사이트에 캡차가 존재하면, 캡차 솔루션 모델을 기반으로 제1 솔루션키를 획득하며, 제1 솔루션키를 상기 웹 서버에 전송하여 인증 결과를 수신하고, 제1 솔루션키의 인증을 실패하면 제1 솔루션키를 재연산하고, 기 설정된 수 이상 인증을 실패하면 사용자 단말에 캡차 해결 요청 신호를 전송하며, 상기 사용자 단말로부터 제2 솔루션키를 수신하여, 상기 웹 서버에 전송하고, 상기 웹 사이트를 크롤링하는 수집 모듈 및 상기 수집 모듈의 동작을 제어하는 제어 모듈을 포함하는 것을 특징으로 한다.
전술한 바와 같은 본 발명에 의하면, 자동 방법과 수동 방법을 결합하여 웹 사이트를 수집할 수 있다.
또한 본 발명은 웹 사이트를 수집함에 있어서, 캡차가 포함되어 있는 웹 사이트의 경우 캡차 솔루션 모델을 통해 솔루션키를 생성하되 솔루션키의 인증에 실패하면 사용자에게 캡차 해결을 요청하여 캡차를 해결할 수 있다.
도 1은 본 발명의 일 실시 예에 의한 웹 사이트 수집 장치를 설명하기 위한 구성도,
도 2는 본 발명의 일 실시 예에 의한 웹 사이트 수집 방법을 설명하기 위한 순서도이다.
전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다.
도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용되며, 명세서 및 특허청구의 범위에 기재된 모든 조합은 임의의 방식으로 조합될 수 있다. 그리고 다른 식으로 규정하지 않는 한, 단수에 대한 언급은 하나 이상을 포함할 수 있고, 단수 표현에 대한 언급은 또한 복수 표현을 포함할 수 있음이 이해되어야 한다.
본 명세서에서 사용되는 용어는 단지 특정 예시적 실시 예들을 설명할 목적을 가지고 있으며 한정할 의도로 사용되는 것이 아니다. 본 명세서에서 사용된 바와 같은 단수적 표현들은 또한, 해당 문장에서 명확하게 달리 표시하지 않는 한, 복수의 의미를 포함하도록 의도될 수 있다. 용어 "및/또는," "그리고/또는"은 그 관련되어 나열되는 항목들의 모든 조합들 및 어느 하나를 포함한다. 용어 "포함한다", "포함하는", "포함하고 있는", "구비하는", "갖는", "가지고 있는" 등은 내포적 의미를 갖는 바, 이에 따라 이러한 용어들은 그 기재된 특징, 정수, 단계, 동작, 요소, 및/또는 컴포넌트를 특정하며, 하나 이상의 다른 특징, 정수, 단계, 동작, 요소, 컴포넌트, 및/또는 이들의 그룹의 존재 혹은 추가를 배제하지 않는다. 본 명세서에서 설명되는 방법의 단계들, 프로세스들, 동작들은, 구체적으로 그 수행 순서가 확정되는 경우가 아니라면, 이들의 수행을 논의된 혹은 예시된 그러한 특정 순서로 반드시 해야 하는 것으로 해석돼서는 안 된다. 추가적인 혹은 대안적인 단계들이 사용될 수 있음을 또한 이해해야 한다.
또한, 각각의 구성요소는 각각 하드웨어 프로세서로 구현될 수 있고, 위 구성요소들이 통합되어 하나의 하드웨어 프로세서로 구현될 수 있으며, 또는 위 구성요소들이 서로 조합되어 복수 개의 하드웨어 프로세서로 구현될 수도 있다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하기로 한다.
종래의 웹 사이트 수집 방법에는 웹 크롤링을 기반으로 하는 자동 방법, 사용자가 직접 웹 사이트에 포함된 모든 컨텐츠를 수집하는 수동 방법이 존재하는데, 자동 방법은 로그인 및/또는 캡차가 존재하는 경우 웹 사이트에 접근하기 어렵다는 점, 계정을 차단하는 정책을 보유한 웹 사이트에 의해 접근이 차단될 수 있다는 점과 같은 어려움이 있으며, 수동 방법은 웹 사이트의 수가 많을 경우 인력이 많이 필요하여 고용 비용이 상승하며 사용자가 직접 수집하기 때문에 중복 수집, 수집 당시 로딩되지 않은 이미지 및/또는 파일이 존재하는 점, 웹 사이트 로딩 시간으로 인한 수집 속도 저하 등과 같은 문제점이 있다.
이에 따라, 본 발명의 일 실시 예에 의한 웹 사이트 수집 장치(10)는 웹 사이트를 수집함에 있어서 자동 수집을 기본 값으로 하되, 컴퓨터 프로그램이 해결하기 곤란한 캡차의 솔루션키를 사용자로부터 수신함으로써 웹 사이트의 수집 과정을 원활하게 할 수 있다.
도 1은 본 발명의 일 실시 예에 의한 웹 사이트 수집 장치를 설명하기 위한 도면이다. 도 1을 참조하면, 본 발명의 일 실시 예에 의한 웹 사이트 수집 장치(10)는 웹 사이트 수집 프로세스를 제어하는 관리자 단말(11), 별도의 통신 네트워크를 통해 연결된 웹 사이트를 제공하는 웹 서버(15), 웹 서버(15)에 접근해 웹 사이트를 수집하는 전자 장치(13), 수집한 웹 사이트를 저장하는 데이터베이스(17), 웹 사이트를 수동으로 수집하는 사용자 단말(19)을 포함하여 구성될 수 있다.
전자 장치(13)와 웹 서버(15)는 서버를 이용하여 구현될 수도 있으나, 본 발명이 반드시 이에 한정되는 것은 아니며, 별도의 전자 장치로 구현되거나, 나아가 스마트폰, 태블릿 PC, PDA, 휴대전화 등 휴대 단말기나 개인용 컴퓨터(PC) 등의 유무선 단말기에서 구동되는 어플리케이션 등으로 구현되는 등 다양한 형태로 구현될 수 있다.
구체적으로 전자 장치(13)는 제어 신호 수신 모듈(131), 수집 모듈(133), 제어 모듈(137)을 포함할 수 있다. 나아가 수집 모듈(133)은 자동 수집 모듈(134)과 수동 수집 모듈(135)를 더 포함할 수 있다.
제어 신호 수신 모듈(131)은 관리자 단말(11)로부터 웹 사이트의 수집 요청을 수신할 수 있다. 수집 요청은 수집하고자 하는 웹 사이트의 URL과 수집 방식을 포함할 수 있는데, 수집 방식은 자동 수집 방식 혹은 수동 수집 방식 중 관리자 단말(11)로부터 선택된 어느 것일 수 있다.
수집 모듈(133)은 관리자 단말(11)로부터 자동 수집 방식이 선택되면, 자동 수집 모듈(134)이 동작하도록 제어하고, 수동 수집 방식이 선택될 경우 수동 수집 모듈(135)가 동작하도록 제어할 수 있다.
자동 수집 모듈(134)은 웹 사이트 수집 요청에 포함된 URL을 기반으로, 웹 서버(15)에 접근할 수 있다. 자동 수집 모듈(134)는 해당 URL에 대응하는 웹 서버(15)로부터 해당 URL에 대응하는 웹 사이트를 수신하고, 수신한 웹 사이트를 크롤링 할 수 있다.
자동 수집 모듈(134)은 웹 사이트에 로그인 및/또는 캡차가 포함되어, 웹 사이트의 접근에 로그인 및/또는 캡차 입력이 선행되는 경우, 데이터베이스(17)에 저장된 계정 정보와 캡차 솔루션 모델을 기반으로 로그인 및 캡차를 해결할 수 있다. 캡차(CAPTCHA, Completely Automated Public Turing test to tell Computers and Humans Apart)는 HIP(Human Interaction Proof) 기술의 일종으로, 어떠한 사용자가 실제 사람인지 컴퓨터 프로그램인지를 구별하기 위해 사용되는 것을 의미한다.
자동 수집 모듈(134)은 로그인을 수행함에 있어서, 자동 수집 모듈(134)은 데이터베이스(17)에 저장된 계정 정보를 기반으로 로그인을 수행하여 웹 사이트에 접근할 수 있다.
한편, 데이터베이스(17)에 해당 웹 사이트의 계정 정보가 존재하지 않을 경우, 자동 수집 모듈(134)은 계정을 생성하고 데이터베이스(17)에 생성된 계정 정보를 저장할 수 있다.
나아가 자동 수집 모듈(134)은 웹 사이트에 접근하기 위해 캡차 인증이 필요한 경우, 캡차 솔루션 모델을 기반으로 캡차를 해결할 수 있다.
본 발명의 일 실시 예에 따른 캡차 솔루션 모델은 STT(Speech To Text), OCR, AI 기반 텍스트 식별 알고리즘 등을 채택할 수 있다.
STT는 음성 언어를 해석해 문자 데이터로 변환하는 모델로, 자동 수집 모듈(134)은 캡차 화면에 포함된 음성으로 듣기, 혹은 사운드 출력 버튼을 선택하여 재생되는 음성 데이터를 문자 데이터로 변환하여 제1 솔루션키를 획득할 수 있다.
OCR은 광학 문자 인식 기술로, 자동 수집 모듈(134)은 캡차 화면에 포함된 캡차 이미지를 컴퓨터가 읽을 수 있는 기계 언어로 변환하여 제1 솔루션키를 획득할 수 있다.
AI 기반 텍스트 식별 알고리즘은 캡차 이미지를 분석하여 캡차의 솔루션키를 획득하는 알고리즘으로, 캡차 이미지에 대응하는 솔루션키를 학습 데이터로 하여 학습된 머신러닝 모델을 이용할 것이다. 자동 수집 모듈(134)은 캡차 화면에 포함된 캡차 이미지를 머신러닝 모델의 입력 데이터로 하여 제1 솔루션키를 획득할 수 있다. 이 때 사용되는 머신러닝 모델 및 머신러닝 모델의 데이터 처리 프로세스는 종래의 기술을 따른다.
자동 수집 모듈(134)은 캡차 화면에 포함된 캡차 솔루션의 입력 박스에 제1 솔루션키를 입력하여 웹 서버(15)에 제1 솔루션키를 전송할 수 있다. 자동 수집 모듈(134)은 웹 서버(15)로부터 제1 솔루션키에 대한 인증 결과를 수신하여, 제1 솔루션키가 인증되면, 웹 사이트에 접근하여 웹 사이트를 크롤링할 수 있다.
수동 수집 모듈(135)은 관리자 단말(11)로부터 수동 수집 방식이 선택되면 사용자 단말(19)에 웹 사이트 수집 요청 신호를 전송할 수 있다. 웹 사이트 수집 요청 신호는 관리자 단말(11)로부터 수신한 URL 주소를 포함할 수 있다.
수동 수집 모듈(135)은 사용자 단말(19)이 수신한 URL 주소를 이용하여 해당 웹 사이트의 모든 컨텐츠(예를 들어 HTML, 자바 스크립트, CSS, 이미지, 동영상 등) 수집을 완료하면, 사용자 단말(19)로부터 수집된 컨텐츠를 수신할 수 있다.
제어 모듈(137)은 수집 모듈(133)을 제어하고, 나아가 자동 수집 모듈(134)을 통해 웹 사이트에 자동으로 접근함에 있어서 사용되는 계정의 차단을 방지할 수 있다.
제어 모듈(137)은 자동 수집 모듈(134)을 통해 웹 서버(15)에 제1 솔루션키를 전송하였으나 웹 서버(15)로부터 인증 실패 신호를 수신하는 경우, 자동 수집 모듈(134)에 캡차 솔루션 모델을 기반으로 제1 솔루션키를 재연산하도록 제어할 수 있다.
제어 모듈(137)은 웹 서버(15)로부터 인증 실패 신호를 기 설정된 횟수 이상 수신하면, 관리자 단말(11)에 자동 수집 실패 메시지를 전송함과 동시에, 웹 사이트 수집 프로세스의 수동화 또는 캡차 수동 해결 중 하나의 선택을 요청할 수 있다.
제어 모듈(137)은 관리자 단말(11)로부터 웹 사이트 수집 프로세스의 수동화가 선택되면, 수동 수집 모듈(135)에 웹 사이트 수집 요청 신호를 전송할 수 있다.
한편, 제어 모듈(137)은 관리자 단말(11)로부터 캡차 수동 해결이 선택되면, 사용자 단말(19)에 해당 웹 사이트의 캡차 이미지를 전송하고, 사용자 단말(19)로부터 제2 솔루션키를 수신할 수 있다. 이를 통해 본 발명의 웹 사이트 수집 장치(10)는 자동 수집 모듈(134)이 접근 불가능한 웹 사이트의 경우 사용자가 직접 접근 가능하게 캡차를 해결하게 함으로써, 웹 사이트의 수집에 있어서 누락되는 정보가 없게 할 수 있다.
제어 모듈(137)은 제2 솔루션키를 수신하면 자동 수집 모듈(134)에 제2 솔루션키를 전송하여 제2 솔루션키를 인증받고, 자동 수집 모듈(134)이 웹 크롤링을 계속 진행하게 할 수 있다. 제어 모듈(137)은 제2 솔루션키의 인증이 실패하면, 사용자 단말(19)에 제2 솔루션키를 재요청하여 제2 솔루션키를 인증받을 수 있다.
본 발명의 일 실시 예에 의한 제어 모듈(137)은 캡차 이미지, 인증 성공 및/또는 실패한 제2 솔루션키, 인증 성공 및/또는 실패한 제1 솔루션키를 캡차 솔루션 모델의 트레이닝 데이터 세트에 추가하여, 캡차 솔루션 모델을 강화할 수 있다.
제어 모듈(137)은 자동 수집 모듈(134)과 수동 수집 모듈(135)을 통해 수집된 웹 사이트 내 포함된 컨텐츠를 데이터베이스(17)에 저장할 것이다.
나아가 제어 모듈(137)은 데이터베이스(17)에 저장된 계정 정보를 이용하여 정기적 혹은 비정기적으로 웹 사이트에 접근하여 접속 기록을 업데이트 할 수 있다. 이를 통해 제어 모듈(137)은 웹 사이트 자체에서 미접속 기간이 긴 계정을 차단하는 것을 방지할 수 있다.
도 2는 본 발명의 일 실시 예에 의한 웹 사이트 수집 방법을 설명하기 위한 순서도이다. 이하에서는 도 2를 참조하여 웹 사이트 수집 방법을 설명한다. 웹 사이트 수집 방법에 대한 설명에 있어서, 앞서 설명한 웹 사이트 수집 장치와 중복되는 세부 실시 예는 생략될 수 있다.
단계 100에서, 전자 장치(13)는 관리자 단말(11)로부터 웹 사이트의 수집 요청을 수신할 수 있다. 본 발명의 일 실시 예에 의한 수집 요청은 수집하고자 하는 웹 사이트의 URL과 수집 방식(수동, 자동)을 포함할 것이다.
단계 105에서, 관리자 단말(11)로부터 자동 수집 방식이 선택되면, 전자 장치(13)는 웹 사이트 수집 요청에 포함된 URL을 기반으로, 웹 서버(15)에 접속할 수 있다.
전자 장치(13)는 웹 서버(15)에 접속하면, 웹 서버(15)로부터 URL에 대응하는 웹 사이트를 수신할 수 있는데, 이 때 웹 사이트에 로그인이 포함되어 웹 사이트의 접근에 있어서 로그인이 선행되는 경우, 전자 장치(13)는 데이터베이스(17)에 저장된 계정 정보를 기반으로 로그인을 수행하여 웹 사이트에 접근(S109)할 수 있다. 이 때, 전자 장치(13)는 데이터베이스(17)에 해당 웹 사이트의 계정 정보가 존재하지 않을 경우, 계정을 생성하고 데이터베이스(17)에 생성된 계정 정보를 저장할 수 있다.
단계 110에서, 웹 서버(15)를 통한 웹 사이트의 접근에 있어서 캡차 입력이 더 선행되는 경우, 전자 장치(13)는 캡차 솔루션 모델을 기반으로 제1 솔루션키를 획득할 수 있다.
본 발명의 일 실시 예에 의한 캡차 솔루션 모델은 STT(Speech To Text), OCR, AI 기반 텍스트 식별 모델과 같은 종래의 기술을 채택할 수 있다.
STT는 음성 언어를 해석해 문자 데이터로 변환하는 모델로, 전자 장치(13)는 캡차 화면에 포함된 음성으로 듣기, 혹은 사운드 출력 버튼을 선택하여 재생되는 음성 데이터를 문자 데이터로 변환하여 제1 솔루션키를 획득할 수 있다.
OCR은 광학 문자 인식 기술로, 전자 장치(13)는 캡차 화면에 포함된 캡차 이미지를 컴퓨터가 읽을 수 있는 기계 언어로 변환하여 제1 솔루션키를 획득할 수 있다.
AI 기반 텍스트 식별 알고리즘은 캡차 이미지를 분석하여 캡차의 솔루션키를 획득하는 알고리즘으로, 캡차 이미지에 대응하는 솔루션키를 학습 데이터로 하여 학습된 머신러닝 모델을 이용할 것이다. 전자 장치(13)는 캡차 화면에 포함된 캡차 이미지를 머신러닝 모델의 입력 데이터로 하여 제1 솔루션키를 획득할 수 있다. 이 때 사용되는 머신러닝 모델 및 머신러닝 모델의 데이터 처리 프로세스는 종래의 기술을 따른다.
단계 115에서, 전자 장치(13)는 웹 서버(15)에 제1 솔루션키를 전송할 수 있다. 전자 장치(13)는 캡차 화면에 포함된 캡차 솔루션의 입력 박스에 제1 솔루션키를 입력함으로써, 웹 서버(15)에 제1 솔루션키를 전송할 수 있다.
단계 119에서, 전자 장치(13)는 웹 서버(15)로부터 제1 솔루션키에 대한 인증 결과를 수신할 수 있다. 전자 장치(13)는 웹 서버(15)로부터 제1 솔루션키가 인증되면, 웹 사이트에 접근하여 웹 사이트를 크롤링(S120)할 수 있다.
한편 단계 130에서, 전자 장치(13)는 웹 서버(15)로부터 인증 실패 신호를 수신하면, 캡차 솔루션 모델을 기반으로 제1 솔루션키를 재연산할 수 있다.
전자 장치(13)는 웹 서버(15)로부터 인증 실패 신호를 기 설정된 횟수 이상 수신하면, 관리자 단말(11)에 자동 수집 실패 메시지를 전송함과 동시에, 캡차 해결 방법 선택 요청 신호를 더 전송할 수 있다. 캡차 해결 방법 선택 요청 신호는 웹 사이트 수집 프로세스의 수동화 및 캡차 수동 해결을 포함할 수 있다.
단계 135에서, 전자 장치(13)는 관리자 단말(11)로부터 캡차 수동 해결의 선택 신호를 수신하면, 사용자 단말(19)에 해당 웹 사이트에 포함된 캡차 이미지 및 캡차 해결 요청 신호를 전송하고, 사용자 단말(19)로부터 제2 솔루션키를 수신(S139)할 수 있다.
한편, 전자 장치(13)는 관리자 단말(11)로부터 웹 사이트 수집 프로세스의 수동화의 선택 신호를 수신하면, 사용자 단말(19)에 웹 사이트 수집 요청 신호를 전송할 수 있다.
전자 장치(13)는 사용자 단말(19)로부터 제2 솔루션키를 수신하면 웹 서버(15)에 제2 솔루션키를 전송(S140)하고 웹 서버(15)로부터 제2 솔루션키를 인증(S145)받으면, 웹 사이트의 캡차를 해결하고 웹 사이트에 접근할 수 있다.
단계 150에서, 전자 장치(13)는 웹 사이트에 접근하여 웹 사이트를 크롤링하여 웹 사이트를 수집할 수 있다.
본 발명의 일 실시 예에 의한 전자 장치(13)는 캡차 이미지, 인증 성공 및/또는 실패한 제1 솔루션키 및 제2 솔루션키를 캡차 솔루션 모델의 트레이닝 데이터 세트에 추가하여, 캡차 솔루션 모델을 더 강화(S160)할 수 있다.
도 2에 별도로 도시되어 있지는 않으나 본 발명의 일 실시 예에 의한 전자 장치는, 단계 105에서 관리자 단말(11)로부터 수신한 웹 사이트 수집 요청에 포함된 수집 방식이 수동 수집 방식일 경우, 사용자 단말(19)에 웹 사이트 수집 요청 신호를 전송할 수 있다. 웹 사이트 수집 요청 신호는 관리자 단말(11)로부터 수신한 URL 주소를 포함할 수 있다.
이 후, 전자 장치(13)는 사용자 단말(19)이 수신한 URL 주소를 이용하여 해당 웹 사이트 내 포함된 모든 컨텐츠의 수집을 완료하면, 사용자 단말(19)로부터 수집된 컨텐츠를 수신할 수 있다.
본 명세서와 도면에 개시된 본 발명의 실시 예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.

Claims (7)

  1. 전자 장치가 웹 사이트를 수집하는 방법에 있어서,
    URL에 대응하는 웹 서버에 접속하여, 상기 URL에 대응하는 웹 사이트를 수신하는 a 단계;
    상기 웹 사이트에 캡차가 존재하면, 캡차 솔루션 모델을 기반으로 제1 솔루션키를 획득하는 b 단계;
    제1 솔루션키를 상기 웹 서버에 전송하고, 인증 결과를 수신하는 c 단계;
    제1 솔루션키의 인증을 실패하면 제1 솔루션키를 재연산하고, 기 설정된 수 이상 인증을 실패하면 사용자 단말에 캡차 해결 요청 신호를 전송하는 d 단계; 및
    상기 사용자 단말로부터 제2 솔루션키를 수신하여, 상기 웹 서버에 전송하고, 상기 웹 사이트를 크롤링하는 e 단계를 포함하는 웹 사이트 수집 방법.
  2. 제1항에 있어서,
    상기 웹 사이트에 접근하기 위해 로그인이 선행되는 경우, 데이터베이스에 저장된 계정 정보를 기반으로 로그인을 더 수행하는 웹 사이트 수집 방법.
  3. 제1항에 있어서,
    상기 캡차 솔루션 모델은, STT, OCR, AI 기반 텍스트 식별 모델 중 적어도 하나를 기반으로 하는 것을 특징으로 하는 웹 사이트 수집 방법.
  4. 제1항에 있어서, 상기 c 단계는,
    제1 솔루션키의 인증을 성공하면, 상기 웹 사이트를 크롤링하는 단계를 더 포함하는 웹 사이트 수집 방법.
  5. 제1항에 있어서, 상기 d 단계는,
    제1 솔루션키의 인증을 실패하면 관리자 단말에 자동 수집 실패 메시지 및 캡차 해결 방법 선택 요청 신호를 전송하는 단계;
    상기 관리자 단말로부터 웹 사이트 수집 프로세스의 수동화의 선택 입력을 수신하면, 사용자 단말에 웹 사이트 수집 요청 신호를 전송하는 단계; 및
    상기 관리자 단말로부터 캡차 수동 해결의 선택 입력을 수신하면, 사용자 단말에 캡차 이미지 및 상기 캡차 해결 요청 신호를 전송하는 단계를 포함하는 웹 사이트 수집 방법.
  6. 제1항에 있어서,
    상기 캡차 이미지, 인증이 성공 및/또는 실패된 제1 솔루션키 및 제2 솔루션키를 상기 캡차 솔루션 모델의 트레이닝 데이터 세트에 추가하여 상기 캡차 솔루션 모델을 강화하는 웹 사이트 수집 방법.
  7. URL에 대응하는 웹 서버에 접속하여, 상기 URL에 대응하는 웹 사이트를 전송받고, 상기 웹 사이트에 캡차가 존재하면, 캡차 솔루션 모델을 기반으로 제1 솔루션키를 획득하며, 제1 솔루션키를 상기 웹 서버에 전송하여 인증 결과를 수신하고, 제1 솔루션키의 인증을 실패하면 제1 솔루션키를 재연산하고, 기 설정된 수 이상 인증을 실패하면 사용자 단말에 캡차 해결 요청 신호를 전송하며, 상기 사용자 단말로부터 제2 솔루션키를 수신하여, 상기 웹 서버에 전송하고, 상기 웹 사이트를 크롤링하는 수집 모듈; 및
    상기 수집 모듈의 동작을 제어하는 제어 모듈을 포함하는 웹 사이트 수집 장치.
KR1020210098229A 2021-07-27 2021-07-27 웹 사이트 수집 방법 및 장치 KR20230016792A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020210098229A KR20230016792A (ko) 2021-07-27 2021-07-27 웹 사이트 수집 방법 및 장치
PCT/KR2022/010199 WO2023008785A1 (ko) 2021-07-27 2022-07-13 웹 사이트 수집 방법 및 장치
US17/873,378 US20230032625A1 (en) 2021-07-27 2022-07-26 Method and device for collecting website

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210098229A KR20230016792A (ko) 2021-07-27 2021-07-27 웹 사이트 수집 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20230016792A true KR20230016792A (ko) 2023-02-03

Family

ID=85039500

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210098229A KR20230016792A (ko) 2021-07-27 2021-07-27 웹 사이트 수집 방법 및 장치

Country Status (3)

Country Link
US (1) US20230032625A1 (ko)
KR (1) KR20230016792A (ko)
WO (1) WO2023008785A1 (ko)

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9003474B1 (en) * 2008-08-22 2015-04-07 Taser International, Inc. Systems and methods for managing disclosure of protectable information
US20110131652A1 (en) * 2009-05-29 2011-06-02 Autotrader.Com, Inc. Trained predictive services to interdict undesired website accesses
US8793760B2 (en) * 2011-03-31 2014-07-29 Ebay Inc. Authenticating online users with distorted challenges based on transaction histories
US9424414B1 (en) * 2014-03-28 2016-08-23 Amazon Technologies, Inc. Inactive non-blocking automated agent detection
US9471767B2 (en) * 2014-08-22 2016-10-18 Oracle International Corporation CAPTCHA techniques utilizing traceable images
WO2017084337A1 (zh) * 2015-11-16 2017-05-26 腾讯科技(深圳)有限公司 一种身份验证方法、装置和系统
US9977892B2 (en) * 2015-12-08 2018-05-22 Google Llc Dynamically updating CAPTCHA challenges
US10303862B2 (en) * 2016-10-25 2019-05-28 Yodlee, Inc. Turing test decoder
US10791222B2 (en) * 2018-06-21 2020-09-29 Wells Fargo Bank, N.A. Voice captcha and real-time monitoring for contact centers
US10795982B2 (en) * 2018-08-23 2020-10-06 International Business Machines Corporation CAPTCHA generation based on environment-specific vocabulary
US11625449B2 (en) * 2018-11-16 2023-04-11 Syracuse University Intent-oriented internet browsing
US20230018027A1 (en) * 2021-07-14 2023-01-19 International Business Machines Corporation Virtual keyboard captcha

Also Published As

Publication number Publication date
WO2023008785A1 (ko) 2023-02-02
US20230032625A1 (en) 2023-02-02

Similar Documents

Publication Publication Date Title
US10419418B2 (en) Device fingerprint based authentication
CN104270404B (zh) 一种基于终端标识的登录方法及装置
KR101826114B1 (ko) 통신 네트워크로의 접속을 제공하기 위한 방법, 컴퓨터 판독가능한 비-일시적 저장 매체 및 라우터
US7690035B2 (en) System and method for preventing fraud of certification information, and recording medium storing program for preventing fraud of certification information
US9735964B2 (en) Federated realm discovery
US10313364B2 (en) Adaptive client-aware session security
US7503065B1 (en) Method and system for gateway-based authentication
US20130254858A1 (en) Encoding an Authentication Session in a QR Code
US11636261B2 (en) Capturing and sending one-time passwords using augmented reality glasses
JP6316539B2 (ja) ウェブトゥアプリ連動コールサービスシステム、方法及びコンピュータ読み取り可能な記録媒体
US20170017695A1 (en) Question and answer information providing system, information processing device, and non-transitory computer-readable medium
KR20110055542A (ko) 유저 인증을 관리하기 위한 장치
KR20160027181A (ko) 네이티브 애플리케이션 핫스팟
US20070143830A1 (en) Method, apparatus and system for preventing unauthorized access to password-protected system
KR101027228B1 (ko) 인터넷 보안을 위한 본인인증 장치, 그 방법 및 이를 기록한 기록매체
JP2021043902A (ja) コンピュータシステム、ログイン画面表示方法、プログラム
WO2015059365A1 (en) Audiovisual -->associative --> authentication --> method and related system
JP2007293562A (ja) 認証装置、集線装置、認証方法、認証プログラム
CN114866247B (zh) 一种通信方法、装置、系统、终端及服务器
KR20230016792A (ko) 웹 사이트 수집 방법 및 장치
WO2020023145A1 (en) Web browser incorporating social and community features
KR102353189B1 (ko) 동적 2d 코드를 활용한 인증장치 및 그 장치의 구동방법
JP2002342270A (ja) リモートアクセス制御方法、リモートアクセス制御プログラム
KR100628555B1 (ko) 블로그 문서 자동 등록 방법 및 그 장치
JP5123728B2 (ja) 情報提供装置および情報提供システム

Legal Events

Date Code Title Description
E902 Notification of reason for refusal