KR102397262B1 - Defective web discrimination method using header information and source code - Google Patents

Defective web discrimination method using header information and source code Download PDF

Info

Publication number
KR102397262B1
KR102397262B1 KR1020200032893A KR20200032893A KR102397262B1 KR 102397262 B1 KR102397262 B1 KR 102397262B1 KR 1020200032893 A KR1020200032893 A KR 1020200032893A KR 20200032893 A KR20200032893 A KR 20200032893A KR 102397262 B1 KR102397262 B1 KR 102397262B1
Authority
KR
South Korea
Prior art keywords
information
website
source code
header
defective
Prior art date
Application number
KR1020200032893A
Other languages
Korean (ko)
Other versions
KR20210116125A (en
Inventor
극 이
Original Assignee
한남대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한남대학교 산학협력단 filed Critical 한남대학교 산학협력단
Priority to KR1020200032893A priority Critical patent/KR102397262B1/en
Publication of KR20210116125A publication Critical patent/KR20210116125A/en
Application granted granted Critical
Publication of KR102397262B1 publication Critical patent/KR102397262B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/563Static detection by source code analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Virology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명은 판단 대상인 웹사이트의 정보를 획득하는 제1 정보 획득단계와, 기준이 되는 웹사이트의 정보를 획득하는 제2 정보 획득단계와, 제1 정보 획득단계와 제2 정보 획득단꼐에서 획득한 정보를 비교하여 웹사이트의 불량 여부를 판단하는 비교 판단단계와, 비교 판단단계에서 판단 대상인 웹사이트가 불량으로 판단 시 사용자에게 이를 알리는 판단정보 제공단계를 포함하여 이루어져, 사용자에게 판단하고자 하는 웹사이트의 불량 여부 정보를 제공 가능한 헤더정보와 소스코드를 이용한 불량 웹 판단방법에 관한 것이다.The present invention provides a first information acquisition step of acquiring information on a website to be judged, a second information acquisition step of acquiring information on a website serving as a reference, and a first information acquisition step and a second information acquisition step. A website to be judged by the user, including a comparison judgment step of comparing information to determine whether the website is defective, and a step of providing judgment information to notify the user when the website, which is the target website, is judged to be defective in the comparison judgment step It relates to a method for determining bad web using header information and source code that can provide information on whether or not the product is bad.

Description

헤더정보와 소스코드를 이용한 불량 웹 판단방법{Defective web discrimination method using header information and source code}Defective web discrimination method using header information and source code

본 발명은 헤더정보와 소스코드를 이용한 불량 웹 판단방법에 관한 것으로, 더욱 상세하게는 웹사이트를 구성하는 헤더 정보와 소스 코드 비교를 통하여 보다 빠르고 정확하게 불량 웹사이트를 판단할 수 있는 방법에 관한 것이다.The present invention relates to a method for determining a bad website using header information and source code, and more particularly, to a method for quickly and accurately determining a bad website by comparing header information and source code constituting the website. .

전자상거래는 기존의 기업과 개인 간의 거래형태(B2C)에서 개인과 개인 간의 거래형태(Customer to Customer, C2C)로 발전하고 있으며, 이러한 개인 간의 거래는 특히 개인이 구입하였던 물건을 다시 파는 중고거래 형태가 많이 이루어지고 있다.E-commerce is evolving from the existing business-to-individual (B2C) transaction to an individual-to-individual (Customer to Customer, C2C) transaction. is being done a lot.

중고거래는 기업으로부터 직접 제품을 구입할 경우와 비교하여 저렴한 가격에 제품을 구입할 수 있는 장점이 있어 웹사이트를 통한 거래가 활성화되고 있는 실정이고, 대표적인 중고거래 웹사이트로는 중고나라가 있으며, 중고나라는 2018년 기준 회원수가 약 1,680만명, 일일 접속자수가 약 500만명으로, 매일 약 20만건의 거래가 웹사이트를 통하여 이루어지고 있다.Compared to purchasing products directly from a company, second-hand trading has the advantage of being able to purchase products at a lower price, so transactions through websites are being activated. As of 2018, the number of members is about 16.8 million and the number of daily visitors is about 5 million, and about 200,000 transactions are made through the website every day.

그러나 온라인 기반의 거래는 비대면성 및 익명성과 같은 특수성을 가지기 때문에, 거래건수가 많아질수록 이러한 특수성을 이용한 다양한 범죄가 발생하고 있으며, 그중 대표적인 범죄로는 피싱사이트를 이용하여 로그인정보와 결제금액을 가로채는 범죄를 들 수 있다.However, since online-based transactions have characteristics such as non-face-to-face and anonymity, as the number of transactions increases, various crimes using these characteristics occur. crime of interception of

이러한 문제를 해결하고자 불량 피싱사이트를 찾은 후 이를 차단하는 다양한 기술이 연구되고 있으나, 현재 상용화된 피싱사이트 검색 기술의 경우 정확도가 낮거나 속도가 느린 문제점이 있어, 이를 보완 가능한 새로운 기술의 필요성이 대두되고 있는 실정이다.In order to solve this problem, various technologies are being studied to find and block bad phishing sites. However, in the case of the currently commercialized phishing site search technology, there are problems with low accuracy or slow speed. It is becoming.

특허문헌 1) 국내등록특허 제10-0633534호(명칭: 웹 스크래핑 엔진 시스템, 공고일: 2006.10.16)Patent Document 1) Domestic Registered Patent No. 10-0633534 (Name: Web Scraping Engine System, Announcement Date: October 16, 2006) 특허문헌 2) 국내공개특허 10-2004-0017824호(명칭: 웹 문서와 리스트정보의 패턴을 이용한 패턴예상분석에 따른 정보검색시스템, 공개일: 2004.02.27)Patent Document 2) Korean Patent Publication No. 10-2004-0017824 (Title: Information retrieval system based on pattern prediction analysis using patterns of web documents and list information, publication date: February 27, 2004)

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 웹 사이트의 불량 여부를 보다 정확하고 빠르게 판단 가능하며, 필요로 하는 저장 공간을 최소화 가능한 불량 웹 판단기술을 제공하는 것이다.The present invention has been devised to solve the above problems, and an object of the present invention is to provide a bad web determination technology capable of more accurately and quickly determining whether a website is defective and minimizing the storage space required. .

상기한 바와 같은 목적을 달성하기 위한 본 발명인 헤더정보와 소스코드를 이용한 불량 웹 판단방법은, 판단 대상인 웹사이트의 정보를 획득하는 제1 정보 획득단계(S100); 기준이 되는 웹사이트의 정보를 획득하는 제2 정보 획득단계(S200); 상기 제1 정보 획득단계(S100)와 상기 제2 정보 획득단계(S200)에서 획득한 정보를 비교하여 웹사이트의 불량 여부를 판단하는 비교 판단단계(S300); 및 상기 비교 판단단계(S300)에서 판단 대상인 웹사이트가 불량으로 판단 시 사용자에게 이를 알리는 판단정보 제공단계(S400);를 포함하는 것을 특징으로 한다.In order to achieve the above object, the present invention provides a method for determining a bad web using header information and a source code, comprising: a first information acquisition step (S100) of acquiring information on a website to be judged; a second information acquisition step (S200) of acquiring information on a website serving as a reference; a comparison determination step (S300) of determining whether the website is defective by comparing the information obtained in the first information obtaining step (S100) and the second information obtaining step (S200); and a decision information providing step (S400) of notifying the user of the judgment that the website, which is a judgment target, is defective in the comparison determination step (S300).

또한, 상기 제1 정보 획득단계(S100)는 판단 대상인 웹사이트의 헤더 정보를 획득하는 헤더정보 획득단계와, 소스 코드 정보를 획득하는 소스 코드 정보 획득단계를 포함하는 것을 특징으로 한다.In addition, the first information obtaining step (S100) is characterized in that it includes a header information obtaining step of obtaining header information of a website to be determined, and a source code information obtaining step of obtaining source code information.

또한, 상기 헤더정보 획득단계는 판단 대상인 웹사이트의 이미지 파일을 획득하는 이미지 파일 획득단계와, 상기 이미지 파일 획득단계에서 획득한 이미지 파일을 헤더 데이터와 이미지 데이터로 분리하는 데이터 분리단계를 포함하는 것을 특징으로 한다.In addition, the header information obtaining step includes an image file obtaining step of obtaining an image file of a website to be determined, and a data separation step of separating the image file obtained in the image file obtaining step into header data and image data. characterized.

또한, 상기 비교 판단단계(S300)는 상기 제1 정보 획득단계(S100)에서 획득한 판단 대상인 웹사이트의 헤더 데이터, 이미지 데이터, 소스 코드정보 중 어느 하나 이상과, 상기 제2 정보 획득단계(S200)에서 획득한 기준이 되는 웹사이트의 헤더 데이터, 이미지 데이터, 소스 코드정보 중 어느 하나 이상을 비교하여 판단 대상인 웹사이트의 불량 여부를 판단하는 것을 특징으로 한다.In addition, the comparison determination step (S300) includes any one or more of header data, image data, and source code information of a website to be determined obtained in the first information obtaining step (S100), and the second information obtaining step (S200). ), by comparing any one or more of header data, image data, and source code information of a standard website obtained in ) to determine whether or not the website to be judged is defective.

또한, 상기 비교 판단단계(S300)에서 헤더 데이터의 비교는 레벤슈타인(Levenshtein Distance) 방식으로 이루어지는 것을 특징으로 한다.In addition, it is characterized in that the comparison of the header data in the comparison determination step (S300) is performed in a Levenshtein Distance method.

또한, 상기 비교 판단단계(S300)에서 이미지 데이터의 비교는 ORB(Oriented Fast and Rotated BRIEF)알고리즘으로 이루어지는 것을 특징으로 한다.In addition, the comparison of the image data in the comparison determination step (S300) is characterized in that it is made of an ORB (Oriented Fast and Rotated BRIEF) algorithm.

또한, 상기 비교 판단단계(S300)에서 불량이 아닌 것으로 판단 시 재검사 횟수를 기반으로 재검사 여부를 판단하는 재검사 여부 판단단계(S500)를 더 포함하는 것을 특징으로 한다.In addition, it is characterized in that it further comprises a re-inspection determination step (S500) of determining whether to re-inspect based on the number of re-inspections when it is determined that there is no defect in the comparison determination step (S300).

또한, 상기 재검사 여부 판단단계(S500)는 사용자가 지정한 재검사 횟수를 기준으로 재검사 여부를 결정하며, 재검사가 지정된 횟수 미만으로 이루어진 것으로 판단 시 상기 제2 정보 획득단계(S200)를 실행하고, 재검사가 지정된 횟수 이상으로 이루어진 것으로 판단 시 상기 판단정보 제공단계(S400)를 실행하는 것을 특징으로 한다.In addition, the re-inspection determination step (S500) determines whether to re-test based on the number of re-inspections specified by the user, and when it is determined that the re-inspection has been made less than the specified number of times, the second information acquisition step ( S200 ) is executed, and the re-inspection is performed It is characterized in that the determination information providing step (S400) is executed when it is determined that it is made more than a specified number of times.

또한, 상기 제2 정보 획득단계(S200)는 상기 재검사 여부 판단단계(S500)를 통하여 재실행 시 기준이 되는 새로운 웹사이트 정보를 획득하는 것을 특징으로 한다.In addition, the second information acquisition step (S200) is characterized in that it acquires new website information that becomes a reference when re-executing through the re-inspection or not determining step (S500).

상기와 같은 구성에 의한 본 발명인 헤더 정보와 소스코드를 이용한 불량 웹 판단방법은 헤더 데이터, 이미지 데이터, 소스 코드정보 중 어느 하나 이상을 비교하여 사이트의 불량 여부를 판단하므로, 속도가 빠르고, 정확도가 높을 뿐만 아니라, 많은 저장 공간을 필요로 하지 않는 장점이 있다.The method for determining bad web using header information and source code according to the present invention according to the above configuration compares any one or more of header data, image data, and source code information to determine whether the site is defective, so the speed is fast and the accuracy is high. Not only is it high, it has the advantage of not requiring a lot of storage space.

또한, 필요에 따라 사용자가 재검사 횟수를 지정 가능하므로, 검사 정확도를 보다 높여야 할 필요가 있는 경우 반복적인 재검사를 통하여 정확도를 한층 높일 수 있는 장점이 있다.In addition, since the user can designate the number of re-inspections as needed, there is an advantage in that the accuracy can be further improved through repeated re-inspection when it is necessary to further increase the inspection accuracy.

도 1은 본 발명의 일 실시예에 따른 헤더정보와 소스코드를 이용한 불량 웹 판단방법을 나타낸 순서도.
도 2는 종래의 불량 웹 판단방법을 나타낸 개념도.
도 3은 본 발명의 또 다른 실시예에 따른 헤더정보와 소스코드를 이용한 불량 웹 판단방법을 나타낸 순서도.
1 is a flowchart illustrating a method for determining a bad web using header information and source code according to an embodiment of the present invention.
2 is a conceptual diagram illustrating a conventional method for determining a bad web.
3 is a flowchart illustrating a method for determining a bad web using header information and source code according to another embodiment of the present invention.

본 발명의 실시예들에 대한 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다.Advantages and features of embodiments of the present invention, and methods of achieving them, will become apparent with reference to the embodiments described below in detail in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in various different forms, and only these embodiments allow the disclosure of the present invention to be complete, and common knowledge in the technical field to which the present invention pertains It is provided to fully inform those who have the scope of the invention, and the present invention is only defined by the scope of the claims. Like reference numerals refer to like elements throughout.

이하, 첨부된 도면을 참조하여 본 발명에 따른 개체명 인식을 이용한 문장 분석 효율화 방법에 관하여 설명하도록 한다.Hereinafter, with reference to the accompanying drawings, a method for improving the efficiency of sentence analysis using entity name recognition according to the present invention will be described.

도 1은 본 발명의 일 실시예에 따른 헤더정보와 소스코드를 이용한 불량 웹 판단방법(S1000)을 나타낸 순서도이고, 도 2는 종래의 불량 웹 판단방법을 나타낸 개념도이다.1 is a flowchart illustrating a method (S1000) for determining a bad web using header information and a source code according to an embodiment of the present invention, and FIG. 2 is a conceptual diagram illustrating a conventional method for determining a bad web.

도 1을 참조하면 본 발명의 일 실시예에 따른 헤더정보와 소스코드를 이용한 불량 웹 판단방법(S1000)은 판단 대상인 웹사이트의 정보를 획득하는 제1 정보 획득단계(S100)와, 기준이 되는 웹사이트의 정보를 획득하는 제2 정보 획득단계(S200)와, 상기 제1 정보 획득단계(S100)와 상기 제2 정보 획득단계(S200)에서 획득한 정보를 비교하여 웹사이트의 불량 여부를 판단하는 비교 판단단계(S300)와, 상기 비교 판단단계(S300)에서 판단 대상인 웹사이트가 불량으로 판단 시 사용자에게 이를 알리는 판단정보 제공단계(S400)를 포함하여 이루어질 수 있다.Referring to FIG. 1 , a method for determining a bad web using header information and a source code (S1000) according to an embodiment of the present invention includes a first information acquisition step (S100) of acquiring information on a website to be judged, and a standard It is determined whether the website is defective by comparing the information obtained in the second information obtaining step (S200) of obtaining website information, the first information obtaining step (S100) and the second information obtaining step (S200) A comparison determination step (S300), and a determination information providing step (S400) of notifying the user when the website, which is a judgment target in the comparison determination step (S300), is judged to be defective may be included.

상기 제1 정보 획득단계(S100)는 판단 대상인 웹사이트의 헤더 정보를 획득하는 헤더정보 획득단계와, 소스 코드 정보를 획득하는 소스코드 정보 획득단계를 포함할 수 있으며, 상기 헤더정보 획득단계는 판단 대상인 웹사이트의 이미지 파일을 획득하는 이미지 파일 획득단계와, 상기 이미지 파일 획득단계에서 획득한 이미지 파일을 헤더 데이터와 이미지데이터로 분리하는 데이터 분리단계를 포함할 수 있다.The first information obtaining step (S100) may include a header information obtaining step of obtaining header information of a website to be determined, and a source code information obtaining step of obtaining source code information, wherein the header information obtaining step is determined It may include an image file acquisition step of acquiring an image file of a target website, and a data separation step of separating the image file acquired in the image file acquisition step into header data and image data.

상기 비교 판단단계(S300)는 상기 제1 정보 획득단계(S100)에서 획득한 판단 대상인 웹사이트의 헤더 데이터, 이미지 데이터, 소스 코드정보 중 어느 하나 이상과, 상기 제2 정보 획득단계(S200)에서 획득한 기준이 되는 웹사이트의 헤더 데이터, 이미지 데이터, 소스 코드정보 중 어느 하나 이상을 비교하여 판단 대상인 웹사이트의 불량 여부를 판단할 수 있다. In the comparison determination step (S300), any one or more of header data, image data, and source code information of the website, which is the determination target, obtained in the first information obtaining step (S100), and the second information obtaining step (S200) By comparing any one or more of header data, image data, and source code information of the obtained standard website, it is possible to determine whether the website to be judged is defective.

도 2를 참조하여 상세히 설명하면, 종래의 불량 웹사이트 판단은 정상 웹 사이트(10)와 위조 또는 변조된 불량 웹 사이트(20) 간의 이미지(11,21)를 비교하거나, 링크 데이터를 비교하는 방식을 이용하였으나, 이러한 방식의 경우 이미지 데이터 비교에 많은 시간이 소요될 뿐만 아니라, 이미지 저장 공간 또한 많이 필요로 하는 단점이 있으므로, 본 발명에서는 상기 제1 정보 획득단계(S100)를 통하여 판단 대상인 웹사이트의 헤더정보와 소스 코드 정보를 획득한 후, 상기 비교 판단단계(S300)에서 상기 제1 정보 획득단계(S100)에서 획득한 헤더정보 및 소스 코드 정보와, 상기 제2 정보 획득단계(S200)에서 획득한 기준이 되는 웹사이트의 헤더정보 및 소스 코드 정보를 비교하여 판단 대상인 웹사이트의 불량 여부를 신속하고 정확하게 판단 가능하도록 한 것이다.2, the conventional bad website determination is a method of comparing images 11 and 21 between a normal website 10 and a forged or falsified bad website 20, or comparing link data However, in the case of this method, it takes a lot of time to compare image data and also requires a lot of image storage space. After obtaining the header information and the source code information, the header information and the source code information obtained in the first information obtaining step (S100) in the comparison determination step (S300) and the second information obtaining step (S200) are obtained By comparing header information and source code information of a standard website, it is possible to quickly and accurately determine whether the website being judged is defective or not.

상기 헤더정보 획득단계에서 이미지 파일을 분리하여 획득한 이미지 데이터는 저장된 후 상기 제2 정보 획득단계(S200)에서 획득한 기준이 되는 웹사이트의 이미지 데이터와 비교되어 상기 비교 판단단계(S300)에서의 웹사이트 불량 여부 판단 신뢰도를 높일 수 있지만, 헤더 정보와 소스 코드 정보 비교만으로도 충분히 웹사이트의 불량 여부를 판단할 수 있는 경우, 이미지 데이터는 삭제되어 불량 웹 판단에 사용되는 서버의 필요 저장 공간 크기를 최소화할 수 있다.After the image data obtained by separating the image file in the header information obtaining step is stored, it is compared with the image data of the website serving as the reference obtained in the second information obtaining step (S200), and in the comparison determination step (S300) Although it is possible to increase the reliability of determining whether a website is defective, if it is sufficient to determine whether a website is defective by comparing the header information and the source code information, the image data is deleted to reduce the size of the required storage space of the server used to determine the bad web. can be minimized

상세히 설명하면, 본 발명인 헤더정보와 소스코드를 이용한 불량 웹 판단방법은, 상기 제1 정보 획득단계(S100)와 상기 제2 정보 획득단계(S200)를 통하여, 판단 대상인 웹사이트 및 기준이 되는 웹사이트의 헤더 데이터, 이미지 데이터, 소스코드 정보 등을 획득하며, 상기 비교 판단단계(S300)는 이를 이용하여 사이트의 불량을 판단하게 된다. In detail, the present inventor's method for determining a bad web using header information and source code, through the first information acquiring step (S100) and the second information acquiring step (S200), the website to be judged and the standard web Header data, image data, source code information, etc. of the site are obtained, and the comparison determination step (S300) uses this to determine the site's defect.

이때 상기 비교 판단단계(S300)는 이러한 획득 정보 중 헤더 데이터 및 소스코드 정보를 비교하여 충분히 웹사이트의 불량 여부를 판단할 수 있는 경우, 이미지 데이터의 경우 필요에 따라 소거하거나 사용하여 저장 용량을 최소화 하거나 판단 정확도를 높일 수 있다. At this time, in the comparison determination step (S300), if it is possible to sufficiently determine whether the website is defective by comparing the header data and the source code information among the acquired information, the image data is erased or used as necessary to minimize the storage capacity. or to increase the accuracy of judgment.

이때, 상기 비교 판단단계(S300)에서의 헤더 데이터와 이미지 데이터 비교는 다양한 방식으로 이루어질 수 있으나, 일 실시예로 헤더 데이터의 비교는 레벤슈타인(Levenshtein Distance) 방식으로 이루어지고, 이미지 데이터의 비교는 ORB(Oriented Fast and Rotated BRIEF)알고리즘으로 이루어질 경우 보다 정확한 결과를 신속하게 도출 가능하다.In this case, the header data and image data comparison in the comparison determination step (S300) may be made in various ways, but in an embodiment, the comparison of the header data is made in the Levenshtein Distance method, and the comparison of the image data is In the case of ORB (Oriented Fast and Rotated BRIEF) algorithm, more accurate results can be derived quickly.

도 3은 본 발명의 또 다른 실시예에 따른 헤더정보와 소스코드를 이용한 불량 웹 판단방법(S1000)을 나타낸 순서도이다.3 is a flowchart illustrating a method (S1000) for determining a bad web using header information and source code according to another embodiment of the present invention.

도 3을 참조하면 본 발명의 또 다른 실시예에 따른 헤더정보와 소스코드를 이용한 불량 웹 판단방법은, 상기 비교 판단단계(S300)에서 불량이 아닌 것으로 판단 시 검사 횟수를 기반으로 재검사 여부를 판단하는 재검사 여부 판단단계(S500)를 더 포함할 수 있으며, 상기 재검사 여부 판단단계(S500)는 사용자가 지정한 재검사 회수를 기준으로 재검사 여부를 결정하며, 재검사가 지정된 회수 미만으로 이루어진 것으로 판단 시, 상기 제2 정보 획득단계(S200)를 실행하고, 재검사가 지정된 회수 이상으로 이루어진 것으로 판단 시 상기 판단정보 제공단계(S400)를 실행할 수 있으며, 상기 제2 정보 획득단계(200)는 상기 재검사 여부 판단단계(S500)를 통하여 재실행 시 기준이 되는 새로운 웹사이트 정보를 획득할 수 있다.Referring to FIG. 3 , in the method for determining a bad web using header information and source code according to another embodiment of the present invention, when it is determined that it is not defective in the comparison determination step ( S300 ), it is determined whether to re-inspect based on the number of inspections It may further include a re-inspection determination step (S500), wherein the re-inspection determination step (S500) determines whether to re-inspect based on the number of re-inspections specified by the user, and when it is determined that the re-inspection is made less than the specified number of times, the Execute the second information obtaining step (S200), and when it is determined that the re-inspection has been made more than the specified number of times, the determination information providing step (S400) may be executed, and the second information obtaining step 200 is the re-inspection determination step Through ( S500 ), it is possible to acquire new website information that becomes a reference when re-executing.

상세히 설명하면, 판단 대상인 웹사이트를 하나의 기준이 되는 웹사이트와만 비교할 경우 상기 판단정보 제공단계(S400)를 통하여 사용자에게 제공되는 정보의 정확도가 상대적으로 낮은 문제점이 있으므로, 본 발명에서는 사용자가 회득하는 정보의 질을 높이기 위하여 사용자가 상기 재검사 여부 판단단계(S500)를 통하여 서로 다른 복수개의 웹사이트를 기준 대상으로 복수번의 웹사이트 불량 여부 판단이 이루어지고, 이러한 최종 정보를 사용자가 제공받을 수 있게 한 것이다.In detail, when comparing only the website that is the target of judgment with the website serving as one criterion, the accuracy of the information provided to the user through the judgment information providing step (S400) is relatively low. Therefore, in the present invention, the user In order to improve the quality of the obtained information, the user determines whether the website is defective a plurality of times based on a plurality of different websites as a reference target through the re-inspection determination step (S500), and the user can receive this final information. made to be

이상의 설명에서는 본 발명의 다양한 실시예들을 제시하여 설명하였으나 본 발명이 반드시 이에 한정되는 것은 아니며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능함을 알 수 있다.In the above description, various embodiments of the present invention have been presented and described, but the present invention is not necessarily limited thereto. It can be seen that branch substitutions, transformations and alterations are possible.

S100 : 제1 정보 획득단계
S200 : 제2 정보 획득단계
S300 : 비교 판단단계
S400 : 판단정보 제공단계
S500 : 재검사 여부 판단단계
S100: first information acquisition step
S200: second information acquisition step
S300: comparison judgment step
S400: judgment information providing step
S500: Re-inspection determination step

Claims (7)

제1 정보 획득수단이 판단 대상인 웹사이트의 정보를 획득하는 제1 정보 획득단계(S100);
제2 정보 획득수단이 기준이 되는 웹사이트의 정보를 획득하는 제2 정보 획득단계(S200);
비교 판단수단이 상기 제1 정보 획득단계(S100)와 상기 제2 정보 획득단계(S200)에서 획득한 정보를 비교하여 웹사이트의 불량 여부를 판단하는 비교 판단단계(S300);
판단정보 제공수단이 상기 비교 판단단계(S300)에서 판단 대상인 웹사이트가 불량으로 판단 시 사용자에게 이를 알리는 판단정보 제공단계(S400); 및
재검사 여부 판단수단이 상기 비교 판단단계(S300)에서 불량이 아닌 것으로 판단 시 재검사 횟수를 기반으로 재검사 여부를 판단하는 재검사 여부 판단단계(S500)를 포함하는 헤더정보와 소스코드를 이용한 불량 웹 판단방법에 있어서,
상기 제1 정보 획득단계(S100)는
판단 대상인 웹사이트의 헤더 정보를 획득하는 헤더정보 획득단계와,
소스 코드 정보를 획득하는 소스 코드 정보 획득단계를 포함하고,
상기 헤더정보 획득단계는
판단 대상인 웹사이트의 이미지 파일을 획득하는 이미지 파일 획득단계와,
상기 이미지 파일 획득단계에서 획득한 이미지 파일을 헤더 데이터와 이미지 데이터로 분리하는 데이터 분리단계를 포함하며,
상기 비교 판단단계(S300)는
상기 제1 정보 획득단계(S100)에서 획득한 판단 대상인 웹사이트의 헤더 데이터, 이미지 데이터 및 소스 코드정보 중 어느 하나 이상과, 상기 제2 정보 획득단계(S200)에서 획득한 기준이 되는 웹사이트의 헤더 데이터, 이미지 데이터 및 소스 코드정보 중 어느 하나 이상을 비교하여 판단 대상인 웹사이트의 불량 여부를 판단하고,
상기 비교 판단단계(S300)는 헤더 데이터 및 소스코드 정보를 비교하여 웹사이트의 불량 여부를 판단할 수 있는 경우, 이미지 데이터는 삭제되어 저장 공간 크기를 최소화 하며,
상기 재검사 여부 판단단계(S500)는
사용자가 지정한 재검사 횟수를 기준으로 재검사 여부를 결정하며, 재검사가 지정된 횟수 미만으로 이루어진 것으로 판단 시 상기 제2 정보 획득단계(S200)를 실행하고, 재검사가 지정된 횟수 이상으로 이루어진 것으로 판단 시 상기 판단정보 제공단계(S400)를 실행하며,
상기 제2 정보 획득단계(S200)는 상기 재검사 여부 판단단계(S500)를 통하여 재실행 시 기준이 되는 새로운 웹사이트 정보를 획득하는 것을 특징으로 하는, 헤더정보와 소스코드를 이용한 불량 웹 판단방법.
a first information acquisition step (S100) in which the first information acquisition means acquires information on a website to be determined;
a second information acquisition step (S200) in which the second information acquiring means acquires information on a website serving as a reference;
a comparison determination step (S300) in which a comparison determination means compares the information obtained in the first information obtaining step (S100) and the second information obtaining step (S200) to determine whether the website is defective;
When the judgment information providing means determines that the website to be judged is defective in the comparison judgment step (S300), the judgment information providing step (S400) of notifying the user of this; and
Bad web determination method using header information and source code, including a re-inspection determination step (S500) of determining whether to re-inspect based on the number of re-inspections when the re-inspection determination means determines that it is not defective in the comparison determination step (S300) In
The first information acquisition step (S100) is
A header information acquisition step of acquiring header information of a website to be determined;
Including a source code information obtaining step of obtaining source code information,
The header information obtaining step is
An image file acquisition step of acquiring an image file of the website to be judged;
A data separation step of separating the image file obtained in the image file obtaining step into header data and image data,
The comparison determination step (S300) is
Any one or more of header data, image data, and source code information of the website to be judged acquired in the first information acquiring step (S100), and the website serving as a criterion acquired in the second information acquiring step (S200) Comparing any one or more of header data, image data, and source code information to determine whether the website being judged is defective,
In the comparison determination step (S300), when it is possible to determine whether the website is defective by comparing the header data and the source code information, the image data is deleted to minimize the storage space size,
The re-inspection determination step (S500) is
Determines whether to retest based on the number of re-inspections specified by the user, executes the second information acquisition step (S200) when it is determined that the re-inspection is made less than the specified number of times, and when it is determined that the re-inspection is made more than the specified number of times, the determination information Execute the providing step (S400),
The second information obtaining step (S200) is a method for determining bad web using header information and source code, characterized in that the new website information is obtained as a reference when re-executing through the re-inspection determination step (S500).
삭제delete 삭제delete 삭제delete 제1항에 있어서,
상기 비교 판단단계(S300)에서 헤더 데이터의 비교는 레벤슈타인(Levenshtein Distance) 방식으로 이루어지는 것을 특징으로 하는, 헤더정보와 소스코드를 이용한 불량 웹 판단방법.
According to claim 1,
A method for determining a bad web using header information and source code, characterized in that the comparison of header data in the comparison determination step (S300) is performed in a Levenshtein Distance method.
제5항에 있어서,
상기 비교 판단단계(S300)에서 이미지 데이터의 비교는 ORB(Oriented Fast and Rotated BRIEF)알고리즘으로 이루어지는 것을 특징으로 하는, 헤더정보와 소스코드를 이용한 불량 웹 판단방법.
6. The method of claim 5,
The method for determining a bad web using header information and source code, characterized in that the comparison of image data in the comparison determination step (S300) is made by an Oriented Fast and Rotated BRIEF (ORB) algorithm.
삭제delete
KR1020200032893A 2020-03-17 2020-03-17 Defective web discrimination method using header information and source code KR102397262B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200032893A KR102397262B1 (en) 2020-03-17 2020-03-17 Defective web discrimination method using header information and source code

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200032893A KR102397262B1 (en) 2020-03-17 2020-03-17 Defective web discrimination method using header information and source code

Publications (2)

Publication Number Publication Date
KR20210116125A KR20210116125A (en) 2021-09-27
KR102397262B1 true KR102397262B1 (en) 2022-05-11

Family

ID=77926119

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200032893A KR102397262B1 (en) 2020-03-17 2020-03-17 Defective web discrimination method using header information and source code

Country Status (1)

Country Link
KR (1) KR102397262B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101869264B1 (en) * 2018-01-11 2018-07-23 주식회사 업루트 Apparatus and method for detecting phishing sites

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040017824A (en) 2004-01-20 2004-02-27 (주)나우정보통신 Information search system which it follows in the Pattern-Forecast-Analysis to use the pattern of the web document and list
KR100633534B1 (en) 2004-06-11 2006-10-16 (주)인포메이션 앤 인터넷 Web scrapping engine system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101869264B1 (en) * 2018-01-11 2018-07-23 주식회사 업루트 Apparatus and method for detecting phishing sites

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Sahar Abdelnabi et al, "WhiteNet: Phishing Website Detection by Visual Whitelists"(2019.11.)*
Xingchen Li et al, "Algorithm of Web Page Similarity Comparison Based on Visual Block", Computer Science and Information Systems, Vol. 16, No. 3, pp. 815-830(2019.07.)*

Also Published As

Publication number Publication date
KR20210116125A (en) 2021-09-27

Similar Documents

Publication Publication Date Title
US11989740B2 (en) Reducing false positives using customer feedback and machine learning
US11003889B2 (en) Classifying digital documents in multi-document transactions based on signatory role analysis
CN106164896B (en) Multi-dimensional recursion method and system for discovering counterparty relationship
CN111406270B (en) Image-based counterfeit detection
JP2016200435A (en) Mass spectrum analysis system, method, and program
JP2008077403A (en) Evaluation device, method and program
CN111415336A (en) Image tampering identification method and device, server and storage medium
CN112733884A (en) Welding defect recognition model training method and device and computer terminal
Chen et al. Identifying tampering operations in image operator chains based on decision fusion
WO2019126693A1 (en) Automated analysis of analytical gels and blots
CN117409419A (en) Image detection method, device and storage medium
Rubaidi et al. Fraud detection using large-scale imbalance dataset
CN114511866A (en) Data auditing method, device, system, processor and machine-readable storage medium
KR102397262B1 (en) Defective web discrimination method using header information and source code
CN112989763B (en) Data acquisition method, device, computer equipment and storage medium
CN117315365A (en) Camshaft surface damage detecting system based on visual analysis
KR102101456B1 (en) Method for reducing false positives for diagnosis of personal information exposure of text files and irregular image files
US20220398859A1 (en) Signal-based machine learning fraud detection
CN112116460B (en) Block chain based patent pledge business processing method, system and storage medium
Alsuwaidi et al. The reliability of a novel automated system for ANA immunofluorescence analysis in daily clinical practice
Gong et al. Automated Pavement Crack Detection with Deep Learning Methods: What Are the Main Factors and How to Improve the Performance?
KR100837334B1 (en) Method and apparatus for preventing from abusing search logs
JP5500930B2 (en) Participation examination system, participation examination method, and program
CN111292179A (en) Counter service processing system, method, equipment and storage medium
Lu et al. Holistic fine-grained global glomerulosclerosis characterization: from detection to unbalanced classification

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant