KR102134210B1 - 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 시스템 및 그 부하 저감 방법 - Google Patents

홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 시스템 및 그 부하 저감 방법 Download PDF

Info

Publication number
KR102134210B1
KR102134210B1 KR1020180147636A KR20180147636A KR102134210B1 KR 102134210 B1 KR102134210 B1 KR 102134210B1 KR 1020180147636 A KR1020180147636 A KR 1020180147636A KR 20180147636 A KR20180147636 A KR 20180147636A KR 102134210 B1 KR102134210 B1 KR 102134210B1
Authority
KR
South Korea
Prior art keywords
image file
personal information
text
image
exposed
Prior art date
Application number
KR1020180147636A
Other languages
English (en)
Other versions
KR20200061858A (ko
Inventor
김성진
이승한
채화성
이종규
김범용
김경선
Original Assignee
(주)아이티 노매즈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)아이티 노매즈 filed Critical (주)아이티 노매즈
Priority to KR1020180147636A priority Critical patent/KR102134210B1/ko
Publication of KR20200061858A publication Critical patent/KR20200061858A/ko
Application granted granted Critical
Publication of KR102134210B1 publication Critical patent/KR102134210B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Storage Device Security (AREA)

Abstract

본 발명은 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 시스템 및 부하 저감 방법에 관한 것으로서, 특히, 홈페이지를 구성하고 있는 비정형 이미지 파일로부터 개인정보의 노출 여부를 검출하는 한편, 텍스트 추출이 불가할 정도로 작은 용량이거나 중복되는 비정형 이미지 파일을 배제시켜 진단서버의 부하를 저감시키고, 이미지 파일의 회전 각도, 채도, 명도 등을 다양하게 변경하면서 반복 추출한 텍스트로부터 개인정보 노출 여부를 보다 정확하게 검출하기 위한 것으로서, 콘텐츠로부터 이미지 파일을 수집하는 이미지 파일 수집단계(S10)와; 상기 이미지 파일 수집단계(S10)에서 수집된 이미지 파일에 대하여 불필요한 이미지 파일 제거를 위하여 이미지 파일의 용량을 판단하여 기준 용량 이하인 이미지 파일을 삭제하고, 중복 이미지 파일 배제를 위하여 이미지 파일의 고유값을 생성하여 기존에 저장된 고유값과 비교함으로써 중복 이미지 파일에 대하여 기존에 저장된 검출결과를 로딩하는 이미지 파일 처리단계(S20)와; 상기 이미지 파일 처리단계(S20)에서 중복되지 않은 이미지 파일로부터 이미지 파일의 회전 각도, 명도, 채도를 각각 변경시키면서 텍스트를 반복 추출하여 하나의 텍스트로 통합하는 이미지 파일 보정단계(S30)와; 상기 이미지 파일 보정단계(S30)에서 통합된 텍스트에 대하여 개인정보 노출여부를 검출하는 개인정보 노출 판단단계(S40)를 포함하는 것이다.

Description

홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 시스템 및 그 부하 저감 방법{Personal information detecting-filtering system and method for reducing load of irregular image files in homepage}
본 발명은 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 시스템 및 부하 저감 방법에 관한 것으로서 특히, 홈페이지를 구성하고 있거나 혹은 홈페이지에 새롭게 등록되려 하는 비정형 이미지 파일로부터 개인정보의 노출 여부를 진단하는 한편, 텍스트 추출이 불가할 정도로 작은 용량이거나 중복되는 비정형 이미지 파일을 배제시켜 검출/차단 시스템의 부하를 저감시키고, 이미지 파일의 회전 각도, 채도, 명도 등을 다양하게 변경하면서 반복 추출한 텍스트로부터 개인정보 노출 여부를 보다 정확하게 진단하여 검출/차단하기 위한 시스템 및 방법에 관한 것이다.
최근에는, 정보통신망의 급속한 확장에 따라 개인정보 명의 도용 및 사기를 위한 개인정보 유출 사고가 크게 증가하고 있어, 국가적 차원에서 관련 법률을 보완/개정하여 홈페이지를 구성하고 있는 서버에 개인정보가 노출되어 있는 경우, 해당 서버의 책임자에게 민형사상 책임을 묻는 등 다양한 제제 방안이 강구되고 있는 실정이다.
이에 따라, 홈페이지에 개인정보가 노출되어 있거나 혹은 개인정보가 새롭게 등록되려 하는 것을 진단하여 검출 및 차단하기 위한 다양한 시스템 및 방법이 개발되고 있는 실정이다.
우선, 홈페이지에서 개인정보의 검출에는 일반적으로 크롤링(crawling)이 사용되고 있으며, 크롤링이란 무수히 많은 서버에 분산 저장되어 있는 다양한 콘텐츠를 수집하여 검색 대상의 색인으로 포함시키는 기술로서, 어느 부류의 기술을 얼마나 빨리 검색 대상에 포함시키느냐 하는 것이 우위를 결정하는 요소로서 최근 웹 검색의 중요성에 따라 급속도로 발전되고 있다.
또한, 개인정보가 홈페이지에 새롭게 등록되려 하는 것을 차단하는 데에는 inline 방식, active-X/plug-in 방식, proxy 방식, SDK 방식 등이 사용되고 있다.
만약, 홈페이지에 개인정보가 노출되어 있거나 혹은 홈페이지에 새롭게 개인정보가 등록되려 하는 경우에는, 개인정보의 노출을 검출/차단하고 이를 해당 서버의 관리자에게 다양한 형태로 알리고 있다.
하지만, 서버에 저장되어 홈페이지를 구성하고 있거나 혹은 새롭게 홈페이지에 등록되려 하는 수많은 파일로부터 개인정보가 노출되어 있는지 여부를 진단하는 데에 많은 시간과 노력이 요구되고 있다.
특히, 종래에 있어서는 홈페이지를 구성하고 있거나 혹은 홈페이지에 새롭게 등록되려 하는 비정형 이미지 파일의 경우, 개인정보 노출 여부를 진단하기 매우 어려우며, 게다가 비정형 이미지 파일로부터 개인정보 노출 여부에 대한 검출 및 차단을 위한 시스템에 비교적 큰 부하가 걸리고 많은 시간이 소요 된다는 종래 기술상의 문제점이 있었다.
본 발명은 상기의 문제점을 해소하기 위한 것으로, 홈페이지를 구성하고 있거나 혹은 홈페이지에 새롭게 등록되려 하는 비정형 이미지 파일로부터 개인정보의 노출 여부를 검출 및 차단할 수 있어 홈페이지에 개인정보가 노출되는 것을 방지하며, 개인정보의 노출 여부 검출 및 차단 시 시스템의 부하를 저감시킬 수 있을 뿐 아니라, 이미지 파일을 다양하게 변경하면서 반복 추출한 텍스트로부터 개인정보 노출 여부를 보다 정확하게 진단할 수 있도록 하는 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 시스템 및 부하 저감 방법을 제공하고자 한다.
이러한 본 발명에 따른 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 부하 저감 방법은, 콘텐츠로부터 이미지 파일을 수집하는 이미지 파일 수집단계와; 상기 이미지 파일 수집단계에서 수집된 이미지 파일에 대하여 불필요한 이미지 파일 제거를 위하여 이미지 파일의 용량을 판단하여 기준 용량 이하인 이미지 파일을 삭제하고, 중복 이미지 파일 배제를 위하여 이미지 파일의 고유값을 생성하여 기존에 저장된 고유값과 비교함으로써 중복 이미지 파일에 대하여 기존에 저장된 검출결과를 로딩하는 이미지 파일 처리단계와; 상기 이미지 파일 처리단계에서 중복되지 않은 이미지 파일로부터 이미지 파일의 회전 각도, 명도, 채도를 각각 변경시키면서 텍스트를 반복 추출하여 하나의 텍스트로 통합하는 이미지 파일 보정단계와; 상기 이미지 파일 보정단계에서 통합된 텍스트에 대하여 개인정보 노출여부를 검출하는 개인정보 노출 판단단계를 포함함으로써 달성된다.
여기에서, 상기 이미지 파일 수집단계는; 콘텐츠 유형이 웹페이지인지 판단하는 웹페이지 파일 판단단계와; 상기 웹페이지 파일 판단단계에서 콘텐츠 유형이 웹페이지인 경우, 웹페이지에 포함된 이미지 파일 링크를 통해 해당 이미지를 다운로드 하는 이미지 다운로드 단계와; 상기 웹페이지 파일 판단단계에서 콘텐츠 유형이 웹페이지가 아닌 경우, 순수 이미지 파일인지 판단하는 이미지 파일 유형 인식단계를 포함하는 것이 좋다.
그리고, 본 발명에 있어서 상기 이미지 파일 처리단계는, 상기 이미지 파일 유형 인식단계에서 순수 이미지 파일이 아닌 경우, 문서 파일로부터 이미지 파일을 추출하는 이미지 파일 추출단계와; 이미지 파일 용량이 기준 용량 이하인지 판단하여, 이미지 파일 용량이 기준 용량 이하인 경우 해당 이미지 파일을 삭제하는 이미지 파일 용량 판단단계와; 상기 이미지 파일 용량 판단단계에서 이미지 파일 용량이 기준 용량을 초과하는 경우, 고유한 해시값을 생성하는 해시값 생성단계와; 상기 해시값 생성단계에서 생성된 해시값이 기존에 저장되어 있던 해시값과 일치하는지 비교하여, 기존에 저장되어 있던 해시값과 일치하는 경우 기존에 저장된 개인정보 검출결과를 로딩하는 해시값 비교단계를 포함하는 것이 양호하다.
또한, 본 발명에 있어서 상기 이미지 파일 보정단계는; 상기 해시값 비교단계에서 해시값이 기존에 저장되어 있던 해시값과 일치하지 않는 경우, 이미지 파일로부터 OCR을 이용하여 텍스트를 추출하는 제1텍스트 추출단계와; 상기 이미지 파일을 기준 회전 각도 단위로 회전시키면서 OCR을 이용하여 텍스트를 반복 추출하는 제2텍스트 추출단계와; 상기 이미지 파일의 채도를 고정시킨 상태에서 명도를 변경시키면서 OCR을 이용하여 텍스트를 반복 추출하는 제3텍스트 추출단계와; 상기 이미지 파일의 명도를 고정시킨 상태에서 채도를 변경시키면서 OCR을 이용하여 텍스트를 반복 추출하는 제4텍스트 추출단계와; 상기 제1 내지 제4텍스트 추출단계에서 추출된 텍스트를 취합하여 하나의 텍스트로 통합하는 텍스트 통합단계를 포함할 수 있을 것이다.
게다가, 본 발명에 있어서 상기 개인정보 노출 판단단계는; 상기 이미지 파일 보정단계에서 추출된 텍스트에 대하여 정규표현식으로 개인정보의 노출 여부를 진단하는 제1진단단계와; 상기 제1진단단계에서 개인정보가 노출된 것으로 진단된 경우, 노출된 개인정보에 대하여 체크섬 적용이 가능한 개인정보 유형인지 확인하는 체크섬 적용 확인단계와; 상기 체크섬 적용 확인단계에서 체크섬 적용이 가능한 개인정보 유형인 경우, 체크섬으로 개인정보의 노출 여부를 진단하는 제2진단단계와; 상기 제2진단단계에서 개인정보가 노출된 것으로 진단되거나 또는 상기 체크섬 적용 확인단계에서 체크섬 적용이 불가능한 개인정보 유형인 경우, 개인정보가 노출된 것으로 판단하고, 상기 제1진단단계 또는 상기 제2진단단계에서 개인정보가 노출되지 않은 것으로 진단되는 경우, 개인정보가 노출되지 않은 것으로 판단하는 개인정보 노출 판단단계를 포함하는 것이 바람직하다.
이때, 상기 이미지 파일 수집단계 이전에는, 진단서버가 네트워크를 통해 대상서버에 접속하는 검출 개시단계가 추가 구성될 수 있을 것이다.
이와는 다르게, 상기 이미지 파일 수집단계 이전에는, 사용자 단말의 브라우저로 콘텐츠의 등록을 요청함에 따라 차단서버에 해당 콘텐츠를 전달하는 등록 요청 단계가 추가 구성되는 것이 바람직 할 것이다.
이와 함께, 상기 개인정보 노출 판단단계 이후, 개인정보가 노출된 것으로 판단하는 경우 대상서버에 콘텐츠의 등록을 차단하고, 개인정보가 노출되지 않은 것으로 판단하는 경우 대상서버에 콘텐츠의 등록을 허용하는 콘텐츠 등록 차단/허용 단계가 추가 구성되는 것이 가능하다.
그리고, 본 발명에 따른 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 시스템은, 상기 방법을 수행하는 진단서버를 포함하는 것이 좋을 것이다.
또한, 본 발명에 따른 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 시스템은, 상기 방법을 수행하는 차단서버를 포함하는 것도 가능할 것이다.
이상과 같은 본 발명은 홈페이지를 구성하고 있거나 혹은 홈페이지에 새롭게 등록되려 하는 비정형 이미지 파일로부터 개인정보의 노출 여부를 검출 및 차단할 수 있어 홈페이지에 개인정보가 노출되는 것을 방지하며, 개인정보의 노출 여부 검출 및 차단 시 시스템의 부하를 저감시킬 수 있을 뿐 아니라, 이미지 파일을 다양하게 변경하면서 반복 추출한 텍스트로부터 개인정보 노출 여부를 보다 정확하게 진단할 수 있는 발명인 것이다.
도 1은 본 발명에 따른 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 부하 저감 방법을 도시하는 개략적인 흐름도,
도 2는 본 발명에 따른 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 시스템을 도시하는 개략적인 구성도,
도 3은 본 발명에 따른 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 부하 저감 방법을 도시하는 흐름도,
도 4는 본 발명에 따른 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 부하 저감 방법에 있어서 개인정보 노출 판단단계를 상세하게 나타낸 흐름도,
도 5는 본 발명에 따른 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 부하 저감 방법에 있어서 개인정보의 검출을 도시하는 개략적인 흐름도,
도 6은 본 발명에 따른 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 부하 저감 방법에 있어서 개인정보의 차단을 도시하는 흐름도.
도 1은 본 발명에 따른 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 부하 저감 방법을 도시하는 개략적인 흐름도이며, 도 2는 본 발명에 따른 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 시스템을 도시하는 개략적인 구성도이고, 도 3은 본 발명에 따른 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 부하 저감 방법을 도시하는 흐름도이다.
그리고, 도 4는 본 발명에 따른 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 부하 저감 방법에 있어서 개인정보 노출 판단단계를 상세하게 나타낸 흐름도이며, 도 5는 본 발명에 따른 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 부하 저감 방법에 있어서 개인정보의 검출을 도시하는 개략적인 흐름도이고, 도 6은 본 발명에 따른 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 부하 저감 방법에 있어서 개인정보의 차단을 도시하는 흐름도이다.
본 발명의 실시예에서 제시되는 특정한 구조 내지 기능적 설명들은 단지 본 발명의 개념에 따른 실시예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있다. 또한 본 명세서에 설명된 실시예들에 한정되는 것으로 해석되어서는 아니 되며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경물, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
한편, 본 발명에서 제1 및/또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소들과 구별하는 목적으로만, 예컨대 본 발명의 개념에 따른 권리 범위로부터 벗어나지 않는 범위 내에서, 제1구성요소는 제2구성요소로 명명될 수 있고, 유사하게 제2구성요소는 제1구성요소로도 명명될 수 있다.
어떠한 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떠한 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 또는 "직접 접촉되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하기 위한 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 인접하는"과 "~에 직접 인접하는" 등의 표현도 마찬가지로 해석되어야 한다.
본 명세서에서 사용하는 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로서, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서 "포함한다" 또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 발명의 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 시스템 및 부하 저감 방법은 홈페이지를 구성하고 있거나 혹은 홈페이지에 새롭게 등록되려 하는 비정형 이미지 파일로부터 개인정보의 노출 여부를 검출 및 차단할 수 있어 홈페이지에 개인정보가 노출되는 것을 방지하며, 개인정보의 노출 여부 검출 및 차단 시 시스템의 부하를 저감시킬 수 있을 뿐 아니라, 이미지 파일을 다양하게 변경하면서 반복 추출한 텍스트로부터 개인정보 노출 여부를 보다 정확하게 진단할 수 있는 것을 그 기술상의 기본 특징으로 한다.
본 발명의 실시예를 첨부 도면을 참조하여 상세히 설명하면 다음과 같다.
본 발명에 따른 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 부하 저감 방법은 도 1에 도시한 바와 같이, 콘텐츠로부터 이미지 파일을 수집하는 이미지 파일 수집단계(S10)와; 상기 이미지 파일 수집단계(S10)에서 수집된 이미지 파일에 대하여 불필요한 이미지 파일 제거를 위하여 이미지 파일의 용량을 판단하여 기준 용량 이하인 이미지 파일을 삭제하고, 중복 이미지 파일 배제를 위하여 이미지 파일의 고유값을 생성하여 기존에 저장된 고유값과 비교함으로써 중복 이미지 파일에 대하여 기존에 저장된 검출결과를 로딩하는 이미지 파일 처리단계(S20)와; 상기 이미지 파일 처리단계(S20)에서 중복되지 않은 이미지 파일로부터 이미지 파일의 회전 각도, 명도, 채도를 각각 변경시키면서 텍스트를 반복 추출하여 하나의 텍스트로 통합하는 이미지 파일 보정단계(S30)와; 상기 이미지 파일 보정단계(S30)에서 통합된 텍스트에 대하여 개인정보 노출여부를 검출하는 개인정보 노출 판단단계(S40)를 포함하는 것이 바람직하다.
즉, 본 발명에 따른 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 부하 저감 방법은 도 1과 같이 크게 이미지 파일 수집단계(S10), 이미지 파일 처리단계(S20), 이미지 파일 보정단계(S30), 그리고 개인정보 노출 판단단계(S40)를 기본적으로 포함하고 있으며, 개인정보의 검출이나 차단에 따라 별도의 단계가 추가 구성될 수 있는 것이다.
이와 같은 본 발명의 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 부하 저감 방법은 도 2에 예시한 시스템에서 수행될 수 있을 것이다.
다시 말해, 본 발명은 도 2와 같이 진단서버(20)가 네트워크를 통해 대상서버(10)에 접속하여, 상기 대상서버(10)에 이미 저장되어 있는 홈페이지로부터 비정형 이미지의 개인정보 노출 여부를 검출하는 데에 이용될 수 있을 것이다.
이뿐 아니라, 본 발명은 도 2와 같이 대상서버(10)에 네트워크를 통해 접속되어 있는 사용자 단말(30)이 새로운 콘텐츠를 등록하려 할 때, 이러한 등록 요청에 따라 차단서버(40)가 등록되려 하는 콘텐츠로부터 비정형 이미지의 개인정보 노출 여부를 검출하여 차단하는 데에도 적용될 수 있는 것이다.
우선, 이미지 파일 수집단계(S10)는 개인정보 노출 여부를 검출하기 위한 대상 콘텐츠로부터 이미지 파일을 수집하게 되는 것이다.
여기에서, 콘텐츠란 다양한 형태를 포함할 수 있을 것이며, 콘텐츠에 있어서 수집 대상이 되는 비정형 이미지로는, 확장자 html, jsp, php 등을 가진 웹페이지 파일 내에 포함된 이미지와, 확장자 jpg, png, gif 등을 가진 순수 이미지 파일과, 확장자 doc, xls, ppt, hwp 등을 가진 문서 파일에 포함된 이미지 중 어느 하나일 수 있을 것이다.
즉, 본 발명에 있어서 이미지 파일 수집단계(S10)에서 수집하는 비정형 이미지 파일은 웹페이지 파일, 순수 이미지 파일, 그리고 문서 파일을 모두 포함하는 것이며, 이러한 종류의 파일들로부터 이미지를 수집하는 것이 가능한 것이다.
특히, 본 발명에 있어서 상기 이미지 파일 수집단계(S10)는 도 3에 도시한 바와 같이, 콘텐츠 유형이 웹페이지인지 판단하는 웹페이지 파일 판단단계(S11)와; 상기 웹페이지 파일 판단단계(S11)에서 콘텐츠 유형이 웹페이지인 경우, 웹페이지에 포함된 이미지 파일 링크를 통해 해당 이미지를 다운로드 하는 이미지 다운로드 단계(S12)와; 상기 웹페이지 파일 판단단계(S11)에서 콘텐츠 유형이 웹페이지가 아닌 경우, 순수 이미지 파일인지 판단하는 이미지 파일 유형 인식단계(S13)를 포함하는 것이 바람직할 것이다.
즉, 본 발명에 있어서 상기 이미지 파일 수집단계(S10)에서는 웹페이지 파일, 순수 이미지 파일, 그리고 문서 파일 등으로부터 모든 비정형 이미지 파일을 수집할 수 있게 되며, 이를 위해 웹페이지 파일 판단단계(S11), 이미지 다운로드 단계(S12), 그리고 이미지 파일 유형 인식단계(S13)를 포함하고 있다.
우선, 상술한 이미지 파일 수집단계(S10)에 있어서 웹페이지 파일 판단단계(S11)에서는 콘텐츠 유형이 웹페이지 파일인지 아니면 그 이외에 순수 이미지 파일 또는 문서 파일인지를 우선적으로 판단하게 된다.
이때, 만약 콘텐츠 유형이 확장자 html, jsp, php 등을 가지는 웹페이지 파일인 경우에는, 이미지 다운로드 단계(S12)에서 해당 웹페이지 파일 내의 이미지 링크를 통해 해당 이미지를 다운로드 하게 된다.
상기 이미지 다운로드 단계(S12)에서 다운로드 한 이미지는 확장자 jpg, png, gif 등을 가질 것이며, 이러한 이미지는 추가적인 작업 없이 이후 단계에서 텍스트를 추출하는 데에 바로 이용될 수 있을 것이다.
반면에, 상기 웹페이지 파일 판단단계(S11)에서 콘텐츠 유형이 확장자 html, jsp, php 등을 가지는 웹페이지 파일이 아닌 경우에는 이미지 파일 유형 인식단계(S13)가 진행된다.
상기 이미지 파일 유형 인식단계(S13)에서는 콘텐츠 유형이 확장자 jpg, png, gif 등으로 이루어진 순수 이미지 파일인지 아니면 그 이외에 확장자 doc, xls, ppt, hwp 등을 가진 문서 파일인지를 판단하게 되는 것이다.
상기 이미지 파일 유형 인식단계(S13)에서는 콘텐츠 유형이 확장자 jpg, png, gif 등으로 이루어진 순수 이미지 파일이라면, 이러한 순수 이미지 파일 또한 추가적인 작업 없이 이후 단계에서 텍스트를 추출하는 데에 바로 이용될 수 있을 것이다.
하지만, 상기 이미지 파일 유형 인식단계(S13)에서 콘텐츠 유형이 확장자 doc, xls, ppt, hwp 등을 가진 문서 파일인 경우에는 추후 별도의 작업 단계를 통해 해당 문서 파일로부터 이미지를 우선 추출한 후, 추출된 이미지로부터 텍스트를 추출해 낼 수 있을 것이다.
상술한 이미지 파일 수집단계(S10) 이후 이미지 파일 처리단계(S20)에서는 도 1과 같이, 상기 이미지 파일 수집단계(S10)에서 수집된 이미지 파일에 대하여 불필요한 이미지 파일 제거를 위하여 이미지 파일의 용량을 판단하여 기준 용량 이하인 이미지 파일을 삭제하고, 중복 이미지 파일 배제를 위하여 이미지 파일의 고유값을 생성하여 기존에 저장된 고유값과 비교함으로써 중복 이미지 파일에 대하여 기존에 저장된 검출결과를 로딩하게 된다.
즉, 상기 이미지 파일 처리단계(S20)에서는 상술한 이미지 파일 수집단계(S10)에서 수집된 이미지 파일의 용량이 텍스트를 추출하기에 부적합 할 정도로 작은 미리 정해 놓은 소정의 기준 용량 이하인 경우에 해당 이미지 파일을 삭제하는 것이다.
하지만, 수집된 이미지 파일의 용량이 텍스트를 추출하기에 적합할 정도로 커 기준 용량을 초과하는 경우에는 해당 이미지 파일의 고유값을 생성하게 된다.
그리고, 생성된 고유값이 이전에 저장해 놓았던 고유값과 일치하는지 여부를 비교함으로써, 해당 이미지 파일이 이전에 개인정보 노출 여부를 검출했었던 중복된 이미지 파일인지를 판단하게 된다.
만약, 중복되는 이미지 파일이라면 이후 개인정보 노출 여부를 다시 검출하지 않고, 단순히 이전에 저장해 놓은 해당 이미지 파일에 대한 개인정보 노출 여부에 대한 검출결과를 로딩하는 것이다.
이에 따라, 동일한 이미지 파일에 대하여 불필요하게 반복적으로 텍스트를 추출하여 개인정보 노출 여부를 검출하지 않도록 함으로써, 시스템의 부하를 최소화 하는 것이 가능해진다.
특히, 본 발명에 있어서 상기 이미지 파일 처리단계(S20)는 도 3에 도시한 바와 같이, 상기 이미지 파일 유형 인식단계(S13)에서 순수 이미지 파일이 아닌 경우, 문서 파일로부터 이미지 파일을 추출하는 이미지 파일 추출단계(S21)와; 이미지 파일 용량이 기준 용량 이하인지 판단하여, 이미지 파일 용량이 기준 용량 이하인 경우 해당 이미지 파일을 삭제하는 이미지 파일 용량 판단단계(S22)와; 상기 이미지 파일 용량 판단단계(S22)에서 이미지 파일 용량이 기준 용량을 초과하는 경우, 고유한 해시값을 생성하는 해시값 생성단계(S23)와; 상기 해시값 생성단계(S23)에서 생성된 해시값이 기존에 저장되어 있던 해시값과 일치하는지 비교하여, 기존에 저장되어 있던 해시값과 일치하는 경우 기존에 저장된 개인정보 검출결과를 로딩하는 해시값 비교단계(S24)를 포함하는 것이 바람직할 것이다.
즉, 본 발명에 있어서 상기 이미지 파일 처리단계(S20)는 크게 이미지 파일 추출단계(S21), 이미지 파일 용량 판단단계(S22), 해시값 생성단계(S23), 그리고 해시값 비교단계(S24)를 포함하여, 불필요한 이미지 파일을 제거하고 중복 이미지 파일을 배제하여 반복되는 이미지 파일에 대하여 개인정보 노출 여부를 다시 검출하는 것을 방지할 수 있을 것이다.
우선, 상술한 이미지 파일 수집단계(S10)의 이미지 파일 유형 인식단계(S13)에서 순수 이미지 파일이 아닌 확장자 doc, xls, ppt, hwp 등을 가진 문서 파일인 경우, 이미지 파일 처리단계(S20)의 이미지 파일 추출단계(S21)에서는 해당 문서 파일 내에 포함되어 있는 이미지 파일을 추출하게 된다.
이후, 이미지 파일 용량 판단단계(S22)에서는 상술한 이미지 다운로드 단계(S12), 이미지 파일 유형 인식단계(S13), 그리고 이미지 파일 추출단계(S21)에서 수집한 이미지 파일에 대하여 해당 이미지 파일 용량이 미리 정해 놓은 기준 용량 이하인지 판단하여, 이미지 파일 용량이 기준 용량 이하인 경우 해당 이미지 파일을 삭제하게 된다.
여기에서 기준 용량이란 이미지 파일로부터 텍스트를 추출하는 데에 요구되는 최소한의 용량으로서 예를 들어 기준 용량을 20byte로 설정할 수 있을 것이다.
만약 이미지 파일 용량이 기준 용량인 20byte 이하인 경우, 해당 이미지 파일의 해상도도 낮을 것이며, 이와 같은 낮은 해상도로 인하여 텍스트를 추출할 수 없다고 판단하여 해당 이미지 파일에 대하여 이후 단계로 진행하지 않고 단순히 해당 이미지 파일을 삭제하는 것이다.
위에서는 이미지 파일을 삭제하는 기준 용량으로 20byte를 예시하였지만, 이러한 기준 용량은 관리자가 예를 들어 10byte 혹은 30byte 등 다양하게 변경 설정할 수 있도록 되어 있으면 좋을 것이다.
상술한 이미지 파일 용량 판단단계(S22)에서 이미지 파일 용량이 예를 들어 기준 용량을 초과하는 경우에는, 해시값 생성단계(S23)가 시작되며, 상기 해시값 생성단계(S23)에 있어서는 해당 이미지 파일에 대하여 고유한 해시값을 생성하게 된다.
즉, 수집된 이미지 파일을 시스템이 다운로드 하여 저장함에 따라 해시값(Hash Value)이 생성되며, 여기에서 해시값은 복사된 디지털 증거의 동일성을 입증하기 위해 파일 특성을 축약한 암호 같은 고유한 수치로서, 일반적으로 파일의 동일 여부를 확인하는 과정에서 '디지털 증거의 지문'으로 통하는 것이다.
따라서, 해당 이미지 파일로부터 고유값인 해시값이 새롭게 생성되면, 이후 해시값 비교단계(S24)에서는 해당 이미지 파일에 대하여 새롭게 생성된 해시값이 시스템 상에 저장되어 있던 기존의 해시값과 동일한지 여부를 판단하게 된다.
이를 통해, 해당 이미지 파일이 이전에 개인정보 노출 여부에 대한 검출에 사용되었는지에 대한 이력을 확인할 수 있는 것이다.
그 결과, 생성된 해시값과 기존의 해시값이 동일한 경우에는 해당 이미지 파일이 기존에 다운로드 한 이미지 파일과 동일한 것으로 판단하는 것이다.
따라서, 해당 이미지 파일에 대하여 다시 개인정보 노출 여부에 대한 검출을 하지 않고, 이전에 저장해 놓은 개인정보 노출 여부에 대한 검출 결과 데이터를 로딩하는 것이다.
이에 따라, 동일한 이미지 파일에 대하여 반복적으로 개인정보 노출 여부에 대한 검출을 실시하지 않을 수 있음으로써, 진단서버(20)에 대한 부하를 최소화 하는 것이 가능해질 수 있는 것이다.
상술한 이미지 파일 처리단계(S20)가 완료되면, 이후 도 1과 같이 이미지 파일 보정단계(S30)가 시작된다.
본 발명에 있어서 상기 이미지 파일 보정단계(S30)는 상기 이미지 파일 처리단계(S20)에서 중복되지 않은 것으로 판단된 이미지 파일에 대하여 회전 각도, 명도, 채도를 각각 변경시키면서 텍스트를 반복 추출하여 하나의 텍스트로 통합하게 된다.
위에서는 이미지 파일의 회전 각도, 명도, 채도를 이미지 특성의 예로 들었지만, 그 이외에도 이미지 파일의 다양한 특성을 추가로 채택하여 적용하는 것도 가능할 것이다.
특히, 본 발명에 있어서 상기 이미지 파일 보정단계(S30)는 도 3에 도시한 바와 같이, 상기 해시값 비교단계(S24)에서 해시값이 기존에 저장되어 있던 해시값과 일치하지 않는 경우, 이미지 파일로부터 OCR을 이용하여 텍스트를 추출하는 제1텍스트 추출단계(S31)와; 상기 이미지 파일을 기준 회전 각도 단위로 회전시키면서 OCR을 이용하여 텍스트를 반복 추출하는 제2텍스트 추출단계(S32)와; 상기 이미지 파일의 채도를 고정시킨 상태에서 명도를 변경시키면서 OCR을 이용하여 텍스트를 반복 추출하는 제3텍스트 추출단계(S33)와; 상기 이미지 파일의 명도를 고정시킨 상태에서 채도를 변경시키면서 OCR을 이용하여 텍스트를 반복 추출하는 제4텍스트 추출단계(S34)와; 상기 제1 내지 제4텍스트 추출단계(S31~S34)에서 추출된 텍스트를 취합하여 하나의 텍스트로 통합하는 텍스트 통합단계(S35)를 포함하는 것이 양호할 것이다.
즉, 본 발명에 있어서 상기 이미지 파일 보정단계(S30)는 제1 내지 제4텍스트 추출단계(S31~S34)와 텍스트 통합단계(S35)를 포함할 수 있을 것이다.
우선, 상기 이미지 파일 처리단계(S20)의 해시값 비교단계(S24)에서 해시값이 기존에 저장되어 있던 해시값과 일치하지 않은 것으로 판단되어, 중복 이미지 파일이 아니라고 판단된 경우에는, 이미지 파일 보정단계(S30)의 제1텍스트 추출단계(S31)가 시작된다.
상기 제1텍스트 추출단계(S31)에서는 별도로 이미지 파일의 특성을 변경하지 않고 해당 이미지 파일로부터 OCR을 이용하여 텍스트를 추출하는 것이다.
여기에서 OCR이란 일반적으로 빛을 이용해 문자를 판독하는 것으로, 종이에 인쇄되거나 손으로 쓴 문자, 기호, 마크 등에 빛을 비추어 그 반사 광선을 전기 신호로 바꾸어 입력하는 것을 의미한다.
하지만, 본 발명에 있어서 OCR은 이미 생성되어 있는 이미지 파일로부터 텍스트를 추출해 내는 것을 의미하는 것이다.
즉, 본 발명에 있어서 상기 이미지 파일 보정단계(S30)의 제1 내지 제4텍스트 추출단계(S31~S34)에서는 OCR을 이용하여 이미지 파일로부터도 텍스트를 추출하게 되는 것이다.
이와 같이 제1텍스트 추출단계(S31)에서 추출된 텍스트는 로그 파일이나 또는 시스템에 마련된 별도의 임시 저장 공간에 저장해 놓을 수 있을 것이다.
상기 제1텍스트 추출단계(S31) 이후 제2텍스트 추출단계(S32)에서는 상기 이미지 파일을 기준 회전 각도 단위로 회전시키면서 OCR을 이용하여 텍스트를 반복 추출하게 된다.
이때, 이미지 파일의 회전 각도는 예를 들어 초기 상태 0도를 기준으로 하여 360도에 이르기까지 미리 정해 놓은 기준 회전 각도로 반복 회전시키면서 이미지 파일로부터 텍스트를 추출해 내는 것이 가능할 것이다.
여기에서, 미리 정해진 기준 회전 각도는 360의 약수로 이루어진 각도가 될 수 있을 것이며, 예를 들어 1도, 5도, 10도, 20도, 30도, 45도, 60도, 90도, 120도 등이 될 수 있을 것이다.
여기에서, 기준 회전 각도를 작게 설정할수록 텍스트 추출 정확도를 높일 수 있을 것이며, 반대로 기준 회전 각도를 크게 설정할수록 시스템에 대한 부하를 저감시킬 수 있을 것이다.
즉, 본 발명은 진단서버(20)의 부하 저감에 초점이 맞춰져 있으므로 가급적 기준 회전 각도를 크게 설정하는 것이 바람직할 것이지만, 이에 국한되지 않고 필요에 따라서 관리자가 기준 회전 각도를 변경 설정할 수 있도록 하는 것이 좋다.
예를 들어, 기준 회전 각도를 90도로 설정한 경우에는 상기 이미지 파일을 90도 회전시킨 상태에서 OCR을 실시하여 추출된 텍스트는 로그 파일이나 시스템에 마련된 별도의 임시 저장 공간에 저장해 놓을 수 있을 것이다.
이와 마찬가지로, 기준 회전 각도 90도를 더 회전시켜, 초기 각도로부터 180도 회전시킨 상태에서 OCR을 실시하여 추출된 텍스트와, 추가로 기준 회전 각도 90도를 더 회전시켜, 초기 각도로부터 270도 회전시킨 상태에서 OCR을 실시하여 추출된 텍스트는 로그 파일이나 시스템에 마련된 별도의 임시 저장공간에 저장해 놓는 것이 가능할 것이다.
예를 들어, 회전 각도 0도 및 360도에서 이미지 파일로부터 추출된 텍스트는 상술한 제1텍스트 추출단계(S31)에서 추출한 텍스트와 동일할 것이므로, 이에 대하여 불필요하게 반복적인 텍스트 추출이 제한되도록 하는 것이 좋을 것이다.
상술한 제2텍스트 추출단계(S32) 이후 제3텍스트 추출단계(S33)에서는, 상기 이미지 파일의 채도를 고정시킨 상태에서 명도를 변경시키면서 OCR을 이용하여 텍스트를 반복 추출하게 된다.
이때에도 이미지에 대한 명도가 0에서부터 100이라는 수치로 한정된다 하였을 때, 명도 0으로부터 100에 이르기까지 명도 증가치 만큼 명도를 증가시키면서 반복적으로 OCR을 통해 텍스트를 추출할 수 있을 것이다.
여기에서, 명도 증가치는 100의 약수로 이루어진 수치로서, 예를 들어 1, 2, 5, 10, 20, 50 등이 될 수 있을 것이다.
이때에도 마찬가지로, 명도 증가치를 작게 설정할수록 텍스트 추출 정확도를 높일 수 있을 것이며, 반대로 명도 증가치를 크게 설정할수록 시스템에 대한 부하를 저감시킬 수 있을 것이다.
예를 들어 명도 증가치를 20이라 한다면, 명도 0, 20, 40, 60, 80, 그리고 100에서 각각 OCR에 의한 텍스트 추출이 반복적으로 이루어지고, 추출된 텍스트는 명도에 따라 로그 파일이나 시스템의 임시 저장 공간에 저장될 수 있을 것이다.
그리고, 제3텍스트 추출단계(S33) 이후의 제4텍스트 추출단계(S34)에서는 상술한 제3텍스트 추출단계(S33)와는 반대로, 명도를 고정시킨 상태에서 채도를 반복적으로 변경시키면서 OCR을 이용하여 텍스트를 반복 추출하게 된다.
이때 이미지에 대한 채도가 0에서부터 100이라는 수치로 한정된다 하였을 때, 채도 0으로부터 100에 이르기까지 채도 증가치 만큼 채도를 증가시키면서 반복적으로 OCR을 통해 텍스트를 추출할 수 있을 것이다.
여기에서, 채도 증가치 또한 100의 약수로 이루어진 수치로서, 예를 들어 1, 2, 5, 10, 20, 50 등이 될 수 있을 것이다.
이때에도, 예를 들어 채도 증가치를 20이라 한다면, 채도 0, 20, 40, 60, 80, 그리고 100에서 각각 OCR에 의한 텍스트 추출이 반복적으로 이루어지고, 추출된 텍스트는 채도에 따라 로그 파일이나 시스템의 임시 저장 공간에 저장될 수 있을 것이다.
위에서는 설명의 편의를 위해 제1 내지 제4텍스트 추출단계(S31~S34)를 순차적으로 기재하였으나, 필요에 따라서 각각의 추출단계 순서를 적절하게 변경하여 텍스트 추출을 실시할 수도 있음은 자명할 것이다.
상술한 제1 내지 제4텍스트 추출단계(S31~S34)를 통해서 반복적으로 추출된 텍스트는 텍스트 통합단계(S35)에서 취합되어 하나의 텍스트로 통합된다.
이때, 텍스트의 통합은 상술한 제1 내지 제4텍스트 추출단계(S31~S34)에서 추출된 텍스트에 대한 빈도수 및 통일성에 의해 결정될 수 있을 것이다.
상술한 바와 같이 이미지 파일 보정단계(S30)를 통해 이미지 파일로부터 추출된 텍스트를 하나로 통합하면, 이후 개인정보 노출 판단단계(S40)에서는 도 1과 같이 통합된 텍스트에 대하여 개인정보 노출여부를 검출하게 된다.
즉, 개인정보 노출 판단단계(S40)에서는 추출된 텍스트에 대하여 개인정보가 노출되어 있는지 여부를 검출하게 되며, 이러한 개인정보 노출 여부의 검출은 정규표현식이나 체크섬이 사용될 수 있을 것이다.
특히, 본 발명에 있어서 개인정보 노출 판단단계(S40)는 도 4에 도시한 바와 같이, 상기 이미지 파일 보정단계(S30)에서 추출된 텍스트에 대하여 정규표현식으로 개인정보의 노출 여부를 진단하는 제1진단단계(S41)와; 상기 제1진단단계(S41)에서 개인정보가 노출된 것으로 진단된 경우, 노출된 개인정보에 대하여 체크섬 적용이 가능한 개인정보 유형인지 확인하는 체크섬 적용 확인단계(S42)와; 상기 체크섬 적용 확인단계(S42)에서 체크섬 적용이 가능한 개인정보 유형인 경우, 체크섬으로 개인정보의 노출 여부를 진단하는 제2진단단계(S43)와; 상기 제2진단단계(S43)에서 개인정보가 노출된 것으로 진단되거나 또는 상기 체크섬 적용 확인단계(S42)에서 체크섬 적용이 불가능한 개인정보 유형인 경우, 개인정보가 노출된 것으로 판단하고, 상기 제1진단단계(S41) 또는 상기 제2진단단계(S43)에서 개인정보가 노출되지 않은 것으로 진단되는 경우, 개인정보가 노출되지 않은 것으로 판단하는 개인정보 노출 판단단계(S44)를 포함하는 것이 바람직하다.
즉, 상술한 이미지 파일 보정단계(S30) 이후, 개인정보 노출 판단단계(S40)의 제1진단단계(S41)에서는 상기 이미지 파일 보정단계(S30)에서 추출하여 통합된 텍스트에 대하여 정규표현식으로 개인정보의 노출 여부를 먼저 진단하게 된다.
여기에서 정규표현식이란, 특정 규칙을 가진 문자열의 집합을 의미하는 것이다.
정규표현식으로 개인정보의 노출 여부를 진단함에 있어서, 주민등록번호의 경우 정규표현식은 예를 들어 "-"를 포함하여 13자리의 숫자로 구성되며, 앞의 6자리 숫자는 생년월일을, 그리고 뒤의 7자리 숫자는 성별과 지역코드, 그리고 체크섬 검증번호로 이루어져 있는 것이다.
그리고, 외국인등록번호는 상술한 주민등록번호와 동일한 형식으로 구성되지만, 뒤의 7자리 숫자는 성별과, 등록기관번호, 일련번호, 등록자구분, 체크섬 검증번호로 이루어진 것에 차이가 있을 뿐이다.
또한, 신용카드번호의 경우 정규표현식은 일부 15자리의 숫자로 구성되는 경우도 있지만, 이를 제외하고는 통상적으로 3개의 "-"를 포함하여 4자리씩 16자리의 숫자로 구성되어 있다.
이때, 앞의 6자리 숫자는 BIN(Bank Identifier Number)으로 카드 발급처 및 발급기간의 식별이 가능하며, 이후 9자리의 숫자는 카드사에서 부여한 임의의 숫자이고, 마지막 자리의 숫자는 체크섬 검증번호로 이루어져 있는 것이다.
위에 설명한 주민/외국인 등록번호와 신용카드번호 이외에 여권번호, 운전면허번호, 전화번호, 이메일 주소, 계좌번호, 건강보험번호에 대해서도 정규표현식으로 개인정보의 노출을 진단하게 된다.
상술한 바와 같이 제1진단단계(S41)에서 정규표현식으로 개인정보의 노출 여부를 진단한 결과, 개인정보가 노출된 것으로 진단되는 경우에는 이후의 체크섬 적용 확인단계(S42)가 시작된다.
이 체크섬 적용 확인단계(S42)에서는 이미지 파일에 노출된 개인정보에 대하여 체크섬 적용이 가능한 개인정보 유형인지 확인하게 된다.
여기에서 체크섬(checksum)이란 데이터의 특정 자릿수에 소정의 규칙이 적용된 숫자를 배치시키는 것을 의미한다.
즉, 상기 체크섬 적용 확인단계(S42)에서는 상기 제1진단단계(S41)에서 개인정보가 노출된 것으로 진단된 개인정보가 주민/외국인 등록번호나 신용카드번호와 같이 체크섬이 적용되어 있는 개인정보 유형인지 확인하게 되는 것이다.
이러한 체크섬 적용 확인단계(S42)에서 체크섬 적용이 가능한 개인정보 유형인 경우에는, 제2진단단계(S43)에서 체크섬으로 개인정보의 노출 여부를 다시 한 번 진단하게 된다.
이와 같이 제2진단단계(S43)에서 체크섬으로 개인정보의 노출 여부를 진단하는 경우, 개인정보 노출 여부에 대한 진단 오탐율은 대략 1/10로 줄어들게 될 것이다.
상술한 제2진단단계(S43) 이후 개인정보 노출 판단단계(S44)에서는 개인정보가 노출된 것으로 판단하거나 노출되지 않은 것으로 판단하는 2가지 판단으로 구분될 수 있을 것이다.
우선, 상기 제2진단단계(S43)에서 개인정보가 노출된 것으로 진단되거나 또는 상기 체크섬 적용 확인단계(S42)에서 체크섬 적용이 불가능한 개인정보 유형인 경우에는 개인정보가 노출된 것으로 판단하게 된다.
이에 반해, 상기 제1진단단계(S41) 또는 상기 제2진단단계(S43)에서 개인정보가 노출되지 않은 것으로 진단되는 경우에는 개인정보가 노출되지 않은 것으로 판단하게 되는 것이다.
이와 같이 이미지 파일에 개인정보가 노출되지 않은 것으로 판단하는 경우에는, 해당 이미지 파일에는 개인정보가 노출되지 않은 것을 별도의 로그 파일에 저장할 수도 있을 것이다.
하지만, 앞서 설명한 바와 같이 개인정보 노출 여부에 대한 판단 결과를 별도의 로그 파일에 저장하는 것 이외에 이미지 파일에는 개인정보가 노출되어 있지 않음을 출력장치로 출력시키는 등 별도의 추가 작업이 수행될 수 있음은 자명할 것이다.
상술한 바와 같이 구성되는 본 발명의 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 부하 저감 방법은, 홈페이지를 이미 구성하고 있는 비정형 이미지 파일로부터 개인정보의 노출 여부를 검출하는 데에 사용될 수 있을 것이다.
이러한 경우에는 본 발명에 있어서 도 5에 예시한 바와 같이, 상기 이미지 파일 수집단계(S10) 이전에는, 진단서버(20)가 네트워크를 통해 대상서버(10)에 접속하는 검출 개시단계(S00)가 추가 구성될 수 있을 것이다.
즉, 도 2에 도시한 바와 같이 진단서버(20)가 주체가 되어 네트워크를 통해 대상서버(10)에 접속함으로써, 상술한 본 발명의 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 부하 저감 방법을 실시할 수 있을 것이다.
따라서, 이와 같이 진단서버(20)가 주체가 되어 대상서버(10)에 저장되어 있어 홈페이지를 구성하는 비정형 이미지 파일을 추출하여 개인정보의 노출 여부를 진단하여 검출하는 것이 가능해진다.
이때에는, 본 발명의 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 시스템이 상술한 방법을 수행하는 진단서버(20)를 포함하는 것으로써 달성될 수 있을 것이다.
이와 다르게, 상술한 바와 같이 구성되는 본 발명의 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 부하 저감 방법은, 홈페이지에 새롭게 등록되려 하는 비정형 이미지 파일로부터 개인정보의 노출 여부를 검출하여 차단하는 데에도 사용될 수 있을 것이다.
이러한 경우에는, 본 발명에 있어서 도 6에 도시한 바와 같이, 상기 이미지 파일 수집단계(S10) 이전에는, 사용자 단말(30)의 브라우저로 콘텐츠의 등록을 요청함에 따라 차단서버(40)에 해당 콘텐츠를 전달하는 등록 요청 단계(S05)가 추가 구성되는 것이 바람직할 것이다.
이때에는, 도 2에 예시한 차단서버(40)가 주체가 되어 사용자 단말(30)로부터 등록 요청된 콘텐츠에 포함되어 있는 비정형 이미지 파일을 추출하여 개인정보의 노출 여부를 진단하여 차단하는 것이 가능해진다.
이러한 차단은 프록시 방식에 의한 것이 바람직할 것이며, 대상서버(10)에 네트워크를 통해 접속된 사용자 단말(30)에서 게시글인 콘텐츠를 작성한 후, 예를 들어 등록 버튼을 클릭함에 따라, 해당 콘텐츠가 대상서버(10)로 전송되기 전에 별도의 차단서버(40)로 보내게 되며, 이 차단서버(40)에서는 해당 콘텐츠에 개인정보가 포함되어 있는지를 검출하여, 그 결과에 따라 해당 콘텐츠의 등록을 차단하거나 혹은 허용할 수 있게 된다.
이 경우, 본 발명에 있어서 상기 개인정보 노출 판단단계(S40) 이후 도 6에 도시한 바와 같이, 개인정보가 노출된 것으로 판단하는 경우 대상서버(10)에 콘텐츠의 등록을 차단하고, 개인정보가 노출되지 않은 것으로 판단하는 경우 대상서버(10)에 콘텐츠의 등록을 허용하는 콘텐츠 등록 차단/허용 단계(S50)가 추가 구성될 수 있을 것이다.
즉, 콘텐츠 등록 차단/허용 단계(S50)에서는 개인정보 노출 판단단계(S40)에서 개인정보 노출 여부를 판단한 기준에 따라, 새롭게 등록되려 하는 콘텐츠에 대하여 차단서버(40)가 대상서버(10)에 등록을 차단할 것인지 아니면 허용할 것인지를 판단하게 되는 것이다.
따라서, 본 발명에 따른 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 시스템은 상술한 방법을 수행하는 차단서버(40)를 포함하는 것으로 달성될 수 있을 것이다.
이와 더불어, 상술한 차단서버(40)가 새롭게 등록되려 하는 컨텐츠에 대하여 개인정보의 노출 여부를 검출하여 차단할 때까지 소요되는 시간이 미리 정해 놓은 기준 시간, 예를 들어 5초를 초과하는 경우에는 해당 컨텐츠에 대한 개인정보 노출 여부 검출 및 차단을 일시적으로 멈추는 대기모드가 시작될 수도 있을 것이다.
이 대기모드에서 개인정보가 노출된 것으로 최종 검출될 경우 비공개 저장공간으로 이동시키거나, 혹은 해당 컨텐츠를 삭제하는 것도 가능할 것이다.
이와 같은, 대기모드는, 전술한 진단서버(20)가 대상서버(10)에 저장되어 있는 콘텐츠에 대하여 개인정보가 노출되어 있는지 여부를 검출할 때에는 필요하지 않을 수 있지만, 후술한 차단서버(40)가 콘텐츠의 등록 요청을 받아 개인정보의 노출 여부를 검출하여 차단하고자 할 때에는 새로운 콘텐츠를 등록하려 하는 사용자에게 실시간으로 응답을 주기 위한 것이다.
따라서, 본 발명에 따른 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 시스템 및 그 부하 저감 방법은 홈페이지를 구성하고 있거나 혹은 홈페이지에 새롭게 등록되려 하는 비정형 이미지 파일로부터 개인정보의 노출 여부를 검출 및 차단할 수 있어 홈페이지에 개인정보가 노출되는 것을 방지하며, 개인정보의 노출 여부 검출 및 차단 시 시스템의 부하를 저감시킬 수 있을 뿐 아니라, 이미지 파일을 다양하게 변경하면서 반복 추출한 텍스트로부터 개인정보 노출 여부를 보다 정확하게 진단할 수 있다는 탁월한 이점을 지닌 발명인 것이다.
지금까지 웹페이지 파일의 확장자로 html, jsp, php 등을 예시하고, 이미지 파일의 확장자로 jpg, png, gif 등을 예시하고, 문서 파일의 확장자로 doc, xls, ppt, hwp 등을 예시하여 설명하였지만, 이에 국한되는 것은 아니며, 기타 다양한 확장자의 웹페이지 파일, 이미지 파일, 그리고 문서 파일이 적용될 수 있음은 자명할 것이다.
상기 실시예는 본 발명의 기술적 사상을 구체적으로 설명하기 위한 일례로서, 본 발명의 범위는 상기의 도면이나 실시예에 한정되지 않는다.
10 : 대상서버 20 : 진단서버
30 : 사용자 단말 40 : 차단서버
S00 : 검출 개시단계 S05 : 등록 요청 단계
S10 : 이미지 파일 수집단계 S11 : 웹페이지 파일 판단단계
S12 : 이미지 다운로드 단계 S13 : 이미지 파일 유형 인식단계
S20 : 이미지 파일 처리단계 S21 : 이미지 파일 추출단계
S22 : 이미지 파일 용량 판단단계 S23 : 해시값 생성단계
S24 : 해시값 비교단계 S30 : 이미지 파일 보정단계
S31 : 제1텍스트 추출단계 S32 : 제2텍스트 추출단계
S33 : 제3텍스트 추출단계 S34 : 제4텍스트 추출단계
S35 : 텍스트 통합단계 S40 : 개인정보 노출 판단단계
S41 : 제1진단단계 S42 : 체크섬 적용 확인단계
S43 : 제2진단단계 S44 : 개인정보 노출 판단단계
S50 : 콘텐츠 등록 차단/허용 단계

Claims (10)

  1. 삭제
  2. 콘텐츠로부터 이미지 파일을 수집하는 이미지 파일 수집단계와;
    상기 이미지 파일 수집단계에서 수집된 이미지 파일에 대하여 불필요한 이미지 파일 제거를 위하여 이미지 파일의 용량을 판단하여 기준 용량 이하인 이미지 파일을 삭제하고, 중복 이미지 파일 배제를 위하여 이미지 파일의 고유값을 생성하여 기존에 저장된 고유값과 비교함으로써 중복 이미지 파일에 대하여 기존에 저장된 검출결과를 로딩하는 이미지 파일 처리단계와;
    상기 이미지 파일 처리단계에서 중복되지 않은 이미지 파일로부터 이미지 파일의 회전 각도, 명도, 채도를 각각 변경시키면서 텍스트를 반복 추출하여 하나의 텍스트로 통합하는 이미지 파일 보정단계와;
    상기 이미지 파일 보정단계에서 통합된 텍스트에 대하여 개인정보 노출여부를 검출하는 개인정보 노출 판단단계를 포함하되;
    상기 이미지 파일 수집단계는;
    콘텐츠 유형이 웹페이지인지 판단하는 웹페이지 파일 판단단계와;
    상기 웹페이지 파일 판단단계에서 콘텐츠 유형이 웹페이지인 경우, 웹페이지에 포함된 이미지 파일 링크를 통해 해당 이미지를 다운로드 하는 이미지 다운로드 단계와;
    상기 웹페이지 파일 판단단계에서 콘텐츠 유형이 웹페이지가 아닌 경우, 순수 이미지 파일인지 판단하는 이미지 파일 유형 인식단계를 포함하는 것을 특징으로 하는 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 부하 저감 방법.
  3. 콘텐츠로부터 이미지 파일을 수집하는 이미지 파일 수집단계와;
    상기 이미지 파일 수집단계에서 수집된 이미지 파일에 대하여 불필요한 이미지 파일 제거를 위하여 이미지 파일의 용량을 판단하여 기준 용량 이하인 이미지 파일을 삭제하고, 중복 이미지 파일 배제를 위하여 이미지 파일의 고유값을 생성하여 기존에 저장된 고유값과 비교함으로써 중복 이미지 파일에 대하여 기존에 저장된 검출결과를 로딩하는 이미지 파일 처리단계와;
    상기 이미지 파일 처리단계에서 중복되지 않은 이미지 파일로부터 이미지 파일의 회전 각도, 명도, 채도를 각각 변경시키면서 텍스트를 반복 추출하여 하나의 텍스트로 통합하는 이미지 파일 보정단계와;
    상기 이미지 파일 보정단계에서 통합된 텍스트에 대하여 개인정보 노출여부를 검출하는 개인정보 노출 판단단계를 포함하되;
    상기 이미지 파일 처리단계는;
    상기 이미지 파일 유형 인식단계에서 순수 이미지 파일이 아닌 경우, 문서 파일로부터 이미지 파일을 추출하는 이미지 파일 추출단계와;
    이미지 파일 용량이 기준 용량 이하인지 판단하여, 이미지 파일 용량이 기준 용량 이하인 경우 해당 이미지 파일을 삭제하는 이미지 파일 용량 판단단계와;
    상기 이미지 파일 용량 판단단계에서 이미지 파일 용량이 기준 용량을 초과하는 경우, 고유한 해시값을 생성하는 해시값 생성단계와;
    상기 해시값 생성단계에서 생성된 해시값이 기존에 저장되어 있던 해시값과 일치하는지 비교하여, 기존에 저장되어 있던 해시값과 일치하는 경우 기존에 저장된 개인정보 검출결과를 로딩하는 해시값 비교단계를 포함하는 것을 특징으로 하는 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 부하 저감 방법.
  4. 제3항에 있어서, 상기 이미지 파일 보정단계는;
    상기 해시값 비교단계에서 해시값이 기존에 저장되어 있던 해시값과 일치하지 않는 경우, 이미지 파일로부터 OCR을 이용하여 텍스트를 추출하는 제1텍스트 추출단계와;
    상기 이미지 파일을 기준 회전 각도 단위로 회전시키면서 OCR을 이용하여 텍스트를 반복 추출하는 제2텍스트 추출단계와;
    상기 이미지 파일의 채도를 고정시킨 상태에서 명도를 변경시키면서 OCR을 이용하여 텍스트를 반복 추출하는 제3텍스트 추출단계와;
    상기 이미지 파일의 명도를 고정시킨 상태에서 채도를 변경시키면서 OCR을 이용하여 텍스트를 반복 추출하는 제4텍스트 추출단계와;
    상기 제1 내지 제4텍스트 추출단계에서 추출된 텍스트를 취합하여 하나의 텍스트로 통합하는 텍스트 통합단계를 포함하는 것을 특징으로 하는 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 부하 저감 방법.
  5. 콘텐츠로부터 이미지 파일을 수집하는 이미지 파일 수집단계와;
    상기 이미지 파일 수집단계에서 수집된 이미지 파일에 대하여 불필요한 이미지 파일 제거를 위하여 이미지 파일의 용량을 판단하여 기준 용량 이하인 이미지 파일을 삭제하고, 중복 이미지 파일 배제를 위하여 이미지 파일의 고유값을 생성하여 기존에 저장된 고유값과 비교함으로써 중복 이미지 파일에 대하여 기존에 저장된 검출결과를 로딩하는 이미지 파일 처리단계와;
    상기 이미지 파일 처리단계에서 중복되지 않은 이미지 파일로부터 이미지 파일의 회전 각도, 명도, 채도를 각각 변경시키면서 텍스트를 반복 추출하여 하나의 텍스트로 통합하는 이미지 파일 보정단계와;
    상기 이미지 파일 보정단계에서 통합된 텍스트에 대하여 개인정보 노출여부를 검출하는 개인정보 노출 판단단계를 포함하되;
    상기 개인정보 노출 판단단계는;
    상기 이미지 파일 보정단계에서 추출된 텍스트에 대하여 정규표현식으로 개인정보의 노출 여부를 진단하는 제1진단단계와;
    상기 제1진단단계에서 개인정보가 노출된 것으로 진단된 경우, 노출된 개인정보에 대하여 체크섬 적용이 가능한 개인정보 유형인지 확인하는 체크섬 적용 확인단계와;
    상기 체크섬 적용 확인단계에서 체크섬 적용이 가능한 개인정보 유형인 경우, 체크섬으로 개인정보의 노출 여부를 진단하는 제2진단단계와;
    상기 제2진단단계에서 개인정보가 노출된 것으로 진단되거나 또는 상기 체크섬 적용 확인단계에서 체크섬 적용이 불가능한 개인정보 유형인 경우, 개인정보가 노출된 것으로 판단하고, 상기 제1진단단계 또는 상기 제2진단단계에서 개인정보가 노출되지 않은 것으로 진단되는 경우, 개인정보가 노출되지 않은 것으로 판단하는 개인정보 노출 판단단계를 포함하는 것을 특징으로 하는 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 부하 저감 방법.
  6. 제2항, 제3항, 제5항 중 어느 한 항에 있어서, 상기 이미지 파일 수집단계 이전에는, 진단서버가 네트워크를 통해 대상서버에 접속하는 검출 개시단계가 추가 구성되는 것을 특징으로 하는 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 부하 저감 방법.
  7. 제2항, 제3항, 제5항 중 어느 한 항에 있어서, 상기 이미지 파일 수집단계 이전에는, 사용자 단말의 브라우저로 콘텐츠의 등록을 요청함에 따라 차단서버에 해당 콘텐츠를 전달하는 등록 요청 단계가 추가 구성되는 것을 특징으로 하는 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 부하 저감 방법.
  8. 제7항에 있어서, 상기 개인정보 노출 판단단계 이후, 개인정보가 노출된 것으로 판단하는 경우 대상서버에 콘텐츠의 등록을 차단하고, 개인정보가 노출되지 않은 것으로 판단하는 경우 대상서버에 콘텐츠의 등록을 허용하는 콘텐츠 등록 차단/허용 단계가 추가 구성되는 것을 특징으로 하는 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 부하 저감 방법.
  9. 제6항의 방법을 수행하는 진단서버를 포함하는 것을 특징으로 하는 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 시스템.
  10. 제8항의 방법을 수행하는 차단서버를 포함하는 것을 특징으로 하는 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 시스템.
KR1020180147636A 2018-11-26 2018-11-26 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 시스템 및 그 부하 저감 방법 KR102134210B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180147636A KR102134210B1 (ko) 2018-11-26 2018-11-26 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 시스템 및 그 부하 저감 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180147636A KR102134210B1 (ko) 2018-11-26 2018-11-26 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 시스템 및 그 부하 저감 방법

Publications (2)

Publication Number Publication Date
KR20200061858A KR20200061858A (ko) 2020-06-03
KR102134210B1 true KR102134210B1 (ko) 2020-07-15

Family

ID=71087752

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180147636A KR102134210B1 (ko) 2018-11-26 2018-11-26 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 시스템 및 그 부하 저감 방법

Country Status (1)

Country Link
KR (1) KR102134210B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210144460A (ko) 2020-05-22 2021-11-30 주식회사 엘지에너지솔루션 배터리 팩
KR102604576B1 (ko) * 2023-03-09 2023-11-21 주식회사 스파이스웨어 웹 환경 상에서 개인정보 유노출 방지를 위한 모니터링 장치, 방법 및 컴퓨터 프로그램

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009295104A (ja) * 2008-06-09 2009-12-17 Fujifilm Corp ウェブサイト検索装置、画像情報収集サーバ、及びウェブサイト検索方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100714393B1 (ko) * 2005-09-16 2007-05-07 삼성전자주식회사 텍스트 추출 기능을 갖는 호스트 장치 및 그의 텍스트 추출방법
KR100791552B1 (ko) * 2006-02-03 2008-01-03 주식회사 위더스정보 스팸 게시물 차단 시스템 및 그 운영방법
KR101430175B1 (ko) * 2011-09-23 2014-08-14 한전케이디엔주식회사 개인정보 유출 검색 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009295104A (ja) * 2008-06-09 2009-12-17 Fujifilm Corp ウェブサイト検索装置、画像情報収集サーバ、及びウェブサイト検索方法

Also Published As

Publication number Publication date
KR20200061858A (ko) 2020-06-03

Similar Documents

Publication Publication Date Title
JP4972320B2 (ja) 単一ユーザパラダイムにおける複数の識別標識、識別機構、および識別提供者を統合する方法およびシステム
US10447766B2 (en) Information sharing method and system
US20140279519A1 (en) Method and system for obtaining and using identification information
US20090234764A1 (en) Systems and methods for biometric authentication of monetary fund transfer
US20190109837A1 (en) Systems and methods of user authentication for data services
JP2016537721A (ja) 人の生体特徴を利用した本人認証
JP2016508633A (ja) ユーザ認証を実行させる方法、コンピュータ・プログラム、およびコンピュータ・システム
CN109214159B (zh) 一种用于终端人脸识别云服务的用户信息保护系统和方法
CN109993524A (zh) 卡券管理方法、装置、设备及计算机可读存储介质
KR102134210B1 (ko) 홈페이지 내 비정형 이미지 파일의 개인정보 검출/차단 시스템 및 그 부하 저감 방법
CN108985092A (zh) 提交请求的过滤方法、装置、电子设备和存储介质
CN110888838A (zh) 基于对象存储的请求处理方法、装置、设备及存储介质
CN106550031A (zh) 数据备份的方法及装置
CN110032846B (zh) 身份数据的防误用方法及装置、电子设备
CN110474911A (zh) 终端可信性识别方法、装置、设备与计算机可读存储介质
CN107819748B (zh) 一种抗破解的验证码实现方法及装置
KR102101456B1 (ko) 문서 파일 및 비정형 이미지 파일에서의 개인정보 노출 여부 진단에 대한 오탐율 저감 방법
KR101841928B1 (ko) 문서를 오프라인으로 발행하며, 발행된 오프라인 문서에 대한 인증을 수행하는 방법 및 이를 이용한 서버
US11899770B2 (en) Verification method and apparatus, and computer readable storage medium
CN106790181A (zh) 电子病历文件的验证方法、服务器和终端设备
CN112148545B (zh) 嵌入式系统的安全基线检测方法以及安全基线检测系统
CN111784355B (zh) 一种基于边缘计算的交易安全性验证方法及装置
CN109002710A (zh) 一种检测方法、装置及计算机可读存储介质
KR101730600B1 (ko) 거짓 개인정보를 이용한 개인정보 유출 탐지 장치 및 방법
CN111901299A (zh) 申请认证方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant