KR101794169B1 - Personal data detecting and masking system and method based on printed position of hwp file - Google Patents

Personal data detecting and masking system and method based on printed position of hwp file Download PDF

Info

Publication number
KR101794169B1
KR101794169B1 KR1020160125766A KR20160125766A KR101794169B1 KR 101794169 B1 KR101794169 B1 KR 101794169B1 KR 1020160125766 A KR1020160125766 A KR 1020160125766A KR 20160125766 A KR20160125766 A KR 20160125766A KR 101794169 B1 KR101794169 B1 KR 101794169B1
Authority
KR
South Korea
Prior art keywords
text
information
font
masking
personal information
Prior art date
Application number
KR1020160125766A
Other languages
Korean (ko)
Inventor
김영균
Original Assignee
주식회사 엘아이텍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘아이텍 filed Critical 주식회사 엘아이텍
Priority to KR1020160125766A priority Critical patent/KR101794169B1/en
Application granted granted Critical
Publication of KR101794169B1 publication Critical patent/KR101794169B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/12Digital output to print unit, e.g. line printer, chain printer
    • G06F3/1201Dedicated interfaces to print systems
    • G06F3/1223Dedicated interfaces to print systems specifically adapted to use a particular technique
    • G06F3/1237Print job management
    • G06F3/1238Secure printing, e.g. user identification, user rights for device usage, unallowed content, blanking portions or fields of a page, releasing held jobs
    • G06F17/214
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/12Digital output to print unit, e.g. line printer, chain printer
    • G06F3/1201Dedicated interfaces to print systems
    • G06F3/1223Dedicated interfaces to print systems specifically adapted to use a particular technique
    • G06F3/1237Print job management
    • G06F3/1242Image or content composition onto a page
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/12Digital output to print unit, e.g. line printer, chain printer
    • G06F3/1201Dedicated interfaces to print systems
    • G06F3/1223Dedicated interfaces to print systems specifically adapted to use a particular technique
    • G06F3/1237Print job management
    • G06F3/1244Job translation or job parsing, e.g. page banding
    • G06F3/1248Job translation or job parsing, e.g. page banding by printer language recognition, e.g. PDL, PCL, PDF
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/12Digital output to print unit, e.g. line printer, chain printer
    • G06F3/1201Dedicated interfaces to print systems
    • G06F3/1223Dedicated interfaces to print systems specifically adapted to use a particular technique
    • G06F3/1237Print job management
    • G06F3/1259Print job monitoring, e.g. job status

Abstract

The present invention relates to a system, which detects personal information based on print locations of an HWP file and masks the detected personal information, and a method thereof. According to an embodiment of the present invention, the personal information detection and masking system includes: a unique font information extraction module; a universal font information extraction module; a coordinate conversion module; a unique font and universal font information integrating module; a personal information detecting module; and a masking module. The personal information detection and masking system can prevent the false or excessive detection of personal information as well as masking the personal information in precise locations on a printed article.

Description

HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 시스템 및 방법{PERSONAL DATA DETECTING AND MASKING SYSTEM AND METHOD BASED ON PRINTED POSITION OF HWP FILE}TECHNICAL FIELD [0001] The present invention relates to a printing position based personal information detection and masking system and a printing method for a HWP file,

본 발명은 HWP 파일의 인쇄 시에 인쇄위치에 기반하여 개인정보를 검출하고 마스킹하여 개인정보의 보안을 관리할 수 있도록 한 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 시스템 및 방법에 관한 것이다.The present invention relates to a printing position based privacy information detection and masking system and method of an HWP file that enables the security of personal information to be managed by detecting and masking the personal information based on the printing position upon printing of the HWP file.

일반적으로, 프린터 등으로 출력되는 인쇄물을 통해 개인정보가 유출되는 것을 방지하기 위해, 개인정보를 마스킹하여 인쇄하는 인쇄 보안 시스템이 공지되어 있다. 통상적으로 알려진 인쇄 보안 시스템은 프린터로 출력되는 데이터로부터 주민등록번호, 전화번호, 신용카드번호, 운전면허번호, 여권번호, 이메일 주소, 및 집주소 등의 개인정보를 추출하고, 추출된 개인정보를 마스킹 문자로 치환하여 출력하도록 구성된다. 이와 같은 인쇄 보안 시스템은 개인정보 유출가 유출되어 경제적 피해가 발생되거나 범죄 수단으로 악용되는 것을 방지한다.2. Description of the Related Art Generally, a print security system for masking and printing personal information in order to prevent leakage of personal information through a printed matter output to a printer or the like is known. A commonly known printing security system extracts personal information such as a resident registration number, a telephone number, a credit card number, a driver's license number, a passport number, an email address, and a home address from data output to a printer, And outputs it. Such a printing security system prevents an outflow of personal information from being leaked, causing economic damage or being abused as a criminal means.

도 1은 종래 기술에 따른 인쇄 보안 시스템을 예시한 블록도이다. 도 1을 참조하면, 종래 인쇄 보안 시스템은 데이터 제공부(10), 그래픽 인터페이스부(20), 인쇄 스풀러 서비스부(30), 프린터(40) 및 보안부(50)를 포함한다.Figure 1 is a block diagram illustrating a prior art print security system. Referring to FIG. 1, a conventional print security system includes a data providing unit 10, a graphic interface unit 20, a print spooler service unit 30, a printer 40, and a security unit 50.

데이터 제공부(10)는 개인정보가 포함될 수 있는 파일 등의 데이터를 제공하기 위한 것으로서, PC, 태블릿 기기, 랩탑, 휴대 단말, 네트워킹 시스템, 및 각종 어플리케이션 등 인쇄물을 출력하기 위한 데이터 정보를 제공하는 모든 수단을 의미한다. 그래픽 인터페이스부(20)는 데이터 제공부(10)로부터 제공되는 데이터를 인쇄 스풀러 서비스부(30)로 제공하기 위한 것이며, 도 2에서와 같이 벡터 그래픽 처리된 데이터로부터 텍스트를 구성하는 점들의 위치 정보를 얻어 인쇄 데이터를 인식할 수 있다. 인쇄 스풀러 서비스부(30)는 입력장치 측과 프린터(40) 사이에서 보조 기억장치를 완충장치로 사용하여 데이터 전송를 전송할 때 처리 지연을 단축시키는 장치이다.The data providing unit 10 is for providing data such as files that may contain personal information, and provides data information for outputting printed materials such as a PC, a tablet device, a laptop, a portable terminal, a networking system, It means all means. The graphic interface unit 20 is for providing the data provided from the data providing unit 10 to the print spooler service unit 30. The graphic interface unit 20 receives the location information of the points constituting the text from the vector graphics- So that the print data can be recognized. The print spooler service unit 30 is a device that shortens the processing delay when transferring the data transfer between the input device side and the printer 40 using the auxiliary storage device as a buffer.

보안부(50)는 데이터에 포함된 텍스트를 검사하여 개인정보를 검출하고 미리 정해진 설정에 따라 개인정보를 마스킹하거나 삭제하여 인쇄 스풀러 서비스부(30)로 전송되도록 함으로써, 출력되는 인쇄물 상에서 개인정보를 은폐시키는 역할을 수행한다.The security unit 50 inspects the text included in the data to detect personal information, masks or deletes the personal information according to a predetermined setting, and transmits the masked information to the print spooler service unit 30 so that the personal information is concealed .

종래 대부분의 인쇄 보안 시스템은 정규표현식(특정한 규칙을 가진 문자열의 집합을 표현하는 형식 언어로서, 많은 텍스트 편집기와 프로그래밍 언어에서 문자열의 검색과 치환을 위해 지원하고 있는 표현 방식)을 이용하여 개인정보를 검출하는데, 번호의 개수, 번호의 규칙과 같은 패턴형성 기준, 지정 키워드 등과 같은 텍스트 내용 자체만으로 패턴 매칭 여부를 판단한다. 이와 같은 정규표현식 패턴을 이용하는 경우, 상당한 오픈 소스들이 존재하지만 여기에 글자 여부, 숫자, 글자/숫자의 개수 등을 판단하는 패턴을 입히고 키워드를 지정하는 절차가 복잡한 문제가 있다. 예를 들어, 주민번호를 표현하는 양식은 "123456-1234567", "123456 - 1234567", "1234561234567", "123456 1234567" 등 어플리케이션의 종류 및 문서의 종류마다 다양하며, 여기에 더 많은 스페이스 입력이 존재하는 경우, 표현식이 더욱 복잡해지는 문제가 있다.Most conventional print security systems use regular expressions (a formal language that expresses a set of strings with a certain rule, which is supported by many text editors and programming languages to search for and replace strings) It is determined whether pattern matching is performed only by the text content itself such as the number of the number, the pattern forming standard such as the rule of the number, the designated keyword, and the like. When using such a regular expression pattern, there is a considerable amount of open source, but there is a complicated process of applying a pattern to judge the letter number, number, number of letters / numbers, and specifying keywords. For example, the form representing the resident number may vary depending on the type of application and the type of document, such as "123456-1234567", "123456- 1234567", "1234561234567", "123456 1234567" When present, there is a problem that expressions become more complicated.

또한, 정규표현식 패턴 및 자체적으로 패턴을 작성하여 개인정보를 검출하는 경우 모두에서, 글자의 위치를 고려하지 아니하므로 서로 다른 영역에 개인정보가 존재하는 경우, 이를 오탐지하거나 과탐지하는 문제가 발생될 수 있다. 또한, 글자의 크기를 고려하지 아니하므로 개인정보를 마스킹하는 과정에서 마스킹 문자가 다른 문자의 영역을 침범하여 인쇄물의 레이아웃이 망가지는 등의 문제가 발생된다.Also, in the case where the regular expression pattern and the pattern itself are generated to detect the personal information, since the position of the character is not considered, if there is the personal information in different areas, there is a problem of false detection or spoofing . In addition, since the size of characters is not considered, there arises a problem that masking characters invade areas of other characters in the process of masking personal information, resulting in the collapse of the layout of printed matter.

한편, HWP 파일은 범용 글꼴을 사용하는 경우 인쇄 파일로부터 텍스트 정보를 추출하는 것이 용이하지만, HWP 자체에서 사용하는 고유 글꼴을 사용하는 경우에는 이미지 또는 벡터 그래픽으로 변환되어 인쇄되어 텍스트 정보를 추출하는 것이 어렵다. 이에 도 2에서와 같이 벡터 그래픽으로 텍스트 정보를 추출해야 하므로, 종래 알려진 표현식 매칭을 이용하여 텍스트 정보를 추출하고 있는 실정이다.On the other hand, it is easy to extract text information from a print file when a universal font is used in the HWP file, but in the case of using a unique font used in the HWP itself, it is converted into an image or a vector graphic, it's difficult. As shown in FIG. 2, since the text information is extracted using a vector graphic, text information is extracted using a conventionally known expression matching.

또한, HWP 파일 내에 범용 글꼴과 고유 글꼴이 혼용되어 사용되는 경우, 특히, 개인정보가 복수의 글꼴을 혼용하여 사용하는 경우에는 서로 다른 글꼴 정보(텍스트가 나타내는 정보와 벡터 그래픽이 나타내는 정보)로부터 개인정보를 추출하는 것이 매우 곤란한 문제가 있었다.In addition, when the universal font and the unique font are used in combination in the HWP file, particularly when the personal information is used in combination with a plurality of fonts, the font information (the information represented by the text and the information represented by the vector graphic) There was a problem that it was very difficult to extract information.

대한민국 등록특허 제10-1183575호Korean Patent No. 10-1183575

본 발명은 HWP 파일의 인쇄 시에 고유 글꼴이 이미지 또는 벡터 그래픽으로 변환되기 전에 고유 글꼴의 텍스트 정보를 추출하고, 추출된 고유 글꼴의 텍스트 정보를 범용 글꼴의 인쇄좌표에 대응하여 좌표 변환을 실시한 후에, 범용 글꼴과 고유 글꼴의 텍스트 정보를 통합하여 개인정보를 검출함으로서, 개인정보 검출의 오탐지 및 과탐지를 방지하고 인쇄물 상의 정확한 위치에 개인정보에 대한 마스킹이 수행될 수 있는 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 시스템 및 방법을 제공함에 그 목적이 있다.The present invention extracts text information of a unique font before a unique font is converted into an image or a vector graphic at the time of printing of the HWP file, and converts the text information of the extracted unique font into coordinates corresponding to printing coordinates of the universal font , The detection of personal information by integrating the text information of the universal font and the unique font to prevent false detection and detection of the personal information and the printing position based on the HWP file in which the masking of the personal information can be performed at the precise position on the printed matter And an object of the present invention is to provide a personal information detection and masking system and method.

또한, 본 발명은 텍스트의 위치 및 크기 정보를 추출하여 개인정보를 검출하고, 개인정보를 나타내는 문자의 인쇄좌표 상에 동일한 위치 및 크기로 마스킹 문자를 기입하여 마스킹 함으로써, 마스킹 정책의 자유도를 높이고 마스킹 작업에 의해 인쇄물의 레이아웃이 망가지는 현상을 방지할 수 있는 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 시스템 및 방법을 제공함에 다른 목적이 있다.In addition, the present invention extracts position and size information of a text to detect personal information, and writes a masking character in the same position and size on the printed coordinates of a character representing personal information, thereby masking the masking policy. Another object of the present invention is to provide a printing position-based personal information detection and masking system and method of an HWP file that can prevent a layout of printed matter from being damaged by an operation.

본 발명의 일실시예에 따른 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 시스템은, HWP 어플리케이션 내의 HWP 인쇄모듈로부터 인쇄 파일에 포함된 개인정보를 검출하고 검출된 개인정보에 대하여 마스킹을 수행하는 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 시스템에 있어서, 상기 HWP 인쇄모듈에서 출력되는 텍스트 중 상기 HWP 어플리케이션에서 고유하게 사용되는 고유 글꼴 텍스트를 인식하고, 상기 고유 글꼴 텍스트가 이미지 또는 벡터 그래픽으로 변환되기 전에 고유 글꼴 텍스트 정보를 추출하는 고유글꼴정보 추출모듈; 상기 HWP 인쇄모듈에서 출력되는 텍스트 중 범용적으로 사용되는 범용 글꼴 텍스트를 인식하여 범용 글꼴 텍스트 정보를 추출하는 범용글꼴정보 추출모듈; 상기 고유 글꼴 텍스트의 논리좌표를 인식하고, 상기 논리좌표를 인쇄물 상의 절대 좌표인 상기 범용 글꼴 텍스트의 인쇄좌표에 대응하여 좌표 변환하는 좌표 변환모듈; 상기 좌표 변환모듈에 의해 좌표 변환된 고유글꼴정보와 상기 범용글꼴정보 추출모듈에서 추출된 범용글꼴정보를 통합하여 통합 텍스트 정보를 생성하는 고유글꼴/범용글꼴 정보 통합모듈; 상기 통합 텍스트 정보로부터 개인정보가 포함된 개인정보 텍스트를 검출하는 개인정보 검출모듈; 및 상기 개인정보 텍스트 중 적어도 일부를 설정된 마스킹 문자로 변환하되, 상기 개인정보 텍스트의 인쇄좌표와 동일한 인쇄좌표 상에 마스킹하는 마스킹 모듈을 포함한다.The printing position based personal information detection and masking system of the HWP file according to an embodiment of the present invention includes a HWP printing module for detecting the personal information included in the print file from the HWP printing module in the HWP application and for masking the detected personal information, A printing position based personal information detection and masking system for a file, the system comprising: a recognition unit for recognizing a unique font text uniquely used in the HWP application among texts output from the HWP printing module and converting the unique font text into an image or a vector graphic A unique font information extraction module that extracts unique font text information before; A universal font information extracting module for recognizing general purpose font texts commonly used among texts output from the HWP printing module and extracting general purpose font text information; A coordinate conversion module that recognizes the logical coordinates of the unique font text and coordinates the logical coordinates in correspondence with the printed coordinates of the universal font text which is the absolute coordinate on the printed material; A unique font / universal font information integration module for integrating the unique font information coordinate-converted by the coordinate transformation module and the general-purpose font information extracted by the general-purpose font information extraction module to generate integrated text information; A personal information detection module for detecting a personal information text including personal information from the integrated text information; And a masking module for converting at least a portion of the personal information text into a set masking character, wherein the masking module masks the same on printed coordinates that are the same as the printed coordinates of the personal information text.

본 발명의 다른 실시예에 따른 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 시스템은, 상기 고유글꼴/범용글꼴 정보 통합모듈에서 생성되는 상기 통합 텍스트 정보는 단위 텍스트의 위치 및 크기 정보를 포함하며, 상기 마스킹 모듈은 상기 마스킹 문자를 상기 개인정보 텍스트와 동일한 위치 및 크기로 마스킹한다.The printing position based privacy information detection and masking system of the HWP file according to another embodiment of the present invention is characterized in that the integrated text information generated by the unique font / universal font information integration module includes position and size information of a unit text, The masking module masks the masking character to the same position and size as the personal information text.

본 발명의 또 다른 실시예에 따른 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 시스템은, 상기 고유글꼴/범용글꼴 정보 통합모듈에서 생성되는 상기 통합 텍스트 정보는 단위 텍스트의 글꼴 정보를 더 포함하며, 상기 마스킹 모듈은 상기 마스킹 문자를 상기 개인정보 텍스트와 동일한 글꼴로 마스킹한다.In another aspect of the present invention, there is provided a printing position based privacy information detection and masking system for an HWP file, wherein the integrated text information generated by the unique font / universal font information integration module further includes font information of unit text, The masking module masks the masking character in the same font as the personal information text.

본 발명의 또 다른 실시예에 따른 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 시스템은, 상기 고유글꼴/범용글꼴 정보 통합모듈에서 생성되는 상기 통합 텍스트 정보는 단위 텍스트의 색상 정보를 더 포함하며, 상기 마스킹 모듈은 상기 마스킹 문자를 상기 개인정보 텍스트와 동일한 색상으로 마스킹한다.In another aspect of the present invention, there is provided a printing position based privacy information detection and masking system for an HWP file, wherein the integrated text information generated by the unique font / universal font information integration module further includes color information of a unit text, The masking module masks the masking character in the same color as the personal information text.

본 발명의 일실시예에 따른 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 방법은, HWP 어플리케이션 내의 HWP 인쇄모듈로부터 인쇄 파일에 포함된 개인정보를 검출하고 검출된 개인정보에 대하여 마스킹을 수행하는 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 방법에 있어서, (a) 상기 HWP 파일의 인쇄를 감시하는 단계; (b) 상기 단계(a)에서 HWP 파일의 인쇄가 감지되면, 상기 HWP 파일에 포함된 텍스트가 상기 HWP 어플리케이션에서 고유하게 사용되는 고유 글꼴 텍스트인지 범용적으로 사용되는 범용 글꼴 텍스트인지를 판단하는 단계; (c) 상기 단계(b)에서 판단된 고유 글꼴 텍스트가 이미지 또는 벡터 그래픽으로 변환되기 전에 고유 글꼴 텍스트 정보를 추출하는 단계; (d) 상기 단계(c)에서 추출된 고유 글꼴 텍스트에 대하여 논리좌표를 인식하고, 상기 논리좌표를 인쇄물 상의 절대 좌표인 상기 범용 글꼴 텍스트의 인쇄좌표에 대응하여 좌표 변환하는 단계; (e) 상기 단계(b)에서 판단된 범용 글꼴 텍스트에 대하여 범용 글꼴 텍스트 정보를 추출하는 단계; (f) 상기 단계(d)에서 좌표 변환된 고유 글꼴 텍스트 정보와 상기 단계(e)에서 추출된 범용 글꼴 텍스트 정보를 통합하여 통합 텍스트 정보를 생성하는 단계; (g) 상기 통합 텍스트 정보로부터 개인정보가 포함된 개인정보 텍스트를 검출하는 단계; 및 (h) 상기 개인정보 텍스트 중 적어도 일부를 동일한 인쇄좌표 상에서 마스킹 문자로 대체하여 마스킹 동작을 수행하는 단계를 포함한다.A printing position based personal information detection and masking method of an HWP file according to an exemplary embodiment of the present invention includes a HWP printing module for detecting personal information included in a print file from an HWP printing module in an HWP application, A printing location based privacy information detection and masking method for a file, the method comprising: (a) monitoring printing of the HWP file; (b) determining whether the text contained in the HWP file is a unique font text uniquely used in the HWP application or a universal font text used universally when the printing of the HWP file is detected in the step (a) ; (c) extracting unique font text information before the unique font text determined in step (b) is converted into an image or a vector graphic; (d) recognizing logical coordinates of the unique font text extracted in step (c), and performing coordinate conversion of the logical coordinates corresponding to printing coordinates of the universal font text, which is an absolute coordinate on the printed matter; (e) extracting general-purpose font text information on the general-purpose font text determined in step (b); (f) generating integrated text information by integrating the coordinate-converted unique font text information in step (d) and the universal font text information extracted in step (e); (g) detecting a personal information text including personal information from the integrated text information; And (h) performing a masking operation by replacing at least a portion of the personal information text with masking characters on the same printed coordinate.

본 발명의 다른 실시예에 따른 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 방법은, 상기 단계(f)에서 생성되는 상기 통합 텍스트 정보는 단위 텍스트의 위치 및 크기 정보를 포함하며, 상기 단계(h)는 상기 개인정보 텍스트의 인쇄좌표 상에 동일한 위치 및 크기로 마스킹 문자를 마스킹한다.The printing position based personal information detection and masking method of the HWP file according to another embodiment of the present invention is characterized in that the integrated text information generated in the step (f) includes position and size information of the unit text, ) Masks the masking character at the same position and size on the printed coordinates of the personal information text.

본 발명의 또 다른 실시예에 따른 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 방법은, 상기 단계(f)에서 생성되는 상기 통합 텍스트 정보는 단위 텍스트의 글꼴 정보를 더 포함하며, 상기 단계(h)는 상기 개인정보 텍스트와 동일한 글꼴로 상기 마스킹 문자를 마스킹한다.The method of detecting and masking printing location based HWP files according to still another embodiment of the present invention is characterized in that the integrated text information generated in step (f) further includes font information of a unit text, ) Masks the masking character in the same font as the personal information text.

본 발명의 또 다른 실시예에 따른 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 방법은, 상기 단계(f)에서 생성되는 상기 통합 텍스트 정보는 단위 텍스트의 색상 정보를 더 포함하며, 상기 단계(h)는 상기 개인정보 텍스트와 동일한 색상으로 상기 마스킹 문자를 마스킹한다.According to still another aspect of the present invention, there is provided a method of detecting and masking printing location based privacy information of an HWP file, wherein the integrated text information generated in step (f) further includes color information of a unit text, ) Masks the masking character in the same color as the personal information text.

본 발명의 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 시스템 및 방법에 따르면, HWP 파일의 인쇄 시에 고유 글꼴의 텍스트가 이미지 또는 벡터 그래픽으로 변환되기 전에 고유 글꼴의 텍스트 정보를 추출하고, 추출된 고유 글꼴의 텍스트가 갖는 논리좌표를 범용 글꼴의 인쇄좌표에 대응하여 좌표 변환을 실시한 후에, 범용 글꼴과 고유 글꼴의 텍스트 정보를 통합하여 개인정보를 검출함으로서, 개인정보 검출의 오탐지 및 과탐지를 방지하고 인쇄물 상의 정확한 위치에 개인정보에 대한 마스킹이 수행될 수 있는 효과가 있다.According to the print position-based personal information detection and masking system and method of the present invention, text information of a unique font is extracted before the text of the unique font is converted into an image or a vector graphic at the time of printing of the HWP file, After the coordinate conversion of the logical coordinates of the text of the unique font is performed in correspondence with the printing coordinates of the universal font, the personal information is detected by integrating the text information of the universal font and the unique font to prevent false detection and detection of personal information And the masking of the personal information can be performed at the precise position on the printed matter.

또한, 본 발명에 따르면, 단위 텍스트의 위치, 크기, 글꼴, 색상 등을 포함하는 텍스트 정보를 추출하여 개인정보를 검출함으로써 개인정보 검출 정확도를 높이고, 개인정보를 나타내는 텍스트의 인쇄좌표 상에 동일한 위치, 크기, 글꼴, 색상 등으로 마스킹 문자를 대체할 수 있어, 마스킹 이후에 마스킹 문자가 다른 영역을 침범하는 현상을 방지하고 마스킹 정책의 자유도를 높이며, 마스킹 작업에 의해 인쇄물의 레이아웃이 망가지는 현상을 방지할 수 있는 효과가 있다.In addition, according to the present invention, text information including the position, size, font, color, and the like of the unit text is extracted to detect the personal information, thereby improving the accuracy of detecting personal information, It is possible to replace the masking character with the size, font, color, etc., thereby preventing the masking character from invading other areas after the masking, increasing the degree of freedom of the masking policy, and damaging the layout of the printed material by the masking operation There is an effect that can be prevented.

도 1은 종래 기술에 따른 인쇄 보안 시스템을 예시한 블록도,
도 2는 벡터 그래픽 정보로부터 텍스트 정보를 추출하는 예를 보인 도면,
도 3은 본 발명에 따른 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 시스템을 예시한 블록도,
도 4는 본 발명에 따른 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 방법을 예시한 흐름도, 및
도 5 및 6은 본 발명에 따라 마스킹 처리된 문자열을 예시한 도면이다.
Figure 1 is a block diagram illustrating a prior art print security system;
2 is a diagram showing an example of extracting text information from vector graphic information,
3 is a block diagram illustrating a print location-based personal information detection and masking system of an HWP file in accordance with the present invention;
4 is a flow chart illustrating a print location-based personal information detection and masking method of an HWP file according to the present invention, and
5 and 6 are diagrams illustrating a character string masked according to the present invention.

이하에서는 첨부된 도면을 참조하여 본 발명에 따른 구체적인 실시예가 설명된다. 그러나 이는 본 발명을 특정한 실시 형태에 대하여 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물, 대체물을 포함하는 것으로 이해되어야 한다.Hereinafter, specific embodiments according to the present invention will be described with reference to the accompanying drawings. It is to be understood, however, that the invention is not to be limited to the specific embodiments, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention.

명세서 전체에 걸쳐 유사한 구성 및 동작을 갖는 부분에 대해서는 동일한 도면 부호를 붙였다. 그리고 본 발명에 첨부된 도면은 설명의 편의를 위한 것으로서, 그 형상과 상대적인 척도는 과장되거나 생략될 수 있다.Parts having similar configurations and operations throughout the specification are denoted by the same reference numerals. It is to be understood that both the foregoing general description and the following detailed description are exemplary and explanatory and are intended to provide further explanation of the invention as claimed.

실시예를 구체적으로 설명함에 있어서, 중복되는 설명이나 당해 분야에서 자명한 기술에 대한 설명은 생략되었다. 또한, 이하의 설명에서 어떤 부분이 다른 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 기재된 구성요소 외에 구성요소를 더 포함할 수 있는 것을 의미한다.In the following description of the embodiments, redundant descriptions and explanations of techniques obvious to those skilled in the art are omitted. Also, in the following description, when a section is referred to as "comprising " another element, it means that it may further include other elements in addition to the described element unless otherwise specifically stated.

또한, 명세서에 기재된 "~부", "~기", "~모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 어떤 부분이 다른 부분과 전기적으로 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐만 아니라 그 중간에 다른 구성을 사이에 두고 연결되어 있는 경우도 포함한다. Also, the terms "to", "to", "to", and "modules" in the specification mean units for processing at least one function or operation, and may be implemented by hardware or software or a combination of hardware and software . In addition, when a part is electrically connected to another part, it includes not only a case directly connected but also a case where the other parts are connected to each other in the middle.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제2 구성요소는 제1 구성요소로 명명될 수 있고, 유사하게 제1 구성요소도 제2 구성요소로 명명될 수 있다.Terms including ordinals, such as first, second, etc., may be used to describe various elements, but the elements are not limited to these terms. The terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, the second component may be referred to as a first component, and similarly, the first component may also be referred to as a second component.

도 3은 본 발명에 따른 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 시스템을 예시한 블록도이다. 도 3에서 실선으로 도시된 블록들은 일반적인 HWP 파일의 인쇄 시스템을 나타내며, 점선으로 도시된 블록들은 본 발명에 따른 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 시스템을 나타는 것으로, 발명의 이해를 돕기 위해 실선과 점선으로 구분해 표시하였다.3 is a block diagram illustrating a print location based privacy information detection and masking system of an HWP file in accordance with the present invention. The blocks indicated by solid lines in FIG. 3 represent printing systems of a general HWP file, and the blocks shown by dotted lines represent printing position based privacy information and masking systems of the HWP file according to the present invention, It is divided into a solid line and a dotted line.

HWP 어플리케이션(300)은 PC, 태블릿 기기, 랩탑, 휴대 단말, 네트워킹 시스템 등에 설치되어 HWP 파일을 읽어 들이고, 편집하고, 인쇄할 수 있는 어플리케이션이다. HWP 파일 내에는 도형, 선, 그래프, 그림 등을 포함하는 이미지와, 텍스트가 포함되는데, 여기서 텍스트는 HWP 어플리케이션에서 고유하게 사용되는 고유 글꼴 텍스트와, 다른 문서 작성 프로그램과 호환되어 범용적으로 사용되는 범용 글꼴 텍스트로 구분된다.The HWP application 300 is an application installed in a PC, a tablet device, a laptop, a portable terminal, a networking system, etc., and can read, edit, and print HWP files. The HWP file contains images and text, including figures, lines, graphs, figures, etc., where the text is unique to the HWP application and is compatible with other document creation programs and used universally It is divided into universal font text.

도 3에 묘사한 바와 같이, HWP 인쇄모듈(310)은 인쇄될 데이터를 인쇄 인터페이스(316)를 통해 프린터로 출력하는데, 이때 이미지와 범용 글꼴 텍스트는 그대로 출력되지만, 고유 글꼴 텍스트는 이미지 또는 벡터 그래픽으로 변환되어 출력된다. 글자-이미지 변환모듈(312)은 고유 글꼴 텍스트를 이미지로 변환하여 인쇄 인터페이스(316)로 출력하는 모듈이며, 글자-벡터 그래픽 변환모듈(314)은 고유 글꼴 텍스트를 벡터 그래픽으로 변환하여 인쇄 인터페이스(316)로 출력하는 모듈이다.3, the HWP printing module 310 outputs the data to be printed to the printer via the print interface 316, where the image and the universal font text are output as they are, And is output. The letter-to-image conversion module 312 converts the original font text into an image and outputs the converted image to the print interface 316. The letter-to-vector graphic conversion module 314 converts the unique font text into a vector graphic, 316).

만약, HWP 파일 내에 어느 고유 글꼴과 범용 글꼴 중 어느 하나의 텍스트만 존재하는 경우에는, 알려진 개인정보 검출정책을 이용하여 텍스트 정보로부터 개인정보를 추출하는 것이 쉽게 달성될 수 있다. 하지만, 많은 HWP 문서에는 다양한 글꼴의 텍스트들이 혼재되어 있고, 이와 같이 다양한 글꼴들이 혼재하는 경우, 특히, 개인정보가 복수의 글꼴을 혼용하여 작성된 경우에는 고유 글꼴의 텍스트 정보가 이미지 또는 벡터 그래픽으로 표현되므로 개인정보 검출에 한계가 있다.If there is only text of either the unique font or the universal font in the HWP file, it is easy to extract personal information from the text information using a known personal information detection policy. However, in many HWP documents, texts of various fonts are mixed, and when such a variety of fonts are mixed together, especially when personal information is written using a mixture of plural fonts, text information of a unique font is expressed as an image or a vector graphic There is a limit to the detection of personal information.

본 발명의 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 시스템은 이러한 글꼴의 혼용에도 개인정보를 정확하게 검출하는 방법을 제공한다.The print position based personal information detection and masking system of the HWP file of the present invention provides a method for accurately detecting personal information even in the mixed use of such fonts.

도 3을 참조하면, 본 발명의 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 시스템은 고유글꼴정보 추출모듈(352)과, 범용글꼴정보 추출모듈(354)과, 좌표 변환모듈(356)과, 고유글꼴/범용글꼴 정보 통합모듈(358)과, 개인정보 검출모듈(360)과, 마스킹 모듈(362)을 포함한다.Referring to FIG. 3, the printing position based personal information detection and masking system of the HWP file of the present invention includes a unique font information extraction module 352, a general purpose font information extraction module 354, a coordinate transformation module 356, A unique font / universal font information integration module 358, a personal information detection module 360, and a masking module 362.

고유글꼴정보 추출모듈(352)은 HWP 인쇄모듈(310)에서 출력되는 텍스트 중 고유 글꼴 텍스트를 인식하고, 도 3에서 묘사하고 있는 바와 같이 고유 글꼴 텍스트가 이미지 변환되거나 벡터 그래픽 변환되기 전에 고유 글꼴 텍스트 정보를 추출한다. 추출된 고유 글꼴 텍스트 정보는 도시 안된 메모리 수단에 저장된다.The unique font information extracting module 352 recognizes the unique font text among the texts output from the HWP printing module 310 and extracts the unique font text before the unique font text is subjected to image conversion or vector graphics conversion as depicted in FIG. Information is extracted. The extracted unique font text information is stored in an unillustrated memory means.

여기서, 고유 글꼴 텍스트는 이미지나 벡터 그래픽으로 변환되어 출력되며, 고유 글꼴 텍스트 정보는 적어도 텍스트의 내용과 텍스트의 논리좌표를 포함한다. 논리좌표라 함은 윈도우즈와 같은 운영체제 내에서 사용하는 좌표로서, 주로 그래픽 함수들이 사용하는 좌표를 의미한다.Here, the unique font text is converted into an image or a vector graphic, and the unique font text information includes at least the content of the text and the logical coordinates of the text. Logical coordinates are coordinates used within an operating system such as Windows, and they mainly refer to coordinates used by graphic functions.

범용글꼴 추출모듈(354)은 HWP 인쇄모듈(310)에서 출력되는 텍스트 중 범용 글꼴 텍스트를 인식하여 범용 글꼴 텍스트 정보를 추출한다. 추출된 범용 글꼴 텍스트 정보 역시 후술하는 다른 구성품들의 참조를 위해 메모리 수단에 저장된다.The universal font extraction module 354 recognizes the universal font text among the texts output from the HWP printing module 310 and extracts the universal font text information. The extracted general-purpose font text information is also stored in the memory means for reference of other components to be described later.

범용 글꼴 텍스트는 다른 문서 작성 프로그램에서 호환되어 사용되는 글꼴을 갖는 텍스트로서, 적어도 텍스트의 내용과 텍스트의 인쇄좌표를 포함한다. 인쇄좌표라 함은 프린터 장치에서 출력되는 실제 인쇄물 상의 절대 좌표를 의미한다.The universal font text is text having a font that is compatible and used in another document creation program, and at least includes the text content and the print coordinates of the text. The printing coordinate means the absolute coordinate on the actual printed matter output from the printer apparatus.

좌표 변환모듈(356)은 고유 글꼴 텍스트의 논리좌표를 범용 글꼴 텍스트의 인쇄좌표에 대응하여 좌표 변환한다. 고유 글꼴 텍스트의 좌표를 변환함으로써, 고유 글꼴 텍스트의 정보와 범용 글꼴 텍스트의 정보를 통합할 수 있게 된다. 이러한 정보의 통합은 본 발명에 따라 인쇄물 상에서 개인정보를 용이하게 검출할 수 있도록 하기 위한 통합을 의미한다.The coordinate conversion module 356 coordinates-converts the logical coordinates of the unique font text in correspondence with the printing coordinates of the general-purpose font text. By converting the coordinates of the unique font text, information of the unique font text and information of the universal font text can be integrated. The integration of such information means integration for facilitating the detection of personal information on the printed matter according to the present invention.

고유글꼴/범용글꼴 정보 통합모듈(358)은 좌표 변환된 고유글꼴정보와 범용글꼴정보를 통합하여 통합 텍스트 정보를 생성한다. 이와 같이 서로 다른 글꼴의 텍스트에 대하여 인쇄좌표로 통일하여 정보를 변환하고, 통합함으로써, 고유 글꼴 텍스트와 범용 글꼴 텍스트 간의 상호 위치관계를 연산하는 것이 가능하게 되며, 서로 다른 글꼴로 개인정보가 기록되는 경우에도 개인정보를 정확하게 검출할 수 있게 된다.The unique font / universal font information integration module 358 integrates coordinate-converted unique font information and general-purpose font information to generate integrated text information. By thus converting the information of the texts of different fonts into print coordinates and integrating and integrating the information, it becomes possible to calculate the mutual positional relationship between the unique font text and the universal font text, and personal information is recorded in different fonts The personal information can be accurately detected.

개인정보 검출모듈(360)은 메모리 수단으로부터 통합 텍스트 정보를 읽어들이고, 미리 정해진 개인정보 검출정책에 의해 통합 텍스트 정보로부터 개인정보를 검출한다. 여기서, '개인정보'라 함은 주민등록번호, 전화번호, 신용카드번호, 운전면허번호, 여권번호, 이메일 주소, 및 집주소 등과 같은 개인의 신상과 관련된 정보를 의미한다. 개인정보 검출정책은 위와 같은 개인정보를 나타내는 문자열을 검출하기 위한 정책으로서, 통상 알려진 표현식 매칭 등의 검출정책이거나 사용자에 의해 자체적으로 설정된 검출정책일 수 있으며, 여기에 키워드(Keyword)를 이용한 검색식이 추가될 수 있다.The personal information detection module 360 reads the integrated text information from the memory means and detects the personal information from the integrated text information according to a predetermined personal information detection policy. Herein, the term 'personal information' refers to information related to personal information such as a resident registration number, a telephone number, a credit card number, a driver's license number, a passport number, an e-mail address, and a home address. The personal information detection policy is a policy for detecting a character string representing the personal information as described above, and may be a detection policy such as a known expression matching or a detection policy set by the user, and a search expression using a keyword Can be added.

마스킹 모듈(362)은 개인정보 텍스트 중 적어도 일부를 설정된 마스킹 문자로 변환한다. 예를 들어, 마스킹 문자는 "*"이거나 "#"이며, 주민등록번호를 마스킹하는 경우 뒤에 일곱자리를 마스킹 문자로 변환할 수 있다.The masking module 362 converts at least a portion of the personal information text into a set masking character. For example, if the masking character is "*" or "#" and you are masking the resident registration number, you can convert the seven digits to masking characters.

이때, 마스킹 모듈(362)은 개인정보 검출모듈(360)에서 검출된 개인정보 텍스트와 동일한 인쇄좌표 상에 마스킹 문자를 기입하되, 개인정보 텍스트 정보에 근거하여 추출된 텍스트와 동일한 위치, 크기, 글꼴, 및 색상으로 마스킹 문자를 기입할 수 있다. 이에 따라 마스킹 이후에도 인쇄물의 레이아웃이 망가지는 것을 방지할 수 있다.At this time, the masking module 362 writes a masking character on the same print coordinates as the personal information text detected by the personal information detection module 360, and generates a masking character in the same position, size, font , And a masking character in color. Accordingly, it is possible to prevent the layout of the printed matter from being damaged even after the masking.

도 4는 본 발명에 따른 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 방법을 예시한 흐름도이다. 도 4를 참조하여 본 발명에서 인쇄위치 기반으로 HWP 파일로부터 개인정보를 검출하고 마스킹하는 과정을 설명하면 다음과 같다.FIG. 4 is a flowchart illustrating a printing position based personal information detection and masking method of an HWP file according to the present invention. Referring to FIG. 4, a process of detecting and masking personal information from an HWP file based on a print position will be described.

먼저, HWP 인쇄모듈(310)로부터 파일의 인쇄 명령이 발생하는지를 감시한다(ST410). 인쇄 명령이 발생되면, 인쇄 대상 HWP 파일에 포함된 텍스트가 고유 글꼴 텍스트인지 범용 글꼴 텍스트인지를 판단한다(ST420).First, the HWP printing module 310 monitors whether a file printing command is generated (ST410). When a print command is generated, it is determined whether the text included in the print target HWP file is a unique font text or a universal font text (ST 420).

단계 ST420에서 고유 글꼴로 판단된 텍스트에 대하여는, 고유 글꼴 텍스트가 글자-이미지 변환모듈(312) 또는 글자-벡터 그래픽 변환모듈(314)에 입력되기 전 단계에서 고유 글꼴 텍스트 정보를 추출한다(ST430). 추출된 고유 글꼴 텍스트에 대하여 논리좌표를 인식하고, 논리좌표를 인쇄물 상의 절대 좌표인 범용 글꼴 텍스트의 인쇄좌표에 대응하여 좌표 변환한다(ST440). For the text determined as a unique font in step ST420, the unique font text information is extracted before the unique font text is input to the letter-image conversion module 312 or the letter-vector graphic conversion module 314 (ST430) . The logical coordinates are recognized for the extracted unique font text, and the logical coordinates are coordinate-converted corresponding to the printing coordinates of the universal font text which is the absolute coordinate on the printed material (ST440).

단계 ST420에서 범용 글꼴로 판단된 텍스트에 대하여는, 범용 글꼴 텍스트 정보를 추출한다(ST450).For the text determined as a general-purpose font in step ST420, general-purpose font text information is extracted (ST450).

다음으로, 고유글꼴/범용글꼴 정보 통합모듈(358)은 좌표 변환된 고유 글꼴 텍스트 정보와 범용 글꼴 텍스트 정보를 통합하여 통합 텍스트 정보를 생성한다(ST460). 통합 텍스트 정보는 고유 글꼴 텍스트 및 범용 글꼴 텍스트 모두에 대하여 텍스트의 내용과 인쇄좌표 정보를 포함할 것이다. 여기서, 추가로 통합 텍스트 정보에 단위 텍스트의 위치, 크기, 글꼴, 및 색상 정보가 더 포함될 수 있다.Next, the unique font / universal font information integration module 358 integrates the coordinate-converted unique font text information and the universal font text information to generate integrated text information (ST460). The aggregated text information will include the content of the text and printed coordinate information for both the unique font text and the universal font text. Here, the position, size, font, and color information of the unit text may further be included in the integrated text information.

개인정보 검출모듈(360)은 통합 텍스트 정보로부터 개인정보가 포함된 문자열을 나타내는 개인정보 텍스트를 검출한다(ST470). 개인정보의 검출은 상술한 바와 같이, 통상 알려진 검출정책을 사용하여 달성될 수 있다.The personal information detection module 360 detects a personal information text indicating a character string including personal information from the integrated text information (ST470). Detection of personal information can be accomplished using a generally known detection policy, as described above.

마지막으로, 개인정보 텍스트 중 적어도 일부를 미리 지정된 마스킹 정책에 따라 마스킹 문자로 대체하여 마스킹 동작을 수행한다(ST480). 마스킹이 완료되면 인쇄 인터페이스(316)를 통해 마스킹 처리된 인쇄 데이터가 프린터 장치로 출력된다.Finally, the masking operation is performed by replacing at least a part of the personal information text with a masking character according to a predetermined masking policy (ST480). When the masking is completed, the print data masked through the print interface 316 is output to the printer device.

마스킹 정책은 개인정보에 따라 마스킹 대상 객체를 미리 지정하는 것으로서, 예컨대, 주민등록번호를 마스킹하는 경우 뒤의 일곱 자리를 "*"로 대체하는 정책일 수 있다. 다른 예로서, 전화번호의 뒤 네 자리를 마스킹 문자로 대체할 수도 있다. 마스킹 모듈(362)은 미리 지정된 자릿수의 개인정보 텍스트와 동일한 인쇄좌표 상에 마스킹 문자를 기입하여 인쇄물 상에서 개인정보를 식별할 수 없도록 한다.The masking policy specifies a masking object in advance according to personal information. For example, when masking the resident registration number, the masking policy may be a policy of replacing the following seven digits with "* ". As another example, the last four digits of the telephone number may be replaced by a masking character. The masking module 362 writes a masking character on the same printed coordinates as the personal information text of a predetermined number of digits so that the personal information can not be identified on the printed matter.

한편, 본 발명에 따른 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 방법에 따르면, 개인정보 텍스트 각각과 동일한 인쇄좌표 상에 동일한 위치, 크기, 글꼴, 및 색상으로 마스킹 문자를 대체하여 기입할 수 있다. 이는 통합 텍스트 정보를 단순히 표현식 매칭만으로 추출하는 것이 아니라, 텍스트 각각의 위치, 크기, 글꼴, 및 색상 정보를 추출함으로써 달성될 수 있다. 이와 같이, 개인정보 텍스트를 동일한 위치, 크기, 글꼴, 및 색상의 마스킹 문자로 마스킹하는 것은 많은 기술적 이점을 갖게 할 수 있다.Meanwhile, according to the print location based privacy information detection and masking method of the HWP file according to the present invention, the masking characters can be written in the same position, size, font, and color on the same print coordinates as each of the personal information text . This can be accomplished by extracting the location, size, font, and color information of each text rather than simply extracting the aggregated text information by just expression matching. As such, masking personal information text with masking characters of the same location, size, font, and color can have many technical advantages.

도 5 및 6은 본 발명에 따라 마스킹 처리된 문자열을 예시한 도면이다.5 and 6 are diagrams illustrating a character string masked according to the present invention.

도 5를 참조하면, HWP 파일 상에 포함된 개인정보가 "iiiiiiii-AAAAAA"이고, 마스킹 정책이 하이픈(-) 앞의 뒤 네 자리를 마스킹하는 것으로 정해진 경우, 좌측 하단에서와 같이 종래 마스킹 방법에서는 단지 표현식만을 이용하므로 글꼴에 따른 글자의 크기나 위치를 인식하지 못하여 마스킹 문자 "*"가 하이픈이 인쇄되는 영역 및 뒤의 문자열을 침범하여 인쇄될 수 있다. 즉, 종래 마스킹 방법에서는 인쇄물의 레이아웃이 망가지는 현상이 발생될 수 있다.5, if the personal information contained on the HWP file is "iiiiiiii-AAAAAA" and the masking policy is set to mask the last four digits before the hyphen (-), then in the conventional masking method Since only the expression is used, the size or the position of the character according to the font can not be recognized, so that the masking character "* " That is, in the conventional masking method, the layout of printed matter may be broken.

반면에, 도 5의 우측 하단에서와 같이 본 발명에 따른 마스킹 방법에서는, 개인정보를 나타내는 텍스트 각각의 위치, 크기, 글꼴, 및 색상과 동일한 위치, 크기, 글꼴, 및 색상의 마스킹 문자로 마스킹을 수행할 수 있다. 이와 같은 방법의 마스킹에 따르면, 개인정보를 나타내는 원래의 텍스트와 마스킹 문자의 장평 및 자간 등을 일치시킬 수 있음은 물론, 동일한 글꼴과 색상으로 표현되므로, 도 5에서와 같이 마스킹 이후에도 인쇄물의 레이아웃이 망가지는 것을 방지할 수 있고 고품질의 인쇄물을 얻을 수 있다.On the other hand, in the masking method according to the present invention, as shown in the lower right of FIG. 5, masking is performed with masking characters of the same position, size, font, Can be performed. According to the masking of this method, since the original text representing the personal information can be matched with the length and width of the masking character and is expressed by the same font and color, even after masking, It is possible to prevent breakage and to obtain a high-quality printed matter.

도 6에서와 같이, HWP 파일 상에 포함된 개인정보가 "010-1111-1234"와 같이 휴대전화번호인 경우를 가정해 보자. 이 경우, 텍스트에 대한 벡터 그래픽 처리가 수행되는 경우, 인쇄 처리부(314)에서는 첫 번째로 "010", 두 번째로 "-", 세 번째로 "1111", 네 번째로 "-", 다섯 번째로 "1234"를 호출하여 인쇄 처리가 진행될 수 있다. 종래와 같이 표현식만을 이용하는 경우, 첫 번째에서 네 번째까지의 텍스트 내용은 이미 호출되어 텍스트 그리기 명령이 수행된 후이므로, 좌측 하단에서와 같이 뒤의 네 자리에 대해서만 숫자를 마스킹 문자로 치환하여 마스킹 동작을 수행할 수 있다. 즉, 종래의 마스킹 방법에서는 개인정보 항목들이 구분되어 텍스트 그리기 명령이 수행되는 경우 마스킹 정책을 제한적으로 사용할 수밖에 없다.As shown in FIG. 6, suppose that the personal information included in the HWP file is a mobile phone number such as "010-1111-1234 ". In this case, when the vector graphic processing is performed on the text, the print processing unit 314 firstly outputs "010", secondly "-", thirdly "1111", fourthly "-" 1234 "to " 1234 " In the case where only the expression is used as in the conventional art, since the first to fourth text contents have already been called and the text drawing command has been executed, only the latter four digits are substituted for the masking character, Can be performed. That is, in the conventional masking method, when the personal information items are divided and the text drawing command is performed, the masking policy can be limitedly used.

반면에, 본 발명의 마스킹 방법에서는 글자 정보를 추출하여 저장한 후, 저장된 글자 정보의 위치에 기반하여 마스킹 동작을 수행함으로써, 도 6의 우측 하단에서와 같이 세 번째로 호출되는 "1111"에 대하여도 마스킹 문자로의 대체가 가능하게 된다. 즉, 본 발명의 마스킹 방법은 마스킹 정책에 대한 자유도를 높일 수 있는 이점이 있다.On the other hand, in the masking method of the present invention, after character information is extracted and stored, masking operation is performed based on the position of the stored character information, so that the "1111" It is possible to substitute the masking character. That is, the masking method of the present invention has an advantage of increasing the degree of freedom in the masking policy.

위에서 개시된 발명은 기본적인 사상을 훼손하지 않는 범위 내에서 다양한 변형예가 가능하다. 즉, 위의 실시예들은 모두 예시적으로 해석되어야 하며, 한정적으로 해석되지 않는다. 따라서 본 발명의 보호범위는 상술한 실시예가 아니라 첨부된 청구항에 따라 정해져야 하며, 첨부된 청구항에 한정된 구성요소를 균등물로 치환한 경우 이는 본 발명의 보호범위에 속하는 것으로 보아야 한다.The invention described above is susceptible to various modifications within the scope not impairing the basic idea. In other words, all of the above embodiments should be interpreted by way of example and not by way of limitation. Therefore, the scope of protection of the present invention should be determined in accordance with the appended claims rather than the above-described embodiments, and should be construed as falling within the scope of the present invention when the constituent elements defined in the appended claims are replaced by equivalents.

300 : HWP 어플리케이션 310 : HWP 인쇄모듈
312 : 글자-이미지 변환모듈 314 : 글자-벡터그래픽 변환모듈
316 : 인쇄 인터페이스 352 : 고유글꼴정보 추출모듈
354 : 범용글꼴정보 추출모듈 356 : 좌표 변환모듈
358 : 고유글꼴/범용글꼴 정보 통합모듈
360 : 개인정보 검출모듈 362 : 마스킹 모듈
300: HWP application 310: HWP printing module
312: character-image conversion module 314: character-vector graphic conversion module
316: Printing interface 352: Unique font information extraction module
354: Universal font information extraction module 356: Coordinate transformation module
358: Unique Font / Universal Font Information Integration Module
360: personal information detection module 362: masking module

Claims (8)

HWP 어플리케이션 내의 HWP 인쇄모듈로부터 인쇄 파일에 포함된 개인정보를 검출하고 검출된 개인정보에 대하여 마스킹을 수행하는 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 시스템에 있어서,
상기 HWP 인쇄모듈에서 출력되는 텍스트 중 상기 HWP 어플리케이션에서 고유하게 사용되는 고유 글꼴 텍스트를 인식하고, 상기 고유 글꼴 텍스트가 이미지 또는 벡터 그래픽으로 변환되기 전에 고유 글꼴 텍스트 정보를 추출하는 고유글꼴정보 추출모듈;
상기 HWP 인쇄모듈에서 출력되는 텍스트 중 범용적으로 사용되는 범용 글꼴 텍스트를 인식하여 범용 글꼴 텍스트 정보를 추출하는 범용글꼴정보 추출모듈;
운영체제의 그래픽 함수에서 사용하는 상기 고유 글꼴 텍스트의 논리좌표를 인식하고, 상기 논리좌표를 인쇄물 상의 절대 좌표인 상기 범용 글꼴 텍스트의 인쇄좌표에 대응하여 좌표 변환하는 좌표 변환모듈;
상기 좌표 변환모듈에 의해 좌표 변환된 고유글꼴정보와 상기 범용글꼴정보 추출모듈에서 추출된 범용글꼴정보를 통합하여 단위 텍스트의 위치 및 크기 정보를 포함하는 통합 텍스트 정보를 생성하는 고유글꼴/범용글꼴 정보 통합모듈;
상기 통합 텍스트 정보로부터 개인정보가 포함된 개인정보 텍스트를 검출하는 개인정보 검출모듈; 및
상기 개인정보 텍스트 중 적어도 일부를 설정된 마스킹 문자로 변환하되, 상기 개인정보 텍스트의 인쇄좌표와 동일한 인쇄좌표 상에 상기 개인정보 텍스트와 동일한 위치 및 크기로 상기 마스킹 문자를 마스킹하는 마스킹 모듈
을 포함하는 것을 특징으로 하는 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 시스템.
A printing position based personal information detection and masking system for an HWP file for detecting personal information contained in a print file from an HWP printing module in an HWP application and masking the detected personal information,
A unique font information extraction module that recognizes a unique font text uniquely used in the HWP application among the texts output from the HWP printing module and extracts unique font text information before the unique font text is converted into an image or a vector graphic;
A universal font information extracting module for recognizing general purpose font texts commonly used among texts output from the HWP printing module and extracting general purpose font text information;
A coordinate transformation module for recognizing the logical coordinates of the unique font text used in the graphics function of the operating system and performing coordinate transformation on the logical coordinates corresponding to the printed coordinates of the universal font text which is the absolute coordinate on the printed material;
A unique font / universal font information generating unit for generating the integrated text information including the position and size information of the unit text by integrating the coordinate-converted unique font information by the coordinate transformation module and the universal font information extracted by the general- Integrated module;
A personal information detection module for detecting a personal information text including personal information from the integrated text information; And
A masking module for converting at least a part of the personal information text into a set masking character and masking the masking character with the same position and size as the personal information text on a printing coordinate which is the same as the printing coordinate of the personal information text,
Printing location based personal information detection and masking system of an HWP file.
삭제delete 제1항에 있어서,
상기 고유글꼴/범용글꼴 정보 통합모듈에서 생성되는 상기 통합 텍스트 정보는 단위 텍스트의 글꼴 정보를 더 포함하며, 상기 마스킹 모듈은 상기 마스킹 문자를 상기 개인정보 텍스트와 동일한 글꼴로 마스킹하는 것을 특징으로 하는 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 시스템.
The method according to claim 1,
Wherein the integrated text information generated by the integrated font / universal font information integration module further includes font information of a unit text, and the masking module masks the masking character in the same font as the personal information text. Print location based privacy detection and masking system for files.
제1항 또는 제3항에 있어서,
상기 고유글꼴/범용글꼴 정보 통합모듈에서 생성되는 상기 통합 텍스트 정보는 단위 텍스트의 색상 정보를 더 포함하며, 상기 마스킹 모듈은 상기 마스킹 문자를 상기 개인정보 텍스트와 동일한 색상으로 마스킹하는 것을 특징으로 하는 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 시스템.
The method according to claim 1 or 3,
Wherein the integrated text information generated by the integrated font / universal font information integration module further includes color information of a unit text, and the masking module masks the masking character in the same color as the personal information text. Print location based privacy detection and masking system for files.
HWP 어플리케이션 내의 HWP 인쇄모듈로부터 인쇄 파일에 포함된 개인정보를 검출하고 검출된 개인정보에 대하여 마스킹을 수행하는 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 방법에 있어서,
(a) 상기 HWP 파일의 인쇄를 감시하는 단계;
(b) 상기 단계(a)에서 HWP 파일의 인쇄가 감지되면, 상기 HWP 파일에 포함된 텍스트가 상기 HWP 어플리케이션에서 고유하게 사용되는 고유 글꼴 텍스트인지 범용적으로 사용되는 범용 글꼴 텍스트인지를 판단하는 단계;
(c) 상기 단계(b)에서 판단된 고유 글꼴 텍스트가 이미지 또는 벡터 그래픽으로 변환되기 전에 고유 글꼴 텍스트 정보를 추출하는 단계;
(d) 상기 단계(c)에서 추출된 고유 글꼴 텍스트에 대하여 운영체제의 그래픽 함수에서 사용하는 상기 고유 글꼴 텍스트의 논리좌표를 인식하고, 상기 논리좌표를 인쇄물 상의 절대 좌표인 상기 범용 글꼴 텍스트의 인쇄좌표에 대응하여 좌표 변환하는 단계;
(e) 상기 단계(b)에서 판단된 범용 글꼴 텍스트에 대하여 범용 글꼴 텍스트 정보를 추출하는 단계;
(f) 상기 단계(d)에서 좌표 변환된 고유 글꼴 텍스트 정보와 상기 단계(e)에서 추출된 범용 글꼴 텍스트 정보를 통합하여 단위 텍스트의 위치 및 크기 정보를 포함하는 통합 텍스트 정보를 생성하는 단계;
(g) 상기 통합 텍스트 정보로부터 개인정보가 포함된 개인정보 텍스트를 검출하는 단계; 및
(h) 상기 개인정보 텍스트 중 적어도 일부를 동일한 인쇄좌표 상에서 마스킹 문자로 대체하여 마스킹 동작을 수행하되, 상기 개인정보 텍스트와 동일한 위치 및 크기로 상기 마스킹 문자를 마스킹하는 단계
를 포함하는 것을 특징으로 하는 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 방법.
A printing position based personal information detecting and masking method of an HWP file for detecting personal information included in a print file from an HWP printing module in an HWP application and masking the detected personal information,
(a) monitoring printing of the HWP file;
(b) determining whether the text contained in the HWP file is a unique font text uniquely used in the HWP application or a universal font text used universally when the printing of the HWP file is detected in the step (a) ;
(c) extracting unique font text information before the unique font text determined in step (b) is converted into an image or a vector graphic;
(d) recognizing the logical coordinates of the unique font text used in the graphics function of the operating system with respect to the unique font text extracted in the step (c), recognizing the logical coordinates as print coordinates of the universal font text A coordinate transformation corresponding to the coordinate transformation;
(e) extracting general-purpose font text information on the general-purpose font text determined in step (b);
(f) generating unified text information including the position and size information of the unit text by integrating the coordinate-converted unique font text information in step (d) and the universal font text information extracted in step (e);
(g) detecting a personal information text including personal information from the integrated text information; And
(h) performing a masking operation by replacing at least a portion of the personal information text with masking characters on the same printed coordinate, and masking the masking character with the same position and size as the personal information text
And a printing position based privacy information detection and masking method for an HWP file.
삭제delete 제5항에 있어서,
상기 단계(f)에서 생성되는 상기 통합 텍스트 정보는 단위 텍스트의 글꼴 정보를 더 포함하며,
상기 단계(h)는 상기 개인정보 텍스트와 동일한 글꼴로 상기 마스킹 문자를 마스킹하는 것을 특징으로 하는 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 방법.
6. The method of claim 5,
The integrated text information generated in the step (f) further includes font information of a unit text,
Wherein the step (h) masks the masking character in the same font as the personal information text.
제5항 또는 제7항에 있어서,
상기 단계(f)에서 생성되는 상기 통합 텍스트 정보는 단위 텍스트의 색상 정보를 더 포함하며,
상기 단계(h)는 상기 개인정보 텍스트와 동일한 색상으로 상기 마스킹 문자를 마스킹하는 것을 특징으로 하는 HWP 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 방법.
The method according to claim 5 or 7,
Wherein the integrated text information generated in the step (f) further includes color information of a unit text,
Wherein the step (h) masks the masking character in the same color as the personal information text.
KR1020160125766A 2016-09-29 2016-09-29 Personal data detecting and masking system and method based on printed position of hwp file KR101794169B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160125766A KR101794169B1 (en) 2016-09-29 2016-09-29 Personal data detecting and masking system and method based on printed position of hwp file

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160125766A KR101794169B1 (en) 2016-09-29 2016-09-29 Personal data detecting and masking system and method based on printed position of hwp file

Publications (1)

Publication Number Publication Date
KR101794169B1 true KR101794169B1 (en) 2017-11-06

Family

ID=60384479

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160125766A KR101794169B1 (en) 2016-09-29 2016-09-29 Personal data detecting and masking system and method based on printed position of hwp file

Country Status (1)

Country Link
KR (1) KR101794169B1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102167736B1 (en) 2019-10-02 2020-10-19 (주)아이티 노매즈 System and method for recognizing form image & processing deidentification of it to protect personal information
KR102192235B1 (en) * 2020-05-11 2020-12-17 지엔소프트(주) Device for providing digital document de-identification service based on visual studio tools for office
KR20240044577A (en) 2022-09-28 2024-04-05 주식회사 티사이언티픽 An apparatus and method of AI-based interactive text data pre-processing
KR20240044576A (en) 2022-09-28 2024-04-05 주식회사 티사이언티픽 AI-based interactive text data personal information detection system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013061835A (en) * 2011-09-14 2013-04-04 Seiko Epson Corp Recording control device, control method for recording device, and program
KR101585029B1 (en) * 2015-05-13 2016-01-13 (주)코드원시스템 Recognition and classification system of document

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013061835A (en) * 2011-09-14 2013-04-04 Seiko Epson Corp Recording control device, control method for recording device, and program
KR101585029B1 (en) * 2015-05-13 2016-01-13 (주)코드원시스템 Recognition and classification system of document

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102167736B1 (en) 2019-10-02 2020-10-19 (주)아이티 노매즈 System and method for recognizing form image & processing deidentification of it to protect personal information
KR102192235B1 (en) * 2020-05-11 2020-12-17 지엔소프트(주) Device for providing digital document de-identification service based on visual studio tools for office
KR20240044577A (en) 2022-09-28 2024-04-05 주식회사 티사이언티픽 An apparatus and method of AI-based interactive text data pre-processing
KR20240044576A (en) 2022-09-28 2024-04-05 주식회사 티사이언티픽 AI-based interactive text data personal information detection system

Similar Documents

Publication Publication Date Title
US8155444B2 (en) Image text to character information conversion
US10339378B2 (en) Method and apparatus for finding differences in documents
US7623710B2 (en) Document content and structure conversion
KR101794169B1 (en) Personal data detecting and masking system and method based on printed position of hwp file
US9081412B2 (en) System and method for using paper as an interface to computer applications
US8156416B2 (en) Securing printed output
JP4461769B2 (en) Document retrieval / browsing technique and document retrieval / browsing device
EP2162859A1 (en) Image processing apparatus, image processing method, and computer program
EP2890100B1 (en) Image processing apparatus
US10515286B2 (en) Image processing apparatus that performs compression processing of document file and compression method of document file and storage medium
US11470211B2 (en) Image processing apparatus for generating an electronic file of a document image from an optically captured image, and non-transitory computer readable recording medium that records image processing program for generating an electronic file of a document image from an optically captured image
JP6369034B2 (en) Information processing apparatus, information hiding method, and information hiding program
CN111738901A (en) Storage medium and image processing apparatus
US20140211229A1 (en) Image processing apparatus, an image processing method, and an image processing program
KR101794168B1 (en) Personal data detecting and masking system and method based on printed position of pdf file
KR101805844B1 (en) Personal data detecting and masking system and method based on printed position
US7995869B2 (en) Information processing apparatus, information processing method, and information storing medium
JP2020099031A (en) Information processing apparatus and information processing method
KR101718877B1 (en) Method for driving universal printer driver based on label printer
US10659654B2 (en) Information processing apparatus for generating an image surrounded by a marking on a document, and non-transitory computer readable recording medium that records an information processing program for generating an image surrounded by a marking on a document
JP7246610B2 (en) Image processing device, image processing program and image processing method
KR101741676B1 (en) Security method and system for printing
US20190318190A1 (en) Information processing apparatus, and non-transitory computer readable medium
Ramteke et al. Tesseract OCR Recognition Based on Arabic Machine-Printed Document
Agamamidi et al. Extraction of textual information from images using mobile devices

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant