WO2022139134A1 - Method and device for inspecting digitally-converted content - Google Patents

Method and device for inspecting digitally-converted content Download PDF

Info

Publication number
WO2022139134A1
WO2022139134A1 PCT/KR2021/014028 KR2021014028W WO2022139134A1 WO 2022139134 A1 WO2022139134 A1 WO 2022139134A1 KR 2021014028 W KR2021014028 W KR 2021014028W WO 2022139134 A1 WO2022139134 A1 WO 2022139134A1
Authority
WO
WIPO (PCT)
Prior art keywords
content
inspection
original
text
image
Prior art date
Application number
PCT/KR2021/014028
Other languages
French (fr)
Korean (ko)
Inventor
박종한
Original Assignee
주식회사 펍플
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 펍플 filed Critical 주식회사 펍플
Publication of WO2022139134A1 publication Critical patent/WO2022139134A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection

Definitions

  • the present disclosure relates to a digital conversion content verification method and apparatus.
  • Digital-converted content refers to content converted by structuring original content according to a predetermined process.
  • digital conversion content such as html format may be produced by using original content in PDF format, which is a format for printing.
  • 1 is an exemplary view showing a conventional digital conversion content inspection method.
  • this method has a problem in that, in converting a large amount of original content or original content including a large amount of pages to digitally converted content, the efficiency of inspection time and manpower is lowered. Furthermore, there is a limitation in that the accuracy of the inspection is lowered due to the accumulation of mistakes and/or fatigue that may occur according to the long-term work of the inspector.
  • the main purpose of the present disclosure is to provide a digital conversion content inspection method and apparatus that can increase the accuracy of digital conversion content production by detecting typos, small objects, hidden data, and image color change that are difficult for inspectors to visually check. have.
  • the present disclosure provides a digitally converted content inspection method capable of producing digitally converted content in consideration of cross browsing by comparing a screen actually displayed for each browser with the original content for digitally converted content and to provide a device.
  • original content composed of at least one layer is flattened into a single layer, and text ( text) and an object, the process of generating processed content that is a result of removing text and objects that are hidden by objects included in an upper layer; a pre-examination process of comparing the text recognized from the processed content with the text extracted from the original content; a post-examination process of comparing the original content with digitally converted content produced based on the original content; and creating an inspection report based on a comparison result of the pre-inspection process and the post-inspection process.
  • the original content composed of at least one layer is flattened into a single layer, and the text and objects included in the original content are included in the upper layer.
  • a preprocessor for generating processed content that is a result of removing text and objects obscured by an object; a dictionary check unit comparing the text recognized from the processed content with the text extracted from the original content; a post-examination unit for comparing the original content with digitally converted content produced based on the original content; and a learning unit for creating an inspection report based on a comparison result of the pre-inspection process and the post-inspection process.
  • digitally converted content can be produced in consideration of cross-browsing by comparing the screen actually displayed for each browser with the original content for digitally converted content.
  • 1 is an exemplary view showing a conventional digital conversion content inspection method.
  • FIG. 2 is a block diagram schematically showing an apparatus for inspecting digitally converted content according to an embodiment of the present disclosure.
  • FIG. 3 is a block diagram schematically showing a pre-inspection unit according to an embodiment of the present disclosure.
  • FIG. 4 is a block diagram schematically showing a post inspection unit according to an embodiment of the present disclosure.
  • FIG. 5 is a flowchart illustrating a digital conversion content inspection method according to an embodiment of the present disclosure.
  • FIG. 2 is a block diagram schematically showing an apparatus for inspecting digitally converted content according to an embodiment of the present disclosure.
  • the digital conversion content inspection device 20 includes an input unit 200, a data extraction unit 210, a pre-processing unit 220, a pre-examination unit ( A pre-inspection unit 230 , a conversion unit 240 , a post-inspection unit 250 , a learning unit 260 , and an output unit 270 are included in whole or in part. Not all blocks shown in FIG. 2 are essential components, and in another embodiment, some blocks included in the digital conversion content inspection device 20 may be added, changed, or deleted.
  • the function performed by the conversion unit 240 may be performed by a digital conversion device (not shown), which is a separate stand-alone device that is interlocked with the digital conversion content inspection device 20, , in this case, the digital conversion content inspection device 20 may not include the conversion unit 240 .
  • the input unit 200 receives original content to be digitally converted.
  • the original content may include text information and image information, and preferably a file produced in a PDF (Portable Document Format) format, but is not necessarily limited thereto.
  • PDF Portable Document Format
  • the data extraction unit 210 parses the original content and includes text, object, image, vector data, and layout information of the original content included in the original content. extract etc.
  • the data extractor 210 may temporarily store the extracted data.
  • the data extraction unit 210 provides the extracted data to the dictionary inspection unit 230 and/or the conversion unit 240 .
  • the original content may include one or more pages.
  • the data extraction unit 210 may separate the original content for each page and then extract data for each page.
  • the preprocessor 220 flattens the original content and removes unnecessary text and/or objects from the compressed original content.
  • digital-converted content is a result of complex extracted data, and is preferably produced based on HTML (Hyper Text Mark-up Language).
  • the digitally converted content may include a background image and vector-based text data, and the information included in the digitally converted content is displayed on the screen in an overlapping state based on a layer. .
  • Digitally converted content inspection is a technology for contrasting the layer-based digitally converted content and the surface on which the original content is actually displayed, and it is different from the technology of simply comparing two different images.
  • the preprocessor 220 flattens the original content to unify the layers in the original content. Specifically, the preprocessor 220 may unify the layers by compressing the PDF layer system of the original content. The preprocessor 220 removes text and/or objects obscured by an object in an upper layer from the compressed original content.
  • the preprocessor 220 is configured to perform an upper layer object based on an area, a perimeter, a centroid, and a bounding box of each object and/or text. You can find text and/or objects that are obscured by .
  • the preprocessor 220 determines whether other texts and/or objects are covered by objects of higher layers using computing vision technology for regions where each object and/or a bounding box between texts overlaps. check
  • the preprocessing unit 220 uses a computing vision technology to symmetrically determine whether the text is visible on the screen by symmetrical pixel values of the region where the boundary box between the object and the text overlap and the color values of the text. By checking , it is checked whether the text of the lower layer is obscured by the object of the upper layer.
  • the method of removing the text and/or the obscured object obscured by the object in the upper layer from the compressed original content is not limited to the above-described method, and anyone skilled in the art may add or remove another method. .
  • the pre-inspection unit 230 performs a pre-inspection on the original content from which the hidden text and/or the hidden object has been removed by using a character recognition technology and/or a computer vision technology.
  • the pre-inspection refers to an inspection performed prior to digital conversion content production. Since it takes a considerable amount of time to convert original content into digital conversion content, before performing the conversion process, the pre-examination unit 230 reduces unnecessary conversion time by detecting the cause of errors that may occur in the conversion process in advance. and increase the accuracy of the inspection.
  • the pre-examination unit 230 determines whether the document is encrypted with respect to the original content, whether the document is corrupted, fonts (or subset fonts) in the document, whether bookmarks and/or cut lines are included, etc. can figure out
  • the pre-examination unit 230 may determine whether the conversion unit 240 performs conversion based on the pre-examination result, and may record the pre-examination result in a log format. A detailed description of the pre-inspection unit 230 will be described with reference to FIG. 3 .
  • the converter 240 creates digitally converted content based on text, image, vector data, and/or layout information of the original content extracted from the original content.
  • the conversion unit 240 preferably produces digitally converted content based on HTML (Hyper Text Mark-up Language).
  • the digitally converted content may include a background image, vector-based text data, and the like.
  • the vector-based text data means that text in the original content is converted into a vector image.
  • a vector image is an image format that uses dots and lines to express the outline and fills the inside with color or pattern. It is an image format format that can obtain the same appearance as the original even when enlarged or reduced. Such a vector image has an advantage in that it can always provide a clear image regardless of enlargement/reduction because the boundary line is formed by connecting lines.
  • the vector image may be preferably implemented as SVG (Scalable Vector Graphics), but is not necessarily limited thereto.
  • the post inspection unit 250 compares the original content and the digitally converted content, and generates a post inspection result. A detailed description of the post inspection unit 250 will be described with reference to FIG. 4 .
  • the learning unit 260 determines whether to perform re-conversion based on the pre-examination result and/or the post-examination result.
  • the learning unit 260 learns the pre-examination unit 230 , the conversion unit 240 , and/or the post-examination unit 250 by using the pre-examination result and/or the post-examination result in repeatedly performing the conversion.
  • the learning unit 260 may use a regression analysis model of machine learning.
  • the learning unit 260 reflects the setting value used for digitally converted content conversion and inspection in learning.
  • the set value may include a set value for the crop line and/or a language used to implement a character recognition technology or a computer vision technology, a matching condition, a CMAP value, and the like.
  • the learning unit 260 is The pre-inspection result and/or the post-inspection result are processed and provided to the output unit 270 .
  • the case where there is a difference between the original content and the converted (or reconverted) digitally converted content despite learning and reconversion through regression means that the original content and It may mean a case in which a difference greater than or equal to a preset threshold range exists between converted (or re-converted) digitally converted content.
  • the learning unit 260 may generate an inspection report in the form of JSON (Java Script Object Notation) by processing the pre-inspection result and/or the post-inspection result.
  • the inspection report is data by which the inspector can identify the problem of conversion failure, and may include information on areas or pages where differences occur between the original content and the digitally converted content, information on failure cases, and the like.
  • the output unit 270 provides an inspection report to the user.
  • the output unit 270 may include an output means such as a display to provide the inspection report to the user.
  • the inspector can check the data that can be referenced for the visual inspection based on the inspection report, and can proceed with the next conversion and inspection based on the set values included in the inspection report.
  • the output unit 270 may provide a pre-inspection result and/or a post-inspection result to the user by transmitting the inspection report to a user terminal.
  • the user terminal is a separate, stand-alone device that is interlocked with the digital conversion content inspection device 20, for example, a laptop, a personal computer (PC), a smart phone, a tablet PC. ), a personal digital assistant (PDA), and a mobile communication terminal.
  • FIG. 3 is a block diagram schematically showing a pre-inspection unit according to an embodiment of the present disclosure.
  • the dictionary check unit 230 includes all or part of the text recognition unit 300 and the text comparison unit 310 . Not all blocks shown in FIG. 3 are essential components, and in another embodiment, some blocks included in the pre-examination unit 230 may be added, changed, or deleted.
  • the text recognition unit 300 obtains data from which hidden text and/or hidden objects are removed from the original content (hereinafter, 'processed content') from the preprocessor 220 . After removing the image included in the processed content, the text recognition unit 300 recognizes the text using a character recognition technology. To this end, the text recognition unit 300 according to an embodiment of the present disclosure may include an artificial intelligence-based optical character recognition model (AI-OCR model).
  • AI-OCR model artificial intelligence-based optical character recognition model
  • the text comparison unit 310 compares the text (hereinafter, 'recognized text') obtained by the text recognition unit 300 from the processed content using a character recognition technology with the original content, and generates a pre-examination result.
  • the text comparison unit 310 compares the recognized text and the text extracted from the original content by the preprocessor 220 (hereinafter, 'extracted text').
  • the text comparison unit 310 compares the extracted text and the content of the recognized text, that is, a text value.
  • the text comparison unit 310 compares style information related to coordinates and/or size, such as direction, spacing, and leading, of the recognized text with style information of the extracted text.
  • font information such as spacing and spacing of the font needs to be extracted in order to reconstruct the original content into digitally converted content.
  • font file itself is attached to the original content
  • the characters included in the original content maintain only the glyph form
  • the CMAP information is not clearly present in the original content.
  • the font of the text is recognized as an alternative font, and font information such as spacing and leading is not matched with the actual text. can be calculated differently. Accordingly, when digitally converted content is produced based on the extracted information, a problem such as line break occurring at a location different from the actual original content may occur.
  • the text comparison unit 310 may detect these problems before conversion is performed by comparing the style information of the recognized text and the extracted text.
  • the text comparison unit 310 generates a comparison result as a pre-examination result, and transmits it to the learning unit 260 .
  • FIG. 4 is a block diagram schematically showing a post inspection unit according to an embodiment of the present disclosure.
  • the post inspection unit 250 includes an original image generation unit 400 , a converted image generation unit 410 , an image comparison unit 420 , and a content comparison unit 430 . ) in whole or in part. Not all blocks shown in FIG. 4 are essential components, and in another embodiment, some blocks included in the post inspection unit 250 may be added, changed, or deleted.
  • the original image generator 400 generates an original image that is a surface image obtained by rendering original content.
  • the original image generator 400 generates an original image for each page.
  • the converted image generator 410 generates a converted image that is a screen image obtained by rendering the converted content.
  • the converted image generator 410 generates a converted image for each page.
  • the converted image generating unit 410 generates a converted image for each page of each converted content for each browser, so that it can respond to a cross browsing issue.
  • the image comparison unit 420 performs a resize correction operation for matching the resolutions of the original image and the converted image to the original image and the converted image, and compares the original image and the converted image.
  • the image comparison unit 420 according to an embodiment of the present disclosure compares the original image and the converted image, and determines whether the image color is changed or not, whether there is a change or not, and whether there is a change or not.
  • the image comparison unit 420 may compare one original image for a specific page in the original content and a converted image for each browser corresponding to the original image, respectively.
  • the image comparison unit 420 may compare the original image and the converted image by using an open source library related to computing vision.
  • the image comparison unit 420 may compare the original image and the converted image using a template matching and structural similarity index algorithm provided by Open Source Computer Vision (OpenCV).
  • OpenCV Open Source Computer Vision
  • the template matching algorithm is a method of comparing the converted image on top of the original image and moving the designated area little by little.
  • this template matching is performed for the entire area, it takes a considerable amount of time, which affects the verification time. For this reason, it is possible to perform template matching only for some regions, and then proceed to the next step and compare the differences more precisely by using the structural similarity index algorithm.
  • the content comparison unit 430 compares the original content and the object and/or image included in the digitally converted content.
  • the content comparison unit 430 compares an object included in the original content with a vector-based object included in the digitally converted content. As such, the content comparison unit 430 performs an inspection using data mapping, not an inspection of the area shown on the screen.
  • the content comparison unit 430 may extract only an image from among the objects included in the original content, and may compare it with the image generated in the conversion process in units of pixels.
  • the image comparison unit 420 creates and compares an image for a visible surface
  • the content comparison unit 430 compares the images with the text and/or objects hidden in other objects as well as the objects in the uppermost layer. comparisons can be made.
  • the image comparison unit 420 and the content comparison unit 430 provide the comparison result to the learning unit 260 as a post-test result.
  • FIG. 5 is a flowchart illustrating a digital conversion content inspection method according to an embodiment of the present disclosure.
  • the digital conversion content inspection device 20 extracts data from the original content and generates processed content through a pre-processing process (S500).
  • the digital conversion content inspection apparatus 20 parses the original content and includes text, object, image, and vector data included in the original content ) and layout information of the original content are extracted.
  • the digital conversion content inspection apparatus 20 according to an embodiment of the present disclosure flattens the original content composed of at least one layer into a single layer, and flattens the text and/or objects included in the original content. Creates processed content that removes text and objects that are hidden by objects included in the layer.
  • the digital conversion content inspection device 20 performs a preliminary inspection using the text and processed content extracted from the original content (S510).
  • the digital conversion content inspection apparatus 20 may compare the text value or style information of the text recognized from the processed content and the text extracted from the original content.
  • the style information of the text refers to information related to at least one of the direction, spacing, leading, and size of the text.
  • Digital conversion content inspection apparatus 20 includes whether a document is encrypted with respect to the original content, whether the document is corrupted, a font (or a subset font) in the document, a bookmark, and/or Alternatively, it is possible to determine whether a cut line is included or the like.
  • the digital conversion content inspection device 20 determines whether the pre-examination result satisfies a preset conversion start condition (S520).
  • the preset conversion start conditions include whether the text recognized from the processed content matches the text extracted from the original content, whether the document is encrypted with respect to the original content, whether the document is broken, the font (or subset font) in the document, and the bookmark and/or may be a condition related to whether or not a crop line is included.
  • the digital conversion content inspection device 20 When the pre-examination result does not satisfy the preset conversion start condition, the digital conversion content inspection device 20 outputs the pre-examination result to inform the user that the conversion cannot be performed due to the problem of the original content itself. (S580).
  • the digital conversion content verification apparatus 20 creates digital conversion content based on the data extracted from the original content (S530).
  • the digitally converted content inspection device 20 performs post inspection using the original content and the digitally converted content (S540).
  • the digital conversion content inspection device 20 according to an embodiment of the present disclosure generates an original image and a converted image that are a screen image (surface image) obtained by rendering the original content and the digitally converted content, respectively, and the original image and the converted image can be compared In this case, the digital conversion content inspection device 20 may detect a difference between the original image and the converted image using a template matching algorithm and/or a structural similarity index algorithm.
  • the digitally converted content inspection apparatus 20 may compare an object included in the original content with a vector-based object included in the digitally converted content by using data mapping.
  • the digitally converted content inspection apparatus 20 may compare an image included in the original content with an image included in the digitally converted content in units of pixels.
  • the digital conversion content inspection apparatus 20 checks whether the post inspection result satisfies a preset re-conversion condition (S550). In case the preset reconversion conditions are not satisfied, there is no difference between the original content and the converted content as a result of the post inspection, or the difference between the original content and the converted (or reconverted) digitally converted content despite repeated reconversion It may mean that it exists.
  • the digital conversion content inspection apparatus 20 performs re-conversion and re-examination processes (S500 to S540).
  • the digital conversion content inspection device 20 checks whether the conversion from the original content to the digital conversion content was successful based on the post inspection result (S560).
  • the conversion success means a case in which there is no difference between the original content and the converted content as a result of the post inspection.
  • the digital conversion content inspection device 20 reflects the setting values used for conversion and inspection in learning (S570).
  • the set value may include a set value for the crop line and/or a language used to implement a character recognition technology or a computer vision technology, a matching condition, a CMAP value, and the like.
  • 'language' means a language in which character recognition technology is to be performed, and is a setting value that greatly affects the recognition rate of character recognition technology.
  • the digital conversion content inspection device 20 extracts the text direction by parsing words and/or text from the original content, and after checking the CMAP value, it is possible to grasp information such as font and language, , through the learning process, it is possible to increase the judgment rate for text direction, rotation, and language setting.
  • the digital conversion content inspection device 20 may provide the user with information necessary for visual inspection by outputting a pre-inspection result and/or a post-inspection result (S580) .
  • the digital conversion content inspection apparatus 20 may create an inspection report based on a pre-inspection result and/or a post-inspection result.
  • the inspection report may include information about a page or area in which a difference exists between the original content and the digitally converted content, a conversion failure case, and the like.
  • the digital conversion content inspection device 20 according to an embodiment of the present disclosure is not only information about the set value used for inspection and/or conversion, but also information that the inspector can actually refer to during visual inspection. can be provided to
  • FIG. 5 is not limited to a time-series order.
  • Various implementations of the systems and techniques described herein may be implemented in digital electronic circuitry, integrated circuitry, field programmable gate array (FPGA), application specific integrated circuit (ASIC), computer hardware, firmware, software, and/or combination can be realized. These various implementations may include being implemented in one or more computer programs executable on a programmable system.
  • the programmable system includes at least one programmable processor (which may be a special purpose processor) coupled to receive data and instructions from, and transmit data and instructions to, a storage system, at least one input device, and at least one output device. or may be a general-purpose processor).
  • Computer programs also known as programs, software, software applications or code
  • the computer-readable recording medium includes all types of recording devices in which data readable by a computer system is stored. These computer-readable recording media are non-volatile or non-transitory, such as ROM, CD-ROM, magnetic tape, floppy disk, memory card, hard disk, magneto-optical disk, and storage device. It may be a medium, and may further include a transitory medium such as a data transmission medium. In addition, the computer-readable recording medium may be distributed in a network-connected computer system, and the computer-readable code may be stored and executed in a distributed manner.
  • a programmable computer includes a programmable processor, a data storage system (including volatile memory, non-volatile memory, or other types of storage systems or combinations thereof), and at least one communication interface.
  • a programmable computer may be one of a server, a network appliance, a set-top box, an embedded device, a computer expansion module, a personal computer, a laptop, a Personal Data Assistant (PDA), a cloud computing system, or a mobile device.
  • PDA Personal Data Assistant

Abstract

A method and a device for inspecting digitally-converted content are disclosed. According to one aspect of the present disclosure, provided is a method for inspecting digitally-converted content performed by a digitally-converted content inspection device, comprising: a process of flattening original content composed of at least one layer into a single layer, and generating processed content that is the result of removing, from among text and objects contained in the original content, text and objects obscured by an object included in an upper layer; a pre-inspection process of comparing text recognized from the processed content with text extracted from the original content; a post-inspection process of comparing the original content with digitally-converted content produced on the basis of the original content; and a process of preparing an inspection report on the basis of the comparison result of the pre-inspection process and the post-inspection process.

Description

디지털 변환 콘텐츠 검수방법 및 장치Digital conversion content inspection method and device
본 개시는 디지털 변환 콘텐츠 검수방법 및 장치에 관한 것이다.The present disclosure relates to a digital conversion content verification method and apparatus.
이 부분에 기술된 내용은 단순히 본 발명에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.The content described in this section merely provides background information on the present invention and does not constitute the prior art.
디지털 변환 콘텐츠(digital-converted content)란, 원본 콘텐츠(original content)를 정해진 프로세스에 따라 구조화하여 변환한 콘텐츠를 의미한다. 일 예로, 인쇄용 포맷인 PDF 포맷의 원본 콘텐츠를 이용하여, html 포맷 등의 디지털 변환 콘텐츠를 제작할 수 있다.Digital-converted content refers to content converted by structuring original content according to a predetermined process. For example, digital conversion content such as html format may be produced by using original content in PDF format, which is a format for printing.
도 1은 종래의 디지털 변환 콘텐츠 검수 방법을 나타내는 예시도이다. 1 is an exemplary view showing a conventional digital conversion content inspection method.
도 1에 도시하듯이, 디지털 변환 콘텐츠가 제대로 제작되었는지 확인하기 위해서는, 일반적으로 검수자가 원본 콘텐츠가 표시되는 화면과 디지털 변환 콘텐츠가 표시되는 화면을 육안으로 직접 비교하여야 한다.As shown in Figure 1, in order to check whether the digitally converted content is properly produced, in general, the inspector must directly compare the screen on which the original content is displayed and the screen on which the digitally converted content is displayed.
그러나 이러한 방식은, 다량의 원본 콘텐츠 또는 다량의 페이지를 포함하는 원본 콘텐츠를 디지털 변환 콘텐츠로 변환함에 있어, 검수 시간과 인력에 대한 효율성이 떨어진다는 문제점이 있다. 나아가, 검수자의 장기적인 작업에 따라 발생할 수 있는 실수 및/또는 피로도 누적 등으로 인해 검수의 정확성이 떨어진다는 한계점을 지니고 있다. However, this method has a problem in that, in converting a large amount of original content or original content including a large amount of pages to digitally converted content, the efficiency of inspection time and manpower is lowered. Furthermore, there is a limitation in that the accuracy of the inspection is lowered due to the accumulation of mistakes and/or fatigue that may occur according to the long-term work of the inspector.
특히, 검수자가 원본 콘텐츠와 디지털 변환 콘텐츠 내 동일 페이지를 동시에 보며 검수할 수 있는 검수 인터페이스를 이용하더라도, 오탈자 및 인쇄용 원본 콘텐츠에서 디지털 변환 콘텐츠로 변환 시 발생하는 이미지 색 변질 차이 등은 검수자가 육안으로 직접 찾아내기 어렵다는 문제점이 존재한다. In particular, even if the inspector uses the inspection interface that allows the inspector to simultaneously view and inspect the same page in the original content and the digitally converted content, typos and differences in image color change that occur when converting the original content for printing into the digitally converted content, etc. There is a problem that it is difficult to find directly.
본 개시는, 검수자가 육안으로 확인하기 어려운 오탈자, 작은 오브젝트, 숨겨진 데이터 및 이미지 색상 변질 등을 검출하여 디지털 변환 콘텐츠 제작의 정확도를 높일 수 있는 디지털 변환 콘텐츠 검수방법 및 장치를 제공하는 데 주된 목적이 있다.The main purpose of the present disclosure is to provide a digital conversion content inspection method and apparatus that can increase the accuracy of digital conversion content production by detecting typos, small objects, hidden data, and image color change that are difficult for inspectors to visually check. have.
나아가 본 개시는, 디지털 변환 콘텐츠에 대해 각 브라우저(browser)별로 실제 보여지는 화면(surface)을 원본 콘텐츠와 대조함으로써, 크로스 브라우징(cross browsing)을 고려한 디지털 변환 콘텐츠를 제작할 수 있는 디지털 변환 콘텐츠 검수방법 및 장치를 제공하는 데 주된 목적이 있다.Furthermore, the present disclosure provides a digitally converted content inspection method capable of producing digitally converted content in consideration of cross browsing by comparing a screen actually displayed for each browser with the original content for digitally converted content and to provide a device.
본 개시의 일 측면에 의하면, 디지털 변환 콘텐츠 검수장치에 의해 수행되는 검수방법으로서, 적어도 하나의 레이어(layer)로 구성된 원본 콘텐츠를 단일 레이어로 압축(flatten)하고, 상기 원본 콘텐츠에 포함된 텍스트(text) 및 오브젝트(object) 중에서 상위 레이어에 포함된 오브젝트에 의해 가려진 텍스트 및 오브젝트를 제거한 결과인 가공 콘텐츠를 생성하는 과정; 상기 가공 콘텐츠로부터 인식된 텍스트와 상기 원본 콘텐츠로부터 추출된 텍스트를 비교하는 사전 검수과정; 상기 원본 콘텐츠와 상기 원본 콘텐츠를 기반으로 제작된 디지털 변환 콘텐츠를 비교하는 사후 검수과정; 및 상기 사전 검수과정 및 상기 사후 검수과정의 비교 결과를 기반으로 검수 리포트(inspection report)를 작성하는 과정을 포함하는 것을 특징으로 하는 디지털 변환 콘텐츠 검수방법을 제공한다.According to an aspect of the present disclosure, as an inspection method performed by a digital conversion content inspection apparatus, original content composed of at least one layer is flattened into a single layer, and text ( text) and an object, the process of generating processed content that is a result of removing text and objects that are hidden by objects included in an upper layer; a pre-examination process of comparing the text recognized from the processed content with the text extracted from the original content; a post-examination process of comparing the original content with digitally converted content produced based on the original content; and creating an inspection report based on a comparison result of the pre-inspection process and the post-inspection process.
본 개시의 다른 측면에 의하면, 적어도 하나의 레이어(layer)로 구성된 원본 콘텐츠를 단일 레이어로 압축(flatten)하고, 상기 원본 콘텐츠에 포함된 텍스트(text) 및 오브젝트(object) 중에서 상위 레이어에 포함된 오브젝트에 의해 가려진 텍스트 및 오브젝트를 제거한 결과인 가공 콘텐츠를 생성하는 전처리부; 상기 가공 콘텐츠로부터 인식된 텍스트와 상기 원본 콘텐츠로부터 추출된 텍스트를 비교하는 사전 검수부; 상기 원본 콘텐츠와 상기 원본 콘텐츠를 기반으로 제작된 디지털 변환 콘텐츠를 비교하는 사후 검수부; 및 상기 사전 검수과정 및 상기 사후 검수과정의 비교 결과를 기반으로 검수 리포트(inspection report)를 작성하는 학습부를 포함하는 것을 특징으로 하는 디지털 변환 콘텐츠 검수장치를 제공한다.According to another aspect of the present disclosure, the original content composed of at least one layer is flattened into a single layer, and the text and objects included in the original content are included in the upper layer. a preprocessor for generating processed content that is a result of removing text and objects obscured by an object; a dictionary check unit comparing the text recognized from the processed content with the text extracted from the original content; a post-examination unit for comparing the original content with digitally converted content produced based on the original content; and a learning unit for creating an inspection report based on a comparison result of the pre-inspection process and the post-inspection process.
이상에서 설명한 바와 같이 본 개시의 실시예에 의하면, 검수자가 육안으로 확인하기 어려운 오탈자, 작은 오브젝트, 숨겨진 데이터 및 이미지 색상 변질 등을 검출하여 디지털 변환 콘텐츠 제작의 정확도를 높일 수 있다. 이에 따라, 검수 시간 및 검수에 필요한 인력을 최소화할 수 있으며, 육안 검수의 단점을 보완할 수 있다.As described above, according to the exemplary embodiment of the present disclosure, it is possible to increase the accuracy of digitally converted content production by detecting typos, small objects, hidden data, and image color change that are difficult for an inspector to check with the naked eye. Accordingly, inspection time and manpower required for inspection can be minimized, and the shortcomings of visual inspection can be supplemented.
나아가, 본 개시의 실시예에 의하면, 디지털 변환 콘텐츠에 대해 각 브라우저별로 실제 보여지는 화면을 원본 콘텐츠와 대조함으로써, 크로스 브라우징을 고려한 디지털 변환 콘텐츠 제작이 가능하다는 효과가 있다.Furthermore, according to an embodiment of the present disclosure, digitally converted content can be produced in consideration of cross-browsing by comparing the screen actually displayed for each browser with the original content for digitally converted content.
나아가, 본 개시의 실시예에 의하면, 학습을 통해 검수 정확도 향상 및 검수 시간 단축을 점진적으로 이루어낼 수 있으며, 특히 언어별로 텍스트 방향, 회전 여부 및 외국어의 예외처리에 대한 판단율을 높여 디지털 변환 콘텐츠를 생성하기까지의 전체 과정에 대한 자동화를 이뤄낼 수 있다.Furthermore, according to an embodiment of the present disclosure, it is possible to gradually improve the inspection accuracy and reduce the inspection time through learning, and in particular, by increasing the judgment rate for text direction, rotation, and foreign language exception handling for each language, digitally converted content It is possible to achieve automation of the entire process from creation to creation.
도 1은 종래의 디지털 변환 콘텐츠 검수방법을 나타내는 예시도이다.1 is an exemplary view showing a conventional digital conversion content inspection method.
도 2는 본 개시의 일 실시예에 따른 디지털 변환 콘텐츠 검수장치를 개략적으로 나타낸 블록 구성도이다.2 is a block diagram schematically showing an apparatus for inspecting digitally converted content according to an embodiment of the present disclosure.
도 3은 본 개시의 일 실시예에 따른 사전 검수부를 개략적으로 나타낸 블록 구성도이다.3 is a block diagram schematically showing a pre-inspection unit according to an embodiment of the present disclosure.
도 4는 본 개시의 일 실시예에 따른 사후 검수부를 개략적으로 나타낸 블록 구성도이다.4 is a block diagram schematically showing a post inspection unit according to an embodiment of the present disclosure.
도 5는 본 개시의 일 실시예에 따른 디지털 변환 콘텐츠 검수방법을 나타내는 순서도이다. 5 is a flowchart illustrating a digital conversion content inspection method according to an embodiment of the present disclosure.
이하, 본 개시의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.Hereinafter, some embodiments of the present disclosure will be described in detail with reference to exemplary drawings. In adding reference numerals to the components of each drawing, it should be noted that the same components are given the same reference numerals as much as possible even though they are indicated on different drawings. In addition, in describing the present disclosure, if it is determined that a detailed description of a related known configuration or function may obscure the gist of the present disclosure, the detailed description thereof will be omitted.
또한, 본 개시의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '…부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.In addition, in describing the components of the present disclosure, terms such as first, second, A, B, (a), (b), etc. may be used. These terms are only for distinguishing the elements from other elements, and the essence, order, or order of the elements are not limited by the terms. Throughout the specification, when a part 'includes' or 'includes' a certain element, this means that other elements may be further included, rather than excluding other elements, unless otherwise stated. . In addition, the '... Terms such as 'unit' and 'module' mean a unit that processes at least one function or operation, which may be implemented as hardware or software or a combination of hardware and software.
도 2는 본 개시의 일 실시예에 따른 디지털 변환 콘텐츠 검수장치를 개략적으로 나타낸 블록 구성도이다.2 is a block diagram schematically showing an apparatus for inspecting digitally converted content according to an embodiment of the present disclosure.
도 2를 참조하면, 본 개시의 일 실시예에 따른 디지털 변환 콘텐츠 검수장치(20)는 입력부(200), 데이터 추출부(210), 전처리부(pre-processing unit, 220), 사전 검수부(pre-inspection unit, 230), 변환부(240), 사후 검수부(post-inspection unit, 250), 학습부(260) 및 출력부(270)를 전부 또는 일부 포함한다. 도 2에 도시된 모든 블록이 필수 구성요소는 아니며, 다른 실시예에서 디지털 변환 콘텐츠 검수장치(20)에 포함된 일부 블록이 추가, 변경 또는 삭제될 수 있다. 예컨대, 본 개시의 다른 실시예에 따르면, 변환부(240)가 수행하는 기능이 디지털 변환 콘텐츠 검수장치(20)와 연동되는 별개의 자립형 장치인 디지털 변환장치(미도시)에 의해 수행될 수 있으며, 이 경우 디지털 변환 콘텐츠 검수장치(20)는 변환부(240)를 포함하지 않을 수 있다. 2, the digital conversion content inspection device 20 according to an embodiment of the present disclosure includes an input unit 200, a data extraction unit 210, a pre-processing unit 220, a pre-examination unit ( A pre-inspection unit 230 , a conversion unit 240 , a post-inspection unit 250 , a learning unit 260 , and an output unit 270 are included in whole or in part. Not all blocks shown in FIG. 2 are essential components, and in another embodiment, some blocks included in the digital conversion content inspection device 20 may be added, changed, or deleted. For example, according to another embodiment of the present disclosure, the function performed by the conversion unit 240 may be performed by a digital conversion device (not shown), which is a separate stand-alone device that is interlocked with the digital conversion content inspection device 20, , in this case, the digital conversion content inspection device 20 may not include the conversion unit 240 .
입력부(200)는 디지털 변환을 수행할 원본 콘텐츠(original content)를 입력받는다. 원본 콘텐츠는 텍스트 정보 및 이미지 정보를 포함하여 구성될 수 있으며, PDF(Portable Document Format) 형태로 제작된 파일인 것이 바람직하나 반드시 이에 한정되는 것은 아니다.The input unit 200 receives original content to be digitally converted. The original content may include text information and image information, and preferably a file produced in a PDF (Portable Document Format) format, but is not necessarily limited thereto.
데이터 추출부(210)는 원본 콘텐츠를 파싱(parsing)하여 원본 콘텐츠에 포함된 텍스트(text), 오브젝트(object), 이미지(image), 벡터 데이터(vector data) 및 원본 콘텐츠의 레이아웃(layout) 정보 등을 추출한다. 본 개시의 일 실시예에 따른 데이터 추출부(210)는 추출한 데이터들을 일시적으로 저장할 수 있다. The data extraction unit 210 parses the original content and includes text, object, image, vector data, and layout information of the original content included in the original content. extract etc. The data extractor 210 according to an embodiment of the present disclosure may temporarily store the extracted data.
데이터 추출부(210)는 추출한 데이터들을 사전 검수부(230) 및/또는 변환부(240)에게 제공한다. The data extraction unit 210 provides the extracted data to the dictionary inspection unit 230 and/or the conversion unit 240 .
한편, 이하에서는 원본 콘텐츠가 하나의 페이지(page)로 구성되는 경우를 예로 들어 설명하나 이는 설명의 편의를 위한 것으로서 원본 콘텐츠는 하나 이상의 페이지를 포함하여 구성될 수 있다. 원본 콘텐츠가 복수의 페이지로 구성되는 경우, 데이터 추출부(210)는 원본 콘텐츠를 페이지별로 분리한 후, 페이지별로 데이터를 추출할 수 있다. Meanwhile, hereinafter, the case in which the original content consists of one page will be described as an example, but this is for convenience of description and the original content may include one or more pages. When the original content consists of a plurality of pages, the data extraction unit 210 may separate the original content for each page and then extract data for each page.
전처리부(220)는 원본 콘텐츠에 대한 압축(flatten)을 수행하고, 압축된 원본 콘텐츠에서 불필요한 텍스트 및/또는 오브젝트를 제거한다. The preprocessor 220 flattens the original content and removes unnecessary text and/or objects from the compressed original content.
본 개시에서 디지털 변환 콘텐츠(digital-converted content)는 복합 추출데이터의 결과물로서, 바람직하게는 HTML(Hyper Text Mark-up Language)을 기반으로 제작된다. 디지털 변환 콘텐츠는 백그라운드 이미지(background image) 및 벡터 기반의 텍스트 데이터 등을 포함하여 구성될 수 있는데, 이러한 디지털 변환 콘텐츠에 포함된 정보들은 레이어(layer) 기반으로 오버랩(overlap) 상태로 화면에 표시된다. In the present disclosure, digital-converted content is a result of complex extracted data, and is preferably produced based on HTML (Hyper Text Mark-up Language). The digitally converted content may include a background image and vector-based text data, and the information included in the digitally converted content is displayed on the screen in an overlapping state based on a layer. .
디지털 변환 콘텐츠 검수는 레이어 기반의 디지털 변환 콘텐츠와 원본 콘텐츠가 실제로 보여지는 화면(surface)을 대조하기 위한 기술로서, 단순히 서로 다른 두 이미지를 대조하는 기술과는 차이가 있다.Digitally converted content inspection is a technology for contrasting the layer-based digitally converted content and the surface on which the original content is actually displayed, and it is different from the technology of simply comparing two different images.
또한, 종래의 문자인식(character recognition)기술 및/또는 컴퓨터 비전(computer vision)기술만으로는 최상위 레이어에 노출되는 텍스트 및/또는 오브젝트(object)가 아닌, 다른 오브젝트 안에 숨겨진 텍스트 및/또는 오브젝트에 대한 검수가 불가능하기 때문에, 디지털 변환 콘텐츠 검수를 위한 특유의 처리 방식이 필요하다.In addition, the conventional character recognition (character recognition) technology and / or computer vision (computer vision) technology alone, not the text and / or object (object) exposed to the top layer, other than the text and / or object hidden in another object inspection Because it is impossible, a unique processing method for digitally converted content verification is required.
이러한 점에 기인하여, 본 개시의 일 실시에 따른 전처리부(220)는 원본 콘텐츠를 압축(flatten)하여 원본 콘텐츠 내의 레이어를 단일화한다. 구체적으로, 전처리부(220)는 원본 콘텐츠의 PDF 레이어 시스템을 압축하여 레이어를 단일화할 수 있다. 전처리부(220)는 압축된 원본 콘텐츠로부터 상위 레이어에 있는 오브젝트에 의해 가려진 텍스트 및/또는 가려진 오브젝트를 제거한다. Due to this, the preprocessor 220 according to an embodiment of the present disclosure flattens the original content to unify the layers in the original content. Specifically, the preprocessor 220 may unify the layers by compressing the PDF layer system of the original content. The preprocessor 220 removes text and/or objects obscured by an object in an upper layer from the compressed original content.
본 개시의 일 실시예에 따른 전처리부(220)는 각 오브젝트 및/또는 텍스트의 영역(area), 둘레(perimeter), 중심(centroid) 및 경계 상자(bounding box) 등에 기초하여, 상위 레이어의 오브젝트에 의해 가려진 텍스트 및/또는 가려진 오브젝트를 찾아낼 수 있다. 본 개시의 일 실시예에 따른 전처리부(220)는 각 오브젝트 및/또는 텍스트 간의 경계 상자가 겹치는 영역에 대해, 컴퓨팅 비전 기술을 이용하여 상위 레이어의 오브젝트에 의해 다른 텍스트 및/또는 오브젝트가 가려지는지를 확인한다. The preprocessor 220 according to an embodiment of the present disclosure is configured to perform an upper layer object based on an area, a perimeter, a centroid, and a bounding box of each object and/or text. You can find text and/or objects that are obscured by . The preprocessor 220 according to an embodiment of the present disclosure determines whether other texts and/or objects are covered by objects of higher layers using computing vision technology for regions where each object and/or a bounding box between texts overlaps. check
예를 들어, 상위 레이어의 오브젝트에 의해 하위 레이어의 텍스트가 가려지는 경우에, 화면 상에는 텍스트가 보이지 않지만 데이터 추출시에는 해당 텍스트가 추출되게 된다. 이러한 텍스트 정보는 가비지 값(garbage value)이기 때문에, 제거되어야 한다. 다만, 오브젝트 및 텍스트의 경계상자가 겹치더라도, 오브젝트에 의해 텍스트가 가려진다고 단정할 수 없다. 따라서, 본 개시의 일 실시예에 따른 전처리부(220)는 컴퓨팅 비전 기술을 이용하여 오브젝트 및 텍스트 간의 경계 상자가 겹치는 영역의 픽셀 값과 텍스트의 컬러 값을 대칭하여, 화면 상에 텍스트가 보이는지 여부를 확인함으로써, 상위 레이어의 오브젝트에 의해 하위 레이어의 텍스트가 가려지는지 여부를 확인한다. For example, when text in a lower layer is covered by an object in an upper layer, the text is not visible on the screen, but the text is extracted when data is extracted. Since such text information is a garbage value, it should be removed. However, even if the bounding boxes of the object and the text overlap, it cannot be concluded that the text is covered by the object. Accordingly, the preprocessing unit 220 according to an embodiment of the present disclosure uses a computing vision technology to symmetrically determine whether the text is visible on the screen by symmetrical pixel values of the region where the boundary box between the object and the text overlap and the color values of the text. By checking , it is checked whether the text of the lower layer is obscured by the object of the upper layer.
한편, 압축된 원본 콘텐츠로부터 상위 레이어에 있는 오브젝트에 의해 가려진 텍스트 및/또는 가려진 오브젝트를 제거하는 방법은 전술한 방법에 한정되지 않으며, 통상의 기술자라면 누구든지 다른 방법을 추가하거나 제거할 수 있을 것이다. On the other hand, the method of removing the text and/or the obscured object obscured by the object in the upper layer from the compressed original content is not limited to the above-described method, and anyone skilled in the art may add or remove another method. .
사전 검수부(230)는 숨겨진 텍스트 및/또는 숨겨진 오브젝트가 제거된 원본 콘텐츠에 대해 문자인식기술 및/또는 컴퓨터 비전기술을 이용하여 사전 검수(pre-inspection)를 수행한다. 여기서, 사전 검수란 디지털 변환 콘텐츠 제작에 선행하여 수행되는 검수를 의미한다. 원본 콘텐츠를 디지털 변환 콘텐츠로 변환하는 데에는 상당한 시간이 소요되기 때문에, 변환 과정을 수행하기에 앞서 사전 검수부(230)가 변환 과정에서 발생할 수 있는 오류의 원인을 사전에 검출함으로써 불필요한 변환 시간을 단축하고 검수의 정확도를 높일 수 있다. 예를 들어, 사전 검수부(230)는 원본 콘텐츠에 대하여 문서의 암호화 여부, 문서의 깨짐(corrupt) 유무, 문서 내 폰트(또는 서브 셋 폰트), 북마크(bookmark) 및/또는 재단선 포함 여부 등을 파악할 수 있다. 사전 검수부(230)는 사전 검수결과를 바탕으로 변환부(240)가 변환을 수행할지 여부를 결정할 수 있으며, 사전 검수결과를 로그(log)형태로 기록할 수 있다. 사전 검수부(230)에 대한 구체적인 설명은 도 3을 참조하여 설명하기로 한다.The pre-inspection unit 230 performs a pre-inspection on the original content from which the hidden text and/or the hidden object has been removed by using a character recognition technology and/or a computer vision technology. Here, the pre-inspection refers to an inspection performed prior to digital conversion content production. Since it takes a considerable amount of time to convert original content into digital conversion content, before performing the conversion process, the pre-examination unit 230 reduces unnecessary conversion time by detecting the cause of errors that may occur in the conversion process in advance. and increase the accuracy of the inspection. For example, the pre-examination unit 230 determines whether the document is encrypted with respect to the original content, whether the document is corrupted, fonts (or subset fonts) in the document, whether bookmarks and/or cut lines are included, etc. can figure out The pre-examination unit 230 may determine whether the conversion unit 240 performs conversion based on the pre-examination result, and may record the pre-examination result in a log format. A detailed description of the pre-inspection unit 230 will be described with reference to FIG. 3 .
변환부(240)는 원본 콘텐츠로부터 추출된 텍스트, 이미지, 벡터 데이터 및/또는 원본 콘텐츠의 레이아웃 정보를 기반으로 디지털 변환 콘텐츠를 제작한다. The converter 240 creates digitally converted content based on text, image, vector data, and/or layout information of the original content extracted from the original content.
본 개시의 일 실시예에 따른 변환부(240)는 바람직하게는 HTML(Hyper Text Mark-up Language)을 기반으로 디지털 변환 콘텐츠를 제작한다. 디지털 변환 콘텐츠는 백그라운드 이미지(background image), 벡터 기반의 텍스트 데이터 등을 포함하여 구성될 수 있다. 여기서, 벡터 기반의 텍스트 데이터란, 원본 콘텐츠 내의 텍스트를 벡터 이미지(vector image)로 변환한 것을 의미한다. 벡터 이미지는 점과 선을 사용해 외곽선을 표현하고, 내부에 색상이나 패턴을 채워 만든 이미지로서 확대 및 축소 시에도 원본과 동일한 모습을 얻을 수 있는 이미지 포맷 형식이다. 이러한, 벡터 이미지는 경계선이 선의 연결로 이루어져 있기 때문에 확대/축소와 무관하게 항상 선명한 이미지를 제공할 수 있다는 장점이 있다. 벡터 이미지는 바람직하게는 SVG(Scalable Vector Graphics)으로 구현될 수 있으나 반드시 이에 한정되는 것은 아니다.The conversion unit 240 according to an embodiment of the present disclosure preferably produces digitally converted content based on HTML (Hyper Text Mark-up Language). The digitally converted content may include a background image, vector-based text data, and the like. Here, the vector-based text data means that text in the original content is converted into a vector image. A vector image is an image format that uses dots and lines to express the outline and fills the inside with color or pattern. It is an image format format that can obtain the same appearance as the original even when enlarged or reduced. Such a vector image has an advantage in that it can always provide a clear image regardless of enlargement/reduction because the boundary line is formed by connecting lines. The vector image may be preferably implemented as SVG (Scalable Vector Graphics), but is not necessarily limited thereto.
사후 검수부(250)는 원본 콘텐츠 및 디지털 변환 콘텐츠를 대조하여, 사후 검수결과를 생성한다. 사후 검수부(250)에 대한 구체적인 설명은 도 4를 참조하여 설명하기로 한다. The post inspection unit 250 compares the original content and the digitally converted content, and generates a post inspection result. A detailed description of the post inspection unit 250 will be described with reference to FIG. 4 .
학습부(260)는 사전 검수결과 및/또는 사후 검수결과에 기반하여, 재변환 수행 여부를 판단한다. 학습부(260)는 변환을 반복 수행함에 있어, 사전 검수결과 및/또는 사후 검수결과를 이용하여, 사전 검수부(230), 변환부(240) 및/또는 사후 검수부(250)를 학습시킨다. 본 개시의 일 실시예에 따른 학습부(260)는 기계학습(Machine Learning)의 회귀분석모델(regression analysis model)을 이용할 수 있다. The learning unit 260 determines whether to perform re-conversion based on the pre-examination result and/or the post-examination result. The learning unit 260 learns the pre-examination unit 230 , the conversion unit 240 , and/or the post-examination unit 250 by using the pre-examination result and/or the post-examination result in repeatedly performing the conversion. . The learning unit 260 according to an embodiment of the present disclosure may use a regression analysis model of machine learning.
원본 콘텐츠와 변환(또는 재변환된)된 디지털 변환 콘텐츠 간에 차이가 없는 경우, 학습부(260)는 디지털 변환 콘텐츠 변환 및 검수에 사용된 설정값을 학습에 반영한다. 여기서, 설정 값은 재단선에 대한 설정 값 및/또는 문자인식기술이나 컴퓨터 비전기술을 구현하기 위해 사용된 언어, 매칭 조건 및 CMAP 값 등을 포함할 수 있다.When there is no difference between the original content and the converted (or reconverted) digitally converted content, the learning unit 260 reflects the setting value used for digitally converted content conversion and inspection in learning. Here, the set value may include a set value for the crop line and/or a language used to implement a character recognition technology or a computer vision technology, a matching condition, a CMAP value, and the like.
한편, 원본 콘텐츠 자체의 문제로 변환이 불가능하거나, 회귀를 통한 학습 및 재변환에도 불구하고 원본 콘텐츠와 변환(또는 재변환된)된 디지털 변환 콘텐츠 간 차이가 존재하는 경우, 학습부(260)는 사전 검수결과 및/또는 사후 검수결과를 가공하여 출력부(270)에게 제공한다. 여기서, 회귀를 통한 학습 및 재변환에도 불구하고 원본 콘텐츠와 변환(또는 재변환된)된 디지털 변환 콘텐츠 간 차이가 존재하는 경우란, 기설정된 임계횟수 이상 재변환을 수행했음에도 불구하고, 원본 콘텐츠와 변환(또는 재변환된)된 디지털 변환 콘텐츠 간 기설정된 임계치 범위 이상의 차이가 존재하는 경우를 의미할 수 있다. 이때, 학습부(260)는 사전 검수결과 및/또는 사후 검수결과를 가공하여, JSON(Java Script Object Notation) 형태의 검수 리포트(inspection report)를 생성할 수 있다. 여기서, 검수 리포트는 검수자가 변환 실패 문제를 파악할 수 있는 데이터로서, 원본 콘텐츠 및 디지털 변환 콘텐츠 내 차이가 발생한 영역 또는 페이지 정보, 실패 케이스 등에 대한 정보를 포함할 수 있다. On the other hand, if conversion is impossible due to a problem of the original content itself, or there is a difference between the original content and the converted (or reconverted) digitally converted content despite learning and reconversion through regression, the learning unit 260 is The pre-inspection result and/or the post-inspection result are processed and provided to the output unit 270 . Here, the case where there is a difference between the original content and the converted (or reconverted) digitally converted content despite learning and reconversion through regression means that the original content and It may mean a case in which a difference greater than or equal to a preset threshold range exists between converted (or re-converted) digitally converted content. In this case, the learning unit 260 may generate an inspection report in the form of JSON (Java Script Object Notation) by processing the pre-inspection result and/or the post-inspection result. Here, the inspection report is data by which the inspector can identify the problem of conversion failure, and may include information on areas or pages where differences occur between the original content and the digitally converted content, information on failure cases, and the like.
출력부(270)는 검수 리포트를 사용자에게 제공한다. 본 개시의 일 실시예에 따른 출력부(270)는 검수 리포트를 사용자에게 제공하기 위해, 디스플레이 등과 같은 출력 수단을 구비할 수 있다. 검수자는 검수 리포트를 바탕으로 육안 검수에 참고할 수 있는 데이터를 확인할 수 있으며, 해당 검수 리포트에 포함된 설정 값 등을 토대로 다음번 변환 및 검수를 진행할 수 있다. The output unit 270 provides an inspection report to the user. The output unit 270 according to an embodiment of the present disclosure may include an output means such as a display to provide the inspection report to the user. The inspector can check the data that can be referenced for the visual inspection based on the inspection report, and can proceed with the next conversion and inspection based on the set values included in the inspection report.
본 개시의 다른 실시예에 따르면, 출력부(270)는 검수 리포트를 사용자 단말(user terminal)에게 전송함으로써 사전 검수결과 및/또는 사후 검수결과를 사용자에게 제공할 수 있다. 여기서 사용자 단말은 디지털 변환 콘텐츠 검수장치(20)와 연동되는 별개의 자립형 장치로서, 예를 들어 랩톱(laptop), 개인용 컴퓨터(PC: Personal Computer), 스마트폰(smart phone), 태블릿 PC(tablet PC), 개인휴대용 정보단말기(PDA: Personal Digital Assistant) 및 이동통신 단말기(mobile communication terminal) 등 중 어느 하나일 수 있다.According to another embodiment of the present disclosure, the output unit 270 may provide a pre-inspection result and/or a post-inspection result to the user by transmitting the inspection report to a user terminal. Here, the user terminal is a separate, stand-alone device that is interlocked with the digital conversion content inspection device 20, for example, a laptop, a personal computer (PC), a smart phone, a tablet PC. ), a personal digital assistant (PDA), and a mobile communication terminal.
도 3은 본 개시의 일 실시예에 따른 사전 검수부를 개략적으로 나타낸 블록 구성도이다.3 is a block diagram schematically showing a pre-inspection unit according to an embodiment of the present disclosure.
도 3에 도시하듯이, 본 개시의 일 실시예에 따른 사전 검수부(230)는 텍스트 인식부(300) 및 텍스트 비교부(310)를 전부 또는 일부 포함한다. 도 3에 도시된 모든 블록이 필수 구성요소는 아니며, 다른 실시예에서 사전 검수부(230)에 포함된 일부 블록이 추가, 변경 또는 삭제될 수 있다. As shown in FIG. 3 , the dictionary check unit 230 according to an embodiment of the present disclosure includes all or part of the text recognition unit 300 and the text comparison unit 310 . Not all blocks shown in FIG. 3 are essential components, and in another embodiment, some blocks included in the pre-examination unit 230 may be added, changed, or deleted.
텍스트 인식부(300)는 전처리부(220)로부터 원본 콘텐츠로부터 숨겨진 텍스트 및/또는 숨겨진 오브젝트가 제거된 데이터(이하, '가공 콘텐츠')를 획득한다. 텍스트 인식부(300)는 가공 콘텐츠에 포함되어 있는 이미지를 제거한 후, 문자 인식(character recognition)기술을 이용하여 텍스트를 인식한다. 이를 위해, 본 개시의 일 실시예에 따른 텍스트 인식부(300)는 인공지능 기반의 광학 문자 인식 모델(AI-OCR model: Artificial Intelligence Optical Character Recognition model)을 구비할 수 있다. The text recognition unit 300 obtains data from which hidden text and/or hidden objects are removed from the original content (hereinafter, 'processed content') from the preprocessor 220 . After removing the image included in the processed content, the text recognition unit 300 recognizes the text using a character recognition technology. To this end, the text recognition unit 300 according to an embodiment of the present disclosure may include an artificial intelligence-based optical character recognition model (AI-OCR model).
텍스트 비교부(310)는 텍스트 인식부(300)가 가공 콘텐츠로부터 문자인식 기술을 이용하여 획득한 텍스트(이하, '인식 텍스트')를 원본 콘텐츠와 비교하여, 사전 검수결과를 생성한다. The text comparison unit 310 compares the text (hereinafter, 'recognized text') obtained by the text recognition unit 300 from the processed content using a character recognition technology with the original content, and generates a pre-examination result.
본 개시의 일 실시예에 따른 텍스트 비교부(310)는 인식 텍스트 및 전처리부(220)가 원본 콘텐츠로부터 추출한 텍스트(이하, '추출 텍스트')를 비교한다.The text comparison unit 310 according to an embodiment of the present disclosure compares the recognized text and the text extracted from the original content by the preprocessor 220 (hereinafter, 'extracted text').
본 개시의 일 실시예에 따른 텍스트 비교부(310)는 추출 텍스트와 인식 텍스트의 내용, 즉 텍스트 값을 비교한다.The text comparison unit 310 according to an embodiment of the present disclosure compares the extracted text and the content of the recognized text, that is, a text value.
본 개시의 다른 실시예에 따른 텍스트 비교부(310)는 인식 텍스트의 방향, 자간, 행간 등 좌표 및/또는 크기와 관련된 스타일 정보를 추출 텍스트의 스타일 정보와 비교한다.The text comparison unit 310 according to another embodiment of the present disclosure compares style information related to coordinates and/or size, such as direction, spacing, and leading, of the recognized text with style information of the extracted text.
PDF 포맷에는 페이지 크기와 관련된 다양한 유형의 개념이 존재하는데, 여기서 크롭 박스(crop box)는 화면 상에 보여지는 페이지의 크기를 의미한다. 인디자인(Indesign) 및 일러스트레이터(Illustrater) 등과 같은 편집 소프트웨어를 이용하여 원본 콘텐츠를 제작하는 경우, 오류 등으로 인해 특정 텍스트의 좌표계가 화면 상에 보여지는 영역을 벗어나는 값으로 표현되는 문제가 발생할 수 있다. Various types of concepts related to page size exist in the PDF format, where a crop box refers to the size of a page displayed on a screen. When creating original content using editing software such as Indesign or Illustrator, there may be a problem that the coordinate system of a specific text is expressed as a value out of the displayed area due to errors, etc. have.
한편, 원본 콘텐츠에 사용된 폰트의 종류에 따라 자간 및 행간 등이 상이할 수 있기 때문에, 원본 콘텐츠를 디지털 변환 콘텐츠로 재구성하기 위해서는 폰트의 자간 및 행간 등과 같은 폰트 정보를 추출해야 한다. 이때, 원본 콘텐츠에 폰트(font) 파일 자체가 첨부되어 있는 경우에는 이러한 폰트 정보를 추출하는데 크게 문제가 발생하지 않는다. 반면, 원본 콘텐츠에 포함된 문자들이 글리프(glyph) 형태만 유지하고 있는 경우에는 원본 콘텐츠 내에 CMAP이라는 정보가 명확히 존재하지 않는다. 이러한 이유로, 글리프 형태만 유지하고 있는 경우에는 원본 콘텐츠에 포함된 텍스트 추출에 실패할 수 있으며, 텍스트 추출에 성공하더라도 해당 텍스트의 폰트가 대체 폰트로 인식되어 자간 및 행간 등과 같은 폰트 정보가 실제 텍스트와 다르게 계산될 수 있다. 이에 따라, 이러한 추출 정보를 기초로 디지털 변환 콘텐츠를 제작할 경우, 실제 원본 콘텐츠와는 다른 위치에서 줄 바꿈이 발생하는 등의 문제가 발생할 수 있다.Meanwhile, since spacing and spacing may be different depending on the type of font used in the original content, font information such as spacing and spacing of the font needs to be extracted in order to reconstruct the original content into digitally converted content. In this case, when the font file itself is attached to the original content, there is no significant problem in extracting such font information. On the other hand, when the characters included in the original content maintain only the glyph form, the CMAP information is not clearly present in the original content. For this reason, if only the glyph form is maintained, it may fail to extract the text included in the original content, and even if the text extraction succeeds, the font of the text is recognized as an alternative font, and font information such as spacing and leading is not matched with the actual text. can be calculated differently. Accordingly, when digitally converted content is produced based on the extracted information, a problem such as line break occurring at a location different from the actual original content may occur.
본 개시의 일 실시예에 따른 텍스트 비교부(310)는 인식 텍스트와 추출 텍스트의 스타일 정보를 비교함으로써 변환이 수행되기 전에 이러한 문제들을 검출할 수 있다. The text comparison unit 310 according to an embodiment of the present disclosure may detect these problems before conversion is performed by comparing the style information of the recognized text and the extracted text.
텍스트 비교부(310)는 비교결과를 사전 검수결과로서 생성하며, 학습부(260)에게 전달한다. The text comparison unit 310 generates a comparison result as a pre-examination result, and transmits it to the learning unit 260 .
도 4는 본 개시의 일 실시예에 따른 사후 검수부를 개략적으로 나타낸 블록 구성도이다.4 is a block diagram schematically showing a post inspection unit according to an embodiment of the present disclosure.
도 4에 도시하듯이, 본 개시의 일 실시예에 따른 사후 검수부(250)는 원본 이미지 생성부(400), 변환 이미지 생성부(410), 이미지 비교부(420) 및 콘텐츠 비교부(430)를 전부 또는 일부 포함한다. 도 4에 도시된 모든 블록이 필수 구성요소는 아니며, 다른 실시예에서 사후 검수부(250)에 포함된 일부 블록이 추가, 변경 또는 삭제될 수 있다. As shown in FIG. 4 , the post inspection unit 250 according to an embodiment of the present disclosure includes an original image generation unit 400 , a converted image generation unit 410 , an image comparison unit 420 , and a content comparison unit 430 . ) in whole or in part. Not all blocks shown in FIG. 4 are essential components, and in another embodiment, some blocks included in the post inspection unit 250 may be added, changed, or deleted.
원본 이미지 생성부(400)는 원본 콘텐츠를 렌더링(rendering)한 화면 이미지(surface image)인 원본 이미지를 생성한다. 원본 콘텐츠가 복수의 페이지로 구성되는 경우, 원본 이미지 생성부(400)는 페이지별로 원본 이미지를 생성한다.The original image generator 400 generates an original image that is a surface image obtained by rendering original content. When the original content consists of a plurality of pages, the original image generator 400 generates an original image for each page.
변환 이미지 생성부(410)는 변환 콘텐츠를 렌더링한 화면 이미지인 변환 이미지를 생성한다. 변환 콘텐츠가 복수의 페이지로 구성되는 경우, 변환 이미지 생성부(410)는 페이지별로 변환 이미지를 생성한다. 나아가, 변환 이미지 생성부(410)는 각 변환 콘텐츠의 페이지에 대해 브라우저(browser)별로 변환 이미지를 생성함으로써, 크로스 브라우징 이슈(cross browsing issue)에 대응할 수 있도록 한다. The converted image generator 410 generates a converted image that is a screen image obtained by rendering the converted content. When the converted content consists of a plurality of pages, the converted image generator 410 generates a converted image for each page. Furthermore, the converted image generating unit 410 generates a converted image for each page of each converted content for each browser, so that it can respond to a cross browsing issue.
이미지 비교부(420)는 원본 이미지 및 변환 이미지에 대해 양 이미지의 해상도를 일치시키는 리사이즈(resize) 보정 작업을 수행하고, 원본 이미지 및 변환 이미지를 비교한다. 본 개시의 일 실시예에 따른 이미지 비교부(420)는 원본 이미지 및 변환 이미지를 비교하여, 이미지 색 변질 유무, 틀어짐 유무, 변경사항 유무 및 일치 여부를 판단한다. 이때, 이미지 비교부(420)는 원본 콘텐츠 내 특정 페이지에 대한 하나의 원본 이미지와 해당 원본 이미지에 대응하는 브라우저별 변환 이미지를 각각 비교할 수 있다. The image comparison unit 420 performs a resize correction operation for matching the resolutions of the original image and the converted image to the original image and the converted image, and compares the original image and the converted image. The image comparison unit 420 according to an embodiment of the present disclosure compares the original image and the converted image, and determines whether the image color is changed or not, whether there is a change or not, and whether there is a change or not. In this case, the image comparison unit 420 may compare one original image for a specific page in the original content and a converted image for each browser corresponding to the original image, respectively.
본 개시의 일 실시예에 따른 이미지 비교부(420)는 컴퓨팅 비전과 관련한 오픈소스 라이브러리(open source library)를 이용하여 원본 이미지와 변환 이미지를 비교할 수 있다. 예컨대, 이미지 비교부(420)는 OpenCV(Open Source Computer Vision)가 제공하는 템플릿 매칭(template matching) 및 구조적 유사성 지수(structural similarity index) 알고리즘을 이용하여 원본 이미지와 변환 이미지를 비교할 수 있다. The image comparison unit 420 according to an embodiment of the present disclosure may compare the original image and the converted image by using an open source library related to computing vision. For example, the image comparison unit 420 may compare the original image and the converted image using a template matching and structural similarity index algorithm provided by Open Source Computer Vision (OpenCV).
한편, 템플릿 매칭 알고리즘은 원본 이미지 위에 변환 이미지를 올리고, 지정 영역을 조금씩 이동하며 비교하는 방식인데, 이러한 템플릿 매칭을 전체 영역에 대해 수행하게 되면 상당한 시간이 소요되기 때문에 검증시간에 영향을 주게 된다. 이 때문에 일부 영역에 대해서만 템플릿 매칭을 수행하고, 다음 단계로 넘어가 구조적 유사성 지수 알고리즘을 이용하여 보다 정밀한 차이를 비교할 수 있다.On the other hand, the template matching algorithm is a method of comparing the converted image on top of the original image and moving the designated area little by little. When this template matching is performed for the entire area, it takes a considerable amount of time, which affects the verification time. For this reason, it is possible to perform template matching only for some regions, and then proceed to the next step and compare the differences more precisely by using the structural similarity index algorithm.
콘텐츠 비교부(430)는 원본 콘텐츠 및 디지털 변환 콘텐츠에 포함된 오브젝트 및/또는 이미지를 비교한다. The content comparison unit 430 compares the original content and the object and/or image included in the digitally converted content.
본 개시의 일 실시예에 다른 콘텐츠 비교부(430)는 원본 콘텐츠에 포함된 오브젝트와 디지털 변환 콘텐츠에 포함된 벡터 기반의 오브젝트를 비교한다. 이와 같이, 콘텐츠 비교부(430)는 화면 상에 보여지는 영역에 대한 검수가 아닌 데이터 매핑(mapping)을 이용한 검수를 수행한다.The content comparison unit 430 according to an embodiment of the present disclosure compares an object included in the original content with a vector-based object included in the digitally converted content. As such, the content comparison unit 430 performs an inspection using data mapping, not an inspection of the area shown on the screen.
본 개시의 일 실시예에 따른 콘텐츠 비교부(430)는 원본 콘텐츠에 포함된 오브젝트 중 이미지만을 추출하여, 변환 과정에서 생성된 이미지와 픽셀(pixel) 단위로 비교를 수행할 수 있다. The content comparison unit 430 according to an embodiment of the present disclosure may extract only an image from among the objects included in the original content, and may compare it with the image generated in the conversion process in units of pixels.
이상과 같이 이미지 비교부(420)는 보여지는 화면(surface)에 대한 이미지를 만들어 비교하는 반면, 콘텐츠 비교부(430)는 최상위 레이어에 있는 오브젝트뿐만 아니라, 다른 오브젝트 안에 숨겨진 텍스트 및/또는 오브젝트에 대한 비교를 수행할 수 있다. As described above, the image comparison unit 420 creates and compares an image for a visible surface, whereas the content comparison unit 430 compares the images with the text and/or objects hidden in other objects as well as the objects in the uppermost layer. comparisons can be made.
이미지 비교부(420) 및 콘텐츠 비교부(430)는 비교 결과를 사후 검수결과로서 학습부(260)에게 제공한다. The image comparison unit 420 and the content comparison unit 430 provide the comparison result to the learning unit 260 as a post-test result.
도 5는 본 개시의 일 실시예에 따른 디지털 변환 콘텐츠 검수방법을 나타내는 순서도이다. 5 is a flowchart illustrating a digital conversion content inspection method according to an embodiment of the present disclosure.
디지털 변환 콘텐츠 검수장치(20)는 원본 콘텐츠로부터 데이터를 추출하고, 전처리과정을 거쳐 가공 콘텐츠를 생성한다(S500). 본 개시의 일 실시예에 따른 디지털 변환 콘텐츠 검수장치(20)는 원본 콘텐츠를 파싱(parsing)하여 원본 콘텐츠에 포함된 텍스트(text), 오브젝트(object), 이미지(image), 벡터 데이터(vector data) 및 원본 콘텐츠의 레이아웃(layout) 정보 등을 추출한다. 본 개시의 일 실시예에 따른 디지털 변환 콘텐츠 검수장치(20)는 적어도 하나의 레이어(layer)로 구성된 원본 콘텐츠를 단일 레이어로 압축(flatten)하고, 원본 콘텐츠에 포함된 텍스트 및/또는 오브젝트 중에서 상위 레이어에 포함된 오브젝트에 의해 가려진 텍스트 및 오브젝트를 제거한 가공 콘텐츠를 생성한다. The digital conversion content inspection device 20 extracts data from the original content and generates processed content through a pre-processing process (S500). The digital conversion content inspection apparatus 20 according to an embodiment of the present disclosure parses the original content and includes text, object, image, and vector data included in the original content ) and layout information of the original content are extracted. The digital conversion content inspection apparatus 20 according to an embodiment of the present disclosure flattens the original content composed of at least one layer into a single layer, and flattens the text and/or objects included in the original content. Creates processed content that removes text and objects that are hidden by objects included in the layer.
디지털 변환 콘텐츠 검수장치(20)는 원본 콘텐츠로부터 추출된 텍스트 및 가공 콘텐츠를 이용하여 사전 검수를 수행한다(S510). 본 개시의 일 실시예에 따른 디지털 변환 콘텐츠 검수장치(20)는 가공 콘텐츠로부터 인식된 텍스트 및 원본 콘텐츠로부터 추출된 텍스트의 텍스트 값 또는 스타일 정보를 비교할 수 있다. 여기서, 텍스트의 스타일 정보는 텍스트의 방향, 자간, 행간 및 크기 중 적어도 하나와 관련된 정보를 의미한다. 본 개시의 일 실시예에 따른 디지털 변환 콘텐츠 검수장치(20)는 원본 콘텐츠에 대하여 문서의 암호화 여부, 문서의 깨짐(corrupt) 유무, 문서 내 폰트(또는 서브 셋 폰트), 북마크(bookmark) 및/또는 재단선 포함 여부 등을 파악할 수 있다. The digital conversion content inspection device 20 performs a preliminary inspection using the text and processed content extracted from the original content (S510). The digital conversion content inspection apparatus 20 according to an embodiment of the present disclosure may compare the text value or style information of the text recognized from the processed content and the text extracted from the original content. Here, the style information of the text refers to information related to at least one of the direction, spacing, leading, and size of the text. Digital conversion content inspection apparatus 20 according to an embodiment of the present disclosure includes whether a document is encrypted with respect to the original content, whether the document is corrupted, a font (or a subset font) in the document, a bookmark, and/or Alternatively, it is possible to determine whether a cut line is included or the like.
디지털 변환 콘텐츠 검수장치(20)는 사전 검수결과가 기설정된 변환 개시조건을 만족하는지 여부를 판단한다(S520). 여기서, 기설정된 변환 개시조건은 가공 콘텐츠로부터 인식된 텍스트 및 원본 콘텐츠로부터 추출된 텍스트의 일치 여부, 원본 콘텐츠에 대하여 문서의 암호화 여부, 문서의 깨짐 유무, 문서 내 폰트(또는 서브 셋 폰트), 북마크 및/또는 재단선 포함 여부 등과 관련된 조건일 수 있다. The digital conversion content inspection device 20 determines whether the pre-examination result satisfies a preset conversion start condition (S520). Here, the preset conversion start conditions include whether the text recognized from the processed content matches the text extracted from the original content, whether the document is encrypted with respect to the original content, whether the document is broken, the font (or subset font) in the document, and the bookmark and/or may be a condition related to whether or not a crop line is included.
사전 검수결과가 기설정된 변환 개시조건을 만족하지 않는 경우에, 디지털 변환 콘텐츠 검수장치(20)는 사전 검수결과를 출력하여 사용자에게 원본 콘텐츠 자체의 문제로 인해 변환을 수행할 수 없음을 알릴 수 있다(S580). When the pre-examination result does not satisfy the preset conversion start condition, the digital conversion content inspection device 20 outputs the pre-examination result to inform the user that the conversion cannot be performed due to the problem of the original content itself. (S580).
사전 검수결과가 기설정된 변환 개시조건을 만족하는 경우, 디지털 변환 콘텐츠 검수장치(20)는 원본 콘텐츠로부터 추출된 데이터들을 기반으로 디지털 변환 콘텐츠를 제작한다(S530).If the pre-examination result satisfies the preset conversion start condition, the digital conversion content verification apparatus 20 creates digital conversion content based on the data extracted from the original content (S530).
디지털 변환 콘텐츠 검수장치(20)는 원본 콘텐츠 및 디지털 변환 콘텐츠를 이용하여 사후 검수를 수행한다(S540). 본 개시의 일 실시예에 따른 디지털 변환 콘텐츠 검수장치(20)는 원본 콘텐츠 및 디지털 변환 콘텐츠를 각각 렌더링한 화면 이미지(surface image)인 원본 이미지 및 변환 이미지를 생성하고, 원본 이미지 및 상기 변환 이미지를 비교할 수 있다. 이때, 디지털 변환 콘텐츠 검수장치(20)는 템플릿 매칭(template matching) 알고리즘 및/또는 구조적 유사성 지수(structural similarity index) 알고리즘을 이용하여 원본 이미지 및 상기 변환 이미지 간의 차이를 검출할 수 있다. 본 개시의 일 실시예에 따른 디지털 변환 콘텐츠 검수장치(20)는 데이터 매핑(data mapping)을 이용하여 원본 콘텐츠에 포함된 오브젝트와 상기 디지털 변환 콘텐츠에 포함된 벡터기반의 오브젝트를 비교할 수 있다. 본 개시의 일 실시예에 따른 디지털 변환 콘텐츠 검수장치(20)는 원본 콘텐츠에 포함된 이미지와 상기 디지털 변환 콘텐츠에 포함된 이미지를 픽셀(pixel) 단위로 비교할 수 있다.The digitally converted content inspection device 20 performs post inspection using the original content and the digitally converted content (S540). The digital conversion content inspection device 20 according to an embodiment of the present disclosure generates an original image and a converted image that are a screen image (surface image) obtained by rendering the original content and the digitally converted content, respectively, and the original image and the converted image can be compared In this case, the digital conversion content inspection device 20 may detect a difference between the original image and the converted image using a template matching algorithm and/or a structural similarity index algorithm. The digitally converted content inspection apparatus 20 according to an embodiment of the present disclosure may compare an object included in the original content with a vector-based object included in the digitally converted content by using data mapping. The digitally converted content inspection apparatus 20 according to an embodiment of the present disclosure may compare an image included in the original content with an image included in the digitally converted content in units of pixels.
디지털 변환 콘텐츠 검수장치(20)는 사후 검수결과가 기설정된 재변환 조건을 만족하는지 확인한다(S550). 기설정된 재변환 조건을 만족하지 않는 경우란, 사후 검수결과 원본 콘텐츠와 변환 콘텐츠 간 차이가 없는 경우 또는 반복된 재변환에도 불구하고 원본 콘텐츠와 변환(또는 재변환된)된 디지털 변환 콘텐츠 간 차이가 존재하는 경우를 의미할 수 있다. The digital conversion content inspection apparatus 20 checks whether the post inspection result satisfies a preset re-conversion condition (S550). In case the preset reconversion conditions are not satisfied, there is no difference between the original content and the converted content as a result of the post inspection, or the difference between the original content and the converted (or reconverted) digitally converted content despite repeated reconversion It may mean that it exists.
사후 검수결과가 기설정된 재변환 조건을 만족하는 경우, 디지털 변환 콘텐츠 검수장치(20)는 재변환 및 재검수 과정을 수행한다(S500 내지 S540).If the post inspection result satisfies the preset re-conversion condition, the digital conversion content inspection apparatus 20 performs re-conversion and re-examination processes (S500 to S540).
사후 검수결과가 기설정된 재변환 조건을 만족하지 않는 경우, 디지털 변환 콘텐츠 검수장치(20)는 사후 검수결과에 기초하여, 원본 콘텐츠로부터 디지털 변환 콘텐츠로의 변환이 성공하였는지 확인한다(S560). 여기서, 변환 성공이란, 사후 검수결과 원본 콘텐츠와 변환 컨텐츠 간 차이가 없는 경우를 의미한다.If the post inspection result does not satisfy the preset re-conversion condition, the digital conversion content inspection device 20 checks whether the conversion from the original content to the digital conversion content was successful based on the post inspection result (S560). Here, the conversion success means a case in which there is no difference between the original content and the converted content as a result of the post inspection.
원본 콘텐츠로부터 디지털 변환 콘텐츠로의 변환이 성공한 경우, 디지털 변환 콘텐츠 검수장치(20)는 변환 및 검수에 사용된 설정 값을 학습에 반영한다(S570). 여기서, 설정 값은 재단선에 대한 설정 값 및/또는 문자인식기술이나 컴퓨터 비전기술을 구현하기 위해 사용된 언어, 매칭 조건 및 CMAP 값 등을 포함할 수 있다. 여기서, '언어'는 문자인식기술을 수행할 언어를 의미하는 것으로서, 문자인식기술의 인식률에 큰 영향을 미치는 설정 값이다. 문자인식기술 구현시 읽기 방향에 따라 글자 자체가 달라질 수 있기 때문에, 원본 콘텐츠 내에서 단어나 텍스트가 존재하는 영역을 추출하여 텍스트 방향을 판단하고, 텍스트의 방향에 따라 문자인식을 수행할 영역을 나누게 된다. 특히, 일본어 및 중국어 등과 같이 가로방향과 세로방향이 섞여 있는 언어나, 아랍어와 같이 오른쪽에서 왼쪽으로 쓰는 언어의 경우, 언어 설정 없이는 정확한 값을 읽어올 수 없다. 본 개시의 일 실시예에 따른 디지털 변환 콘텐츠 검수장치(20)는 원본 콘텐츠로부터 단어 및/또는 텍스트를 파싱해 텍스트 방향을 추출하고, CMAP 값을 확인 후, 폰트 및 언어 등의 정보를 파악할 수 있으며, 학습 과정을 통해 텍스트 방향, 회전 여부 및 언어 설정에 대한 판단율을 높일 수 있다. When the conversion from the original content to the digital conversion content is successful, the digital conversion content inspection device 20 reflects the setting values used for conversion and inspection in learning (S570). Here, the set value may include a set value for the crop line and/or a language used to implement a character recognition technology or a computer vision technology, a matching condition, a CMAP value, and the like. Here, 'language' means a language in which character recognition technology is to be performed, and is a setting value that greatly affects the recognition rate of character recognition technology. When implementing character recognition technology, since the characters themselves can vary depending on the reading direction, extract the area where words or texts exist in the original content to determine the text direction, and divide the area to perform character recognition according to the text direction. do. In particular, in the case of a language in which horizontal and vertical directions are mixed, such as Japanese and Chinese, or a language written from right to left, such as Arabic, an accurate value cannot be read without language setting. The digital conversion content inspection device 20 according to an embodiment of the present disclosure extracts the text direction by parsing words and/or text from the original content, and after checking the CMAP value, it is possible to grasp information such as font and language, , through the learning process, it is possible to increase the judgment rate for text direction, rotation, and language setting.
원본 콘텐츠로부터 디지털 변환 콘텐츠로의 변환이 실패한 경우, 디지털 변환 콘텐츠 검수장치(20)는 사전 검수결과 및/또는 사후 검수결과를 출력하여 사용자에게 육안 검수를 위해 필요한 정보를 제공할 수 있다(S580). 본 개시의 일 실시예에 따른 디지털 변환 콘텐츠 검수장치(20)는 사전 검수결과 및/또는 사후 검수결과를 기반으로 검수 리포트(inspection report)를 작성할 수 있다. 여기서, 검수 리포트는 원본 콘텐츠 및 디지털 변환 콘텐츠 간 차이가 존재하는 페이지 또는 영역, 변환 실패 케이스 등에 대한 정보를 포함할 수 있다. 이와 같이 본 개시의 일 실시예에 따른 디지털 변환 콘텐츠 검수장치(20)는 단순히 검수 및/또는 변환에 사용된 설정 값에 대한 정보만이 아니라, 검수자가 육안 검수 시 실질적으로 참고할 수 있는 정보들을 검수자에게 제공할 수 있다. If the conversion from the original content to the digital conversion content fails, the digital conversion content inspection device 20 may provide the user with information necessary for visual inspection by outputting a pre-inspection result and/or a post-inspection result (S580) . The digital conversion content inspection apparatus 20 according to an embodiment of the present disclosure may create an inspection report based on a pre-inspection result and/or a post-inspection result. Here, the inspection report may include information about a page or area in which a difference exists between the original content and the digitally converted content, a conversion failure case, and the like. As described above, the digital conversion content inspection device 20 according to an embodiment of the present disclosure is not only information about the set value used for inspection and/or conversion, but also information that the inspector can actually refer to during visual inspection. can be provided to
도 5에서는 각 과정들을 순차적으로 실행하는 것으로 기재하고 있으나, 이는 본 개시의 일 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것이다. 다시 말해, 본 개시의 일 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 개시의 일 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 도 5에 기재된 순서를 변경하여 실행하거나 각 과정들 중 하나 이상의 과정을 병렬적으로 실행하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이므로, 도 5는 시계열적인 순서로 한정되는 것은 아니다.Although it is described that each process is sequentially executed in FIG. 5 , this is merely illustrative of the technical idea of an embodiment of the present disclosure. In other words, those of ordinary skill in the art to which an embodiment of the present disclosure pertain may change the order described in FIG. 5 within a range that does not depart from the essential characteristics of an embodiment of the present disclosure, or perform one or more of the respective processes. Since it will be possible to apply various modifications and variations by executing in parallel, FIG. 5 is not limited to a time-series order.
본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 디지털 전자 회로, 집적 회로, FPGA(field programmable gate array), ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 프로그래밍가능 시스템 상에서 실행가능한 하나 이상의 컴퓨터 프로그램들로 구현되는 것을 포함할 수 있다. 프로그래밍가능 시스템은, 저장 시스템, 적어도 하나의 입력 디바이스, 그리고 적어도 하나의 출력 디바이스로부터 데이터 및 명령들을 수신하고 이들에게 데이터 및 명령들을 전송하도록 결합되는 적어도 하나의 프로그래밍가능 프로세서(이것은 특수 목적 프로세서일 수 있거나 혹은 범용 프로세서일 수 있음)를 포함한다. 컴퓨터 프로그램들(이것은 또한 프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 혹은 코드로서 알려져 있음)은 프로그래밍가능 프로세서에 대한 명령어들을 포함하며 "컴퓨터가 읽을 수 있는 기록매체"에 저장된다. Various implementations of the systems and techniques described herein may be implemented in digital electronic circuitry, integrated circuitry, field programmable gate array (FPGA), application specific integrated circuit (ASIC), computer hardware, firmware, software, and/or combination can be realized. These various implementations may include being implemented in one or more computer programs executable on a programmable system. The programmable system includes at least one programmable processor (which may be a special purpose processor) coupled to receive data and instructions from, and transmit data and instructions to, a storage system, at least one input device, and at least one output device. or may be a general-purpose processor). Computer programs (also known as programs, software, software applications or code) contain instructions for a programmable processor and are stored on a "computer-readable recording medium".
컴퓨터가 읽을 수 있는 기록매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 이러한 컴퓨터가 읽을 수 있는 기록매체는 ROM, CD-ROM, 자기 테이프, 플로피디스크, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등의 비휘발성(non-volatile) 또는 비일시적인(non-transitory) 매체일 수 있으며, 또한 데이터 전송 매체(data transmission medium)와 같은 일시적인(transitory) 매체를 더 포함할 수도 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다.The computer-readable recording medium includes all types of recording devices in which data readable by a computer system is stored. These computer-readable recording media are non-volatile or non-transitory, such as ROM, CD-ROM, magnetic tape, floppy disk, memory card, hard disk, magneto-optical disk, and storage device. It may be a medium, and may further include a transitory medium such as a data transmission medium. In addition, the computer-readable recording medium may be distributed in a network-connected computer system, and the computer-readable code may be stored and executed in a distributed manner.
본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 프로그램가능 컴퓨터에 의하여 구현될 수 있다. 여기서, 컴퓨터는 프로그램가능 프로세서, 데이터 저장 시스템(휘발성 메모리, 비휘발성 메모리, 또는 다른 종류의 저장 시스템이거나 이들의 조합을 포함함) 및 적어도 한 개의 커뮤니케이션 인터페이스를 포함한다. 예컨대, 프로그램가능 컴퓨터는 서버, 네트워크 기기, 셋탑 박스, 내장형 장치, 컴퓨터 확장 모듈, 개인용 컴퓨터, 랩탑, PDA(Personal Data Assistant), 클라우드 컴퓨팅 시스템 또는 모바일 장치 중 하나일 수 있다.Various implementations of the systems and techniques described herein may be implemented by a programmable computer. Here, the computer includes a programmable processor, a data storage system (including volatile memory, non-volatile memory, or other types of storage systems or combinations thereof), and at least one communication interface. For example, a programmable computer may be one of a server, a network appliance, a set-top box, an embedded device, a computer expansion module, a personal computer, a laptop, a Personal Data Assistant (PDA), a cloud computing system, or a mobile device.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above description is merely illustrative of the technical idea of this embodiment, and a person skilled in the art to which this embodiment belongs may make various modifications and variations without departing from the essential characteristics of the present embodiment. Accordingly, the present embodiments are intended to explain rather than limit the technical spirit of the present embodiment, and the scope of the technical spirit of the present embodiment is not limited by these embodiments. The protection scope of this embodiment should be interpreted by the following claims, and all technical ideas within the scope equivalent thereto should be interpreted as being included in the scope of the present embodiment.
(부호의 설명)(Explanation of symbols)
20: 디지털 변환 콘텐츠 검수장치 200: 입력부20: digital conversion content inspection device 200: input unit
210: 데이터 추출부 220: 전처리부210: data extraction unit 220: pre-processing unit
230: 사전 검수부 240: 변환부230: advance inspection unit 240: conversion unit
250: 사후 검수부 260: 학습부250: post inspection unit 260: learning unit
270: 출력부 300: 텍스트 인식부270: output unit 300: text recognition unit
310: 텍스트 비교부 400: 원본 이미지 생성부310: text comparison unit 400: original image generation unit
410: 변환 이미지 생성부 420: 이미지 비교부410: converted image generation unit 420: image comparison unit
430: 콘텐츠 비교부430: content comparison unit
CROSS-REFERENCE TO RELATED APPLICATIONCROSS-REFERENCE TO RELATED APPLICATION
본 특허출원은, 본 명세서에 그 전체가 참고로서 포함되는, 2020년 12월 22일에 한국에 출원한 특허출원번호 제10-2020-0180497호에 대해 우선권을 주장한다.This patent application claims priority to Patent Application No. 10-2020-0180497, filed in Korea on December 22, 2020, which is incorporated herein by reference in its entirety.

Claims (13)

  1. 디지털 변환 콘텐츠 검수장치에 의해 수행되는 검수방법으로서,As an inspection method performed by a digital conversion content inspection device,
    적어도 하나의 레이어(layer)로 구성된 원본 콘텐츠를 단일 레이어로 압축(flatten)하고, 상기 원본 콘텐츠에 포함된 텍스트(text) 및 오브젝트(object) 중에서 상위 레이어에 포함된 오브젝트에 의해 가려진 텍스트 및 오브젝트를 제거한 결과인 가공 콘텐츠를 생성하는 과정;The original content composed of at least one layer is flattened into a single layer, and texts and objects that are obscured by an object included in a higher layer among texts and objects included in the original content are removed. The process of creating processed content that is a result of the removal;
    상기 가공 콘텐츠로부터 인식된 텍스트와 상기 원본 콘텐츠로부터 추출된 텍스트를 비교하는 사전 검수과정;a pre-examination process of comparing the text recognized from the processed content with the text extracted from the original content;
    상기 원본 콘텐츠와 상기 원본 콘텐츠를 기반으로 제작된 디지털 변환 콘텐츠를 비교하는 사후 검수과정; 및a post-examination process of comparing the original content with digitally converted content produced based on the original content; and
    상기 사전 검수과정 및 상기 사후 검수과정의 비교 결과를 기반으로 검수 리포트(inspection report)를 작성하는 과정The process of creating an inspection report based on the comparison result of the pre-inspection process and the post-inspection process
    을 포함하는 것을 특징으로 하는 디지털 변환 콘텐츠 검수방법.Digital conversion content inspection method comprising a.
  2. 제1항에 있어서,According to claim 1,
    상기 사전 검수과정은,The preliminary inspection process is
    상기 가공 콘텐츠로부터 인식된 텍스트 및 상기 원본 콘텐츠로부터 추출된 텍스트의 텍스트 값을 비교하는 것을 특징으로 하는 디지털 변환 콘텐츠 검수방법.A digital conversion content inspection method, characterized in that the text value recognized from the processed content and the text value extracted from the original content are compared.
  3. 제1항에 있어서,According to claim 1,
    상기 사전 검수과정은,The preliminary inspection process is
    상기 가공 콘텐츠로부터 인식된 텍스트의 스타일 정보 및 상기 원본 콘텐츠로부터 추출된 텍스트의 스타일 정보를 비교하는 것을 특징으로 하는 디지털 변환 콘텐츠 검수방법.A digital conversion content inspection method, characterized in that the style information of the text recognized from the processed content and the style information of the text extracted from the original content are compared.
  4. 제2항에 있어서,3. The method of claim 2,
    상기 텍스트의 스타일 정보는,The style information of the text is
    텍스트의 방향, 자간, 행간 및 크기 중 적어도 하나와 관련된 정보인 것을 특징으로 하는 디지털 변환 콘텐츠 검수방법.A digital conversion content inspection method, characterized in that the information is information related to at least one of direction, spacing, leading, and size of text.
  5. 제1항에 있어서,The method of claim 1,
    상기 사후 검수과정은,The post-inspection process is
    상기 원본 콘텐츠를 렌더링한 화면 이미지(surface image)인 원본 이미지를 생성하는 과정;generating an original image that is a surface image obtained by rendering the original content;
    상기 디지털 변환 콘텐츠를 렌더링한 화면 이미지인 변환 이미지를 생성하는 과정; 및generating a converted image that is a screen image obtained by rendering the digitally converted content; and
    상기 원본 이미지 및 상기 변환 이미지를 비교하는 과정Comparing the original image and the converted image
    을 포함하는 것을 특징으로 하는 디지털 변환 콘텐츠 검수방법.Digital conversion content inspection method comprising a.
  6. 제5항에 있어서,6. The method of claim 5,
    상기 원본 이미지 및 상기 변환 이미지를 비교하는 과정은,The process of comparing the original image and the converted image,
    템플릿 매칭(template matching) 알고리즘 및/또는 구조적 유사성 지수(structural similarity index) 알고리즘을 이용하여 상기 원본 이미지 및 상기 변환 이미지 간 차이를 검출하는 것을 특징으로 하는 디지털 변환 콘텐츠 검수방법.A method for examining digitally converted content, characterized in that the difference between the original image and the converted image is detected by using a template matching algorithm and/or a structural similarity index algorithm.
  7. 제1항에 있어서,The method of claim 1,
    상기 사후 검수과정은,The post-inspection process is
    상기 원본 콘텐츠에 포함된 오브젝트와 상기 디지털 변환 콘텐츠에 포함된 벡터기반의 오브젝트를 비교하는 것을 특징으로 하는 디지털 변환 콘텐츠 검수방법.Digitally converted content inspection method, characterized in that the object included in the original content and the vector-based object included in the digitally converted content are compared.
  8. 제1항에 있어서,According to claim 1,
    상기 사후 검수과정은,The post-inspection process is
    상기 원본 콘텐츠에 포함된 이미지와 상기 디지털 변환 콘텐츠에 포함된 이미지를 픽셀(pixel) 단위로 비교하는 것을 특징으로 하는 디지털 변환 콘텐츠 검수방법.Digitally converted content inspection method, characterized in that the image included in the original content and the image included in the digitally converted content are compared in units of pixels.
  9. 제1항에 있어서,The method of claim 1,
    상기 검수 리포트는,The inspection report is
    상기 원본 콘텐츠 및 상기 디지털 변환 콘텐츠 간 차이가 존재하는 페이지 및 영역 중 적어도 하나에 대한 정보를 포함하는 것을 특징으로 하는 디지털 변환 콘텐츠 검수 방법.Digitally converted content inspection method, characterized in that it includes information on at least one of a page and an area where a difference between the original content and the digitally converted content exists.
  10. 제1항에 있어서,The method of claim 1,
    상기 검수 리포트를 작성하는 과정 이전에,Prior to the process of writing the inspection report,
    상기 사전 검수과정 및 상기 사후 검수과정의 비교 결과에 기반하여, 상기 디지털 변환 콘텐츠 제작을 재수행하는 것을 특징으로 하는 디지털 변환 콘텐츠 검수 방법.Based on the comparison result of the pre-examination process and the post-approval process, digital conversion content inspection method, characterized in that the digital conversion content production is re-performed.
  11. 적어도 하나의 레이어(layer)로 구성된 원본 콘텐츠를 단일 레이어로 압축(flatten)하고, 상기 원본 콘텐츠에 포함된 텍스트(text) 및 오브젝트(object) 중에서 상위 레이어에 포함된 오브젝트에 의해 가려진 텍스트 및 오브젝트를 제거한 결과인 가공 콘텐츠를 생성하는 전처리부;The original content composed of at least one layer is flattened into a single layer, and texts and objects that are obscured by the objects included in the upper layer among the texts and objects included in the original content are removed. a preprocessor for generating processed content that is a result of the removal;
    상기 가공 콘텐츠로부터 인식된 텍스트와 상기 원본 콘텐츠로부터 추출된 텍스트를 비교하는 사전 검수부;a dictionary check unit comparing the text recognized from the processed content with the text extracted from the original content;
    상기 원본 콘텐츠와 상기 원본 콘텐츠를 기반으로 제작된 디지털 변환 콘텐츠를 비교하는 사후 검수부; 및a post-examination unit for comparing the original content with digitally converted content produced based on the original content; and
    상기 사전 검수과정 및 상기 사후 검수과정의 비교 결과를 기반으로 검수 리포트(inspection report)를 작성하는 학습부A learning unit that creates an inspection report based on a comparison result of the pre-inspection process and the post-inspection process
    를 포함하는 것을 특징으로 하는 디지털 변환 콘텐츠 검수장치.Digital conversion content inspection device comprising a.
  12. 제11항에 있어서,12. The method of claim 11,
    상기 학습부는, The learning unit,
    상기 사전 검수부 및 상기 사후 검수부의 비교결과를 이용하여, 상기 사전 검수부 및 상기 사후 검수부를 학습시키는 것을 특징으로 하는 디지털 변환 콘텐츠 검수장치.Digital conversion content inspection apparatus, characterized in that by using the comparison result of the pre-examination unit and the post-examination unit, the pre-examination unit and the post-examination unit are learned.
  13. 제1항 내지 제10항 중 어느 한 항에 따른 디지털 변환 콘텐츠 검수방법이 포함하는 각 과정을 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램.A computer program stored in a computer-readable recording medium to execute each process included in the digital conversion content inspection method according to any one of claims 1 to 10.
PCT/KR2021/014028 2020-12-22 2021-10-12 Method and device for inspecting digitally-converted content WO2022139134A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200180497A KR20220089872A (en) 2020-12-22 2020-12-22 Method and Apparatus for Inspecting Digital-Converted Content
KR10-2020-0180497 2020-12-22

Publications (1)

Publication Number Publication Date
WO2022139134A1 true WO2022139134A1 (en) 2022-06-30

Family

ID=82159437

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/014028 WO2022139134A1 (en) 2020-12-22 2021-10-12 Method and device for inspecting digitally-converted content

Country Status (2)

Country Link
KR (1) KR20220089872A (en)
WO (1) WO2022139134A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007265429A (en) * 2007-05-28 2007-10-11 Ntt Docomo Inc Document conversion system, document conversion method, and computer readable storage medium storing document conversion program
KR20090055087A (en) * 2007-11-28 2009-06-02 엔에이치엔(주) Method and system for evaluating document image automatically for optical character recognition
KR20150144073A (en) * 2014-06-16 2015-12-24 주식회사 쓰리코어 Method and apparatus for format conversion of document, and cloud server thereof
KR20170023441A (en) * 2015-08-24 2017-03-06 한국전자통신연구원 Document recognizing apparatus and recognizing method of the same
KR20190101555A (en) * 2018-02-23 2019-09-02 주식회사 위닝프로포셜 System for automatically inspecting document

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007265429A (en) * 2007-05-28 2007-10-11 Ntt Docomo Inc Document conversion system, document conversion method, and computer readable storage medium storing document conversion program
KR20090055087A (en) * 2007-11-28 2009-06-02 엔에이치엔(주) Method and system for evaluating document image automatically for optical character recognition
KR20150144073A (en) * 2014-06-16 2015-12-24 주식회사 쓰리코어 Method and apparatus for format conversion of document, and cloud server thereof
KR20170023441A (en) * 2015-08-24 2017-03-06 한국전자통신연구원 Document recognizing apparatus and recognizing method of the same
KR20190101555A (en) * 2018-02-23 2019-09-02 주식회사 위닝프로포셜 System for automatically inspecting document

Also Published As

Publication number Publication date
KR20220089872A (en) 2022-06-29

Similar Documents

Publication Publication Date Title
US10846553B2 (en) Recognizing typewritten and handwritten characters using end-to-end deep learning
US5751851A (en) Method of splitting handwritten input
CN105096677A (en) Teaching system and work method thereof
WO2022161293A1 (en) Image processing method and apparatus, and electronic device and storage medium
CN112668541A (en) Intelligent dictation system based on dot matrix pen and method thereof
CN112990142B (en) Video guide generation method, device and equipment based on OCR (optical character recognition), and storage medium
CN114419636A (en) Text recognition method, device, equipment and storage medium
WO2022139134A1 (en) Method and device for inspecting digitally-converted content
Saudagar et al. Augmented reality mobile application for arabic text extraction, recognition and translation
WO2024005413A1 (en) Artificial intelligence-based method and device for extracting information from electronic document
WO2022211323A1 (en) Method for recognizing atypical layout of image document
CN111832551A (en) Text image processing method and device, electronic scanning equipment and storage medium
JP2020173669A (en) Image recognition device, image recognition method, image recognition program, and image recognition system
Manikandan et al. An enhanced algorithm for Character Segmentation in document image processing
US20150169973A1 (en) Incomplete patterns
CN113038184A (en) Data processing method, device, equipment and storage medium
CN112149673A (en) Multifunctional test rack based on optical recognition technology
JPH01241684A (en) Document reader
JP3060248B2 (en) Table recognition device
KR20220159154A (en) Equipment data recognition apparatus and method
JP3052438B2 (en) Table recognition device
JPH0434655A (en) Drawing reader
CN115331248A (en) Document image structured input platform combining speech recognition and OCR recognition
Buddhawar et al. Some Aspects of Text Recognition from Video Document in Education 4.0
CN117610549A (en) Document processing method, document processing device, document content generating device, document processing device, content generating device and electronic equipment

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21911203

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 27.11.2023)