KR102390000B1 - Document image text extraction service system and method - Google Patents

Document image text extraction service system and method Download PDF

Info

Publication number
KR102390000B1
KR102390000B1 KR1020210045741A KR20210045741A KR102390000B1 KR 102390000 B1 KR102390000 B1 KR 102390000B1 KR 1020210045741 A KR1020210045741 A KR 1020210045741A KR 20210045741 A KR20210045741 A KR 20210045741A KR 102390000 B1 KR102390000 B1 KR 102390000B1
Authority
KR
South Korea
Prior art keywords
text
document
user terminal
item
image
Prior art date
Application number
KR1020210045741A
Other languages
Korean (ko)
Inventor
이현빈
Original Assignee
한밭대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한밭대학교 산학협력단 filed Critical 한밭대학교 산학협력단
Priority to KR1020210045741A priority Critical patent/KR102390000B1/en
Application granted granted Critical
Publication of KR102390000B1 publication Critical patent/KR102390000B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Character Discrimination (AREA)

Abstract

According to one embodiment of the present invention, a service system for extracting text in a document image provides a text extraction service using a web-based OCR. The system includes a service server receiving an uploaded document for extracting text for an interested item from a user terminal for imaging of the document, extracting the text by using the OCR from the image-converted document, generating the interested item requested to the user terminal and an image piece including text content for the item, and generating a document form including the image piece to be provided to the user terminal.

Description

문서 이미지 내 텍스트 추출 서비스 시스템 및 방법{Document image text extraction service system and method}Document image text extraction service system and method

본 발명은 문서 이미지 내 텍스트 추출 서비스 시스템 및 방법에 관한 것으로, 더욱 상세하게는 웹기반 OCR 문서 텍스트 추출 서비스를 제공시 사용자가 관심 항목과 관련 텍스트 내용을 추출하고, 잘못된 부분을 쉽게 수정할 수 있도록 편의적인 기능을 제공하는 문서 이미지 내 텍스트 추출 서비스 시스템 및 방법에 관한 것이다.The present invention relates to a system and method for extracting text within a document image, and more particularly, to provide a web-based OCR document text extraction service, so that a user can extract an item of interest and related text content and easily correct an error It relates to a text extraction service system and method in a document image that provides a functional function.

광학 문자 인식(Optical Character Recognition, 이하 ‘OCR’ 이라 함)은 인쇄물 또는 사진 상의 글자와 이미지를 디지털 데이터로 변환해주는 자동 인식 기술이다.Optical Character Recognition (hereinafter referred to as ‘OCR’) is an automatic recognition technology that converts text and images on printed materials or photos into digital data.

그러나, 종래의 OCR은 문서의 형태나 종류가 정형화된 문서에서 사용자가 원하는 특정 정보를 추출하는 데 있어, 복수의 문서 간 공통되지 않은 식별위치 또는, 유사도가 높은 숫자와 문자 간에 인식 오류가 발생할 우려가 존재하며, 단순히 문서 내 항목(텍스트)들을 추출하여 나열하는 정도에 그치고 있어서, 이 항목이 어느 분류(대제목, 소제목, 표, 내용 등)에 속하는지에 대한 분류 작업이 이루어지지 않아, 사용자가 일일이 다시 내용을 검토하여 분류해야 하는 번거로운 문제가 있었다.However, in the conventional OCR, in extracting specific information desired by a user from a document in which the form or type of a document is standardized, there is a risk of a recognition error occurring between a number and a character having a high similarity or an identification location that is not common between a plurality of documents exists, and it is only limited to extracting and listing items (texts) in the document, so the classification task to which category (main title, sub-title, table, content, etc.) this item belongs to is not performed, so the user There was a cumbersome problem of having to review and classify the contents one by one.

또한, 기존 웹기반 OCR을 이용한 문서 텍스트 추출 서비스는 문서 이미지로부터 텍스트를 추출하여 원 이미지 그대로 표현 또는 문서 이미지를 워드나 엑셀로 그대로 변환해준 후에 사용자가 그대로 사용하거나 원하는 데이터를 추출해서 데이터베이스(DB)에 저장하여 사용하게 되어 있다.In addition, the document text extraction service using the existing web-based OCR extracts text from the document image and expresses it as it is, or converts the document image into Word or Excel as it is, and then uses it as it is or extracts the desired data to create a database (DB) to be stored and used.

문서 입력부터 관심 항목 추출 및 DB 저장까지 자동화할 수 있다면 사용자 편의성을 증대시킬 수 있으나, OCR 텍스트 추출 기능을 웹기반으로 서비스하는 경우 사용자의 데이터베이스 시스템에 연동이 불가능하므로, 자동 DB화하기 위해서는 추가적인 프로그램 제작이 필요한 실정이다. If you can automate everything from document input to extraction of items of interest and DB storage, user convenience can be increased. It is in need of production.

또한, OCR 사용자는 문서의 양식과 항목명, 항목에 대한 데이터가 무엇이고 위치가 어디인지 알고 있으나, OCR 서비스 프로그램은 알 수 없는 문제가 있으며, OCR의 정확도 문제로 인하여 텍스트 추출을 해도 잘못된 글자나 표현으로 텍스트화 되는 경우가 있어서, 사용자의 재검토가 필요한 실정이다.In addition, OCR users know the form, item name, and location of the document's form, item name, and location, but there is a problem that the OCR service program cannot understand. In some cases, it is converted into text, and the user's review is necessary.

따라서, 전술한 문제를 해결하기 위해 웹기반 OCR 문서 텍스트 추출 서비스를 제공하되, 사용자가 최대한 쉽게 관심 항목과 관련 데이터를 추출하고, 잘못된 부분을 쉽게 수정할 수 있도록 편의적인 기능을 제공하는 인터렉티브한 서비스 방법이 필요하다.Therefore, while providing a web-based OCR document text extraction service to solve the above problem, an interactive service method that provides convenient functions so that users can extract items of interest and related data as easily as possible and easily correct errors I need this.

한국공개특허 10-2010-0000190(2010년01월06일 공개)Korean Patent Publication No. 10-2010-0000190 (published on January 06, 2010)

본 발명의 목적은 사용자단말기로 통신망으로 통하여 접속 가능한 웹기반 OCR 문서 텍스트 추출 서비스를 제공하되, 사용자가 관심 항목과 관련 데이터를 추출하고, 잘못된 부분을 쉽게 수정할 수 있도록 편의적인 기능을 제공하는 인터렉티브한 서비스를 제공할 수 있는 문서 이미지 내 텍스트 추출 서비스 시스템 및 방법을 제공하는 것이다.An object of the present invention is to provide a web-based OCR document text extraction service that can be accessed through a communication network with a user terminal, but provides a convenient function for the user to extract items of interest and related data and to easily correct the wrong part. It is to provide a text extraction service system and method in a document image that can provide a service.

본 발명의 일 실시예에 따른 문서 이미지 내 텍스트 추출 서비스 시스템은, 웹기반의 OCR을 이용한 문서 내 텍스트 추출 서비스를 제공하며, 사용자단말기로부터 관심 항목에 대한 텍스트 추출을 위한 문서를 업로드받아 해당 문서를 이미지화하고, 이미지 변환된 문서를 OCR을 이용하여 텍스트를 추출하고, 사용자단말기에 요청한 관심 항목 및 항목에 대한 텍스트 내용을 포함하는 이미지 조각을 생성하고, 이미지 조각이 포함된 문서 형태로 생성하여 상기 사용자단말기로 제공하는 서비스서버를 포함한다.A text extraction service system in a document image according to an embodiment of the present invention provides a text extraction service in a document using web-based OCR, and uploads a document for extracting text for an item of interest from a user terminal to the document image, extract text from the image-converted document using OCR, generate an image fragment including text content for the item of interest and item requested from the user terminal, and create a document form containing the image fragment to the user It includes a service server provided to the terminal.

상기 서비스서버는 통신망을 통하여 사용자단말기와 통신하기 위한 유무선 호환 가능한 통신 프로토콜이 내장되어 OCR 텍스트 추출 서비스를 위한 정보를 송수신하는 통신부; 상기 통신부를 통하여 사용자단말기로부터 문서를 제공받아 OCR을 이용하여 항목 및 텍스트를 추출하기 위해 문서 이미지로 변환하는 문서변환부; 상기 문서변환부(320)에서 문서 이미지로 변환되면, OCR을 이용하여 해당 문서 이미지에서 텍스트를 추출하는 텍스트추출부; 및 작업한 문서 이미지, 항목, 텍스트 내용을 각 문서별, 사용자별로 분류하여 저장하는 데이터베이스를 포함한다.The service server has a built-in wired/wireless compatible communication protocol for communicating with a user terminal through a communication network, and includes: a communication unit for transmitting and receiving information for an OCR text extraction service; a document conversion unit that receives a document from the user terminal through the communication unit and converts it into a document image to extract items and texts using OCR; a text extraction unit for extracting text from the document image by using OCR when the document conversion unit 320 converts it into a document image; and a database for classifying and storing the worked document image, item, and text content for each document and each user.

상기 텍스트추출부는 사용자단말기로부터 요청한 관심 항목에 대한 텍스트 영역을 찾아서 추출하고, 추출된 텍스트 일부에 대해 이미지 조각을 생성하는 것을 특징으로 한다.The text extraction unit finds and extracts a text area for the item of interest requested from the user terminal, and generates an image fragment for a part of the extracted text.

상기 서비스서버는 상기 사용자단말기로부터 상기 이미지 조각이 포함된 문서를 확인 후 해당 이미지 조각 내 텍스트 내용을 검토 후 문서 편집 기능을 활용하여 수정시, 해당 수정된 문서를 제공받아 수정 전/후 내용을 분석하여, OCR 성능 개선을 위해 활용하는 통계부를 더 포함한다.The service server checks the document containing the image fragment from the user terminal, reviews the text content in the image fragment, and then uses the document editing function to edit the document, receives the corrected document and analyzes the content before and after the correction Accordingly, it further includes a statistics unit used to improve OCR performance.

본 발명의 일 실시예에 따른 문서 이미지 내 텍스트 추출 서비스 방법은, 사용자단말기는 통신망을 통하여 서비스서버에서 제공하는 웹기반 문서 텍스트 추출 서비스 웹페이지에 접속하여, 텍스트를 추출할 문서 파일을 업로드하는 단계; 상기 사용자단말기는 해당 문서 파일에서 추출 원하는 관심 항목과 텍스트 내용을 입력하여 서비스서버에 해당 항목에 대한 추출을 요청하는 단계; 상기 서비스서버는 사용자단말기로부터 업로드된 문서 파일을 문서 이미지로 변환하는 단계; 상기 서비스서버는 사용자단말기에서 요청된 관심 항목과 텍스트 내용에 대하여 분석하고, OCR을 이용하여 사용자단말기에서 요청한 텍스트를 찾아 추출하는 단계; 상기 서비스서버는 사용자단말기에서 요청한 관심 항목 및 텍스트에 대한 이미지 조각을 생성하는 단계; 및 상기 서비스서버는 이미지 조각이 포함된 문서 파일을 생성하여 사용자단말기로 제공하는 단계를 포함한다.In the method for extracting text in a document image according to an embodiment of the present invention, the user terminal accesses a web-based document text extraction service web page provided by a service server through a communication network, and uploads a document file from which text is to be extracted. ; The user terminal inputting a desired item of interest and text content to be extracted from the document file, and requesting the service server to extract the item; converting, by the service server, the document file uploaded from the user terminal into a document image; analyzing, by the service server, the items of interest and text contents requested from the user terminal, and extracting the text requested from the user terminal by using OCR; generating, by the service server, an image fragment for an item of interest and text requested by the user terminal; and generating, by the service server, a document file including an image fragment and providing it to a user terminal.

상기 서비스서버는 OCR을 이용하여 문서 이미지의 전체 텍스트를 추출하고, 사용자단말기로부터 요청한 관심항목과 텍스트 내용을 찾기 용이하도록 텍스트 내용별 위치 좌표를 저장하는 단계를 더 포함한다.The service server further includes the step of extracting the entire text of the document image by using OCR, and storing the location coordinates for each text content so that it is easy to find the item of interest and the text content requested from the user terminal.

상기 사용자단말기는 수신된 이미지 조각이 포함된 문서 파일 확인 후 수정하여 수정된 항목 또는 텍스트 내용을 포함한 수정된 문서를 생성하는 단계; 및 상기 서비스서버는 사용자단말기에서 수정된 항목 및 텍스트를 포함한 수정된 문서 파일을 전송받으면, 해당 항목 및 텍스트를 분석하여 OCR 성능 개선에 활용하는 단계를 더 포함한다.generating, by the user terminal, a modified document including a modified item or text content by checking and modifying a document file including the received image fragment; and when the service server receives the modified document file including the modified item and text from the user terminal, analyzing the item and text and utilizing the modified item and text to improve OCR performance.

본 발명에 의하면, 사용자가 관심 항목과 관련 데이터를 추출하고, 잘못된 부분을 쉽게 수정할 수 있도록 편의적인 기능을 제공하는 인터렉티브한 서비스를 제공하여 사용자 편의성이 극대화 되는 장점이 있다.According to the present invention, there is an advantage in that user convenience is maximized by providing an interactive service that provides convenient functions so that a user can extract an item of interest and related data and easily correct a wrong part.

또한, 수정된 내용을 수정 전후 비교에 의해 OCR 개선에 반영하여 지속적으로 수정 내용 반영시, OCR의 텍스트 추출 시 추출 내용이 다르거나 잘못 인식되는 오류를 범할 확률을 줄일 수 있는 장점이 있다.In addition, when the corrected content is reflected in OCR improvement by comparing before and after correction, and the correction content is continuously reflected, there is an advantage in that it is possible to reduce the probability of making an error that the extracted content is different or incorrectly recognized when extracting the OCR text.

도 1은 본 발명의 일 실시예에 따른 문서 이미지 내 텍스트 추출 서비스 시스템의 구성을 보인 블록도이다.
도 2는 도 1의 서비스서버의 내부 구성을 세부적으로 보인 블록도이다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 문서 이미지 내 텍스트 추출 서비스 방법의 순서도이다.
1 is a block diagram showing the configuration of a text extraction service system in a document image according to an embodiment of the present invention.
FIG. 2 is a block diagram showing the internal configuration of the service server of FIG. 1 in detail.
3 and 4 are flowcharts of a text extraction service method in a document image according to an embodiment of the present invention.

이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 다만, 본 발명의 사상은 제시되는 실시예에 제한되지 아니하고, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서 다른 구성요소를 추가, 변경, 삭제 등을 통하여, 퇴보적인 다른 발명이나 본 발명 사상의 범위 내에 포함되는 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본원 발명 사상 범위 내에 포함된다고 할 것이다. 또한, 각 실시예의 도면에 나타나는 동일한 사상의 범위 내의 기능이 동일한 구성요소는 동일한 참조부호를 사용하여 설명한다.Hereinafter, specific embodiments of the present invention will be described in detail with reference to the drawings. However, the spirit of the present invention is not limited to the presented embodiments, and those skilled in the art who understand the spirit of the present invention may add, change, delete, etc. other elements within the scope of the same spirit, and may use other degenerative inventions or the present invention. Other embodiments included within the scope of the invention may be easily proposed, but this will also be included within the scope of the invention. In addition, components having the same function within the scope of the same idea shown in the drawings of each embodiment will be described using the same reference numerals.

도 1은 본 발명의 일 실시예에 따른 문서 이미지 내 텍스트 추출 서비스 시스템의 구성을 보인 블록도이며, 도 2는 도 1의 서비스서버의 내부 구성을 세부적으로 보인 블록도이다.1 is a block diagram showing the configuration of a text extraction service system in a document image according to an embodiment of the present invention, and FIG. 2 is a block diagram showing the internal configuration of the service server of FIG. 1 in detail.

본 발명의 문서 이미지 내 텍스트 추출 서비스 시스템은 통신망(200)을 통하여 상호 연결되는 사용자단말기(100)와 서비스서버(300)를 포함한다.The text extraction service system in the document image of the present invention includes a user terminal 100 and a service server 300 that are interconnected through a communication network 200 .

서비스서버(300)는 웹기반의 OCR을 이용한 텍스트 추출 서비스를 제공하는 서버로, 사용자단말기(100)로부터 관심 항목에 대한 텍스트 추출을 위한 문서를 업로드받아 해당 문서를 이미지화하고, 이미지 변환된 문서를 OCR을 이용하여 텍스트를 추출하고, 사용자단말기(100)에 요청한 관심 항목에 대한 이미지 조각을 생성하여, 문서 프로그램을 통하여 사용자에게 다시 제공할 수 있다.The service server 300 is a server that provides a text extraction service using web-based OCR, and uploads a document for extracting text for an item of interest from the user terminal 100, images the document, and processes the image-converted document. It is possible to extract text using OCR, generate an image fragment for an item of interest requested from the user terminal 100, and provide it back to the user through a document program.

이를 위해 서비스서버(300)는 도 2에 도시된 바와 같이, 통신부(310), 문서변환부(320), 텍스트추출부(330), 수정및학습부(340), 통계부(350), 데이터베이스(360)를 더 포함할 수 있다.For this purpose, the service server 300 includes a communication unit 310, a document conversion unit 320, a text extraction unit 330, a correction and learning unit 340, a statistics unit 350, and a database as shown in FIG. (360) may be further included.

통신부(310)는 통신망(200)을 통하여 사용자단말기(100)와 통신하기 위한 유무선 호환 가능한 통신 프로토콜이 내장되며, 텍스트를 추출할 문서, 항목요청정보 등을 포함한 OCR 텍스트 추출 서비스를 위한 각종 정보를 송수신할 수 있다.The communication unit 310 has a built-in wired/wireless compatible communication protocol for communicating with the user terminal 100 through the communication network 200, and various information for OCR text extraction service, including documents to extract text, item request information, etc. can send and receive

문서변환부(320)는 통신부(310)를 통하여 사용자단말기(100)로부터 문서를 제공받아 OCR을 이용하여 항목 및 텍스트를 추출하기 위해 문서 이미지로 변환한다.The document conversion unit 320 receives a document from the user terminal 100 through the communication unit 310 and converts it into a document image to extract items and texts using OCR.

텍스트추출부(330)는 문서변환부(320)에서 문서 이미지로 변환되면, OCR을 이용하여 해당 문서 이미지에서 텍스트를 추출한다.When the text extraction unit 330 is converted into a document image by the document conversion unit 320, the text is extracted from the document image by using OCR.

또한 텍스트추출부(330)는 사용자가 요청한 관심 항목(예컨대 제목, 분류명 등)에 대한 텍스트 영역(예컨대 내용 영역, 항목에 대한 설명 등)을 찾아서 추출하고, 추출된 텍스트 일부(특정 텍스트 영역)에 대해 이미지 조각을 생성할 수 있다.In addition, the text extraction unit 330 finds and extracts the text area (eg, content area, description of the item, etc.) for the item of interest (eg, title, classification name, etc.) requested by the user, and extracts it from a part of the extracted text (eg, a specific text area). You can create image fragments for

나아가 텍스트추출부(330)는 항목과 텍스트 영역을 구분하여 추출하여 제공할 수 있도록 다양한 정형화된 문서 이미지(예컨대 각종 서류, 공문 양식 등)에 대한 패턴을 저장하고, 서포트 벡터 머신과 같은 머신러닝 학습을 수행하여 더 잘 구분하여 추출할 수 있도록 할 수 있다.Furthermore, the text extraction unit 330 stores patterns for various standardized document images (eg, various documents, official forms, etc.) so that items and text areas can be separated and extracted and provided, and machine learning such as a support vector machine is learned. can be performed to better differentiate and extract.

텍스트추출부(330)에서 생성된 이미지 조각이 포함된 문서를 생성하여 사용자단말기(100)로 통신망(200)으로 통하여 제공된다.A document including the image fragment generated by the text extraction unit 330 is generated and provided to the user terminal 100 through the communication network 200 .

수정및학습부(340)는 사용자단말기(100)에서 이미지 조각이 포함된 문서를 확인 후 수정하여 수정된 항목 또는 텍스트를 포함한 수정된 문서 파일을 전송받으면, 해당 항목 및 텍스트를 분석하여 OCR 성능 개선에 활용한다.The correction and learning unit 340 checks the document including the image fragment in the user terminal 100 and then receives the corrected item or the modified document file including the text, and improves the OCR performance by analyzing the item and text. use it for

즉, 분석된 결과를 머신러닝 알고리즘을 활용하여 학습시킬 수 있으며, 학습 결과를 반영하여 OCR로, 다음 문서 텍스트 추출시 오류를 범할 확률을 줄일 수 있도록 한다. That is, the analyzed result can be learned by using a machine learning algorithm, and the probability of making an error when extracting the next document text can be reduced through OCR by reflecting the learning result.

이때 사용되는 머신러닝 알고리즘은 예컨대, 문서 이미지 영역의 패턴을 분석할 수 있는 서포트 벡터 머신을 사용할 수 있으며, 이외에도 CNN, RNN 등의 신경망을 혼합하여 학습을 수행할 수 있다.The machine learning algorithm used at this time may use, for example, a support vector machine capable of analyzing a pattern of a document image region, and may perform learning by mixing neural networks such as CNNs and RNNs.

통계부(350)는 사용자단말기(100)로부터 요청한 문서 이미지에 대한 텍스트 추출에 대한 문서 종류별, 텍스트 내용별, 사용자별 이벤트 정보를 저장하고, 각종 통계자료를 산출하여 사용자에게 제공하는 기능을 수행할 수 있다. 예컨대 사용자단말기(100)는 통계자료를 제공받아 문서 작업량, 작업한 문서 수, 문서 내용 변환 내역, 변환 오류 확률 등을 확인할 수 있다.Statistical unit 350 stores event information for each document type, each text content, and each user for text extraction with respect to the document image requested from the user terminal 100, calculates various statistical data, and provides a function to the user. can For example, the user terminal 100 may receive statistical data and check the amount of document work, the number of documents worked, document content conversion history, conversion error probability, and the like.

데이터베이스(360)는 작업한 문서 이미지, 추출된 항목 및 텍스트 내용(데이터 내용) 등을 각 문서별, 사용자별로 분류하여 저장할 수 있으며, 사용자단말기(100)에서 요청시 해당 자료를 제공할 수도 있다. 또한, 텍스트 추출시 발생하는 오류를 줄이고자 머신러닝 학습을 위한 학습 및 예측 모델이 저장될 수 도 있다.The database 360 may classify and store the worked document image, extracted items, and text content (data content) for each document and each user, and may provide the corresponding data upon request from the user terminal 100 . In addition, in order to reduce errors occurring during text extraction, learning and prediction models for machine learning learning may be stored.

도 3 및 도 4는 본 발명의 일 실시예에 따른 문서 이미지 내 텍스트 추출 서비스 방법의 순서도이다.3 and 4 are flowcharts of a text extraction service method in a document image according to an embodiment of the present invention.

사용자단말기(100)는 서비스서버(300)에서 제공하는 웹기반 문서 텍스트 추출 서비스 웹페이지에 접속하여, 텍스트를 추출할 문서 파일을 업로드할 수 있다(S100).The user terminal 100 may access a web-based document text extraction service web page provided by the service server 300 and upload a document file from which text is to be extracted (S100).

또한 사용자단말기(100)는 해당 문서 파일에서 추출 원하는 관심 항목과 내용(텍스트)을 입력하여 서비스서버(300)에 해당 항목에 대한 추출을 요청할 수 있다(S102).In addition, the user terminal 100 may request the service server 300 to extract the item by inputting the desired item of interest and content (text) to be extracted from the document file (S102).

서비스서버(300)는 사용자단말기(100)로부터 업로드된 문서 파일을 문서 이미지로 변환한다(S104). The service server 300 converts the document file uploaded from the user terminal 100 into a document image (S104).

또한 서비스서버(300)는 OCR을 이용하여 문서 이미지의 전체 텍스트를 추출하고, 사용자가 요청한 관심항목과 텍스트 내용을 찾기 용이하도록 텍스트 내용별 위치 좌표를 저장한다(S106).In addition, the service server 300 extracts the entire text of the document image by using OCR, and stores the location coordinates for each text content so that it is easy to find the item of interest and the text content requested by the user (S106).

이때 서비스서버(300)는 사용자단말기(100)에서 요청된 관심 항목과 텍스트 내용에 대하여 분석하고, OCR을 이용하여 사용자단말기(100)에서 요청한 텍스트를 찾아 추출한다(S108).At this time, the service server 300 analyzes the item of interest and the text content requested from the user terminal 100, and finds and extracts the text requested from the user terminal 100 using OCR (S108).

서비스서버(300)는 사용자단말기(100)에서 요청한 관심 항목 및 텍스트에 대한 이미지 조각을 생성한다(S110).The service server 300 generates an image fragment for the item of interest and the text requested by the user terminal 100 (S110).

또한 이미지 조각이 포함된 문서 파일을 생성하여 사용자단말기(100)로 제공하며(S112, S114), 이를 테면 마이크로소프트사의 액셀(excel) 파일 형태로 생성하여 제공함으로써, 사용자가 파일 확인 후 각 항목 및 텍스트를 찾고, 수정이 용이하도록 할 수 있다(S118). In addition, by generating a document file containing an image fragment and providing it to the user terminal 100 (S112, S114), for example, by generating and providing in the form of Microsoft's Excel file, the user checks each item and It is possible to find the text and make it easy to edit (S118).

또한 사용자단말기(100)에서 수정된 항목 및 텍스트를 포함한 문서 파일을 다시 서비스서버(300)로 전송하면, 서비스서버(300)는 해당 항목 및 텍스트를 분석하여 머신러닝 학습 등을 통하여 OCR 성능 개선에 활용할 수 있다(S120).In addition, when the document file including the item and text modified from the user terminal 100 is transmitted back to the service server 300, the service server 300 analyzes the item and text to improve OCR performance through machine learning learning, etc. It can be utilized (S120).

또한 부가적으로 사용자단말기(100)와 서비스서버(300)간의 주고받는 정보(예를 들어 문서정보)는 외부 해킹 등의 위험으로부터 정보를 보호하기 위해, 문서정보의 송/수신에 데이터 암/복호화 기술을 적용할 수 있다. 보다 구체적으로, 사용자단말기(100)와 서비스서버(300)에 각각 신분 증명이 가능한, 식별 정보(identification information)를 부여하여, 각 사용자단말기(100)와 서비스서버(300)의 식별 정보를 사설 암호 키(private key)로 활용하는 경량 암호 알고리즘을 수행한다. 경량 암호 알고리즘에는 본원 발명의 사용자단말기(100)와 같은 스마트 기기 등의 제한된 환경에서 구현하기 위해 설계된 암호 기술로서, 대칭키 암호 알고리즘인 HIGHT(HIGh security and light weigHT), LEA(Lightweight Encryption)와 해시함수인 LSH(Lightweight Secure Hash) 등을 활용할 수 있다. In addition, information (eg, document information) exchanged between the user terminal 100 and the service server 300 is encrypted/decrypted data for transmission/reception of document information in order to protect the information from risks such as external hacking. technology can be applied. More specifically, by giving identification information, each of which can prove identity, to the user terminal 100 and the service server 300, the identification information of each user terminal 100 and the service server 300 is converted into a private password. Executes a lightweight encryption algorithm used as a private key. The lightweight encryption algorithm includes the user terminal 100 of the present invention and As an encryption technology designed to be implemented in a limited environment such as smart devices, symmetric key encryption algorithms such as HIGHT (HIGH security and light weigHT), LEA (Lightweight Encryption) and hash function LSH (Lightweight Secure Hash) can be used. .

본 명세서에서 '단말기'는 휴대성 및 이동성이 보장된 무선 통신 장치일 수 있으며, 예를 들어 스마트폰, 태블릿 PC 또는 노트북 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치일 수 있다. 또한, '단말기'는 네트워크를 통해 다른 단말 또는 서버 등에 접속할 수 있는 PC 등의 유선 통신 장치인 것도 가능하다. 또한, 통신망(200)은 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷 (WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다. In the present specification, a 'terminal' may be a wireless communication device with guaranteed portability and mobility, for example, any type of handheld-based wireless communication device such as a smart phone, a tablet PC, or a notebook computer. In addition, the 'terminal' may be a wired communication device such as a PC that can be connected to another terminal or a server through a network. In addition, the communication network 200 refers to a connection structure capable of exchanging information between each node, such as terminals and servers, and includes a local area network (LAN), a wide area network (WAN), It includes the Internet (WWW: World Wide Web), wired and wireless data communication networks, telephone networks, wired and wireless television networks, and the like.

무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다.Examples of wireless data communication networks include 3G, 4G, 5G, 3rd Generation Partnership Project (3GPP), Long Term Evolution (LTE), World Interoperability for Microwave Access (WIMAX), Wi-Fi, Bluetooth communication, infrared communication, ultrasound Communication, Visible Light Communication (VLC), LiFi, etc. include, but are not limited to.

100 ; 사용자단말기
200 ; 통신망
300 ; 서비스서버
310 ; 통신부
320 ; 문서변환부
330 ; 텍스트추출부
340 ; 수정및학습부
350 ; 통계부
360 ; 데이터베이스
100 ; user terminal
200 ; communications network
300 ; service server
310; communication department
320 ; document conversion department
330; text extractor
340 ; Revision and Learning Department
350 ; Department of Statistics
360 ; database

Claims (7)

웹기반의 OCR을 이용한 문서 내 텍스트 추출 서비스를 제공하며, 사용자단말기로부터 관심 항목에 대한 텍스트 추출을 위한 문서를 업로드받아 해당 문서를 이미지화하고, 이미지 변환된 문서를 OCR을 이용하여 텍스트를 추출하고, 사용자단말기에서 요청한 관심 항목 및 항목에 대한 텍스트 내용을 포함하는 이미지 조각을 생성하고, 이미지 조각이 포함된 문서 형태로 생성하여 상기 사용자단말기로 제공하는 서비스서버를 포함하며,
상기 서비스서버는,
통신망을 통하여 사용자단말기와 통신하기 위한 유무선 호환 가능한 통신 프로토콜이 내장되어 OCR 텍스트 추출 서비스를 위한 정보를 송수신하는 통신부;
상기 통신부를 통하여 사용자단말기로부터 문서를 제공받아 OCR을 이용하여 항목 및 텍스트를 추출하기 위해 문서 이미지로 변환하는 문서변환부;
상기 문서변환부에서 문서 이미지로 변환되면, OCR을 이용하여 해당 문서 이미지에서 텍스트를 추출하는 텍스트추출부; 및
작업한 문서 이미지, 항목, 텍스트 내용을 분류하여 저장하는 데이터베이스를 포함하고,
상기 서비스서버는,
상기 사용자단말기에서 상기 이미지 조각이 포함된 문서를 확인 후 수정하여 수정된 항목 또는 텍스트를 포함한 수정된 문서 파일을 전송받으면, 해당 항목 및 텍스트를 분석하여 OCR 성능 개선에 활용하는 수정및학습부를 더 포함하는 문서 이미지 내 텍스트 추출 서비스 시스템.
Provides a text extraction service using web-based OCR, uploads a document for text extraction on an item of interest from a user terminal, images the document, extracts text from an image-converted document using OCR, A service server that generates an image fragment including text content for the item of interest and the item of interest requested by the user terminal, and provides the image fragment in the form of a document including the image fragment, to the user terminal,
The service server,
a communication unit having a built-in wired/wireless compatible communication protocol for communicating with a user terminal through a communication network to transmit and receive information for an OCR text extraction service;
a document conversion unit that receives a document from a user terminal through the communication unit and converts it into a document image to extract items and texts using OCR;
a text extraction unit for extracting text from the document image using OCR when the document conversion unit converts it into a document image; and
Includes a database that classifies and stores the document images, items, and text contents that have been worked on;
The service server is
After checking the document containing the image fragment in the user terminal and receiving the modified document file including the corrected item or text, it further includes a correction and learning unit that analyzes the item and text and utilizes it to improve OCR performance A text extraction service system within the document image.
삭제delete 제1항에 있어서,
상기 텍스트추출부는
사용자단말기로부터 요청한 관심 항목에 대한 텍스트 영역을 찾아서 추출하고, 추출된 텍스트 일부에 대해 이미지 조각을 생성하는 것을 특징으로 하는 문서 이미지 내 텍스트 추출 서비스 시스템.
The method of claim 1,
The text extraction unit
A text extraction service system in a document image, characterized by finding and extracting a text area for an item of interest requested from a user terminal, and generating an image fragment for a part of the extracted text.
삭제delete 사용자단말기는 통신망을 통하여 서비스서버에서 제공하는 웹기반 문서 텍스트 추출 서비스 웹페이지에 접속하여, 텍스트를 추출할 문서 파일을 업로드하는 단계;
상기 사용자단말기는 해당 문서 파일에서 추출 원하는 관심 항목과 텍스트 내용을 입력하여 서비스서버에 해당 항목에 대한 추출을 요청하는 단계;
상기 서비스서버는 사용자단말기로부터 업로드된 문서 파일을 문서 이미지로 변환하는 단계;
상기 서비스서버는 사용자단말기에서 요청된 관심 항목과 텍스트 내용에 대하여 분석하고, OCR을 이용하여 사용자단말기에서 요청한 텍스트를 찾아 추출하는 단계;
상기 서비스서버는 사용자단말기에서 요청한 관심 항목 및 텍스트에 대한 이미지 조각을 생성하는 단계; 및
상기 서비스서버는 이미지 조각이 포함된 문서 파일을 생성하여 사용자단말기로 제공하는 단계를 포함하며,
상기 사용자단말기는 수신된 이미지 조각이 포함된 문서 파일 확인 후 수정하여 수정된 항목 또는 텍스트 내용을 포함한 수정된 문서를 생성하는 단계; 및
상기 서비스서버는 사용자단말기에서 수정된 항목 및 텍스트를 포함한 수정된 문서 파일을 전송받으면, 해당 항목 및 텍스트를 분석하여 OCR 성능 개선에 활용하는 단계를 더 포함하는 문서 이미지 내 텍스트 추출 서비스 방법.
uploading, by the user terminal, a document file from which text is to be extracted by accessing a web-based document text extraction service web page provided by the service server through a communication network;
The user terminal inputting a desired item of interest and text content to be extracted from the document file, and requesting the service server to extract the item;
converting, by the service server, the document file uploaded from the user terminal into a document image;
analyzing, by the service server, the items of interest and text contents requested from the user terminal, and extracting the text requested from the user terminal by using OCR;
generating, by the service server, an image fragment for an item of interest and text requested by the user terminal; and
The service server includes the step of generating a document file containing an image fragment and providing it to a user terminal,
generating, by the user terminal, a modified document including a modified item or text content by checking and modifying a document file including the received image fragment; and
When the service server receives a modified document file including the modified item and text from the user terminal, analyzing the item and text and utilizing the modified item and text to improve OCR performance.
제5항에 있어서,
상기 서비스서버는 OCR을 이용하여 문서 이미지의 전체 텍스트를 추출하고, 사용자단말기로부터 요청한 관심항목과 텍스트 내용을 찾기 용이하도록 텍스트 내용별 위치 좌표를 저장하는 단계를 더 포함하는 문서 이미지 내 텍스트 추출 서비스 방법.
6. The method of claim 5,
The service server extracts the entire text of the document image using OCR, and stores the location coordinates for each text content so that it is easy to find the item of interest and the text content requested from the user terminal. .
삭제delete
KR1020210045741A 2021-04-08 2021-04-08 Document image text extraction service system and method KR102390000B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210045741A KR102390000B1 (en) 2021-04-08 2021-04-08 Document image text extraction service system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210045741A KR102390000B1 (en) 2021-04-08 2021-04-08 Document image text extraction service system and method

Publications (1)

Publication Number Publication Date
KR102390000B1 true KR102390000B1 (en) 2022-04-22

Family

ID=81452243

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210045741A KR102390000B1 (en) 2021-04-08 2021-04-08 Document image text extraction service system and method

Country Status (1)

Country Link
KR (1) KR102390000B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102646428B1 (en) * 2023-04-26 2024-03-12 대한민국 Method and apparatus for extracting similar letters using artificial intelligence learning model

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060010277A (en) * 2004-07-27 2006-02-02 최태헌 Server-side document to sheets transformation system and method on providing search-result in a native page-layout format
KR20100000190A (en) 2008-06-24 2010-01-06 삼성전자주식회사 Method for recognizing character and apparatus therefor
WO2020176588A1 (en) * 2019-02-27 2020-09-03 Google Llc Identifying key-value pairs in documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060010277A (en) * 2004-07-27 2006-02-02 최태헌 Server-side document to sheets transformation system and method on providing search-result in a native page-layout format
KR20100000190A (en) 2008-06-24 2010-01-06 삼성전자주식회사 Method for recognizing character and apparatus therefor
WO2020176588A1 (en) * 2019-02-27 2020-09-03 Google Llc Identifying key-value pairs in documents

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102646428B1 (en) * 2023-04-26 2024-03-12 대한민국 Method and apparatus for extracting similar letters using artificial intelligence learning model

Similar Documents

Publication Publication Date Title
US10489606B2 (en) System, method, and computer program product for preventing image-related data loss
US10992646B2 (en) Data transmission method and data transmission apparatus
KR20120037330A (en) Log-in method and system using image objects
US20140310420A1 (en) System and method of identifying networked device for establishing a p2p connection
US20160125231A1 (en) Systems and Methods for Enhanced Document Recognition and Security
CN113313170B (en) Full-time global training big data platform based on artificial intelligence
US11403283B2 (en) Distributed ledger based generation of electronic documents
US20220044013A1 (en) Enhancing electronic documents for character recognition
US9652445B2 (en) Methods and systems for creating tasks of digitizing electronic document
KR102390000B1 (en) Document image text extraction service system and method
US10798078B2 (en) System for using login information and historical data to determine processing for data received from various data sources
US10671718B2 (en) System and method for authentication
CN113449829A (en) Data transmission method based on optical character recognition technology and related device
US10133884B2 (en) Electronic and paper combined data submission, printing, and retrieval method and its system
US11658973B2 (en) Method and system for electronic mail attachment management
US20200349319A1 (en) Edoc utility using non-structured-query-language databases
WO2020020226A1 (en) Photo classification method, device, computer-readable medium, and system
US20230421605A1 (en) Document retention and generation at the edge
KR102558804B1 (en) Electronic signature system for transmitting digital signature request from PC to mobile terminal and receiving digital signature on mobile terminal, and method thereof
US11899664B2 (en) Computerized system and method for optimizing queries in a templated virtual semantic layer
KR102115329B1 (en) Method and system for deidentificating personal information based on public key
CN113225245A (en) Information interaction method for social media platform
KR102566991B1 (en) System for providing countersign service using fingerprint
US20230224308A1 (en) User authentication and data encryption systems and methods
CN117331898A (en) File classification method, system and device

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant