KR102039989B1 - Method and apparatus for extraciting text data from nonlinear text image - Google Patents

Method and apparatus for extraciting text data from nonlinear text image Download PDF

Info

Publication number
KR102039989B1
KR102039989B1 KR1020180032867A KR20180032867A KR102039989B1 KR 102039989 B1 KR102039989 B1 KR 102039989B1 KR 1020180032867 A KR1020180032867 A KR 1020180032867A KR 20180032867 A KR20180032867 A KR 20180032867A KR 102039989 B1 KR102039989 B1 KR 102039989B1
Authority
KR
South Korea
Prior art keywords
value
category
user terminal
template
text
Prior art date
Application number
KR1020180032867A
Other languages
Korean (ko)
Other versions
KR20190110873A (en
Inventor
강경림
진창숙
Original Assignee
주식회사 피앤피소프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 피앤피소프트 filed Critical 주식회사 피앤피소프트
Priority to KR1020180032867A priority Critical patent/KR102039989B1/en
Publication of KR20190110873A publication Critical patent/KR20190110873A/en
Application granted granted Critical
Publication of KR102039989B1 publication Critical patent/KR102039989B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06F17/21
    • G06K9/3258
    • G06K9/344
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • G06K2209/01

Abstract

본 발명의 일 실시예에 따른, 비정형 데이터의 정형 데이터 변환 기반의 업무 서비스를 제공하는 방법에 있어서, (a) 제 1 사용자 단말로부터 업무요청을 수신하고, 업무요청의 수신자에 대응하는 제 2 사용자 단말로 업무요청을 전달하는 단계; (b) 제 1 사용자 단말로부터 업무요청에 대응하는 비정형의 문서 이미지를 수신하고, 수신한 문서 이미지로부터 텍스트들을 추출하며, 각 텍스트에 대응하는 카테고리값과 검증값을 인식하는 단계; (c) 서버의 검증 데이터베이스에 기 저장된 카테고리값과 검증값 쌍에 대한 목록과 추출된 카테고리값과 검증값의 대응여부를 확인하는 단계; 및 (d) 대응여부에 따라, 기 저장된 복수의 정형 템플릿 중 어느 하나의 정형 템플릿을 검출하고, 텍스트들을 정형 템플릿에 입력한 정형의 문서 이미지를 상기 제 1 사용자 단말로 제공하는 단계;를 포함하고, 카테고리값은 인식된 텍스트의 의미를 참고하여 분류되는 카테고리에 대한 속성 정보이며, 검증값은 상기 카테고리값에 대응되는 텍스트 별로 정의되는 텍스트 표현 형식에 대한 속성 정보이다.According to an embodiment of the present invention, a method for providing a work service based on the structured data conversion of unstructured data, comprising: (a) a second user receiving a work request from a first user terminal and corresponding to a receiver of the work request; Transmitting a work request to a terminal; (b) receiving an atypical document image corresponding to a business request from a first user terminal, extracting texts from the received document image, and recognizing a category value and a verification value corresponding to each text; (c) checking whether a list of the category value and the verification value pair previously stored in the verification database of the server and the extracted category value and the verification value correspond to each other; And (d) detecting, according to the correspondence, one of the pre-stored stereotyped templates, and providing the first user terminal with a stereotyped document image in which texts are input into the stereotyped template. The category value is attribute information for a category classified by referring to the meaning of the recognized text, and the verification value is attribute information for a text representation format defined for each text corresponding to the category value.

Description

비정형 텍스트 이미지에서 텍스트 데이터를 추출하는 방법 및 장치 {METHOD AND APPARATUS FOR EXTRACITING TEXT DATA FROM NONLINEAR TEXT IMAGE}Methods and apparatus for extracting text data from unstructured text images {METHOD AND APPARATUS FOR EXTRACITING TEXT DATA FROM NONLINEAR TEXT IMAGE}

본 발명은 다양한 형식을 가지는 비정형 텍스트 이미지에서 텍스트를 추출하고, 이를 정형화된 형식의 문서가 되도록 통일시키는 발명에 관한 것이다.The present invention relates to an invention for extracting text from an unstructured text image having various formats and unifying it into a document in a standardized format.

이를 자세하게 설명하면, 다양한 비정형 문서들에서 텍스트를 추출하고, 이를 동일한 문서양식을 가질 수 있도록 하나의 정형화된 템플릿에 적용하여 사용자에게 제공하는 발명에 관한 것이다.In detail, the present invention relates to extracting text from various unstructured documents and applying the same to a standardized template to provide a user with the same document form.

최근 기업의 수가 증가함에 따라 각 업체마다의 고유의 문서양식을 가지는 경우가 늘게 되었다. 이런 업체들 간의 상호 협업 시, 각자가 보유한 문서 양식을 사용하여 상대에게 제공하는 경우가 많았다. 따라서 타 업체에서 제공하는 문서를 분류하거나 보관하기 위해서는 다양한 업체에서 수신하게 되는 문서를 수작업으로 분류하거나, 자사의 양식으로 새롭게 작성해야 하는 번거로움이 있다.With the recent increase in the number of companies, each company has its own unique document format. When collaborating among these companies, they often used their own document forms and provided them to others. Therefore, in order to classify or archive documents provided by other companies, it is cumbersome to manually classify documents received from various companies or newly fill out the form of the company.

최근 디지털 저장 매체의 발전에 따라 기존의 종이 문서를 디지털화 하여 저장하는 경우가 늘고 있다. 과거에는 종이 문서를 단순히 스캔이나 촬영 기술을 통해 이미지 파일로 저장하거나 문서 작성프로그램을 사용하여 자사의 양식에 맞게 작성하는 경우가 대부분이었다. 하지만 최근에는 자동으로 문자를 인식하는 광학 문자 인식 기술(optical character recognition)의 발전에 따라 이미지에서 문자를 자동으로 인식하고 이를 데이터화하는 기술이 발전하였으나, 종래의 기술은 단순하게 문자만을 인식하고 다양한 문서에 대응하여 분류하기엔 한계가 존재한다.Recently, with the development of digital storage media, existing paper documents are being digitized and stored. In the past, paper documents were often saved as image files simply by scanning or photographing technology, or written to their form using a document writing program. Recently, according to the development of optical character recognition technology that automatically recognizes a character, a technology of automatically recognizing a character in an image and data has been developed. However, the conventional technique simply recognizes a character and various documents There is a limit to classifying them.

한국등록특허공보 제10-1834127호(발명의 명칭: 문자인식 기반 팩스업무 처리 시스템)Korean Registered Patent Publication No. 10-1834127 (Name of the Invention: Character Recognition Based Fax Service Processing System)

본 발명은 전술한 문제점을 해결하기 위하여, 본 발명의 일 실시예에 따라, 다양한 양식으로 제작된 비정형 문서의 이미지에서 데이터 값을 추출하고, 이를 하나의 정형화된 문서 양식으로 통합 관리하는 것을 목적으로 한다.The present invention, in order to solve the above-mentioned problems, in accordance with an embodiment of the present invention, to extract data values from the images of the unstructured document produced in various forms, and to manage them integrated into one standardized document form do.

상기한 기술적 과제를 달성하기 위한 기술적 수단으로서 본 발명의 일 실시예에 따른, 비정형 데이터의 정형 데이터 변환 기반의 업무 서비스를 제공하는 방법에 있어서, (a) 제 1 사용자 단말로부터 업무요청을 수신하고, 업무요청의 수신자에 대응하는 제 2 사용자 단말로 업무요청을 전달하는 단계; (b) 제 1 사용자 단말로부터 업무요청에 대응하는 비정형의 문서 이미지를 수신하고, 수신한 문서 이미지로부터 텍스트들을 추출하며, 각 텍스트에 대응하는 카테고리값과 검증값을 인식하는 단계; (c) 서버의 검증 데이터베이스에 기 저장된 카테고리값과 검증값 쌍에 대한 목록과 추출된 카테고리값과 검증값의 대응여부를 확인하는 단계; 및 (d) 대응여부에 따라, 기 저장된 복수의 정형 템플릿 중 어느 하나의 정형 템플릿을 검출하고, 텍스트들을 정형 템플릿에 입력한 정형의 문서 이미지를 상기 제 1 사용자 단말로 제공하는 단계;를 포함하고, 카테고리값은 인식된 텍스트의 의미를 참고하여 분류되는 카테고리에 대한 속성 정보이며, 검증값은 상기 카테고리값에 대응되는 텍스트 별로 정의되는 텍스트 표현 형식에 대한 속성 정보일 수 있다.According to an embodiment of the present invention as a technical means for achieving the above technical problem, in a method of providing a business service based on the structured data conversion of the unstructured data, (a) receiving a business request from the first user terminal and Transmitting a work request to a second user terminal corresponding to a receiver of the work request; (b) receiving an atypical document image corresponding to a business request from a first user terminal, extracting texts from the received document image, and recognizing a category value and a verification value corresponding to each text; (c) checking whether a list of the category value and the verification value pair previously stored in the verification database of the server and the extracted category value and the verification value correspond to each other; And (d) detecting, according to the correspondence, one of the pre-stored stereotyped templates, and providing the first user terminal with a stereotyped document image in which texts are input into the stereotyped template. The category value may be attribute information on a category classified by referring to the meaning of the recognized text, and the verification value may be attribute information on a text expression format defined for each text corresponding to the category value.

또한, 다른 일 실시예로 비정형 데이터의 인식 및 저장 서비스를 제공하는 장치에 있어서, 비정형 데이터의 인식 및 저장 서비스를 제공하기 위한 프로그램이 기록된 메모리; 및 프로그램을 실행하기 위한 프로세서;를 포함하며, 프로세서는, 프로그램의 실행에 의해, 제 1 사용자 단말로부터 업무요청을 수신하고, 업무요청의 수신자에 대응하는 제 2 사용자 단말로 업무요청을 전달하고, 제 1 사용자 단말로부터 업무요청에 대응하는 비정형의 문서 이미지를 수신하고, 수신한 문서 이미지로부터 텍스트들을 추출하며, 각 텍스트에 대응하는 카테고리값과 검증값을 인식하고, 서버의 검증 데이터베이스에 기 저장된 카테고리값과 검증값 쌍에 대한 목록과 추출된 카테고리값과 검증값의 대응여부를 확인하고, 대응여부에 따라, 기 저장된 복수의 정형 템플릿 중 어느 하나의 정형 템플릿을 검출하고, 텍스트들을 상기 정형 템플릿에 입력한 정형의 문서 이미지를 제 1 사용자 단말로 제공하는 장치일 수 있다.In another embodiment, an apparatus for providing a recognition and storage service of unstructured data, the apparatus comprising: a memory in which a program for providing a recognition and storage service of the unstructured data is recorded; And a processor for executing a program, wherein the processor receives the work request from the first user terminal by executing the program, and transmits the work request to a second user terminal corresponding to the receiver of the work request. Receiving an atypical document image corresponding to a business request from a first user terminal, extracting texts from the received document image, recognizing a category value and a verification value corresponding to each text, and pre-stored categories in the verification database of the server Check whether the list of the pair of values and the verification value and the extracted category value and the verification value correspond to each other, and according to the correspondence, detect any one of a plurality of pre-stored stereotype templates, and store texts in the stereotype template. It may be a device for providing the input document image of the form to the first user terminal.

전술한 본 발명의 과제 해결 수단에 의하면, 다양한 형식으로 작성된 비정형 문서 이미지에서, 카테고리값과 그에 매핑하는 데이터를 추출하여 서버가 제공하는 정형 문서양식에 적용하고, 상대방에게 전달하는 플랫폼을 제공할 수 있다.According to the above-described problem solving means of the present invention, it is possible to provide a platform for extracting the category value and the data mapped to it from the unstructured document image created in various formats, apply to the structured document form provided by the server, and deliver to the other party have.

도 1은 본 발명의 일 실시예에 따른, 비정형 데이터의 정형 데이터 변환 기반의 업무 서비스를 제공하는 시스템의 구성을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른, 사용자 간의 서비스 이용 방법을 나타낸 동작 흐름도이다.
도 3은 본 발명의 일 실시예에 따른, 카테고리값과 밸류값을 설명하기 위한 예시 문서를 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른, 비정형 문서 이미지에서 카테고리값과 밸류값을 인식하는 방법을 나타낸 동작 흐름도이다.
도 5는 본 발명의 일 실시예에 따른, 서버가 비정형 문서 이미지를 정형 문서 이미지로 변환하는 과정을 나타낸 동작 흐름도이다.
1 is a diagram illustrating a configuration of a system for providing a business service based on a structured data transformation of unstructured data according to an embodiment of the present invention.
2 is a flowchart illustrating a service usage method between users according to an embodiment of the present invention.
3 is a diagram illustrating an example document for explaining a category value and a value value according to an embodiment of the present invention.
4 is a flowchart illustrating a method of recognizing a category value and a value value in an unstructured document image according to an embodiment of the present invention.
5 is an operation flowchart illustrating a process of converting an unstructured document image into a structured document image by a server according to an embodiment of the present invention.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.DETAILED DESCRIPTION Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art may easily implement the present invention. As those skilled in the art would realize, the described embodiments may be modified in various different ways, all without departing from the spirit or scope of the present invention. In the drawings, parts irrelevant to the description are omitted in order to clearly describe the present invention, and like reference numerals designate like parts throughout the specification.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.Throughout the specification, when a part is "connected" to another part, this includes not only "directly connected" but also "electrically connected" with another element in between. . In addition, when a part is said to "include" a certain component, which means that it may further include other components, except to exclude other components, unless specifically stated otherwise, one or more other features It is to be understood that the present disclosure does not exclude the possibility of the presence or the addition of numbers, steps, operations, components, parts, or combinations thereof.

명세서 전체에서, 서버(100)는 비정형 데이터의 정형 데이터 변환 기반의 업무 서비스를 제공하는 장치를 의미할 수 있다.In the entire specification, the server 100 may refer to a device that provides a business service based on the structured data conversion of the unstructured data.

이하의 실시예는 본 발명의 이해를 돕기 위한 상세한 설명이며, 본 발명의 권리 범위를 제한하는 것이 아니다. 따라서 본 발명과 동일한 기능을 수행하는 동일 범위의 발명 역시 본 발명의 권리 범위에 속할 것이다.The following examples are detailed description to aid in understanding the present invention, and do not limit the scope of the present invention. Therefore, the same range of inventions that perform the same functions as the present invention will also fall within the scope of the present invention.

도 1은 본 발명의 일 실시예에 따른, 비정형 데이터의 정형 데이터 변환 기반의 업무 서비스를 제공하는 시스템의 구성을 나타낸 도면이다.1 is a diagram illustrating a configuration of a system for providing a business service based on a structured data transformation of unstructured data according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 일 실시예에 따라 비정형 데이터의 정형 데이터 변환 기반의 업무 서비스를 제공하는 시스템은 서버(100), 사용자 단말(200)을 포함할 수 있고, 이를 통신망(300)이 상호 연결하게 된다.Referring to FIG. 1, a system for providing a business service based on a structured data transformation of unstructured data according to an embodiment of the present invention may include a server 100 and a user terminal 200, and the communication network 300. This will be interconnected.

서버(100)는 사용자 단말(200)에 탑재된 단말 어플리케이션을 통해 비정형의 문서 이미지를 정형의 문서 이미지로 변환하는 서비스는 사용자 단말(200)의 요청에 기인하여 비정형의 문서 이미지를 제공 받고, 사용자 단말(200)은 서버(100)로부터 제공받은 어플리케이션 인터페이스에 기초하여 비정형의 문서 이미지에서 추출한 정형의 문서 이미지를 제공받는 것을 특징으로 한다.The server 100 converts an atypical document image into a stereotyped document image through a terminal application installed in the user terminal 200, and receives a atypical document image due to a request of the user terminal 200. The terminal 200 may be provided with a standard document image extracted from an atypical document image based on the application interface provided from the server 100.

이때, 서버(100)는 비정형의 문서 이미지에서 추출한 텍스트 데이터를 인식하고, 검증 데이터베이스에 기 저장되어 있는 데이터와 비교하여 해당 검색결과에 대응하는 정형 템플릿에 적용 후 사용자 단말(200)로 제공하게 된다.In this case, the server 100 recognizes the text data extracted from the atypical document image, compares the data with the data previously stored in the verification database, and applies the template to the structured template corresponding to the search result. .

본 발명은 기업 혹은 단체간의 원활하고 손쉬운 업무를 돕기 위한 것일 수 있다. 본 발명에서 사용자 단말(200)은 서로 다른 기업 혹은 소속이 사용하는 제 1 사용자 단말(201)과 제 2 사용자 단말(202)을 포함할 수 있다. The present invention may be to help smooth and easy work between companies or organizations. In the present invention, the user terminal 200 may include a first user terminal 201 and a second user terminal 202 used by different companies or organizations.

예를 들어 두 기업간의 서류 교환을 위해 제 1 사용자 단말(201)이 서버(100)로 업무요청을 수행하고, 서버(100)는 제 2 사용자 단말(202)로부터 수신한 문서 이미지를 바탕으로 본 발명을 진행하게 되는 것이다.For example, in order to exchange documents between two companies, the first user terminal 201 performs a business request to the server 100, and the server 100 views the document image based on the document image received from the second user terminal 202. It is to proceed the invention.

또한, 비정형 데이터의 정형 데이터 변환 기반의 업무 서비스를 제공하는 어플리케이션은 사용자 단말(200)에 내장된 어플리케이션이거나, 어플리케이션 배포 서버로부터 다운로드되어 사용자 단말(200)에 설치된 어플리케이션일 수 있다.In addition, the application for providing a business service based on the formal data conversion of the unstructured data may be an application embedded in the user terminal 200 or an application downloaded from an application distribution server and installed in the user terminal 200.

복수 개의 사용자 단말(201, 202)들은 유무선 통신 환경에서 단말 어플리케이션을 이용할 수 있는 통신 단말기를 의미한다. 여기서 사용자 단말(200)은 비정형 텍스트 이미지를 수신 후 이를 서버(100)로 제공하고, 그에 대한 결과 정보를 수신할 수 있는 디바이스일 수 있다. 도 1에서는 사용자 단말(200)이 휴대용 단말기의 일종인 스마트폰(smart phone)으로 도시되었지만, 본 발명의 사상은 이에 제한되지 아니하며, 상술한 바와 같이 단말 어플리케이션을 탑재할 수 있는 단말에 대해서 제한 없이 차용될 수 있다.The plurality of user terminals 201 and 202 refer to a communication terminal capable of using a terminal application in a wired / wireless communication environment. In this case, the user terminal 200 may be a device capable of receiving the unstructured text image and providing it to the server 100 and receiving the result information thereof. In FIG. 1, although the user terminal 200 is illustrated as a smart phone, which is a kind of portable terminal, the spirit of the present invention is not limited thereto, and as described above, the terminal capable of mounting a terminal application is not limited thereto. Can be borrowed.

이를 더욱 상세히 설명하면, 사용자 단말(200)은 핸드헬드 컴퓨팅 디바이스(예를 들면, PDA, 이메일 클라이언트 등), 퍼스널 컴퓨터(Personal computer), 또는 다른 종류의 컴퓨팅 또는 커뮤니케이션 플랫폼의 임의의 형태를 포함할 수 있으나, 본 발명이 이에 한정되는 것은 아니다. In more detail, user terminal 200 may include any form of a handheld computing device (eg, PDA, email client, etc.), personal computer, or other type of computing or communication platform. However, the present invention is not limited thereto.

한편, 통신망(300)은 서버(100)와 사용자 단말(200)들을 연결하는 역할을 수행한다. 즉, 통신망(300)은 사용자 단말(200)들이 서버(100)에 접속한 후 데이터를 송수신할 수 있도록 접속 경로를 제공하는 통신망을 의미한다. 통신망(300)은 예컨대 LANs(Local Area Networks), WANs(Wide Area Networks), MANs(Metropolitan Area Networks), ISDNs(Integrated Service Digital Networks) 등의 유선 네트워크나, 무선 LANs, CDMA, 블루투스, 위성 통신 등의 무선 네트워크를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.Meanwhile, the communication network 300 connects the server 100 and the user terminal 200. That is, the communication network 300 refers to a communication network that provides a connection path for transmitting and receiving data after the user terminals 200 access the server 100. The communication network 300 may be, for example, wired networks such as local area networks (LANs), wide area networks (WANs), metropolitan area networks (MANs), integrated service digital networks (ISDNs), wireless LANs, CDMA, Bluetooth, satellite communications, and the like. Although it may encompass a wireless network, the scope of the present invention is not limited thereto.

도 2는 본 발명의 일 실시예에 따른, 사용자 간의 서비스 이용 방법을 나타낸 동작 흐름도이다.2 is a flowchart illustrating a service usage method between users according to an embodiment of the present invention.

도 2를 참조하면, 본 발명의 서비스를 이용하기 위해서 서버(100)는 제 1 사용자 단말(201)로부터 업무요청을 수신하고, 업무요청의 수신자에 대응하는 제 2 사용자 단말(202)로 업무요청을 전달한다(S210).2, in order to use the service of the present invention, the server 100 receives a work request from the first user terminal 201 and requests the work to the second user terminal 202 corresponding to the receiver of the work request. Forward (S210).

여기서 업무요청이란 제 1 사용자 단말(201)의 사용자와 제 2 사용자 단말(202)의 사용자가 협업을 위해 필요한 문서를 주고 받기 위한 작업요청을 뜻할 수 있다.Here, the work request may mean a work request for exchanging documents required for collaboration between the user of the first user terminal 201 and the user of the second user terminal 202.

예를 들어 제 1 사용자 단말(201)이 소속된 기업이 제 2 사용자 단말(202)이 소속된 기업과 거래를 위해 견적서를 요청하면, 서버(100)가 먼저 제 1 사용자 단말(201)이 소속의 기업의 견적서 요청을 수신하고, 이 요청을 제 2 사용자 단말(202)이 소속된 기업으로 전달하게 되는 것이다.For example, when the company to which the first user terminal 201 belongs to request a quotation for a transaction with the company to which the second user terminal 202 belongs, the server 100 firstly associates with the first user terminal 201. Receives a request for a quote of the company, and forwards the request to the company to which the second user terminal 202 belongs.

이때, 서로가 주고 받게 되는 문서의 양식은 각자의 기업이나 단체가 단독으로 사용하는 양식으로 구성될 수 있다.At this time, the form of the documents exchanged with each other may be composed of a form used by each company or organization alone.

그 후 서버(100)는 업무요청에 기초하여 제 2 사용자 단말(202)로부터 업무요청에 대응하는 비정형 데이터를 수신하고, 이를 변환하여 제 1 사용자 단말로 전달한다(S220).Thereafter, the server 100 receives unstructured data corresponding to the work request from the second user terminal 202 based on the work request, converts it, and delivers the unstructured data to the first user terminal (S220).

선택적 실시예로 업무요청을 전달받는 대상인 제 2 사용자 단말(202)이 하나 이상의 복수로 구성되어 하나의 제 1 사용자 단말(201)이 많은 사용자(혹은 기업)로부터 수신하는 복수의 비정형 문서 이미지를 통일된 정형 문서 이미지로 변환 받아 수신할 수 있고, 반대의 경우도 구현될 수 있다.In an exemplary embodiment, a plurality of unstructured document images received from a large number of users (or corporations) by the first user terminal 201 are configured by one or more second user terminals 202, which are targets of receiving business requests, from one or more users. Can be converted to a standard document image and received, and vice versa.

이때, 비정형 데이터를 정형 데이터로 전환하는 방법은 후술할 도 3 내지 도 5를 참조하여 설명하도록 한다.In this case, a method of converting the unstructured data into the structured data will be described with reference to FIGS. 3 to 5 to be described later.

도 3은 본 발명의 일 실시예에 따른, 카테고리값(410)과 밸류값(420)을 설명하기 위한 예시 문서를 나타낸 도면이다.3 is a diagram illustrating an exemplary document for describing a category value 410 and a value value 420 according to an embodiment of the present invention.

도 3을 살펴보면, 본 발명의 서비스를 통해 스캔되거나 촬영으로 생성된 문서 이미지(이는 비정형 문서 이미지를 뜻할 수 있다.)로부터 텍스트가 독출될 수 있고, 독출된 텍스트마다 카테고리값(410)과 밸류값(420)이 연관되어 정의될 수 있다.Referring to FIG. 3, text may be read from a document image (which may mean an atypical document image) scanned or photographed through a service of the present invention, and a category value 410 and a value value for each read text. 420 may be defined in association.

도 3은 가상의 견적서를 예시로 도시한 것으로 서버(100)는 문서에서 카테고리값(410)과 밸류값(420)을 추출하여 인식할 수 있다.3 illustrates an example of a virtual quotation, and the server 100 may extract and recognize a category value 410 and a value 420 from a document.

먼저 카테고리값(410)은 특정 단어의 상위 카테고리에 대한 의미를 가지는 텍스트를 뜻할 수 있다. 예를 들어 도 3의 가상 견적서에서 서버(100)는 "업체 담당자", "업태", "운송 방법", "운송 조건" 등을 카테고리값(410)으로 지정할 수 있다.First, the category value 410 may refer to text having a meaning for an upper category of a specific word. For example, in the virtual quotation of FIG. 3, the server 100 may designate a category value 410 as a “company representative”, “business status”, “transportation method”, or “transportation condition”.

또한, 밸류값(420)은 특정 카테고리에 속하는 여러 하위 개념들 중 하나에 해당하는 텍스트를 뜻할 수 있다. 예를 들면 "업체 담당자"라는 특정 카테고리에 속하는 하위 개념인 "피앤피소프트"나 "업태"의 하위 개념인 "서비스"가 밸류값(420)에 해당할 수 있다.In addition, the value 420 may refer to text corresponding to one of several sub-concepts belonging to a specific category. For example, the value 420 may be a sub-concept of "P & Psoft" or "service", which is a sub-concept belonging to a specific category of "company manager".

이때, 서버(100)가 비정형 문서 이미지에서 카테고리값(410)과 밸류값(420)을 추출하여 인식하는 상세한 방법은 후술할 도 4를 통해 진행하도록 한다.In this case, a detailed method of extracting and recognizing the category value 410 and the value 420 from the atypical document image by the server 100 will be described with reference to FIG. 4.

도 4는 본 발명의 일 실시예에 따른, 비정형 문서 이미지에서 카테고리값(410)과 밸류값(420)을 인식하는 방법을 나타낸 동작 흐름도이다.4 is a flowchart illustrating a method of recognizing a category value 410 and a value value 420 in an unstructured document image according to an embodiment of the present invention.

도 4를 참조하면, 먼저 사용자 단말(200)로부터 수신한 비정형 문서 이미지를 텍스트 영역과 그 외 영역으로 분리한다(S410).Referring to FIG. 4, first, an atypical document image received from the user terminal 200 is divided into a text area and another area (S410).

해당 과정은 보편적으로 사용되고 있는 이미지에서 텍스트를 인식하는 알고리즘을 적용하거나, 그 외 자체적으로 개발한 영역 구분 알고리즘을 적용할 수 있다.This process can be applied to algorithms for recognizing text in commonly used images, or other area-specific algorithms developed in-house.

분리된 텍스트 영역에서 텍스트를 추출하고(S420), 추출된 텍스트를 비정형 문서 이미지의 텍스트 배치정보에 기초하여 카테고리값(410)과 밸류값(420)으로 분류한다(S430). 예를 들면, 카테고리값(410)의 아래에 배치된 텍스트를 밸류값(420)으로 간주할 수 있다. 또는, 카테고리값(410)들의 정렬순서가 횡방향인 경우, 카테고리값(410)의 위나 아래에 배치되되 횡방향으로 배치된 텍스트들을 밸류값(420)으로 간주할 수 있을 것이다. The text is extracted from the separated text area (S420), and the extracted text is classified into a category value 410 and a value value 420 based on the text arrangement information of the atypical document image (S430). For example, the text disposed below the category value 410 may be regarded as the value 420. Alternatively, when the sort order of the category values 410 is in the lateral direction, the texts arranged above or below the category value 410 but arranged in the lateral direction may be regarded as the value 420.

여기서 텍스트 배치정보란 비정형 문서 이미지에서 카테고리값(410)과 그에 쌍을 이루는 밸류값(420)이 문서에서 배치되는 방식을 나타낸 것이다. 일반적으로 카테고리값(410)과 밸류값(420)을 동시에 가지는 문서라면, 사용자가 이를 인식하기 쉽도록 인접하게 배치하게 된다.Herein, the text arrangement information indicates a method in which the category value 410 and the paired value value 420 are arranged in the document in the atypical document image. In general, if the document has a category value 410 and a value 420 at the same time, the documents are arranged adjacent to each other so that the user can easily recognize them.

예를 들어 도 2의 가상의 견적서에서 "영업 담당자", "업태" 등의 복수의 카테고리값(410)은 가로로 나열되어 있고, 카테고리값(410)과 쌍을 이루는 "피앤피소프트", "서비스" 등의 밸류값(420)은 카테고리값(410)의 바로 하단에 위치 시킨 것을 확인할 수 있다.For example, in the imaginary quotation of FIG. 2, a plurality of category values 410 such as "sales person" and "business status" are horizontally arranged, and "P & P soft" and "service" paired with the category values 410. Value value 420, such as "" can be found to be located directly below the category value 410.

서버(100)는 기 저장된 텍스트 배치정보나 카테고리값(410)과 밸류값(420)을 구분하는 알고리즘을 통해 추출한 텍스트에서 카테고리값(410)과 밸류값(420)을 구분하게 된다.The server 100 distinguishes the category value 410 and the value value 420 from the extracted text arrangement information or the extracted text through an algorithm for distinguishing the category value 410 and the value value 420.

도 5는 본 발명의 일 실시예에 따른, 서버(100)가 비정형 문서 이미지를 정형 문서 이미지로 변환하는 과정을 나타낸 동작 흐름도이다.5 is an operation flowchart illustrating a process of converting an atypical document image into a structured document image by the server 100 according to an embodiment of the present invention.

도 5를 참조하면, 본 발명의 일 실시예에 따른 제 2 사용자 단말(202)로부터 수신한 비정형 문서 이미지로부터 카테고리값(410)과 밸류값(420)을 인식한다(S510).Referring to FIG. 5, a category value 410 and a value value 420 are recognized from an atypical document image received from the second user terminal 202 according to an embodiment of the present invention (S510).

이때, 비정형 문서 이미지로부터 카테고리값(410)과 밸류값(420)을 인식하는 방법은 앞서 서술한 도 4의 설명과 일치하기에 추가적인 설명은 생략한다.In this case, the method of recognizing the category value 410 and the value 420 from the atypical document image is the same as the description of FIG. 4 described above, and thus further description thereof will be omitted.

단계(S510)에서 인식된 카테고리값(410)과 밸류값(420)을 서버(100)의 검증 데이터베이스에 기 저장된 카테고리값(410)과 밸류값 범위 쌍에 대한 목록과의 매칭여부를 판단한다(S520).It is determined whether the category value 410 and the value 420 recognized in the step S510 match the list of the category value 410 and the value range pair previously stored in the verification database of the server 100 ( S520).

이를 자세하게 설명하면, 서버(100)의 검증 데이터베이스에는 다양한 종류의 정형 템플릿(예를 들면, 견적서 템플릿, 세금계산서 템플릿, 제안서 템플릿 등등)이 저장되어 있다. 그리고 각 정형 템플릿마다 복수의 카테고리값(410)과 그에 각각 매핑되는 밸류값(420) 범위가 설정되어 있다. 카테고리값(410)과 그에 매핑되는 밸류값(420)이 검증 데이터베이스에 목록화되어 기 저장될 수 있다.In detail, the verification database of the server 100 stores various types of formal templates (for example, quotation template, tax invoice template, proposal template, etc.). In addition, a plurality of category values 410 and value ranges 420 mapped thereto are set for each standard template. The category value 410 and the value value 420 mapped thereto may be listed in the verification database and stored in advance.

이후, 인식된 카테고리값(410)과 밸류값(420)을 검증 데이터베이스에 저장된 값들의 목록과 비교할 수 있다. 이때, 각 정형 템플릿 별 매칭비율을 산출하고 최대의 매칭비율을 갖는 정형 템플릿을 검색한다. Thereafter, the recognized category value 410 and the value 420 may be compared with a list of values stored in the verification database. At this time, the matching ratio for each shaping template is calculated and a shaping template having the maximum matching ratio is searched.

한편, 추가 실시예로서, 인식된 카테고리값(410)과 밸류값(420)이 기 설정된 비율을 초과하면 단계(S530)를 진행하고, 단계(S530)를 통해 최대 매칭비율을 갖는 정형 템플릿을 검색할 수도 있다.On the other hand, in a further embodiment, if the recognized category value 410 and the value 420 exceeds a predetermined ratio, proceed to step S530, and through the step (S530) to search for a template having the maximum matching ratio You may.

단계(S530)에서, 서버(100)는 기 저장된 복수의 정형 템플릿이 가지는 카테고리값(410)과 밸류값(420)의 범위에 비정형 문서 이미지에서 인식한 값(카테고리값(410), 밸류값(420))을 매칭 후 최대 매칭비율을 가지는 정형 템플릿을 검색한다(S530).In operation S530, the server 100 may recognize a value (category value 410 or value value) recognized in the unstructured document image in the range of the category value 410 and the value value 420 of the plurality of pre-stored template. 420) and then search for a template having a maximum matching ratio (S530).

이때 매칭비율이 기 설정된 비율을 넘기지 못하면, 서버(100)는 최대 매칭비율을 가지는 정형 템플릿을 제 2 사용자 단말(202)에 추천하고(S531) 사용자의 선택에 기반하여 다음 단계(S540)를 진행하게 된다.At this time, if the matching ratio does not exceed the preset ratio, the server 100 recommends a formal template having the maximum matching ratio to the second user terminal 202 (S531) and proceeds to the next step (S540) based on the user's selection. Done.

이를 자세하게 설명하면, 서버(100)에는 사전에 다양한 형식의 정형 템플릿을 저장하고 있으며, 각각의 템플릿은 용도에 따라 구성되는 카테고리값(410)과 밸류값(420)의 범위가 다르다. 예를 들어 "견적서"라는 템플릿에는 "판매자", "판매물품", "물품의 개수", "물품의 가격" 등을 카테고리값(410)의 범위를 가질 수 있다면, "계약서"라는 템플릿은 계약을 수행하는 "업체명", "계약명", "계약 날자" 등의 범위를 가지게 된다. 또한, 밸류값(420)도 카테고리값(410)과 마찬가지로 템플릿마다 구성되는 범위가 달라지게 되는 것이다.In detail, the server 100 stores various types of template templates in advance, and each template has a range of a category value 410 and a value value 420 configured according to a purpose. For example, if a template called "quote" can have a range of category values 410, such as "seller", "sold article", "number of articles", "price of article", and so on, a template called "contract" It will have a range of "business name", "contract name", "contract date" and so on. In addition, the value value 420, like the category value 410, will vary in the range configured for each template.

따라서 비정형 문서 이미지에서 인식한 카테고리값(410)과 밸류값(420)을 각각의 정형 템플릿이 가지는 카테고리값(410)과 밸류값(420)의 범위와 매칭하게 된다. 이때, 서버(100)는 매칭비율이 기 설정된 비율을 넘기면서 최대 매칭비율을 가지는 템플릿을 검색하게 된다.Accordingly, the category value 410 and the value 420 recognized in the unstructured document image are matched with the ranges of the category value 410 and the value value 420 of each template. At this time, the server 100 searches for a template having a maximum matching ratio while the matching ratio exceeds a preset ratio.

이때 매칭비율에 기 설정치를 가지는 이유는 매칭비율이 적정선 이하라면 비정형 문서 이미지의 문서종류와 정형 템플릿의 문서종류가 서로 달라질 수 있기 때문이다.The reason for having the preset value in the matching ratio is that the document type of the atypical document image and the document type of the atypical template may be different if the matching ratio is less than or equal to the appropriate line.

만약 매칭비율이 기 설정된 수치를 넘지 못하면 서버(100)는 기 설정된 수치를 넘지는 못하지만, 최대 매칭비율을 가지는 정형 템플릿을 제 2 사용자 단말(202)에게 추천하여 정형 템플릿의 사용 여부가 적합한지를 확인하는 작업을 수행한다.If the matching ratio does not exceed the preset value, the server 100 does not exceed the preset value, but recommends the template having the maximum matching ratio to the second user terminal 202 to check whether the use of the template is appropriate. To do the job.

선택적 실시예로 서버(100)가 적합한 정형 템플릿을 추천하지 못한다면, 제 2 사용자가 직접 정형 템플릿을 서버(100)에 요청하고, 선택하여 적용할 수도 있다.In an alternative embodiment, if the server 100 does not recommend a suitable template, the second user may request, select, and apply the template.

마지막으로 최대 매칭비율을 가지는 정형 템플릿에 인식된 카테고리값(410)과 밸류값(420)을 적용한다. Finally, the recognized category value 410 and the value 420 are applied to the template having the maximum matching ratio.

만약, 이때 인식한 밸류값(420)이 검증 데이터베이스에 등록된 밸류값(420) 범위(즉, 인식한 밸류값(420)과 대응하는 카테고리값(410)과 연관되어 규정된 밸류값(420) 범위)에 만족하지 못한다면, 검증 데이터베이스의 밸류값(420) 범위에 만족하도록 밸류값(420)이 변형되어 제 2 사용자 단말(202)로 추천될 수 있다.In this case, the recognized value value 420 is defined in association with the range of the value value 420 registered in the verification database (that is, the category value 410 corresponding to the recognized value value 420). If not satisfied, the value 420 may be modified to satisfy the range of the value 420 of the verification database and may be recommended as the second user terminal 202.

자세히 설명하면, 밸류값(420) 범위는 해당 카테고리값(410) 내에서 밸류값(420)이 가질 수 있는 범위 및 형식에 대한 속성 정보를 나타낸다. 예를 들어서, 카테고리값(410)이 "업태"이면, 밸류값(420) 범위는 "한글"로 규정될 수 있고, 카테고리값(410)이 "금액"이면, 밸류값(420) 범위는 "숫자", "최저1자리수 내지 최대 15자리수"로 규정될 수 있다. 이때, 인식된 밸류값(420)이 검증 데이터베이스 목록 상의 밸류값(420) 범위와 매칭하기 위해 인식된 밸류값(420)을 구성하는 음절들 중 하나를 변형하거나 생략하거나, 새로운 음절을 추가하여 변형시켜 사용자에게 추천하게 되는 것이다.In detail, the range of the value value 420 indicates attribute information about a range and a format that the value 420 may have in the category value 410. For example, if the category value 410 is "up", the value value 420 range may be defined as "Korean", and if the category value 410 is "amount", the value value 420 range is " Number "," least one digit up to fifteen digits ". At this time, in order for the recognized value value 420 to match the range of the value value 420 on the verification database list, one of the syllables constituting the recognized value value 420 is modified or omitted, or a new syllable is added to the syllable. It is recommended to the user.

또한, 매핑하는 카테고리값(410)이 금액, 날짜 및 전화번호와 같은 값을 가진다면, 밸류값(420)으로 구성되는 숫자의 최저 자릿수 및 최대 자릿수, 배열 형식 등이 변형될 수도 있다.In addition, if the category value 410 to be mapped has a value such as an amount of money, a date, and a phone number, the minimum and maximum digits of the number consisting of the value 420 may be modified.

변형된 값은 비정형 문서 이미지를 제공한 제 2 사용자 단말(202)의 사용자에게 추천되어, 제2사용자는 변형된 값이 원래의 값과 의미가 같은 것인지 여부를 확인할 수 있다. 추가 실시예로서, 제2사용자가 원하는 바에 따라, 의미가 다르면 반복 변형하여 다른 추천단어를 제공할 수도 있다. The modified value is recommended to the user of the second user terminal 202 that provided the atypical document image, so that the second user can confirm whether the modified value has the same meaning as the original value. As a further embodiment, as the second user desires, if the meaning is different, the second user may repeatedly modify and provide another recommendation word.

또한, 선택적 실시예로, 변형된 밸류값(420)을 추천함과 동시에 문서이미지에서 독출된 밸류값(420)이 밸류값(420) 범위에 맞지 않더라도, 이미지 독출이 잘못된 것이거나 밸류값(420) 범위가 잘못된 것일 수도 있으므로, 문서이미지에서 독출된 밸류값(420) 그대로를 사용자에게 함께 추천할 수도 있다.Also, as an optional embodiment, even if the value 420 read out from the document image is recommended while the modified value 420 is recommended, the image reading may be incorrect or the value 420 may not be in the range of the value 420. Since the range may be wrong, the value 420 read from the document image may be recommended to the user as it is.

이러한 과정을 거쳐, 정형 템플릿 검색을 완료하고, 인식된 밸류값(420과 카테고리값(410)이 정형 템플릿에 입력완료 된 경우, 제 2 사용자 단말(202)의 확인을 받고, 입력완료 된 카테고리값(410)과 밸류값(420)을 저장한 후, 그에 기초하여 제 1 사용자 단말(201)에 상기 정형 템플릿에 대응하는 정형 문서 이미지를 제공한다(S540).Through this process, when the template search is completed and the recognized value values 420 and the category value 410 are input to the template, the second user terminal 202 confirms the input, and the category value is completed. After storing 410 and the value 420, a structured document image corresponding to the structured template is provided to the first user terminal 201 (S540).

단계(S530)에서 선택된 정형 문서 이미지는 최종적으로 제 2 사용자 단말(202)의 확인을 받아 올바르게 문서가 변형되었는지 유무를 판단하고, 제 1 사용자 단말(201)로 제공하게 된다.In operation S530, the stereotyped document image is finally confirmed by the second user terminal 202 to determine whether the document is correctly deformed, and is provided to the first user terminal 201.

이때 선택적 실시예로 정형 문서 이미지는 사용자의 선택에 따라 다양한 확장자로 제공되어 사용자의 편의를 높일 수 있다. 예를 들어 이미지 확장자인 pdf나 MS워드의 확장자인 docx, 한컴 오피스 한글의 확장자인 hwp 등으로 제공되어, 정형 문서 이미지를 수신하는 제 1 사용자 단말(201)이 손쉽게 파일을 열고 수정할 수 있게 된다.In this embodiment, the stereotyped document image may be provided in various extensions according to a user's selection to increase user convenience. For example, it is provided as an image extension of pdf, MS word extension of docx, Hancom Office Hangul extension of hwp, etc., so that the first user terminal 201 receiving a standard document image can easily open and modify a file.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The foregoing description of the present invention is intended for illustration, and it will be understood by those skilled in the art that the present invention may be easily modified in other specific forms without changing the technical spirit or essential features of the present invention. will be. Therefore, it should be understood that the embodiments described above are exemplary in all respects and not restrictive. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as distributed may be implemented in a combined form.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is shown by the following claims rather than the above description, and all changes or modifications derived from the meaning and scope of the claims and their equivalents should be construed as being included in the scope of the present invention. do.

100: 서버 200: 사용자 단말
300: 통신망
410: 카테고리값 420: 검증값
100: server 200: user terminal
300: network
410: category value 420: verification value

Claims (13)

서버에 의해 수행되는, 비정형 데이터의 정형 데이터 변환 기반의 업무 서비스를 제공하는 방법에 있어서,
(a) 제 1 사용자 단말로부터 업무요청을 수신하고, 상기 업무요청의 수신자에 대응하는 제 2 사용자 단말로 상기 업무요청을 전달하는 단계;
(b) 제 2 사용자 단말로부터 상기 업무요청에 대응하는 비정형의 문서 이미지를 수신하고, 수신된 상기 문서 이미지로부터 텍스트들을 추출하며, 상기 텍스트들을 카테고리값과 밸류값 쌍으로 분류하는 단계;
(c) 상기 서버의 검증 데이터베이스에 기 저장된 카테고리값과 밸류값 범위 쌍에 대한 목록을 참고하여 상기 추출된 밸류값이 상기 밸류값 범위에 만족하는지 여부를 확인하는 단계; 및
(d) 상기 확인에 따라, 기 저장된 복수의 정형 템플릿 중 어느 하나의 정형 템플릿을 검출하고, 상기 텍스트들을 상기 정형 템플릿에 입력한 정형의 문서 이미지를 상기 제 1 사용자 단말로 제공하는 단계;
를 포함하고,
상기 카테고리값은 특정 단어의 상위 카테고리에 대한 의미를 갖는 텍스트이며,
상기 밸류값은 특정 카테고리에 속하는 여러 가지 하위 개념들 중 하나에 해당하는 텍스트이며,
상기 밸류값 범위는 상기 밸류값의 수치범위 또는 형식에 대한 정보이고,
상기 (d) 단계는
(d1) 상기 검증 데이터베이스의 목록과 상기 추출된 카테고리값과 밸류값 범위와의 매칭 비율이 기 설정된 비율을 초과할 경우, 기 저장된 복수의 정형 템플릿 중 어느 하나의 정형 템플릿을 검출하는 단계; 및
(d2) 상기 텍스트들을 상기 정형 템플릿에 입력하는 단계;를 포함하되,
상기 (d1) 단계는
각각의 상기 정형 템플릿 별로 카테고리값과 밸류값 범위가 규정되며,
상기 추출된 텍스트들에 대한 카테고리값과 밸류값을 상기 검증 데이터베이스에 기 등록된 정형 템플릿 별 카테고리값과 밸류값 범위와 비교하였을 때,
상기 매칭비율이 기 설정된 비율을 초과하는 정형 템플릿을 추출하되, 상기 기 설정된 비율을 초과하는 정형 템플릿이 검색되지 않는 경우, 상기 매칭비율이 최대가 되는 정형 템플릿을 상기 제 2 사용자 단말로 추천하고 상기 제 2 사용자 단말의 확인결과를 수신하며, 검색 결과에 기초하여 상기 카테고리값과 밸류값을 저장하는 것인, 비정형 데이터의 정형 데이터 변환 기반의 업무 서비스를 제공하는 방법.
In the method for providing a business service based on the structured data conversion of the unstructured data performed by the server,
(a) receiving a work request from a first user terminal and forwarding the work request to a second user terminal corresponding to a recipient of the work request;
(b) receiving an atypical document image corresponding to the business request from a second user terminal, extracting texts from the received document image, and classifying the texts into category and value value pairs;
(c) checking whether the extracted value satisfies the value range by referring to a list of category values and value range pairs previously stored in the verification database of the server; And
(d) detecting, according to the confirmation, any one of a plurality of pre-stored stereotyped templates, and providing the first user terminal with a stereotyped document image inputting the texts into the stereotyped template;
Including,
The category value is text having a meaning for an upper category of a specific word.
The value is text corresponding to one of several sub-concepts belonging to a specific category,
The value range is information on the numerical range or format of the value,
Step (d)
(d1) detecting a structured template of any one of a plurality of pre-stored structured templates when a matching ratio between the list of the verification database and the extracted category value and value range exceeds a preset ratio; And
(d2) inputting the texts into the formal template;
Step (d1) is
For each of the above template, a category value and a value range are defined.
When a category value and a value value for the extracted texts are compared with a category value and a value value range for each standard template registered in the verification database,
If a matching template is extracted from a template that exceeds a preset ratio, but a template that exceeds the preset ratio is not found, recommend a template that is the maximum matching ratio to the second user terminal. And receiving the confirmation result of a second user terminal and storing the category value and the value value based on a search result.
제 1 항에 있어서,
상기 (b)단계는,
(b1) 상기 문서 이미지에서 텍스트 영역과 그 외 영역을 분리하는 단계;
(b2) 상기 텍스트 영역에서 텍스트를 추출하는 단계; 및
(b3) 상기 추출된 텍스트들의 배치정보를 참고하여, 상기 카테고리값과 상기 밸류값으로 분리하는 단계;
를 포함하는 것인, 비정형 데이터의 정형 데이터 변환 기반의 업무 서비스를 제공하는 방법.
The method of claim 1,
In step (b),
(b1) separating a text area and other areas from the document image;
(b2) extracting text from the text area; And
(b3) separating the category value and the value value by referring to the arrangement information of the extracted texts;
The method comprising providing a business service based on the structured data conversion of unstructured data.
삭제delete 삭제delete 삭제delete 제1항에 있어서,
상기 (d2) 단계는,
(d2-1) 특정 밸류값이 상기 검증 데이터베이스에 등록된 밸류값 범위와 일치하지 않는 경우, 상기 검증 데이터베이스 내에 저장된 밸류값 중에서 상기 특정 밸류값의 카테고리값에 대응하는 밸류값 범위와 기설정된 범위 내의 차이를 갖는 밸류값을 추천하거나, 상기 특정 밸류값 자체를 상기 제 2 사용자 단말로 추천하는 단계; 및
(d2-2) 추천된 정보에 대한 상기 제 2 사용자 단말의 선택을 수신하여, 상기 정형 템플릿에 입력하는 단계;
를 포함하는, 비정형 데이터의 정형 데이터 변환 기반의 업무 서비스를 제공하는 방법.
The method of claim 1,
Step (d2),
(d2-1) When a specific value does not match a value range registered in the verification database, a value value range corresponding to a category value of the specific value value among the value values stored in the verification database and within a preset range Recommending a value having a difference or recommending the specific value itself to the second user terminal; And
(d2-2) receiving a selection of the second user terminal for the recommended information and inputting it into the formal template;
A method of providing a business service based on the structured data conversion of unstructured data, including.
제6항에 있어서,
상기 (d2-1) 단계는,
특정 밸류값이 상기 검증 데이터베이스에 등록된 밸류값 범위와 일치하지 않는 경우, 상기 검증 데이터베이스의 밸류값 범위와 매칭되도록 상기 특정 밸류값을 구성하는 음절들 중 적어도 하나를 변형 또는 생략하거나 새로운 음절을 추가하여 상기 제 2 사용자 단말로 추천하는 것인, 비정형 데이터의 정형 데이터 변환 기반의 업무 서비스를 제공하는 방법.
The method of claim 6,
Step (d2-1),
If a particular value does not match the value range registered in the verification database, modify or omit at least one of the syllables constituting the particular value so as to match the value range of the verification database, or add a new syllable. Recommend to the second user terminal to provide a business service based on the structured data conversion of the unstructured data.
제 7 항에 있어서,
상기 (d2-1) 단계는,
상기 카테고리값이 금액, 날짜 및 전화번호 중 어느 하나와 대응하는 경우, 상기 밸류값 범위는 인식된 밸류값이 구성하는 숫자의 최저 및 최대 개수, 상기 숫자의 배열 형식 중 어느 하나를 포함하는 것인, 비정형 데이터의 정형 데이터 변환 기반의 업무 서비스를 제공하는 방법.
The method of claim 7, wherein
Step (d2-1),
When the category value corresponds to any one of an amount, a date, and a phone number, the value range includes any one of a minimum and maximum number of numbers constituting a recognized value value and an arrangement form of the number. How to provide business services based on structured data transformation of unstructured data.
제1항에 있어서,
상기 (d) 단계는,
(d3) 텍스트 입력이 완료된 상기 정형 템플릿을 상기 제 2 사용자 단말로 제공하고, 상기 제 2 사용자 단말의 확인 입력이 완료된 경우, 상기 제 1 사용자 단말로 상기 정형 템플릿을 전송하는 단계를 더 포함하는, 비정형 데이터의 정형 데이터 변환 기반의 업무 서비스를 제공하는 방법.
The method of claim 1,
In step (d),
(d3) providing the structured template in which text input is completed to the second user terminal, and when the confirmation input of the second user terminal is completed, transmitting the structured template to the first user terminal. A method of providing business services based on structured data transformation of unstructured data.
제 9 항에 있어서,
상기 (d3) 단계는,
상기 제 2 사용자 단말에서 수신한 상기 문서 이미지를 상기 정형 템플릿과 함께 전송하는 것인, 비정형 데이터의 정형 데이터 변환 기반의 업무 서비스를 제공하는 방법.
The method of claim 9,
Step (d3),
And transmitting the document image received at the second user terminal together with the structured template.
제 1 항에 있어서,
상기 제 1 사용자 단말과 상기 제 2 사용자 단말은 서로 다른 기업 소속의 사용자가 소지하는 단말이며,
상기 제 2 사용자 단말에서 제공한 상기 문서 이미지는 상기 업무요청에 대해 상기 제 1 사용자의 기업이 단독으로 사용하는 양식으로 구성된 비정형 데이터에 관한 이미지인 것인, 비정형 데이터의 정형 데이터 변환 기반의 업무 서비스를 제공하는 방법.
The method of claim 1,
The first user terminal and the second user terminal is a terminal owned by users belonging to different companies,
The document image provided by the second user terminal is an image about unstructured data configured in a form that is used solely by the company of the first user for the work request. How to give it.
비정형 데이터의 인식 및 저장 서비스를 제공하는 장치에 있어서,
비정형 데이터의 인식 및 저장 서비스를 제공하기 위한 프로그램이 기록된 메모리; 및
상기 프로그램을 실행하기 위한 프로세서;를 포함하며,
상기 프로세서는, 상기 프로그램의 실행에 의해,
제 1 사용자 단말로부터 업무요청을 수신하고, 상기 업무요청의 수신자에 대응하는 제 2 사용자 단말로 상기 업무요청을 전달하고, 제 1 사용자 단말로부터 상기 업무요청에 대응하는 비정형의 문서 이미지를 수신하고, 수신된 상기 문서 이미지로부터 텍스트들을 추출하며, 상기 각 텍스트에 대응하는 카테고리값과 밸류값 범위를 인식하고, 상기 장치의 검증 데이터베이스 에 기 저장된 카테고리값과 밸류값 범위 쌍에 대한 목록과 상기 추출된 카테고리값과 밸류값 범위의 대응여부를 확인하고, 상기 대응여부에 따라, 기 저장된 복수의 정형 템플릿 중 어느 하나의 정형 템플릿을 검출하고, 상기 텍스트들을 상기 정형 템플릿에 입력한 정형의 문서 이미지를 상기 제 1 사용자 단말로 제공하되,
상기 카테고리값은 특정 단어의 상위 카테고리에 대한 의미를 갖는 텍스트이며, 상기 밸류값은 특정 카테고리에 속하는 여러 가지 하위 개념들 중 하나에 해당하는 텍스트이며, 상기 밸류값 범위는 상기 밸류값의 수치 범위 또는 형식에 대한 정보이고,
상기 문서 이미지를 제 1 사용자 단말로 제공하는 단계에서는
상기 검증 데이터베이스의 목록과 상기 추출된 카테고리값과 밸류값 범위와의 매칭 비율이 기 설정된 비율을 초과할 경우, 기 저장된 복수의 정형 템플릿 중 어느 하나의 정형 템플릿을 검출하고, 상기 텍스트들을 상기 정형 템플릿에 입력하되,
상기 텍스트들을 상기 정형 템플릿에 입력하는 단계에서는
각각의 상기 정형 템플릿 별로 카테고리값과 밸류값 범위가 규정되며,
상기 추출된 텍스트들에 대한 카테고리값과 밸류값을 상기 검증 데이터베이스에 기 등록된 정형 템플릿 별 카테고리값과 밸류값 범위와 비교하였을 때,
상기 매칭비율이 기 설정된 비율을 초과하는 정형 템플릿을 추출하되, 상기 기 설정된 비율을 초과하는 정형 템플릿이 검색되지 않는 경우, 상기 매칭비율이 최대가 되는 정형 템플릿을 상기 제 2 사용자 단말로 추천하고 상기 제 2 사용자 단말의 확인결과를 수신하며, 검색 결과에 기초하여 상기 카테고리값과 밸류값을 저장하는 것인, 비정형 데이터의 정형 데이터 변환 기반의 업무 서비스를 제공하는 장치.
An apparatus for providing a recognition and storage service of unstructured data,
A memory in which a program for providing a recognition and storage service of unstructured data is recorded; And
A processor for executing the program;
The processor, by executing the program,
Receiving a work request from a first user terminal, forwarding the work request to a second user terminal corresponding to a recipient of the work request, receiving an atypical document image corresponding to the work request from a first user terminal, Extracts text from the received document image, recognizes a category value and a value value range corresponding to each text, and lists the category value and value range pair previously stored in the verification database of the device and the extracted category. Determine whether the value and the value value range correspond to each other, and according to the correspondence, detect one of the pre-stored stereotyped templates and input the texts into the stereotyped template. 1 provided to the user terminal,
The category value is text having a meaning for an upper category of a specific word, the value value is text corresponding to one of several sub-concepts belonging to a specific category, and the value range is a numerical range of the value value or Information about the format,
In the step of providing the document image to the first user terminal
When a matching ratio between the list of the verification database and the extracted category value and the value range exceeds a preset ratio, the stereotype template of any one of a plurality of pre-stored stereotyped templates is detected and the texts are stored in the stereotyped template. In,
In the step of inputting the text into the formal template
For each of the above template, a category value and a value range are defined.
When a category value and a value value for the extracted texts are compared with a category value and a value value range for each standard template registered in the verification database,
If a matching template is extracted from a template that exceeds a preset ratio, but a template that exceeds the preset ratio is not found, recommend a template that is the maximum matching ratio to the second user terminal. And receiving a confirmation result of a second user terminal and storing the category value and the value value based on a search result.
제 1 항, 제 2 항 및 제 6 항 내지 제 11 항 중 어느 한 항에 따른 비정형 데이터의 정형 데이터 변환 기반의 업무 서비스를 제공하는 방법 를 제공하는 프로그램이 기록 된 컴퓨터 판독가능 기록 매체.12. A computer readable recording medium having recorded thereon a program for providing a method for providing a business service based on a structured data conversion of unstructured data according to any one of claims 1, 2 and 6.
KR1020180032867A 2018-03-21 2018-03-21 Method and apparatus for extraciting text data from nonlinear text image KR102039989B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180032867A KR102039989B1 (en) 2018-03-21 2018-03-21 Method and apparatus for extraciting text data from nonlinear text image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180032867A KR102039989B1 (en) 2018-03-21 2018-03-21 Method and apparatus for extraciting text data from nonlinear text image

Publications (2)

Publication Number Publication Date
KR20190110873A KR20190110873A (en) 2019-10-01
KR102039989B1 true KR102039989B1 (en) 2019-11-05

Family

ID=68208015

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180032867A KR102039989B1 (en) 2018-03-21 2018-03-21 Method and apparatus for extraciting text data from nonlinear text image

Country Status (1)

Country Link
KR (1) KR102039989B1 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695518B (en) * 2020-06-12 2023-09-29 北京百度网讯科技有限公司 Method and device for labeling structured document information and electronic equipment
KR102229035B1 (en) * 2020-06-23 2021-03-17 주식회사 우리홈쇼핑 Method and device for masking personal information
KR102388781B1 (en) 2021-02-24 2022-04-20 (주)소프트제국 Method and server for providing document processing service using artificial intelligence deep learning
KR102321707B1 (en) * 2021-03-12 2021-11-04 오세용 Data processing method for utilization of unstructured documents
KR102321408B1 (en) * 2021-04-02 2021-11-03 박신후 Method, apparatus and system for providing personalized memo pad service
KR102600258B1 (en) * 2023-06-12 2023-11-09 주식회사 와이드테크 Method, apparatus and system for providing electronic board platform service that enables user participation and software upload

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011060219A (en) * 2009-09-14 2011-03-24 Hiroaki Ono Document classification system, document classification method, and program
KR101585029B1 (en) * 2015-05-13 2016-01-13 (주)코드원시스템 Recognition and classification system of document

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140081516A (en) * 2012-12-21 2014-07-01 중소기업은행 Online Bank Document System
KR101834127B1 (en) 2017-08-31 2018-03-05 국민건강보험공단 System for handling fax work based on text recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011060219A (en) * 2009-09-14 2011-03-24 Hiroaki Ono Document classification system, document classification method, and program
KR101585029B1 (en) * 2015-05-13 2016-01-13 (주)코드원시스템 Recognition and classification system of document

Also Published As

Publication number Publication date
KR20190110873A (en) 2019-10-01

Similar Documents

Publication Publication Date Title
KR102039989B1 (en) Method and apparatus for extraciting text data from nonlinear text image
US10783367B2 (en) System and method for data extraction and searching
CN107608958B (en) Contract text risk information mining method and system based on unified modeling of clauses
US8233751B2 (en) Method and system for simplified recordkeeping including transcription and voting based verification
CN101765840B (en) Capture and display of annotations in paper and electronic documents
JP6307745B2 (en) Accounting system
CN110490721B (en) Financial voucher generating method and related product
CN104284040A (en) Image forming apparatus and method, non-transitory computer readable medium, and image forming system
CN107798579B (en) Method for generating protocol file and terminal thereof
US20110052075A1 (en) Remote receipt analysis
US20210272084A1 (en) System and process for electronic payments
CN110324314A (en) User registering method and device, storage medium, electronic equipment
JP2003196476A (en) Security policy creation support system and security measure determination support system
JP6976763B2 (en) Journal information processing device, journal information processing method, and program
US11363162B2 (en) System and method for automated organization of scanned text documents
US9978039B1 (en) Document gateway system to cloud-based document repository
JP2019045932A (en) Processing device, processing system, processing method, and processing program
KR20180098505A (en) Online/offline data integration and management, sharing, certification method and system
KR101809362B1 (en) Transaction Information Managing System using Optical Character Reader System and Computerized Transaction Information Managing Method using It
KR20180025297A (en) Online/offline data integration and management, sharing, certification method and system
KR20210068649A (en) System And Method For Inputing Insurance Claim Document
JP6801389B2 (en) Information processing equipment and information processing programs
US20230368555A1 (en) Information processing apparatus, information processing method, and storage medium
US10609246B1 (en) System and method for ascertaining and printing supplemental forms identified from content of a scanned base form
JP4185681B2 (en) Transfer processing method

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant