KR20070034343A - Electronic document conversion device that can search contents of image file - Google Patents

Electronic document conversion device that can search contents of image file Download PDF

Info

Publication number
KR20070034343A
KR20070034343A KR1020050088933A KR20050088933A KR20070034343A KR 20070034343 A KR20070034343 A KR 20070034343A KR 1020050088933 A KR1020050088933 A KR 1020050088933A KR 20050088933 A KR20050088933 A KR 20050088933A KR 20070034343 A KR20070034343 A KR 20070034343A
Authority
KR
South Korea
Prior art keywords
file
image file
image
electronic document
engine
Prior art date
Application number
KR1020050088933A
Other languages
Korean (ko)
Inventor
이진표
Original Assignee
(주)비주얼인포시스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)비주얼인포시스 filed Critical (주)비주얼인포시스
Priority to KR1020050088933A priority Critical patent/KR20070034343A/en
Publication of KR20070034343A publication Critical patent/KR20070034343A/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N1/32106Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title separate from the image data, e.g. in a different computer file
    • H04N1/32112Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title separate from the image data, e.g. in a different computer file in a separate computer file, document page or paper sheet, e.g. a fax cover sheet
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/114Pagination

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 이미지파일의 내용검색이 가능한 전자문서 전환 장치에 관한 것으로서, 더욱 상세하게는 종이문서를 데이터베이스화함에 있어 이미지와 히든 텍스트로 구성하여 내용 검색이 가능하고, 응용프로그램에 관계없이 어느 단말기에서도 뷰잉이 가능한 이미지파일의 내용검색이 가능한 전자문서 전환 장치에 관한 것이다.The present invention relates to an electronic document converting apparatus capable of searching contents of an image file. More particularly, the present invention relates to an electronic document converting apparatus. The present invention relates to an electronic document converting apparatus capable of searching contents of an image file that can be viewed.

이를 실현하기 위한 이미지파일의 내용검색이 가능한 전자문서 전환 장치는,In order to realize this, an electronic document conversion device capable of searching contents of an image file is

종이문서를 스캔하여 전자문서로 전환하는 장치에 있어서,An apparatus for scanning a paper document and converting it into an electronic document,

이미지변환 대상의 종이문서를 스캔후 생성된 이미지파일을 최적화된 이미지로 보정하는 이미지보정엔진(110)과;An image correction engine 110 for correcting an image file generated after scanning a paper document to be converted into an optimized image;

이미지파일내의 텍스트를 추출하여 텍스트파일을 생성하는 인식엔진(120)과;A recognition engine 120 for extracting text in an image file and generating a text file;

상기 인식엔진을 통해 추출된 텍스트파일의 기울기 보정, 테두리제거, 노이즈제거를 통해 텍스트파일을 교정하는 인식결과교정엔진(130)과;A recognition result calibration engine 130 for correcting the text file by tilt correction, edge removal, and noise removal of the text file extracted by the recognition engine;

이미지에서 추출한 텍스트를 내용 검색 가능한 통합이미지 파일로 변환하는 통합파일자동변환엔진(140)을 포함하여 구성하는 것을 특징으로 한다. And an integrated file automatic conversion engine 140 for converting the text extracted from the image into an integrated image file capable of content retrieval.

이를 통해 종이문서를 데이터베이스화함에 있어서 이미지와 히든 텍스트로 구성하여 이미지파일 안에서 내용 검색이 가능하고, 응용프로그램에 관계없이 어느 단말기에서도 뷰잉이 가능하여 사용자에게 편리성을 제공하며, 검색엔진을 구성함으로써 내용 검색이 가능한 파일내의 단어 혹은 문장으로 검색이 가능하여 검색된 대상 파일을 선택하여 볼 수 있으며, 컴퓨터 및 기타 모바일 기기에서도 조회가 가능하므로 이에 따른 사용의 효율성을 제공하는 효과가 있다. Through this, it is possible to search the contents in the image file by constructing the image and the hidden text in the database of the paper document, and it is possible to view from any terminal regardless of the application program. It is possible to search by the words or sentences in the file where the content can be searched, so that the searched target file can be selected and viewed, and the computer and other mobile devices can be searched, thereby providing efficiency of use.

문서 읽기, 뷰어, 통합이미지. Document reading, viewer, integrated image.

Description

이미지파일의 내용검색이 가능한 전자문서 전환 장치{an Electron Document Conversion Device Possible Contents Search}An Electron Document Conversion Device Possible Contents Search}

도 1 은 본 발명의 일실시예에 따른 이미지파일의 내용검색이 가능한 전자문서 전환 장치의 전체 구성도이다.1 is an overall configuration diagram of an electronic document conversion apparatus capable of searching contents of an image file according to an embodiment of the present invention.

도 2 는 종래의 종이문서를 이미지파일로 변환하는 전자문서 전환 장치의 구성블록도이다.2 is a block diagram of an electronic document converting apparatus for converting a conventional paper document into an image file.

도 3 은 본 발명의 일실시예에 따른 이미지파일의 내용검색이 가능한 전자문서 전환 장치의 구성 블록도이다.3 is a block diagram illustrating an electronic document conversion apparatus capable of searching contents of an image file according to an exemplary embodiment of the present invention.

도 4 는 본 발명의 일실시예에 따른 이미지파일의 내용검색이 가능한 전자문서 전환 장치의 실시예이다.4 is an embodiment of an electronic document switching device capable of searching contents of an image file according to an embodiment of the present invention.

* 도면의 주요 부분에 대한 부호의 설명 *Explanation of symbols on the main parts of the drawings

10 : 스캔 프로그램 20 : 이미지 보정 프로그램10: scan program 20: image correction program

30 : 종이문서 40 : 스캔 장치30: paper document 40: scanning device

50 : 이미지 파일 100 : 전자문서 전환 장치50: image file 100: electronic document conversion device

110 : 이미지보정엔진 120 : 인식엔진110: image correction engine 120: recognition engine

130 : 인식결과교정엔진 140 : 통합파일자동변환엔진130: recognition result correction engine 140: integrated file automatic conversion engine

150 : 검색엔진 200 :통합이미지 파일150: search engine 200: integrated image file

300 : 컴퓨터 단말기 400 : 모바일 기기300: computer terminal 400: mobile device

본 발명은 이미지파일의 내용검색이 가능한 전자문서 전환 장치에 관한 것으로서, 더욱 상세하게는 종이문서를 데이터베이스화함에 있어 이미지와 히든 텍스트로 구성하여 내용 검색이 가능하고, 응용프로그램에 관계없이 어느 단말기에서도 뷰잉이 가능한 이미지파일의 내용검색이 가능한 전자문서 전환 장치에 관한 것이다.The present invention relates to an electronic document converting apparatus capable of searching contents of an image file. More particularly, the present invention relates to an electronic document converting apparatus. The present invention relates to an electronic document converting apparatus capable of searching contents of an image file that can be viewed.

종래에는 종이 문서를 스캔 장치를 통해 이미지문서로 전환하여 이를 전자문서 포맷으로 변환하여 DB데이터화하였는데 문서 사이즈가 크며, OS에 종속적이며 뷰어 프로그램을 설치해야만 문서 조회가 가능하여 이에 따른 불편함을 주고 있었으며, 또한 종이 문서를 스캔하여 이미지파일화한 경우에는 내용 검색이 불가능한 문제점이 있어서 해당 이미지파일 내의 원하는 내용을 검색하기 위해서는 일일히 사용자가 찾아야 하는 번거로움을 가지고 있었다. Conventionally, the paper document is converted into an image document through a scanning device and converted into an electronic document format and converted into DB data. The document size is large, it is dependent on the OS, and the document can be viewed only by installing a viewer program. In addition, when scanning a paper document into an image file, there is a problem that the contents cannot be searched. Therefore, in order to search for a desired content in the corresponding image file, the user has to find a problem.

일반적으로 우리가 사용하는 전자문서는 모두 그 문서를 볼 수 있는 별도의 뷰어가 있어야만 시각적으로 볼 수 있다. 예를 들어 확장자 doc파일은 엠에스-워드 를 실행시킨 후에 확장자 doc파일을 불러와야만 그 문서를 볼 수 있으며, hwp파일, PDF파일도 그 해당하는 포맷을 불러들여 시각적으로 보여주는 뷰어기능이 포함된 실행프로그램이 있어야 가능하다. 이로 인해 문서를 주고받거나, 외부에서 문서를 다운로드 받을 때 해당 문서 포맷을 볼 수 있는 프로그램이 설치되어 있어야만 확인할 수 있는 제약이 따른다. 이는 작업자가 자주 쓰지 않는 프로그램을 문서 확인을 위해 설치해야 하는 불편성과 만약 프로그램이 유료일 경우 비용이 발생되는 문제점이 따르게 되지만, 이러한 형식의 전자문서는 현재 PC사용자의 문서작성에 있어서 근간을 이루고 있다. In general, all the electronic documents we use need to have a separate viewer to view them. For example, the extension doc file can be viewed only after loading the doc file after executing MS-Word. Also, the hwp file and PDF file can also be loaded with the corresponding viewer. You need a program. For this reason, when a document is exchanged or downloaded from an external source, a program that can view the corresponding document format must be installed to check the restriction. This is accompanied by the inconvenience that the operator has to install a program that is not frequently used to check the document, and if the program is paid, the cost is incurred. However, this type of electronic document is the basis for the document creation of PC users. .

따라서, 본 발명은 상기 종래의 문제점을 해소하기 위해 안출된 것으로,Accordingly, the present invention has been made to solve the above conventional problems,

본 발명의 목적은 종이문서를 데이터베이스화함에 있어서 이미지와 히든 텍스트로 구성하여 이미지파일 안에서 내용 검색이 가능하고, 응용프로그램에 관계없이 어느 단말기에서도 뷰잉이 가능한 장치를 제공함에 그 목적이 있다.It is an object of the present invention to provide a device capable of searching contents in an image file by composing an image and a hidden text in a database of a paper document, and enabling viewing from any terminal regardless of an application program.

본 발명의 또 다른 목적은 검색엔진을 구성함으로써 내용 검색이 가능한 파일내의 단어 혹은 문장으로 검색 가능하여 검색된 대상 파일을 선택하여 볼 수 있는 장치를 제공함에 그 목적이 있다.Another object of the present invention is to provide an apparatus that can select and view a searched target file by searching a word or sentence in a file whose contents can be searched by configuring a search engine.

상기 목적을 달성하기 위한 본 발명의 이미지파일의 내용검색이 가능한 전자 문서 전환 장치는,Electronic document conversion apparatus capable of content search of the image file of the present invention for achieving the above object,

종이문서를 스캔하여 전자문서로 전환하는 장치에 있어서,An apparatus for scanning a paper document and converting it into an electronic document,

이미지변환 대상의 종이문서를 스캔후 생성된 이미지파일을 최적화된 이미지로 보정하는 이미지보정엔진과;An image correction engine for correcting an image file generated after scanning a paper document to be converted into an optimized image;

이미지파일내의 텍스트를 추출하여 텍스트파일을 생성하는 인식엔진과;A recognition engine for extracting text in an image file and generating a text file;

상기 인식엔진을 통해 추출된 텍스트파일의 기울기 보정, 테두리제거, 노이즈제거를 통해 텍스트파일을 교정하는 인식결과교정엔진과;A recognition result correction engine for correcting the text file by tilt correction, edge removal, and noise removal of the text file extracted by the recognition engine;

이미지에서 추출한 텍스트를 내용 검색 가능한 통합이미지 파일로 변환하는 통합파일자동변환엔진을 포함하여 구성하는 것을 특징으로 한다.And an integrated file automatic conversion engine for converting text extracted from an image into an integrated image file that can be searched for contents.

또한, 별도의 뷰어 설치없이 실행 가능한 통합 이미지 파일 내의 단어찾기 및 조회를 수행하는 통합 전자문서 뷰어를 포함하여 구성하되, 웹을 통해 개별 파일내의 단어, 키워드로 전체 전자문서를 검색하는 검색엔진을 더 포함하여 구성하는 것을 특징으로 한다.In addition, it includes an integrated electronic document viewer that performs word search and search within the integrated image file that can be executed without installing a separate viewer, and further includes a search engine that searches the entire electronic document by words and keywords in individual files through the web. It is characterized by including the configuration.

상기 인식결과교정엔진은,The recognition result calibration engine,

이미지파일내의 문자 좌표영역과 인식결과값을 저장한 파일을 단일 문서로 변환하는 것을 특징으로 한다.A file storing the text coordinate area and the recognition result in the image file is converted into a single document.

상기 통합파일자동변환엔진은, The integrated file automatic conversion engine,

이미지파일과 인식결과파일을 통합하여 통합문서 포맷으로 변환하는 것을 특징으로 한다.It is characterized by converting the image file and the recognition result file into a workbook format.

또한, 상기 검색엔진은,In addition, the search engine,

구축된 다량의 통합파일내의 내용을 검색하여 해당 파일을 찾을 수 있도록 하는 것을 특징으로 한다.It is characterized in that the contents can be found by searching the contents of a large number of integrated files.

이하, 첨부된 도면을 참조하여 본 발명인 이미지파일의 내용검색이 가능한 전자문서 전환 장치의 바람직한 실시예를 상세하게 설명한다.Hereinafter, with reference to the accompanying drawings will be described in detail a preferred embodiment of the electronic document conversion device capable of content search of the present invention image file.

도 1 은 본 발명의 일실시예에 따른 이미지파일의 내용검색이 가능한 전자문서 전환 장치의 전체 구성도이다.1 is an overall configuration diagram of an electronic document conversion apparatus capable of searching contents of an image file according to an embodiment of the present invention.

종래에는 종이 문서를 스캔 장치를 통해 이미지문서로 전환하여 이를 전자문서 포맷으로 변환하여 DB데이터화하였는데 문서 사이즈가 크며, OS에 종속적이며 뷰어 프로그램을 설치해야만 문서 조회가 가능하여 이에 따른 불편함을 주고 있었으며, 또한 종이 문서를 스캔하여 이미지파일화한 경우에는 내용 검색이 불가능한 문제점이 있어서 해당 이미지파일 내의 원하는 내용을 검색하기 위해서는 일일이 사용자가 찾아야 하는 번거로움을 가지고 있었다. Conventionally, the paper document is converted into an image document through a scanning device and converted into an electronic document format and converted into DB data. The document size is large, it is dependent on the OS, and the document can be viewed only by installing a viewer program. In addition, when scanning a paper document into an image file, there is a problem that the contents cannot be searched. Therefore, in order to search for a desired content in the corresponding image file, the user has to find a problem.

그러나, 본 발명의 경우에는 도1에 도시한 바와 같이, 종이문서(30)를 스캔장치(40)를 통해 스캔 후 생성된 이미지파일(50)에서 추출한 텍스트를 통합파일자동변환엔진을 통해 히든 텍스트로 구성된 통합파일로 변환하게 된다. 따라서, 검색엔진의 통합파일 히든 텍스트 기능을 이용하여 이미지로 생성된 전자문서의 내용 조회 및 단어찾기가 가능해진다.However, in the case of the present invention, as shown in FIG. 1, the text extracted from the image file 50 generated after scanning the paper document 30 through the scanning device 40, the hidden text through the integrated file automatic conversion engine It will be converted into an integrated file composed of. Therefore, the contents search and word search of the electronic document generated as an image can be performed using the integrated file hidden text function of the search engine.

상기한 바와 같이, 본 발명은 기존의 종이문서를 기존 제이펙(JPEG)이나 티아이에프에프(TIFF)의 이미지 파일을 생성하는 단순 스캔 기능을 뛰어넘어 모든 OS 환경에서 별도의 뷰어 설치없이 사용 가능한 통합이미지파일로 생성하는 것이다.As described above, the present invention goes beyond the simple scan function of generating an image file of an existing JPEG or TIFF, which can be used without installing a separate viewer in all OS environments. It is created as an image file.

도 2 는 종래의 종이문서를 이미지파일로 변환하는 전자문서 전환 장치의 구성 블록도이다.2 is a block diagram illustrating a configuration of an electronic document converting apparatus for converting a conventional paper document into an image file.

도 3 은 본 발명의 일실시예에 따른 이미지파일의 내용검색이 가능한 전자문서 전환 장치의 구성 블록도이다.3 is a block diagram illustrating an electronic document conversion apparatus capable of searching contents of an image file according to an exemplary embodiment of the present invention.

도3에 도시한 바와 같이, 본 발명인 이미지파일의 내용검색이 가능한 전자문서 전환 장치는,As shown in Fig. 3, the electronic document switching device capable of searching contents of an image file of the present inventors,

종이문서를 스캔하여 전자문서로 전환하는 장치에 있어서,An apparatus for scanning a paper document and converting it into an electronic document,

이미지변환 대상의 종이문서를 스캔후 생성된 이미지파일을 최적화된 이미지로 보정하는 이미지보정엔진(110)과;An image correction engine 110 for correcting an image file generated after scanning a paper document to be converted into an optimized image;

이미지파일내의 텍스트를 추출하여 텍스트파일을 생성하는 인식엔진(120)과;A recognition engine 120 for extracting text in an image file and generating a text file;

상기 인식엔진을 통해 추출된 텍스트파일의 기울기 보정, 테두리제거, 노이즈제거를 통해 텍스트파일을 교정하는 인식결과교정엔진(130)과;A recognition result calibration engine 130 for correcting the text file by tilt correction, edge removal, and noise removal of the text file extracted by the recognition engine;

이미지에서 추출한 텍스트를 내용 검색 가능한 통합이미지 파일로 변환하는 통합파일자동변환엔진(140)을 포함하여 구성하는 것을 특징으로 한다.And an integrated file automatic conversion engine 140 for converting the text extracted from the image into an integrated image file capable of content retrieval.

또한, 별도의 뷰어설치없이 실행 가능한 통합이미지파일내의 단어찾기 및 조회를 수행하는 통합전자문서뷰어를 포함하여 구성하되, 웹을 통해 개별 파일내의 단어, 키워드로 전체 전자문서를 검색하는 검색엔진(150)을 더 포함하여 구성하는 것을 특징으로 한다.In addition, a search engine that includes an integrated electronic document viewer that performs word search and search within an integrated image file that can be executed without installing a separate viewer, and searches the entire electronic document using words and keywords in individual files through the web (150) It further comprises a).

상기 인식결과교정엔진(130)은,The recognition result calibration engine 130,

이미지파일내의 문자 좌표영역과 인식결과값을 저장한 파일을 단일 문서로 변환하는 것을 특징으로 한다.A file storing the text coordinate area and the recognition result in the image file is converted into a single document.

상기 통합파일자동변환엔진(140)은,The integrated file automatic conversion engine 140,

이미지파일과 인식결과파일을 통합하여 통합문서 포맷으로 변환하는 것을 특징으로 한다.It is characterized by converting the image file and the recognition result file into a workbook format.

상기 검색엔진(150)은,The search engine 150,

구축된 다량의 통합파일내의 내용을 검색하여 해당 파일을 찾을 수 있도록 하는 것을 특징으로 한다.It is characterized in that the contents can be found by searching the contents of a large number of integrated files.

도 2에 도시한 바와 같이, 종래의 전자문서 전환 장치는 전자문서화할 종이문서 및 책자를 스캔 프로그램(10)이 장착된 스캔장치를 통해 스캔한 이미지를 이미지 보정 프로그램(20)에 의해 보정을 하여 색인데이터를 입력한 후 색인데이터 검수를 통해 최종 데이터를 생성하게 된다. 상기의 과정을 거친 이미지는 노이즈 제거 및 테두리 제거 및 기울기 보정등의 세밀한 부분까지의 수정하지 않아 전자문서를 추후 검색하여 열람시 깨끗하지 않은 전자문서를 제공하게 된다.As shown in FIG. 2, the conventional electronic document switching device corrects an image scanned by an image correction program 20 through a scanning device equipped with a scan program 10 of a paper document and a book to be electronically documented. After entering the index data, the final data is generated through the inspection of the index data. The image that has undergone the above process is not corrected to the minute details such as noise removal, edge removal, and tilt correction, so that the electronic document can be searched later to provide a clean electronic document.

그러나, 도 3에 도시한 본 발명인 이미지파일의 내용검색이 가능한 전자문서 전환 장치는 전자 문서화할 종이문서 및 책자를 스캔 프로그램이 장착된 스캔장치를 통해 스캔한 이미지를 상기 생성된 이미지파일을 이미지보정엔진(110)을 통해 최적화된 이미지로 보정하고, 인식엔진(120)을 통해 이미지파일내의 텍스트를 추출하여 텍스트파일을 생성하여 인식결과교정엔진(130)을 통해 상기 인식엔진을 통해 추출된 텍스트파일의 기울기 보정, 테두리제거, 노이즈제거를 통해 텍스트파일을 교정하게 되며 상기 인식결과교정엔진(130)을 통해 이미지파일내의 문자 좌표영역 과 인식결과값을 저장한 파일을 단일 문서로 변환하게 된다.However, the electronic document converting apparatus capable of searching contents of the image file of the present inventors shown in FIG. Corrected to the optimized image through the engine 110, extracts the text in the image file through the recognition engine 120 to generate a text file and the text file extracted through the recognition engine through the recognition result correction engine 130 The text file is corrected by the tilt correction, the edge removal, and the noise removal. The recognition result correction engine 130 converts the file storing the character coordinate area and the recognition result value in the image file into a single document.

결국, 상기 이미지에서 추출한 텍스트를 통합파일자동변환엔진(140)을 통해 내용 검색 가능한 통합이미지 파일로 변환하게 되는데, 변환시 이미지파일과 인식결과파일을 통합하여 통합문서 포맷으로 변환하는 것을 특징으로 하고 있다.As a result, the text extracted from the image is converted into an integrated image file whose contents can be searched through the integrated file automatic conversion engine 140, and the image file and the recognition result file are converted into the integrated document format during conversion. .

한편, 상기 통합파일자동변환엔진(140)은 이미지파일에서 추출한 텍스트를 통합문서의 히든 텍스트로 구성하는 것을 특징으로 한다.On the other hand, the integrated file automatic conversion engine 140 is characterized in that the text extracted from the image file comprises a hidden text of the workbook.

상기 각 부를 거쳐 생성된 최종 통합이미지파일을 상기 웹을 통해 개별 파일 내의 단어, 키워드로 전체 전자문서를 검색할 수 있게 된다. 즉, 통합이미지포맷의 이미지파일을 생성하면 이미지 파일도 일반 전자파일과 같이 독립적인 데이터 형태로 활용할 수 있게 되는 것이다.Through the web, the final integrated image file generated through each unit can search the entire electronic document using words and keywords in individual files. In other words, when the image file of the integrated image format is generated, the image file can be utilized as an independent data form like a general electronic file.

또한, 상기 상기 인식결과교정엔진(130)은,In addition, the recognition result calibration engine 130,

이미지파일의 검색 내용을 하이라이트 처리 가능하게 하기 위해 이미지파일내의 문자 좌표영역과 인식결과값을 저장한 파일을 단일 문서로 변환하는 것을 특징으로 한다.In order to make it possible to highlight the search contents of the image file, the file storing the character coordinate area and the recognition result value in the image file is converted into a single document.

그리고, 상기 검색엔진(150)은,In addition, the search engine 150,

구축된 다량의 통합파일내의 내용을 검색하여 해당 파일을 찾을 수 있도록 하는 것을 특징으로 한다.It is characterized in that the contents can be found by searching the contents of a large number of integrated files.

한편, 종래 뷰어인 피디에프(PDF)는 지원OS가 윈도우로 한정되어 있으며, 뷰어 코드 사이즈가 8.6MB이며, 이에 따른 지원 디바이스는 컴퓨터 및 일부 피디에이로 한정되어 있으며, 상기 지원OS에 있는 폰트를 사용하여야 하며 뷰어프로그램을 설치해야만 문서조회가 가능한 반면, 본 발명의 경우는 지원OS가 윈도우, 윈도우씨이, 팜으로 범용적이고 뷰어 코드 사이즈가 120KB이며, 이에 따른 지원 디바이스는 컴퓨터, 포켓 피씨, 스마트폰, 이동통신 단말기등으로 활용 측면이 다양하며, 파일내에 폰트가 포함되어 있으므로 OS에 독립적이며, 문서에 뷰어가 포함되어 있어 뷰어프로그램 설치없이 문서를 바로 뷰잉할 수 있는 장점을 가지게 되는 것이다.On the other hand, the conventional viewer PD PDF (PDF) support OS is limited to the window, the viewer code size is 8.6MB, the support device is limited to the computer and some PD, the font used in the support OS using In the present invention, the supporting OS is Windows, Windows, and Palm, and the viewer code size is 120KB, and the supporting devices are computers, Pocket PCs, smart phones, Various aspects of application such as mobile communication terminal, and fonts are included in the file, so it is independent of the OS, and the viewer is included in the document so that the user can immediately view the document without installing the viewer program.

도 4 는 본 발명의 일실시예에 따른 이미지파일의 내용검색이 가능한 전자문서 전환 장치의 실시예이다.4 is an embodiment of an electronic document switching device capable of searching contents of an image file according to an embodiment of the present invention.

도 4에 도시한 바와 같이, 전자문서화할 종이문서 및 책자를 스캔 프로그램이 장착된 스캔장치를 통해 스캔한 이미지를 상기 생성된 이미지파일을 이미지보정엔진(110)을 통해 최적화된 이미지로 보정하고, 인식엔진(120)을 통해 이미지파일내의 텍스트를 추출하여 텍스트파일을 생성하여 인식결과교정엔진(130)을 통해 상기 인식엔진을 통해 추출된 텍스트파일의 기울기 보정, 테두리제거, 노이즈제거를 통해 텍스트파일을 교정하게 되며 상기 인식결과교정엔진(130)을 통해 추출한 텍스트를 통합파일자동변환엔진(140)을 통해 내용 검색 가능한 통합이미지 파일(200)로 최종 변환된다. 따라서, 사용자가 웹을 통해 전자문서관리시스템(미도시)에 접속하면 찾고자 하는 전자문서를 검색엔진(150)에 의해 특정한 뷰어 설치없이 문서를 검색할 수 있게 된다. 즉, 본 발명의 장치를 통해 생성된 통합이미지파일(200)들은 기존의 전자문서관리시스템(미도시)에 탑재되어 사용자는 특정한 뷰어 설치없이 전자문서를 조회, 뷰잉할 수 있는 것이다.As shown in FIG. 4, the generated image file is corrected to an optimized image through the image correction engine 110, and the scanned image is scanned through a scanning device equipped with a scanning program. Extract the text in the image file through the recognition engine 120 to generate a text file, and through the recognition result correction engine 130, the text file through the slope correction, border removal, noise removal of the text file extracted through the recognition engine The text extracted through the recognition result correction engine 130 is finally converted into an integrated image file 200 which can be searched for contents through the integrated file automatic conversion engine 140. Therefore, when a user accesses an electronic document management system (not shown) through the web, the search engine 150 can search for a document without installing a specific viewer. That is, the integrated image files 200 generated by the apparatus of the present invention are mounted in an existing electronic document management system (not shown), so that the user can search and view the electronic document without installing a specific viewer.

또한, 상기 통합이미지파일(200)은 통합이미지 모바일 타입으로 생성할 수도 있어 컴퓨터 단말기(300) 혹은 노트북, 피디에이등의 모바일 기기(400)에서도 조회가 가능하게 된다. 상기와 같이 모바일 기기에서도 조회가 가능한 이유는 120KB의 최소 용량의 뷰어 사이즈를 제공할 수 있기에 가능하다.In addition, the integrated image file 200 may be generated as an integrated image mobile type, so that the computer terminal 300 or a mobile device 400 such as a notebook or a PD may be inquired. The reason why the mobile device can be searched as described above is because the viewer size of 120 KB can be provided.

이상에서와 같은 내용의 본 발명이 속하는 기술분야의 당업자는 본 발명의 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시된 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. Those skilled in the art to which the present invention pertains as described above may understand that the present invention may be implemented in other specific forms without changing the technical spirit or essential features of the present invention. Therefore, the above-described embodiments are to be understood as illustrative in all respects and not restrictive.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구 범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the invention is indicated by the following claims rather than the above description, and all changes or modifications derived from the meaning and scope of the claims and their equivalents should be construed as being included in the scope of the invention. do.

이상에서 살펴본 바와 같이, 본 발명의 이미지파일의 내용검색이 가능한 전자문서 전환 장치는,As described above, the electronic document conversion device that can search the contents of the image file of the present invention,

종이문서를 데이터베이스화함에 있어서 이미지와 히든 텍스트로 구성하여 이미지파일 안에서 내용 검색이 가능하고, 응용프로그램에 관계없이 어느 단말기에서도 뷰잉이 가능하여 사용자에게 편리성을 제공하며, 검색엔진을 구성함으로써 내용 검색이 가능한 파일내의 단어 혹은 문장으로 검색이 가능하여 검색된 대상 파일을 선택하여 볼 수 있으며, 컴퓨터 및 기타 모바일 기기에서도 조회가 가능하므로 이 에 따른 사용의 효율성을 제공하는 효과가 있다. In the database of paper documents, it is possible to search the contents in the image file by constructing the image and the hidden text, and it is possible to view from any terminal regardless of the application program. This can be searched by the words or sentences in the file can be selected to view the searched target file, and can be viewed from the computer and other mobile devices, it has the effect of providing the efficiency of use accordingly.

Claims (5)

종이문서를 스캔하여 전자문서로 전환하는 장치에 있어서,An apparatus for scanning a paper document and converting it into an electronic document, 이미지변환 대상의 종이문서를 스캔후 생성된 이미지파일을 최적화된 이미지로 보정하는 이미지보정엔진(110)과;An image correction engine 110 for correcting an image file generated after scanning a paper document to be converted into an optimized image; 이미지파일내의 텍스트를 추출하여 텍스트파일을 생성하는 인식엔진(120)과;A recognition engine 120 for extracting text in an image file and generating a text file; 상기 인식엔진을 통해 추출된 텍스트파일의 기울기 보정, 테두리제거, 노이즈제거를 통해 텍스트파일을 교정하는 인식결과교정엔진(130)과;A recognition result calibration engine 130 for correcting the text file by tilt correction, edge removal, and noise removal of the text file extracted by the recognition engine; 이미지에서 추출한 텍스트를 내용 검색 가능한 통합이미지 파일로 변환하는 통합파일자동변환엔진(140)을 포함하여 구성하는 것을 특징으로 하는 이미지파일의 내용검색이 가능한 전자문서 전환 장치.An electronic document conversion device capable of content search of an image file, comprising an integrated file automatic conversion engine (140) for converting text extracted from an image into an integrated image file capable of content search. 제1항에 있어서,The method of claim 1, 별도의 뷰어 설치없이 실행 가능한 통합이미지파일내의 단어찾기 및 조회를 수행하는 통합전자문서뷰어를 포함하여 구성하되, 웹을 통해 개별 파일내의 단어, 키워드로 전체 전자문서를 검색하는 검색엔진(150)을 더 포함하여 구성하는 것을 특징으로 하는 이미지파일의 내용검색이 가능한 전자문서 전환 장치.The search engine 150 is configured to include an integrated electronic document viewer that performs word search and search within an integrated image file that can be executed without installing a separate viewer, and searches the entire electronic document using words and keywords in individual files through the web. Electronic document conversion device capable of searching the contents of the image file, characterized in that further comprises. 제1항 또는 제2항에 있어서,The method according to claim 1 or 2, 상기 인식결과교정엔진(130)은,The recognition result calibration engine 130, 이미지파일내의 문자 좌표영역과 인식결과값을 저장한 파일을 단일 문서로 변환하는 것을 특징으로 하는 이미지파일의 내용검색이 가능한 전자문서 전환 장치.An electronic document switching device capable of searching contents of an image file, characterized by converting a file storing a character coordinate area and a recognition result value in the image file into a single document. 제1항 또는 제2항에 있어서,The method according to claim 1 or 2, 상기 통합파일자동변환엔진(140)은,The integrated file automatic conversion engine 140, 이미지파일과 인식결과파일을 통합하여 통합문서 포맷으로 변환하는 것을 특징으로 하는 이미지파일의 내용검색이 가능한 전자문서 전환 장치.An electronic document conversion device capable of searching contents of an image file, comprising converting an image file and a recognition result file into a workbook format. 제1항 또는 제2항에 있어서,The method according to claim 1 or 2, 상기 검색엔진(150)은,The search engine 150, 구축된 다량의 통합 파일내의 내용을 검색하여 해당 파일을 찾을 수 있도록 하는 것을 특징으로 하는 이미지파일의 내용검색이 가능한 전자문서 전환 장치.An electronic document converting device capable of searching contents of an image file, wherein the contents are searched by searching contents in a plurality of integrated files.
KR1020050088933A 2005-09-23 2005-09-23 Electronic document conversion device that can search contents of image file KR20070034343A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050088933A KR20070034343A (en) 2005-09-23 2005-09-23 Electronic document conversion device that can search contents of image file

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050088933A KR20070034343A (en) 2005-09-23 2005-09-23 Electronic document conversion device that can search contents of image file

Publications (1)

Publication Number Publication Date
KR20070034343A true KR20070034343A (en) 2007-03-28

Family

ID=49290936

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050088933A KR20070034343A (en) 2005-09-23 2005-09-23 Electronic document conversion device that can search contents of image file

Country Status (1)

Country Link
KR (1) KR20070034343A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100889026B1 (en) * 2008-07-22 2009-03-17 김정태 Searching system using image
KR102393926B1 (en) 2021-11-17 2022-05-03 (주)케이엔랩 Generating method of processed image and descriptions based on image search, information management system, and computer program therefor

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100889026B1 (en) * 2008-07-22 2009-03-17 김정태 Searching system using image
WO2010011026A2 (en) * 2008-07-22 2010-01-28 Kim Jeong-Tae Search system using image
WO2010011026A3 (en) * 2008-07-22 2010-04-01 Kim Jeong-Tae Search system using image
US8849020B2 (en) 2008-07-22 2014-09-30 Jeong-tae Kim Search system using images
KR102393926B1 (en) 2021-11-17 2022-05-03 (주)케이엔랩 Generating method of processed image and descriptions based on image search, information management system, and computer program therefor

Similar Documents

Publication Publication Date Title
US7797150B2 (en) Translation system using a translation database, translation using a translation database, method using a translation database, and program for translation using a translation database
JP5042562B2 (en) Image processing apparatus, handwritten information recognition method, handwritten information recognition program
US8339645B2 (en) Managing apparatus, image processing apparatus, and processing method for the same, wherein a first user stores a temporary object having attribute information specified but not partial-area data, at a later time an object is received from a second user that includes both partial-area data and attribute information, the storage unit is searched for the temporary object that matches attribute information of the received object, and the first user is notified in response to a match
US8244037B2 (en) Image-based data management method and system
US10528679B2 (en) System and method for real time translation
JP2009295153A (en) Web based text detection method and web based system
JP4785655B2 (en) Document processing apparatus and document processing method
US20120030234A1 (en) Method and system for generating a search query
US7284200B2 (en) Organization of handwritten notes using handwritten titles
US20080304113A1 (en) Space font: using glyphless font for searchable text documents
US7546528B2 (en) Stamp sheets
JP2008129793A (en) Document processing system, apparatus and method, and recording medium with program recorded thereon
JP2008040753A (en) Image processor and method, program and recording medium
WO2007023991A1 (en) Embedding hot spots in electronic documents
US20160188612A1 (en) Objectification with deep searchability
CN105740317A (en) Method and system for objectifying non-textual content and finding document
JP2007310501A (en) Information processor, its control method, and program
KR20070034343A (en) Electronic document conversion device that can search contents of image file
JP6809005B2 (en) Translation equipment, translation systems and programs
JP2000322417A (en) Device and method for filing image and storage medium
US20160283444A1 (en) Human input to relate separate scanned objects
KR101951706B1 (en) Method, and apparatus for increasing the readability of the image type contents
KR101773064B1 (en) Method and apparatus for increasing the readability of the image type contents
JP2004348467A (en) Image retrieval apparatus and its control method, program
JP2022019445A (en) Image processing apparatus, method, and program

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application