KR101445171B1 - 종이 문서에 대한 전자 문서 변환 장치 및 방법 - Google Patents

종이 문서에 대한 전자 문서 변환 장치 및 방법 Download PDF

Info

Publication number
KR101445171B1
KR101445171B1 KR1020140036878A KR20140036878A KR101445171B1 KR 101445171 B1 KR101445171 B1 KR 101445171B1 KR 1020140036878 A KR1020140036878 A KR 1020140036878A KR 20140036878 A KR20140036878 A KR 20140036878A KR 101445171 B1 KR101445171 B1 KR 101445171B1
Authority
KR
South Korea
Prior art keywords
document
size
paper
information
characters
Prior art date
Application number
KR1020140036878A
Other languages
English (en)
Inventor
정원석
윤종현
Original Assignee
주식회사 한글과컴퓨터
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 한글과컴퓨터 filed Critical 주식회사 한글과컴퓨터
Priority to KR1020140036878A priority Critical patent/KR101445171B1/ko
Application granted granted Critical
Publication of KR101445171B1 publication Critical patent/KR101445171B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Document Processing Apparatus (AREA)

Abstract

종이 문서에 대한 전자 문서 변환 장치 및 방법이 개시된다. 본 발명의 실시예들은 인쇄된 종이 문서로부터 문자를 인식하여 상기 종이 문서를 전자 문서로 변환할 때, 상기 종이 문서 상에 인쇄되어 있는 문자에 적용되어 있던 폰트 크기 정보나 폰트 또는 색상과 동일한 서식이 적용된 형태의 전자 문서가 생성 가능하도록 함으로써, 상기 종이 문서를 전자 문서로 변환하는 과정에서 사용자가 별도로 전자 문서의 서식을 조정해야 하는 번거로움을 해소해 줄 수 있다.

Description

종이 문서에 대한 전자 문서 변환 장치 및 방법{APPARATUS AND METHOD FOR CONVERTING PAPER DOCUMENT INTO ELECTRONIC DOCUMENT}
본 발명의 실시예들은 종이 문서를 스캔하여 종이 문서를 전자 문서로 변환할 수 있도록 지원하는 기법에 대한 기술들과 관련된다.
최근, 전자화된 문서를 활용한 업무가 증가함에 따라, 기존의 인쇄된 종이 문서를 전자 문서로 변환해서 업무 처리를 해야 하는 경우가 증가하고 있다.
이러한 인쇄된 종이 문서를 전자 문서로 변환하는 가장 일반적인 방법은 사람이 직접 인쇄된 종이 문서를 보고 전자 문서 상에 문자를 입력하는 방식이 있다.
하지만, 이러한 방식은 인쇄된 종이 문서 상에 문자의 양이 많지 않으면, 비교적 손쉽게 업무를 처리할 수 있으나, 인쇄된 종이 문서 상에 문자의 양이 많다면, 사람이 일일이 전자 문서 상에 문자를 입력해야 하기 때문에 많은 시간과 노력이 소요될 수 있다.
이러한 문제를 해결하기 위해, 최근에는 광학 문자 판독기(Optical Character Reader: OCR)라고 하는 기기가 등장하였다.
OCR은 인쇄된 종이 문서를 스캔하여 종이 문서 상에 존재하는 문자를 전자화하는 것으로, 좀 더 상세하게는 인쇄된 문자에 빛을 대어서 그 반사 광선을 받아 관측하고, 그 문자가 무엇인가를 판단해서 부호화하는 입력 장치를 말한다.
이러한 OCR을 이용하면, 사용자가 인쇄된 종이 문서에 존재하는 문자들을 일일이 전자 문서 상에 입력하지 않더라도, 자동으로 전자 문서 상에 문자들이 입력되기 때문에 종이 문서를 전자 문서로 변환할 때 용이하게 활용될 수 있다.
하지만, 이러한 OCR은 인쇄된 종이 문서로부터 문자를 인식하여 이를 단순히 전자화된 텍스트 형태로만 변형해 준다는 점에서, 사용자가 종이 문서와 동일한 서식이 적용된 전자 문서를 만들기 위해서는 OCR을 통해 전자 문서 상에 문자 입력이 완료된 이후에도 별도로 종이 문서 상에 원래 존재하였던 문자의 크기, 폰트 및 색상을 확인한 후 전자 문서 상에 입력된 문자에 대해서 크기, 폰트 및 색상을 따로 조정해 주어야 한다.
따라서, 인쇄된 종이 문서로부터 문자를 인식하여 상기 종이 문서를 전자 문서로 변환할 때, 상기 종이 문서 상에 적용되어 있던 서식과 최대한 유사한 서식이 자동으로 적용된 형태의 전자 문서를 생성할 수 있도록 지원하는 기법에 대한 연구가 필요하다.
본 발명의 실시예들은 인쇄된 종이 문서로부터 문자를 인식하여 상기 종이 문서를 전자 문서로 변환할 때, 상기 종이 문서 상에 인쇄되어 있는 문자에 적용되어 있던 폰트 크기 정보나 폰트 또는 색상과 동일한 서식이 적용된 형태의 전자 문서가 생성 가능하도록 함으로써, 상기 종이 문서를 전자 문서로 변환하는 과정에서 사용자가 별도로 전자 문서의 서식을 조정해야 하는 번거로움을 해소해 주고자 한다.
본 발명의 일실시예에 따른 종이 문서에 대한 전자 문서 변환 장치는 복수의 문서 용지 크기에 대한 정보들 각각에 대해, 복수의 폰트 크기 정보들과, 상기 복수의 폰트 크기 정보들 각각에 대응되는 문서 용지 크기와 문자의 크기 값 간의 크기 비율이 저장되어 있는 크기 데이터베이스, 인쇄된 종이 문서를 스캔하여 상기 종이 문서로부터 상기 종이 문서에 인쇄되어 있던 복수의 문자들을 추출하고, 상기 종이 문서에 대한 스캔 이미지를 획득하는 이미지 획득부, 상기 스캔 이미지 상에서 상기 종이 문서가 차지하는 문서 영역 이미지의 크기를 확인하는 문서 영역 확인부, 상기 크기 데이터베이스로부터 상기 문서 영역 이미지의 크기와 매칭되는 제1 문서 용지 크기에 대한 정보를 확인하는 정보 확인부, 상기 문서 영역 이미지로부터 상기 종이 문서에 인쇄되어 있던 상기 복수의 문자들의 크기 값을 확인하고, 상기 문서 영역 이미지의 크기와 상기 복수의 문자들의 크기 값 간의 제1 크기 비율을 연산하여 상기 크기 데이터베이스로부터 상기 제1 문서 용지 크기에 대한 정보에 대해 저장되어 있는 상기 복수의 폰트 크기 정보들 중 상기 제1 크기 비율에 매칭되는 제1 폰트 크기 정보를 추출하는 정보 추출부 및 상기 제1 문서 용지 크기를 갖는 전자 문서 상에 상기 제1 폰트 크기 정보를 갖는 상기 복수의 문자들을 삽입하여 상기 종이 문서를 전자 문서로 변환하는 변환부를 포함한다.
또한, 본 발명의 일실시예에 따른 종이 문서에 대한 전자 문서 변환 방법은 복수의 문서 용지 크기에 대한 정보들 각각에 대해, 복수의 폰트 크기 정보들과, 상기 복수의 폰트 크기 정보들 각각에 대응되는 문서 용지 크기와 문자의 크기 값 간의 크기 비율이 저장되어 있는 크기 데이터베이스를 유지하는 단계, 인쇄된 종이 문서를 스캔하여 상기 종이 문서로부터 상기 종이 문서에 인쇄되어 있던 복수의 문자들을 추출하고, 상기 종이 문서에 대한 스캔 이미지를 획득하는 단계, 상기 스캔 이미지 상에서 상기 종이 문서가 차지하는 문서 영역 이미지의 크기를 확인하는 단계, 상기 크기 데이터베이스로부터 상기 문서 영역 이미지의 크기와 매칭되는 제1 문서 용지 크기에 대한 정보를 확인하는 단계, 상기 문서 영역 이미지로부터 상기 종이 문서에 인쇄되어 있던 복수의 문자들의 크기 값을 확인하고, 상기 문서 영역 이미지의 크기와 상기 복수의 문자들의 크기 값 간의 제1 크기 비율을 연산하여 상기 크기 데이터베이스로부터 상기 제1 문서 용지 크기에 대한 정보에 대해 저장되어 있는 상기 복수의 폰트 크기 정보들 중 상기 제1 크기 비율에 매칭되는 제1 폰트 크기 정보를 추출하는 단계 및 상기 제1 문서 용지 크기를 갖는 전자 문서 상에 상기 제1 폰트 크기 정보를 갖는 상기 복수의 문자들을 삽입하여 상기 종이 문서를 전자 문서로 변환하는 단계를 포함한다.
본 발명의 실시예들은 인쇄된 종이 문서로부터 문자를 인식하여 상기 종이 문서를 전자 문서로 변환할 때, 상기 종이 문서 상에 인쇄되어 있는 문자에 적용되어 있던 폰트 크기 정보나 폰트 또는 색상과 동일한 서식이 적용된 형태의 전자 문서가 생성 가능하도록 함으로써, 상기 종이 문서를 전자 문서로 변환하는 과정에서 사용자가 별도로 전자 문서의 서식을 조정해야 하는 번거로움을 해소해 줄 수 있다.
도 1은 본 발명의 일실시예에 따른 종이 문서에 대한 전자 문서 변환 장치의 구조를 도시한 도면이다.
도 2와 도 3은 본 발명의 일실시예에 따른 종이 문서에 대한 전자 문서 변환 장치의 동작을 설명하기 위한 예시를 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 종이 문서에 대한 전자 문서 변환 방법을 도시한 순서도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하에서, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일실시예에 따른 종이 문서에 대한 전자 문서 변환 장치의 구조를 도시한 도면이다.
도 1을 참조하면, 본 발명의 일실시예에 따른 종이 문서에 대한 전자 문서 변환 장치(110)는 크기 데이터베이스(111), 이미지 획득부(112), 문서 영역 확인부(113), 정보 확인부(114), 정보 추출부(115) 및 변환부(116)를 포함한다.
먼저, 크기 데이터베이스(111)에는 복수의 문서 용지 크기에 대한 정보들 각각에 대해, 복수의 폰트 크기 정보들과, 상기 복수의 폰트 크기 정보들 각각에 대응되는 문서 용지 크기와 문자의 크기 값 간의 크기 비율이 저장되어 있다.
예컨대, 크기 데이터베이스(111)에는 하기의 표 1과 같이 정보가 저장되어 있을 수 있다.
문서 용지 크기에 대한 정보
(가로 × 세로)
폰트 크기 정보 크기 비율
(가로 × 세로)
210mm × 297mm 1pt 0.2% × 0.13%
11pt 2.38% × 1.68%
182mm × 257mm 1pt 0.15% × 0.127%
11pt 2.0% × 1.5%
관련하여, 상기 표 1에 대해 설명하면, 가로 '210mm', 세로 '297mm'라는 크기를 갖는 전자 문서 상에 '11pt'라는 폰트 크기 정보를 갖는 문자가 입력될 경우, 가로 '210mm', 세로 '297mm'라는 크기를 갖는 전자 문서의 용지 크기와 '11pt'라는 폰트 크기 정보를 갖는 문자 간의 실제 크기 비율은 '2.38% × 1.68%'이므로, 가로 '210mm', 세로 '297mm'라는 문서 용지 크기에 대한 정보에 대해서, '11pt' 라는 폰트 크기 정보와 이에 대응되는 크기 비율인 '2.38% × 1.68%'가 상기 표 1과 같이 크기 데이터베이스(111) 상에 서로 대응되어 저장되어 있을 수 있다.
이미지 획득부(112)는 인쇄된 종이 문서를 스캔하여 상기 종이 문서로부터 상기 종이 문서에 인쇄되어 있던 복수의 문자들을 추출하고, 상기 종이 문서에 대한 스캔 이미지를 획득한다.
이때, 본 발명의 일실시예에 따르면, 이미지 획득부(112)는 광학 문자 판독기(Optical Character Reader: OCR)를 이용하여 상기 종이 문서로부터 상기 종이 문서에 인쇄되어 있던 복수의 문자들을 추출할 수 있다.
문서 영역 확인부(113)는 상기 스캔 이미지 상에서 상기 종이 문서가 차지하는 문서 영역 이미지의 크기를 확인한다.
이때, 본 발명의 일실시예에 따르면, 문서 영역 확인부(113)는 해상도 확인부(117), 화소(pixel)수 연산부(118) 및 크기 연산부(119)를 포함할 수 있다.
해상도 확인부(117)는 상기 스캔 이미지의 해상도를 확인한다.
화소수 연산부(118)는 상기 스캔 이미지 상에서 상기 종이 문서가 차지하는 상기 문서 영역 이미지의 가로 화소수와 세로 화소수를 연산한다.
크기 연산부(119)는 상기 문서 영역 이미지의 가로 화소수와 상기 해상도를 기초로 상기 문서 영역 이미지의 가로 크기를 연산하고, 상기 문서 영역 이미지의 세로 화소수의 상기 해상도를 기초로 상기 문서 영역 이미지의 세로 크기를 연산한다.
정보 확인부(114)는 크기 데이터베이스(111)로부터 상기 문서 영역 이미지의 크기와 매칭되는 제1 문서 용지 크기에 대한 정보를 확인한다.
정보 추출부(115)는 상기 문서 영역 이미지로부터 상기 종이 문서에 인쇄되어 있던 상기 복수의 문자들의 크기 값을 확인하고, 상기 문서 영역 이미지의 크기와 상기 복수의 문자들의 크기 값 간의 제1 크기 비율을 연산하여 크기 데이터베이스로(111)부터 상기 제1 문서 용지 크기에 대한 정보에 대해 저장되어 있는 상기 복수의 폰트 크기 정보들 중 상기 제1 크기 비율에 매칭되는 제1 폰트 크기 정보를 추출한다.
변환부(116)는 상기 제1 문서 용지 크기를 갖는 전자 문서 상에 상기 제1 폰트 크기 정보를 갖는 상기 복수의 문자들을 삽입하여 상기 종이 문서를 전자 문서로 변환한다.
이하에서는 도 2를 참조하여, 본 발명의 일실시예에 따른 종이 문서에 대한 전자 문서 변환 장치(110)의 동작에 대해 예를 들어 상세히 설명하기로 한다.
도 2는 본 발명의 일실시예에 따른 종이 문서에 대한 전자 문서 변환 장치(110)의 동작을 설명하기 위한 예시를 도시한 도면이다.
먼저, 크기 데이터베이스(111) 상에 표 1과 같은 정보가 저장되어 있고, 이미지 획득부(112)가 도면부호 210에 도시된 바와 같은 형태의 종이 문서를 스캔하는 것으로 가정한다.
이미지 획득부(112)는 도면부호 210에 도시된 바와 같이, 인쇄된 종이 문서를 스캔하여 상기 종이 문서로부터 상기 종이 문서에 인쇄되어 있던 복수의 문자들을 추출하고, 종이 문서에 대한 스캔 이미지(211)를 획득할 수 있다.
그리고, 문서 영역 확인부(113)는 스캔 이미지(211) 상에서 상기 종이 문서가 차지하는 문서 영역 이미지(212)의 크기를 확인할 수 있다.
이와 관련하여, 해상도 확인부(117)는 스캔 이미지(211)의 해상도를 확인할 수 있다.
그리고, 화소수 연산부(118)는 스캔 이미지(211) 상에서 상기 종이 문서가 차지하는 문서 영역 이미지(212)의 가로 화소수와 세로 화소수를 연산할 수 있다.
이때, 크기 연산부(119)는 문서 영역 이미지(212)의 가로 화소수와 상기 해상도를 기초로 문서 영역 이미지(212)의 가로 크기(213)를 연산하고, 문서 영역 이미지(212)의 세로 화소수의 상기 해상도를 기초로 문서 영역 이미지의 세로 크기(214)를 연산할 수 있다.
예컨대, 스캔 이미지(211)의 해상도가 '300dpi'로 확인되었고, 문서 영역 이미지(212)의 가로 화소수가 '2480pixels', 세로 화소수가 '3508pixels'로 확인되었다고 가정하자.
여기서, '1dpi'가 1인치당 표시되는 화소수이기 때문에, 크기 연산부(119)는 문서 영역 이미지(212)의 가로 화소수인 '2480pixels'에 대해 '300dpi'를 나누어 '8.26인치'라는 문서 영역 이미지(212)의 가로 크기(213)를 연산할 수 있고, 문서 영역 이미지(212)의 세로 화소수인 '3508pixels'에 대해 '300dpi'를 나누어 '11.69인치'라는 문서 영역 이미지(212)의 세로 크기(214)를 연산할 수 있다.
이를 통해, 문서 영역 확인부(113)는 문서 영역 이미지(212)의 크기를 가로 '210mm', 세로 '297mm'로 최종 확인할 수 있다.
이렇게, 문서 영역 이미지(212)의 크기 확인이 완료되면, 정보 확인부(114)는 크기 데이터베이스(111)로부터 문서 영역 이미지(212)의 크기와 매칭되는 제1 문서 용지 크기에 대한 정보를 확인할 수 있다.
본 실시예에서는 문서 영역 이미지(212)의 크기가 가로 '210mm', 세로 '297mm'로 확인되었기 때문에, 정보 확인부(114)는 크기 데이터베이스(111)로부터 문서 영역 이미지(212)의 크기와 매칭되는 제1 문서 용지 크기에 대한 정보로 '210mm × 297mm'을 확인할 수 있다.
그리고 나서, 정보 추출부(115)는 문서 영역 이미지(212)로부터 상기 종이 문서에 인쇄되어 있던 상기 복수의 문자들의 크기 값을 확인하고, 문서 영역 이미지(212)의 크기와 상기 복수의 문자들의 크기 값 간의 제1 크기 비율을 연산하여 크기 데이터베이스(111)로부터 상기 제1 문서 용지 크기에 대한 정보인 '210mm × 297mm'에 대해 저장되어 있는 상기 복수의 폰트 크기 정보들 중 상기 제1 크기 비율에 매칭되는 제1 폰트 크기 정보를 추출할 수 있다.
관련하여, 도면부호 220에는 정보 추출부(115)가 문서 영역 이미지(212)로부터 상기 종이 문서에 인쇄되어 있던 상기 복수의 문자들 중 '가'라는 문자에 대한 크기 값을 확인하는 예가 도시되어 있다.
도면부호 220에 도시된 바와 같이, 정보 추출부(115)는 문서 영역 이미지(212)로부터 상기 종이 문서에 인쇄되어 있던 상기 복수의 문자들에 대해 각 문자들을 둘러싸는 사각 영역(221)을 생성하고, 사각 영역(221)의 가로 크기(222)와 세로 크기(223)를 확인함으로써, 상기 복수의 문자들의 크기 값을 확인할 수 있다.
그리고 나서, 정보 추출부(115)는 문서 영역 이미지(212)의 크기와 상기 복수의 문자들의 크기 값 간의 제1 크기 비율을 연산하여 크기 데이터베이스(111)로부터 상기 제1 문서 용지 크기에 대한 정보인 '210mm × 297mm'에 대해 저장되어 있는 상기 복수의 폰트 크기 정보들 중 상기 제1 크기 비율에 매칭되는 제1 폰트 크기 정보를 추출할 수 있다.
만약, 상기 복수의 문자들 중 도면부호 220에 도시된 '가'라는 문자의 가로 크기(222)가 '5mm'이고, 세로 크기(223)가 '5mm'인 경우, 정보 추출부(115)는 문서 영역 이미지(212)의 크기인 가로 '210mm', 세로 '297mm'와 '가'라는 문자에 대한 크기 값인 가로 '5mm', 세로 '5mm' 간 제1 크기 비율로 가로 '2.38%', 세로 '1.68%'를 연산할 수 있고, 크기 데이터베이스(111)로부터 상기 제1 문서 용지 크기에 대한 정보인 '210mm × 297mm'에 대해 저장되어 있는 상기 복수의 폰트 크기 정보들 중 상기 제1 크기 비율인 가로 '2.38%', 세로 '1.68%'에 매칭되는 제1 폰트 크기 정보로 '11pt'라는 폰트 크기 정보를 추출할 수 있다.
이러한 방식으로, 정보 추출부(115)는 크기 데이터베이스(111)로부터 상기 종이 문서에 인쇄되어 있던 상기 복수의 문자들 각각에 대한 상기 제1 폰트 크기 정보를 추출할 수 있다.
이렇게, 상기 제1 폰트 크기 정보의 추출이 완료되면, 변환부(116)는 상기 제1 문서 용지 크기인 가로 '210mm', 세로 '297mm'을 갖는 전자 문서 상에 상기 제1 폰트 크기 정보를 갖는 상기 복수의 문자들을 삽입하여 상기 종이 문서를 전자 문서로 변환할 수 있다.
본 발명의 일실시예에 따르면, 정보 확인부(114)는 크기 데이터베이스(111)로부터 문서 영역 이미지(212)의 크기와 매칭되는 상기 제1 문서 용지 크기에 대한 정보를 확인할 때, 문서 영역 이미지(212)의 크기와 선정된(predetermined) 제1 오차 범위 내에서 매칭되는 상기 제1 문서 용지 크기에 대한 정보를 확인할 수 있고, 정보 추출부(115)는 크기 데이터베이스(111)로부터 상기 제1 폰트 크기 정보를 추출할 때, 상기 복수의 폰트 크기 정보들 중 상기 제1 크기 비율과 선정된 제2 오차 범위 내에서 매칭되는 크기 비율에 대응되어 저장되어 있는 상기 제1 폰트 크기 정보를 추출할 수 있다.
즉, 본 발명의 일실시예에 따른 종이 문서에 대한 전자 문서 변환 장치(110)는 인쇄된 종이 문서를 스캔하여 전자 문서로 변환한다는 점을 고려하여, 변환 과정에서 발생할 수 있는 소정의 오차 범위를 둠으로써, 전자 문서 상에 삽입되는 글자의 폰트 크기 정보를 적절하게 조정할 수 있다.
이상, 도 2를 참조하여, 본 발명의 일실시예에 따른 종이 문서에 대한 전자 문서 변환 장치(110)의 동작에 대해 설명하였다. 이하에서는 도 1을 참조하여, 종이 문서에 대한 전자 문서 변환 장치(110)의 구조에 대해 계속 설명하기로 한다.
본 발명의 일실시예에 따르면, 종이 문서에 대한 전자 문서 변환 장치(110)는 폰트 데이터베이스(120), 문자 이미지 생성부(121) 및 폰트 확인부(122)를 더 포함할 수 있다.
폰트 데이터베이스(120)에는 복수의 폰트들에 대한 정보가 저장되어 있다.
문자 이미지 생성부(121)는 상기 종이 문서로부터 추출된 상기 복수의 문자들에 대해 상기 제1 폰트 크기 정보에 따라 크기를 조정하고, 폰트 데이터베이스(120)를 참조하여 상기 복수의 문자들 각각에 대해, 상기 복수의 폰트들을 모두 적용한 후 상기 복수의 폰트들 각각이 적용된 문자 이미지를 생성한다.
폰트 확인부(122)는 상기 복수의 문자들 각각에 대해, 상기 문서 영역 이미지 상에 존재하는 문자 이미지와 상기 복수의 폰트들 각각이 적용된 문자 이미지의 패턴을 비교하여 최대로 매칭되는 패턴을 갖는 폰트를 확인한다.
이때, 변환부(116)는 상기 제1 문서 용지 크기를 갖는 전자 문서 상에 상기 제1 폰트 크기 정보를 갖는 상기 복수의 문자들을 삽입하고, 상기 삽입된 복수의 문자들 각각에 대해 상기 확인된 폰트를 적용하여 상기 종이 문서를 전자 문서로 변환할 수 있다.
관련하여, 도 3을 참조하여, 폰트 데이터베이스(120), 문자 이미지 생성부(121) 및 폰트 확인부(122)의 동작에 대해 좀 더 상세히 설명하기로 한다.
도 3은 본 발명의 일실시예에 따른 종이 문서에 대한 전자 문서 변환 장치(110)의 동작을 설명하기 위한 또 다른 예시를 도시한 도면이다.
먼저, 폰트 데이터베이스(120)에는 도면부호 310에 도시된 바와 같이, '돋움', '굴림', '궁서' 등과 같은 복수의 폰트들에 대한 정보가 저장되어 있을 수 있다.
이때, 문자 이미지 생성부(121)는 상기 종이 문서로부터 추출된 상기 복수의 문자들에 대해 앞서, 정보 추출부(115)에서 추출된 상기 제1 폰트 크기 정보에 따라 크기를 조정하고, 폰트 데이터베이스(120)를 참조하여 상기 복수의 문자들 각각에 대해, 상기 복수의 폰트들을 모두 적용한 후 상기 복수의 폰트들 각각이 적용된 문자 이미지를 생성할 수 있다.
관련하여, 도면부호 320에는 상기 종이 문서로부터 추출된 상기 복수의 문자들 중 '가'라는 문자에 대해 상기 복수의 폰트들이 적용된 문자 이미지가 생성된 예가 도시되어 있다.
즉, 상기 복수의 문자들 중 '가'라는 문자에 대해 정보 추출부(115)에서 추출된 상기 제1 폰트 크기 정보가 '11pt'라고 하는 경우, 문자 이미지 생성부(121)는 '가'라는 문자에 대해 '11pt'라는 폰트 크기 정보에 따라 문자 크기를 조정한 후 폰트 데이터베이스(120)를 참조하여 '가'라는 문자에 대해 '돋움'이라는 폰트가 적용된 문자 1(321), '굴림'이라는 폰트가 적용된 문자 2(322), '궁서'라는 폰트가 적용된 문자 3(323) 등을 생성한 후 각 폰트가 적용된 문자들을 이미지로 생성함으로써, 문자 1(321)에 대한 문자 이미지, 문자 2(322)에 대한 문자 이미지, 문자 3(323)에 대한 문자 이미지 등을 생성할 수 있다.
이러한 방식으로, 문자 이미지 생성부(121)는 상기 종이 문서로부터 추출된 상기 복수의 문자들 각각에 대해 모두 폰트 데이터베이스(120)에 저장되어 있는 복수의 폰트들이 적용된 문자 이미지들을 생성할 수 있다.
이렇게, 문자 이미지의 생성이 완료되면, 폰트 확인부(122)는 상기 복수의 문자들 각각에 대해, 상기 문서 영역 이미지 상에 존재하는 문자 이미지와 상기 복수의 폰트들 각각이 적용된 문자 이미지의 패턴을 비교하여 최대로 매칭되는 패턴을 갖는 폰트를 확인할 수 있다.
관련하여, 도면부호 320에 도시되어 있는 바와 같이, 상기 복수의 문자들 중 '가'라는 문자에 대한 폰트 확인부(122)의 동작을 설명하면, 폰트 확인부(122)는 문자 이미지 생성부(121)에서 생성된 문자 1(321)에 대한 문자 이미지, 문자 2(322)에 대한 문자 이미지, 문자 3(323)에 대한 문자 이미지 등과 스캔된 종이 문서에 포함되어 있는 상기 문서 영역 이미지 상에 존재하는 '가'라는 문자 이미지(330)의 패턴을 비교하여 최대로 매칭되는 패턴을 갖는 문자 이미지인 문자 1(321)에 대한 문자 이미지를 확인한 후 문자 1(321)에 적용되어 있던 폰트인 '돋움'이라는 폰트를 확인할 수 있다.
그리고 나서, 변환부(116)는 상기 제1 문서 용지 크기를 갖는 전자 문서 상에 '가'라는 문자를 삽입할 때, 상기 '가'라는 문자에 대해 정보 추출부(115)에서 추출된 '11pt'라는 폰트 크기 정보를 갖는 문자 크기를 적용하면서, '돋움'이라는 폰트를 적용함으로써, 상기 종이 문서를 전자 문서로 변환할 수 있다.
이러한 방식으로, 폰트 확인부(122)와 변환부(116)는 도면부호 320에 도시된 상기 '가'라는 문자에 대해서 적용하였던 동작을 상기 복수의 문자들 각각에 대해 모두 적용함으로써, 상기 종이 문서를 전자 문서로 최종 변환할 수 있다.
이상, 도 3을 참조하여, 본 발명의 일실시예에 따른 종이 문서에 대한 전자 문서 변환 장치(110)의 동작에 대해 설명하였다. 이하에서는 도 1을 참조하여, 종이 문서에 대한 전자 문서 변환 장치(110)의 구조에 대해 계속 설명하기로 한다.
본 발명의 일실시예에 따르면, 종이 문서에 대한 전자 문서 변환 장치(110)는 색상 결정부(123)를 더 포함할 수 있다.
색상 결정부(123)는 상기 복수의 문자들 각각에 대해, 상기 문서 영역 이미지 상에 존재하는 문자 이미지를 구성하는 화소들의 색상을 확인하고, 상기 문자 이미지를 구성하는 화소들의 색상 중 최대의 출현빈도를 갖는 색상을 문자 색상으로 결정한다.
이때, 변환부(116)는 상기 제1 문서 용지 크기를 갖는 전자 문서 상에 상기 제1 폰트 크기 정보를 갖는 상기 복수의 문자들을 삽입하고, 상기 삽입된 복수의 문자들 각각에 대해 상기 결정된 문자 색상을 적용하여 상기 종이 문서를 전자 문서로 변환할 수 있다.
예컨대, 상기 복수의 문자들 중 '가'라는 문자에 대해서 색상을 결정하는 과정을 예를 들면, 색상 결정부(123)는 상기 문서 영역 이미지 상에 존재하는 '가'라는 문자에 대한 문자 이미지를 구성하는 화소들의 색상을 확인할 수 있고, 상기 '가'라는 문자에 대한 문자 이미지를 구성하는 화소들의 색상 중 '빨간색'이 최대의 출현빈도를 갖는 것으로 확인된 경우, 상기 '가'가는 문자에 대한 문자 색상을 '빨간색'으로 결정할 수 있다.
그리고 나서, 변환부(116)는 상기 제1 문서 용지 크기를 갖는 전자 문서 상에 '가'라는 문자를 삽입할 때, 상기 '가'라는 문자에 대해 정보 추출부(115)에서 추출된 상기 제1 폰트 크기 정보를 갖는 문자 크기를 적용하면서, '빨간색'이라는 문자 색상을 적용함으로써, 상기 종이 문서를 전자 문서로 변환할 수 있다.
이러한 방식으로, 색상 결정부(123)와 변환부(116)는 상기 '가'라는 문자에 대해서 적용하였던 동작을 상기 복수의 문자들 각각에 대해 모두 적용함으로써, 상기 종이 문서를 전자 문서로 최종 변환할 수 있다.
도 4는 본 발명의 일실시예에 따른 종이 문서에 대한 전자 문서 변환 방법을 도시한 순서도이다.
단계(S410)에서는 복수의 문서 용지 크기에 대한 정보들 각각에 대해, 복수의 폰트 크기 정보들과, 상기 복수의 폰트 크기 정보들 각각에 대응되는 문서 용지 크기와 문자의 크기 값 간의 크기 비율이 저장되어 있는 크기 데이터베이스를 유지한다.
단계(S420)에서는 인쇄된 종이 문서를 스캔하여 상기 종이 문서로부터 상기 종이 문서에 인쇄되어 있던 복수의 문자들을 추출하고, 상기 종이 문서에 대한 스캔 이미지를 획득한다.
단계(S430)에서는 상기 스캔 이미지 상에서 상기 종이 문서가 차지하는 문서 영역 이미지의 크기를 확인한다.
이때, 본 발명의 일실시예에 따르면, 단계(S430)에서는 상기 스캔 이미지의 해상도를 확인하는 단계, 상기 스캔 이미지 상에서 상기 종이 문서가 차지하는 상기 문서 영역 이미지의 가로 화소수와 세로 화소수를 연산하는 단계 및 상기 문서 영역 이미지의 가로 화소수와 상기 해상도를 기초로 상기 문서 영역 이미지의 가로 크기를 연산하고, 상기 문서 영역 이미지의 세로 화소수의 상기 해상도를 기초로 상기 문서 영역 이미지의 세로 크기를 연산하는 단계를 포함할 수 있다.
단계(S440)에서는 상기 크기 데이터베이스로부터 상기 문서 영역 이미지의 크기와 매칭되는 제1 문서 용지 크기에 대한 정보를 확인한다.
단계(S450)에서는 상기 문서 영역 이미지로부터 상기 종이 문서에 인쇄되어 있던 복수의 문자들의 크기 값을 확인하고, 상기 문서 영역 이미지의 크기와 상기 복수의 문자들의 크기 값 간의 제1 크기 비율을 연산하여 상기 크기 데이터베이스로부터 상기 제1 문서 용지 크기에 대한 정보에 대해 저장되어 있는 상기 복수의 폰트 크기 정보들 중 상기 제1 크기 비율에 매칭되는 제1 폰트 크기 정보를 추출한다.
이때, 본 발명의 일실시예에 따르면, 단계(S440)에서는 상기 크기 데이터베이스로부터 상기 문서 영역 이미지의 크기와 선정된 제1 오차 범위 내에서 매칭되는 상기 제1 문서 용지 크기에 대한 정보를 확인할 수 있고, 단계(S450)에서는 상기 크기 데이터베이스로부터 상기 복수의 폰트 크기 정보들 중 상기 제1 크기 비율과 선정된 제2 오차 범위 내에서 매칭되는 크기 비율에 대응되어 저장되어 있는 상기 제1 폰트 크기 정보를 추출할 수 있다.
단계(S460)에서는 상기 제1 문서 용지 크기를 갖는 전자 문서 상에 상기 제1 폰트 크기 정보를 갖는 상기 복수의 문자들을 삽입하여 상기 종이 문서를 전자 문서로 변환한다.
본 발명의 일실시예에 따르면, 상기 종이 문서에 대한 전자 문서 변환 방법은 단계(S460)이전에 복수의 폰트들에 대한 정보가 저장되어 있는 폰트 데이터베이스를 유지하는 단계, 상기 종이 문서로부터 추출된 상기 복수의 문자들에 대해 상기 제1 폰트 크기 정보에 따라 크기를 조정하고, 상기 폰트 데이터베이스를 참조하여 상기 복수의 문자들 각각에 대해, 상기 복수의 폰트들을 모두 적용한 후 상기 복수의 폰트들 각각이 적용된 문자 이미지를 생성하는 단계 및 상기 복수의 문자들 각각에 대해, 상기 문서 영역 이미지 상에 존재하는 문자 이미지와 상기 복수의 폰트들 각각이 적용된 문자 이미지의 패턴을 비교하여 최대로 매칭되는 패턴을 갖는 폰트를 확인하는 단계를 더 포함할 수 있다.
이때, 단계(S460)에서는 상기 제1 문서 용지 크기를 갖는 전자 문서 상에 상기 제1 폰트 크기 정보를 갖는 상기 복수의 문자들을 삽입하고, 상기 삽입된 복수의 문자들 각각에 대해 상기 확인된 폰트를 적용하여 상기 종이 문서를 전자 문서로 변환할 수 있다.
또한, 본 발명의 일실시예에 따르면, 상기 종이 문서에 대한 전자 문서 변환 방법은 단계(S460)이전에 상기 복수의 문자들 각각에 대해, 상기 문서 영역 이미지 상에 존재하는 문자 이미지를 구성하는 화소들의 색상을 확인하고, 상기 문자 이미지를 구성하는 화소들의 색상 중 최대의 출현빈도를 갖는 색상을 문자 색상으로 결정하는 단계를 더 포함할 수 있다.
이때, 단계(S460)에서는 상기 제1 문서 용지 크기를 갖는 전자 문서 상에 상기 제1 폰트 크기 정보를 갖는 상기 복수의 문자들을 삽입하고, 상기 삽입된 복수의 문자들 각각에 대해 상기 결정된 문자 색상을 적용하여 상기 종이 문서를 전자 문서로 변환할 수 있다.
이상, 도 4를 참조하여 본 발명의 일실시예에 따른 종이 문서에 대한 전자 문서 변환 방법에 대해 설명하였다. 여기서, 본 발명의 일실시예에 따른 종이 문서에 대한 전자 문서 변환 방법은 도 1 내지 도 3을 이용하여 설명한 종이 문서에 대한 전자 문서 변환 장치(110)의 동작에 대한 구성과 대응될 수 있으므로, 이에 대한 보다 상세한 설명은 생략하기로 한다.
본 발명의 일실시예에 따른 종이 문서에 대한 전자 문서 변환 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
110: 종이 문서에 대한 전자 문서 변환 장치
111: 크기 데이터베이스 112: 이미지 획득부
113: 문서 영역 확인부 114: 정보 확인부
115: 정보 추출부 116: 변환부
117: 해상도 확인부 118: 화소수 연산부
119: 크기 연산부 120: 폰트 데이터베이스
121: 문자 이미지 생성부 122: 폰트 확인부
123: 색상 결정부

Claims (11)

  1. 복수의 문서 용지 크기에 대한 정보들 각각에 대해, 복수의 폰트 크기 정보들과, 상기 복수의 폰트 크기 정보들 각각에 대응되는 문서 용지 크기와 문자의 크기 값 간의 크기 비율이 저장되어 있는 크기 데이터베이스;
    인쇄된 종이 문서를 스캔하여 상기 종이 문서로부터 상기 종이 문서에 인쇄되어 있던 복수의 문자들을 추출하고, 상기 종이 문서에 대한 스캔 이미지를 획득하는 이미지 획득부;
    상기 스캔 이미지 상에서 상기 종이 문서가 차지하는 문서 영역 이미지의 크기를 확인하는 문서 영역 확인부;
    상기 크기 데이터베이스로부터 상기 문서 영역 이미지의 크기와 매칭되는 제1 문서 용지 크기에 대한 정보를 확인하는 정보 확인부;
    상기 문서 영역 이미지로부터 상기 종이 문서에 인쇄되어 있던 상기 복수의 문자들의 크기 값을 확인하고, 상기 문서 영역 이미지의 크기와 상기 복수의 문자들의 크기 값 간의 제1 크기 비율을 연산하여 상기 크기 데이터베이스로부터 상기 제1 문서 용지 크기에 대한 정보에 대해 저장되어 있는 상기 복수의 폰트 크기 정보들 중 상기 제1 크기 비율에 매칭되는 제1 폰트 크기 정보를 추출하는 정보 추출부; 및
    상기 제1 문서 용지 크기를 갖는 전자 문서 상에 상기 제1 폰트 크기 정보를 갖는 상기 복수의 문자들을 삽입하여 상기 종이 문서를 전자 문서로 변환하는 변환부
    를 포함하고,
    상기 문서 영역 확인부는
    상기 스캔 이미지의 해상도를 확인하는 해상도 확인부;
    상기 스캔 이미지 상에서 상기 종이 문서가 차지하는 상기 문서 영역 이미지의 가로 화소(pixel)수와 세로 화소수를 연산하는 화소수 연산부; 및
    상기 문서 영역 이미지의 가로 화소수와 상기 해상도를 기초로 상기 문서 영역 이미지의 가로 크기를 연산하고, 상기 문서 영역 이미지의 세로 화소수의 상기 해상도를 기초로 상기 문서 영역 이미지의 세로 크기를 연산하는 크기 연산부
    를 포함하는 종이 문서에 대한 전자 문서 변환 장치.
  2. 삭제
  3. 제1항에 있어서,
    상기 정보 확인부는
    상기 크기 데이터베이스로부터 상기 문서 영역 이미지의 크기와 선정된(predetermined) 제1 오차 범위 내에서 매칭되는 상기 제1 문서 용지 크기에 대한 정보를 확인하고,
    상기 정보 추출부는
    상기 크기 데이터베이스로부터 상기 복수의 폰트 크기 정보들 중 상기 제1 크기 비율과 선정된 제2 오차 범위 내에서 매칭되는 크기 비율에 대응되어 저장되어 있는 상기 제1 폰트 크기 정보를 추출하는 종이 문서에 대한 전자 문서 변환 장치.
  4. 제1항에 있어서,
    복수의 폰트들에 대한 정보가 저장되어 있는 폰트 데이터베이스;
    상기 종이 문서로부터 추출된 상기 복수의 문자들에 대해 상기 제1 폰트 크기 정보에 따라 크기를 조정하고, 상기 폰트 데이터베이스를 참조하여 상기 복수의 문자들 각각에 대해, 상기 복수의 폰트들을 모두 적용한 후 상기 복수의 폰트들 각각이 적용된 문자 이미지를 생성하는 문자 이미지 생성부; 및
    상기 복수의 문자들 각각에 대해, 상기 문서 영역 이미지 상에 존재하는 문자 이미지와 상기 복수의 폰트들 각각이 적용된 문자 이미지의 패턴을 비교하여 최대로 매칭되는 패턴을 갖는 폰트를 확인하는 폰트 확인부;
    를 더 포함하고,
    상기 변환부는
    상기 제1 문서 용지 크기를 갖는 전자 문서 상에 상기 제1 폰트 크기 정보를 갖는 상기 복수의 문자들을 삽입하고, 상기 삽입된 복수의 문자들 각각에 대해 상기 확인된 폰트를 적용하여 상기 종이 문서를 전자 문서로 변환하는 종이 문서에 대한 전자 문서 변환 장치.
  5. 제1항에 있어서,
    상기 복수의 문자들 각각에 대해, 상기 문서 영역 이미지 상에 존재하는 문자 이미지를 구성하는 화소들의 색상을 확인하고, 상기 문자 이미지를 구성하는 화소들의 색상 중 최대의 출현빈도를 갖는 색상을 문자 색상으로 결정하는 색상 결정부
    를 더 포함하고,
    상기 변환부는
    상기 제1 문서 용지 크기를 갖는 전자 문서 상에 상기 제1 폰트 크기 정보를 갖는 상기 복수의 문자들을 삽입하고, 상기 삽입된 복수의 문자들 각각에 대해 상기 결정된 문자 색상을 적용하여 상기 종이 문서를 전자 문서로 변환하는 종이 문서에 대한 전자 문서 변환 장치.
  6. 복수의 문서 용지 크기에 대한 정보들 각각에 대해, 복수의 폰트 크기 정보들과, 상기 복수의 폰트 크기 정보들 각각에 대응되는 문서 용지 크기와 문자의 크기 값 간의 크기 비율이 저장되어 있는 크기 데이터베이스를 유지하는 단계;
    인쇄된 종이 문서를 스캔하여 상기 종이 문서로부터 상기 종이 문서에 인쇄되어 있던 복수의 문자들을 추출하고, 상기 종이 문서에 대한 스캔 이미지를 획득하는 단계;
    상기 스캔 이미지 상에서 상기 종이 문서가 차지하는 문서 영역 이미지의 크기를 확인하는 단계;
    상기 크기 데이터베이스로부터 상기 문서 영역 이미지의 크기와 매칭되는 제1 문서 용지 크기에 대한 정보를 확인하는 단계;
    상기 문서 영역 이미지로부터 상기 종이 문서에 인쇄되어 있던 복수의 문자들의 크기 값을 확인하고, 상기 문서 영역 이미지의 크기와 상기 복수의 문자들의 크기 값 간의 제1 크기 비율을 연산하여 상기 크기 데이터베이스로부터 상기 제1 문서 용지 크기에 대한 정보에 대해 저장되어 있는 상기 복수의 폰트 크기 정보들 중 상기 제1 크기 비율에 매칭되는 제1 폰트 크기 정보를 추출하는 단계; 및
    상기 제1 문서 용지 크기를 갖는 전자 문서 상에 상기 제1 폰트 크기 정보를 갖는 상기 복수의 문자들을 삽입하여 상기 종이 문서를 전자 문서로 변환하는 단계
    를 포함하고,
    상기 문서 영역 이미지의 크기를 확인하는 단계는
    상기 스캔 이미지의 해상도를 확인하는 단계;
    상기 스캔 이미지 상에서 상기 종이 문서가 차지하는 상기 문서 영역 이미지의 가로 화소(pixel)수와 세로 화소수를 연산하는 단계; 및
    상기 문서 영역 이미지의 가로 화소수와 상기 해상도를 기초로 상기 문서 영역 이미지의 가로 크기를 연산하고, 상기 문서 영역 이미지의 세로 화소수의 상기 해상도를 기초로 상기 문서 영역 이미지의 세로 크기를 연산하는 단계
    를 포함하는 종이 문서에 대한 전자 문서 변환 방법.
  7. 삭제
  8. 제6항에 있어서,
    상기 제1 문서 용지 크기에 대한 정보를 확인하는 단계는
    상기 크기 데이터베이스로부터 상기 문서 영역 이미지의 크기와 선정된(predetermined) 제1 오차 범위 내에서 매칭되는 상기 제1 문서 용지 크기에 대한 정보를 확인하고,
    상기 제1 폰트 크기 정보를 추출하는 단계는
    상기 크기 데이터베이스로부터 상기 복수의 폰트 크기 정보들 중 상기 제1 크기 비율과 선정된 제2 오차 범위 내에서 매칭되는 크기 비율에 대응되어 저장되어 있는 상기 제1 폰트 크기 정보를 추출하는 종이 문서에 대한 전자 문서 변환 방법.
  9. 제6항에 있어서,
    복수의 폰트들에 대한 정보가 저장되어 있는 폰트 데이터베이스를 유지하는 단계;
    상기 종이 문서로부터 추출된 상기 복수의 문자들에 대해 상기 제1 폰트 크기 정보에 따라 크기를 조정하고, 상기 폰트 데이터베이스를 참조하여 상기 복수의 문자들 각각에 대해, 상기 복수의 폰트들을 모두 적용한 후 상기 복수의 폰트들 각각이 적용된 문자 이미지를 생성하는 단계; 및
    상기 복수의 문자들 각각에 대해, 상기 문서 영역 이미지 상에 존재하는 문자 이미지와 상기 복수의 폰트들 각각이 적용된 문자 이미지의 패턴을 비교하여 최대로 매칭되는 패턴을 갖는 폰트를 확인하는 단계
    를 더 포함하고,
    상기 종이 문서를 전자 문서로 변환하는 단계는
    상기 제1 문서 용지 크기를 갖는 전자 문서 상에 상기 제1 폰트 크기 정보를 갖는 상기 복수의 문자들을 삽입하고, 상기 삽입된 복수의 문자들 각각에 대해 상기 확인된 폰트를 적용하여 상기 종이 문서를 전자 문서로 변환하는 종이 문서에 대한 전자 문서 변환 방법.
  10. 제6항에 있어서,
    상기 복수의 문자들 각각에 대해, 상기 문서 영역 이미지 상에 존재하는 문자 이미지를 구성하는 화소들의 색상을 확인하고, 상기 문자 이미지를 구성하는 화소들의 색상 중 최대의 출현빈도를 갖는 색상을 문자 색상으로 결정하는 단계
    를 더 포함하고,
    상기 종이 문서를 전자 문서로 변환하는 단계는
    상기 제1 문서 용지 크기를 갖는 전자 문서 상에 상기 제1 폰트 크기 정보를 갖는 상기 복수의 문자들을 삽입하고, 상기 삽입된 복수의 문자들 각각에 대해 상기 결정된 문자 색상을 적용하여 상기 종이 문서를 전자 문서로 변환하는 종이 문서에 대한 전자 문서 변환 방법.
  11. 제6항, 제8항 내지 제10항 중 어느 한 항의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
KR1020140036878A 2014-03-28 2014-03-28 종이 문서에 대한 전자 문서 변환 장치 및 방법 KR101445171B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140036878A KR101445171B1 (ko) 2014-03-28 2014-03-28 종이 문서에 대한 전자 문서 변환 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140036878A KR101445171B1 (ko) 2014-03-28 2014-03-28 종이 문서에 대한 전자 문서 변환 장치 및 방법

Publications (1)

Publication Number Publication Date
KR101445171B1 true KR101445171B1 (ko) 2014-10-02

Family

ID=51996019

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140036878A KR101445171B1 (ko) 2014-03-28 2014-03-28 종이 문서에 대한 전자 문서 변환 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101445171B1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101547641B1 (ko) 2014-01-07 2015-08-26 주식회사 디알엠인사이드 스캔 만화 식별 시스템 및 방법
CN112149401A (zh) * 2020-08-10 2020-12-29 江苏群杰物联科技有限公司 一种基于ocr的文档对比识别方法和系统
KR102215598B1 (ko) 2019-10-02 2021-02-15 주식회사 한글과컴퓨터 인쇄용지에 인쇄되어 있는 문자의 크기를 측정하는 전자 단말 장치 및 그 동작 방법
KR20210077251A (ko) * 2019-12-17 2021-06-25 주식회사 한글과컴퓨터 표가 삽입된 이미지로부터 지식 데이터베이스의 구축이 가능한 데이터베이스 구축 장치 및 그 동작 방법
KR102352726B1 (ko) * 2020-10-13 2022-01-18 주식회사 한글과컴퓨터 종이로 인쇄된 진료비 영수증을 전자 문서로 변환할 수 있는 전자 장치 및 그 동작 방법
KR102375566B1 (ko) * 2020-11-17 2022-03-17 주식회사 한글과컴퓨터 종이로 인쇄된 진료비 영수증을 전자 문서화 처리하는 전자 장치 및 그 동작 방법
CN114926840A (zh) * 2022-05-13 2022-08-19 贵州大学 一种影印pdf转可复制pdf方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090104071A (ko) * 2007-06-29 2009-10-05 캐논 가부시끼가이샤 화상 처리 장치, 화상 처리 방법 및 기억 매체
JP2010102403A (ja) * 2008-10-21 2010-05-06 Fuji Xerox Co Ltd 文書管理装置及び文書管理方法、並びにコンピュータ・プログラム
KR20110010169A (ko) * 2009-07-24 2011-02-01 공현식 네트워크를 이용한 폰트타입 판별 시스템 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090104071A (ko) * 2007-06-29 2009-10-05 캐논 가부시끼가이샤 화상 처리 장치, 화상 처리 방법 및 기억 매체
JP2010102403A (ja) * 2008-10-21 2010-05-06 Fuji Xerox Co Ltd 文書管理装置及び文書管理方法、並びにコンピュータ・プログラム
KR20110010169A (ko) * 2009-07-24 2011-02-01 공현식 네트워크를 이용한 폰트타입 판별 시스템 및 방법

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101547641B1 (ko) 2014-01-07 2015-08-26 주식회사 디알엠인사이드 스캔 만화 식별 시스템 및 방법
KR102215598B1 (ko) 2019-10-02 2021-02-15 주식회사 한글과컴퓨터 인쇄용지에 인쇄되어 있는 문자의 크기를 측정하는 전자 단말 장치 및 그 동작 방법
KR20210077251A (ko) * 2019-12-17 2021-06-25 주식회사 한글과컴퓨터 표가 삽입된 이미지로부터 지식 데이터베이스의 구축이 가능한 데이터베이스 구축 장치 및 그 동작 방법
KR102328034B1 (ko) 2019-12-17 2021-11-17 주식회사 한글과컴퓨터 표가 삽입된 이미지로부터 지식 데이터베이스의 구축이 가능한 데이터베이스 구축 장치 및 그 동작 방법
CN112149401A (zh) * 2020-08-10 2020-12-29 江苏群杰物联科技有限公司 一种基于ocr的文档对比识别方法和系统
CN112149401B (zh) * 2020-08-10 2024-03-15 江苏群杰物联科技有限公司 一种基于ocr的文档对比识别方法和系统
KR102352726B1 (ko) * 2020-10-13 2022-01-18 주식회사 한글과컴퓨터 종이로 인쇄된 진료비 영수증을 전자 문서로 변환할 수 있는 전자 장치 및 그 동작 방법
KR102375566B1 (ko) * 2020-11-17 2022-03-17 주식회사 한글과컴퓨터 종이로 인쇄된 진료비 영수증을 전자 문서화 처리하는 전자 장치 및 그 동작 방법
CN114926840A (zh) * 2022-05-13 2022-08-19 贵州大学 一种影印pdf转可复制pdf方法及系统

Similar Documents

Publication Publication Date Title
KR101445171B1 (ko) 종이 문서에 대한 전자 문서 변환 장치 및 방법
US10606933B2 (en) Method and system for document image layout deconstruction and redisplay
US8320019B2 (en) Image processing apparatus, image processing method, and computer program thereof
US8718364B2 (en) Apparatus and method for digitizing documents with extracted region data
US20200250469A1 (en) Methods for optical character recognition (ocr)
JP5934762B2 (ja) 文字の形状特徴を使用した文字比較による文書改変検知方法、コンピュータプログラム、記録媒体および情報処理装置
US8027539B2 (en) Method and apparatus for determining an orientation of a document including Korean characters
US20160227066A1 (en) Information processing device, method, and medium
US8861862B2 (en) Character recognition apparatus, character recognition method and program
JP2003132358A (ja) 画像処理方法、装置およびシステム
CN107045632A (zh) 用于从成像文件提取文本的方法和设备
EP2270746A2 (en) Method for detecting alterations in printed document using image comparison analyses
JP2010510563A (ja) ハード・コピーの書式からの書式定義の自動発生
US20140334731A1 (en) Methods and systems for evaluating handwritten documents
US11443504B2 (en) Image box filtering for optical character recognition
US8310692B2 (en) Image processing apparatus, image processing method, computer-readable medium and computer data signal
CN113836971B (zh) 一种图像型扫描件识别后的视觉信息重现方法、系统及存储介质
US8570619B2 (en) Control devices for scanning documents, systems including such control devices, and non-transitory, computer-readable media storing instructions for such control devices
JP2021044803A (ja) 画像処理装置、画像処理方法、及びプログラム
US10706337B2 (en) Character recognition device, character recognition method, and recording medium
KR102024127B1 (ko) 문자인식 시스템, 문자인식 프로그램 및 문자인식방법
US8488886B2 (en) Font matching
JP2011159179A (ja) 画像処理装置及びその処理方法
JP2013090262A (ja) 文書文字差異検出装置
US8125691B2 (en) Information processing apparatus and method, computer program and computer-readable recording medium for embedding watermark information

Legal Events

Date Code Title Description
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170904

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180903

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190902

Year of fee payment: 6