KR20200020305A - 문자 인식을 위한 방법 및 장치 - Google Patents
문자 인식을 위한 방법 및 장치 Download PDFInfo
- Publication number
- KR20200020305A KR20200020305A KR1020180095858A KR20180095858A KR20200020305A KR 20200020305 A KR20200020305 A KR 20200020305A KR 1020180095858 A KR1020180095858 A KR 1020180095858A KR 20180095858 A KR20180095858 A KR 20180095858A KR 20200020305 A KR20200020305 A KR 20200020305A
- Authority
- KR
- South Korea
- Prior art keywords
- font
- character recognition
- character
- image
- information
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000010606 normalization Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000004904 shortening Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 229920001621 AMOLED Polymers 0.000 description 2
- 241000402754 Erythranthe moschata Species 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 229920001690 polydopamine Polymers 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 206010016322 Feeling abnormal Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G06K9/00402—
-
- G06K9/344—
-
- G06K9/6267—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
-
- G06K2209/01—
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
본 발명은 문자 인식의 수행 전에 혹은 문자 인식의 수행 중에 인식할 문자에 적용될 글꼴을 확인하고, 글꼴별로 나타나는 특징 정보를 고려하여 문자 인식을 수행함으로써, 문자 인식의 결과에 대한 신뢰도를 높이고 문자 인식을 위한 처리 시간을 더 단축시킬 수 있는 방법 및 장치를 제공한다. 본 발명에 따른 장치는, 복수의 글꼴을 분류할 수 있는 특징 정보를 글꼴별로 정의한 글꼴 정보 DB를 저장하는 저장부; 및 특정 이미지에 대한 문자 인식이 요청되면, 상기 이미지에 포함된 문자의 글꼴을 확인하고, 상기 글꼴 정보 DB로부터 상기 확인된 글꼴의 특징 정보를 추출한 후, 상기 추출한 글꼴의 특징 정보를 이용하여 상기 이미지에 포함된 문자에 대한 인식 처리를 수행하는 제어부를 포함한다.
Description
본 발명은 이미지에 포함된 문자를 추출하여 자동으로 인식하는 문자 인식 기술에 관한 것으로서, 더욱 상세하게는 글꼴 별로 다르게 설정되는 자간, 장평, 행간 등의 글꼴 특징 정보를 고려하여 문자를 보다 쉽고 정확하게 인식할 수 있는 문자 인식을 위한 방법 및 장치에 관한 것이다.
문자인식(Character Recognition)이란 시각 정보를 통하여 문자를 인식하고 의미를 이해하는 인간의 능력을 컴퓨터로 실현하려는 패턴인식(Pattern Recognition)의 한 분야로서, 광학 문자 인식(Optical Character Recognition), 우편물 자동 분류, 문서인식, 도면인식 등의 분야에서 부분적으로 실용화되어 있다.
더불어, 최근에는 신경망(Neural Network), 퍼지(Fuzzy), 유전알고리즘(Genetic Algorithm) 등의 인공지능(AI, Artificial Intelligence) 기술과 자연어처리(Natural Language Processing), 심리학, 생리학, 인지과학(Cognitive Science) 등 관련 학문과의 접목을 통해서 단순한 문자 인식을 넘어서 인간의 감정과 사고를 이해할 수 있는 단계에 접어들게 되었다.
이러한 문자인식기술을 손으로 직접 쓴 팩스나 전자칠판에서의 필기와 같이 사람이 자유롭게 쓴 문서의 문자정보의 입력과, CD재킷이나 포스터 같이 문자 외의 일러스트나 사진 등을 포함한 멀티미디어 정보의 데이터베이스 구축을 지원할 수 있으며, 또한 카메라로 촬영한 주위 광고 및 간판 등의 실생활의 문자 정보를 촬영하여 DB에 저장하면 인터넷이나 모바일 통신 기기에서 DB에 저장된 멀티미디어 정보를 검색하여 활용하는 AR(Augmented Reality: 증강현실)분야에 이용되거나, PDA, 휴대폰 등의 모바일 정보단말의 사용자 인터페이스로서도 이용될 수 있다.
즉, 문자 인식 기술은 향후 단말 사이즈의 제한을 받지 않으면서 가상의 공간을 활용하는 가상현실 등의 새로운 UI에 응용될 수 있다.
본 발명은 문자 인식 성능을 더 향상시키기 위하여 제안된 것으로서, 특히, 문자 인식의 수행 전에 혹은 문자 인식의 수행 중에 인식할 문자에 적용될 글꼴을 확인하고, 글꼴별로 나타나는 특징 정보를 고려하여 문자 인식을 수행함으로써, 문자 인식의 결과에 대한 신뢰도를 높이고 문자 인식을 위한 처리 시간을 더 단축시킬 수 있는 방법 및 장치를 제공하고자 한다.
본 발명은 상술한 과제의 해결 수단으로서, 문자 인식을 위한 장치를 제공한다. 본 발명에 따른 문자 인식을 위한 장치는, 복수의 글꼴을 분류할 수 있는 특징 정보를 글꼴별로 정의한 글꼴 정보 DB를 저장하는 저장부; 및 특정 이미지에 대한 문자 인식이 요청되면, 상기 이미지에 포함된 문자의 글꼴을 확인하고, 상기 글꼴 정보 DB로부터 상기 확인된 글꼴의 특징 정보를 추출한 후, 상기 추출한 글꼴의 특징 정보를 이용하여 상기 이미지에 포함된 문자에 대한 인식 처리를 수행하는 제어부를 포함한다.
상기 제어부는, 상기 이미지 중 문자 영역과 배경 영역을 구분하여 하나 이상의 문자 영역을 추출하고, 추출한 문자 영역에 포함된 문자의 글꼴을 확인한 후, 확인된 글꼴의 특징 정보에 따라서 문자 영역을 문자 인식 단위로 분할한 후, 각 문자 인식 단위 별로 매칭을 수행하거나, 상기 이미지 중 문자 영역과 배경 영역을 구분하여 하나 이상의 문자 영역을 추출하고, 문자 영역을 일정 크기의 문자 인식 단위로 분할하여, 문자 인식 단위 별로 문자 인식을 수행하되, 인식한 문자의 글꼴을 확인하고, 상기 확인된 글꼴이 이전에 확인된 글꼴과 비교하여 다른 경우, 변경된 글꼴의 특징 정보를 이용하여 인식되지 않은 나머지 영역의 문자 인식 단위를 재설정하고, 재설정된 문자 인식 단위 별로 문자 인식을 수행할 수 있다.
이때, 상기 제어부는 이전에 확인된 글꼴이 없는 경우, 글꼴이 변경된 것으로 판단한다.
더하여, 상기 문자 인식을 위한 장치는, 상기 특정 이미지를 촬영하여 상기 제어부로 전송하는 카메라부를 더 포함할 수 있다.
아울러, 상기 글꼴의 특징 정보는, 글자의 굵기, 크기, 장평, 자간, 행간, 글자 별 폭의 가변 여부, 표현 형태 중 하나 이상을 포함한다.
더하여, 본 발명은 상술한 과제의 다른 해결 수단으로서, 문자 인식을 위한 방법을 제공한다.
본 발명의 일 실시 예에 따른 문자 인식을 위한 방법은, 복수의 글꼴을 분류할 수 있는 특징 정보를 글꼴별로 정의한 글꼴 정보 DB를 저장하는 단계; 특정 이미지에 대한 문자 인식이 요청되면, 상기 이미지 중 문자 영역과 배경 영역을 구분하여 하나 이상의 문자 영역을 추출하는 단계; 상기 추출한 문자 영역에 포함된 문자의 글꼴을 확인하는 단계; 상기 확인된 글꼴의 특징 정보를 상기 글꼴 정보 DB로부터 추출하고, 상기 추출한 특징 정보에 따라서 상기 문자 영역을 문자 인식 단위로 분할하는 단계; 각 문자 인식 단위 별로 문자 인식을 수행하는 단계를 포함할 수 있다.
본 발명의 다른 실시 예에서, 상기 문자 인식을 위한 방법은, 복수의 글꼴을 분류할 수 있는 특징 정보를 글꼴 별로 정의한 글꼴 정보 DB를 저장하는 단계; 특정 이미지에 대한 문자 인식이 요청되면, 상기 이미지 중 문자 영역과 배경 영역을 구분하여 하나 이상의 문자 영역을 추출하는 단계; 상기 문자 영역에 대한 전처리 및 정규화를 통해 상기 문자 영역을 문자 인식 단위로 분할하는 단계; 문자 인식 단위 별로 문자 인식을 수행하는 단계; 상기 인식한 문자의 글꼴을 확인하는 단계; 상기 확인된 글꼴이 이전에 확인된 글꼴과 비교하여 글꼴이 변경되는 지를 판단하는 단계; 글꼴이 변경된 경우, 변경된 글꼴의 특징 정보를 이용하여 상기 문자 인식 단위를 재설정한 후, 상기 문자 인식을 수행하도록 하는 단계;를 포함한다.
더하여, 상기 글꼴이 변경 되는 지를 판단하는 단계는, 이전에 확인된 글꼴이 없는 경우, 글꼴이 변경된 것으로 판단할 수 있다.
상술한 문자 인식을 위한 방법은 프로그램으로 구현되어, 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다.
상술한 구성에 따르면, 본 발명은 이미지 내에 포함된 문자를 인식하는데 있어서, 상기 문자의 글꼴을 확인하고, 확인된 글꼴의 특성 정보, 더 구체적으로는 높이, 굵기, 장평, 자간, 행간, 크기, 고정폭/가변폭, 표현 형태 등을 이용하여, 문자인식단위를 결정하고, 결정된 문자 인식 단위 별로 문자 인식을 수행함으로써, 문자 인식의 처리 속도 및 정확도를 향상시킬 수 있다.
도 1은 본 발명에 따른 문자 인식을 위한 장치의 구성을 나타낸 블럭도이다.
도 2는 본 발명의 제1 실시 예에 따른 문자 인식 방법을 나타낸 순서도이다.
도 3은 본 발명의 제2 실시 예에 따른 문자 인식 방법을 나타낸 순서도이다.
도 4는 대표적인 글꼴을 예시한 도면이다.
도 5 내지 도 7은 글꼴 간의 특징을 설명하기 위한 도면이다.
도 8은 본 발명에 따른 문자 인식 처리 과정 중, 입력 이미지로부터 문자 영역을 추출한 상태를 나타낸 예시도이다.
도 9는 본 발명에 따른 문자 인식 방법에 의해 처리되는 입력 이미지 중 다중 글꼴이 적용된 이미지의 처리 예를 설명하기 위한 도면이다.
도 2는 본 발명의 제1 실시 예에 따른 문자 인식 방법을 나타낸 순서도이다.
도 3은 본 발명의 제2 실시 예에 따른 문자 인식 방법을 나타낸 순서도이다.
도 4는 대표적인 글꼴을 예시한 도면이다.
도 5 내지 도 7은 글꼴 간의 특징을 설명하기 위한 도면이다.
도 8은 본 발명에 따른 문자 인식 처리 과정 중, 입력 이미지로부터 문자 영역을 추출한 상태를 나타낸 예시도이다.
도 9는 본 발명에 따른 문자 인식 방법에 의해 처리되는 입력 이미지 중 다중 글꼴이 적용된 이미지의 처리 예를 설명하기 위한 도면이다.
본 발명의 과제 해결 수단의 특징 및 이점을 보다 명확히 하기 위하여, 첨부된 도면에 도시된 본 발명의 특정 실시 예를 참조하여 본 발명을 더 상세하게 설명한다.
다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 또한, 도면 전체에 걸쳐 동일한 구성 요소들은 가능한 한 동일한 도면 부호로 나타내고 있음에 유의하여야 한다.
이하의 설명 및 도면에서 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위한 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원 시점에서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.
또한, 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하기 위해 사용하는 것으로, 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용될 뿐, 상기 구성요소들을 한정하기 위해 사용되지 않는다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제2 구성요소는 제1 구성요소로 명명될 수 있고, 유사하게 제1 구성요소도 제2 구성요소로 명명될 수 있다.
더하여, 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급할 경우, 이는 논리적 또는 물리적으로 연결되거나, 접속될 수 있음을 의미한다. 다시 말해, 구성요소가 다른 구성요소에 직접적으로 연결되거나 접속되어 있을 수 있지만, 중간에 다른 구성요소가 존재할 수도 있으며, 간접적으로 연결되거나 접속될 수도 있다고 이해되어야 할 것이다.
또한, 본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 명세서에서 기술되는 "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 명세서에 기재된 "~부", "~기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
또한, "일(a 또는 an)", "하나(one)", "그(the)" 및 유사어는 본 발명을 기술하는 문맥에 있어서(특히, 이하의 청구항의 문맥에서) 본 명세서에 달리 지시되거나 문맥에 의해 분명하게 반박되지 않는 한, 단수 및 복수 모두를 포함하는 의미로 사용될 수 있다.
아울러, 본 발명의 범위 내의 실시 예들은 컴퓨터 실행가능 명령어 또는 컴퓨터 판독가능 매체에 저장된 데이터 구조를 가지거나 전달하는 컴퓨터 판독가능 매체를 포함한다. 이러한 컴퓨터 판독가능 매체는, 범용 또는 특수 목적의 컴퓨터 시스템에 의해 액세스 가능한 임의의 이용 가능한 매체일 수 있다. 예로서, 이러한 컴퓨터 판독가능 매체는 RAM, ROM, EPROM, CD-ROM 또는 기타 광 디스크 저장장치, 자기 디스크 저장장치 또는 기타 자기 저장장치, 또는 컴퓨터 실행가능 명령어, 컴퓨터 판독가능 명령어 또는 데이터 구조의 형태로 된 소정의 프로그램 코드 수단을 저장하거나 전달하는 데에 이용될 수 있고, 범용 또는 특수 목적 컴퓨터 시스템에 의해 액세스 될 수 있는 임의의 기타 매체와 같은 물리적 저장 매체를 포함할 수 있지만, 이에 한정되지 않는다.
아울러, 본 발명은 퍼스널 컴퓨터, 랩탑 컴퓨터, 핸드헬드 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 또는 프로그램 가능한 가전제품(programmable consumer electronics), 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 모바일 전화, PDA, 페이저(pager) 등을 포함하는 다양한 유형의 컴퓨터 시스템 구성을 가지는 컴퓨팅 환경에 적용될 수 있다. 본 발명은 또한 네트워크를 통해 유선 데이터 링크, 무선 데이터 링크, 또는 유선 및 무선 데이터 링크의 조합으로 링크된 로컬 및 원격 컴퓨터 시스템 모두가 태스크를 수행하는 분산형 시스템 환경에서 실행될 수 있다. 분산형 시스템 환경에서, 프로그램 모듈은 로컬 및 원격 메모리 저장 장치에 위치될 수 있다.
본 발명은 입력 이미지에 포함된 문자를 인식하는 기술에 관련된 것으로서, 특히, 문자 인식에 있어서 인식할 문자에 적용된 글꼴의 특징 정보를 고려하는 것을 특징으로 하는 것입니다.
글꼴은 서로 어울리도록 일관성을 갖춘 글자의 모둠을 일컫는 말로서, 서체, 글씨체, 폰트(Font), 타입페이스(Typeface)라고도 불리운다.
활판인쇄 시대에는 일관성을 갖춘 한 글자꼴의 집합을 타입페이스, 한 타입페이스의 활자 모듬 중 같은 크기 활자 모둠 한 벌을 폰트(font), 그리고 인쇄를 위해 갖추어진 여러 크기와 스타일의 폰트들을 통틀어 폰트패밀리(font family)라고 구분하였으나, 사진 식자 방식의 등장 이후 하나의 글꼴을 이용하여 여러 크기의 글자를 인쇄할 수 있게 되면서 이러한 구분 없이 사용되고 있다.
종이 문서뿐만 아니라 디스플레이 장치의 화면을 통해 표시되는 전자 문서에서도 어떤 글꼴을 사용하느냐에 따라서 문서의 심미성, 가독성, 분위기 등이 달라질 수 있으며, 종이 문서 및 문서 편집기를 통해서 생성되는 전자 문서를 제외하고도, 영화나 동영상의 자막, 멀티미디어 콘텐츠의 텍스트, 블로그 등과 같은 웹 문서, 웹 어플리케이션의 메뉴 등과 같이 글자가 사용되지 않는 곳은 거의 없기 때문에 제작자뿐만 아니라 개인 사용자들의 글꼴에 대한 관심이 높아지고 있으며, 그에 따라서 다양한 글꼴이 제공되고 있으며, 더하여, 개인 사용자들에 의해서도 수많은 글꼴이 생성되어 사용되고 있다.
예를 들어, 도 4의 (a) 내지 (e)는 다양한 글꼴 중 보편적으로 가장 많이 사용되는 5가지 글꼴을 예시한다. 도 4의 (a)에 도시된 굴림체는, 둥근 고딕 스타일의 글씨체로서, 굴림체의 특징은 글자틀 안에 가능한 가득하게 글자를 채우고 글자의 속공간을 넓힌 것이며, 가로획과 세로획이 모두 같은 굵기로 되어 있으며, 가로획은 수평이고 세로획은 수직을 이루었으며 획의 양끝과 꺾이는 곳은 모두 둥글게 굴려 전체 모양이 부드러운 느낌을 갖는다.
도 4의 (b)에 도시된 궁서체는, 조선 시대 중기 이후에 궁녀들이 한글을 보다 빠르고 유연하게 쓰기 위해 사용한 한글 서체로서, 기존의 붓글씨와 유사한 형태로서 획의 끌부분은 흘리고, 획의 시작 부분에는 장식용 삐침이 존재한다.
도 4의 (c)에 도시된 돋움체는, 원래 독일의 글자체로서 돋보임의 효과가 큰 성격을 지녀, 광고 제목, 책 표제, 본문 제목 등의 용도로 주로 사용하였으며, 1930년대에 이르러 광범위하게 사용되기 시작하였다. 1991년 문화체육부에서는 '한글 고딕체'를 우리말로 표현한 '돋움체'로 지정하였다. 돋움체는 대개 가로획과 세로획의 굵기가 거의 같으면 수직, 수평으로 이루어진다.
도 4의 (d)에 도시된 맑은 고딕은, 오픈타입 글꼴로서 클리어타입을 본격적으로 지원하기 위한 힌팅 정보가 들어있는 한글 글꼴로, 산돌커뮤니케이션이 만들고 마이크로소프트가 배포했다. 맑은 고딕은 클리어타입 방식을 적용한 한글을 표현하는 게 주 목적이어서 한글이 아닌 문자 표현은 다른 언어의 윈도우에 비해 덜 미려해 보인다. 아울러, 맑은 고딕은, 문자에 따라 글자의 높이(height)가 다르다. 예를 들어 마이크로소프트 원노트의 글상자에 맑은 고딕으로 입력하면, 로마자만으로 이루어진 줄은 한글이 섞여 있는 줄에 비해 줄의 높이가 작기 때문에 줄 간격이 일정하지 않게 된다.
도 4의 (e)에 도시된 바탕체는 활자꼴의 한 가지로 붓의 필력이 다듬어 진 한글꼴의 대표적인 활자체이다. 본래 '명조체'라 부르던 것을 문화부에서 순화된 용어인 '바탕체'로 권장하고 있다. 특히, 바탕체는, 중국 명나라 때의 서풍(書風)을 따른 활자체로서, 균형이 잡혀 있으며 가독성이 높아 많이 사용되고 있다. 바탕체의 경우, 글자의 가로획은 수평으로 가늘게 나타내되 끝 부분을 삼각형으로 나타내고, 세로획은 일정한 굵기로 아주 굵게 나타냈으며, 좌향 사향선은 점점 가늘게 우향 사향선은 점점 굵어지게 나타냈다.
이와 같이, 글꼴별로 글자의 표현 형태가 다를 뿐만 아니라, 글자의 굵기, 글자의 가로 세로 비율인 장평, 글자 간의 가로 간격을 나타내는 자간, 글자의 세로 간격 즉, 줄 사이의 간격인 행간이 달라질 수 있으며, 또한, 동일 글꼴 내에서 글자 별 폭이 가변하거나 고정되어 있을 수 있다.
이하의 설명에서, 상술한 바와 같이 해당 글꼴에서 글자 간의 일관성 및 디자인적 요소를 정의하여 다른 글꼴과 구분할 수 있도록 하는 정보를 글꼴의 특징 정보라 부른다.
도 5 내지 도 7은 글꼴별로 구분되는 특징 정보를 비교하여 나타낸 것이다.
도 5는 세리프(바탕체)와 산세리프(고딕체) 타입의 글꼴을 비교한 것으로서, (a)에 도시된 바와 같이 세리프 타입은, 글자 획은 끌에 장식용 삐침(Serif)가 달려 있는 것을 의미하며, 세리프 타입의 경우 한 글자 안에서 획의 굵기가 변화하기 때문에 생동감이 있고 비교적 작은 글씨로 쓰여 있거나 길이가 긴 문서도 읽기 편하다. 세리프 타입은, 장식용 삐침의 크기와 방향, 획 굵기의 대비, 글꼴의 기울기 등에 따라서 세부 종류로 분류될 수 있다.
반면에, 산세리프 타입의 글꼴은 도 5의 (b)에 도시된 바와 같이, 장식용 삐침이 없는 글꼴로서, 글자 획의 굵기가 변하지 않고 가로획과 세로획이 거의 일정하다. 이러한 산세리프 타입에서는, 획의 굵기가 일정하면서도 시인성을 확보하기 위해서는, 굵기가 일정 이상이어야 한다. 따라서, 같은 크기의 글꼴에서 보통 세리프 타입에 비하여 산세리프 타입의 획이 굵다.
도 6은 고정폭 타입의 글꼴과 가변폭 타입의 글꼴을 비교한 것으로서, (a)는 가변폭 글꼴을 예시한 것인데, 가변폭 글꼴은 글자의 자연스러운 폭에 따라서 글자 각각이 표시될 때 차지하는 폭인 달라지는 것으로서, f나 i 등의 좁은 글자와 W나 M 등의 넓은 글자의 폭이 서로 다르게 표시된다. 반면에, (b)는 고정폭 글꼴을 예시한 것으로서, 글자가 차지하는 폭인 항상 일정한 글꼴이다. 컴퓨터 프로그래밍의 경우 띄어쓰기 등이 명확해야 하기 때문에 고정폭 글꼴을 더 선호하는 추세이며, 한자나 일본어의 경우 각 글자가 차지하는 면적이 일정하므로, 모든 글꼴이 고정폭 글꼴이라 할 수 있으며, 한글의 경우, 가동성 향상을 위해서 가변폭 글꼴이 점점 더 많아지고 있다.
참고로, 폰트명으로 가변폭과 고정폭을 구분할 수 있는데, 통상적으로 Mono 혹은 "~체"가 붙은 폰트명은 고정폭 폰트를 의미한다. 예를 들어, 바탕은 가변폭 글꼴이고, 바탕체는 고정폭 글꼴이다.
아울러, 한글의 경우, 표현하는 형태에 따라서 탈네모꼴과 네모꼴로 구분할 수 있다. 탈네모꼴은 도 7의 (a)와 같이 받침이 없는 글자에 받침이 들어갈 공간을 남겨놓는 형태를 말하는 것으로, 네모꼴은 도 7의 (b)에 도시된 바와 같이, 글자를 네모난 틀에 맞춘 것처럼 만든 형태를 말한다. 따라서, 탈네모꼴은 받침의 유무에 따라서 글씨 높이가 다르지만, 네모꼴은 받침의 유무에 관계없이 글자의 높이가 같다는 차이가 있다.
이외에도, 글꼴은 구현 방식에 따라서 비트맵 글꼴과 벡터 글꼴로 구분할 수 도 있고,
본 발명은 상술한 바와 같이 글꼴 별로 다르게 정의되는 특징 정보를 고려하여 문자 인식을 수행하는 장치 및 방법에 관한 것으로서, 이는 다음과 같이 구현될 수 있다.
먼저, 도 1을 참조하여 본 발명에 따른 문자 인식을 위한 장치에 대하여 설명한다.
도 1은 본 발명에 따른 문자 인식을 위한 장치에 있어서, 문자 인식을 위한 주요 구성을 나타낸 블럭도이다.
도 1을 참조하면, 본 발명에 따른 문자 인식을 위한 장치는, 카메라부(110), 입력부(120), 통신부(130), 출력부(140), 저장부(150) 및 제어부(160)를 포함한다.
상기 카메라부(110)는 촬영을 통해서 이미지를 획득하기 위한 것으로, 적어도 이미지 센서를 포함한다. 이미지 센서는 피사체에서 반사되는 빛을 입력받아 전기신호로 변환하며, CCD(Charged Coupled Device), CMOS(Complementary Metal-Oxide Semiconductor) 등을 기반으로 구현될 수 있다. 카메라부(110)은 아날로그-디지털 변환기(Analog to Digital Converter)를 더 포함할 수 있으며, 이를 통해 이미지 센서에서 출력되는 아날로그 신호를 디지털 신호로 변환하여 제어부(160)로 출력할 수 있다.
상기 카메라부(110)는 경우에 따라서 생략될 수 있으며, 이 경우, 저장부(150)에 저장된 이미지 혹은 통신부(130)를 통해서 입력된 이미지에 대한 문자 인식을 수행하게 된다.
상기 입력부(120)는 본 발명에 따른 문자 인식을 위한 장치(100)를 제어하기 위한 사용자의 명령 및/또는 정보를 입력받아, 입력 신호를 생성하여 제어부(260)로 전달한다. 입력부(120)는 전원 온/오프를 위한 전원 키, 영어/한글 등의 문자 키, 숫자 키, 방향키 중 어느 하나를 포함할 수 있으며, 장치(200)의 일면에 소정의 기능키로 형성될 수 있다. 출력부(140)가 터치스크린으로 이루어진 경우, 입력부(120)의 각 종 키들 중 적어도 일부는 표시부(240) 상에 표시될 수 있으며, 터치스크린만으로 모든 기능을 수행할 수 있는 경우, 입력부(230)는 생략될 수도 있다.
본 발명에서, 상기 입력부(120)는 사용자 조작에 따라서 문자 인식을 수행할 대상, 즉, 이미지 획득을 위한 입력신호를 생성할 수 있다. 구체적으로, 이미지 획득은, 카메라부(110)에 촬영 명령을 지시하여, 카메라부(110)에서 촬영된 이미지를 획득하거나, 저장부(150)에 저장된 하나 이상의 이미지 중에서 하나를 문자 인식 대상으로 선택하거나, 통신부(130)를 통해서 외부 장치로부터 문자 인식을 수행할 이미지를 수신하거나 입력받는 형태로 이루어질 수 있다.
다음으로, 상기 통신부(130)는 본 발명에 따른 문자 인식을 위한 장치(100)가 외부 장치(도시생략)와 데이터 통신을 수행하기 위한 구성으로서, 이를 위하여, 상기 통신부(130)는 상기 외부 장치와 유무선 입출력 인터페이스를 통해 직접 연결되거나, 유무선 네트워크에 접속한 후 상기 유무선 네트워크를 통해서 외부 장치와 연결될 수 있다. 상기 통신부(130)는, 기 공지된 입출력 인터페이스 표준에 따른 입출력 인터페이스 카드를 포함하거나, 유무선 통신 표준에 기반한 통신 모듈을 포함할 수 있다. 예를 들어, 상기 통신부(130)는 WCDMA, LTE, LTE-A 등의 표준에 따라 기지국을 통해 네트워크에 접속하는 광대역이동통신 방식, Wi-Fi(wireless fidelity)를 이용하는 WLAN(Wireless Local Area Network) 방식에 따라 접속포인트(AP: Access Point)를 통해 네트워크에 접속하여 통신을 수행하는 무선근거리통신 방식 등을 이용할 수 있다. 본 발명에서, 상기 외부 장치는, 본 발명에 따른 문자 인식을 위한 장치(100)의 구성 중 일부를 분산 처리하는 서버 장치가 될 수 있으며, 또는 본 발명에 따른 문자 인식 대상이 될 이미지를 전송하여 문자 인식을 요청하고 그 문자 인식의 결과를 수신하는 단말기 혹은 서버 장치가 될 수 있다.
상기 출력부(140)는 본 발명에 따른 문자 인식을 위한 장치(100)의 메뉴, 입력된 데이터, 기능 설정 정보 및 기타 다양한 정보를 사용자에게 시각적으로 제공한다. 구체적으로, 본 발명에서 상기 출력부(40)는 제어부(160)에 의해 카메라부(110)를 통해 촬영되는 이미지를 표시할 수 있다. 또한, 본 발명에 따른 문자 인식 과정 및/또는 문자 인식 결과를 표시할 수 있다. 더하여, 출력부(140)는 장치(100)의 실행화면, 구체적으로, 부팅 화면, 대기 화면, 메뉴 화면 등의 각종 UI(User Interface) 화면을 출력하는 기능을 수행한다.
이러한 출력부(140)는 액정표시장치(LCD, Liquid Crystal Display), 유기 발광 다이오드(OLED, Organic Light Emitting Diodes), 능동형 유기 발광 다이오드(AMOLED, Active Matrix Organic Light Emitting Diodes) 등으로 형성될 수 있다. 한편, 표시부(240)는 터치스크린으로 구현될 수 있다. 이러한 경우, 출력부(240)는 터치센서를 포함하며, 제어부(160)는 터치센서를 통해 사용자의 터치 입력을 감지할 수 있다. 터치센서는 정전용량 방식(capacitive overlay), 압력식, 저항막 방식(resistive overlay), 적외선 감지 방식(infrared beam) 등의 터치 감지 센서로 구성되거나, 압력 감지 센서(pressure sensor)로 구성될 수도 있다. 상기 센서들 이외에도 물체의 접촉 또는 압력을 감지할 수 있는 모든 종류의 센서 기기가 본 발명의 터치센서로 이용될 수 있다. 터치센서는 사용자의 터치 입력을 감지하고, 감지 신호를 발생시켜 제어부(160)로 전송한다. 이러한 감지 신호에는 사용자가 터치를 입력한 좌표 데이터가 포함될 수 있다. 사용자가 터치 위치 이동 동작을 입력한 경우에 터치센서는 터치 위치 이동 경로의 좌표 데이터를 포함한 감지 신호를 발생시켜 제어부(160)로 전송할 수 있다.
저장부(150)는, 본 발명에 따른 문자 인식을 위한 장치(100)의 동작에 필요한 프로그램 및 데이터를 저장하는 역할을 수행하며, 프로그램 영역과 데이터 영역으로 구분될 수 있다. 프로그램 영역은 사용자장치(200)의 전반적인 동작을 제어하는 프로그램 및 장치(200)를 부팅시키는 운영체제(OS, Operating System), 응용 프로그램 등을 저장할 수 있다. 본 발명에서 상기 저장부(150)는 응용프로그램으로서, 본 발명에 따른 문자 인식 처리를 수행시키도록 구현된 문자 인식 프로그램(151)을 저장할 수 있다. 더하여, 저장부(150)의 데이터 영역은 장치(100)의 사용에 따라 발생하는 데이터가 저장되는 영역으로서, 이를 통해서 장치(100)의 동작에 따라 발생되는 각 종 데이터 등을 저장할 수 있다. 특히, 본 발명에서 상기 저장부(150)는 문자 인식을 위해 필요한 글꼴 정보 DB(152)를 저장할 수 있다. 상기 글꼴 정보 DB(152)는, 복수의 글꼴에 대한 특징 정보를 저장한다. 참고로, 상기 글꼴의 특징 정보는, 글자의 크기, 글자의 굵기, 글자의 가로 세로 비율인 장평, 글자 간의 가로 간격을 나타내는 자간, 글자의 세로 간격 즉, 줄 사이의 간격인 행간, 글자 별 의 가변 여부(고정폭/가변폭 여부) 중 하나 이상을 포함할 수 있다. 이때, 상기 글꼴 정보 DB(152)는 다수의 글꼴을, 제조회사별로 분류할 수 있으며, 또한, 명조, 고딕, 구성 등과 같은 계열별로 구분할 수 있다. 특히, 상기 글꼴 정보 DB(152)는 다양한 글꼴을 상술한 바와 같이, 제조회사 및 계열 별로 구분하고, 각 분류별 공통의 특징 정보를 추출하여 저장할 수 있다.
제어부(160)는 본 발명에 따른 문자 인식을 위한 장치(100)의 전반적인 동작 및 상기 장치(100)의 내부 블록들 간 신호 흐름을 제어하고, 데이터를 처리하는 데이터 처리 기능을 수행할 수 있으며, 이를 통해서 본 발명에 따른 문자 인식 처리를 수행한다. 이러한 제어부(160)는 중앙 처리 장치(Central Processing Unit: CPU), 애플리케이션 프로세서(Application Processor), 그래픽 프로세서(GPU: graphic processing unit) 등과 같은 프로세서로 구현될 수 있다.
더하여, 상기 제어부(160)는 본 발명에 따른 문자 인식 처리를 수행하는 문자 인식 모듈(161)을 포함한다. 참고로, '모듈'은 소프트웨어 또는 하드웨어 또는 소프트웨어와 하드웨어의 조합으로 구현될 수 있는 것으로서, 예를 들어, 제어부(160)의 프로세서가 저장부(150)에 저장된 문자 인식 프로그램(151)을 로딩하여 실행시킴에 의해 구현될 수 있으며, 상기 문자 인식 모듈(161)에 의한 문자 인식 과정은 아래에서 더 상세하게 설명될 것이다.
본 발명에 따른 문자 인식을 위한 장치는, 이미지로부터 문자를 추출하고, 추출한 문자를 자동으로 인식하기 위한 장치로서, 연산 처리 기능을 갖는 모든 정보통신기기로 구현될 수 있다. 상기 정보통신기기는, 멀티미디어 단말기, 유선 단말기, 고정형 단말기, 이동형 단말기 및 IP(Internet Protocol) 단말기를 포함할 수 있다. 특히, 상기 단말기는 예를 들어, 휴대폰, PMP(Portable Multi-media Player), MID(Mobile Internet Device), 스마트폰(Smart Phone), 태블릿 PC, 패블릿 PC 및 정보통신 기기 등과 같은 다양한 이동통신 사양을 갖는 모바일(Mobile) 단말기일 수 있으며, 다른 예로서, 유무선 인터넷에 접속 가능한 노트북, 퍼스널컴퓨터 등이 될 수도 있다.
더불어, 도 1의 실시 예에서는 본 발명에 따른 문자 인식을 위한 장치를, 스탠드 얼론(Stand-alone) 타입의 장치로 도시하였다. 그러나 본 발명은 이에 한정되지 않고, 도 1에 도시된 구성 중 일부, 예를 들어, 문자 인식 모듈(161), 글꼴 정보 DB(152)을 네트워크로 연결된 서버 장치(도시생략)에 구축하고, 상기 서버 장치와의 연동을 통해서 문자 인식이 이루어지도록 할 수 있다.
다음으로, 도 2 내지 도 3을 참조하여 본 발명에 따른 문자 인식 처리 과정을 설명한다.
도 2는 본 발명의 제1 실시 예에 따른 문자 인식 방법을 나타낸 순서도이고, 도 3은 본 발명의 제2 실시 예에 따른 문자 인식 방법을 나타낸 순서도이다.
먼저, 본 발명의 제1 실시 예에 따르면, 본 발명에 따른 장치(100)는, 문자 인식 대상이 되는 이미지를 입력받는다(S105). 상기 이미지 입력은 카메라부(110)에 촬영 명령을 지시하여, 카메라부(110)에서 촬영된 이미지를 획득하거나, 저장부(150)에 저장된 하나 이상의 이미지 중에서 하나를 문자 인식 대상으로 선택하거나, 통신부(130)를 통해서 외부 장치로부터 문자 인식을 수행할 이미지를 수신하거나 입력받는 형태로 이루어질 수 있다.
이렇게 이미지가 입력되면, 본 발명에 따른 장치(100)는, 상기 입력된 이미지로부터 문자 영역을 추출한다(S110). 여기서 문자 영역의 추출은, 이미지 중에서 인식될 문자가 있는 영역과 그 외의 영역을 구분하기 위한 것으로서, 자연 영상과 문자 영상의 특성 차이에 기반하여 이루어질 수 있다. 예를 들어, 문자 영역의 추출은, 히스토그램의 분포 분석, 에지의 복잡도 계산을 통해서 이루어질 수 있다. 또한, 문자 영역이 고주파 성분을 많이 포함한다는 가정을 이용하여 주파수 영역에서 문자를 검출하거나, 문자 영역의 질감 특성을 이용하여 검출할 수도 있다. 또 다른 방법으로, 형태학적 연산을 통해서 배경을 제거하여 문자 후보 영역을 차고, 색분할화(Color segmentation)을 이용하여 이진화된 이미지를 획득한 후, 연결 요소분석 및 문자 특성을 이용하여 문자 영역을 검출할 수 있다.
이와 같이 문자 영역이 추출되면, 추출된 문자 영역 중, 적어도 일부를 샘플 영역(혹은 기준 영역)으로 선택한다(S115). 상기 샘플 영역(혹은 기준 영역)은 상기 추출한 문자 영역에 사용된 문자의 글꼴을 확인하는데 이용되는 영역으로서, 문자 영역 중 임의의 영역을 선택할 수 있으며, 상기 샘플 영역은 적어도 하나 이상의 문자를 인식할 수 있는 정도로 선택할 수 있다.
본 발명에 의한 장치(100)는, 상기 선택한 샘플 영역에 대한 문자를 인식하고, 인식한 문자의 글꼴을 확인한다(S120). 여기서 글꼴의 확인은, 상기 인식한 문자로부터 특징 정보를 추출하고, 추출한 특징 정보를 기 저장된 글꼴 정보 DB(152)에 저장된 각 글꼴의 특징 정보를 비교하여, 특징 정보가 동일하거나 가장 유사한 글꼴을 인식 대상 문자의 글꼴로 확인할 수 있다.
인식 대상 문자의 글꼴이 확인되면, 본 발명에 의한 장치(100)는 확인된 글꼴의 특징 정보를 이용하여, 상기 추출한 문자 영역에 대한 전처리 및 정규화를 수행하여, 상기 문자 영역을 각 글자 별 최소의 문자 인식 단위로 분할한다(S125). 예를 들어, 상기 문자 인식 단위는, 확인된 글꼴의 특징 정보, 즉, 글자의 크기, 굵기, 글자의 가로 세로 비율인 장평, 글자 간의 가로 간격을 나타내는 자간, 글자의 세로 간격 즉, 줄 사이의 간격인 행간, 글자 별 의 가변 여부(고정폭/가변폭 여부) 중 하나 이상에 근거하여 설정될 수 있다.
구체적으로, 상기 문자 인식 단위는 대략 사각형 형상의 윈도우로서, 그 크기, 즉, 높이 및 폭은 해당 글꼴의 크기, 장평, 자간, 행간 중 하나 이상에 따라서 결정된다.
상기 확인된 글꼴이 가변폭 글꼴인 경우, 상기 문자 인식 단위의 높이는 일정하게 하되, 폭은 글자에 따라서 가변시킬 수 있으며, 반대로 고정폭 글꼴인 경우, 상기 문자 인식 단위의 높이 및 폭을 모두 일정하게 설정할 수 있다.
또한, 상기 확인된 글꼴이 탈네모꼴 타입인 경우, 상기 문자 인식 단위의 폭은 일정하게 하되, 받침 유무에 따라서 높이를 다르게 설정하는 반면, 네모꼴 타입인 경우 상기 문자 인식 단위의 높이 및 폭은 모두 일정하게 설정할 수 있다.
그리고, 상기 분할된 문자 인식 단위 별로 문자 인식을 수행한다(S130). 상기 문자 인식을 통하여, 상기 입력된 이미지에 어떠한 문자가 포함되어 있는 지를 인식하고, 더 나아가 상기 인식한 문자에 대한 후처리를 수행할 수 있다.
이상에서 설명한 제1 실시 예에 따른 문자 인식 방법은, 이미지에 포함된 문자가 모두 단일 글꼴로 이루어진 경우에 적용될 수 있다.
그러나, 이와 달리 하나의 이미지 내에 포함된 문자에 다중 글꼴이 적용될 수 있다. 이 경우에는 도 3과 같이 문자 인식이 이루어질 수 있다.
도 3은 본 발명의 제2 실시 예에 따른 문자 인식 처리 과정을 나타낸 것으로서, 이를 참조하면, 본 발명에 따른 장치(100)는, 문자 인식 대상이 되는 이미지를 입력받는다(S205). 상기 S205단계는 제1 실시 예에서와 동일하게 이루어지는 것으로서, 카메라부(110)에 촬영 명령을 지시하여, 카메라부(110)에서 촬영된 이미지를 획득하거나, 저장부(150)에 저장된 하나 이상의 이미지 중에서 하나를 문자 인식 대상으로 선택하거나, 통신부(130)를 통해서 외부 장치로부터 문자 인식을 수행할 이미지를 수신하거나 입력받는 형태로 이루어질 수 있다.
이렇게 이미지가 입력되면, 본 발명에 따른 장치(100)는, 상기 입력된 이미지로부터 문자 영역을 추출한다(S210). S210단계에서의 문자 영역 추출은, 제1 실시 예에서와 마찬가지로, 이미지 중에서 인식될 문자가 있는 영역과 그 외의 영역을 구분하기 위한 것으로서, 자연 영상과 문자 영상의 특성 차이에 기반하여 이루어질 수 있다. 예를 들어, 문자 영역의 추출은, 히스토그램의 분포 분석, 에지의 복잡도 계산을 통해서 이루어질 수 있다. 또한, 문자 영역이 고주파 성분을 많이 포함한다는 가정을 이용하여 주파수 영역에서 문자를 검출하거나, 문자 영역의 질감 특성을 이용하여 검출할 수도 있다. 또 다른 방법으로, 형태학적 연산을 통해서 배경을 제거하여 문자 후보 영역을 차고, 색분할화(Color segmentation)을 이용하여 이진화된 이미지를 획득한 후, 연결 요소분석 및 문자 특성을 이용하여 문자 영역을 검출할 수 있다.
그리고, 본 발명에 따른 장치(100)는, 상기 추출한 문자 영역에 대한 전처리 및 정규화를 수행하여, 상기 문자 영역을 각 글자 별 최소의 문자 인식 단위로 분할한다(S215). 여기서, 초기의 문자 인식 단위는 기 설정된 초기값으로 설정되거나, 히스토그램 판별법 등의 기존의 방법을 통하여 설정될 수 있다.
그리고, 본 발명에 따른 장치(100)는 상기 분할된 문자 인식 단위 별로 문자 영역 내에서 문자 인식을 수행한다(S220). 이때, 문자 인식은, 상기 추출한 문자 영역을 순서대로 처리하여 한 글자씩 문자를 인식할 수 있다.
그리고, 하나의 글자 혹은 기 설정된 수의 글자가 인식될 때마다, 본 발명에 따른 장치(100)는 문자 영역에 대한 문자 인식이 모두 완료되는 지를 확인하여(S225), 문자 인식이 완료되지 않았으며, 해당 인식된 문자의 글꼴을 확인한다(S230). 여기서, 글꼴의 확인은 상기 인식한 문자로부터 특징 정보를 추출하고, 추출한 특징 정보를 기 저장된 글꼴 정보 DB(152)에 저장된 각 글꼴의 특징 정보를 비교하여, 특징 정보가 동일하거나 가장 유사한 글꼴을 인식 대상 문자의 글꼴로 확인하는 형태로 이루어질 수 있다.
그리고, 본 발명에 따른 장치(100)는 이전에 확인된 글꼴과 비교하여 글꼴이 변경되는 지를 판단한다(S235). 만일 첫 글자를 인식한 경우와 같이, 이전에 확인된 글꼴이 없는 경우, 글꼴이 변경된 것으로 판단할 수 있다.
그리고, 글꼴이 변경된 경우, 본 발명에 따른 장치(100)는 확인된 글꼴의 특징 정보를 이용하여, 상기 추출한 문자 영역에 대한 전처리 및 정규화를 재수행하여, 상기 문자 영역을 각 글자 별 최소의 문자 인식 단위로 분할한다(S240). 이때, 상기 문자 인식 단위는, 확인된 글꼴의 특징 정보, 즉, 글자의 크기, 굵기, 글자의 가로 세로 비율인 장평, 글자 간의 가로 간격을 나타내는 자간, 글자의 세로 간격 즉, 줄 사이의 간격인 행간, 글자 별 의 가변 여부(고정폭/가변폭 여부) 중 하나 이상에 근거하여 설정될 수 있다. 이때, S240단계는, 문자 인식이 아직 수행되지 않은 문자 영역에 대하여 이루어질 수 있다.
그리고, 다시 분할된 문자 인식 단위 별로 다음 문자의 인식을 수행한다(S220). 반면에 상기 S235단계에서, 현재 확인된 글꼴과 이전에 확인된 글꼴이 동일한 경우, 본 발명에 따른 장치(100)는 전처리 및 정규화의 재수행없이 S220단계를 실행하여, 기존에 분할된 문자 인식 단위별로 다음 문자의 인식을 반복한다.
상술한 S220단계 내지 S240단계는, 상기 이미지내에서 추출된 모든 문자 영역에 대한 문자 인식이 완료될 때까지 반복적으로 이루어질 수 있으며, 이에 따르면, 이미지 내의 문자 영역에 포함된 다수의 문자를 각 글꼴별로 서로 다른 문자 인식 단위를 적용하여 문자 인식을 수행할 수 있게 된다.
도 8 및 도 9는 본 발명에 따른 문자 인식 처리의 예를 설명하기 위한 도면이다.
도 8은 포탈 사이트 등의 웹 페이지 중 일부를 캡쳐한 이미지로서, 이러한 웹 페이지는 페이지 내에 분할된 각각의 윈도우별로 상이한 콘텐츠가 실리기 때문에, 다양한 크기 및 종류의 글꼴들이 사용된다.
도 8과 같은 이미지가 문자 인식을 위해 입력된 경우, 본 발명에 따른 문자 인식을 위한 장치(100)는, 41, 42, 43으로 표시되는 문자 영역을 추출할 수 있다. 이때, 문자 영역(41)은 글자의 수가 많으나 단일 글꼴을 사용하고 있다. 따라서, 문자 영역(41)에 대해서는 제1 실시 예에 따라서, 문자 인식 수행 전 일부 글자의 글꼴을 확인한 후, 확인된 글꼴의 특징 정보에 기반하여 전처리 및 정규화를 수행하여 문자 인식 단위를 추출할 수 있다. 상기 문자 인식 단위는 글자 혹은 단어 단위로 이루어질 수 있다.
반면에 문자 영역(42)는 글자의 수는 적으나, 복수의 글꼴이 다양한 형태로 사용되고 있다. 따라서, 제2 실시 예에서와 같이, 문자 인식을 수행하면서, 인식된 문자의 글꼴을 확인하여 이전 글꼴과 비교함으로써, 글꼴이 변경될 때마다, 변경된 글꼴의 특징 정보를 이용하여 해당 영역에 대한 문자 인식 단위를 재 설정하는 것이 바람직하다.
도 9는 상기 문자 영역(42)에 대하여, 글꼴별로 문자 영역을 구분한 것으로서, 421은 글자별 받침 유무에 따라서 높이가 다른 탈네모꼴 타입의 글꼴인데 반해, 422 내지 424 및 43은 받침 유무에 관계없이 높이가 일정한 네모꼴 타입의 글꼴이다. 아울러, 421 내지 424는 모두 삐침이 없는 산세리프 타입 및 폭의 변화가 없는 고정폭 글꼴이나, 각각의 글꼴의 크기 및 색상을 달리하고 있다.
따라서, 상기 421의 문자들에 대해서, 받침 유무에 따라서 높이가 다른 문자 인식 단위가 설정하여, 문자 인식을 위한 연산 처리량을 줄일 수 있다.
반면, 423 내지 424 및 43은 일정한 장평 및 자간과 행간을 적용하여 문자 인식 단위를 설정하여, 각각의 글자에 대한 정확한 매칭을 수행할 수 있게 된다.
본 발명은 이미지 내에 포함된 문자를 인식하는데 있어서, 상기 문자의 글꼴을 확인하고, 확인된 글꼴의 특성 정보, 더 구체적으로는 장평, 자간, 행간, 크기, 고정폭/가변폭, 표현 형태 등을 이용하여, 문자인식단위를 결정하고, 결정된 문자인식단위 별로 문자 인식을 수행함으로써, 문자 인식의 처리 속도 및 정확도를 향상시킬 수 있는 것으로서, 산업상 이용 가능성이 있는 것이다.
110: 카메라부
120: 입력부
130: 통신부
140: 출력부
150: 저장부
151: 문자 인식 프로그램
152: 글꼴 정보 DB
160: 제어부
161: 문자 인식 모듈
120: 입력부
130: 통신부
140: 출력부
150: 저장부
151: 문자 인식 프로그램
152: 글꼴 정보 DB
160: 제어부
161: 문자 인식 모듈
Claims (11)
- 복수의 글꼴을 분류할 수 있는 특징 정보를 글꼴별로 정의한 글꼴 정보 DB를 저장하는 저장부; 및
특정 이미지에 대한 문자 인식이 요청되면, 상기 이미지에 포함된 문자의 글꼴을 확인하고, 상기 글꼴 정보 DB로부터 상기 확인된 글꼴의 특징 정보를 추출한 후, 상기 추출한 글꼴의 특징 정보를 이용하여 상기 이미지에 포함된 문자에 대한 인식 처리를 수행하는 제어부를 포함하는 것을 특징으로 하는 문자 인식을 위한 장치. - 제1항에 있어서, 상기 제어부는
상기 이미지 중 문자 영역과 배경 영역을 구분하여 하나 이상의 문자 영역을 추출하고, 추출한 문자 영역에 포함된 문자의 글꼴을 확인한 후, 확인된 글꼴의 특징 정보에 따라서 문자 영역을 문자 인식 단위로 분할한 후, 각 문자 인식 단위 별로 매칭을 수행하는 것을 특징으로 하는 문자 인식을 위한 장치. - 제1항에 있어서, 상기 제어부는
상기 이미지 중 문자 영역과 배경 영역을 구분하여 하나 이상의 문자 영역을 추출하고, 문자 영역을 일정 크기의 문자 인식 단위로 분할하여, 문자 인식 단위 별로 문자 인식을 수행하되, 인식한 문자의 글꼴을 확인하고, 상기 확인된 글꼴이 이전에 확인된 글꼴과 비교하여 다른 경우, 변경된 글꼴의 특징 정보를 이용하여 인식되지 않은 나머지 영역의 문자 인식 단위를 재설정하고, 재설정된 문자 인식 단위 별로 문자 인식을 수행하는 것을 특징으로 하는 문자 인식을 위한 장치. - 제3항에 있어서, 상기 제어부는
이전에 확인된 글꼴이 없는 경우, 글꼴이 변경된 것으로 판단하는 것을 특징으로 하는 문자 인식을 위한 장치. - 제1항에 있어서,
상기 특정 이미지를 촬영하여 상기 제어부로 전송하는 카메라부를 더 포함하는 것을 특징으로 하는 문자 인식을 위한 장치. - 제1항에 있어서, 상기 글꼴의 특징 정보는,
글자의 굵기, 크기, 장평, 자간, 행간, 글자 별 폭의 가변 여부, 표현 형태 중 하나 이상을 포함하는 것을 특징으로 하는 문자 인식을 위한 장치. - 복수의 글꼴을 분류할 수 있는 특징 정보를 글꼴별로 정의한 글꼴 정보 DB를 저장하는 단계;
특정 이미지에 대한 문자 인식이 요청되면, 상기 이미지 중 문자 영역과 배경 영역을 구분하여 하나 이상의 문자 영역을 추출하는 단계;
상기 추출한 문자 영역에 포함된 문자의 글꼴을 확인하는 단계;
상기 확인된 글꼴의 특징 정보를 상기 글꼴 정보 DB로부터 추출하고, 상기 추출한 특징 정보에 따라서 상기 문자 영역을 문자 인식 단위로 분할하는 단계;
각 문자 인식 단위 별로 문자 인식을 수행하는 단계를 포함하는 것을 특징으로 하는 문자 인식을 위한 방법. - 복수의 글꼴을 분류할 수 있는 특징 정보를 글꼴별로 정의한 글꼴 정보 DB를 저장하는 단계;
특정 이미지에 대한 문자 인식이 요청되면, 상기 이미지 중 문자 영역과 배경 영역을 구분하여 하나 이상의 문자 영역을 추출하는 단계;
상기 문자 영역에 대한 전처리 및 정규화를 통해 상기 문자 영역을 문자 인식 단위로 분할하는 단계;
문자 인식 단위 별로 문자 인식을 수행하는 단계;
상기 인식한 문자의 글꼴을 확인하는 단계;
상기 확인된 글꼴이 이전에 확인된 글꼴과 비교하여 글꼴이 변경되는 지를 판단하는 단계;
글꼴이 변경된 경우, 변경된 글꼴의 특징 정보를 이용하여 상기 문자 인식 단위를 재설정한 후, 상기 문자 인식을 수행하도록 하는 단계;
를 포함하는 것을 특징으로 하는 문자 인식을 위한 방법. - 제8항에 있어서, 상기 글꼴이 변경되는 지를 판단하는 단계는,
이전에 확인된 글꼴이 없는 경우, 글꼴이 변경된 것으로 판단하는 것을 특징으로 하는 문자 인식을 위한 방법. - 제7항 내지 제9항 중 어느 한 항에 기재된 문자 인식을 위한 방법을 실행시키는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
- 제7항 내지 제9항 중 어느 한 항에 기재된 문자 인식을 위한 방법을 실행시키도록 구현되어 컴퓨터 판독 가능한 기록매체에 기록된 프로그램.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180095858A KR20200020305A (ko) | 2018-08-17 | 2018-08-17 | 문자 인식을 위한 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180095858A KR20200020305A (ko) | 2018-08-17 | 2018-08-17 | 문자 인식을 위한 방법 및 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20200020305A true KR20200020305A (ko) | 2020-02-26 |
Family
ID=69637937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180095858A KR20200020305A (ko) | 2018-08-17 | 2018-08-17 | 문자 인식을 위한 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20200020305A (ko) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111612088A (zh) * | 2020-05-28 | 2020-09-01 | 北京轨道交通路网管理有限公司 | 叠加字符的图像的检测方法及装置 |
CN113673544A (zh) * | 2020-05-13 | 2021-11-19 | 珠海金山办公软件有限公司 | 一种相似字体的确定方法、装置、电子设备及存储介质 |
KR20220043274A (ko) * | 2020-09-29 | 2022-04-05 | 이용재 | 광학 문자 인식 장치 및 그 제어방법 |
KR102477177B1 (ko) * | 2022-04-14 | 2022-12-14 | (주)프린파크 | 촬영된 문서에 대응하는 편집 가능한 문서 템플릿을 제공하기 위한 전자 장치 및 그 동작 방법 |
KR20230171769A (ko) | 2022-06-14 | 2023-12-21 | 서강대학교산학협력단 | 신경망을 이용한 간판 인식 시스템 및 간판 인식 방법 |
KR102617913B1 (ko) * | 2023-03-30 | 2023-12-27 | 주식회사 포지큐브 | 문서 이미지의 회전 인식 방법 및 그 시스템 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101801153B1 (ko) | 2016-12-30 | 2017-11-27 | 이경민 | 기계학습 기반의 문자 인식 시스템 |
-
2018
- 2018-08-17 KR KR1020180095858A patent/KR20200020305A/ko unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101801153B1 (ko) | 2016-12-30 | 2017-11-27 | 이경민 | 기계학습 기반의 문자 인식 시스템 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673544A (zh) * | 2020-05-13 | 2021-11-19 | 珠海金山办公软件有限公司 | 一种相似字体的确定方法、装置、电子设备及存储介质 |
CN111612088A (zh) * | 2020-05-28 | 2020-09-01 | 北京轨道交通路网管理有限公司 | 叠加字符的图像的检测方法及装置 |
CN111612088B (zh) * | 2020-05-28 | 2024-04-16 | 北京轨道交通路网管理有限公司 | 叠加字符的图像的检测方法及装置 |
KR20220043274A (ko) * | 2020-09-29 | 2022-04-05 | 이용재 | 광학 문자 인식 장치 및 그 제어방법 |
KR102477177B1 (ko) * | 2022-04-14 | 2022-12-14 | (주)프린파크 | 촬영된 문서에 대응하는 편집 가능한 문서 템플릿을 제공하기 위한 전자 장치 및 그 동작 방법 |
KR20230171769A (ko) | 2022-06-14 | 2023-12-21 | 서강대학교산학협력단 | 신경망을 이용한 간판 인식 시스템 및 간판 인식 방법 |
KR102617913B1 (ko) * | 2023-03-30 | 2023-12-27 | 주식회사 포지큐브 | 문서 이미지의 회전 인식 방법 및 그 시스템 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20200020305A (ko) | 문자 인식을 위한 방법 및 장치 | |
CN111507330B (zh) | 习题识别方法、装置、电子设备及存储介质 | |
Mathew et al. | Benchmarking scene text recognition in Devanagari, Telugu and Malayalam | |
US10643094B2 (en) | Method for line and word segmentation for handwritten text images | |
CN111488826A (zh) | 一种文本识别方法、装置、电子设备和存储介质 | |
Mathew et al. | Multilingual OCR for Indic scripts | |
CN106599940B (zh) | 图片文字的识别方法及装置 | |
WO2017003756A1 (en) | Methods and systems for detecting and recognizing text from images | |
US20200026766A1 (en) | Method for translating characters and apparatus therefor | |
US9916499B2 (en) | Method and system for linking printed objects with electronic content | |
KR101552525B1 (ko) | 폰트를 인식하고 폰트정보를 제공하는 시스템 및 그 방법 | |
Lee et al. | GNHK: a dataset for English handwriting in the wild | |
CN109189965A (zh) | 图像文字检索方法及系统 | |
CN111640193A (zh) | 文字处理方法、装置、计算机设备及存储介质 | |
CN113128241A (zh) | 文本识别方法、装置及设备 | |
CN111738252A (zh) | 图像中的文本行检测方法、装置及计算机系统 | |
CN114299529A (zh) | 基于医疗化验单图片的识别方法、存储介质及终端 | |
CN113436222A (zh) | 图像处理方法、图像处理装置、电子设备及存储介质 | |
CN111062377A (zh) | 一种题号检测方法、系统、存储介质及电子设备 | |
Hashim et al. | Kurdish sign language recognition system | |
Chavre et al. | Scene text extraction using stroke width transform for tourist translator on android platform | |
US20200334421A1 (en) | System and method for translating text | |
CN112840622B (zh) | 推送方法及相关产品 | |
Meetei et al. | Extraction and identification of manipuri and mizo texts from scene and document images | |
US20150186718A1 (en) | Segmentation of Overwritten Online Handwriting Input |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
N231 | Notification of change of applicant |