KR102138748B1 - 라인 단위의 문자열을 검출 및 정렬하기 위한 방법 및 시스템 - Google Patents

라인 단위의 문자열을 검출 및 정렬하기 위한 방법 및 시스템 Download PDF

Info

Publication number
KR102138748B1
KR102138748B1 KR1020190015183A KR20190015183A KR102138748B1 KR 102138748 B1 KR102138748 B1 KR 102138748B1 KR 1020190015183 A KR1020190015183 A KR 1020190015183A KR 20190015183 A KR20190015183 A KR 20190015183A KR 102138748 B1 KR102138748 B1 KR 102138748B1
Authority
KR
South Korea
Prior art keywords
character
string
line
character string
area
Prior art date
Application number
KR1020190015183A
Other languages
English (en)
Inventor
최찬규
장필훈
Original Assignee
네이버 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네이버 주식회사 filed Critical 네이버 주식회사
Priority to KR1020190015183A priority Critical patent/KR102138748B1/ko
Application granted granted Critical
Publication of KR102138748B1 publication Critical patent/KR102138748B1/ko

Links

Images

Classifications

    • G06K9/00469
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • G06K9/00456
    • G06K9/344
    • G06K9/348
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

문자열을 검출 및 정렬하기 위한 방법 및 시스템이 개시된다. 문자열 정렬 방법은, 이미지에서 인식된 문자 영역 중 인접한 문자 영역을 이용하여 라인 단위의 문자열을 검출하는 단계; 및 상기 라인 단위의 문자열을 정해진 기준에 따라 정렬하는 단계를 포함한다.

Description

라인 단위의 문자열을 검출 및 정렬하기 위한 방법 및 시스템{METHOD AND SYSTEM FOR DETECTING AND SORTING STRING IN LINE UNIT}
아래의 설명은 이미지에서 문자를 인식하여 문자열을 검출하는 기술에 관한 것이다.
모바일 단말 및 카메라 제조업체뿐만 아니라 서비스 구축이 가능한 이동통신사 및 포털 업체, 솔루션 업체 및 컨텐츠 업체 등에서 자연영상의 텍스트를 인식하고 이를 활용하여 다양한 서비스를 제공하는 기술을 개발하고 있다.
카메라를 이용하여 취득한 자연영상(natural scene image)에 존재하는 특정 문자정보(scene text)를 추출 및 인식한 후 이를 실시간으로 번역하거나 정보 검색 등에 활용할 수 있다.
관련 기술의 일 예로서, 한국공개특허 제10-2001-0109861호(공개일 2001년 12월 12일)에는 영상 내 문자를 인식하고 인식된 문자에 대한 번역을 제공하는 번역 기능을 구비한 비디오 카메라가 개시되어 있다.
문자 인식 결과를 하나의 문자열로 표현할 수 있는 방법 및 시스템을 제공한다.
라인(line) 단위의 문자열을 검출하고 이를 정렬할 수 있는 방법 및 시스템을 제공한다.
컴퓨터 시스템에서 실행되는 문자열 정렬 방법에 있어서, 상기 컴퓨터 시스템은 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 문자열 정렬 방법은, 상기 적어도 하나의 프로세서에 의해, 이미지에서 인식된 문자 영역 중 인접한 문자 영역을 이용하여 라인 단위의 문자열을 검출하는 단계; 및 상기 적어도 하나의 프로세서에 의해, 상기 라인 단위의 문자열을 정해진 기준에 따라 정렬하는 단계를 포함하는 문자열 정렬 방법을 제공한다.
일 측면에 따르면, 상기 검출하는 단계는, 이미지에서 인식된 문자 영역 중 기준이 되는 문자 영역인 기준 영역을 결정하는 단계; 및 상기 기준 영역을 기준으로 한 제1 스캔 라인을 통해 상기 기준 영역과 인접한 문자 영역을 검색하여 하나의 라인으로 병합 및 정렬하는 단계를 포함할 수 있다.
다른 측면에 따르면, 상기 결정하는 단계는, 문자 영역의 종횡비를 기준으로 하여 상기 기준 영역을 결정할 수 있다.
또 다른 측면에 따르면, 상기 검출하는 단계는, 상기 기준 영역의 가로와 세로 중 길이가 긴 길이 방향으로 상기 기준 영역과 인접한 문자 영역을 검색하기 위한 제1 스캔 라인을 생성하는 단계를 더 포함할 수 있다.
또 다른 측면에 따르면, 상기 기준 영역의 종횡비나 면적에 따라 상기 제1 스캔 라인의 범위가 결정될 수 있다.
또 다른 측면에 따르면, 상기 병합 및 정렬하는 단계는, 문자 영역의 적어도 일부 혹은 일정 비율 이상의 면적이 상기 제1 스캔 라인에 포함되는 문자 영역을 상기 기준 영역과의 병합 대상에 포함시킬 수 있다.
또 다른 측면에 따르면, 상기 병합 및 정렬하는 단계는, 상기 제1 스캔 라인을 통해 검색된 문자 영역 중에서 문자 폰트 및 문자 크기 중 적어도 하나가 상기 기준 영역의 문자와 다른 문자 영역의 경우 상기 기준 영역과의 병합 대상에서 제외시킬 수 있다.
또 다른 측면에 따르면, 상기 병합 및 정렬하는 단계는, 상기 제1 스캔 라인을 통해 검색된 문자 영역의 문자 방향이 상기 기준 영역의 문자 방향과 임계치 이상 다른 경우 상기 기준 영역과의 병합 대상에서 제외시킬 수 있다.
또 다른 측면에 따르면, 상기 병합 및 정렬하는 단계는, 서로 다른 기준 영역의 제1 스캔 라인에 의해 중복으로 검색되는 문자 영역의 경우 종횡비가 더 큰 기준 영역과 병합되도록 처리할 수 있다.
또 다른 측면에 따르면, 상기 문자열 정렬 방법은, 상기 적어도 하나의 프로세서에 의해, 상기 라인 단위의 문자열 중 인접한 라인 단위의 문자열을 이용하여 문단 단위의 문자열을 검출하는 단계; 및 상기 적어도 하나의 프로세서에 의해, 상기 문단 단위의 문자열을 정해진 기준에 따라 정렬하는 단계를 더 포함할 수 있다.
또 다른 측면에 따르면, 상기 문단 단위의 문자열을 검출하는 단계는, 상기 라인 단위의 문자열 중 기준이 되는 문자열인 기준 문자열을 결정하는 단계; 및 상기 기준 문자열을 기준으로 한 제2 스캔 라인을 통해 상기 기준 문자열과 인접한 라인 단위의 문자열을 검색하여 하나의 문단으로 병합 및 정렬하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 문단 단위의 문자열을 검출하는 단계는, 상기 기준 문자열의 가로와 세로 중 길이가 긴 길이 방향에 대해 법선 벡터 방향으로 상기 기준 문자열과 인접한 라인 단위의 문자열을 검색하기 위한 제2 스캔 라인을 생성하는 단계를 더 포함할 수 있다.
상기 문자열 정렬 방법을 상기 컴퓨터 시스템에 실행시키기 위해 비-일시적인 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램을 제공한다.
컴퓨터 시스템에 있어서, 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 이미지에서 인식된 문자 영역 중 인접한 문자 영역을 이용하여 라인 단위의 문자열을 검출하는 라인 검출부; 및 상기 라인 단위의 문자열을 정해진 기준에 따라 정렬하는 문자열 정렬부를 포함하는 컴퓨터 시스템을 제공한다.
본 발명의 실시예들에 따르면, 문자 인식 결과를 하나의 문자열로 표현할 수 있다.
본 발명의 실시예들에 따르면, 문자 인식 결과로부터 라인 단위의 문자열을 검출하여 정렬할 수 있다.
도 1은 본 발명의 일실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다.
도 2는 본 발명의 일실시예에 따른 컴퓨터 시스템의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 도면이다.
도 3은 본 발명의 일실시예에 따른 컴퓨터 시스템이 수행할 수 있는 문자열 정렬 방법의 예를 도시한 순서도이다.
도 4는 본 발명의 일실시예에 있어서 이미지에서 문자를 인식하는 과정을 설명하기 위한 예시 도면이다.
도 5 내지 도 7은 본 발명의 일실시예에 있어서 라인 단위의 문자열을 검출하는 과정을 설명하기 위한 예시 도면이다.
도 8 내지 도 11은 본 발명의 일실시예에 있어서 문단 단위의 문자열을 검출하는 과정을 설명하기 위한 예시 도면이다.
도 12는 본 발명의 일실시예에 있어서 문자열을 정렬하는 과정을 설명하기 위한 예시 도면이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
본 발명의 실시예들은 문자 인식 결과를 하나의 문자열로 표현하는 기술에 관한 것이다.
본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 문자 인식 결과로부터 라인 단위의 문자열을 검출하여 정렬할 수 있고, 이를 통해 효율성, 정확성, 평가 성능, 비용 절감 등의 측면에 있어서 상당한 장점들을 달성한다.
도 1은 본 발명의 일실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다. 예를 들어, 본 발명의 실시예들에 따른 문자열 정렬 시스템이 도 1의 컴퓨터 시스템(100)을 통해 구현될 수 있다. 도 1에 도시한 바와 같이, 컴퓨터 시스템(100)은 문자열 정렬 방법을 실행하기 위한 구성요소로서 프로세서(110), 메모리(120), 영구 저장 장치(130), 버스(140), 입출력 인터페이스(150) 및 네트워크 인터페이스(160)를 포함할 수 있다.
프로세서(110)는 문자열을 검출 및 정렬하기 위한 구성요소로서 명령어들의 시퀀스를 처리할 수 있는 임의의 장치를 포함하거나 그의 일부일 수 있다. 프로세서(110)는 예를 들어 컴퓨터 프로세서, 이동 장치 또는 다른 전자 장치 내의 프로세서 및/또는 디지털 프로세서를 포함할 수 있다. 프로세서(110)는 예를 들어, 서버 컴퓨팅 디바이스, 서버 컴퓨터, 일련의 서버 컴퓨터들, 서버 팜, 클라우드 컴퓨터, 컨텐츠 플랫폼 등에 포함될 수 있다. 프로세서(110)는 버스(140)를 통해 메모리(120)에 접속될 수 있다.
메모리(120)는 컴퓨터 시스템(100)에 의해 사용되거나 그에 의해 출력되는 정보를 저장하기 위한 휘발성 메모리, 영구, 가상 또는 기타 메모리를 포함할 수 있다. 메모리(120)는 예를 들어 랜덤 액세스 메모리(RAM: random access memory) 및/또는 다이내믹 RAM(DRAM: dynamic RAM)을 포함할 수 있다. 메모리(120)는 컴퓨터 시스템(100)의 상태 정보와 같은 임의의 정보를 저장하는 데 사용될 수 있다. 메모리(120)는 예를 들어 문자열을 검출 및 정렬하기 위한 명령어들을 포함하는 컴퓨터 시스템(100)의 명령어들을 저장하는 데에도 사용될 수 있다. 컴퓨터 시스템(100)은 필요에 따라 또는 적절한 경우에 하나 이상의 프로세서(110)를 포함할 수 있다.
버스(140)는 컴퓨터 시스템(100)의 다양한 컴포넌트들 사이의 상호작용을 가능하게 하는 통신 기반 구조를 포함할 수 있다. 버스(140)는 예를 들어 컴퓨터 시스템(100)의 컴포넌트들 사이에, 예를 들어 프로세서(110)와 메모리(120) 사이에 데이터를 운반할 수 있다. 버스(140)는 컴퓨터 시스템(100)의 컴포넌트들 간의 무선 및/또는 유선 통신 매체를 포함할 수 있으며, 병렬, 직렬 또는 다른 토폴로지 배열들을 포함할 수 있다.
영구 저장 장치(130)는 (예를 들어, 메모리(120)에 비해) 소정의 연장된 기간 동안 데이터를 저장하기 위해 컴퓨터 시스템(100)에 의해 사용되는 바와 같은 메모리 또는 다른 영구 저장 장치와 같은 컴포넌트들을 포함할 수 있다. 영구 저장 장치(130)는 컴퓨터 시스템(100) 내의 프로세서(110)에 의해 사용되는 바와 같은 비휘발성 메인 메모리를 포함할 수 있다. 영구 저장 장치(130)는 예를 들어 플래시 메모리, 하드 디스크, 광 디스크 또는 다른 컴퓨터 판독 가능 매체를 포함할 수 있다.
입출력 인터페이스(150)는 키보드, 마우스, 음성 명령 입력, 디스플레이 또는 다른 입력 또는 출력 장치에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 문자열을 검출 및 정렬하기 위한 입력이 입출력 인터페이스(150)를 통해 수신될 수 있다.
네트워크 인터페이스(160)는 근거리 네트워크 또는 인터넷과 같은 네트워크들에 대한 하나 이상의 인터페이스를 포함할 수 있다. 네트워크 인터페이스(160)는 유선 또는 무선 접속들에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 문자열을 검출 및 정렬하기 위한 입력이 네트워크 인터페이스(160)를 통해 수신될 수 있다.
또한, 다른 실시예들에서 컴퓨터 시스템(100)은 도 1의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 시스템(100)은 상술한 입출력 인터페이스(150)와 연결되는 입출력 장치들 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), GPS(Global Positioning System) 모듈, 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.
문자 인식 결과를 번역 서비스 등에서 사용하기 위해서는 인식된 문자를 하나의 문자열로 만들어야 한다. 이를 위해, 본 발명은 문자 인식 결과로부터 라인 단위의 문자열을 검출하고 이를 정렬할 수 있는 방법 및 시스템을 제공한다.
도 2는 본 발명의 일실시예에 따른 컴퓨터 시스템의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 도면이고, 도 3은 본 발명의 일실시예에 따른 컴퓨터 시스템이 수행할 수 있는 문자열 정렬 방법의 예를 도시한 순서도이다.
도 2에 도시된 바와 같이, 프로세서(110)는 라인 검출부(210), 문단 검출부(220), 및 문자열 정렬부(230)를 포함할 수 있다. 이러한 프로세서(110)의 구성요소들은 적어도 하나의 프로그램 코드에 의해 제공되는 제어 명령에 따라 프로세서(110)에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 예를 들어, 프로세서(110)가 문자 인식 결과에서 라인 단위의 문자열을 검출하도록 컴퓨터 시스템(100)을 제어하기 위해 동작하는 기능적 표현으로서 라인 검출부(210)가 사용될 수 있다. 프로세서(110) 및 프로세서(110)의 구성요소들은 도 3의 문자열 정렬 방법이 포함하는 단계들(S310 내지 S340)을 수행할 수 있다. 예를 들어, 프로세서(110) 및 프로세서(110)의 구성요소들은 메모리(120)가 포함하는 운영체제의 코드와 상술한 적어도 하나의 프로그램 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 여기서, 적어도 하나의 프로그램 코드는 문자열 정렬 방법을 처리하기 위해 구현된 프로그램의 코드에 대응될 수 있다.
문자열 정렬 방법은 도시된 순서대로 발생하지 않을 수 있으며, 단계들 중 일부가 생략되거나 추가의 과정이 더 포함될 수 있다.
단계(S310)에서 프로세서(110)는 문자열 정렬 방법을 위한 프로그램 파일에 저장된 프로그램 코드를 메모리(120)에 로딩할 수 있다. 예를 들어, 문자열 정렬 방법을 위한 프로그램 파일은 도 1을 통해 설명한 영구 저장 장치(130)에 저장되어 있을 수 있고, 프로세서(110)는 버스를 통해 영구 저장 장치(130)에 저장된 프로그램 파일로부터 프로그램 코드가 메모리(120)에 로딩되도록 컴퓨터 시스템(110)을 제어할 수 있다. 이때, 프로세서(110) 및 프로세서(110)가 포함하는 라인 검출부(210), 문단 검출부(220), 및 문자열 정렬부(230) 각각은 메모리(120)에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(S320 내지 S340)을 실행하기 위한 프로세서(110)의 서로 다른 기능적 표현들일 수 있다. 단계들(S320 내지 S340)의 실행을 위해, 프로세서(110) 및 프로세서(110)의 구성요소들은 직접 제어 명령에 따른 연산을 처리하거나 또는 컴퓨터 시스템(100)을 제어할 수 있다.
단계(S320)에서 라인 검출부(210)는 문자 인식 결과로부터 라인 단위의 문자열(이하, '라인 문자열'이라 칭함)을 검출할 수 있다. 라인 검출부(210)는 문자 인식을 통해 문자가 포함된 영역으로 간주되는 영역인 ROI(region of interest)(이하, '문자 영역'이라 칭함)의 종횡비(가로 대 세로의 비율)를 이용하여 인접한 문자 영역을 병합 및 정렬함으로써 문자 인식 결과에서 라인 문자열을 찾을 수 있다. 일례로, 라인 검출부(210)는 문자 영역 중 종횡비가 가장 큰 문자 영역을 기준 영역으로 결정한 후 기준 영역을 기준으로 한 제1 스캔 라인을 통해 인접한 주변 문자 영역을 찾아 병합 및 정렬할 수 있다. 병합 및 정렬된 문자 영역을 제외한 나머지 문자 영역 중에서 종횡비가 가장 큰 문자 영역을 기준으로 하여 동일한 방법을 반복함으로써 모든 라인 문자열을 찾을 수 있다. 다시 말해, 라인 검출부(210)는 문자 영역의 종횡비를 기준으로 하여 주변 문자 영역을 병합해 나가는 방식을 통해 라인 문자열을 검출할 수 있다.
단계(S330)에서 문단 검출부(220)는 문자 인식 결과에서 검출된 라인 문자열을 이용하여 문단 단위의 문자열(이하, '문단 문자열'이라 칭함)을 검출할 수 있다. 이때, 문단 검출부(220)는 라인 문자열의 종횡비를 이용하여 인접한 라인 문자열을 병합 및 정렬함으로써 문자 인식 결과에서 문단 문자열을 찾을 수 있다. 일례로, 문단 검출부(220)는 라인 문자열 중 종횡비가 가장 큰 라인 문자열을 기준 문자열로 결정한 후 기준 문자열을 기준으로 한 제2 스캔 라인을 통해 인접한 라인 문자열을 찾아 병합 및 정렬할 수 있다. 병합 및 정렬된 라인 문자열을 제외한 나머지 라인 문자열 중에서 종횡비가 가장 큰 라인 문자열을 기준으로 하여 동일한 방법을 반복함으로써 모든 문단 문자열을 찾을 수 있다. 마찬가지로, 문단 검출부(220)는 라인 문자열의 종횡비를 기준으로 하여 주변 라인 문자열을 병합해 나가는 방식을 통해 문단 문자열을 검출할 수 있다.
단계(S340)에서 문자열 정렬부(230)는 문자 인식 결과에서 검출된 적어도 하나의 라인 문자열을 정해진 기준에 따라 정렬할 수 있고, 문자 인식 결과에서 검출된 적어도 하나의 문단 문자열을 정해진 기준에 따라 정렬할 수 있다. 그리고, 문자열 정렬부(230)는 문자 인식 결과에 포함된 각 문자 영역에 대해 문자열 정렬 결과에 따른 순서를 부여할 수 있고 부여된 순서 기반의 문자열을 번역이나 정보 검색 등을 위한 입력 문자열로 이용할 수 있다.
이하에서는 문자 인식 결과를 하나의 문자열로 표현하는 구체적인 방법을 설명하기로 한다.
도 4는 본 발명의 일실시예에 있어서 이미지에서 문자를 인식하는 과정을 설명하기 위한 예시 도면이다.
도 4를 참조하면, 문자 인식 기술 분야에서는 OCR(optical character reader)을 통해 이미지(400)에서 문자가 포함된 영역으로 간주되는 문자 영역(410)을 인식할 수 있다. 예를 들어, 문자의 경우 코너(corner)가 많이 존재하므로 좁은 영역에 코너가 밀집되어 있으면 문자일 확률이 높다는 가정 하에 문자 영역(410)을 추출할 수 있다. 먼저, 프로세서(110)는 코너 검출기(corner detector)를 이용하여 이미지(400)에서 코너를 검출한 후 격자 모양의 이진 코너 그리드 맵(binary corner grid map)을 통해 코너가 존재하는 영역(cell)에 마킹(marking)을 처리할 수 있다. 이어, 프로세서(110)는 이진 코너 그리드 맵에서 윤곽선을 검출하고(contour detection) 검출된 윤곽선을 사각형 영역으로 묶음 처리함으로써 문자 영역(410)을 추출할 수 있다. 이때, 프로세서(110)는 최소 크기 미만의 사각형을 정크(junk) 처리할 수 있으며, 최소 크기를 만족하는 사각형을 유효 영역, 즉 문자 영역(410)으로 검출할 수 있다.
이러한 문자 인식 결과를 번역 등에서 사용하기 위해서는 하나의 문자열로 표현하여야 하며, 이를 위해 다음의 과정을 거치게 된다: (1) 라인 문자열 찾기, (2) 문단 문자열 찾기, (3) 문자열 정렬.
(1) 라인 문자열 찾기
도 5 내지 도 7은 본 발명의 일실시예에 있어서 라인 단위의 문자열을 검출하는 과정을 설명하기 위한 예시 도면이다.
문자 인식 결과에서 라인 문자열을 찾기 위해서는 기준이 필요하다. 일례로, 라인 검출부(210)는 문자 영역(410) 중 종횡비가 가장 큰 문자 영역을 기준 영역으로 결정할 수 있다.
도 5를 참조하면, 라인 검출부(210)는 문자 영역(410) 중에서 하나의 문자 영역, 즉 종횡비가 가장 큰 문자 영역이 기준 영역(501)으로 결정되면 기준 영역(501)을 따라 제1 스캔 라인(503)을 생성할 수 있다. 이때, 제1 스캔 라인(503)은 문자 인식 결과에서 기준 영역(501)과 인접한 문자 영역을 검색하기 위한 검색 라인을 의미한다.
문자 인식 결과에서 라인 문자열을 찾기 위해서는 기준 영역(501)의 가로와 세로 중 길이가 긴 길이 방향으로 제1 스캔 라인(503)을 만들 수 있다.
예를 들어, 기준 영역(501)의 문자가 가로 문자인 경우 기준 영역(501)의 좌우로 제1 스캔 라인(503)을 만들고, 세로 문자인 경우 기준 영역(501)의 상하로 제1 스캔 라인(503)을 만들 수 있다.
이때, 기준 영역(501)의 종횡비나 크기 등에 따라 제1 스캔 라인(503)의 범위가 결정될 수 있으며, 예를 들어 가로 문자의 경우 기준 영역(501)의 가로 길이에 비례하여 제1 스캔 라인(503)의 범위가 결정될 수 있으며, 기준 영역(501)의 면적이 클수록 제1 스캔 라인(503)의 범위가 크게 결정될 수 있다.
도 6에 도시한 바와 같이, 라인 검출부(210)는 제1 스캔 라인(503)을 통해 주변에 위치한 문자 영역을 찾아 이를 기준 영역(501)과 병합해 나가는 방식으로 라인 문자열(601)을 찾을 수 있다.
라인 검출부(210)는 문자 영역의 적어도 일부 혹은 일정 비율 이상의 면적이 기준 영역(501)의 제1 스캔 라인(503)에 포함되는 문자 영역을 기준 영역(501)과의 병합 대상에 포함시킬 수 있다.
이때, 라인 검출부(210)는 기준 영역(501)의 제1 스캔 라인(503)을 통해 검색된 문자 영역 중 문자 폰트가 기준 영역(501)의 문자 폰트와 상이하거나 문자 크기가 기준 영역(501)의 문자 크기와 임계치 이상의 차이를 가진 문자 영역의 경우 기준 영역(501)과의 병합 대상에서 제외시키고 별도의 라인 문자열로 처리할 수 있다.
라인 검출부(210)는 기준 영역(501)의 제1 스캔 라인(503)을 통해 검색된 문자 영역을 정해진 기준에 따라 하나의 라인으로 정렬할 수 있으며, 예를 들어 기준 영역(501)의 문자가 가로 문자인 경우 왼쪽에서 오른쪽으로 정렬해 나가고, 세로 문자인 경우 위에서 아래로 정렬해 나감으로써 라인 문자열을 만들 수 있다.
라인 검출부(210)는 기준 영역(501)의 제1 스캔 라인(503)을 통해 검색된 문자 영역과 기준 영역(501)의 높이 값이 임계치 이상으로 상이한 경우 더 높은 문자 영역의 문자열을 먼저 정렬하여 라인 문자열을 만들 수 있다.
라인 검출부(210)는 문자 인식 결과에 포함된 문자 영역(410) 중에서 라인 문자열로 병합 및 정렬된 문자 영역을 제외한 나머지 문자 영역 중에서 다시 종횡비가 가장 큰 문자 영역을 기준 영역으로 지정한 후 상기한 방법을 반복함으로써 도 7에 도시한 바와 같이 문자 인식 결과에서 모든 라인 문자열(601)을 찾을 수 있다.
라인 검출부(210)는 라인 문자열을 찾는 과정에서 서로 다른 기준 영역의 제1 스캔 라인에 중복으로 검색되는 문자 영역이 존재하는 경우 종횡비가 더 큰 기준 영역과 병합되도록 처리할 수 있다. 다른 예로, 라인 검출부(210)는 중복 검색 문자 영역을 최초로 걸리는 제1 스캔 라인의 기준 영역과 병합하거나 혹은 별도의 라인 문자열로 처리할 수 있다.
또한, 라인 검출부(210)는 제1 스캔 라인을 통해 검색된 문자 영역의 문자 방향이 기준 영역의 문자 방향과 임계치 이상으로 다른 경우 해당 문자 영역을 기준 영역과의 병합 대상에서 제외시키고 별도의 라인 문자열로 처리할 수 있다.
(2) 문단 문자열 찾기
도 8 내지 도 11은 본 발명의 일실시예에 있어서 문단 단위의 문자열을 검출하는 과정을 설명하기 위한 예시 도면이다.
문자 인식 결과에서 문단 문자열을 찾기 위해서는 기준이 필요하다. 일례로, 문단 검출부(220)는 라인 문자열(601) 중 종횡비가 가장 큰 문자열을 기준 영역으로 결정할 수 있다.
도 8을 참조하면, 문단 검출부(220)는 문자 인식 결과에서 찾은 라인 문자열(601) 중에서 하나의 문자열, 즉 종횡비가 가장 큰 라인 문자열이 기준 영역(801)으로 결정되면 기준 영역(801)을 따라 제2 스캔 라인(803)을 생성할 수 있다. 이때, 제2 스캔 라인(803)은 라인 문자열(601) 간의 거리를 기반으로 하여 기준 영역(801)과 인접한 라인 문자열을 찾기 위한 검색 라인을 의미한다.
문자 인식 결과에서 문단 문자열을 찾기 위해서는 기준 영역(801)의 가로와 세로 중 길이가 긴 길이 방향에 대해 법선 벡터 방향인 90도 방향으로 제2 스캔 라인(803)을 만들 수 있다.
예를 들어, 기준 영역(801)의 문자가 가로 문자인 경우 기준 영역(801)의 상하로 제2 스캔 라인(803)을 만들고, 세로 문자인 경우 기준 영역(801)의 좌우로 제2 스캔 라인(803)을 만들 수 있다.
이때, 기준 영역(801)의 종횡비나 크기 등에 따라 제2 스캔 라인(803)의 범위가 결정될 수 있으며, 예를 들어 가로 문자의 경우 기준 영역(801)의 세로 길이에 비례하여 제2 스캔 라인(803)의 범위가 결정될 수 있으며, 기준 영역(801)의 면적이 클수록 제2 스캔 라인(803)의 범위가 크게 결정될 수 있다.
도 9에 도시한 바와 같이, 문단 검출부(220)는 제2 스캔 라인(803)을 통해 주변에 위치한 라인 문자열을 찾아 이를 기준 영역(801)과 병합해 나가는 방식으로 문단 문자열(901)을 찾을 수 있다.
문단 검출부(220)는 라인 문자열의 적어도 일부 혹은 일정 비율 이상의 면적이 기준 영역(801)의 제2 스캔 라인(803)에 포함되는 라인 문자열을 기준 영역(801)과의 병합 대상에 포함시킬 수 있다.
이때, 문단 검출부(220)는 기준 영역(801)의 제2 스캔 라인(803)을 통해 검색된 라인 문자열 중 문자 폰트가 기준 영역(801)의 문자 폰트와 상이하거나 문자 크기가 기준 영역(801)의 문자 크기와 임계치 이상의 차이를 가진 라인 문자열의 경우 기준 영역(801)과의 병합 대상에서 제외시키고 별도의 문단 문자열로 처리할 수 있다.
문단 검출부(220)는 기준 영역(801)의 제2 스캔 라인(803)을 통해 검색된 라인 문자열을 정해진 기준에 따라 하나의 문단으로 정렬할 수 있으며, 예를 들어 기준 영역(801)의 문자가 가로 문자인 경우 위에서 아래로 정렬해 나가고, 세로 문자인 경우 오른쪽에서 왼쪽으로 정렬해 나감으로써 문단 문자열(901)을 만들 수 있다.
도 10을 참조하면, 문단 검출부(220)는 문단 문자열(901)을 기준으로 하여 인접한 라인 문자열을 찾기 위한 제2 스캔 라인(1003)을 만들어 상기한 방법을 반복할 수 있다.
문단 검출부(220)는 제2 스캔 라인을 통해 인접한 라인 문자열을 찾아 임계치 이내의 라인 문자열을 병합 및 정렬함으로써 도 11에 도시한 바와 같이 문자 인식 결과에서 모든 문단 문자열(1101)을 찾을 수 있다.
문단 검출부(220)는 문단 문자열을 찾는 과정에서 서로 다른 기준 영역의 제2 스캔 라인에 중복으로 검색되는 라인 문자열이 존재하는 경우 최초로 걸리는 제2 스캔 라인의 기준 영역과 병합하거나 혹은 별도의 문단 문자열로 처리할 수 있다.
또한, 문단 검출부(220)는 제2 스캔 라인을 통해 검색된 라인 문자열의 문자 방향이 기준 영역의 문자 방향과 임계치 이상으로 다른 경우 해당 라인 문자열을 기준 영역과의 병합 대상에서 제외시키고 별도의 문단 문자열로 처리할 수 있다.
(3) 문자열 정렬
도 12는 본 발명의 일실시예에 있어서 문자열을 정렬하는 과정을 설명하기 위한 예시 도면이다.
문자열 정렬부(230)는 문자 인식 결과에서 검출된 문단 문자열을 정해진 기준에 따라 정렬할 수 있다. 문자열 정렬부(230)는 가로 문자의 경우 문단 문자열을 위에서 아래로 정렬하고, 세로 문자의 경우 문단 문자열을 오른쪽에서 왼쪽으로 정렬할 수 있다.
도 12를 참조하면, 본 발명에서는 문자 인식 결과에 포함된 문자 영역(410)의 종횡비를 기준으로 하여 주변 문자를 찾아 병합하는 방식을 통해 문자 인식 결과에서 라인 문자열과 문단 문자열을 차례로 검출하고 이를 정렬함으로써 문자 인식 결과를 하나의 문자열(1210)로 표현할 수 있다. 이때, 문자열(1210)은 적어도 하나의 라인 문자열로 이루어진 적어도 하나의 문단 문자열로 이루어질 수 있다.
문자열 정렬부(230)는 문자 인식 결과에 포함된 각 문자 영역(410)에 대해 문자열 정렬 결과에 따른 순서를 부여할 수 있고 부여된 순서 기반의 문자열을 번역이나 정보 검색 등을 위한 입력 문자열로 이용할 수 있다.
이처럼 본 발명의 실시예들에 따르면, 문자 인식 결과로부터 라인 단위의 문자열을 검출하여 정렬함으로써 문자 인식 결과를 하나의 문자열로 표현할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (20)

  1. 컴퓨터 시스템에서 실행되는 문자열 정렬 방법에 있어서,
    상기 컴퓨터 시스템은 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,
    상기 문자열 정렬 방법은,
    상기 적어도 하나의 프로세서에 의해, 이미지에서 인식된 문자 영역의 종횡비를 기준으로 하여 인접한 문자 영역을 찾아 병합하는 방식을 통해 라인 단위의 문자열을 검출하는 단계;
    상기 적어도 하나의 프로세서에 의해, 상기 라인 단위의 문자열을 정해진 기준에 따라 정렬하는 단계;
    상기 적어도 하나의 프로세서에 의해, 상기 라인 단위의 문자열의 종횡비를 기준으로 하여 인접한 라인 단위의 문자열을 찾아 병합하는 방식을 통해 문단 단위의 문자열을 검출하는 단계; 및
    상기 적어도 하나의 프로세서에 의해, 상기 문단 단위의 문자열을 정해진 기준에 따라 정렬하는 단계
    를 포함하고,
    상기 이미지에서 인식된 문자 영역을 상기 라인 단위의 문자열과 상기 문단 단위의 문자열로 차례로 병합 및 정렬함에 따라 상기 이미지에 대한 문자 인식 결과를 하나의 문자열로 표현하는 것
    을 특징으로 하는 문자열 정렬 방법.
  2. 제1항에 있어서,
    상기 라인 단위의 문자열을 검출하는 단계는,
    이미지에서 인식된 문자 영역 중 기준이 되는 문자 영역인 기준 영역을 결정하는 단계; 및
    상기 기준 영역을 기준으로 한 제1 스캔 라인을 통해 상기 기준 영역과 인접한 문자 영역을 검색하여 하나의 라인으로 병합 및 정렬하는 단계
    를 포함하는 문자열 정렬 방법.
  3. 제2항에 있어서,
    상기 기준 영역을 결정하는 단계는,
    문자 영역의 종횡비를 기준으로 하여 상기 기준 영역을 결정하는 것
    을 특징으로 하는 문자열 정렬 방법.
  4. 제2항에 있어서,
    상기 라인 단위의 문자열을 검출하는 단계는,
    상기 기준 영역의 가로와 세로 중 길이가 긴 길이 방향으로 상기 기준 영역과 인접한 문자 영역을 검색하기 위한 제1 스캔 라인을 생성하는 단계
    를 더 포함하는 문자열 정렬 방법.
  5. 제2항에 있어서,
    상기 기준 영역의 종횡비나 면적에 따라 상기 제1 스캔 라인의 범위가 결정되는 것
    을 특징으로 하는 문자열 정렬 방법.
  6. 제2항에 있어서,
    상기 하나의 라인으로 병합 및 정렬하는 단계는,
    문자 영역의 적어도 일부 혹은 일정 비율 이상의 면적이 상기 제1 스캔 라인에 포함되는 문자 영역을 상기 기준 영역과의 병합 대상에 포함시키는 것
    을 특징으로 하는 문자열 정렬 방법.
  7. 제2항에 있어서,
    상기 하나의 라인으로 병합 및 정렬하는 단계는,
    상기 제1 스캔 라인을 통해 검색된 문자 영역 중에서 문자 폰트 및 문자 크기 중 적어도 하나가 상기 기준 영역의 문자와 다른 문자 영역의 경우 상기 기준 영역과의 병합 대상에서 제외시키는 것
    을 특징으로 하는 문자열 정렬 방법.
  8. 제2항에 있어서,
    상기 하나의 라인으로 병합 및 정렬하는 단계는,
    상기 제1 스캔 라인을 통해 검색된 문자 영역의 문자 방향이 상기 기준 영역의 문자 방향과 임계치 이상 다른 경우 상기 기준 영역과의 병합 대상에서 제외시키는 것
    을 특징으로 하는 문자열 정렬 방법.
  9. 제2항에 있어서,
    상기 하나의 라인으로 병합 및 정렬하는 단계는,
    서로 다른 기준 영역의 제1 스캔 라인에 의해 중복으로 검색되는 문자 영역의 경우 종횡비가 더 큰 기준 영역과 병합되도록 처리하는 것
    을 특징으로 하는 문자열 정렬 방법.
  10. 삭제
  11. 제1항에 있어서,
    상기 문단 단위의 문자열을 검출하는 단계는,
    상기 라인 단위의 문자열 중 기준이 되는 문자열인 기준 문자열을 결정하는 단계; 및
    상기 기준 문자열을 기준으로 한 제2 스캔 라인을 통해 상기 기준 문자열과 인접한 라인 단위의 문자열을 검색하여 하나의 문단으로 병합 및 정렬하는 단계
    를 포함하는 문자열 정렬 방법.
  12. 제11항에 있어서,
    상기 문단 단위의 문자열을 검출하는 단계는,
    상기 기준 문자열의 가로와 세로 중 길이가 긴 길이 방향에 대해 법선 벡터 방향으로 상기 기준 문자열과 인접한 라인 단위의 문자열을 검색하기 위한 제2 스캔 라인을 생성하는 단계
    를 더 포함하는 문자열 정렬 방법.
  13. 제1항 내지 제9항, 제11항, 제12항 중 어느 한 항의 문자열 정렬 방법을 상기 컴퓨터 시스템에 실행시키기 위해 비-일시적인 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램.
  14. 컴퓨터 시스템에 있어서,
    메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서
    를 포함하고,
    상기 적어도 하나의 프로세서는,
    이미지에서 인식된 문자 영역의 종횡비를 기준으로 하여 인접한 문자 영역을 찾아 병합하는 방식을 통해 라인 단위의 문자열을 검출하는 라인 검출부;
    상기 라인 단위의 문자열을 정해진 기준에 따라 정렬하는 문자열 정렬부; 및
    상기 라인 단위의 문자열의 종횡비를 기준으로 하여 인접한 라인 단위의 문자열을 찾아 병합하는 방식을 통해 문단 단위의 문자열을 검출하는 문단 검출부
    를 포함하고,
    상기 문자열 정렬부는,
    상기 문단 단위의 문자열을 정해진 기준에 따라 정렬하고,
    상기 적어도 하나의 프로세서는,
    상기 이미지에서 인식된 문자 영역을 상기 라인 단위의 문자열과 상기 문단 단위의 문자열로 차례로 병합 및 정렬함에 따라 상기 이미지에 대한 문자 인식 결과를 하나의 문자열로 표현하는 것
    을 특징으로 하는 컴퓨터 시스템.
  15. 제14항에 있어서,
    상기 라인 검출부는,
    이미지에서 인식된 문자 영역 중 기준이 되는 문자 영역인 기준 영역을 결정한 후 상기 기준 영역을 기준으로 한 제1 스캔 라인을 통해 상기 기준 영역과 인접한 문자 영역을 검색하여 하나의 라인으로 병합 및 정렬함으로써 상기 라인 단위의 문자열을 검출하는 것
    을 특징으로 하는 컴퓨터 시스템.
  16. 제15항에 있어서,
    상기 라인 검출부는,
    문자 영역의 종횡비를 기준으로 하여 상기 기준 영역을 결정하는 것
    을 특징으로 하는 컴퓨터 시스템.
  17. 제15항에 있어서,
    상기 라인 검출부는,
    상기 기준 영역의 가로와 세로 중 길이가 긴 길이 방향으로 상기 기준 영역과 인접한 문자 영역을 검색하기 위한 제1 스캔 라인을 생성하는 것
    을 특징으로 하는 컴퓨터 시스템.
  18. 삭제
  19. 제14항에 있어서,
    상기 문단 검출부는,
    상기 라인 단위의 문자열 중 기준이 되는 문자열인 기준 문자열을 결정한 후 상기 기준 문자열을 기준으로 한 제2 스캔 라인을 통해 상기 기준 문자열과 인접한 라인 단위의 문자열을 검색하여 하나의 문단으로 병합 및 정렬함으로써 상기 문단 단위의 문자열을 검출하는 것
    을 특징으로 하는 컴퓨터 시스템.
  20. 제19항에 있어서,
    상기 문단 검출부는,
    상기 기준 문자열의 가로와 세로 중 길이가 긴 길이 방향에 대해 법선 벡터 방향으로 상기 기준 문자열과 인접한 라인 단위의 문자열을 검색하기 위한 제2 스캔 라인을 생성하는 것
    을 특징으로 하는 컴퓨터 시스템.
KR1020190015183A 2019-02-08 2019-02-08 라인 단위의 문자열을 검출 및 정렬하기 위한 방법 및 시스템 KR102138748B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190015183A KR102138748B1 (ko) 2019-02-08 2019-02-08 라인 단위의 문자열을 검출 및 정렬하기 위한 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190015183A KR102138748B1 (ko) 2019-02-08 2019-02-08 라인 단위의 문자열을 검출 및 정렬하기 위한 방법 및 시스템

Publications (1)

Publication Number Publication Date
KR102138748B1 true KR102138748B1 (ko) 2020-07-28

Family

ID=71831580

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190015183A KR102138748B1 (ko) 2019-02-08 2019-02-08 라인 단위의 문자열을 검출 및 정렬하기 위한 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR102138748B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220036165A (ko) * 2020-09-15 2022-03-22 네이버 주식회사 이미지에서 인식된 텍스트를 계층화하는 방법, 시스템, 및 컴퓨터 프로그램
WO2024063492A1 (ko) * 2022-09-20 2024-03-28 삼성전자 주식회사 영상을 표시하는 전자 장치 및 전자 장치의 동작 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1031716A (ja) * 1996-05-13 1998-02-03 Matsushita Electric Ind Co Ltd 文字行抽出方法および装置
JP2016021086A (ja) * 2014-07-11 2016-02-04 コニカミノルタ株式会社 電子文書生成システム、電子文書生成装置およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1031716A (ja) * 1996-05-13 1998-02-03 Matsushita Electric Ind Co Ltd 文字行抽出方法および装置
JP2016021086A (ja) * 2014-07-11 2016-02-04 コニカミノルタ株式会社 電子文書生成システム、電子文書生成装置およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220036165A (ko) * 2020-09-15 2022-03-22 네이버 주식회사 이미지에서 인식된 텍스트를 계층화하는 방법, 시스템, 및 컴퓨터 프로그램
KR102530657B1 (ko) * 2020-09-15 2023-05-09 네이버 주식회사 이미지에서 인식된 텍스트를 계층화하는 방법, 시스템, 및 컴퓨터 프로그램
WO2024063492A1 (ko) * 2022-09-20 2024-03-28 삼성전자 주식회사 영상을 표시하는 전자 장치 및 전자 장치의 동작 방법

Similar Documents

Publication Publication Date Title
KR102225093B1 (ko) 카메라 포즈 추정 장치 및 방법
US8838657B1 (en) Document fingerprints using block encoding of text
EP3884400A1 (en) Layout-agnostic complex document processing system
KR101114135B1 (ko) 카메라 입력된 문서들을 위한 저해상 ocr
KR20210042864A (ko) 테이블 식별 방법, 장치, 기기, 매체 및 컴퓨터 프로그램
CN110909725A (zh) 识别文本的方法、装置、设备及存储介质
JP6951905B2 (ja) 手書きテキスト画像に対する行及び単語切り出し方法
US9076056B2 (en) Text detection in natural images
CN110502985B (zh) 表格识别方法、装置及表格识别设备
KR101029160B1 (ko) 이미지 데이터베이스에 신규 이미지 및 이에 대한 정보를 추가하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
KR101759858B1 (ko) 2차 미분 에지 검출 방법의 에지 배향
KR20160132842A (ko) 플로우 문서를 생성하기 위한 이미지 문서 컴포넌트 검출 및 추출 기법
US10706322B1 (en) Semantic ordering of image text
RU2697649C1 (ru) Способы и системы сегментации документа
AU2019419891B2 (en) System and method for spatial encoding and feature generators for enhancing information extraction
CN113033269B (zh) 一种数据处理方法及装置
JP2021135993A (ja) テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体
KR101836811B1 (ko) 이미지 상호간의 매칭을 판단하는 방법, 장치 및 컴퓨터 프로그램
KR101713690B1 (ko) 특징 선택 방법을 이용한 비주얼 기술자 추출 방법 및 시스템
KR102138748B1 (ko) 라인 단위의 문자열을 검출 및 정렬하기 위한 방법 및 시스템
KR102138747B1 (ko) 가로 글자와 세로 글자를 동시에 처리하기 위한 방법 및 시스템
JP2010102709A (ja) 文字列認識方法、文字列認識システム及び文字列認識プログラム用記録媒体
JP2022185143A (ja) テキスト検出方法、テキスト認識方法及び装置
Hu et al. Generalized image recognition algorithm for sign inventory
CN113343658A (zh) 一种pdf文件信息抽取方法、装置以及计算机设备

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant