KR102374280B1 - 이미지로부터 추출한 텍스트의 블록화 시스템 및 그 방법 - Google Patents

이미지로부터 추출한 텍스트의 블록화 시스템 및 그 방법 Download PDF

Info

Publication number
KR102374280B1
KR102374280B1 KR1020200024022A KR20200024022A KR102374280B1 KR 102374280 B1 KR102374280 B1 KR 102374280B1 KR 1020200024022 A KR1020200024022 A KR 1020200024022A KR 20200024022 A KR20200024022 A KR 20200024022A KR 102374280 B1 KR102374280 B1 KR 102374280B1
Authority
KR
South Korea
Prior art keywords
text
character
extracted
texts
block
Prior art date
Application number
KR1020200024022A
Other languages
English (en)
Other versions
KR20210109145A (ko
Inventor
박지혁
한예지
장민성
Original Assignee
주식회사 와들
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 와들 filed Critical 주식회사 와들
Priority to KR1020200024022A priority Critical patent/KR102374280B1/ko
Priority to PCT/KR2020/015824 priority patent/WO2021172700A1/ko
Publication of KR20210109145A publication Critical patent/KR20210109145A/ko
Application granted granted Critical
Publication of KR102374280B1 publication Critical patent/KR102374280B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06K9/6267
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/182Extraction of features or characteristics of the image by coding the contour of the pattern
    • G06V30/1823Extraction of features or characteristics of the image by coding the contour of the pattern using vector-coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

본 발명은 이미지로부터 추출한 텍스트의 블록화 시스템 및 그 방법에 관한 것으로서, 입력받은 이미지로부터 텍스트를 추출하는 문자 인식부; 추출된 텍스트들을 상호간의 자간 거리를 기준으로 그룹화하는 문자 그룹화부; 및 그룹화된 텍스트들을 벡터 형태로 변환하여 국가별 언어 모음집에 포함된 텍스트 속성과의 코사인 유사도를 계산하고, 계산결과 유사도가 기 설정된 기준에 부합하는 경우 그룹화된 텍스트들을 문장으로 인식하여 텍스트 블록을 생성하는 문자 블록화부를 포함한다.
상기와 같은 본 발명에 따르면, 이미지로부터 추출한 텍스트들을 상호간의 자간 거리를 기준으로 그룹화하고, 그룹 내의 텍스트들에 대한 임베딩을 통해 추출한 문장을 블록화 하고, 스크린 리더기를 통해 인식한 텍스트를 출력함으로써, 시각장애인에게 부자연스럽게 끊어진 문자가 아니라 텍스트 블록에 포함된 텍스트를 한 번에 안내할 수 있다.

Description

이미지로부터 추출한 텍스트의 블록화 시스템 및 그 방법{Blocking System of Text Extracted from Image and Its Method}
본 발명은 이미지로부터 추출한 텍스트의 블록화 시스템 및 그 방법에 관한 것으로, 더욱 상세하게는 이미지로부터 추출한 텍스트를 자연어 처리하여 문장별로 구분하되, 추출된 텍스트들 간의 상관관계에 따라 선별된 문장을 블록화 하는 기술에 관한 것이다.
광학 문자 판독 장치(OCR : Optical Character Reader)는 빛을 이용해 문자를 판독하는 장치로, 종이에 인쇄되거나 손으로 쓴 문자, 숫자 또는 다른 기호의 형태가 갖는 정보로부터 디지털 컴퓨터에 알맞게 부호화된 전기신호로 변환하는 장치를 일컫는다.
종래의 OCR은 글자를 낱개로 인식하여 출력하기 때문에 단어, 문장, 문단 단위로 가공하기에 어려움이 있다.
예컨대, 종래의 OCR은 이미지로부터 인식한 텍스트를 순차적으로 출력하도록 구성되고, 이때 인식한 텍스트를 TTS(Text To Speech) 기능을 통해 출력할 수 있다. 그러나, 출력된 음성에서 어디서부터 어디까지가 하나의 문장인지 구분하기 어렵다는 단점이 있다.
따라서, 이미지로부터 인식한 텍스트를 문장단위로 정확하게 구분해 별도의 블록으로 지정하는 기술적 보완이 요구된다.
대한민국 공개특허 제10-2017-0010843호(2017.02.01.공개)
본 발명의 목적은, 이미지로부터 추출한 텍스트들을 상호간의 자간 거리를 기준으로 그룹화하고, 그룹 내의 텍스트들에 대한 임베딩을 통해 추출한 문장을 블록화 함으로써, 인식된 텍스트들을 문맥에 맞게 문장별로 구분하여 블록화해 출력하는데 있다.
본 발명의 목적은, 그룹화된 텍스트들 간의 글자 높이(크기)를 비교하고, 그룹 내의 텍스트들을 벡터 형태로 변환해 국가별 언어 모음집에 포함된 텍스트와의 코사인 유사도를 계산함으로써, 유사도에 따른 그룹화 갱신을 통해 문장 블록에 대한 신뢰도를 향상시키는데 있다.
이러한 기술적 과제를 해결하기 위한 본 발명의 일 실시예는 이미지로부터 추출한 텍스트의 블록화 시스템으로서, 입력받은 이미지로부터 텍스트를 추출하는 문자 인식부; 추출된 텍스트들을 상호간의 자간 거리를 기준으로 그룹화하는 문자 그룹화부; 및 그룹화된 텍스트들을 벡터 형태로 변환하여 국가별 언어 모음집에 포함된 텍스트 속성과의 코사인 유사도를 계산하고, 계산결과 유사도가 기 설정된 기준에 부합하는 경우 그룹화된 텍스트들을 문장으로 인식하여 텍스트 블록을 생성하는 문자 블록화부를 포함하는 것을 특징으로 한다.
바람직하게는, 문자 그룹화부는 추출된 텍스트들 간의 자간거리를 추출하고, 기 설정된 기준에 부합하는 자간거리를 갖는 텍스트들 각각을 하나의 그룹으로 묶어 그룹화하되, 그룹화된 텍스트들에 대해 단어별로 띄어쓰기를 반영하여 자간거리를 조정하는 것을 특징으로 한다.
문자 블록화부는, 문자 그룹화부에 의해 그룹화된 텍스트들에 대한 임베딩을 수행하여 벡터 형태로 변환하는 벡터모듈; 벡터 형태로 변환된 텍스트와 기 저장된 국가별 언어 모음집으로부터 색인한 텍스트의 속성 간에 코사인 유사도를 계산하는 연산모듈; 및 계산된 코사인 유사도 값이 기 설정된 기준에 부합하는 경우, 해당 그룹에 포함된 텍스트를 문장으로 인식하여 텍스트 블록을 생성하는 블록모듈을 포함하는 것을 특징으로 한다.
텍스트 블록들 간의 중심좌표 거리가 설정된 범위 이내인 경우, 중심좌표 거리가 설정된 범위 이내인 텍스트 블록 각각을 하나의 텍스트 블록으로 병합시키는 문맥 검증부를 더 포함하는 것을 특징으로 한다.
그리고, 전술한 시스템을 기반으로 하는 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 방법은, 문자 인식부가 입력받은 이미지로부터 텍스트를 추출하는 (a) 단계; 문자 그룹화부가 추출된 텍스트들을 상호간의 자간 거리를 기준으로 그룹화하는 (b) 단계; 문자 블록화부가 그룹화된 텍스트들을 벡터 형태로 변환하여 국가별 언어 모음집에 포함된 텍스트 속성과의 코사인 유사도를 계산하는 (c) 단계; 및 (c) 단계의 계산결과, 유사도가 기 설정된 기준에 부합하는 경우, 문자 블록화부가 그룹화된 텍스트들을 문장으로 인식하여 텍스트 블록을 생성하는 (d) 단계를 포함하는 것을 특징으로 한다.
바람직하게는, (d) 단계 이후 문맥 검증부가 문자 블록화부에 의해 생성된 텍스트 블록 간의 거리 및 중심좌표를 추출하는 (e) 단계; 문맥 검증부가 추출한 텍스트 블록 간의 거리 및 중심좌표가 기 설정된 기준 이내인지 여부를 판단하는 (f) 단계; 및 문맥 검증부가 해당 텍스트 블록을 하나의 텍스트 블록으로 병합하는 (g) 단계를 포함하는 것을 특징으로 한다.
상기와 같은 본 발명의 일 실시예에 따르면, 이미지로부터 추출한 텍스트들을 상호간의 자간 거리를 기준으로 그룹화하고, 그룹 내의 텍스트들에 대한 임베딩을 통해 추출한 문장을 블록화 함으로써, 인식된 텍스트들을 문맥에 맞게 문장별로 구분하여 블록화해 출력하는 효과가 있다.
본 발명에 따르면, 그룹화된 텍스트들 간의 글자 높이(크기)를 비교하고, 그룹 내의 텍스트들을 벡터 형태로 변환해 국가별 언어 모음집에 포함된 텍스트와의 코사인 유사도를 계산함으로써, 유사도에 따른 그룹화 갱신을 통해 문장 블록에 대한 신뢰도를 향상시키는 효과가 있다.
본 발명에 따르면, 이미지에서 추출된 텍스트를 블록화하여 화면에 추가해 스크린 리더기를 통해 인식한 텍스트를 출력함으로써, 시각장애인에게 부자연스럽게 끊어진 문자가 아니라 텍스트 블록에 포함된 텍스트를 한 번에 안내할 수 있다.
본 발명에 따르면, 텍스트 블록화를 통해 각 블록의 크기, 너비, 길이, 위치 등 공간적 정보를 생성하고, 이 공간적 정보를 통해 텍스트가 가진 내용이나 형식을 예측함으로써, '머리말', '세부 설명' 등 블록의 메타 정보 생성하여 이미지의 목차를 만들거나 이미지의 특정 지점을 빠르게 도달할 수 있는 북마크 기능을 제공하는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템을 도시한 블록도.
도 2a는 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템이, 블록화 대상 이미지로부터 텍스트를 인식한 것을 도시한 예시도.
도 2b는 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템이, 자간거리를 토대로 띄어쓰기를 반영해 텍스트들을 그룹화한 것을 도시한 예시도.
도 3은 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템의 문자 불록화부에 대한 세부구성과, 그룹화된 텍스트에 대한 코사인 유사도 계산에 따라 인식한 문장을 텍스트 블록을 생성한 것을 도시한 예시도
도 4는 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템의 문맥 검증부에 대한 세부구성과, 텍스트 블록간의 거리에 따라 텍스트 블록이 확정된 것을 도시한 예시도.
도 5는 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템의 공간정보 생성부 및 매타정보 생성부를 도시한 블록도.
도 6은 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 방법을 도시한 순서도.
도 7은 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 방법의 제S606단계에 대한 세부과정을 도시한 순서도.
도 8은 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 방법의 제S610단계 이후과정을 도시한 순서도.
본 발명의 구체적인 특징 및 이점들은 첨부 도면에 의거한 다음의 상세한 설명으로 더욱 명백해질 것이다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 발명자가 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 그 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다. 또한, 본 발명에 관련된 공지 기능 및 그 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는, 그 구체적인 설명을 생략하였음에 유의해야 할 것이다.
도 1을 참조하면 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템(S)은, 입력받은 이미지로부터 텍스트를 추출하는 문자 인식부(100)와, 추출된 텍스트들을 상호간의 자간 거리를 기준으로 그룹화하는 문자 그룹화부(200), 및 그룹화된 텍스트들을 벡터 형태로 변환하여 국가별 언어 모음집에 포함된 텍스트 속성과의 코사인 유사도를 계산하고, 계산결과 유사도가 기 설정된 기준에 부합하는 경우 그룹화된 텍스트들을 문장으로 인식하여 텍스트 블록을 생성하는 문자 블록화부(300)를 포함하여 구성된다.
이하에서는 그 구체적인 언급을 생략하겠으나, 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템(S)은, 정보통신망을 통해 접속된 서버와 통신이 가능한 PC, 노트북, 태블릿 또는 스마트폰 중에 어느 하나의 디바이스에 내장되고, 온라인을 통해 배포되어 설치되는 어플리케이션에 의해 구동된다.
이하, 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템(S)의 세부구성에 대해 살피면 아래와 같다.
구체적으로, 문자 인식부(100)는 입력받은 이미지에 포함된 텍스트 각각을 개별적으로 추출하여 순차적으로 인식하고, 인식된 텍스트를 문자 블록부(200)로 인가한다.
또한, 문자 그룹화부(200)부는 추출된 텍스트들 간의 자간거리를 추출하고, 기 설정된 기준에 부합하는 자간거리를 갖는 텍스트들 각각을 하나의 그룹으로 묶어 그룹화 한다. 이때, 그룹화된 텍스트들에 대해 단어별로 띄어쓰기를 반영하여 자간거리를 조정할 수 있다.
도 2a는 블록화 대상 이미지로부터 텍스트를 인식한 것을 도시한 예시도이고, 도 2b는 자간거리를 토대로 띄어쓰기를 반영해 텍스트들을 그룹화한 것을 도시한 예시도이다.
도 2a 및 도 2b를 참조하면, 문자 인식부(100)로부터 '넉', '넉', '한', '접', '착', '면' 과 같은 텍스트를 인식결과를 인가받는 문자 그룹화부(200)는, '넉', '넉', '한', '접', '착', '면' 에 대한 텍스트 각각의 자간거리를 추출한다. 이때 추출한 텍스트 간의 자간거리는 [표 1]에 나타낸 바와 같다.
[표 1]
Figure 112020020625438-pat00001
그리고, 문자 그룹화부(200)가 의미 있는 단어별로 띄어쓰기를 반영해 '넉넉한' 및 '접착면' 에 대한 텍스트를 그룹으로 설정하게 된다.
도 3은 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템(S)의 문자 블록화부(300)에 대한 세부구성과, 그룹화된 텍스트에 대한 코사인 유사도 계산에 따라 인식한 문장을 텍스트 블록을 생성한 것을 도시한 예시도이다.
도 3을 참조하면, 문자 블록화부(300)는 문자 그룹화부(200)에 의해 그룹화된 텍스트들에 대한 임베딩을 수행하여 벡터 형태로 변환하는 벡터모듈(302)과, 벡터 형태로 변환된 텍스트와 기 저장된 국가별 언어 모음집으로부터 색인한 텍스트의 속성 간에 코사인 유사도를 계산하는 연산모듈(304), 및 계산된 코사인 유사도 값이 기 설정된 기준에 부합하는 경우, 해당 그룹에 포함된 텍스트를 문장으로 인식하여 텍스트 블록을 생성하는 블록모듈(306)을 포함한다.
이때, 벡터모듈(302)이 수행하는 임베딩은 사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자의 나열인 벡터로 변환하는 절차로 이해하는 것이 바람직하다.
또한, 연산모듈(304)은 코사인 유사도 계산을 통해 그룹화된 텍스트가 이상하게 묶이지 않았는지 검증하는 기능을 수행하며, 유사도가 기 설정된 기준 이하인 경우, 문자 그룹화부(200)에 의해 그룹화 절차를 다시 수행하도록 구성된다.
도 3의 예를 참조하면, 연산모듈(304)은 'Post'에서 't'의 가로 길이, 세로 길이(18, 38)와 'it'에서 'i'의 가로 길이, 세로 길이(8, 38)를 추출하고, '넉넉한'에서 '한'의 가로 길이, 세로 길이(4, 40)와 '접착면'에서 '접'의 가로 길이, 세로 길이(4, 40)를 추출하여 블록모듈(306)로 인가한다.
그리고, 블록모듈(306)은 연산모듈(304)의 코사인 유사도 계산에 따라 동일한 세로 길이를 갖는 'Post'의 't'와 'it'의 'i'가 포함된 그룹의 텍스트를 하나의 문장으로 인식하여 텍스트 블록으로 설정하고, 마찬가지로 '넉넉한'의 '한'과 '접착면'의 '접'이 포함된 그룹의 텍스트를 하나의 문장으로 인식하여 텍스트 블록으로 설정하게 된다.
한편, 도 4를 참조하면 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템(S)은, 다수의 텍스트 블록들 간의 중심좌표 거리가 설정된 범위 이내인 경우, 중심좌표 거리가 설정된 범위 이내인 텍스트 블록 각각을 하나의 텍스트 블록으로 병합시키는 문맥 검증부(400)를 더 포함하여 구성된다.
이러한, 문맥 검증부(400)는 문자 블록화부(300)에 의해 생성된 텍스트 블록 간의 거리 및 중심좌표를 추출하고, 텍스트 블록 간의 거리 및 중심좌표가 기 설정된 기준 이내인 경우 해당 텍스트 블록을 하나의 텍스트 블록으로 병합시키도록 구성된다.
도 4의 예를 참조하면, 문맥 검증부(400)는 텍스트 블록간의 거리로 '넉넉한 접착면'과 '붙였다 떼도 깔끔하게!'를 하나의 문맥으로 인식하고, '넉넉한 접착면'과 '포스트-잇 노트'는 다른 문맥으로 분리할 수 있다.
즉, 문맥 검증부(400)의 동일 문맥 인식 및 다른 문맥 분리는 아래와 같이 텍스트 블록 '넉넉한 접착면'과, 텍스트 블록 '붙였다 떼도 깔끔하게!' 간의 거리를 도출하고, 텍스트 블록 '넉넉한 접착면'과, 텍스트 블록 '포스트-잇 노트' 간의 거리를 도출한 이후, 도출한 텍스트 블록간의 거리가 기 설정된 값 이내인 경우 하나의 텍스트 블록으로 병합하고, 도출한 텍스트 블록간의 거리가 기 설정된 값을 벗어나는 경우, 하나의 문맥이 아닌 것으로 판단하게 된다.
이때, 문맥 검증부(400)가 각 텍스트 블록간의 거리를 도출한 값은 아래와 같다.
'넉넉한 접착면' 블록의 중심 좌표와 '붙였다 떼도 깔끔하게!' 블록의 중심 좌표의 거리 =
Figure 112020020625438-pat00002
= 20.25
'넉넉한 접착면' 블록의 중심 좌표와 '포스트-잇 노트' 블록의 중심 좌표의 거리 =
Figure 112020020625438-pat00003
= 283.73
그리고, 도 5를 참조하면, 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템(S)은, 문자 블록화부(300)에 의해 생성된 텍스트 블록의 크기, 너비, 길이, 또는 위치 중에 어느 하나를 포함하는 공간적 정보를 생성하는 공간정보 생성부(500), 및 공간적 정보를 인가받아 텍스트 블록 각각에 대한 시계열적 출력 리스트를 생성하고, 출력 리스트에 머리말 또는 북마크를 설정하는 메타정보를 생성하는 메타정보 생성부(600)를 더 포함하여 구성된다.
이처럼, 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템(S)에 의하면, 단순히 텍스트를 인식하는 것에 그치는 것이 아니라, 이미지의 목차를 만들거나 이미지의 특정 지점을 빠르게 도달할 수 있는 북마크 기능을 제공할 수 있다.
이하, 도 6을 참조하여 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 방법에 대해 살피면 아래와 같다.
먼저, 문자 인식부(100가 입력받은 이미지로부터 텍스트를 추출한다(S602).
이어서, 문자 그룹화부(200)가 추출된 텍스트들을 상호간의 자간 거리를 기준으로 그룹화한다(S604).
뒤이어, 문자 블록화부(300)가 그룹화된 텍스트들을 벡터 형태로 변환하여 국가별 언어 모음집에 포함된 텍스트 속성과의 코사인 유사도를 계산한다(S606).
뒤이어, 문자 블록화부(300)가 계산결과 유사도가 기 설정된 기준에 부합하는지 여부를 판단한다(S608).
제S608단계의 계산결과 유사도가 기 설정된 기준에 부합하는 경우, 문자 블록화부(300)가 그룹화된 텍스트들을 문장으로 인식하여 텍스트 블록을 생성한다(S610).
이하, 도 7을 참조하여 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 방법의 제S606단계에 대한 세부과정을 살피면 아래와 같다.
제S604단계 이후, 문자 블록화부(300)가 그룹화된 텍스트들에 대한 임베딩을 수행하여 벡터 형태로 변환한다(S702).
이어서, 문자 블록화부(300)가 벡터 형태로 변환된 텍스트와 기 저장된 국가별 언어 모음집으로부터 색인한 텍스트의 속성 간에 코사인 유사도를 계산한다(S704).
이하, 도 8을 참조하여 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 방법의 제S610단계 이후 과정에 대해 살피면 아래와 같다.
제S610단계 이후, 문맥 검증부(400)가 문자 블록화부(300)에 의해 생성된 텍스트 블록 간의 거리 및 중심좌표를 추출한다(S802).
이어서, 문맥 검증부(400)가 추출한 텍스트 블록 간의 거리 및 중심좌표가 기 설정된 기준 이내인지 여부를 판단한다(S804).
제S804단계의 판단결과, 텍스트 블록 간의 거리 및 중심좌표가 기 설정된 기준 이내인 경우, 문맥 검증부(400)가 해당 텍스트 블록을 하나의 텍스트 블록으로 병합시킨다(S806).
이처럼, 전술한 바와 같은 본 발명의 일 실시예에 의하면, 이미지에서 추출된 텍스트를 블록화하여 화면에 추가해 스크린 리더기를 통해 인식한 텍스트를 출력함으로써, 시각장애인에게 부자연스럽게 끊어진 문자가 아니라 텍스트 블록에 포함된 텍스트를 한 번에 안내할 수 있다.
이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시 예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정이 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다.
S: 이미지로부터 추출한 텍스트의 블록화 시스템
100: 문자 인식부
200: 문자 그룹화부
300: 문자 블록화부
302: 벡터모듈
304: 연산모듈
306: 블록모듈
400: 문맥 검증부
500: 공간정보 생성부
600: 메타정보 생성부

Claims (6)

  1. 입력받은 이미지로부터 텍스트를 추출하는 문자 인식부;
    추출된 텍스트들을 상호간의 자간 거리를 기준으로 그룹화하는 문자 그룹화부; 및
    그룹화된 텍스트들을 벡터 형태로 변환하여 국가별 언어 모음집에 포함된 텍스트 속성과의 코사인 유사도를 계산하고, 계산결과 유사도가 기 설정된 기준에 부합하는 경우 그룹화된 텍스트들을 문장으로 인식하여 텍스트 블록을 생성하는 문자 블록화부;
    상기 문자 블록화부에 의해 생성된 텍스트 블록의 크기, 너비, 길이, 또는 위치 중에 어느 하나를 포함하는 공간적 정보를 생성하는 공간정보 생성부; 및 공간적 정보를 인가받아 텍스트 블록 각각에 대한 시계열적 출력 리스트를 생성하고, 출력 리스트에 머리말 또는 북마크를 설정하는 메타정보를 생성하는 메타정보 생성부;를 포함하는 것을 특징으로 하는 이미지로부터 추출한 텍스트의 블록화 시스템.
  2. 제1항에 있어서,
    상기 문자 그룹화부는,
    추출된 텍스트들 간의 자간거리를 추출하고, 기 설정된 기준에 부합하는 자간거리를 갖는 텍스트들 각각을 하나의 그룹으로 묶어 그룹화하되,
    그룹화된 텍스트들에 대해 단어별로 띄어쓰기를 반영하여 자간거리를 조정하는 것을 특징으로 하는 이미지로부터 추출한 텍스트의 블록화 시스템.
  3. 제1항에 있어서,
    상기 문자 블록화부는,
    상기 문자 그룹화부에 의해 그룹화된 텍스트들에 대한 임베딩을 수행하여 벡터 형태로 변환하는 벡터모듈;
    벡터 형태로 변환된 텍스트와 기 저장된 국가별 언어 모음집으로부터 색인한 텍스트의 속성 간에 코사인 유사도를 계산하는 연산모듈; 및
    계산된 코사인 유사도 값이 기 설정된 기준에 부합하는 경우, 해당 그룹에 포함된 텍스트를 문장으로 인식하여 텍스트 블록을 생성하는 블록모듈을
    포함하는 것을 특징으로 하는 이미지로부터 추출한 텍스트의 블록화 시스템.
  4. 제1항에 있어서,
    상기 텍스트 블록들 간의 중심좌표 거리가 설정된 범위 이내인 경우, 중심좌표 거리가 설정된 범위 이내인 텍스트 블록 각각을 하나의 텍스트 블록으로 병합시키는 문맥 검증부를
    더 포함하는 것을 특징으로 하는 이미지로부터 추출한 텍스트의 블록화 시스템.
  5. (a) 문자 인식부가 입력받은 이미지로부터 텍스트를 추출하는 단계;
    (b) 문자 그룹화부가 추출된 텍스트들을 상호간의 자간 거리를 기준으로 그룹화하는 단계;
    (c) 문자 블록화부가 그룹화된 텍스트들을 벡터 형태로 변환하여 국가별 언어 모음집에 포함된 텍스트 속성과의 코사인 유사도를 계산하는 단계; 및
    (d) 상기 (c) 단계의 계산결과, 유사도가 기 설정된 기준에 부합하는 경우, 문자 블록화부가 그룹화된 텍스트들을 문장으로 인식하여 텍스트 블록을 생성하는 단계를 포함하며,
    상기 (d)단계 이후, 상기 문자 블록화부에 의해 생성된 텍스트 블록의 크기, 너비, 길이, 또는 위치 중에 어느 하나를 포함하는 공간적 정보를 공간정보 생성부로 생성하고, 상기 공간적 정보를 인가받아 텍스트 블록 각각에 대한 시계열적 출력 리스트를 생성하며, 출력 리스트에 머리말 또는 북마크를 설정하는 메타정보를 메타정보 생성부로 생성하는 단계;를 포함하는 것을 특징으로 하는 이미지로부터 추출한 텍스트의 블록화 방법.
  6. 제5항에 있어서,
    상기 (d) 단계 이후,
    (e) 문맥 검증부가 문자 블록화부에 의해 생성된 텍스트 블록 간의 거리 및 중심좌표를 추출하는 단계;
    (f) 문맥 검증부가 추출한 텍스트 블록 간의 거리 및 중심좌표가 기 설정된 기준 이내인지 여부를 판단하는 단계; 및
    (g) 문맥 검증부가 해당 텍스트 블록을 하나의 텍스트 블록으로 병합하는 단계를
    포함하는 것을 특징으로 하는 이미지로부터 추출한 텍스트의 블록화 방법.
KR1020200024022A 2020-02-27 2020-02-27 이미지로부터 추출한 텍스트의 블록화 시스템 및 그 방법 KR102374280B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200024022A KR102374280B1 (ko) 2020-02-27 2020-02-27 이미지로부터 추출한 텍스트의 블록화 시스템 및 그 방법
PCT/KR2020/015824 WO2021172700A1 (ko) 2020-02-27 2020-11-11 이미지로부터 추출한 텍스트의 블록화 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200024022A KR102374280B1 (ko) 2020-02-27 2020-02-27 이미지로부터 추출한 텍스트의 블록화 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20210109145A KR20210109145A (ko) 2021-09-06
KR102374280B1 true KR102374280B1 (ko) 2022-03-16

Family

ID=77491884

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200024022A KR102374280B1 (ko) 2020-02-27 2020-02-27 이미지로부터 추출한 텍스트의 블록화 시스템 및 그 방법

Country Status (2)

Country Link
KR (1) KR102374280B1 (ko)
WO (1) WO2021172700A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023234511A1 (ko) * 2022-05-31 2023-12-07 한림대학교 산학협력단 글자의 크기, 자간, 및 중심점의 높낮이 자동측정을 수행하는 전자 장치, 제어 방법, 및 컴퓨터 프로그램

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023128348A1 (ko) * 2021-12-28 2023-07-06 삼성전자 주식회사 이미지 내의 텍스트를 인식하는 전자 장치 및 그 동작 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015232778A (ja) * 2014-06-09 2015-12-24 株式会社日立情報通信エンジニアリング 文字認識装置及び文字認識方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101377601B1 (ko) * 2012-09-20 2014-03-25 주식회사 인지소프트 모바일 카메라를 이용한 자연 영상 다국어 문자 인식과 번역 시스템 및 방법
US9436682B2 (en) 2014-06-24 2016-09-06 Google Inc. Techniques for machine language translation of text from an image based on non-textual context information from the image
KR20170081350A (ko) * 2016-01-04 2017-07-12 한국전자통신연구원 이미지 텍스트에 대한 프레임 단위의 특징벡터 추출에 의한 문자인식 및 번역을 수행하는 문자통역 장치 및 방법
KR101846824B1 (ko) * 2017-12-11 2018-04-09 가천대학교 산학협력단 개체명 인식시스템, 방법, 및 컴퓨터 판독가능매체
KR102015218B1 (ko) * 2018-04-16 2019-10-21 한양대학교 산학협력단 기계 학습을 이용한 텍스트 분류 방법 및 장치
KR20200002141A (ko) * 2018-06-29 2020-01-08 김종진 이미지 기반의 언어학습 콘텐츠 제공 방법 및 이의 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015232778A (ja) * 2014-06-09 2015-12-24 株式会社日立情報通信エンジニアリング 文字認識装置及び文字認識方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023234511A1 (ko) * 2022-05-31 2023-12-07 한림대학교 산학협력단 글자의 크기, 자간, 및 중심점의 높낮이 자동측정을 수행하는 전자 장치, 제어 방법, 및 컴퓨터 프로그램

Also Published As

Publication number Publication date
WO2021172700A1 (ko) 2021-09-02
KR20210109145A (ko) 2021-09-06

Similar Documents

Publication Publication Date Title
Mithe et al. Optical character recognition
CN104966084A (zh) 一种基于ocr和tts的低视力阅读助视系统
KR102374280B1 (ko) 이미지로부터 추출한 텍스트의 블록화 시스템 및 그 방법
Ani et al. Smart Specs: Voice assisted text reading system for visually impaired persons using TTS method
CN108182432A (zh) 信息处理方法和装置
CN115511704B (zh) 一种虚拟客服生成方法、装置、电子设备及存储介质
KR102148021B1 (ko) 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 및 그 장치
US10276150B2 (en) Correction system, method of correction, and computer program product
Sanjrani et al. Handwritten optical character recognition system for Sindhi numerals
Khete et al. Autonomous Assistance System for Visually Impaired using Tesseract OCR & gTTS
Hairuman et al. OCR signage recognition with skew & slant correction for visually impaired people
De Zoysa et al. Project Bhashitha-Mobile based optical character recognition and text-to-speech system
KR20090111202A (ko) 한글의 기본 구성요소인 수평선, 수직선, 사선, 원의개수와 특성치를 이용한 한글인식 방법 및 장치
CN114067362A (zh) 基于神经网络模型的手语识别方法、装置、设备及介质
KR101430573B1 (ko) 시각 장애인용 점자 마커 및 점자 마커 인식 방법
EP3757825A1 (en) Methods and systems for automatic text segmentation
Bouazizi et al. Arabic reading machine for visually impaired people using TTS and OCR
Prasad Gradient feature based static sign language recognition
KR100983779B1 (ko) 도서 정보 서비스 장치 및 방법
Sanjrani et al. Multilingual OCR systems for the regional languages in Balochistan
KR102374281B1 (ko) 이미지로부터 추출한 텍스트 블록의 중요도 판단 시스템 및 그 방법
Adamska et al. Mobile system for optical music recognition and music sound generation
Jayyusi et al. Improved Camera-Based Text Reading Assistant System Using Digital Image Processing Techniques
KR102673900B1 (ko) 표 데이터 추출 시스템 및 그 방법
NS et al. Smart Reader for Visually Impaired

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right