KR20210109145A - 이미지로부터 추출한 텍스트의 블록화 시스템 및 그 방법 - Google Patents
이미지로부터 추출한 텍스트의 블록화 시스템 및 그 방법 Download PDFInfo
- Publication number
- KR20210109145A KR20210109145A KR1020200024022A KR20200024022A KR20210109145A KR 20210109145 A KR20210109145 A KR 20210109145A KR 1020200024022 A KR1020200024022 A KR 1020200024022A KR 20200024022 A KR20200024022 A KR 20200024022A KR 20210109145 A KR20210109145 A KR 20210109145A
- Authority
- KR
- South Korea
- Prior art keywords
- text
- character
- extracted
- texts
- image
- Prior art date
Links
- 230000000903 blocking effect Effects 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000012795 verification Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 description 10
- 239000000853 adhesive Substances 0.000 description 9
- 230000001070 adhesive effect Effects 0.000 description 9
- 239000000284 extract Substances 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000001771 impaired effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G06K9/20—
-
- G06K9/481—
-
- G06K9/6267—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/182—Extraction of features or characteristics of the image by coding the contour of the pattern
- G06V30/1823—Extraction of features or characteristics of the image by coding the contour of the pattern using vector-coding
-
- G06K2209/01—
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
Abstract
본 발명은 이미지로부터 추출한 텍스트의 블록화 시스템 및 그 방법에 관한 것으로서, 입력받은 이미지로부터 텍스트를 추출하는 문자 인식부; 추출된 텍스트들을 상호간의 자간 거리를 기준으로 그룹화하는 문자 그룹화부; 및 그룹화된 텍스트들을 벡터 형태로 변환하여 국가별 언어 모음집에 포함된 텍스트 속성과의 코사인 유사도를 계산하고, 계산결과 유사도가 기 설정된 기준에 부합하는 경우 그룹화된 텍스트들을 문장으로 인식하여 텍스트 블록을 생성하는 문자 블록화부를 포함한다.
상기와 같은 본 발명에 따르면, 이미지로부터 추출한 텍스트들을 상호간의 자간 거리를 기준으로 그룹화하고, 그룹 내의 텍스트들에 대한 임베딩을 통해 추출한 문장을 블록화 하고, 스크린 리더기를 통해 인식한 텍스트를 출력함으로써, 시각장애인에게 부자연스럽게 끊어진 문자가 아니라 텍스트 블록에 포함된 텍스트를 한 번에 안내할 수 있다.
상기와 같은 본 발명에 따르면, 이미지로부터 추출한 텍스트들을 상호간의 자간 거리를 기준으로 그룹화하고, 그룹 내의 텍스트들에 대한 임베딩을 통해 추출한 문장을 블록화 하고, 스크린 리더기를 통해 인식한 텍스트를 출력함으로써, 시각장애인에게 부자연스럽게 끊어진 문자가 아니라 텍스트 블록에 포함된 텍스트를 한 번에 안내할 수 있다.
Description
본 발명은 이미지로부터 추출한 텍스트의 블록화 시스템 및 그 방법에 관한 것으로, 더욱 상세하게는 이미지로부터 추출한 텍스트를 자연어 처리하여 문장별로 구분하되, 추출된 텍스트들 간의 상관관계에 따라 선별된 문장을 블록화 하는 기술에 관한 것이다.
광학 문자 판독 장치(OCR : Optical Character Reader)는 빛을 이용해 문자를 판독하는 장치로, 종이에 인쇄되거나 손으로 쓴 문자, 숫자 또는 다른 기호의 형태가 갖는 정보로부터 디지털 컴퓨터에 알맞게 부호화된 전기신호로 변환하는 장치를 일컫는다.
종래의 OCR은 글자를 낱개로 인식하여 출력하기 때문에 단어, 문장, 문단 단위로 가공하기에 어려움이 있다.
예컨대, 종래의 OCR은 이미지로부터 인식한 텍스트를 순차적으로 출력하도록 구성되고, 이때 인식한 텍스트를 TTS(Text To Speech) 기능을 통해 출력할 수 있다. 그러나, 출력된 음성에서 어디서부터 어디까지가 하나의 문장인지 구분하기 어렵다는 단점이 있다.
따라서, 이미지로부터 인식한 텍스트를 문장단위로 정확하게 구분해 별도의 블록으로 지정하는 기술적 보완이 요구된다.
본 발명의 목적은, 이미지로부터 추출한 텍스트들을 상호간의 자간 거리를 기준으로 그룹화하고, 그룹 내의 텍스트들에 대한 임베딩을 통해 추출한 문장을 블록화 함으로써, 인식된 텍스트들을 문맥에 맞게 문장별로 구분하여 블록화해 출력하는데 있다.
본 발명의 목적은, 그룹화된 텍스트들 간의 글자 높이(크기)를 비교하고, 그룹 내의 텍스트들을 벡터 형태로 변환해 국가별 언어 모음집에 포함된 텍스트와의 코사인 유사도를 계산함으로써, 유사도에 따른 그룹화 갱신을 통해 문장 블록에 대한 신뢰도를 향상시키는데 있다.
이러한 기술적 과제를 해결하기 위한 본 발명의 일 실시예는 이미지로부터 추출한 텍스트의 블록화 시스템으로서, 입력받은 이미지로부터 텍스트를 추출하는 문자 인식부; 추출된 텍스트들을 상호간의 자간 거리를 기준으로 그룹화하는 문자 그룹화부; 및 그룹화된 텍스트들을 벡터 형태로 변환하여 국가별 언어 모음집에 포함된 텍스트 속성과의 코사인 유사도를 계산하고, 계산결과 유사도가 기 설정된 기준에 부합하는 경우 그룹화된 텍스트들을 문장으로 인식하여 텍스트 블록을 생성하는 문자 블록화부를 포함하는 것을 특징으로 한다.
바람직하게는, 문자 그룹화부는 추출된 텍스트들 간의 자간거리를 추출하고, 기 설정된 기준에 부합하는 자간거리를 갖는 텍스트들 각각을 하나의 그룹으로 묶어 그룹화하되, 그룹화된 텍스트들에 대해 단어별로 띄어쓰기를 반영하여 자간거리를 조정하는 것을 특징으로 한다.
문자 블록화부는, 문자 그룹화부에 의해 그룹화된 텍스트들에 대한 임베딩을 수행하여 벡터 형태로 변환하는 벡터모듈; 벡터 형태로 변환된 텍스트와 기 저장된 국가별 언어 모음집으로부터 색인한 텍스트의 속성 간에 코사인 유사도를 계산하는 연산모듈; 및 계산된 코사인 유사도 값이 기 설정된 기준에 부합하는 경우, 해당 그룹에 포함된 텍스트를 문장으로 인식하여 텍스트 블록을 생성하는 블록모듈을 포함하는 것을 특징으로 한다.
텍스트 블록들 간의 중심좌표 거리가 설정된 범위 이내인 경우, 중심좌표 거리가 설정된 범위 이내인 텍스트 블록 각각을 하나의 텍스트 블록으로 병합시키는 문맥 검증부를 더 포함하는 것을 특징으로 한다.
그리고, 전술한 시스템을 기반으로 하는 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 방법은, 문자 인식부가 입력받은 이미지로부터 텍스트를 추출하는 (a) 단계; 문자 그룹화부가 추출된 텍스트들을 상호간의 자간 거리를 기준으로 그룹화하는 (b) 단계; 문자 블록화부가 그룹화된 텍스트들을 벡터 형태로 변환하여 국가별 언어 모음집에 포함된 텍스트 속성과의 코사인 유사도를 계산하는 (c) 단계; 및 (c) 단계의 계산결과, 유사도가 기 설정된 기준에 부합하는 경우, 문자 블록화부가 그룹화된 텍스트들을 문장으로 인식하여 텍스트 블록을 생성하는 (d) 단계를 포함하는 것을 특징으로 한다.
바람직하게는, (d) 단계 이후 문맥 검증부가 문자 블록화부에 의해 생성된 텍스트 블록 간의 거리 및 중심좌표를 추출하는 (e) 단계; 문맥 검증부가 추출한 텍스트 블록 간의 거리 및 중심좌표가 기 설정된 기준 이내인지 여부를 판단하는 (f) 단계; 및 문맥 검증부가 해당 텍스트 블록을 하나의 텍스트 블록으로 병합하는 (g) 단계를 포함하는 것을 특징으로 한다.
상기와 같은 본 발명의 일 실시예에 따르면, 이미지로부터 추출한 텍스트들을 상호간의 자간 거리를 기준으로 그룹화하고, 그룹 내의 텍스트들에 대한 임베딩을 통해 추출한 문장을 블록화 함으로써, 인식된 텍스트들을 문맥에 맞게 문장별로 구분하여 블록화해 출력하는 효과가 있다.
본 발명에 따르면, 그룹화된 텍스트들 간의 글자 높이(크기)를 비교하고, 그룹 내의 텍스트들을 벡터 형태로 변환해 국가별 언어 모음집에 포함된 텍스트와의 코사인 유사도를 계산함으로써, 유사도에 따른 그룹화 갱신을 통해 문장 블록에 대한 신뢰도를 향상시키는 효과가 있다.
본 발명에 따르면, 이미지에서 추출된 텍스트를 블록화하여 화면에 추가해 스크린 리더기를 통해 인식한 텍스트를 출력함으로써, 시각장애인에게 부자연스럽게 끊어진 문자가 아니라 텍스트 블록에 포함된 텍스트를 한 번에 안내할 수 있다.
본 발명에 따르면, 텍스트 블록화를 통해 각 블록의 크기, 너비, 길이, 위치 등 공간적 정보를 생성하고, 이 공간적 정보를 통해 텍스트가 가진 내용이나 형식을 예측함으로써, '머리말', '세부 설명' 등 블록의 메타 정보 생성하여 이미지의 목차를 만들거나 이미지의 특정 지점을 빠르게 도달할 수 있는 북마크 기능을 제공하는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템을 도시한 블록도.
도 2a는 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템이, 블록화 대상 이미지로부터 텍스트를 인식한 것을 도시한 예시도.
도 2b는 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템이, 자간거리를 토대로 띄어쓰기를 반영해 텍스트들을 그룹화한 것을 도시한 예시도.
도 3은 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템의 문자 불록화부에 대한 세부구성과, 그룹화된 텍스트에 대한 코사인 유사도 계산에 따라 인식한 문장을 텍스트 블록을 생성한 것을 도시한 예시도
도 4는 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템의 문맥 검증부에 대한 세부구성과, 텍스트 블록간의 거리에 따라 텍스트 블록이 확정된 것을 도시한 예시도.
도 5는 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템의 공간정보 생성부 및 매타정보 생성부를 도시한 블록도.
도 6은 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 방법을 도시한 순서도.
도 7은 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 방법의 제S606단계에 대한 세부과정을 도시한 순서도.
도 8은 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 방법의 제S610단계 이후과정을 도시한 순서도.
도 2a는 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템이, 블록화 대상 이미지로부터 텍스트를 인식한 것을 도시한 예시도.
도 2b는 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템이, 자간거리를 토대로 띄어쓰기를 반영해 텍스트들을 그룹화한 것을 도시한 예시도.
도 3은 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템의 문자 불록화부에 대한 세부구성과, 그룹화된 텍스트에 대한 코사인 유사도 계산에 따라 인식한 문장을 텍스트 블록을 생성한 것을 도시한 예시도
도 4는 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템의 문맥 검증부에 대한 세부구성과, 텍스트 블록간의 거리에 따라 텍스트 블록이 확정된 것을 도시한 예시도.
도 5는 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템의 공간정보 생성부 및 매타정보 생성부를 도시한 블록도.
도 6은 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 방법을 도시한 순서도.
도 7은 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 방법의 제S606단계에 대한 세부과정을 도시한 순서도.
도 8은 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 방법의 제S610단계 이후과정을 도시한 순서도.
본 발명의 구체적인 특징 및 이점들은 첨부 도면에 의거한 다음의 상세한 설명으로 더욱 명백해질 것이다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 발명자가 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 그 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다. 또한, 본 발명에 관련된 공지 기능 및 그 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는, 그 구체적인 설명을 생략하였음에 유의해야 할 것이다.
도 1을 참조하면 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템(S)은, 입력받은 이미지로부터 텍스트를 추출하는 문자 인식부(100)와, 추출된 텍스트들을 상호간의 자간 거리를 기준으로 그룹화하는 문자 그룹화부(200), 및 그룹화된 텍스트들을 벡터 형태로 변환하여 국가별 언어 모음집에 포함된 텍스트 속성과의 코사인 유사도를 계산하고, 계산결과 유사도가 기 설정된 기준에 부합하는 경우 그룹화된 텍스트들을 문장으로 인식하여 텍스트 블록을 생성하는 문자 블록화부(300)를 포함하여 구성된다.
이하에서는 그 구체적인 언급을 생략하겠으나, 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템(S)은, 정보통신망을 통해 접속된 서버와 통신이 가능한 PC, 노트북, 태블릿 또는 스마트폰 중에 어느 하나의 디바이스에 내장되고, 온라인을 통해 배포되어 설치되는 어플리케이션에 의해 구동된다.
이하, 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템(S)의 세부구성에 대해 살피면 아래와 같다.
구체적으로, 문자 인식부(100)는 입력받은 이미지에 포함된 텍스트 각각을 개별적으로 추출하여 순차적으로 인식하고, 인식된 텍스트를 문자 블록부(200)로 인가한다.
또한, 문자 그룹화부(200)부는 추출된 텍스트들 간의 자간거리를 추출하고, 기 설정된 기준에 부합하는 자간거리를 갖는 텍스트들 각각을 하나의 그룹으로 묶어 그룹화 한다. 이때, 그룹화된 텍스트들에 대해 단어별로 띄어쓰기를 반영하여 자간거리를 조정할 수 있다.
도 2a는 블록화 대상 이미지로부터 텍스트를 인식한 것을 도시한 예시도이고, 도 2b는 자간거리를 토대로 띄어쓰기를 반영해 텍스트들을 그룹화한 것을 도시한 예시도이다.
도 2a 및 도 2b를 참조하면, 문자 인식부(100)로부터 '넉', '넉', '한', '접', '착', '면' 과 같은 텍스트를 인식결과를 인가받는 문자 그룹화부(200)는, '넉', '넉', '한', '접', '착', '면' 에 대한 텍스트 각각의 자간거리를 추출한다. 이때 추출한 텍스트 간의 자간거리는 [표 1]에 나타낸 바와 같다.
[표 1]
그리고, 문자 그룹화부(200)가 의미 있는 단어별로 띄어쓰기를 반영해 '넉넉한' 및 '접착면' 에 대한 텍스트를 그룹으로 설정하게 된다.
도 3은 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템(S)의 문자 블록화부(300)에 대한 세부구성과, 그룹화된 텍스트에 대한 코사인 유사도 계산에 따라 인식한 문장을 텍스트 블록을 생성한 것을 도시한 예시도이다.
도 3을 참조하면, 문자 블록화부(300)는 문자 그룹화부(200)에 의해 그룹화된 텍스트들에 대한 임베딩을 수행하여 벡터 형태로 변환하는 벡터모듈(302)과, 벡터 형태로 변환된 텍스트와 기 저장된 국가별 언어 모음집으로부터 색인한 텍스트의 속성 간에 코사인 유사도를 계산하는 연산모듈(304), 및 계산된 코사인 유사도 값이 기 설정된 기준에 부합하는 경우, 해당 그룹에 포함된 텍스트를 문장으로 인식하여 텍스트 블록을 생성하는 블록모듈(306)을 포함한다.
이때, 벡터모듈(302)이 수행하는 임베딩은 사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자의 나열인 벡터로 변환하는 절차로 이해하는 것이 바람직하다.
또한, 연산모듈(304)은 코사인 유사도 계산을 통해 그룹화된 텍스트가 이상하게 묶이지 않았는지 검증하는 기능을 수행하며, 유사도가 기 설정된 기준 이하인 경우, 문자 그룹화부(200)에 의해 그룹화 절차를 다시 수행하도록 구성된다.
도 3의 예를 참조하면, 연산모듈(304)은 'Post'에서 't'의 가로 길이, 세로 길이(18, 38)와 'it'에서 'i'의 가로 길이, 세로 길이(8, 38)를 추출하고, '넉넉한'에서 '한'의 가로 길이, 세로 길이(4, 40)와 '접착면'에서 '접'의 가로 길이, 세로 길이(4, 40)를 추출하여 블록모듈(306)로 인가한다.
그리고, 블록모듈(306)은 연산모듈(304)의 코사인 유사도 계산에 따라 동일한 세로 길이를 갖는 'Post'의 't'와 'it'의 'i'가 포함된 그룹의 텍스트를 하나의 문장으로 인식하여 텍스트 블록으로 설정하고, 마찬가지로 '넉넉한'의 '한'과 '접착면'의 '접'이 포함된 그룹의 텍스트를 하나의 문장으로 인식하여 텍스트 블록으로 설정하게 된다.
한편, 도 4를 참조하면 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템(S)은, 다수의 텍스트 블록들 간의 중심좌표 거리가 설정된 범위 이내인 경우, 중심좌표 거리가 설정된 범위 이내인 텍스트 블록 각각을 하나의 텍스트 블록으로 병합시키는 문맥 검증부(400)를 더 포함하여 구성된다.
이러한, 문맥 검증부(400)는 문자 블록화부(300)에 의해 생성된 텍스트 블록 간의 거리 및 중심좌표를 추출하고, 텍스트 블록 간의 거리 및 중심좌표가 기 설정된 기준 이내인 경우 해당 텍스트 블록을 하나의 텍스트 블록으로 병합시키도록 구성된다.
도 4의 예를 참조하면, 문맥 검증부(400)는 텍스트 블록간의 거리로 '넉넉한 접착면'과 '붙였다 떼도 깔끔하게!'를 하나의 문맥으로 인식하고, '넉넉한 접착면'과 '포스트-잇 노트'는 다른 문맥으로 분리할 수 있다.
즉, 문맥 검증부(400)의 동일 문맥 인식 및 다른 문맥 분리는 아래와 같이 텍스트 블록 '넉넉한 접착면'과, 텍스트 블록 '붙였다 떼도 깔끔하게!' 간의 거리를 도출하고, 텍스트 블록 '넉넉한 접착면'과, 텍스트 블록 '포스트-잇 노트' 간의 거리를 도출한 이후, 도출한 텍스트 블록간의 거리가 기 설정된 값 이내인 경우 하나의 텍스트 블록으로 병합하고, 도출한 텍스트 블록간의 거리가 기 설정된 값을 벗어나는 경우, 하나의 문맥이 아닌 것으로 판단하게 된다.
이때, 문맥 검증부(400)가 각 텍스트 블록간의 거리를 도출한 값은 아래와 같다.
그리고, 도 5를 참조하면, 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템(S)은, 문자 블록화부(300)에 의해 생성된 텍스트 블록의 크기, 너비, 길이, 또는 위치 중에 어느 하나를 포함하는 공간적 정보를 생성하는 공간정보 생성부(500), 및 공간적 정보를 인가받아 텍스트 블록 각각에 대한 시계열적 출력 리스트를 생성하고, 출력 리스트에 머리말 또는 북마크를 설정하는 메타정보를 생성하는 메타정보 생성부(600)를 더 포함하여 구성된다.
이처럼, 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 시스템(S)에 의하면, 단순히 텍스트를 인식하는 것에 그치는 것이 아니라, 이미지의 목차를 만들거나 이미지의 특정 지점을 빠르게 도달할 수 있는 북마크 기능을 제공할 수 있다.
이하, 도 6을 참조하여 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 방법에 대해 살피면 아래와 같다.
먼저, 문자 인식부(100가 입력받은 이미지로부터 텍스트를 추출한다(S602).
이어서, 문자 그룹화부(200)가 추출된 텍스트들을 상호간의 자간 거리를 기준으로 그룹화한다(S604).
뒤이어, 문자 블록화부(300)가 그룹화된 텍스트들을 벡터 형태로 변환하여 국가별 언어 모음집에 포함된 텍스트 속성과의 코사인 유사도를 계산한다(S606).
뒤이어, 문자 블록화부(300)가 계산결과 유사도가 기 설정된 기준에 부합하는지 여부를 판단한다(S608).
제S608단계의 계산결과 유사도가 기 설정된 기준에 부합하는 경우, 문자 블록화부(300)가 그룹화된 텍스트들을 문장으로 인식하여 텍스트 블록을 생성한다(S610).
이하, 도 7을 참조하여 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 방법의 제S606단계에 대한 세부과정을 살피면 아래와 같다.
제S604단계 이후, 문자 블록화부(300)가 그룹화된 텍스트들에 대한 임베딩을 수행하여 벡터 형태로 변환한다(S702).
이어서, 문자 블록화부(300)가 벡터 형태로 변환된 텍스트와 기 저장된 국가별 언어 모음집으로부터 색인한 텍스트의 속성 간에 코사인 유사도를 계산한다(S704).
이하, 도 8을 참조하여 본 발명의 일 실시예에 따른 이미지로부터 추출한 텍스트의 블록화 방법의 제S610단계 이후 과정에 대해 살피면 아래와 같다.
제S610단계 이후, 문맥 검증부(400)가 문자 블록화부(300)에 의해 생성된 텍스트 블록 간의 거리 및 중심좌표를 추출한다(S802).
이어서, 문맥 검증부(400)가 추출한 텍스트 블록 간의 거리 및 중심좌표가 기 설정된 기준 이내인지 여부를 판단한다(S804).
제S804단계의 판단결과, 텍스트 블록 간의 거리 및 중심좌표가 기 설정된 기준 이내인 경우, 문맥 검증부(400)가 해당 텍스트 블록을 하나의 텍스트 블록으로 병합시킨다(S806).
이처럼, 전술한 바와 같은 본 발명의 일 실시예에 의하면, 이미지에서 추출된 텍스트를 블록화하여 화면에 추가해 스크린 리더기를 통해 인식한 텍스트를 출력함으로써, 시각장애인에게 부자연스럽게 끊어진 문자가 아니라 텍스트 블록에 포함된 텍스트를 한 번에 안내할 수 있다.
이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시 예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정이 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다.
S: 이미지로부터 추출한 텍스트의 블록화 시스템
100: 문자 인식부
200: 문자 그룹화부
300: 문자 블록화부
302: 벡터모듈
304: 연산모듈
306: 블록모듈
400: 문맥 검증부
500: 공간정보 생성부
600: 메타정보 생성부
100: 문자 인식부
200: 문자 그룹화부
300: 문자 블록화부
302: 벡터모듈
304: 연산모듈
306: 블록모듈
400: 문맥 검증부
500: 공간정보 생성부
600: 메타정보 생성부
Claims (6)
- 입력받은 이미지로부터 텍스트를 추출하는 문자 인식부;
추출된 텍스트들을 상호간의 자간 거리를 기준으로 그룹화하는 문자 그룹화부; 및
그룹화된 텍스트들을 벡터 형태로 변환하여 국가별 언어 모음집에 포함된 텍스트 속성과의 코사인 유사도를 계산하고, 계산결과 유사도가 기 설정된 기준에 부합하는 경우 그룹화된 텍스트들을 문장으로 인식하여 텍스트 블록을 생성하는 문자 블록화부를
포함하는 것을 특징으로 하는 이미지로부터 추출한 텍스트의 블록화 시스템. - 제1항에 있어서,
상기 문자 그룹화부는,
추출된 텍스트들 간의 자간거리를 추출하고, 기 설정된 기준에 부합하는 자간거리를 갖는 텍스트들 각각을 하나의 그룹으로 묶어 그룹화하되,
그룹화된 텍스트들에 대해 단어별로 띄어쓰기를 반영하여 자간거리를 조정하는 것을 특징으로 하는 이미지로부터 추출한 텍스트의 블록화 시스템. - 제1항에 있어서,
상기 문자 블록화부는,
상기 문자 그룹화부에 의해 그룹화된 텍스트들에 대한 임베딩을 수행하여 벡터 형태로 변환하는 벡터모듈;
벡터 형태로 변환된 텍스트와 기 저장된 국가별 언어 모음집으로부터 색인한 텍스트의 속성 간에 코사인 유사도를 계산하는 연산모듈; 및
계산된 코사인 유사도 값이 기 설정된 기준에 부합하는 경우, 해당 그룹에 포함된 텍스트를 문장으로 인식하여 텍스트 블록을 생성하는 블록모듈을
포함하는 것을 특징으로 하는 이미지로부터 추출한 텍스트의 블록화 시스템. - 제1항에 있어서,
상기 텍스트 블록들 간의 중심좌표 거리가 설정된 범위 이내인 경우, 중심좌표 거리가 설정된 범위 이내인 텍스트 블록 각각을 하나의 텍스트 블록으로 병합시키는 문맥 검증부를
더 포함하는 것을 특징으로 하는 이미지로부터 추출한 텍스트의 블록화 시스템. - (a) 문자 인식부가 입력받은 이미지로부터 텍스트를 추출하는 단계;
(b) 문자 그룹화부가 추출된 텍스트들을 상호간의 자간 거리를 기준으로 그룹화하는 단계;
(c) 문자 블록화부가 그룹화된 텍스트들을 벡터 형태로 변환하여 국가별 언어 모음집에 포함된 텍스트 속성과의 코사인 유사도를 계산하는 단계; 및
(d) 상기 (c) 단계의 계산결과, 유사도가 기 설정된 기준에 부합하는 경우, 문자 블록화부가 그룹화된 텍스트들을 문장으로 인식하여 텍스트 블록을 생성하는 단계를
포함하는 것을 특징으로 하는 이미지로부터 추출한 텍스트의 블록화 방법. - 제5항에 있어서,
상기 (d) 단계 이후,
(e) 문맥 검증부가 문자 블록화부에 의해 생성된 텍스트 블록 간의 거리 및 중심좌표를 추출하는 단계;
(f) 문맥 검증부가 추출한 텍스트 블록 간의 거리 및 중심좌표가 기 설정된 기준 이내인지 여부를 판단하는 단계; 및
(g) 문맥 검증부가 해당 텍스트 블록을 하나의 텍스트 블록으로 병합하는 단계를
포함하는 것을 특징으로 하는 이미지로부터 추출한 텍스트의 블록화 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200024022A KR102374280B1 (ko) | 2020-02-27 | 2020-02-27 | 이미지로부터 추출한 텍스트의 블록화 시스템 및 그 방법 |
PCT/KR2020/015824 WO2021172700A1 (ko) | 2020-02-27 | 2020-11-11 | 이미지로부터 추출한 텍스트의 블록화 시스템 및 그 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200024022A KR102374280B1 (ko) | 2020-02-27 | 2020-02-27 | 이미지로부터 추출한 텍스트의 블록화 시스템 및 그 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210109145A true KR20210109145A (ko) | 2021-09-06 |
KR102374280B1 KR102374280B1 (ko) | 2022-03-16 |
Family
ID=77491884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200024022A KR102374280B1 (ko) | 2020-02-27 | 2020-02-27 | 이미지로부터 추출한 텍스트의 블록화 시스템 및 그 방법 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR102374280B1 (ko) |
WO (1) | WO2021172700A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023128348A1 (ko) * | 2021-12-28 | 2023-07-06 | 삼성전자 주식회사 | 이미지 내의 텍스트를 인식하는 전자 장치 및 그 동작 방법 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230166595A (ko) * | 2022-05-31 | 2023-12-07 | 한림대학교 산학협력단 | 글자의 크기, 자간, 및 중심점의 높낮이 자동측정을 수행하는 전자 장치, 제어 방법, 및 컴퓨터 프로그램 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015232778A (ja) * | 2014-06-09 | 2015-12-24 | 株式会社日立情報通信エンジニアリング | 文字認識装置及び文字認識方法 |
KR20170010843A (ko) | 2014-06-24 | 2017-02-01 | 구글 인코포레이티드 | 이미지로부터의 비-텍스트 맥락 정보에 근거하여 이미지로부터의 텍스트에 대해 기계 언어 번역을 하기 위한 기법 |
KR20200002141A (ko) * | 2018-06-29 | 2020-01-08 | 김종진 | 이미지 기반의 언어학습 콘텐츠 제공 방법 및 이의 시스템 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101377601B1 (ko) * | 2012-09-20 | 2014-03-25 | 주식회사 인지소프트 | 모바일 카메라를 이용한 자연 영상 다국어 문자 인식과 번역 시스템 및 방법 |
KR20170081350A (ko) * | 2016-01-04 | 2017-07-12 | 한국전자통신연구원 | 이미지 텍스트에 대한 프레임 단위의 특징벡터 추출에 의한 문자인식 및 번역을 수행하는 문자통역 장치 및 방법 |
KR101846824B1 (ko) * | 2017-12-11 | 2018-04-09 | 가천대학교 산학협력단 | 개체명 인식시스템, 방법, 및 컴퓨터 판독가능매체 |
KR102015218B1 (ko) * | 2018-04-16 | 2019-10-21 | 한양대학교 산학협력단 | 기계 학습을 이용한 텍스트 분류 방법 및 장치 |
-
2020
- 2020-02-27 KR KR1020200024022A patent/KR102374280B1/ko active IP Right Grant
- 2020-11-11 WO PCT/KR2020/015824 patent/WO2021172700A1/ko active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015232778A (ja) * | 2014-06-09 | 2015-12-24 | 株式会社日立情報通信エンジニアリング | 文字認識装置及び文字認識方法 |
KR20170010843A (ko) | 2014-06-24 | 2017-02-01 | 구글 인코포레이티드 | 이미지로부터의 비-텍스트 맥락 정보에 근거하여 이미지로부터의 텍스트에 대해 기계 언어 번역을 하기 위한 기법 |
KR20200002141A (ko) * | 2018-06-29 | 2020-01-08 | 김종진 | 이미지 기반의 언어학습 콘텐츠 제공 방법 및 이의 시스템 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023128348A1 (ko) * | 2021-12-28 | 2023-07-06 | 삼성전자 주식회사 | 이미지 내의 텍스트를 인식하는 전자 장치 및 그 동작 방법 |
Also Published As
Publication number | Publication date |
---|---|
WO2021172700A1 (ko) | 2021-09-02 |
KR102374280B1 (ko) | 2022-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mithe et al. | Optical character recognition | |
Badhe et al. | Indian sign language translator using gesture recognition algorithm | |
US20100331043A1 (en) | Document and image processing | |
CN104966084A (zh) | 一种基于ocr和tts的低视力阅读助视系统 | |
Ani et al. | Smart Specs: Voice assisted text reading system for visually impaired persons using TTS method | |
CN108182432A (zh) | 信息处理方法和装置 | |
KR102374280B1 (ko) | 이미지로부터 추출한 텍스트의 블록화 시스템 및 그 방법 | |
KR102148021B1 (ko) | 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 및 그 장치 | |
US10276150B2 (en) | Correction system, method of correction, and computer program product | |
CN115511704A (zh) | 一种虚拟客服生成方法、装置、电子设备及存储介质 | |
Khete et al. | Autonomous Assistance System for Visually Impaired using Tesseract OCR & gTTS | |
KR101059963B1 (ko) | 영상 해석 장치 및 방법 | |
Hairuman et al. | OCR signage recognition with skew & slant correction for visually impaired people | |
KR101865251B1 (ko) | 지능형 점자 번역장치 | |
Khaleel et al. | An Enhancement Of Text To Speech (Tts) System Using Raspberry Pi | |
CN114067362A (zh) | 基于神经网络模型的手语识别方法、装置、设备及介质 | |
KR101430573B1 (ko) | 시각 장애인용 점자 마커 및 점자 마커 인식 방법 | |
Bouazizi et al. | Arabic reading machine for visually impaired people using TTS and OCR | |
Prasad | Gradient feature based static sign language recognition | |
NS et al. | Smart Reader for Visually Impaired | |
Kesh et al. | Text Recognition and Medicine Identification by Visually Impaired People | |
Sanjrani et al. | Multilingual OCR systems for the regional languages in Balochistan | |
Subramaniam et al. | Smart image to text to speech using deep learning | |
KR100983779B1 (ko) | 도서 정보 서비스 장치 및 방법 | |
Jayyusi et al. | Improved Camera-Based Text Reading Assistant System Using Digital Image Processing Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right |