KR102159336B1 - 문서 상의 텍스트/이미지 검색 장치 및 방법 - Google Patents

문서 상의 텍스트/이미지 검색 장치 및 방법 Download PDF

Info

Publication number
KR102159336B1
KR102159336B1 KR1020190107857A KR20190107857A KR102159336B1 KR 102159336 B1 KR102159336 B1 KR 102159336B1 KR 1020190107857 A KR1020190107857 A KR 1020190107857A KR 20190107857 A KR20190107857 A KR 20190107857A KR 102159336 B1 KR102159336 B1 KR 102159336B1
Authority
KR
South Korea
Prior art keywords
image
module
text
search
document
Prior art date
Application number
KR1020190107857A
Other languages
English (en)
Inventor
박수찬
장종인
맹상운
Original Assignee
한화시스템 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한화시스템 주식회사 filed Critical 한화시스템 주식회사
Priority to KR1020190107857A priority Critical patent/KR102159336B1/ko
Application granted granted Critical
Publication of KR102159336B1 publication Critical patent/KR102159336B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06K9/00442
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)
  • Processing Or Creating Images (AREA)

Abstract

문서 상의 텍스트/이미지 검색 장치 및 방법이 개시된다. 문서를 입력받는 문서 입력 모듈; 상기 문서 입력 모듈에서 입력받은 문서를 OCR 인식하는 OCR 모듈; 상기 OCR 모듈에서 OCR 인식된 문서에서 텍스트를 검색하는 텍스트 검색 모듈; 상기 OCR 모듈에서 OCR 인식된 문서에서 이미지를 검색하는 이미지 검색 모듈을 구성한다. 상술한 문서 상의 텍스트/이미지 검색 장치 및 방법에 의하면, 문서 상에서 텍스트의 공백이나 띄어쓰기 등을 제거하여 대비/검색하고 이미지의 설정을 통일하여 대비/검색하도록 구성됨으로써, 텍스트의 검색율을 높이고 이미지까지도 정확하게 검색할 수 있는 효과가 있다.

Description

문서 상의 텍스트/이미지 검색 장치 및 방법{APPARATUS AND METHOD FOR SEARCHING TEXT/IMAGE ON DOCUMENT}
본 발명은 문서 상의 텍스트/이미지 검색 장치 및 방법에 관한 것으로서, 구체적으로는 OCR 기반의 문서 상의 텍스트/이미지 검색 장치 및 방법에 관한 것이다.
방위 산업 분야 등의 수주 과제 제안서에는 심도 높은 기술 자료는 물론 입찰 참여 기업의 인력, 연구 개발 실적, 계약 실적, 장비 현황, 시설 현황 등에 관련된 수많은 증빙자료들이 첨부된다.
수주 입찰 시마다 제안서 작성을 위해 준비해야 하는 자료의 양은 아주 방대하다.
이러한 제안서 작성에는 수많은 노력과 시간이 투여되는데, 그러한 노력과 시간에도 불구하고 수많은 정량 자료와 과거 과제 실적, 과거 유사 제안서 자료 등을 정확하게 찾아서 증빙자료로서 활용하는 것은 매우 어려운 실정이다.
특히, 기존에는 문서들을 단지 OCR 인식할 수는 있으나, 검색하고자 하는 텍스트가 띄어쓰기가 되어 있거나 공백이 있거나 특수문자가 섞여 있는 경우에는 검색이 불가하다. 더군다나 이미지의 경우에는 검색 자체가 불가능하다.
즉, 과거 제안서나 방산 네트워크 상의 텍스트와 이미지를 정확하게 검색해낼 수 있는 수단이 요구된다.
공개특허공보 10-2016-0121042 등록특허공보 10-0635733
본 발명의 목적은 문서 상의 텍스트/이미지 검색 장치를 제공하는 데 있다.
본 발명의 다른 목적은 문서 상의 텍스트/이미지 검색 방법을 제공하는 데 있다.
상술한 본 발명의 목적에 따른 문서 상의 텍스트/이미지 검색 장치는, 문서를 입력받는 문서 입력 모듈; 상기 문서 입력 모듈에서 입력받은 문서를 OCR 인식하는 OCR 모듈; 상기 OCR 모듈에서 OCR 인식된 문서에서 텍스트를 검색하는 텍스트 검색 모듈; 상기 OCR 모듈에서 OCR 인식된 문서에서 이미지를 검색하는 이미지 검색 모듈을 포함하도록 구성될 수 있다.
여기서, 상기 텍스트 검색 모듈에서 검색된 텍스트 또는 상기 이미지 검색 모듈에서 검색된 이미지의 배경색을 설정하여 마크업 표시하는 배경색 마크업 표시 모듈을 더 포함하도록 구성될 수 있다.
상술한 본 발명의 목적에 따른 문서 상의 텍스트/이미지 검색 방법은, 문서 입력 모듈이 문서를 입력받는 단계; OCR 모듈이 상기 문서 입력 모듈에서 입력받은 문서를 OCR 인식하는 단계; 텍스트 검색 모듈이 상기 OCR 모듈에서 OCR 인식된 문서에서 텍스트를 검색하는 단계; 이미지 검색 모듈이 상기 OCR 모듈에서 OCR 인식된 문서에서 이미지를 검색하는 단계를 포함하도록 구성될 수 있다.
여기서, 배경색 마크업 표시 모듈이 상기 텍스트 검색 모듈에서 검색된 텍스트 또는 상기 이미지 검색 모듈에서 검색된 이미지의 배경색을 설정하여 마크업 표시하는 단계를 더 포함하도록 구성될 수 있다.
상술한 문서 상의 텍스트/이미지 검색 장치 및 방법에 의하면, 문서 상에서 텍스트의 공백이나 띄어쓰기 등을 제거하여 대비/검색하고 이미지의 설정을 통일하여 대비/검색하도록 구성됨으로써, 텍스트의 검색율을 높이고 이미지까지도 정확하게 검색할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 문서 상의 텍스트/이미지 검색 장치의 블록 구성도이다.
도 2는 본 발명의 실시예에 따른 문서 상의 텍스트/이미지 방법의 흐름도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 발명을 실시하기 위한 구체적인 내용에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 문서 상의 텍스트/이미지 검색 장치의 블록 구성도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 문서 상의 텍스트/이미지 검색 장치(100)는 문서 데이터베이스(101), 문서 입력 모듈(102), 문서 출력 모듈(103), OCR 모듈(104), 텍스트 추출 모듈(105), 텍스트 검색 모듈(106), 이미지 설정 모듈(107), 이미지 정보 추출 모듈(108), 이미지 검색 모듈(109), 배경색 마크업 표시 모듈(110)을 포함하도록 구성될 수 있다.
이하, 세부적인 구성에 대하여 설명한다.
문서 데이터베이스(101)에는 각종 자료가 포함된 문서들이 저장될 수 있다. 기업의 특허, 인증, 논문 등에 관한 원본/사본 문서는 물론 과거의 수주 과제 제안서, 보고서 등의 원본/사본 문서가 미리 저장될 수 있다.
문서 입력 모듈(102)은 문서 데이터베이스(101)에 저장된 문서를 사용자 입력 모듈(104)의 사용자 명령에 따라 검색하여 입력받도록 구성될 수 있다.
문서 출력 모듈(103)은 문서 입력 모듈(102)에서 입력받은 문서를 사용자의 디스플레이(미도시)를 통해 출력하도록 구성될 수 있다.
OCR 모듈(104)은 문서 입력 모듈(102)에서 입력받은 문서를 OCR 인식하도록 구성될 수 있다. 문서는 하드카피 문서이거나 스캔문서이거나 또는 컴퓨터 문서 파일이 될 수도 있다.
텍스트 추출 모듈(105)은 OCR 인식된 문서에서 텍스트를 가공하여 추출하도록 구성될 수 있다. 구체적으로는 개행문자, 특수문자, 띄어쓰기 등에 의해 검색하고자 하는 텍스트를 검색하지 못하게 되는 오류를 방지하도록 텍스트를 가공할 수 있다.
텍스트 추출 모듈(105)은 인식 텍스트 입력부(105a), 공백 제거부(105b), 띄어쓰기 제거부(105c), 개행문자 제거부(105d), 특수문자 제거부(105e)를 포함하도록 구성될 수 있다. 이하, 세부적인 구성에 대하여 설명한다.
텍스트 입력부(105a)는 OCR 모듈(104)에 의해 OCR 인식된 텍스트를 입력받도록 구성될 수 있다.
공백 제거부(105b)는 텍스트 입력부(105a)에 의해 입력된 텍스트에서 텍스트 간에서 공백을 제거하도록 구성될 수 있다. 그리고 띄어쓰기 제거부(105c)는 텍스트 상의 띄어쓰기를 제거하도록 구성될 수 있다. 개행문자 제거부(105d)는 텍스트 상에서 개행문자를 제거하도록 구성될 수 있다. 특수문자 제거부(105e)는 텍스트 상에서 '/', '-', '_', '^' 등의 특수문자를 제거하도록 구성될 수 있다.
텍스트 검색 모듈(106)은 텍스트 추출 모듈(105)에서 추출된 텍스트에서 사용자가 검색하고자 하는 텍스트를 검색하도록 구성될 수 있다.
텍스트 검색 모듈(106)은 텍스트 검색/대비부(106a), 검색텍스트 출력부(106b)를 포함하도록 구성될 수 있다. 이하, 세부적인 구성에 대하여 설명한다.
텍스트 검색/대비부(106a)는 사용자로부터 검색하고자 하는 텍스트를 입력받고, 입력받은 텍스트를 텍스트 추출 모듈(105)에서 추출된 텍스트 상에서 대비하여 검색하도록 구성될 수 있다.
검색텍스트 출력부(106b)는 텍스트 검색/대비부(106a)에서 검색된 검색 텍스트를 출력하도록 구성될 수 있다.
이미지 설정 모듈(107)은 OCR 모듈(104)에서 OCR 인식된 이미지를 사용자가 원하는 설정 포맷의 이미지로 설정하도록 구성될 수 있다. 여기서, 설정 포맷에는 이미지의 그리드(gird) 크기, 색감도, 픽셀(pixel) 밀도 등이 있을 수 있다.
이미지 설정 모듈(107)은 검색하고자 하는 이미지의 설정 포맷과 동일하게 설정하여 대비할 수 있게 하기 위한 구성이다.
이미지 설정 모듈(107)은 인식 이미지 입력부(107a), 그리드 크기 설정부(107b), 색감도 설정부(107c), 픽셀 밀도 설정부(107d)를 포함하도록 구성될 수 있다. 이하, 세부적인 구성에 대하여 설명한다.
인식 이미지 입력부(107a)는 OCR 모듈(104)에서 인식된 이미지를 입력받도록 구성될 수 있다.
그리드 크기 설정부(107b)는 인식 이미지 입력부(107a)에서 입력된 이미지를 사용자에 의해 미리 설정된 그리드 크기로 변경하여 설정하도록 구성될 수 있다.
색감도 설정부(107c)는 인식 이미지 입력부(107a)에서 입력된 이미지를 사용자에 의해 미리 설정된 색감도로 변경하여 설정하도록 구성될 수 있다.
픽셀 밀도 설정부(107d)는 인식 이미지 입력부(107a)에서 입력된 이미지를 사용자에 의해 미리 설정된 픽셀 밀도로 변경하여 설정하도록 구성될 수 있다.
이미지 정보 추출 모듈(108)은 이미지 설정 모듈(107)에 의해 설정이 변경된 설정 이미지에서 이미지 정보를 추출하도록 구성될 수 있다.
이미지 정보 추출 모듈(108)은 설정 이미지 입력부(108a), 추출 영역 설정부(108b), 추출 영역 색정보 추출부(108c)를 포함하도록 구성될 수 있다. 이하, 세부적인 구성에 대하여 설명한다.
설정 이미지 입력부(108a)는 이미지 설정 모듈(107)로부터 설정 이미지를 입력받도록 구성될 수 있다.
추출 영역 설정부(108b)는 설정 이미지 입력부(108a)에서 입력받은 설정 이미지에서 n개의 영역을 추출 영역으로 설정하도록 구성될 수 있다. 이때, 추출 영역 설정부(108b)는 사용자가 검색하고자 하는 이미지를 입력받아 해당 이미지의 추출 영역을 먼저 설정할 수 있다. 검색하고자 이미지에서 색정보로 볼 때 특징이 될 수 있는 복수의 영역을 추출 영역으로 설정한 후, 설정 이미지도 동일한 영역을 추출 영역으로 설정할 수 있다.
추출 영역 색정보 추출부(108c)는 설정 이미지 상에서 복수의 추출 영역의 색정보를 각각 추출하도록 구성될 수 있다. 추출 영역 색정보 추출부(108c)는 설정 이미지마다 색정보를 추출하여 설정 이미지와 색정보를 일대일 맵핑하여 보유하도록 구성될 수 있다.
이미지 검색 모듈(109)은 이미지 정보 추출 모듈(108)의 설정 이미지와 색정보의 맵핑 정보를 이용하여 검색하고자 하는 이미지와 동일한 설정 이미지를 검색하도록 구성될 수 있다.
이미지 검색 모듈(109)은 색정보 검색/대비부(109a), 검색이미지 출력부(109b)를 포함하도록 구성될 수 있다. 이하, 세부적인 구성에 대하여 설명한다.
색정보 검색/대비부(109a)는 이미지 정보 추출 모듈(108)에서 각 설정 이미지마다 추출한 색정보를 검색하고자 하는 이미지의 색정보와 대비하여 동일한 설정 이미지를 검색하도록 구성될 수 있다.
검색이미지 출력부(109b)는 색정보 검색/대비부(109a)에서 검색된 검색이미지를 출력하도록 구성될 수 있다.
배경색 마크업 표시 모듈(110)은 텍스트 검색 모듈(106)에서 출력된 검색텍스트와 이미지 검색 모듈(109)에서 출력된 검색이미지의 배경색을 특정 색상으로 설정하여 마크업 표시하도록 구성될 수 있다.
도 2는 본 발명의 실시예에 따른 문서 상의 텍스트/이미지 방법의 흐름도이다.
도 2를 참조하면, 문서 입력 모듈이 문서를 입력받는다(S101).
다음으로, OCR 모듈(104)이 문서 입력 모듈(102)에서 입력받은 문서를 OCR 인식한다(S102).
다음으로, 텍스트 검색 모듈(106)이 OCR 모듈(104)에서 OCR 인식된 문서에서 텍스트를 검색한다(S103).
다음으로, 이미지 검색 모듈(109)이 OCR 모듈(104)에서 OCR 인식된 문서에서 이미지를 검색한다(S104).
다음으로, 배경색 마크업 표시 모듈(110)이 텍스트 검색 모듈(106)에서 검색된 텍스트 또는 이미지 검색 모듈(109)에서 검색된 이미지의 배경색을 설정하여 마크업 표시한다(S105).
이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
101: 문서 데이터베이스
102: 문서 입력 모듈
103: 문서 출력 모듈
104: OCR 모듈
105: 텍스트 추출 모듈
105a: 인식 텍스트 입력부
105b: 공백 제거부
105c: 띄어쓰기 제거부
105d: 개행문자 제거부
105e: 특수문자 제거부
106: 텍스트 검색 모듈
106a: 텍스트 검색/대비부
106b: 검색텍스트 출력부
107: 이미지 설정 모듈
107a: 인식 이미지 입력부
107b: 그리드 크기 설정부
107c: 색감도 설정부
107d: 픽셀 밀도 설정부
108: 이미지 정보 추출 모듈
108a: 설정 이미지 입력부
108b: 추출 영역 설정부
108c: 추출 영역 색정보 추출부
109: 이미지 검색 모듈
109a: 색정보 검색/대비부
109b: 검색 이미지 출력부
110: 배경색 마크업 표시 모듈

Claims (4)

  1. 기관의 과제 수주를 위한 보유 특허, 보유 인증 및 보유 논문 중 적어도 하나 이상의 원본/사본 문서, 과거에 제출한 수주 과제 제안서 및 보고서의 원본/사본 문서가 미리 저장되는 문서 데이터베이스;
    상기 문서 데이터베이스에 저장된 원본/사본 문서를 사용자 명령에 의해 입력받는 문서 입력 모듈;
    상기 문서 입력 모듈에서 입력받은 원본/사본 문서를 디스플레이를 통해 출력하는 문서 출력 모듈;
    상기 문서 입력 모듈에서 입력받은 원본/사본 문서를 OCR 인식하는 OCR 모듈;
    상기 OCR 모듈에서 OCR 인식된 원본/사본 문서에서 텍스트를 가공하여 추출하는 텍스트 추출 모듈;
    상기 OCR 모듈에서 OCR 인식된 문서에서 텍스트를 검색하는 텍스트 검색 모듈;
    상기 OCR 모듈에서 OCR 인식된 이미지를 사용자가 원하는 설정 포맷의 이미지로 설정하는 이미지 설정 모듈;
    상기 이미지 설정 모듈에 의해 설정이 변경된 설정 이미지에서 이미지 정보를 추출하는 이미지 정보 추출 모듈;
    상기 OCR 모듈에서 OCR 인식된 문서에서 이미지를 검색하는 이미지 검색 모듈;
    상기 텍스트 검색 모듈에서 검색된 텍스트 또는 상기 이미지 검색 모듈에서 검색된 이미지의 배경색을 설정하여 마크업 표시하는 배경색 마크업 표시 모듈을 포함하고,
    상기 텍스트 추출 모듈은,
    상기 OCR 모듈에 의해 OCR 인식된 텍스트를 입력받는 인식 텍스트 입력부;
    상기 텍스트 입력부에 의해 입력된 텍스트에서 텍스트 간에서 공백을 제거하는 공백 제거부;
    상기 공백 제거부에서 공백 제거된 텍스트 상의 띄어쓰기를 제거하는 띄어쓰기 제거부;
    상기 띄어쓰기 제거부에서 띄어쓰기가 제거된 텍스트 상에서 개행문자를 제거하는 개행문자 제거부;
    상기 개행문자 제거부에서 개행문자가 제거된 텍스트 상에서 특수문자를 제거하는 특수문자 제거부를 포함하도록 구성되고,
    상기 텍스트 검색 모듈은,
    사용자로부터 검색하고자 하는 텍스트를 입력받고, 입력받은 텍스트를 상기 텍스트 추출 모듈에서 추출된 텍스트 상에서 대비하여 소정 유사 범위 내에서 유사한 텍스트를 검색하는 텍스트 검색/대비부;
    상기 텍스트 검색/대비부에서 검색된 검색 텍스트를 출력하는 검색텍스트 출력부를 포함하도록 구성되고,
    상기 이미지 설정 모듈은,
    상기 OCR 인식 모듈에서 인식된 이미지를 입력받는 인식 이미지 입력부;
    상기 인식 이미지 입력부에서 입력된 이미지를 사용자에 의해 미리 설정된 그리드 크기로 변경하여 설정하는 그리드 크기 설정부;
    상기 인식 이미지 입력부에서 입력된 이미지를 사용자에 의해 미리 설정된 색감도로 변경하여 설정하는 색감도 설정부;
    상기 인식 이미지 입력부에서 입력된 이미지를 사용자에 의해 미리 설정된 픽셀 밀도로 변경하여 설정하는 픽셀 밀도 설정부를 포함하도록 구성되고,
    상기 이미지 정보 추출 모듈은,
    상기 이미지 설정 모듈로부터 설정 이미지를 입력받는 설정 이미지 입력부;
    상기 설정 이미지 입력부에서 입력받은 설정 이미지에서 n개의 영역을 추출 영역으로 설정하며, 상기 사용자가 검색하고자 하는 이미지를 입력받아 해당 이미지의 추출 영역을 먼저 설정하도록 구성되며, 상기 검색하고자 하는 이미지에서 색정보로 볼 때 특징이 될 수 있는 복수의 영역을 추출 영역으로 설정한 후 설정 이미지에서 해당 영역을 추출 영역으로 설정하도록 구성되는 추출 영역 설정부;
    상기 설정 이미지 상에서 상기 추출 영역 설정부에 의해 설정된 복수의 추출 영역의 색정보를 각각 추출하고, 상기 설정 이미지마다 색정보를 추출하여 설정 이미지와 색정보를 일대일 맵핑하여 보유하는 추출 영역 색정보 추출부를 포함하도록 구성되고,
    상기 이미지 검색 모듈은,
    상기 이미지 정보 추출 모듈에서 각 설정 이미지마다 추출한 색정보를 검색하고자 하는 이미지의 색정보와 대비하여 동일한 설정 이미지를 검색하는 색정보 검색/대비부;
    상기 색정보 검색/대비부에서 검색된 검색이미지를 출력하는 검색이미지 출력부를 포함하도록 구성되는 것을 특징으로 하는 문서 상의 텍스트/이미지 검색 장치.
  2. 삭제
  3. 삭제
  4. 삭제
KR1020190107857A 2019-08-31 2019-08-31 문서 상의 텍스트/이미지 검색 장치 및 방법 KR102159336B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190107857A KR102159336B1 (ko) 2019-08-31 2019-08-31 문서 상의 텍스트/이미지 검색 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190107857A KR102159336B1 (ko) 2019-08-31 2019-08-31 문서 상의 텍스트/이미지 검색 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102159336B1 true KR102159336B1 (ko) 2020-10-14

Family

ID=72847016

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190107857A KR102159336B1 (ko) 2019-08-31 2019-08-31 문서 상의 텍스트/이미지 검색 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102159336B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102297721B1 (ko) * 2021-02-18 2021-09-03 주식회사 투비유니콘 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템
WO2022102827A1 (ko) * 2020-11-16 2022-05-19 주식회사 솔트룩스 과학 기술 논문을 위한 지식 추출 시스템

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100635733B1 (ko) 2002-09-25 2006-10-17 삼성에스디에스 주식회사 제안서 작성 시스템 및 방법
KR20120004196A (ko) * 2010-07-06 2012-01-12 에스케이플래닛 주식회사 백과사전을 이용한 번역 서비스 장치 및 그 방법
KR20160051713A (ko) * 2016-04-26 2016-05-11 네이버 주식회사 Ocr를 기반으로 지도 이미지를 인식하는 시스템과 방법, 그리고 기록 매체 및 파일 배포 시스템
KR20160121042A (ko) 2015-04-09 2016-10-19 조남희 제안서 제출 및 평가 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100635733B1 (ko) 2002-09-25 2006-10-17 삼성에스디에스 주식회사 제안서 작성 시스템 및 방법
KR20120004196A (ko) * 2010-07-06 2012-01-12 에스케이플래닛 주식회사 백과사전을 이용한 번역 서비스 장치 및 그 방법
KR20160121042A (ko) 2015-04-09 2016-10-19 조남희 제안서 제출 및 평가 시스템
KR20160051713A (ko) * 2016-04-26 2016-05-11 네이버 주식회사 Ocr를 기반으로 지도 이미지를 인식하는 시스템과 방법, 그리고 기록 매체 및 파일 배포 시스템

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022102827A1 (ko) * 2020-11-16 2022-05-19 주식회사 솔트룩스 과학 기술 논문을 위한 지식 추출 시스템
KR102297721B1 (ko) * 2021-02-18 2021-09-03 주식회사 투비유니콘 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템

Similar Documents

Publication Publication Date Title
US10318804B2 (en) System and method for data extraction and searching
US20160055376A1 (en) Method and system for identification and extraction of data from structured documents
US8401301B2 (en) Property record document data verification systems and methods
US8064703B2 (en) Property record document data validation systems and methods
KR102159336B1 (ko) 문서 상의 텍스트/이미지 검색 장치 및 방법
CN110909123B (zh) 一种数据提取方法、装置、终端设备及存储介质
US20150278248A1 (en) Personal Information Management Service System
Drinkwater et al. The use of Optical Character Recognition (OCR) in the digitisation of herbarium specimen labels
US11749008B2 (en) Image processing apparatus and image processing program
CN115687655A (zh) 一种基于pdf文档的知识图谱构建方法、系统、设备及存储介质
US20110064304A1 (en) Electronic document comparison system and method
CN111967367A (zh) 图像内容提取方法、装置及电子设备
CN111832264A (zh) 基于pdf文件的签名位置确定方法、装置及设备
CN108932434B (zh) 一种基于机器学习技术的数据加密方法及装置
CN116978048B (zh) 上下文内容获取方法、装置、电子设备和存储介质
CN116127105B (zh) 一种大数据平台的数据汇集方法及装置
CN112508000A (zh) 一种用于ocr图像识别模型训练数据生成的方法及设备
TWM590730U (zh) 基於人工智慧之文件管理系統
KR102151408B1 (ko) 부합율 판단에 의한 텍스트/이미지 검색 장치 및 방법
CN111986015B (zh) 提取财务信息用于记账的方法和系统
CN114547467A (zh) 搜题方法、装置、终端设备及可读存储介质
CN113705157A (zh) 一种纸质作业拍照批改的方法
KR20210026695A (ko) 수주 입찰 제안서 생성을 위한 ocr 기반의 정량자료 가공 시스템 및 방법
KR101511590B1 (ko) 스마트 룰러상의 인식 존을 이용한 데이터 입력시스템
CN111539240A (zh) 信息处理装置、储存介质及信息处理方法

Legal Events

Date Code Title Description
GRNT Written decision to grant