KR20220093794A - 관심영역 이미지 추출장치 및 이를 포함하는 로봇 프로세스 자동화 시스템 - Google Patents

관심영역 이미지 추출장치 및 이를 포함하는 로봇 프로세스 자동화 시스템 Download PDF

Info

Publication number
KR20220093794A
KR20220093794A KR1020200184871A KR20200184871A KR20220093794A KR 20220093794 A KR20220093794 A KR 20220093794A KR 1020200184871 A KR1020200184871 A KR 1020200184871A KR 20200184871 A KR20200184871 A KR 20200184871A KR 20220093794 A KR20220093794 A KR 20220093794A
Authority
KR
South Korea
Prior art keywords
image
region
unit
feature points
interest
Prior art date
Application number
KR1020200184871A
Other languages
English (en)
Other versions
KR102557912B1 (ko
Inventor
류병용
장봉규
김장현
김기훈
박광열
Original Assignee
주식회사 포스코아이씨티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 포스코아이씨티 filed Critical 주식회사 포스코아이씨티
Priority to KR1020200184871A priority Critical patent/KR102557912B1/ko
Publication of KR20220093794A publication Critical patent/KR20220093794A/ko
Application granted granted Critical
Publication of KR102557912B1 publication Critical patent/KR102557912B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/04Programme control other than numerical control, i.e. in sequence controllers or logic controllers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • G06K9/6201
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06T3/0093
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

특정 문서에 대한 입력 이미지로부터 관심영역 이미지를 자동으로 추출하고 해당 문서의 종류를 자동으로 특정할 수 있는 본 발명의 일 측면에 따른 관심영역 이미지 추출장치는, 광학문자판독(OCR: Optical Character Recognition) 대상인 입력 이미지로부터 제1 특징점들을 추출하는 제1 특징점 추출부; 데이터베이스에 저장된 학습 이미지들 중 상기 제1 특징점들에 매칭되는 제2 특징점들을 갖는 유사 학습 이미지를 검색하는 유사 학습 이미지 검색부; 상기 입력 이미지를 상기 유사 학습 이미지와 동일한 크기 및 동일한 위상을 갖는 타겟 이미지로 변환하는 타겟 이미지 변환부; 및 상기 유사 학습 이미지에 매핑되어 있는 관심영역 위치정보를 기초로 상기 타겟 이미지로부터 관심영역 이미지를 추출하는 이미지 추출부를 포함하는 것을 특징으로 한다.

Description

관심영역 이미지 추출장치 및 이를 포함하는 로봇 프로세스 자동화 시스템{Apparatus for Extracting Region of Interest Image and Robot Process Automation System Including The Same}
본 발명은 이미지 처리에 관한 것으로서, 보다 구체적으로 디지털 이미지로부터 관심영역을 추출하는 기술에 관한 것이다.
정보통신 기술이 발달함에 따라 컴퓨터를 사용하여 처리하는 업무(이하 "컴퓨팅 업무"라 함)가 크게 증가하게 되었으며, 컴퓨터를 사용하여 일정한 패턴으로 반복 처리하는 업무도 증가하게 되었다.
이에 따라, 반복적으로 수행되는 정형화된 업무를 사용자의 관여 없이 자동으로 처리해 줄 수 있는 로봇 프로세스 자동화(Robot Process Automation: RPA, 이하, 'RPA'라 함) 솔루션이 제안된 바 있다.
RPA는 사용자의 업무 패턴을 녹화하여 자동화 자동화 스크립트(Script)로 저장 후 재생함으로써 사용자의 업무를 대신하게 하는 솔루션으로서, 메일 클라이언트 등 여러 가지 업무용 소프트웨어가 설치된 사용자의 컴퓨터에 로봇(소프트웨어)를 설치하여, 반복적이거나 정형화된 업무를 자동화 자동화 스크립트로 작성하여 재실행하는 소프트웨어를 의미한다.
특정 문서에 대한 사용자의 반복적인 업무를 자동화하기 위해 RPA 솔루션을 이용하는 경우, 해당 문서 내에서 문자를 정확하게 인식하는 것뿐만 아니라 해당 문서의 종류 및 해당 문서로부터 자동화에 필요한 텍스트가 포함되어 있는 영역의 위치도 특정할 수 있어야 한다.
이를 위해, 광학문자판독(OCR: Optical Character Recognition) 기술을 이용하는 것을 고려해 볼 수 있지만, 일반적인 OCR 기술은 디지털 이미지로 변환된 문서 내에서 모든 문자를 얼마나 정확하게 인식하는지에 초점이 맞추어져 있으므로, 문자를 인식하는 것만 가능할 뿐 해당 문서의 종류를 구분하거나 해당 문서 내에서 자동화 대상이 되는 텍스트 영역의 위치를 특정할 수는 없다는 문제점이 있다.
다른 방법으로 OCR 기술로 획득한 결과 텍스트에 텍스트 마이닝(Text Mining) 기법을 적용하는 방법을 고려해 볼 수 있지만, 낮은 정확도를 갖는 OCR 결과 텍스트를 대상으로 테스트 마이닝을 수행하는 경우 해당 문서의 종류를 정확하게 분류할 수 없을 뿐만 아니라, 정확도 높은 자연어 처리를 위해서는 높은 컴퓨팅 자원이 요구되므로 현장에서 사용이 어렵다는 한계가 있다.
본 발명은 상술한 문제점을 해결하기 위한 것으로서, 특정 문서에 대한 입력 이미지로부터 관심영역 이미지를 자동으로 추출하고 해당 문서의 종류를 자동으로 특정할 수 있는 관심영역 이미지 추출장치 및 이를 포함하는 로봇 프로세스 자동화 시스템을 제공하는 것을 그 기술적 과제로 한다.
또한, 본 발명은 문서의 종류 별로 관심영역이 설정되어 있는 학습 데이터를 기초로 입력 이미지의 관심영역을 추출할 수 있는 관심영역 이미지 추출장치 및 이를 포함하는 로봇 프로세스 자동화 시스템을 제공하는 것을 다른 기술적 과제로 한다.
또한, 본 발명은 관심영역 이미지에 대해서만 광학문자판독을 수행할 수 있는 관심영역 이미지 추출장치 및 이를 포함하는 로봇 프로세스 자동화 시스템을 제공하는 것을 다른 기술적 과제로 한다.
또한, 본 발명에 따르면 원하는 종류의 문서를 학습 데이터에 추가할 수 있는 로봇 프로세스 자동화 시스템을 제공하는 것을 또 다른 기술적 과제로 한다.
또한, 본 발명은 입력 이미지로부터 변환된 타겟 이미지가 유효한 이미지인지 여부를 검증할 수 있는 관심영역 이미지 추출장치 및 이를 포함하는 로봇 프로세스 자동화 시스템을 제공하는 것을 다른 기술적 과제로 한다.
상술한 목적을 달성하기 위한 본 발명의 일 측면에 따른 관심영역 이미지 추출장치는, 광학문자판독(OCR: Optical Character Recognition) 대상인 입력 이미지로부터 제1 특징점들을 추출하는 제1 특징점 추출부; 데이터베이스에 저장된 학습 이미지들 중 상기 제1 특징점들에 매칭되는 제2 특징점들을 갖는 유사 학습 이미지를 검색하는 유사 학습 이미지 검색부; 상기 입력 이미지를 상기 유사 학습 이미지와 동일한 크기 및 동일한 위상을 갖는 타겟 이미지로 변환하는 타겟 이미지 변환부; 및 상기 유사 학습 이미지에 매핑되어 있는 관심영역 위치정보를 기초로 상기 타겟 이미지로부터 관심영역 이미지를 추출하는 이미지 추출부를 포함하는 것을 특징으로 한다.
상술한 목적을 달성하기 위한 본 발명의 일 측면에 따른 로봇 프로세스 자동화 시스템은, 입력 이미지로부터 관심영역 이미지를 추출하는 관심영역 이미지 추출장치; 상기 관심영역 이미지를 광학문자판독하여 텍스트를 획득하는 광학문자판독기: 및 상기 획득된 텍스트를 이용하여 로봇 프로세스 자동화(Robot Process Automation)를 통해 자동으로 수행될 업무가 정의된 자동화 스크립트(Script)를 실행하는 스크립트 실행장치를 포함하고, 상기 관심영역 이미지 추출장치는, 데이터베이스에 저장된 학습 이미지들 중 상기 입력 이미지로부터 추출된 제1 특징점들에 매칭되는 제2 특징점들을 갖는 유사 학습 이미지를 검색하는 유사 학습 이미지 검색부; 상기 입력 이미지를 상기 유사 학습 이미지와 동일한 크기 및 동일한 위상을 갖는 타겟 이미지로 변환하는 타겟 이미지 변환부; 및 상기 유사 학습 이미지에 매핑되어 있는 관심영역 위치정보를 기초로 상기 타겟 이미지로부터 상기 관심영역 이미지를 추출하는 이미지 추출부를 포함하는 것을 특징으로 한다.
상술한 바와 같이 본 발명에 따르면, 광학문자판독 대상이 되는 문서의 종류를 자동으로 특정할 수 있을 뿐만 아니라 해당 문서에 대한 입력 이미지로부터 관심영역 이미지를 자동으로 추출할 수 있어, 로븟 자동화 프로세스 시스템이 해당 문서에 대해 사용자의 반복적인 업무를 자동화하여 수행할 수 있다는 효과가 있다.
또한, 본 발명에 따르면 문서의 종류 별로 관심영역이 설정되어 있는 학습 데이터를 기초로 입력 이미지의 문서종류 특정 및 관심영역 이미지 추출을 자동으로 수행할 수 있기 때문에 문서종류 분류 및 관심영역 이미지 추출의 정확도가 향상된다는 효과가 있다.
또한, 본 발명에 따르면 광학문자판독과는 독립적으로 문서의 분류 및 관심영역 이미지 추출을 수행할 수 있고, 문서 종류의 분류 및 관심영역 이미지 추출을 위한 문서의 특징점 또는 특징벡터가 자동으로 추출되기 때문에, 비 전문가도 원하는 종류의 문서를 학습 데이터에 용이하게 추가할 수 있어 범용적인 사용이 가능하다는 효과가 있다.
또한, 본 발명에 따르면 변환된 타겟 이미지로부터 로봇 프로세스 자동화에 필요한 관심영역을 이미지 형태로 추출할 수 있어 기존 광학문자판독기와 쉽게 연동이 가능할 뿐만 아니라, 타겟 이미지 내에서 관심영역을 제외한 불필요한 영역은 광학문자판독 대상에서 제외 되기 때문에 광학문자판독 수행 시간이 단축되고, 광학문자판독 성능도 향상된다는 효과가 있다.
또한, 본 발명에 따르면 입력 이미지로부터 변환된 타겟 이미지가 유효한 이미지인지 여부를 검증할 수 있기 때문에, 학습 데이터에 포함되지 않는 종류의 문서에 대한 입력 이미지가 타겟 이미지로 잘못 변환됨으로 인해 발생될 수 있는 오류를 미연에 방지할 수 있다는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 관심영역 이미지 추출장치의 구성을 개략적으로 보여주는 블록도이다.
도 2는 학습 이미지의 종류를 예시적으로 보여주는 도면이다.
도 3은 학습 이미지로 사용할 수 있는 이미지의 예와 학습 이미지로 사용할 수 없는 이미지의 예를 보여주는 도면이다.
도 4는 학습 이미지로부터 추출된 제1 크기-회전 불변 특징점들의 예를 보여주는 도면이다.
도 5는 도 1에 도시된 제1 특징벡터 산출부의 구성을 보여주는 블록도이다.
도 6은 각 불변영영들로부터 생성된 히스토그램의 예를 보여주는 도면이다.
도 7은 데이터베이스의 각 슬롯에 저장되는 학습 데이터의 예를 보여주는 도면이다.
도 8은 입력 이미지로부터 추출된 제2 크기-회전 불변 특징점과 학습 이미지로부터 추출된 제1 크기-회전 불변 특징점 간의 매칭 결과를 예시적으로 보여주는 도면이다.
도 9 및 도 10은 도 1에 도시된 이미지 생성부가 타겟 이미지를 생성하는 과정을 예시적으로 보여주는 도면이다.
도 11은 도 9에 도시된 입력 이미지로부터 추출된 관심영역 이미지의 예를 보여주는 도면이다.
도 12는 본 발명의 일 실시예에 따른 로봇 프로세스 자동화 시스템의 구성을 개략적으로 보여주는 블록도이다.
명세서 전체에 걸쳐서 동일한 참조번호들은 실질적으로 동일한 구성요소들을 의미한다. 이하의 설명에서, 본 발명의 핵심 구성과 관련이 없는 경우 및 본 발명의 기술분야에 공지된 구성과 기능에 대한 상세한 설명은 생략될 수 있다. 본 명세서에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 발명의 실시예를 설명하기 위한 도면에 개시된 형상, 크기, 비율, 각도, 개수 등은 예시적인 것이므로 본 발명이 도시된 사항에 한정되는 것은 아니다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다. 또한, 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명은 생략한다.
본 명세서에서 언급된 '포함한다', '갖는다', '이루어진다' 등이 사용되는 경우 '~만'이 사용되지 않는 이상 다른 부분이 추가될 수 있다. 구성 요소를 단수로 표현한 경우에 특별히 명시적인 기재 사항이 없는 한 복수를 포함하는 경우를 포함한다.
구성 요소를 해석함에 있어서, 별도의 명시적 기재가 없더라도 오차 범위를 포함하는 것으로 해석한다.
위치 관계에 대한 설명일 경우, 예를 들어, '~상에', '~상부에', '~하부에', '~옆에' 등으로 두 부분의 위치 관계가 설명되는 경우, '바로' 또는 '직접'이 사용되지 않는 이상 두 부분 사이에 하나 이상의 다른 부분이 위치할 수도 있다.
시간 관계에 대한 설명일 경우, 예를 들어, '~후에', '~에 이어서', '~다음에', '~전에' 등으로 시간적 선후 관계가 설명되는 경우, '바로' 또는 '직접'이 사용되지 않는 이상 연속적이지 않은 경우도 포함할 수 있다.
제1, 제2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않는다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있다.
"적어도 하나"의 용어는 하나 이상의 관련 항목으로부터 제시 가능한 모든 조합을 포함하는 것으로 이해되어야 한다. 예를 들어, "제1 항목, 제2 항목 및 제 3 항목 중에서 적어도 하나"의 의미는 제1 항목, 제2 항목 또는 제3 항목 각각 뿐만 아니라 제1 항목, 제2 항목 및 제3 항목 중에서 2개 이상으로부터 제시될 수 있는 모든 항목의 조합을 의미할 수 있다.
본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하고, 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시할 수도 있다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 실시예를 구체적으로 설명한다.
도 1은 본 발명의 일 실시예에 따른 관심영역 이미지 추출장치의 구성을 개략적으로 보여주는 블록도이다. 도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 관심영역 이미지 추출장치(100)는 학습유닛(110), 데이터베이스(120), 및 구동유닛(130)을 포함한다.
학습유닛(110)은 관심영역 이미지 추출을 위한 학습 데이터를 생성한다. 이를 위해, 학습유닛(110)은 도 1에 도시된 바와 같이, 학습 이미지 획득부(112), 특징점 추출부(114), 및 제1 특징벡터 산출부(116)를 포함한다.
학습 이미지 획득부(112)는 학습 데이터에 생성에 이용될 학습 이미지 및 학습 이미지의 설정정보를 획득하고, 획득된 학습 이미지와 학습 이미지 설정정보를 매핑시켜 데이터베이스(120)에 저장한다. 이때, 학습 데이터들 간의 구분을 위해 학습 데이터 별로 학습 데이터 식별자 또는 학습 데이터 명칭이 부여되어 학습 데이터 식별자 또는 학습 데이터 명칭이 학습 데이터와 매핑되어 데이터베이스(120)에 저장될 수 있다.
일 실시예에 있어서, 학습 이미지 획득부(112)는 각 문서의 종류 별로 학습 데이터를 생성하기 위해 각 문서의 종류 별로 학습 이미지와 학습 이미지의 속성정보를 획득한다. 일 예로, 학습 이미지 획득부(112)는 도 2a에 도시된 바와 같이 신분증에 대한 학습 데이터를 생성하기 위해 신분증 이미지를 학습 이미지로 획득하거나, 도 2b에 도시된 바와 같이 명함에 대한 학습 데이터를 생성하기 위해 명함 이미지를 학습 이미지로 획득하거나, 도 2c에 도시된 바와 같이 통장 사본에 대한 학습 데이터를 생성하기 위해 통장사본 이미지를 학습 이미지로 획득할 수 있다.
일 실시예에 있어서, 학습 이미지 획득부(112)는 기준값 이상의 해상도를 갖고 해당 문서의 정면이 표시되는 이미지를 학습 이미지로 획득할 수 있다. 즉, 학습 이미지 획득부(112)는 기준값 이상의 해상도를 갖고 회전이나 아핀 변환(Affine Transformation)이 없는 이미지를 학습 이미지로 획득할 수 있다. 학습 이미지 획득부(112)가 기준값 이상의 해상도를 갖고 회전이나 아핀 변환(Affine Transformation)이 없는 이미지를 학습 이미지로 획득하는 이유는 학습 이미지 내에 포함된 텍스트를 광학문자판독기로 정확하게 인식 할 수 있어야 하기 때문이다.
일 예로, 도 3a에 도시된 이미지는 문서의 정면이 표시된 이미지 이므로 학습 이미지로 이용될 수 있지만, 도 3b 및 도 3c에 도시된 이미지는 회전 또는 아핀변환된 이미지로써 문서의 정면이 표시되지 않기 때문에 학습 이미지로 이용될 수 없다.
학습 이미지 설정정보는 학습 이미지 내에서 광학문자판독기로 인식해야 하는 영역인 관심영역의 설정정보 및 및 동일 종류의 문서 내에서 변화가 발생되지 않는 영역인 불변영역의 설정정보를 포함한다. 이때, 관심영역은 주민등록번호나 주소 등이 포함된 영역일 수 있고, 불변영역은 특정 종류의 문서에 항상 들어가 있는 로고나 해당 문서의 양식을 알려주는 제목이 포함된 영역일 수 있다.
일 예로, 학습 이미지가 신분증 이미지인 경우, 도 2a에 도시된 바와 같이 성명에 포함된 영역(210), 주민등록번호가 포함된 영역(212), 및 주소가 포함된 영역(214)이 관심영역으로 설정될 수 있고, 학습 이미지가 신분증 이미지인 경우 도 2a에 도시된 바와 같이 '주민등록증'이라는 텍스트가 포함된 영역(216)이 불변영역으로 설정될 수 있다.
일 실시예에 있어서, 관심영역의 설정정보는 관심영역 위치정보, 관심영역 속성정보, 및 관심영역 식별자(ID: Identifier) 중 적어도 하나를 포함할 수 있다. 관심영역 위치정보는 해당 학습 이미지 내에서 관심영역의 위치를 나타내는 정보로써, 학습 이미지 획득부(112)는 학습 이미지 내에서 관심영역을 정의하는 윈도우의 좌측상단의 좌표 및 우측하단의 좌표를 관심영역 위치정보로 획득할 수 있다.
관심영역 속성정보는 관심영역에 어떤 정보가 포함되어 있는지를 나타내는 정보이고, 관심영역 식별정보는 복수개의 관심영역이 존재하는 경우 각 관심영역들을 구분하기 위한 정보이다.
일 실시예에 있어서, 불변영역의 설정정보는 불변영역 위치정보, 불변영역 속성정보, 및 불변영역 식별자 중 적어도 하나를 포함할 수 있다. 불변영역의 위치정보는 해당 학습 이미지 내에서 불변영역의 위치를 나타내는 정보로써, 학습 이미지 획득부(112)는 학습 이미지 내에서 불변영역을 정의하는 윈도우의 좌측상단의 좌표 및 우측하단의 좌표를 관심영역 위치정보로 획득할 수 있다. 이때, 불변영역은 복수개가 존재할 수 있기 때문에, 학습 이미지 획득부(112)는 불변영역 위치정보 또한 각 불변영역 별로 획득할 수 있다.
불변영역 속성정보는 불변영역에 어떤 정보가 포함되어 있는지를 나타내는 정보이고, 불변영역 식별정보는 복수개의 불변영역이 존재하는 경우 각 불변영역들을 구분하기 위한 정보이다. 이때, 불변영역의 속성정보를 기초로 해당 학습 이미지가 어떤 종류의 문서에 해당하는 것인지가 특정될 수 있다.
제1 특징점 추출부(114)는 학습 이미지 획득부(112)를 통해 획득된 학습 이미지로부터 특징점을 추출한다. 일 실시예에 있어서, 제1 특징점 추출부(114)는 미리 정해진 크기-회전 불변 특징점 추출 알고리즘을 이용하여 학습 이미지로부터 크기-회전 불변 특징점(이하, '제1 크기-회전 불변 특징점'이라 함)을 추출한다. 제1 특징점 추출부(114)는 각 학습 이미지 별로 추출된 제1 크기-회전 불변 특징점들을 해당 학습 이미지와 매핑시켜 데이터베이스(120)에 저장한다.
본 발명에서 제1 특징점 추출부(114)가 학습 이미지로부터 크기-회전 불변 특징점을 추출하는 이유는, 학습 이미지가 특정 문서를 스캔 또는 카메라로 촬영한 이미지인 경우, 스캔과정 또는 사진촬영 과정에서 문서의 위치, 크기, 방향이 변경되면 동일 문서라고 하더라도 다른 문서로 인식될 수 있기 때문이다.
예를 들어, 신분증을 스캔 할 때 스캐너 상에 놓여진 신분증 위치가 상이한 경우, 스캔시 다른 DPI가 설정되는 경우, 또는 신분증을 스캔하는 방향(예컨대, 신분증을 가로로 스캔하거나 신분증을 세로로 스캔하는 경우)이 상이한 경우 같이 신분증의 스캔과정에서 위치, 크기, 방향이 달라 질 수 있다. 이런 문제는 광학문자판독의 성능이 저하될 뿐만 아니라 문서를 분류하기 위한 정보를 추출하는데 있어서도 장애요인으로 작용할 수도 있다.
따라서, 본 발명에서는 이런 문제점을 해결하기 위해 학습 이미지로부터 크기 및 회전에 불변하는 특징점을 추출하는 것이다.
제1 특징점 추출부(114)는 학습 이미지로부터 제1 크기-위치 불변 특징점들을 추출하기 위해 학습 이미지를 다양한 크기로 리사이즈(Resize)함으로써 다양한 크기의 학습 이미지들(예컨대, N개)을 생성한다. 제1 특징점 추출부(114)는 각 크기의 학습 이미지를 대상으로 이미지 사이즈를 줄이는 것과 같은 효과를 주는 저역통과 필터링(Low Pass Filtering)을 적용하여 다양한 스케일(Scale) 공간의 학습 이미지들(예컨대 각 크기의 이미지 별로 K개)을 생성한다. 이를 통해 제1 특징점 추출부(114)는 하나의 학습 이미지로부터 N x K 개의 학습 이미지를 획득할 수 있게 된다.
이후, 제1 특징점 추출부(114)는 K 스케일 공간 간의 픽셀 변화(예컨대, 미분값)를 사용하여 최소값(Local minima) 및 최대값(Local maxima)를 나타내는 픽셀을 특징점(Key Point) 후보로 선택한다. 스케일 공간의 미분값이 최대값 및 최소값을 가지는 픽셀은 해당 공간의 스케일에서 구조적인 반응이 제일 뚜렷한 픽셀이므로 특징점 후보가 될 수 있고 특정 스케일에 대한 정보도 들어 있기 때문에 매우 유용하다.
이후, 제1 특징점 추출부(114)는 특징점 후보로 선택된 픽셀이 에지인지 또는 코너인지 여부를 테스트 해서 에지로 판단된 특징점 후보는 제거하고, 코너로 판단된 특징점 후보를 최종 특징점으로 결정한다. 이후, 제1 특징점 추출부(114)는 특징점 주변 픽셀의 에지 반응 방향을 계산하여 가장 뚜렷한 방향을 가지는 방향을 제1 에지 반응 방향으로 검출하고, 특징점 주변의 N x N 픽셀 또는 N x N 픽셀 내 서브 픽셀들에서 제2 에지 반응 반향을 계산하고 제1 에지 반응 방향과 제2 에지 반응 방향의 차이값을 해당 특징점에 대한 특징값으로 매핑시킨다.
일 실시예에 있어서, 제1 특징점 추출부(114)는 SIFT(Scale Invariant Feature Transform) 알고리즘 또는 SURF(Speed-Up Robust Features) 알고리즘을 이용하여 학습 이미지로부터 제1 크기-위치 불변 특징점들을 추출할 수 있다.
본 발명에 따른 제1 특징점 추출부(114)에 의해 학습 이미지로부터 추출된 제1 크기-회전 불변 특징점들의 예가 도 4에 도시되어 있다.
다시 도 1을 참조하면, 제1 특징벡터 산출부(116)는 각 학습 이미지 별로 특징벡터(이하, '제1 특징벡터'라 함)를 산출하고, 제1 특징벡터를 각 학습 이미지와 매핑시켜 데이터베이스(120)에 저장한다. 구체적으로, 제1 특징벡터 산출부(116)는 각 학습 이미지에 포함된 불변영역 별로 에지정보를 산출하고, 각 불변영역들의 에지정보를 결합하여 해당 학습 이미지에 대한 제1 특징벡터를 산출한다. 일 실시예에 있어서, 에지정보는 에지 반응 크기 및 에지 반응 방향을 포함할 수 있다.
이하, 본 발명에 따른 제1 특징벡터 산출부(116)의 구성을 도 5를 참조하여 보다 구체적으로 설명한다.
도 5는 본 발명의 일 실시예에 따른 제1 특징벡터 산출부의 구성을 개략적으로 보여주는 블록도이다. 도 5에 도시된 바와 같이, 본 발명의 일 실시예에 따른 제1 특징벡터 산출부(116)는 에지 반응 크기 산출부(510), 에지 반응 방향 산출부(520), 히스토그램 생성부(530), 및 특징벡터 생성부(540)를 포함한다.
에지 반응 크기 산출부(510)는 학습 이미지 상에서 각 불변영역에 포함된 픽셀들 각각에 대해 소벨 오퍼레이터(Sobel Operator)를 적용하여 x방향 에지 반응 크기 및 y방향 에지 반응 크기를 산출한다.
구체적으로, 에지 반응 크기 산출부(501)는 아래의 수학식 1 및 2에 기재된 바에 따라 불변영역 내 각 픽셀을 대상으로 3x3 소벨 오퍼레이터를 적용하여 x방향 에지 반응 크기(Gx)와 y방향 에지 반응 크기(Gy)를 산출한다.
Figure pat00001
Figure pat00002
수학식 1 및 2에서 Gx는 x방향 에지 반응 크기를 나타내고, Gy는 y방향 에지 반응 크기를 나타내며, 연산자 *는 컨벌루션을 나타내고, A는 학습 이미지를 나타낸다.
에지 반응 크기 산출부(501)는 산출된 x방향 에지 반응 크기(Gx) 및 y방향 에지 반응 크기(Gy)를 아래의 수학식 3을 이용하여 결합함으로써 각 픽셀의 에지 반응 크기(G)를 산출한다.
Figure pat00003
또한, 에지 반응 방향 산출부(520)는 불변영역 내 각 픽셀의 x방향 에지 반응 크기(Gx) 및 y방향 에지 반응 크기(Gy) 간의 각도를 이용하여 각 픽셀의 에지 반응 방향을 산출하고, 산출된 에지 반응 방향을 N 방향으로 양자화한다.
구체적으로, 에지 반응 방향 산출부(520)는 아래의 수학식 4에 따라 x방향 에지 반응 크기(Gx)와 y방향 에지 반응 크기(Gy)를 이용하여 해당 픽셀의 에지 반응 방향(θ)을 산출하고, 산출된 에지 반응 방향(θ)을 패턴 매칭을 위해 N방향으로 양자화 한다. 여기서, N방향으로의 양자화 과정을 거치면 각 픽셀의 에지 반응 방향이 N개의 방향 중 어느 하나로 결정된다.
Figure pat00004
히스토그램 생성부(530)는 N개의 방향 별로 에지 반응 크기를 누적한 히스토그램을 생성한다. 구체적으로, 히스토그램 생성부(530)는 각 불변영역 마다 에지 반응 방향의 통계를 계산하기 위해 N개의 빈을 가진 히스토그램에 해당 방향의 해당하는 빈의 크기를 가중치가 반영된 에지 반응 크기만큼 누적시키는 방식으로 히스토그램을 생성한다. 이때, 가중치는 에지 반응 크기에 비례하도록 설정될 수 있다.
제1 특징벡터 생성부(540)는 각 불변영역 별로 생성된 히스토그램을 연결하여 각 학습 이미지에 대한 제1 특징벡터를 생성한다. 예컨대, 특징벡터 생성부(540)는 도 6에 도시된 예에서와 같이, 제1 불변영역(610)에 대해 생성된 제1 히스토그램들(620)과 제2 불변영역(630)에 대해 생성된 제2 히스토그램(640)을 연결함으로써 해당 학습 이미지에 대해 하나의 제1 특징벡터를 생성한다.
상술한 바와 같이, 본 발명에 따르면 학습유닛(110)을 통해 원하는 문서에 대한 학습 데이터를 추가가 용이하기 때문에 새로운 종류의 입력 이미지에 대한 관심영역 이미지의 추출이 용이하게 수행될 수 있다.
다시 도 1을 참조하면, 데이터베이스(120)에는 학습유닛(110)에 의해 생성된 학습 데이터가 저장된다. 일 실시예에 있어서, 데이터베이스(120)는 복수개의 슬롯들(S1~Sn)을 포함하고, 각 슬롯(S1~Sn) 별로 하나의 학습 데이터가 저장된다. 이때, 각 슬롯에 저장되는 학습 데이터의 일 예가 도 7에 도시되어 있다.
도 7의 예에서, 제1 슬롯(S1)에는 학습 이미지가 신분증 이미지인 학습 데이터가 저장되고, 제2 슬롯(S2)에는 학습 이미지가 명함 이미지인 학습 데이터가 저장됨을 알 수 있다. 구체적으로, 제1 슬롯(S1)에는 신분증 이미지, 신분증 이미지에서 추출된 특징점, 신분증이미지에서 추출된 제1 특징벡터, 신분증 이미지에 대한 관심영역 설정정보, 신분증 이미지에 대한 불변영역 설정정보가 포함될 수 있다. 제2 슬롯(S2)에는 명함 이미지, 명함 이미지에서 추출된 특징점, 명함 이미지에서 추출된 제1 특징벡터, 명함 이미지에 대한 관심영역 위치정보, 명함 이미지에 대한 불변영역 위치정보가 포함될 수 있다.
다시 도 1을 참조하면, 구동유닛(130)은 광학문자판독 대상이 되는 입력 이미지가 수신되면, 해당 입력 이미지로부터 광학문자판독 대상이 되는 관심영역을 추출하여 관심영역 이미지를 생성한다. 이를 위해, 구동유닛(130)은 입력 이미지 획득부(132), 제2 특징점 추출부(134), 유사 학습 이미지 검색부(136), 타겟 이미지 변환부(138), 유효성 검증부(140), 및 이미지 추출부(142)를 포함한다.
입력 이미지 획득부(132)는 광학문자판독 대상인 입력 이미지를 획득한다. 일 실시예에 있어서, 입력 이미지는 광학문자판독 대상인 문서를 스캔 또는 촬영하여 생성한 디지털 이미지일 수 있다. 입력 이미지 획득부(132)는 입력 이미지를 통신 네트워크 또는 저장매체 등으로부터 획득할 수 있다.
제2 특징점 추출부(134)는 입력 이미지 획득부(132)를 통해 획득된 입력 이미지로부터 특징점을 추출한다. 일 실시예에 있어서, 제2 특징점 추출부(114)는 미리 정해진 크기-회전 불변 특징점 추출 알고리즘을 이용하여 입력 이미지로부터 크기-회전 불변 특징점(이하, '제2 크기-회전 불변 특징점'이라 함)을 추출한다. 제2 특징점 추출부(134)가 입력 이미지로부터 제2 크기-회전 불변 특징점들을 추출하는 방법은 제1 특징점 추출부(114)가 학습 이미지로부터 크기-회전 불변 특징점들을 추출하는 방법과 동일하므로 구체적인 설명은 생략한다.
유사 학습 이미지 검색부(136)는 데이터베이스(120)에 저장되어 있는 학습 이미지들 중 제2 특징점 추출부(134)에 의해 추출된 제2 크기-회전 불변 특징점들에 매칭되는 제1 크기-회전 불변 특징점들을 갖는 유사 학습 이미지를 검색한다.
일 실시예에 있어서, 유사 학습 이미지 검색부(136)는 제2 크기-회전 불변 특징점들을 이용하여 K차원 트리(K-Dimension Tree)를 구성하고, K차원 트리를 이용하여 데이터베이스(120)에 저장되어 있는 학습 이미지들에 대해 바이너리 서치(Binary Search)를 수행함으로써 제2 크기-회전 불변 특징점에 매칭되는 제1 크기-회전 불변 특징점들을 검색한다.
본 발명에서, 유사 학습 이미지 검색부(136)가 제2 크기-회전 불변 특징점들을 이용하여 K차원 트리(K-Dimension Tree)를 구성하는 이유는, 데이터베이스(120)에 저장되어 있는 다수의 학습 이미지들에 대해 보다 빠르게 특징점 매칭을 수행할 수 있기 때문이다.
도 8에 입력 이미지(810)로부터 추출된 제2 크기-회전 불변 특징점들과 학습 이미지(820)로부터 추출된 제1 크기-회전 불변 특징점들 간의 매칭 결과가 예시적으로 도시되어 있다.
유사 학습 이미지 검색부(136)는 서로 매칭된 제1 및 제2 크기-회전 불변 특징점들 중 일부(예컨대, 4개의 제1 및 제2 크기-회전 불변 특징점 쌍)를 이용하여 2차원 호모그래피 행렬식(2D Homography Matrix)을 산출하고, 산출된 2차원 호모그래피 행렬식과 제1 크기-회전 불변 특징점들을 이용하여 계산된 제2 크기-회전 불변 특징점과 입력 이미지로부터 실제로 추출된 제2 크기-회전 불변 특징점간의 오차가 가장 작은 학습 이미지를 유사 학습 이미지로 결정한다.
구체적으로, 입력 이미지와 데이터베이스(120)에 저장된 학습 이미지들은 임의의 원근투영변환(Perspective Projective Transform) 관계를 가지고 있기 때문에, 입력 이미지와 학습 이미지들의 2차원 좌표상의 관계는 아래의 수학식 5에서와 같이 서로 매칭되는 제1 크기-위치 불변 특징점들과 제2 크기-위치 불변 특징점들의 좌표와 2차원 호모그래피(Homography) 행렬식으로 표현할 수 있다.
Figure pat00005
수학식 5에서,
Figure pat00006
Figure pat00007
(n은 자연수)은 제2 크기-회전 불변 특징점의 좌표값을 나타내고,
Figure pat00008
Figure pat00009
은 제2 크기-회전 불변 특징점에 매칭되는 제1 크기-회전불변 특징점의 좌표값을 나타내며,
Figure pat00010
내지
Figure pat00011
은 상기 2차원 호모그래피 행렬식의 계수를 나타낸다.
이때, 서로 매칭되는 제1 크기-위치 불변 특징점들과 제2 크기-위치 불변 특징점들의 좌표값은 이미 알고 있기 때문에, 유사 학습 이미지 검색부(136)는 매칭된 특징점 쌍(Pair)의 개수가 최소 4개 이상일 때 수학식 5를 이용하여 2차원 호모그래피 행렬 값을 계산 할 수 있다.
따라서 유사 학습 이미지 검색부(136)는 서로 매칭된 특징점 쌍이 4개 이상인 학습 이미지들을 대상으로 각각의 2차원 호모그래피 행렬값을 계산한다. 일 실시예에 있어서, 유사 학습 이미지 검색부(136)는 최소자승법(Least Squares Approximation) 또는 RANSAC(RANdom SAmple Consensus) 방법을 이용하여 2차원 호모그래피 행렬값을 계산할 수 있다. 특징점 추출 과정이나 이미지의 잡음으로 인해 오류를 가진 특징점 또는 불일치 되는 특징점 쌍이 식에 포함될 수 있기 때문에, 유사 학습 이미지 검색부(136)는 오류를 가진 특징점이 다수 포함되거나 잡음으로 인해 값이 튀는 문제를 해결할 수 있는 RANSAC 방법을 사용하여 2차원 호모그래피 행렬값을 계산할 수 있다.
유사 학습 이미지 검색부(136)는 서로 매칭된 특징점 쌍이 4개 이상인 학습 이미지들에 대해 각각 2차원 호모그래피 값을 산출한 후, 각 학습 이미지 별로 해당 학습 이미지의 제1 크기-회전 불변 특징점과 해당 학습 이미지에 대해 산출된 2차원 호모그래피 값을 수학식 5에 대입하여 제2 크기-회전 불변 특징점을 계산한다. 유사 학습 이미지 검색부(136)는 실제 입력 이미지로부터 추출된 제2 크기-회전 불변 특징점들과 수학식 5를 이용하여 계산된 제2 크기-회전 불변 특징점 간의 RMSE(Root-Mean-Square Error)를 계산하여 가장 낮은 RMSE값을 가지는 학습 이미지를 유사 학습 이미지로 결정한다.
타겟 이미지 변환부(138)는 입력 이미지를 유사 학습 이미지와 동일한 크기 및 동일한 위상을 갖는 타겟 이미지로 변환한다. 본 발명에서 타겟 이미지 변화부(1380)가 입력 이미지를 유사 학습 이미지와 동일한 크기 및 동일한 위상을 갖는 타겟 이미지로 변환시키는 이유는, 이미지 변환을 통해 입력 이미지의 내용이 학습 이미지의 내용과 같은 위치에 있는 경우 에지 특징 추출을 통한 문서 분류 정확성 및 관심영역을 설정하기가 용이하기 때문이다.
본 발명에 따른 타겟 이미지 변환부(138)는 도 1에 도시된 바와 같이, 좌표 변환부(138a) 및 이미지 생성부(138b)를 포함한다.
좌표 변환부(138a)는 유사 학습 이미지 검색부(136)에 의해 검색된 유사 학습 이미지의 2차원 호모그래피 행렬식을 이용하여 입력 이미지에 포함된 픽셀들의 제1 좌표값을 제2 좌표값으로 변환한다.
일 실시예에 있어서, 좌표 변환부(138a)는 아래의 수학식 6을 이용하여 제1 좌표값을 제2 좌표값으로 변환할 수 있다.
Figure pat00012
수학식 6에서
Figure pat00013
는 제2 좌표값을 나타내고,
Figure pat00014
는 제1 좌표값의 x값을 나타내고,
Figure pat00015
는 제1 좌표값의 y값을 나타내며,
Figure pat00016
내지
Figure pat00017
은 2차원 호모그래피 행렬식의 계수를 나타낸다.
이미지 생성부(138b)는 제1 좌표값에 대응되는 픽셀의 픽셀값과 제2 좌표값을 이용하여 타겟 이미지를 생성한다. 구체적으로, 이미지 생성부(138b)는 제1 좌표에 대응되는 픽셀의 픽셀값을 유사 학습 이미지와 동일한 크기를 갖는 이미지 슬롯 내에서 좌표 변환부(138a)에 의해 산출된 제2 좌표에 해당하는 제2 픽셀에 할당함으로써 타겟 이미지를 생성한다.
이미지 생성부(138b)가 제1 좌표값에 대응되는 픽셀값을 이미지 슬롯 내에서 좌표 변환부(138a)에 의해 산출된 제2 좌표에 해당하는 제2 픽셀에 할당함으로써 타겟 이미지를 생성하는 일 예가 도 9 및 도 10에 도시되어 있다.
도 9 및 도 10에 도시된 바와 같이, 입력 이미지(910)에 포함된 제1 픽셀(912) 각각의 제1 좌표값을 2차원 호모그래피 행렬값을 이용하여 제2 좌표값으로 변환하고, 이미지 슬롯(920) 내에서 제2 좌표값에 해당하는 제2 픽셀(922)에 제1 좌표에 대응되는 제1 픽셀(912)의 픽셀값을 채움으로써 타겟 이미지(930)를 생성한다.
이때, 제2 좌표값이 정수값으로 변환되지 않는 경우 이미지 생성부(138b)는 인터폴레이션(Interpolation)을 이용하여 타겟 이미지를 생성할 수 있다. 예컨대, 제2 좌표값이 정수값으로 변환되지 않는 경우 이미지 생성부(138b)는 제2 좌표값에 인접한 픽셀(예컨대 4개)들의 픽셀값을 제2 좌표값에 가까운 픽셀의 순서대로 높은 가중치를 부여하여 결정함으로써 타겟 이미지를 생성할 수 있다.
다시 도 1을 참조하면, 유효성 검증부(140)는 타겟 이미지 변환부(138)에 의해 생성된 타겟 이미지의 에지정보를 기초로 생성된 제1 특징벡터와 유사 학습 이미지의 에지정보를 기초로 생성된 제2 특징벡터를 비교하여 타겟 이미지의 유효성을 검증한다.
본 발명에서 유효성 검증부(140)가 타겟 이미지의 유효성을 검증하는 이유는, 본 발명의 경우 특징점 매칭을 통해 유사 학습 이미지를 검색하기 때문에, 입력 이미지와 다른 문서 종류의 학습 이미지가 특징점 매칭을 통해 해당 입력 이미지에 대한 유사 학습 이미지로 결정될 수 있고, 이러한 경우 큰 오차를 가지는 2차원 호모그래피 행렬값 들 중 가장 작은 2차원 호모그래피 행렬값이 선택되어 서로 다른 종류의 문서의 이미지들 간에 이미지 변환이 수행됨으로써 타겟 이미지가 생성될 수 있기 때문이다.
이를 위해, 유효성 검증부는 도 1에 도시된 바와 같이, 제2 특징벡터 산출부(140a) 및 판단부(140b)를 포함한다.
제2 특징벡터 산출부(140a)는 타겟 이미지에 대한 제2 특징벡터를 산출한다. 이를 위해, 제2 특징벡터 산출부(140a)는 데이터베이스(120)로부터 유사 학습 이미지에 매핑되어 있는 불변영역 위치정보를 획득하고, 획득된 불변영역 위치정보를 이용하여 타겟 이미지 상에서 불변영역을 설정한다. 이후, 제2 특징벡터 산출부(140a)는 설정된 불변영역 별로 에지정보를 산출하고, 각 불변영역 별로 산출된 에지정보들을 결합함으로써 제2 특징벡터를 산출한다. 제2 특징벡터 산출부(140a)가 타겟 이미지로부터 제2 특징벡터를 산출하는 방법은 제1 특징벡터 산출부(116)가 학습 이미지로부터 제1 특징벡터를 산출하는 방법과 동일하므로 구체적인 설명은 생략한다.
판단부(140b)는 데이터베이스(120)로부터 유사 학습 이미지에 매핑되어 있는 제1 특징벡터를 획득하고, 획득된 제1 특징벡터를 제2 특징벡터 산출부(140a)에 의해 산출된 제2 특징벡터와 비교함으로써 타겟 이미지가 유효한지 여부를 판단한다. 일 실시예에 있어서, 판단부(140a)는 제2 특징벡터와 제1 특징벡터간의 거리를 기초로 타겟 이미지의 유효성을 판단할 수 있다. 구체적으로, 판단부(140a)는 제2 특징벡터와 제1 특징벡터간의 거리가 임계치 이상인 경우 타겟 이미지가 유효하지 않은 것으로 판단하고, 제2 특징벡터와 제1 특징벡터간의 거리가 임계치 미만인 경우 타겟 이미지가 유효한 것으로 판단한다.
일 실시예에 있어서, 판단부(140b)는 제2 특징벡터와 제1 특징벡터간의 카이 스퀘어 거리(Chi-square distance)를 계산하고, 카이 스퀘어 거리가 임계치 이상인 경우 타겟 이미지가 유효하지 않은 것으로 판단하고 이를 사용자에게 통지한다. 이때, 제2 특징벡터와 제1 특징벡터간의 카이 스퀘어 거리(Chi-square distance)는 아래의 수학식 7을 이용하여 산출할 수 있다.
Figure pat00018
수학식 7에서,
Figure pat00019
은 카이 스퀘어 거리값을 나타내고,
Figure pat00020
은 특징벡터의 크기를 나타내며,
Figure pat00021
는 학습 이미지에 대한 i번째 제1 특징벡터의 값을 나타내고,
Figure pat00022
는 타겟 이미지에 대한
Figure pat00023
Figure pat00024
번째 제2 특징벡터의 값을 나타낸다.
이미지 추출부(142)는 타겟 이미지가 유효한 것으로 판단되면, 타겟 이미지 내에서 광학문자판독 대상이 되는 관심영역에 해당하는 이미지(이하, '관심영역 이미지'라 함)를 추출한다. 일 실시예에 있어서, 이미지 추출부(142)는 데이터베이스(120)로부터 유사 학습 이미지에 매핑되어 있는 관심영역 위치정보를 획득하고, 타겟 이미지 상에서 관심영역 위치정보에 해당하는 영역을 크롭(Crop)함으로써 관심영역 이미지를 추출할 수 있다. 이미지 추출부(142)가 도 9에 도시된 바와 같은 입력 이미지로부터 추출한 관심영역 이미지의 예가 도 11에 도시되어 있다.
한편, 이미지 추출부(142)는 유사 학습 이미지 데이터의 불변영역의 속성정보에 포함된 내용을 기초로 입력 이미지의 문서의 종류를 특정하고, 특정된 문서의 종류에 대한 정보를 관심영역 이미지와 함께 타 장치로 제공할 수 있다.
상술한 실시예에 있어서는 유효성 검증부(140)가 필수적으로 구비되는 것으로 설명하였지만, 이는 하나의 예일 뿐 유효성 검증부(140)는 선택적으로 포함될 수도 있을 것이다.
도 12는 본 발명의 일 실시예에 따른 관심영역 이미지 추출장치를 포함하는 로봇 프로세스 자동화 시스템의 구성을 개략적으로 보여주는 블록도이다. 도 12에 도시된 바와 같이, 본 발명의 일 실시예에 따른 로봇 프로세스 자동화 시스템(1100)은 스크립트 생성장치(1110), 스크립트 실행장치(1120), 관심영역 이미지 추출장치(100), 및 광학문자판독기(1130)를 포함한다.
스크립트 생성장치(1110)는 로봇 프로세스 자동화(Robot Process Automation: RPA, 이하 'RPA'라 함)를 위한 자동화 스크립트(Script)를 생성한다. 자동화 스크립트란 사용자가 수행하는 반복적이거나 정형화된 업무를 로봇이 대신하여 자동으로 수행할 수 있도록 하기 위해 작성되는 문서를 의미한다. 로봇에 의해 자동화 스크립트가 실행됨으로써, 사용자가 수행해야 하는 업무가 사용자가 수행하는 것과 동일하게 재현될 수 있게 된다.
일 실시예에 있어서, 스크립트 생성장치(1110)는 자동화 스크립트 생성을 위해 사용자에게 스크립터 생성을 위한 툴(예컨대, 자동화 스크립트 에디터)을 제공하고, 사용자는 스크립터 에디터를 통해 프로세스(Process), 태스크(Task), 및 이벤트(Event) 중 적어도 하나를 구체적으로 설정한 후 디버깅(Debugging)을 수행함으로써 자동화 스크립트를 생성할 수 있게 된다.
일 실시예에 있어서, 자동화 스크립트를 통해 설정되는 이벤트(Event)란 사용자가 특정 객체(Object)에 대해 임의의 동작(Action)을 하거나 또는 사용자의 의지와 관계없이 운영체제(Operating System: OS)가 발생시키는 사건을 의미하는 것으로서, 윈도우 오브젝트 검출, 웹 오브젝트 검출, UI(User Interface) 개체 검출, 이미지 검출, OCR(Optical Character Recognition) 검출, 키(Key) 입력, 또는 마우스 입력 등을 포함할 수 있다.
또한, 자동화 스크립트를 통해 설정되는 태스크(Task)란 하나 이상의 이벤트로 구성된 사용자의 단위 실행동작을 의미하고, 프로세스(Process)란 하나 이상의 태스크로 구성된 사용자의 단위 컴퓨팅 업무를 의미한다.
이를 위해, 스크립트 생성장치(1110)는 도 12에 도시된 바와 같이, 프로세스 설정부(1112), 태스크 설정부(1114), 및 스크립트 제작부(1118)를 포함할 수 있다.
프로세스 설정부(1112)는 사용자에게 프로세스를 설정하고 편집할 수 있는 기능을 제공한다. 예컨대, 프로세스 설정부(1112)는 사용자에게 프로세스를 설정하고 편집할 수 있는 프로세스 에디터를 제공하고, 사용자는 프로세스 에디터를 통해 하나 이상의 태스크를 생성하거나 선택하고 이에 대한 속성, 실행조건, 실행순서 등을 결정하여 프로세스를 설정한다. 이를 위해, 프로세스 에디터는 하나 이상의 태스크의 생성을 관리하는 태스크 생성 관리자, 하나 이상의 태스크의 속성을 관리하는 태스크 속성 관리자, 하나 이상의 태스크의 상호 연결을 관리하는 태스크 연결관리자 등을 포함할 수 있다.
이러한 실시예에 따르는 경우 사용자는 프로세스 설정부(1112)에 의해 제공되는 프로세스 에디터를 통해 하나 이상의 태스크를 생성하고 이들의 속성, 실행조건, 실행순서 등을 설정한다. 일 실시예에 있어서, 태스크의 속성은 태스크의 명칭, 입력자료, 입력방법, 출력자료, 출력방법, 처리시간, 및 지연시간 중 적어도 하나가 될 수 있으며, 실행조건은 기 설정된 선행 태스크가 종료되면 실행, 기 설정된 입력자료가 수신되면 실행, 및 기 설정된 실행시각에 실행 중 적어도 하나를 포함할 수 있다. 실행순서는 각각의 태스크가 연속적으로 입력 및 출력 관계가 되어 복수개의 태스크가 상호 연결됨으로써 하나의 프로세스가 생성될 수 있다.
태스크 설정부(1114)는 사용자에게 태스크를 설정하고 편집할 수 있는 기능을 제공한다. 예컨대, 태스크 설정부(1114)는 사용자에게 태스크를 설정하고 편집할 수 있는 태스크 에디터를 제공하고, 사용자는 태스크 에디터를 통해 하나 이상의 이벤트를 생성하거나 선택하고 이에 대한 속성, 실행조건, 실행순서 등을 결정하여 태스크를 설정한다. 이를 위해, 태스크 에디터는 하나 이상의 이벤트의 생성을 관리하는 이벤트 생성 관리자, 하나 이상의 이벤트의 속성을 관리하는 이벤트 속성 관리자, 하나 이상의 이벤트의 상호 연결을 관리하는 이벤트 연결 관리자 등을 포함할 수 있다.
이러한 실시예에 따르는 경우, 사용자는 태스크 설정부(1114)에 의해 제공되는 태스크 에디터를 통해 하나 이상의 이벤트를 생성하고 이들의 속성, 실행조건, 실행순서 등을 설정한다. 일 실시예에 있어서, 이벤트의 속성은 이벤트의 명칭, 대상(예; 텍스트, 이미지, 오브젝트, 파일), 실행방법(예; 오브젝트 검출, 키 입력, 마우스 입력), 실행결과(예; 단순 실행, 텍스트 저장, 이미지 저장, 파일 생성), 및 실행시간 중 적어도 하나를 포함할 수 있고, 실행조건은 기 설정된 선행 이벤트가 종료되면 실행, 기 설정된 선행 이벤트가 종료되면 일정 시간 경과 후 실행, 및 기 설정된 실행시각에 실행 중 적어도 하나를 포함할 수 있다. 실행순서는 각각의 이벤트가 연속적으로 입력 및 출력 관계가 되어 복수개의 이벤트가 상호 연결됨으로써 하나의 태스크가 생성될 수 있다.
일 실시예에 있어서, 상술한 프로세스 설정부(1112)와 태스크 설정부(1114)는 사용자가 프로세스와 태스크를 실행하는 행동 패턴을 레코딩하여 프로세스 레코딩 자료와 태스크 레코딩 자료(참고로, 컴퓨팅 환경 정보가 반영됨)를 생성하고, 생성된 프로세스 자료와 태스크 레코딩 자료에 기초하여 프로세스의 속성과 태스크의 속성, 실행조건, 실행순서 등을 추출할 수 있다.
스크립트 제작부(1118)는 사용자가 프로세스 설정부(1112) 및 태스크 설정부(1114)를 통해 설정한 프로세스와 태스크가 실제 자동으로 실행될 수 있도록 자동화 스크립트를 제작한다.
예컨대, 스크립트 제작부(1118)는 프로세스 설정부(1112)에서 설정된 프로세스를 수행하는 프로세스 자동화 스크립트를 제작하고, 마찬가지로 태스크 설정부(1114)에서 설정된 태스크를 수행하는 태스크 자동화 스크립트를 제작한다. 그리고, 스크립트 제작부(1118)는 스크립트 실행장치(1120)와 연동하여 태스크를 구성하는 하나 이상의 이벤트가 실제 실행순서대로 정상적으로 동작할 수 있는지 검증하여 디버깅(Debugging)하고, 마찬가지로 프로세스를 구성하는 하나 이상의 태스크가 실제 실행순서대로 정상적으로 동작할 수 있는지 검증하여 디버깅한다.
스크립트 제작부(1118)는 이와 같이 생성된 프로세스 자동화 스크립트 또는 태스크 자동화 스크립트를 실제 실행을 위해 스크립트 실행장치(1120)로 전송하고, 추후 재사용 및 관리를 위해 제작된 프로세스 자동화 스크립트 또는 태스크 자동화 스크립트를 저장할 수 있다.
상술한 바와 같은 스크립트 생성장치(1110)는 생성된 자동화 스크립트를 스크립트 실행장치(1120)로 전송함으로써 스크립트 실행장치(1120)에 의해 자동화 스크립트가 자동으로 실행될 수 있도록 한다.
스크립트 실행장치(1120)는 스크립트 생성장치(1110)에 의해 생성된 자동화 스크립트를 실제로 실행함으로써 사용자의 컴퓨팅 업무를 자동으로 처리한다. 구체적으로, 스크립트 실행장치(1120)는 스크립트 생성장치(1110)로부터 프로세스 자동화 스크립트 또는 태스크 자동화 스크립트를 수신하고, 수신된 프로세스 자동화 스크립트 또는 태스크 자동화 스크립트를 해석하여 각각의 이벤트, 태스크, 프로세스에 대해 속성, 실행조건, 우선순위 등을 판단하고 실행순서를 스케쥴링한다.
또한, 스크립트 실행장치(1120)는 각각의 이벤트들을 실행순서에 따라 순차적으로 실행함으로써 태스크를 실행하고, 또한 각각의 태스크들을 실행순서에 따라 실행함으로써 프로세스를 실행한다.
특히, 본 발명에 따른 스크립트 실행장치(1120)는 자동화 스크립트의 실행을 위해 특정 문서에 대한 광학문자판독이 선행되어야 하는 경우, 해당 문서에 대한 입력 이미지를 획득하여 관심영역 이미지 추출장치(100)로 제공한다. 스크립트 실행장치(1120)는 관심영역 이미지 추출장치(100)로부터 해당 입력 이미지에 대한 관심영역 이미지 및 해당 입력 이미지의 문서 종류에 대한 정보를 수신하고, 관심영역 이미지를 광학문자판독기(1130)로 제공함으로써 관심영역 이미지에 대해 광학문자판독기(1130)가 광학문자판독을 수행하여 관심영역 이미지로부터 자동화 스크립트 실행을 위한 텍스트를 획득하도록 한다.
이후, 스크립트 실행장치(1120)는 광학문자판독기(1130)로부터 제공되는 텍스트를 기초로 자동화 스크립트를 실행한다.
관심영역 이미지 추출장치(100)는 스크립트 실행장치(1120)로부터 입력되는 입력 이미지로부터 관심영역 이미지를 추출하여 스크립트 실행장치(1120)로 제공한다. 관심영역 이미지 추출장치(100)의 구성은 도 1에 도시된 것과 동일하므로 구체적인 설명은 생략한다.
상술한 실시예에 있어서 관심영역 이미지 추출장치(100)는 스크립트 실행장치(1120)로부터 입력 이미지를 수신하는 것으로 기재하였지만, 이는 하나의 예일 뿐 관심영역 이미지 추출장치(100)는 별도의 저장매체로부터 입력 이미지를 수신하거나 통신 네트워크를 통해 외부 서버 등으로부터 입력 이미지를 직접 수신할 수도 있을 것이다.
또한, 상술한 실시예에 있어서 관심영역 이미지 추출장치(100)는 관심영역 이미지 및 문서의 종류에 대한 정보를 스크립트 실행장치(1120)로 제공하는 것으로 기재하였지만, 다른 실시예에 있어서 관심영역 이미지 추출장치(100)는 관심영역 이미지는 직접 광학문자판독기(1130)로 제공할 수도 있을 것이다.
광학문자판독기(1130)는 관심영역 이미지에 대해 광학문자판독을 수행함으로써 관심영역 내에 포함되어 있는 텍스트를 추출한다. 본 발명에 따른 광학문자판독기(1130)는 입력 이미지 전체에 대해 광학문자판독을 수행하지 않고 관심영역 이미지 추출장치(100)에 의해 추출된 관심영역 이미지에 대해서만 광학문자판독을 수행하기 때문에 광학문자판독에 소요되는 시간을 단축시킬 수 있고 정확도도 향상시킬 수 있다.
즉, 일반적인 광학문자판독기는 입력 이미지 전체에서 모든 텍스트를 탐색하여 인식해야 하기 때문에 로봇 프로세스 자동화에 적용하기가 쉽지 않을 뿐만 아니라, 일반적인 광학문자판독기는 문서의 종류에 관계없이 단순히 인식된 전체 텍스트만을 제공하기 때문에 문서의 종류 별로 특화된 텍스트를 획득하기 위해서는 광학문자판독 결과로부터 수작업으로 원하는 텍스트를 검색하여야만 한다.
반면, 본 발명에서는 관심영역 이미지 추출장치(100)가 입력 이미지로부터 해당 입력 이미지에 대응되는 문서의 종류에 대해 설정된 관심영역 이미지를 추출하고, 광학문자판독기(1130)는 해당 관심영역 이미지에 대해서만 광학문자판독을 수행하기 때문에, 문서의 종류 별로 특화된 텍스트를 획득하기 위한 별도의 수작업 없이도 광학문자판독결과를 로봇 자동화 프로세스에 그대로 이용할 수 있기 때문에 로봇 프로세스 자동화와 광학문자판독의 활용을 극대화 할 수 있게 된다.
본 발명이 속하는 기술분야의 당업자는 상술한 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.
그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 관심영역 이미지 추출장치 110: 학습유닛
120: 데이터베이스 130: 구동유닛
112: 학습 이미지 획득부 114: 제1 특징점 추출부
116: 제1 특징벡터 산출부 132: 입력 이미지 획득부
134: 제2 특징점 추출부 136: 유사 학습 이미지 검색부
138: 타겟 이미지 변환부 140: 유효성 검증부
142: 이미지 추출부 1110: 스크립트 생성장치
1120: 스크립트 실행장치 1100: 로봇 프로세스 자동화 시스템

Claims (20)

  1. 광학문자판독(OCR: Optical Character Recognition) 대상인 입력 이미지로부터 제1 특징점들을 추출하는 제1 특징점 추출부;
    데이터베이스에 저장된 학습 이미지들 중 상기 제1 특징점들에 매칭되는 제2 특징점들을 갖는 유사 학습 이미지를 검색하는 유사 학습 이미지 검색부;
    상기 입력 이미지를 상기 유사 학습 이미지와 동일한 크기 및 동일한 위상을 갖는 타겟 이미지로 변환하는 타겟 이미지 변환부; 및
    상기 유사 학습 이미지에 매핑되어 있는 관심영역 위치정보를 기초로 상기 타겟 이미지로부터 관심영역 이미지를 추출하는 이미지 추출부를 포함하는 것을 특징으로 하는 관심영역 이미지 추출장치.
  2. 제1항에 있어서,
    상기 유사 학습 이미지 검색부는,
    서로 매칭된 제1 및 제2 특징점들 중 일부를 이용하여 2차원 호모그래피 행렬식(2D Homography Matrix)을 산출하고, 상기 학습 이미지들 중 상기 2차원 호모그래피 행렬식과 상기 제2 특징점들을 이용하여 계산된 제1 특징점들과 상기 입력 이미지로부터 추출된 제2 특징점들간의 오차가 가장 작은 학습 이미지를 상기 유사 학습 이미지로 결정하는 것을 특징으로 하는 관심영역 이미지 추출장치.
  3. 제2항에 있어서,
    상기 유사 학습 이미지 검색부는 수학식
    Figure pat00025
    를 이용하여 상기 2차원 호모그래피 행렬식을 산출하고, 상기 수학식에서
    Figure pat00026
    Figure pat00027
    (n은 자연수)은 상기 학습 이미지에서 추출된 제2 특징점의 좌표값을 나타내고,
    Figure pat00028
    Figure pat00029
    은 상기 입력 이미지에서 추출된 제1 특징점의 좌표값을 나타내며,
    Figure pat00030
    내지
    Figure pat00031
    은 상기 2차원 호모그래피 행렬식의 계수를 나타내는 것을 특징으로 하는 관심영역 이미지 추출장치.
  4. 제1항에 있어서,
    상기 유사 학습 이미지 검색부는,
    상기 제1 특징점들을 이용하여 K차원 트리(K-Dimension Tree)를 구성하고, 상기 K차원 트리를 이용하여 상기 학습 이미지들에 대해 바이너리 서치(Binary Search)를 수행하여 상기 제1 특징점에 매칭되는 제2 불변 특징점들을 검색하는 것을 특징으로 하는 관심영역 이미지 추출장치.
  5. 제1항에 있어서,
    상기 타겟 이미지 변환부는,
    서로 매칭된 제1 및 제2 특징점들 중 일부를 이용하여 산출되는 2차원 호모그래피 행렬식을 기초로 상기 입력 이미지에 포함된 픽셀들의 제1 좌표값을 제2 좌표값으로 변환하는 좌표 변환부; 및
    상기 제1 좌표값에 대응되는 픽셀의 픽셀값 및 상기 제2 좌표값을 이용하여 상기 타겟 이미지를 생성하는 이미지 생성부를 포함하는 것을 특징으로 하는 관심영역 이미지 추출장치.
  6. 제5항에 있어서,
    상기 이미지 생성부는 상기 제1 좌표에 대응되는 픽셀의 픽셀값을 상기 유사 학습 이미지와 동일한 크기를 갖는 이미지 슬롯 내에서 상기 제2 좌표에 해당하는 제2 픽셀에 할당하여 상기 타겟 이미지를 생성하는 것을 특징으로 하는 관심영역 이미지 추출장치.
  7. 제5항에 있어서,
    상기 좌표 변환부는, 수학식
    Figure pat00032
    를 이용하여 상기 제1 좌표값을 상기 제2 좌표값으로 변환하고, 상기 수학식에서
    Figure pat00033
    는 상기 제2 좌표값을 나타내고,
    Figure pat00034
    는 상기 제1 좌표값의 x값을 나타내고,
    Figure pat00035
    는 상기 제1 좌표값의 y값을 나타내며,
    Figure pat00036
    내지
    Figure pat00037
    은 상기 2차원 호모그래피 행렬식의 계수를 나타내는 것을 특징으로 하는 관심영역 이미지 추출장치.
  8. 제1항에 있어서,
    상기 타겟 이미지의 에지정보를 기초로 생성된 제1 특징벡터와 상기 유사 학습 이미지의 에지정보를 기초로 생성된 제2 특징벡터를 비교하여 상기 타겟 이미지의 유효성을 검증하는 유효성 검증부를 더 포함하는 것을 특징으로 하는 관심영역 이미지 추출장치.
  9. 제8항에 있어서,
    상기 유효성 검증부는,
    상기 유사 학습 이미지에 매핑되어 있는 불변영역 위치정보를 이용하여 상기 타겟 이미지 상에서 불변영역을 설정하고, 상기 설정된 불변영역으로부터 산출되는 에지정보를 이용하여 상기 제1 특징벡터를 산출하는 제1 특징벡터 산출부; 및
    상기 유사 학습 이미지에 매핑되어 있는 상기 제2 특징벡터와 상기 제1 특징벡터 간의 거리가 임계치 이상인 경우 상기 타겟 이미지가 유효하지 않은 것으로 판단하는 판단부를 포함하는 것을 특징으로 하는 관심영역 이미지 추출장치.
  10. 제9항에 있어서,
    상기 제1 특징벡터 산출부는,
    상기 불변영역에 포함된 각 픽셀들에 대해 소벨 오퍼레이터(Sobel Operator)를 적용하여 산출되는 x방향 에지 반응 크기 및 y방향 에지 반응 크기를 결합하여 상기 각 픽셀의 결합 에지 반응 크기를 산출하는 에지 반응 크기 산출부;
    상기 각 픽셀의 x방향 에지 반응 크기 및 y방향 에지 반응 크기 간의 각도를 이용하여 각 픽셀의 에지 반응 방향을 산출하고, 산출된 에지 반응 방향을 N개의 방향으로 양자화하는 에지 반응 방향 산출부;
    N개의 방향 별로 상기 에지 반응 크기를 누적한 히스토그램을 생성하는 히스토그램 생성부; 및
    각 불변영역 별로 생성된 히스토그램을 연결하여 상기 제1 특징벡터를 생성하는 특징벡터 생성부를 포함하는 것을 특징으로 하는 관심영역 이미지 추출장치.
  11. 제1항에 있어서,
    상기 제1 특징점 추출부는 상기 입력 이미지의 크기 또는 회전에 따라 특성이 불변하는 픽셀을 상기 제1 특징점으로 추출하고,
    상기 제1 특징점은 상기 입력 이미지에 대한 스케일(Scale) 공간의 미분값들 중 최대값 또는 최소값을 갖는 코너픽셀로 결정되고, 상기 제1 특징점의 특성은 상기 코너픽셀에 인접한 주변픽셀들의 에지 반응 방향 중 어느 하나인 제1 에지 반응 방향과 상기 코너픽셀 주변의 N x N 픽셀 또는 상기 N x N 픽셀 내의 서브영역에서 계산되는 제2 에지 반응 방향의 차이값을 포함하는 것을 특징으로 하는 관심영역 이미지 추출장치.
  12. 제1항에 있어서,
    상기 이미지 추출부는 상기 학습 이미지에 매핑되어 있는 관심영역 위치정보를 획득하고, 상기 타겟 이미지 상에서 상기 관심영역 위치정보에 해당하는 영역을 크롭하여 상기 관심영역 이미지를 추출하는 것을 특징으로 하는 관심영역 이미지 추출장치.
  13. 제1항에 있어서,
    각 문서의 종류 별로 해당 문서에 대해 아핀 변환(Affine Transformation)되지 않은 학습 이미지, 상기 학습 이미지 상에서 각 문서의 종류 별로 변하지 않는 정보들이 기록되는 영역인 불변영역을 정의하는 불변영역 위치정보, 및 광학문자판독 대상이 되는 영역인 관심영역을 정의하는 관심영역 위치정보를 획득하는 학습 이미지 획득부;
    상기 학습 이미지 별로 상기 제2 특징점들을 추출하는 제2 특징점 추출부; 및
    상기 불변영역 내에서 에지정보를 추출하여 상기 학습 이미지에 대한 제2 특징벡터를 산출하는 제2 특징벡터 산출부를 포함하는 것을 특징으로 하는 관심영역 이미지 추출장치.
  14. 입력 이미지로부터 관심영역 이미지를 추출하는 관심영역 이미지 추출장치;
    상기 관심영역 이미지를 광학문자판독하여 텍스트를 획득하는 광학문자판독기: 및
    상기 획득된 텍스트를 이용하여 로봇 프로세스 자동화(Robot Process Automation)를 통해 자동으로 수행될 업무가 정의된 자동화 스크립트(Script)를 실행하는 스크립트 실행장치를 포함하고,
    상기 관심영역 이미지 추출장치는,
    데이터베이스에 저장된 학습 이미지들 중 상기 입력 이미지로부터 추출된 제1 특징점들에 매칭되는 제2 특징점들을 갖는 유사 학습 이미지를 검색하는 유사 학습 이미지 검색부;
    상기 입력 이미지를 상기 유사 학습 이미지와 동일한 크기 및 동일한 위상을 갖는 타겟 이미지로 변환하는 타겟 이미지 변환부; 및
    상기 유사 학습 이미지에 매핑되어 있는 관심영역 위치정보를 기초로 상기 타겟 이미지로부터 상기 관심영역 이미지를 추출하는 이미지 추출부를 포함하는 것을 특징으로 하는 로봇 프로세스 자동화 시스템.
  15. 제14항에 있어서,
    상기 유사 학습 이미지 검색부는,
    서로 매칭된 제1 및 제2 특징점들 중 일부를 이용하여 2차원 호모그래피 행렬식(2D Homography Matrix)을 산출하고, 상기 학습 이미지들 중 상기 2차원 호모그래피 행렬식과 상기 제2 특징점들을 이용하여 계산된 제1 특징점들과 상기 입력 이미지로부터 추출된 제2 특징점들간의 오차가 가장 작은 학습 이미지를 상기 유사 학습 이미지로 결정하는 것을 특징으로 하는 로봇 프로세스 자동화 시스템.
  16. 제14항에 있어서,
    상기 유사 학습 이미지 검색부는,
    상기 제1 특징점들을 이용하여 K차원 트리(K-Dimension Tree)를 구성하고, 상기 K차원 트리를 이용하여 상기 학습 이미지들에 대해 바이너리 서치(Binary Search)를 수행하여 상기 제1 특징점에 매칭되는 제2 특징점들을 검색하는 것을 특징으로 하는 로봇 프로세스 자동화 시스템.
  17. 제14항에 있어서,
    상기 타겟 이미지 변환부는,
    서로 매칭된 제1 및 제2 특징점들 중 일부를 이용하여 산출된 2차원 호모그래피 행렬식을 기초로 상기 입력 이미지에 포함된 픽셀들의 제1 좌표값을 제2 좌표값으로 변환하는 좌표 변환부; 및
    상기 제1 좌표값에 매핑되는 픽셀의 픽셀값 및 상기 제2 좌표값을 이용하여 상기 타겟 이미지를 생성하는 이미지 생성부를 포함하는 것을 특징으로 하는 로봇 프로세스 자동화 시스템.
  18. 제14항에 있어서,
    상기 타겟 이미지의 에지정보를 기초로 생성된 제1 특징벡터와 상기 유사 학습 이미지의 에지정보를 기초로 생성된 제2 특징벡터를 비교하여 상기 타겟 이미지의 유효성을 검증하는 유효성 검증부를 더 포함하는 것을 특징으로 하는 로봇 프로세스 자동화 시스템.
  19. 제18항에 있어서,
    상기 유효성 검증부는,
    상기 유사 학습 이미지에 매핑되어 있는 불변영역 위치정보를 이용하여 상기 타겟 이미지 상에서 불변영역을 설정하고, 상기 설정된 불변영역으로부터 산출되는 에지정보를 이용하여 상기 제1 특징벡터를 산출하는 제1 특징벡터 산출부; 및
    상기 유사 학습 이미지에 매핑되어 있는 상기 제2 특징벡터와 상기 제1 특징벡터 간의 거리가 임계치 이상인 경우 상기 타겟 이미지가 유효하지 않은 것으로 판단하는 판단부를 포함하는 것을 특징으로 하는 로봇 프로세스 자동화 시스템.
  20. 제19항에 있어서,
    상기 제1 특징벡터 산출부는,
    상기 불변영역에 포함된 각 픽셀들에 대해 소벨 오퍼레이터(Sobel Operator)를 적용하여 산출되는 x방향 에지 반응 크기 및 y방향 에지 반응 크기를 결합하여 상기 각 픽셀의 결합 에지 반응 크기를 산출하는 에지 반응 크기 산출부;
    상기 각 픽셀의 x방향 에지 반응 크기 및 y방향 에지 반응 크기 간의 각도를 이용하여 각 픽셀의 에지 반응 방향을 산출하고, 산출된 에지 반응 방향을 N개의 방향으로 양자화하는 에지 반응 방향 산출부;
    N개의 방향 별로 상기 에지 반응 크기를 누적한 히스토그램을 생성하는 히스토그램 생성부; 및
    각 불변영역 별로 생성된 히스토그램을 연결하여 상기 제1 특징벡터를 생성하는 특징벡터 생성부를 포함하는 것을 특징으로 하는 로봇 프로세스 자동화 시스템.
KR1020200184871A 2020-12-28 2020-12-28 관심영역 이미지 추출장치 및 이를 포함하는 로봇 프로세스 자동화 시스템 KR102557912B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200184871A KR102557912B1 (ko) 2020-12-28 2020-12-28 관심영역 이미지 추출장치 및 이를 포함하는 로봇 프로세스 자동화 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200184871A KR102557912B1 (ko) 2020-12-28 2020-12-28 관심영역 이미지 추출장치 및 이를 포함하는 로봇 프로세스 자동화 시스템

Publications (2)

Publication Number Publication Date
KR20220093794A true KR20220093794A (ko) 2022-07-05
KR102557912B1 KR102557912B1 (ko) 2023-07-19

Family

ID=82401862

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200184871A KR102557912B1 (ko) 2020-12-28 2020-12-28 관심영역 이미지 추출장치 및 이를 포함하는 로봇 프로세스 자동화 시스템

Country Status (1)

Country Link
KR (1) KR102557912B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006092957A1 (ja) * 2005-03-01 2006-09-08 Osaka Prefecture University Public Corporation 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置
JP2011008752A (ja) * 2009-06-26 2011-01-13 Fuji Xerox Co Ltd ドキュメント操作システム、ドキュメント操作方法およびそのためのプログラム
KR20140103043A (ko) * 2013-02-15 2014-08-25 삼성전자주식회사 전자 장치, 전자 장치를 동작하는 방법 및 컴퓨터 판독 가능한 기록 매체
KR102113813B1 (ko) * 2013-11-19 2020-05-22 한국전자통신연구원 정합 쌍을 이용한 신발 영상 검색 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006092957A1 (ja) * 2005-03-01 2006-09-08 Osaka Prefecture University Public Corporation 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置
JP2011008752A (ja) * 2009-06-26 2011-01-13 Fuji Xerox Co Ltd ドキュメント操作システム、ドキュメント操作方法およびそのためのプログラム
KR20140103043A (ko) * 2013-02-15 2014-08-25 삼성전자주식회사 전자 장치, 전자 장치를 동작하는 방법 및 컴퓨터 판독 가능한 기록 매체
KR102113813B1 (ko) * 2013-11-19 2020-05-22 한국전자통신연구원 정합 쌍을 이용한 신발 영상 검색 장치 및 방법

Also Published As

Publication number Publication date
KR102557912B1 (ko) 2023-07-19

Similar Documents

Publication Publication Date Title
KR102220174B1 (ko) 머신러닝 학습 데이터 증강장치 및 증강방법
Chen et al. Principal axes descriptor for automated construction-equipment classification from point clouds
JP6143111B2 (ja) 物体識別装置、物体識別方法、及びプログラム
KR101548928B1 (ko) 불변적인 시각적 장면 및 객체 인식
JP6393230B2 (ja) オブジェクト検出方法及び画像検索システム
Grana et al. YACCLAB-yet another connected components labeling benchmark
CN104751093B (zh) 用于获取宿主设备显示的图像识别码的方法和装置
JP2015528960A (ja) フォーム認識方法及びフォーム認識装置
KR20140091762A (ko) 히스토그램들을 갖는 다중 층 연결 요소들을 사용하는 텍스트 검출
US9679218B2 (en) Method and apparatus for image matching
JP4300098B2 (ja) オブジェクト識別方法とその装置、プログラム及び記録媒体
JP5656768B2 (ja) 画像特徴量抽出装置およびそのプログラム
KR20200048256A (ko) 객체 정보 추출 장치 및 방법
CN113592761A (zh) 存储介质、走线检测装置、走线检测模型训练装置及方法
CN114529933A (zh) 一种合同数据差异性的比对方法、装置、设备和介质
JP2019091339A (ja) 画像収集装置、プログラム、及び方法
CN109934185B (zh) 数据处理方法及装置、介质和计算设备
CN109978829B (zh) 一种待检测对象的检测方法及其系统
KR101336901B1 (ko) 화상 처리 장치, 화상 처리 방법 및 기록 매체
KR102557912B1 (ko) 관심영역 이미지 추출장치 및 이를 포함하는 로봇 프로세스 자동화 시스템
CN111008635A (zh) 一种基于ocr的多票据自动识别方法及识别系统
Pul et al. Automatic functionality verification of hybrid set-top boxes with dynamic user interface
CN112861843A (zh) 基于特征图像识别的选择框解析方法及装置
CN112232390A (zh) 一种高像素大图像的识别方法和系统
CN113537199B (zh) 图像边界框筛选方法、系统、电子装置及介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant