KR102632771B1 - 카탈로그 이미지의 데이터 추출 시스템 및 카탈로그 이미지의 데이터 추출 방법 - Google Patents

카탈로그 이미지의 데이터 추출 시스템 및 카탈로그 이미지의 데이터 추출 방법 Download PDF

Info

Publication number
KR102632771B1
KR102632771B1 KR1020210074240A KR20210074240A KR102632771B1 KR 102632771 B1 KR102632771 B1 KR 102632771B1 KR 1020210074240 A KR1020210074240 A KR 1020210074240A KR 20210074240 A KR20210074240 A KR 20210074240A KR 102632771 B1 KR102632771 B1 KR 102632771B1
Authority
KR
South Korea
Prior art keywords
parameter
attribute information
parts
catalog
catalog image
Prior art date
Application number
KR1020210074240A
Other languages
English (en)
Other versions
KR20220165515A (ko
Inventor
문두환
이진원
김효태
여창모
Original Assignee
엘아이지넥스원 주식회사
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘아이지넥스원 주식회사, 고려대학교 산학협력단 filed Critical 엘아이지넥스원 주식회사
Priority to KR1020210074240A priority Critical patent/KR102632771B1/ko
Publication of KR20220165515A publication Critical patent/KR20220165515A/ko
Application granted granted Critical
Publication of KR102632771B1 publication Critical patent/KR102632771B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Character Input (AREA)

Abstract

개시된 발명의 일 실시예에 따른 카탈로그 이미지의 데이터 추출 방법은, (a) 텍스트 추출부에 의해, 적어도 하나 이상의 부품 카탈로그 이미지로부터 파라미터 명칭들 및 각 파라미터 명칭에 대응되는 파라미터 값을 포함하는 부품 속성 정보를 추출하는 단계; (b) 동종 파라미터 판단부에 의해, 상기 추출된 파라미터 명칭들 및 표준 용어 데이터에 기초하여, 추출된 파라미터들이 동종 파라미터인지 여부를 판단하는 단계; 및 (c) 디지털 카탈로그 생성부에 의해, 상기 동종 파라미터로 판단된 파라미터들의 파라미터 값들끼리 서로 대응되도록 상기 적어도 하나 이상의 부품 카탈로그 이미지들에 대한 디지털 부품 카탈로그를 생성하는 단계;를 포함할 수 있다.

Description

카탈로그 이미지의 데이터 추출 시스템 및 카탈로그 이미지의 데이터 추출 방법{SYSTEM AND METHOD FOR EXTRACTING DATA OF CATALOG IMAGE}
본 발명은 엔지니어링 시트가 포함된 이미지 형식의 부품 카탈로그로부터 부품의 데이터를 추출하여 디지털 형식의 부품 카탈로그를 생성할 수 있는 추출 시스템 및 데이터 추출 방법에 관한 것이다.
제품의 설계 과정에서 구매할 부품의 경우 부품 제작사가 제공한 부품 카탈로그로부터 고객의 요구에 가장 잘 맞는 부품을 탐색해야 한다.
따라서, 적절한 부품을 자동으로 탐색하는 기술이 필요하지만, 현재 대부분의 부품 카탈로그는 스캐닝된 이미지 형식으로 보관되고 있고, 이러한 이미지 형식의 부품 카탈로그를 통해서는 부품간 사양 비교 및 부품의 검색에 많은 제약이 있다는 문제가 있다.
따라서 이미지 형식으로 되어 부품의 정보가 혼재되어 있는 복수개의 부품 카탈로그 이미지를 통합하여 하나의 디지털 형태의 카탈로그를 생성하는 기술이 필요하다.
본 발명은 이미지 형식의 부품 카탈로그를 딥러닝 기술을 통해 인식하여 카탈로그에 포함된 부품 사양 데이터를 자동으로 추출하고, 추출된 데이터를 기초로 디지털 형식의 부품 카탈로그를 생성할 수 있는 데이터 추출 시스템, 데이터 추출 방법 및 컴퓨터 프로그램을 제공하기 위한 것이다.
개시된 발명의 일 측면에 따른 카탈로그 이미지의 데이터 추출 방법은, (a) 텍스트 추출부에 의해, 적어도 하나 이상의 부품 카탈로그 이미지로부터 파라미터 명칭들 및 각 파라미터 명칭에 대응되는 파라미터 값을 포함하는 부품 속성 정보를 추출하는 단계; (b) 동종 파라미터 판단부에 의해, 상기 추출된 파라미터 명칭들 및 표준 용어 데이터에 기초하여, 추출된 파라미터들이 동종 파라미터인지 여부를 판단하는 단계; 및 (c) 디지털 카탈로그 생성부에 의해, 상기 동종 파라미터로 판단된 파라미터들의 파라미터 값들끼리 서로 대응되도록 상기 적어도 하나 이상의 부품 카탈로그 이미지들에 대한 디지털 부품 카탈로그를 생성하는 단계;를 포함 할 수 있다.
또한, 상기 (a) 단계는, 상기 텍스트 추출부에 의해, 상기 적어도 하나 이상의 부품 카탈로그 이미지로부터 각 파라미터의 심볼 및 각 파라미터의 단위를 포함하는 부품 속성 정보를 추출하는 단계;를 포함하고, 상기 (b) 단계는: 상기 동종 파라미터 판단부에 의해, 추출된 상기 심볼 및 상기 단위에 기초하여, 상기 추출된 파라미터들이 동종 파라미터인지 여부를 판단하는 단계;를 포함할 수 있다.
또한, 상기 (a) 단계는: (a1) 상기 적어도 하나 이상의 부품 카탈로그 이미지로부터 상기 부품 속성 정보를 포함하는 사양 테이블 영역을 인식하는 단계; (a2) 상기 사양 테이블 영역으로부터 상기 부품 속성 정보를 추출하는 단계를 포함할 수 있다.
또한, 상기 (a1) 단계는: 상기 부품 카탈로그 이미지로부터 수평선 및 수직선을 인식하는 단계; 및 상기 인식된 수평선 및 수직선에 기초하여 상기 부품 카탈로그 이미지로부터 상기 사양 테이블 영역을 인식하는 단계;를 포함할 수 있다.
또한, 상기 (a) 단계는: 상기 사양 테이블 영역으로부터 테이블 수평선 및 테이블 수직선을 인식하는 단계;를 더 포함하고, 상기 (a2) 단계는: 상기 인식된 테이블 수평선 및 테이블 수직선에 기초하여 상기 사양 테이블 영역으로부터 상기 부품 속성 정보를 인식하는 단계;를 포함할 수 있다.
또한, 인공지능 학습부에 의해, 상기 테이블 수평선 및 상기 테이블 수직선을 입력 변수로 설정하고 상기 부품 속성 정보를 출력 변수로 설정하여 인공지능 모델을 학습하는 단계;를 더 포함하고, 상기 (a2) 단계는, 상기 인식된 테이블 수평선 및 테이블 수직선을 기초로 상기 인공지능 모델을 이용하여 상기 부품 속성 정보를 인식하는 단계;를 포함할 수 있다.
또한, 상기 인식된 테이블 수평선 및 테이블 수직선에 기초하여 상기 사양 테이블 영역으로부터 사양 테이블 헤더를 추출하는 단계;를 더 포함할 수 있다.
또한, 텍스트 추출부에 의해, 상기 부품 카탈로그 이미지로부터 부품 번호를 추출하는 단계; 상기 부품 번호 및 부품 번호 규칙 데이터에 기초하여 상기 적어도 하나 이상의 부품 카탈로그 이미지들이 동종 부품의 카탈로그 이미지인지 여부를 판단하는 단계; 및 상기 적어도 하나 이상의 부품 카탈로그 이미지들을 상기 동종 부품의 카탈로그 이미지끼리 분류하는 단계;를 더 포함하고, 상기 (a) 단계는, 상기 동종 부품의 카탈로그 이미지로 분류된 복수개의 카탈로그 이미지로부터 부품 속성 정보를 추출하는 단계;를 더 포함할 수 있다.
또한, 상기 부품 번호를 추출하는 단계는, 상기 텍스트 추출부에 의해, 상기 부품 카탈로그 이미지의 상단의 미리 설정된 영역에서 텍스트를 추출하여 상기 부품 번호를 추출하는 단계;를 포함할 수 있다.
또한, 상기 추출된 부품 속성 정보의 텍스트를 상기 표준 용어 데이터와 비교하여 상기 부품 속성 정보의 텍스트 오류 여부를 판단하는 단계; 및 상기 부품 속성 정보의 텍스트에 오류가 있는 것으로 판단되면, 상기 표준 용어 데이터에 기초하여 상기 부품 속성 정보를 수정하는 단계;를 더 포함할 수 있다.
개시된 발명의 일 측면에 따른 컴퓨터 프로그램은, 상기 카탈로그 이미지의 데이터 추출 방법을 실행시키도록 컴퓨터로 판독 가능한 기록매체에 저장될 수 있다.
개시된 발명의 일 측면에 따른 카탈로그 이미지의 데이터 추출 시스템은, 적어도 하나 이상의 부품 카탈로그 이미지로부터 파라미터 명칭들 및 각 파라미터 명칭에 대응되는 파라미터 값을 포함하는 부품 속성 정보를 추출하도록 구성되는 텍스트 추출부; 상기 추출된 파라미터 명칭들 및 표준 용어 데이터에 기초하여, 추출된 파라미터들이 동종 파라미터인지 여부를 판단하도록 구성되는 동종 파라미터 판단부; 및 상기 동종 파라미터로 판단된 파라미터들의 파라미터 값들끼리 서로 대응되도록 상기 적어도 하나 이상의 부품 카탈로그 이미지들에 대한 디지털 부품 카탈로그를 생성하도록 구성되는 디지털 카탈로그 생성부;를 포함할 수 있다.
또한, 상기 텍스트 추출부는, 상기 적어도 하나 이상의 부품 카탈로그 이미지로부터 각 파라미터의 심볼 및 각 파라미터의 단위를 포함하는 부품 속성 정보를 추출하도록 구성되고, 상기 동종 파라미터 판단부는, 추출된 상기 심볼 및 상기 단위에 기초하여, 상기 추출된 파라미터들이 동종 파라미터인지 여부를 판단하도록 구성될 수 있다.
또한, 상기 텍스트 추출부는: 상기 적어도 하나 이상의 부품 카탈로그 이미지로부터 상기 부품 속성 정보를 포함하는 사양 테이블 영역을 인식하고; 그리고 상기 사양 테이블 영역으로부터 상기 부품 속성 정보를 추출하도록 구성될 수 있다.
또한, 상기 텍스트 추출부는: 상기 부품 카탈로그 이미지로부터 수평선 및 수직선을 인식하고; 그리고 상기 인식된 수평선 및 수직선에 기초하여 상기 부품 카탈로그 이미지로부터 상기 사양 테이블 영역을 인식하도록 구성될 수 있다.
또한, 상기 텍스트 추출부는: 상기 사양 테이블 영역으로부터 테이블 수평선 및 테이블 수직선을 인식하고; 그리고 상기 인식된 테이블 수평선 및 테이블 수직선에 기초하여 상기 사양 테이블 영역으로부터 상기 부품 속성 정보를 인식하도록 구성될 수 있다.
또한, 상기 테이블 수평선 및 상기 테이블 수직선을 입력 변수로 설정하고 상기 부품 속성 정보를 출력 변수로 설정하여 인공지능 모델을 학습하도록 구성되는 인공지능 학습부;를 더 포함하고, 상기 텍스트 추출부는, 상기 인식된 테이블 수평선 및 테이블 수직선을 기초로 상기 인공지능 모델을 이용하여 상기 부품 속성 정보를 인식하도록 구성될 수 있다.
또한, 프로세서;를 더 포함하고, 상기 프로세서는: 부품 번호 및 부품 번호 규칙 데이터에 기초하여 상기 적어도 하나 이상의 부품 카탈로그 이미지들이 동종 부품의 카탈로그 이미지인지 여부를 판단하고; 그리고 상기 적어도 하나 이상의 부품 카탈로그 이미지들을 상기 동종 부품의 카탈로그 이미지끼리 분류하도록 구성되고, 상기 텍스트 추출부는: 상기 부품 카탈로그 이미지로부터 상기 부품 번호를 추출하도록 구성되고; 그리고 상기 동종 부품의 카탈로그 이미지로 분류된 복수개의 카탈로그 이미지로부터 부품 속성 정보를 추출하도록 구성될 수 있다.
또한, 상기 텍스트 추출부는, 상기 부품 카탈로그 이미지의 상단의 미리 설정된 영역에서 텍스트를 추출하여 상기 부품 번호를 추출하도록 구성될 수 있다.
또한, 프로세서;를 더 포함하고, 상기 프로세서는: 상기 추출된 부품 속성 정보의 텍스트를 상기 표준 용어 데이터와 비교하여 상기 부품 속성 정보의 텍스트 오류 여부를 판단하고; 그리고 상기 부품 속성 정보의 텍스트에 오류가 있는 것으로 판단되면, 상기 표준 용어 데이터에 기초하여 상기 부품 속성 정보를 수정하도록 구성될 수 있다.
개시된 발명의 일 측면에 따르면, 부품 카탈로그에 포함된 각종 부품의 사양 데이터를 자동으로 추출함으로써 제품 개발 과정에서 필요한 부품의 비교 및 검색에 소요되는 시간을 절감할 수 있는 디지털 형식의 부품 카탈로그를 생성할 수 있다.
또한, 본 발명의 실시예에 의하면, 동종의 파라미터이지만 서로 다르게 표현된 파라미터들을 동종의 파라미터로 판단할 수 있어서, 부품 카탈로그들의 부품 제조사가 서로 다르더라도 하나의 통합된 디지털 형식의 부품 카탈로그를 생성할 수 있다.
또한, 부품 카탈로그에 개시된 부품 번호들에 기초하여 카탈로그들을 동종의 부품들끼리 분류하고, 동종의 부품들에 대한 부품 카탈로그로부터 부품의 사양 데이터를 추출함으로써 더욱 강건한 텍스트 인식이 가능할 수 있다.
도 1은 일 실시예에 따른 데이터 추출 시스템의 구성도이다.
도 2는 일 실시예에 따라 디지털 부품 카탈로그가 생성되는 과정을 도시한 도면이다.
도 3은 일 실시예에 따라 부품 속성 정보를 추출하는 것을 설명하기 위한 도면이다.
도 4는 일 실시예에 따라 부품 속성 정보에 기초하여 디지털 부품 카탈로그를 생성하는 것을 설명하기 위한 도면이다.
도 5는 일 실시예에 따른 표준 용어 데이터를 설명하기 위한 도면이다.
도 6은 일 실시예에 따라 사양 테이블 영역을 인식하는 것을 설명하기 위한 도면이다.
도 7은 일 실시예에 따라 테이블 수평선 및 테이블 수직선을 인식하는 것을 설명하기 위한 도면이다.
도 8은 일 실시예에 따라 사양 테이블 헤더를 추출하는 것을 설명하기 위한 도면이다.
도 9는 일 실시예에 따른 부품 번호를 도시한 도면이다.
도 10은 일 실시예에 따라 부품 번호를 추출하는 것을 설명하기 위한 도면이다.
도 11은 일 실시예에 따라 부품 속성 정보의 오류를 수정하는 것을 설명하기 위한 도면이다.
도 12는 일 실시예에 따른 데이터 추출 방법의 순서도이다.
명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다. 본 명세서가 실시예들의 모든 요소들을 설명하는 것은 아니며, 개시된 발명이 속하는 기술분야에서 일반적인 내용 또는 실시예들 간에 중복되는 내용은 생략한다. 명세서에서 사용되는 '~부'라는 용어는 소프트웨어 또는 하드웨어로 구현될 수 있으며, 실시예들에 따라 복수의 '~부'가 하나의 구성요소로 구현되거나, 하나의 '~부'가 복수의 구성요소들을 포함하는 것도 가능하다.
또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
제1, 제2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위해 사용되는 것으로, 구성요소가 전술된 용어들에 의해 제한되는 것은 아니다.
단수의 표현은 문맥상 명백하게 예외가 있지 않는 한, 복수의 표현을 포함한다.
각 단계들에 있어 식별부호는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 실시될 수 있다.
이하 첨부된 도면들을 참고하여 개시된 발명의 작용 원리 및 실시예들에 대해 설명한다.
도 1은 일 실시예에 따른 데이터 추출 시스템의 구성도이다.
도 1을 참조하면, 본 발명의 실시예에 따른 객체 인식 시스템(100)은, 텍스트 추출부(110), 동종 파라미터 판단부(120), 디지털 카탈로그 생성부(130), 프로세서(140), 메모리(150), 인공지능 학습부(160)를 포함할 수 있다.
부품 카탈로그 이미지(200)는 이미지 데이터의 형태로 객체 인식 시스템(100)에 입력될 수 있다.
부품 카탈로그 이미지(200)는 스캐닝된 부품 카탈로그일 수 있다. 부품 카탈로그 이미지(200)는 PDF(Portable Document Format) 형식 또는 JPG 형식의 이미지 데이터일 수 있다. 보다 텍스트 인식이 잘 이루어질 수 있도록 PDF 형식의 부품 카탈로그를 JPG 형식으로 변환하고, JPG 형식의 부품 카탈로그에 대하여 본 발명에 따른 데이터 추출을 하는 것이 바람직할 수 있으나 이에 한정되는 것은 아니며, 어떠한 형식의 이미지 데이터라도 본 발명의 부품 카탈로그 이미지(200)로 입력될 수 있다.
부품 카탈로그 이미지(200)는 복수개일 수 있으며, 각각의 부품 카탈로그 이미지(200)는 전부 한 종류의 부품의 부품 카탈로그 이미지(200)일수도 있지만, 서로 다른 이종의 부품 카탈로그 이미지(200)일수도 있다.
또한 복수개의 부품 카탈로그 이미지(200)는 전부 한 부품 제조사의 부품 카탈로그 이미지(200)일수도 있지만, 서로 다른 부품 제조사의 부품 카탈로그 이미지(200)일수도 있다.
텍스트 추출부(110)는 적어도 하나 이상의 부품 카탈로그 이미지(200)로부터 부품 속성 정보(210)를 추출할 수 있다.
부품 속성 정보(210)는 파라미터 명칭(211)들 및 각 파라미터 명칭(211)에 대응되는 파라미터 값(212)을 포함할 수 있다.
파라미터는 부품의 제원, 특징, 성능을 나타내는 수치일 수 있다.
파라미터 명칭(211)은 해당 파라미터의 일반적인 명칭으로서 텍스트의 형태로 부품 카탈로그 이미지(200)에 표시되어 있을 수 있다.
한편, 어느 특정 파라미터의 파라미터 명칭(211)이 반드시 하나로 정해져 있는 것은 아닐 수 있다. 예를 들어, 동일한 파라미터의 파라미터 명칭(211)이라 하더라도 제작사 별로 다른 명칭을 이용할 수 있다. 따라서, 서로 다른 부품 카탈로그 이미지(200)에 도시된 부품이 동종의 부품이고, 동종의 파라미터들이 해당 부품의 성질을 기재하고 있더라도, 각각의 부품 카탈로그 이미지(200)에 도시된 동종의 파라미터의 파라미터 명칭(211)은 서로 다를 수 있다.
텍스트 추출부(110)는 부품 카탈로그 이미지(200)에 포함된 텍스트를 추출하는 방식으로 부품 속성 정보(210)를 추출할 수 있다. 텍스트 추출부(110)는 OCR(Optical character recognition) 기술을 기반으로 텍스트를 추출할 수 있으나, 부품 카탈로그 이미지(200)에 포함된 텍스트를 추출하여 부품 속성 정보(210)를 획득할 수 있다면 어떠한 방식을 이용해도 상관없다.
동종 파라미터 판단부(120)는 추출된 파라미터 명칭(211)들 및 표준 용어 데이터(151)에 기초하여, 추출된 파라미터들이 동종 파라미터인지 여부를 판단할 수 있다.
표준 용어 데이터(151)는 어느 특정 파라미터에 대한 파라미터 명칭(211), 파라미터의 심볼(213), 파라미터의 단위(214)가 정리되어 있는 데이터일 수 있다.
즉, 표준 용어 데이터(151)를 참고하면, 특정한 명칭, 특정한 심볼 및 특정한 단위가 어느 파라미터의 명칭, 심볼 및 단위인지 알 수 있다.
표준 용어 데이터(151)는 XML(Extensible Markup Language) 형식의 카탈로그 파일 형태일 수 있으나, 표준 용어 데이터(151)의 형식이 반드시 이에 한정되는 것은 아니다.
디지털 카탈로그 생성부(130)는 동종 파라미터로 판단된 파라미터들의 파라미터 값(212)들끼리 서로 대응되도록 적어도 하나 이상의 부품 카탈로그 이미지(200)들에 대한 디지털 부품 카탈로그(300)를 생성할 수 있다.
디지털 부품 카탈로그(300)는 XML(Extensible Markup Language) 형식의 카탈로그 파일 형태일 수 있으나, 디지털 부품 카탈로그(300)의 형식이 반드시 이에 한정되는 것은 아니다.
즉, 디지털 카탈로그 생성부(130)는 복수개의 부품 카탈로그 이미지(200)에 혼재되어 있는 부품들의 정보가 정리된 하나의 통합된 디지털 파일을 생성할 수 있다.
복수개의 이미지 형태의 부품 카탈로그들은 각 부품의 속성 정보들이 여기저기 혼재되어 있고, 동종 파라미터의 정보라 해도 부품의 제조사에 따라 다르게 표시되어 있었기 때문에, 사용자가 부품들끼리 사양을 비교하거나 부품을 검색하는데 어려움이 있었다.
본 발명의 실시예에 따라 생성된 디지털 부품 카탈로그(300)는 각 부품들의 속성 정보를 전부 모아서 하나의 데이터에 정리되어 있을 수 있다. 또한, 디지털 부품 카탈로그(300)는 이미지 형태의 부품 카탈로그에서 다르게 표현되어 있었던 동종 파라미터라 해도 동일한 종류의 파라미터로서 정리되어 있으므로, 사용자가 특정 파라미터의 비교를 통해 부품의 사양을 용이하게 비교할 수 있다.
결과적으로, 본 발명의 데이터 추출 시스템(100)은 사용자가 부품 카탈로그 이미지(200)의 부품들의 사양 비교 및 검색을 보다 용이하게 할 수 있는 디지털 부품 카탈로그(300)를 생성할 수 있다.
텍스트 추출부(110), 동종 파라미터 판단부(120), 디지털 카탈로그 생성부(130), 인공지능 학습부(160)는 데이터 추출 시스템(100)에 포함된 복수개의 프로세서(140) 중 어느 하나의 프로세서(140)를 포함할 수 있다. 또한, 지금까지 설명된 본 발명의 실시예 및 앞으로 설명할 실시예에 따른 객체 인식 방법은, 프로세서(140)에 의해 구동될 수 있는 프로그램의 형태로 구현될 수 있다.
여기서 프로그램은, 프로그램 명령, 데이터 파일 및 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 프로그램은 기계어 코드나 고급 언어 코드를 이용하여 설계 및 제작된 것일 수 있다. 프로그램은 상술한 부호 수정을 위한 방법을 구현하기 위하여 특별히 설계된 것일 수도 있고, 컴퓨터 소프트웨어 분야에서 통상의 기술자에게 기 공지되어 사용 가능한 각종 함수나 정의를 이용하여 구현된 것일 수도 있다. 전술한 정보 표시 방법을 구현하기 위한 프로그램은, 프로세서(140)에 의해 판독 가능한 기록매체에 기록될 수 있다. 이때, 기록매체는 메모리(150)일 수 있다.
메모리(150)는 전술한 동작 및 후술하는 동작을 수행하는 프로그램을 저장할 수 있으며, 메모리(150)는 저장된 프로그램을 실행시킬 수 있다. 프로세서(140)와 메모리(150)가 복수인 경우에, 이들이 하나의 칩에 집적되는 것도 가능하고, 물리적으로 분리된 위치에 마련되는 것도 가능하다. 메모리(150)는 데이터를 일시적으로 기억하기 위한 S램(Static Random Access Memory, S-RAM), D랩(Dynamic Random Access Memory) 등의 휘발성 메모리를 포함할 수 있다. 또한, 메모리(150)는 제어 프로그램 및 제어 데이터를 장기간 저장하기 위한 롬(Read Only Memory), 이피롬(Erasable Programmable Read Only Memory: EPROM), 이이피롬(Electrically Erasable Programmable Read Only Memory: EEPROM) 등의 비휘발성 메모리를 포함할 수 있다.
프로세서(140)는 각종 논리 회로와 연산 회로를 포함할 수 있으며, 메모리(150)로부터 제공된 프로그램에 따라 데이터를 처리하고, 처리 결과에 따라 제어 신호를 생성할 수 있다.
도 2는 일 실시예에 따라 디지털 부품 카탈로그가 생성되는 과정을 도시한 도면이다.
도 2를 참조하면, 스캔된 부품 카탈로그 이미지(200)는 데이터 추출 시스템(100)에 입력될 수 있다.
이후, 텍스트 추출부(110)는 OCR 기술에 의하여 문자열 객체를 인식하고, 그래픽스 기술에 의하여 선 객체를 인식할 수 있다.
동종 파라미터 판단부(120)는 표준 용어 데이터(151)에 기초하여 인식된 문자열들 사이의 연관 관계를 생성할 수 있다. 즉, 표시만 다른 텍스트로 되어 있었을 뿐이고 실제로는 동일한 파라미터끼리 연관 관계를 생성할 수 있다.
마지막으로, 디지털 카탈로그 생성부(130)는 생성된 문자열 연관 관계에 기초하여 부품의 속성 별로 부품 리스트가 정리된 디지털 부품 카탈로그(300)를 생성할 수 있다.
도 3은 일 실시예에 따라 부품 속성 정보를 추출하는 것을 설명하기 위한 도면이다.
도 3을 참조하면, 텍스트 추출부(110)는 적어도 하나 이상의 부품 카탈로그 이미지(200)로부터 각 파라미터의 심볼(213) 및 각 파라미터의 단위(214)를 포함하는 부품 속성 정보(210)를 추출할 수 있다.
한편, 어느 특정 파라미터의 심볼(213) 및 단위는 반드시 하나로 정해져 있는 것은 아닐 수 있다. 예를 들어, 동일한 파라미터의 심볼(213) 및 단위라 하더라도 제작사 별로 다른 심볼 및 단위를 이용할 수 있다. 따라서, 서로 다른 부품 카탈로그 이미지(200)에 도시된 부품이 동종의 부품이고, 동종의 파라미터들이 해당 부품의 성질을 기재하고 있더라도, 각각의 부품 카탈로그 이미지(200)에 도시된 동종의 파라미터의 심볼(213) 및 단위는 다를 수 있다.
동종 파라미터 판단부(120)는 추출된 심볼 및 단위에 기초하여, 추출된 파라미터들이 동종 파라미터인지 여부를 판단할 수 있다.
어느 특정한 파라미터가 서로 다른 부품 카탈로그 이미지(200)에 다른 파라미터 명칭(211)으로 표시되어 있다고 하더라도, 해당 파라미터에 대응되는 파라미터의 심볼(213) 및 파라미터의 단위(214)는 동일하게 표시되어 있을 수 있다.
따라서 동종 파라미터 판단부(120)는 각 파라미터들의 심볼 및 단위가 동일한지 여부를 판단하고, 심볼 및 단위가 동일하다고 판단되면 비록 다른 명칭으로 표시되어 있었던 파라미터라 하더라도 동일한 파라미터라고 판단할 수 있다.
또한, 동종 파라미터 판단부(120)는 각 파라미터들의 심볼 및 단위가 동일하지 않더라도, 표준 용어 데이터(151)를 참조했을 때 해당 심볼들 및 해당 단위들이 동일한 파라미터에 대응되는 심볼 및 단위라면 해당 파라미터들을 동일한 파라미터라고 판단할 수 있다.
도 4는 일 실시예에 따라 부품 속성 정보에 기초하여 디지털 부품 카탈로그(300)를 생성하는 것을 설명하기 위한 도면이다.
도 4를 참조하면, 디지털 카탈로그 생성부(130)는 추출된 파라미터 명칭(211), 파라미터 값(212), 파라미터의 심볼(213) 및 파라미터의 단위(214)에 기초하여 디지털 부품 카탈로그(300)를 생성할 수 있다.
디지털 카탈로그는 부품 카탈로그 이미지(200)에서는 명칭, 단위 및 심볼이 다르게 표현되어 있었던 파라미터들이 서로 동일한 종류의 파라미터라면, 해당 파라미터에 대해선 명칭, 단위 및 심볼이 동일한 용어로 통일하여 디지털 부품 카탈로그(300)를 생성할 수 있다. 단위를 통일하는 과정에서 파라미터의 값 또한 단위에 맞도록 수치가 변경되도록 디지털 부품 카탈로그(300)가 생성될 수 있다.
한편, 텍스트 추출부(110)는 부품 카탈로그 이미지(200)로부터 부품 속성 정보(210)뿐 아니라 각 부품 카탈로그 이미지(200)의 소개 페이지에서 OCR 방식의 텍스트 인식을 통해 반복되는 텍스트를 기초로 해당 부품의 제조사, 제품명, 가격 등을 결정할 수 있다. 이렇게 결정된 제조사, 제품명, 가격 등의 정보는 사용자에 의해 실제 정보에 부합되는지 검증될 수 있다.
디지털 카탈로그 생성부(130)는 부품 속성 정보(210)뿐 아니라 부품의 제조사, 제품명, 가격 등의 정보 또한 부품별로 정리하여 디지털 부품 카탈로그(300)를 생성할 수 있다.
도 5는 일 실시예에 따른 표준 용어 데이터를 설명하기 위한 도면이다.
도 5를 참조하면, 표준 용어 데이터(151)는 복수개의 참조 데이터를 참조하여 미리 생성될 수 있다.
참조 데이터는 부품 카탈로그 이미지(200)에 포함된 일부 부품들의 사양 데이터들에 기초하여 생성된 데이터일 수 있다. 이때, 참조 데이터가 반드시 한 제조사의 부품 카탈로그 이미지(200)들에 기초하여 생성되어야 하는 것은 아니다.
한편, 동일한 파라미터라 하더라도 제조사 별로 해당 파라미터의 명칭 및 심볼이 다를 수 있다. 예를 들어, GDGIT사의 부품 데이터 및 MOOG사의 부품 데이터에는 Peak Torque로 기재된 파라미터와 Kollmorgen사의 부품 데이터에는 Peak Torque Rating이라고 기재된 파라미터는 동일한 파라미터일 수 있다.
또한, GDGIT사의 부품 데이터에는 Friction Torque로 기재된 파라미터, MOOG사의 부품 데이터에는 Total Breakaway Torque로 기재된 파라미터와 Kollmorgen사의 부품 데이터에는 Static Friction (Max.)라고 기재된 파라미터는 동일한 파라미터일 수 있다.
표준 용어 데이터(151)는 이처럼 표현은 다르지만 실제로는 같은 파라미터를 나타내는 명칭들끼리 분류되어 메모리(150)에 저장될 수 있다.
동종 파라미터 판단부(120)는 어느 부품 카탈로그 이미지(200)로부터 추출된 파라미터의 명칭이 Friction Torque이고, 또다른 부품 카탈로그 이미지(200)로부터 추출된 파라미터의 명칭이 Total Breakaway Torque라 해도 두 파라미터를 동종 파라미터로 판단할 수 있다.
도 6은 일 실시예에 따라 사양 테이블 영역을 인식하는 것을 설명하기 위한 도면이며, 도 7은 일 실시예에 따라 테이블 수평선 및 테이블 수직선을 인식하는 것을 설명하기 위한 도면이다.
도 6을 참조하면, 텍스트 추출부(110)는 적어도 하나 이상의 부품 카탈로그 이미지(200)로부터 부품 속성 정보(210)를 포함하는 사양 테이블 영역(201)을 인식할 수 있다.
텍스트 추출부(110)는 부품 카탈로그 이미지(200)로부터 수평선 및 수직선을 인식할 수 있다. 이때, 텍스트 추출부(110)는 딥러닝 기반의 객체 검출 기술에 기초하여 부품 카탈로그 이미지(200)로부터 수평선과 수직선을 인식할 수 있다.
딥러닝 기반의 객체 검출 기술은 이미지로부터 추출되는 객체의 특징(feature)을 데이터를 기반으로 학습한다. 이때, 이미지로부터 특징(feature)을 추출하는 방식을 학습하기 위해 여러 단계의 컨볼루션 계층(convolution layer)을 쌓은 CNN(Convolutional Neural Networks) 구조가 활용될 수 있으나 이에 한정되는 것은 아니다.
텍스트 추출부(110)는 인식된 수평선 및 수직선에 기초하여 부품 카탈로그 이미지(200)로부터 사양 테이블 영역(201)을 인식할 수 있다.
텍스트 추출부(110)는 사양 테이블 영역(201)으로부터 부품 속성 정보(210)를 추출할 수 있다.
도 7을 참조하면, 텍스트 추출부(110)는 사양 테이블 영역(201)으로부터 테이블 수평선(202) 및 테이블 수직선(203)을 인식할 수 있다.
테이블 수평선(202)은 테이블을 구성하는 선 중에서 부품 카탈로그 이미지(200)에 대해서 수평인 선이며, 테이블 수직선(203)은 테이블을 구성하는 선 중에서 부품 카탈로그 이미지(200)에 대해서 수직인 선일 수 있다.
텍스트 추출부(110)는 다른 테이블 수평선(202) 및 테이블 수직선(203)과 선의 길이가 다른 테이블 수평선(202) 및 테이블 수직선(203)을 인식할 수 있다.
텍스트 추출부(110)는 딥러닝 기반의 객체 검출 기술에 기초하여 테이블 수평선(202) 및 테이블 수직선(203)을 인식할 수 있다.
텍스트 추출부(110)는 인식된 테이블 수평선(202) 및 테이블 수직선(203)에 기초하여 사양 테이블 영역(201)으로부터 부품 속성 정보(210)를 인식할 수 있다. 이때, 다른 테이블 수평선(202) 및 테이블 수직선(203)과 선의 길이가 다른 테이블 수평선(202) 및 테이블 수직선(203)을 고려하여 텍스트를 인식한다면 보다 강건하게 테이블 영역에 포함되어 있는 부품 속성 정보(210)를 인식할 수 있다.
인공지능 학습부(160)는 학습용 데이터를 통해, 테이블 수평선(202) 및 테이블 수직선(203)의 특징을 입력 변수로 설정하고 부품 속성 정보(210)를 출력 변수로 설정하여 인공지능 모델을 학습하도록 구성될 수 있다.
테이블 수평선(202) 및 테이블 수직선(203)의 특징은 해당 선에 대한 다양한 특징을 나타내는 정보일 수 있다. 예를 들어, 테이블 수평선(202) 및 테이블 수직선(203)의 특징은 해당 선의 길이, 형태, 테이블 영역에서의 위치 등에 대한 정보일 수 있다.
이때, 인공지능 모델을 학습하는 것은 기계 학습(Machine Learning) 방식을 통한 학습일 수 있다.
기계 학습이란 다수의 파라미터로 구성된 모델을 이용하며, 주어진 데이터로 파라미터를 최적화하는 것을 의미할 수 있다. 인공지능 학습부(160)는 입력에 따라 인공지능 모델을 통해 최종적으로 나온 결과물(output)인 출력과, 입력에 대한 레이블(정답)을 이용하여 인공지능 모델을 학습할 수 있다.
인공지능 학습부(160)는 기계 학습 방식뿐만 아니라 딥 러닝 방식을 통해서도 학습을 수행할 수 있다.
인공지능 모델은 테이블 수평선(202) 및 테이블 수직선(203)의 특징 정보를 입력 변수로 하고, 부품 속성 정보(210)를 출력 변수로 설정한 모델일 수 있다. 인공지능 모델은 메모리(150)에 저장될 수 있다.
텍스트 추출부(110)는 부품 카탈로그 이미지(200)로부터 인식된 테이블 수평선(202) 및 테이블 수직선(203)을 기초로 인공지능 모델을 이용하여 부품 속성 정보(210)를 인식할 수 있다.
도 8은 일 실시예에 따라 사양 테이블 헤더를 추출하는 것을 설명하기 위한 도면이다.
도 8을 참조하면, 텍스트 추출부(110)는 인식된 테이블 수평선(202) 및 테이블 수직선(203)에 기초하여 사양 테이블 영역(201)으로부터 사양 테이블 헤더(204)를 추출할 수 있다. 이렇게 추출된 헤더는 사용자에 의해 실제 부품 카탈로그 이미지(200)의 헤더에 부합되는지 검증될 수 있다.
도 9는 일 실시예에 따른 부품 번호를 도시한 도면이다.
도 9를 참조하면, 복수개의 부품 카탈로그 이미지(200) 중 일부 이미지는 개시하고 있는 부품에 대한 부품 번호(205)를 표시할 수 있다.
부품 번호(205)는 특정 부품에 하나씩 대응되는 번호일 수 있다. 또한, 부품 번호(205)의 체계는 제조사별로 다를 수 있다.
부품 번호 규칙 데이터는 제조사별로 부품에 부품 번호(205)를 부여하는 규칙을 모은 데이터일 수 있다. 부품 번호 규칙 데이터는 메모리(150)에 저장될 수 있다.
프로세서(140)는 부품 번호(205) 및 부품 번호 규칙 데이터에 기초하여 적어도 하나 이상의 부품 카탈로그 이미지(200)들이 동종 부품의 카탈로그 이미지인지 여부를 판단할 수 있다.
예를 들어, GDGIT사의 부품 중 부품 번호(205)가 '1600C-059', '4500C-080C' 및 '1600C-059J'인 부품은 서로 부품 번호(205)가 다르지만 모두 'BRUSHLESS DC MOTOR'의 한 종류이다. 이때, 프로세서(140)는 부품 번호 규칙 데이터에 기초하여 해당 부품들의 부품 카탈로그 이미지(200)를 동종 부품의 카탈로그 이미지라고 판단할 수 있다.
또한, Kollmorgen사의 부품 중 부품 번호(205)가 'BMS-5905', 'BM-40702'인 부품 또한 도시된 GDGIT사의 부품들과 부품 번호(205) 및 부품 체계가 다르지만, 모두 'BRUSHLESS DC MOTOR'의 한 종류이다. 이때, 프로세서(140)는 부품 번호 규칙 데이터에 기초하여 해당 부품들의 부품 카탈로그 이미지(200)를 동종 부품의 카탈로그 이미지라고 판단할 수 있다.
도 10은 일 실시예에 따라 부품 번호를 추출하는 것을 설명하기 위한 도면이다.
도 10을 참조하면, 부품 번호(205)는 일반적으로 부품 카탈로그 이미지(200)의 상단에 위치하고 있음을 확인할 수 있다.
텍스트 추출부(110)는 부품 카탈로그 이미지(200)로부터 부품 번호(205)를 추출할 수 있다. 이때, 텍스트 추출부(110)는 부품 카탈로그 이미지(200)의 상단의 미리 설정된 영역(206)에서 텍스트를 추출하여 부품 번호(205)를 추출할 수 있다.
카탈로그 이미지의 상단의 미리 설정된 영역(206)은 부품 카탈로그 이미지(200) 중 상단 20% 면적을 차지하는 영역일 수 있으나, 이에 한정되는 것은 아니다.
프로세서(140)는 추출된 부품 번호(205) 및 부품 번호 규칙 데이터에 기초하여 해당 부품들의 부품 카탈로그 이미지(200)들이 동종 부품의 카탈로그 이미지인지 여부를 판단하고, 적어도 하나 이상의 부품 카탈로그 이미지(200)들을 동종 부품의 카탈로그 이미지끼리 분류할 수 있다.
텍스트 추출부(110)는 동종 부품의 카탈로그 이미지로 분류된 복수개의 카탈로그 이미지로부터 부품 속성 정보(210)를 추출할 수 있다.
동종의 부품이라면 카탈로그 이미지 및 사양 테이블에 기재된 텍스트의 내용과 텍스트가 나열된 순서, 특징 등이 유사할 수 있다. 따라서, 텍스트 추출부(110)는 동종 부품의 카탈로그 이미지로부터 부품 속성 정보(210)를 추출하고, 추후 이종의 부품과 부품 속성 정보(210)를 통합하는 방식으로 보다 강건하게 부품 속성 정보(210)를 추출할 수 있다.
도 11은 일 실시예에 따라 부품 속성 정보의 오류를 수정하는 것을 설명하기 위한 도면이다.
프로세서(140)는 추출된 부품 속성 정보(210)의 텍스트를 표준 용어 데이터(151)와 비교하여 부품 속성 정보(210)의 텍스트 오류 여부를 판단할 수 있다.
이때, 프로세서(140)는 잘못 인식된 텍스트를 표준 용어 데이터(151)에 해당 부품 속성 정보(210)의 오류의 예시로서 업데이트 하면서 표준 용어 데이터(151)를 업데이트할 수 있다.
프로세서(140)는 부품 속성 정보(210)의 텍스트에 오류가 있는 것으로 판단되면, 표준 용어 데이터(151)에 기초하여 부품 속성 정보(210)를 수정할 수 있다.
예를 들어, 프로세서(140)는 인식에 실패한 위 첨자, 아래 첨자, 그리스 문자, 수학 기호 등을 수정할 수 있다.
이상에서 설명된 구성요소들의 성능에 대응하여 적어도 하나의 구성요소가 추가되거나 삭제될 수 있다. 또한, 구성요소들의 상호 위치는 시스템의 성능 또는 구조에 대응하여 변경될 수 있다는 것은 당해 기술 분야에서 통상의 지식을 가진 자에게 용이하게 이해될 것이다.
도 12는 일 실시예에 따른 데이터 추출 방법의 순서도이다. 이는 본 발명의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 구성이 추가되거나 삭제될 수 있음은 물론이다.
도 12를 참조하면, 프로세서(140)는 부품 번호(205) 및 부품 번호 규칙 데이터에 기초하여 적어도 하나 이상의 부품 카탈로그 이미지(200)들이 동종 부품의 카탈로그 이미지인지 여부를 판단하고, 적어도 하나 이상의 부품 카탈로그 이미지(200)들을 동종 부품의 카탈로그 이미지끼리 분류할 수 있다(1001).
텍스트 추출부(110)는 동종 부품의 카탈로그 이미지로 분류된 복수개의 카탈로그 이미지부터 수평선 및 수직선을 인식하고, 인식된 수평선 및 수직선에 기초하여 부품 카탈로그 이미지(200)로부터 사양 테이블 영역(201)을 인식할 수 있다(1002).
텍스트 추출부(110)는 사양 테이블 영역(201)으로부터 테이블 수평선(202) 및 테이블 수직선(203)을 인식할 수 있다(1003).
텍스트 추출부(110)는 인식된 테이블 수평선(202) 및 테이블 수직선(203)에 기초하여 사양 테이블 영역(201)으로부터 사양 테이블 헤더(204)를 추출할 수 있다(1004).
텍스트 추출부(110)는 인식된 테이블 수평선(202) 및 테이블 수직선(203)에 기초하여 사양 테이블 영역(201)으로부터 부품 속성 정보(210)를 추출할 수 있다(1005). 이때, 텍스트 추출부(110)는, 인식된 테이블 수평선(202) 및 테이블 수직선(203)을 기초로 인공지능 모델을 이용하여 부품 속성 정보(210)를 인식할 수 있다.
프로세서(140)는 추출된 부품 속성 정보(210)의 텍스트를 표준 용어 데이터(151)와 비교하여 부품 속성 정보(210)의 텍스트 오류 여부를 판단할 수 있다(1006).
프로세서(140)는 부품 속성 정보(210)의 텍스트에 오류가 있는 것으로 판단되면, 표준 용어 데이터(151)에 기초하여 부품 속성 정보(210)를 수정할 수 있다(1007).
동종 파라미터 판단부(120)는 추출된 부품 속성 정보(210) 및 표준 용어 데이터(151)에 기초하여, 추출된 파라미터들이 동종 파라미터인지 여부를 판단할 수 있다(1008).
디지털 카탈로그 생성부(130)는 동종 파라미터로 판단된 파라미터들의 파라미터 값(212)들끼리 서로 대응되도록 적어도 하나 이상의 부품 카탈로그 이미지(200)들에 대한 디지털 부품 카탈로그(300)를 생성할 수 있다(1009).
이상에서와 같이 첨부된 도면을 참조하여 개시된 실시예들을 설명하였다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고도, 개시된 실시예들과 다른 형태로 본 발명이 실시될 수 있음을 이해할 것이다. 개시된 실시예들은 예시적인 것이며, 한정적으로 해석되어서는 안 된다.
100: 데이터 추출 시스템
110: 텍스트 추출부
120: 동종 파라미터 판단부
130: 디지털 카탈로그 생성부
140: 프로세서
150: 메모리
151: 표준 용어 데이터
160: 인공지능 학습부
200: 부품 카탈로그 이미지
201: 사양 테이블 영역
202: 테이블 수평선
203: 테이블 수직선
204: 사양 테이블 헤더
205: 부품 번호
206: 상단의 미리 설정된 영역
210: 부품 속성 정보
211: 파라미터 명칭
212: 파라미터 값
213: 파라미터의 심볼
214: 파라미터의 단위
300: 디지털 부품 카탈로그

Claims (20)

  1. (a) 텍스트 추출부에 의해, 적어도 하나 이상의 부품 카탈로그 이미지로부터 파라미터 명칭들 및 각 파라미터 명칭에 대응되는 파라미터 값을 포함하는 부품 속성 정보를 추출하는 단계;
    (b) 동종 파라미터 판단부에 의해, 상기 추출된 파라미터 명칭들 및 표준 용어 데이터에 기초하여, 추출된 파라미터들이 동종 파라미터인지 여부를 판단하는 단계; 및
    (c) 디지털 카탈로그 생성부에 의해, 상기 동종 파라미터로 판단된 파라미터들의 파라미터 값들끼리 서로 대응되도록 상기 적어도 하나 이상의 부품 카탈로그 이미지들에 대한 디지털 부품 카탈로그를 생성하는 단계;를 포함하되,
    상기 (a) 단계는, 상기 텍스트 추출부에 의해, 상기 적어도 하나 이상의 부품 카탈로그 이미지로부터 각 파라미터의 심볼 및 각 파라미터의 단위를 포함하는 부품 속성 정보를 추출하는 단계;를 포함하고,
    상기 (b) 단계는, 상기 동종 파라미터 판단부에 의해, 추출된 상기 심볼 및 상기 단위에 기초하여, 상기 추출된 파라미터들이 동종 파라미터인지 여부를 판단하는 단계;를 포함하되,
    상기 (b) 단계는, 상기 동종 파라미터 판단부에 의해, 각 파라미터들의 상기 심볼 및 상기 단위가 동일한지 여부를 판단하고, 상기 심볼 및 상기 단위가 동일하면 다른 명칭으로 표시된 파라미터를 상기 동종 파라미터로 판단하고,
    각 파라미터들의 상기 심볼 및 상기 단위가 동일하지 않더라도, 상기 표준 용어 데이터를 참조했을 때 동일한 파라미터에 대응되는 상기 심볼 및 상기 단위라면 해당 파라미터들을 동종 파라미터로 판단하는 카탈로그 이미지의 데이터 추출 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 (a) 단계는:
    (a1) 상기 적어도 하나 이상의 부품 카탈로그 이미지로부터 상기 부품 속성 정보를 포함하는 사양 테이블 영역을 인식하는 단계;
    (a2) 상기 사양 테이블 영역으로부터 상기 부품 속성 정보를 추출하는 단계를 포함하는 카탈로그 이미지의 데이터 추출 방법.
  4. 제3항에 있어서,
    상기 (a1) 단계는:
    상기 부품 카탈로그 이미지로부터 수평선 및 수직선을 인식하는 단계; 및
    상기 인식된 수평선 및 수직선에 기초하여 상기 부품 카탈로그 이미지로부터 상기 사양 테이블 영역을 인식하는 단계;를 포함하는 카탈로그 이미지의 데이터 추출 방법.
  5. 제3항에 있어서,
    상기 (a) 단계는:
    상기 사양 테이블 영역으로부터 테이블 수평선 및 테이블 수직선을 인식하는 단계;를 더 포함하고,
    상기 (a2) 단계는:
    상기 인식된 테이블 수평선 및 테이블 수직선에 기초하여 상기 사양 테이블 영역으로부터 상기 부품 속성 정보를 인식하는 단계;를 포함하는 카탈로그 이미지의 데이터 추출 방법.
  6. 제5항에 있어서,
    인공지능 학습부에 의해, 상기 테이블 수평선 및 상기 테이블 수직선을 입력 변수로 설정하고 상기 부품 속성 정보를 출력 변수로 설정하여 인공지능 모델을 학습하는 단계;를 더 포함하고,
    상기 (a2) 단계는,
    상기 인식된 테이블 수평선 및 테이블 수직선을 기초로 상기 인공지능 모델을 이용하여 상기 부품 속성 정보를 인식하는 단계;를 포함하는, 카탈로그 이미지의 데이터 추출 방법.
  7. 제5항에 있어서,
    상기 인식된 테이블 수평선 및 테이블 수직선에 기초하여 상기 사양 테이블 영역으로부터 사양 테이블 헤더를 추출하는 단계;를 더 포함하는 카탈로그 이미지의 데이터 추출 방법.
  8. 제1항에 있어서,
    텍스트 추출부에 의해, 상기 부품 카탈로그 이미지로부터 부품 번호를 추출하는 단계;
    상기 부품 번호 및 부품 번호 규칙 데이터에 기초하여 상기 적어도 하나 이상의 부품 카탈로그 이미지들이 동종 부품의 카탈로그 이미지인지 여부를 판단하는 단계; 및
    상기 적어도 하나 이상의 부품 카탈로그 이미지들을 상기 동종 부품의 카탈로그 이미지끼리 분류하는 단계;를 더 포함하고,
    상기 (a) 단계는,
    상기 동종 부품의 카탈로그 이미지로 분류된 복수개의 카탈로그 이미지로부터 부품 속성 정보를 추출하는 단계;를 더 포함하는 카탈로그 이미지의 데이터 추출 방법.
  9. 제8항에 있어서,
    상기 부품 번호를 추출하는 단계는,
    상기 텍스트 추출부에 의해, 상기 부품 카탈로그 이미지의 상단의 미리 설정된 영역에서 텍스트를 추출하여 상기 부품 번호를 추출하는 단계;를 포함하는 카탈로그 이미지의 데이터 추출 방법.
  10. 제1항에 있어서,
    상기 추출된 부품 속성 정보의 텍스트를 상기 표준 용어 데이터와 비교하여 상기 부품 속성 정보의 텍스트 오류 여부를 판단하는 단계; 및
    상기 부품 속성 정보의 텍스트에 오류가 있는 것으로 판단되면, 상기 표준 용어 데이터에 기초하여 상기 부품 속성 정보를 수정하는 단계;를 더 포함하는 카탈로그 이미지의 데이터 추출 방법.
  11. 제1항, 제3항 내지 제10항 중 어느 한 항의 카탈로그 이미지의 데이터 추출 방법을 실행시키도록 컴퓨터로 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
  12. 적어도 하나 이상의 부품 카탈로그 이미지로부터 파라미터 명칭들 및 각 파라미터 명칭에 대응되는 파라미터 값을 포함하는 부품 속성 정보를 추출하도록 구성되는 텍스트 추출부;
    상기 추출된 파라미터 명칭들 및 표준 용어 데이터에 기초하여, 추출된 파라미터들이 동종 파라미터인지 여부를 판단하도록 구성되는 동종 파라미터 판단부; 및
    상기 동종 파라미터로 판단된 파라미터들의 파라미터 값들끼리 서로 대응되도록 상기 적어도 하나 이상의 부품 카탈로그 이미지들에 대한 디지털 부품 카탈로그를 생성하도록 구성되는 디지털 카탈로그 생성부;를 포함하되,
    상기 텍스트 추출부는, 상기 적어도 하나 이상의 부품 카탈로그 이미지로부터 각 파라미터의 심볼 및 각 파라미터의 단위를 포함하는 부품 속성 정보를 추출하도록 구성되고,
    상기 동종 파라미터 판단부는, 추출된 상기 심볼 및 상기 단위에 기초하여, 상기 추출된 파라미터들이 동종 파라미터인지 여부를 판단하도록 구성되되,
    상기 동종 파라미터 판단부는, 각 파라미터들의 상기 심볼 및 상기 단위가 동일한지 여부를 판단하고, 상기 심볼 및 상기 단위가 동일하면 다른 명칭으로 표시된 파라미터를 상기 동종 파라미터로 판단하고,
    각 파라미터들의 상기 심볼 및 상기 단위가 동일하지 않더라도, 상기 표준 용어 데이터를 참조했을 때 동일한 파라미터에 대응되는 상기 심볼 및 상기 단위라면 해당 파라미터들을 동종 파라미터로 판단하는 카탈로그 이미지의 데이터 추출 시스템.
  13. 삭제
  14. 제12항에 있어서,
    상기 텍스트 추출부는:
    상기 적어도 하나 이상의 부품 카탈로그 이미지로부터 상기 부품 속성 정보를 포함하는 사양 테이블 영역을 인식하고; 그리고
    상기 사양 테이블 영역으로부터 상기 부품 속성 정보를 추출하도록 구성되는, 카탈로그 이미지의 데이터 추출 시스템.
  15. 제14항에 있어서,
    상기 텍스트 추출부는:
    상기 부품 카탈로그 이미지로부터 수평선 및 수직선을 인식하고; 그리고
    상기 인식된 수평선 및 수직선에 기초하여 상기 부품 카탈로그 이미지로부터 상기 사양 테이블 영역을 인식하도록 구성되는, 카탈로그 이미지의 데이터 추출 시스템.
  16. 제14항에 있어서,
    상기 텍스트 추출부는:
    상기 사양 테이블 영역으로부터 테이블 수평선 및 테이블 수직선을 인식하고; 그리고
    상기 인식된 테이블 수평선 및 테이블 수직선에 기초하여 상기 사양 테이블 영역으로부터 상기 부품 속성 정보를 인식하도록 구성되는, 카탈로그 이미지의 데이터 추출 시스템.
  17. 제16항에 있어서,
    상기 테이블 수평선 및 상기 테이블 수직선을 입력 변수로 설정하고 상기 부품 속성 정보를 출력 변수로 설정하여 인공지능 모델을 학습하도록 구성되는 인공지능 학습부;를 더 포함하고,
    상기 텍스트 추출부는,
    상기 인식된 테이블 수평선 및 테이블 수직선을 기초로 상기 인공지능 모델을 이용하여 상기 부품 속성 정보를 인식하도록 구성되는, 카탈로그 이미지의 데이터 추출 시스템.
  18. 제12항에 있어서,
    프로세서;를 더 포함하고,
    상기 프로세서는:
    부품 번호 및 부품 번호 규칙 데이터에 기초하여 상기 적어도 하나 이상의 부품 카탈로그 이미지들이 동종 부품의 카탈로그 이미지인지 여부를 판단하고; 그리고
    상기 적어도 하나 이상의 부품 카탈로그 이미지들을 상기 동종 부품의 카탈로그 이미지끼리 분류하도록 구성되고,
    상기 텍스트 추출부는:
    상기 부품 카탈로그 이미지로부터 상기 부품 번호를 추출하도록 구성되고; 그리고
    상기 동종 부품의 카탈로그 이미지로 분류된 복수개의 카탈로그 이미지로부터 부품 속성 정보를 추출하도록 구성되는, 카탈로그 이미지의 데이터 추출 시스템.
  19. 제18항에 있어서,
    상기 텍스트 추출부는,
    상기 부품 카탈로그 이미지의 상단의 미리 설정된 영역에서 텍스트를 추출하여 상기 부품 번호를 추출하도록 구성되는, 카탈로그 이미지의 데이터 추출 시스템.
  20. 제12항에 있어서,
    프로세서;를 더 포함하고,
    상기 프로세서는:
    상기 추출된 부품 속성 정보의 텍스트를 상기 표준 용어 데이터와 비교하여 상기 부품 속성 정보의 텍스트 오류 여부를 판단하고; 그리고
    상기 부품 속성 정보의 텍스트에 오류가 있는 것으로 판단되면, 상기 표준 용어 데이터에 기초하여 상기 부품 속성 정보를 수정하도록 구성되는, 카탈로그 이미지의 데이터 추출 시스템.
KR1020210074240A 2021-06-08 2021-06-08 카탈로그 이미지의 데이터 추출 시스템 및 카탈로그 이미지의 데이터 추출 방법 KR102632771B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210074240A KR102632771B1 (ko) 2021-06-08 2021-06-08 카탈로그 이미지의 데이터 추출 시스템 및 카탈로그 이미지의 데이터 추출 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210074240A KR102632771B1 (ko) 2021-06-08 2021-06-08 카탈로그 이미지의 데이터 추출 시스템 및 카탈로그 이미지의 데이터 추출 방법

Publications (2)

Publication Number Publication Date
KR20220165515A KR20220165515A (ko) 2022-12-15
KR102632771B1 true KR102632771B1 (ko) 2024-02-05

Family

ID=84439546

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210074240A KR102632771B1 (ko) 2021-06-08 2021-06-08 카탈로그 이미지의 데이터 추출 시스템 및 카탈로그 이미지의 데이터 추출 방법

Country Status (1)

Country Link
KR (1) KR102632771B1 (ko)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101811581B1 (ko) * 2016-11-15 2017-12-26 주식회사 셀바스에이아이 문서 이미지에서 표 인식을 위한 장치 및 방법
KR102075505B1 (ko) * 2018-03-29 2020-02-10 네이버 주식회사 핵심 키워드 추출 방법 및 시스템
US11113575B2 (en) * 2019-09-10 2021-09-07 Ebay Inc. Automatic image selection for online product catalogs

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
한국 공개특허공보 제10-2019-0114195호(2019.10.10.) 1부.*
한국 공개특허공보 제10-2021-0031401호(2021.03.19.) 1부.*
한국 등록특허공보 제10-1811581호(2017.12.26.) 1부.*

Also Published As

Publication number Publication date
KR20220165515A (ko) 2022-12-15

Similar Documents

Publication Publication Date Title
JP6629942B2 (ja) 機械学習およびファジーマッチングを使用した階層型の自動的な文書の分類およびメタデータ識別
JP2726568B2 (ja) 文字認識方法及び装置
JP4998219B2 (ja) 帳票認識プログラム、帳票認識装置および帳票認識方法
US6721451B1 (en) Apparatus and method for reading a document image
US8208737B1 (en) Methods and systems for identifying captions in media material
US20060045340A1 (en) Character recognition apparatus and character recognition method
JPH11184894A (ja) 論理要素抽出方法および記録媒体
CN111190880A (zh) 一种数据库检测方法、装置和计算机可读存储介质
CN114529933A (zh) 一种合同数据差异性的比对方法、装置、设备和介质
US9672438B2 (en) Text parsing in complex graphical images
WO2016181470A1 (ja) 認識装置、認識方法およびプログラム
CN112632948A (zh) 案件文书排序方法及相关设备
KR102632771B1 (ko) 카탈로그 이미지의 데이터 추출 시스템 및 카탈로그 이미지의 데이터 추출 방법
US11042695B2 (en) Information processing apparatus and non-transitory computer readable medium for generating input screen information
WO2014068770A1 (ja) データ抽出方法、データ抽出装置及びそのプログラム
JP6445645B1 (ja) 帳票情報認識装置および帳票情報認識方法
CN115690821A (zh) 一种电子卷宗智能编目方法和计算机设备
CN115543915A (zh) 人事档案目录自动化建库方法及系统
JPH1173472A (ja) フォーマット情報登録方法及びocrシステム
JP2007052808A (ja) フォーム識別方法
US11256760B1 (en) Region adjacent subgraph isomorphism for layout clustering in document images
JP4677750B2 (ja) 文書属性取得方法および装置並びにプログラムを記録した記録媒体
JP2005056432A (ja) フォーム識別装置および方法
JP4517822B2 (ja) 画像処理装置及びプログラム
JP5752073B2 (ja) データ修正装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant