KR102670389B1 - 텍스트의 데이터 구조화 방법 및 장치 - Google Patents

텍스트의 데이터 구조화 방법 및 장치 Download PDF

Info

Publication number
KR102670389B1
KR102670389B1 KR1020210135569A KR20210135569A KR102670389B1 KR 102670389 B1 KR102670389 B1 KR 102670389B1 KR 1020210135569 A KR1020210135569 A KR 1020210135569A KR 20210135569 A KR20210135569 A KR 20210135569A KR 102670389 B1 KR102670389 B1 KR 102670389B1
Authority
KR
South Korea
Prior art keywords
text
unit
data
format
misrecognition
Prior art date
Application number
KR1020210135569A
Other languages
English (en)
Other versions
KR20230052468A (ko
Inventor
김동환
권유경
고소영
노숙진
권기범
문다혜
Original Assignee
주식회사 포티투마루
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 포티투마루 filed Critical 주식회사 포티투마루
Priority to KR1020210135569A priority Critical patent/KR102670389B1/ko
Priority to EP21202576.1A priority patent/EP4167106A1/en
Priority to US17/502,017 priority patent/US12033413B2/en
Publication of KR20230052468A publication Critical patent/KR20230052468A/ko
Priority to KR1020240067652A priority patent/KR20240082294A/ko
Application granted granted Critical
Publication of KR102670389B1 publication Critical patent/KR102670389B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19093Proximity measures, i.e. similarity or distance measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 텍스트의 데이터 구조화 방법 및 장치에 관한 것으로, OCR 기법을 기반으로 이미지에서 텍스트와 상기 텍스트의 위치 정보를 추출하는 데이터 추출부, 상기 텍스트 및 상기 위치 정보를 기반으로 텍스트 단위를 생성하는 데이터 처리부, 상기 텍스트를 기반으로 상기 이미지의 서식을 분류하는 서식 분류부, 상기 분류된 서식을 바탕으로 상기 텍스트 단위를 항목명, 항목값 또는 기타에 각각 대응되는 제1 텍스트 내지 제3 텍스트로 라벨링하는 라벨링부, 제1 텍스트에 대응하는 제2 텍스트를 맵핑하여 구조화하는 관계 식별부 및 제1 텍스트에 대한 오인식을 판단하고, 오인식으로 판단된 제1 텍스트의 경우 이를 교정하는 오인식 교정부를 포함하는 것을 특징으로 한다.

Description

텍스트의 데이터 구조화 방법 및 장치{METHOD AND APPARATUS FOR DATA STRUCTURING OF TEXT}
본 발명은 텍스트의 데이터 구조화 방법 및 장치에 관한 것으로, 보다 자세하게는 비정형 이미지 문서에 포함된 텍스트를 구조화하여 문서의 운영 관리의 효율을 향상시키는 텍스트의 데이터 구조화 방법 및 장치에 관한 것이다.
산업현장에서는 개인, 기관 혹은 각기 다른 기관 간 상호 전달되는 비정형 문서를 효과적으로 관리, 운용 가능한 형태로 가공하고자 하는 요구가 지속적으로 이어져 왔다. 그러나 상이한 문서의 양식, 용어의 다양성 등으로 인하여 정보의 단순 반복 입력 과정에 큰 비용이 요구되는 단점이 있다.
본 발명은 전술한 문제점을 해결하기 위한 것으로서, 이미지 문서를 분류, 이미지 문서 내 텍스트(항목명 및 항목값) 추출, 텍스트 데이터의 구조화, 오인식 교정 등을 통해 이미지 문서의 운영 관리를 효율적으로 수행하게 하는 것을 일 목적으로 한다.
이러한 목적을 달성하기 위한 본 발명은 OCR 기법을 기반으로 이미지에서 텍스트와 상기 텍스트의 위치 정보를 추출하는 데이터 추출부, 상기 텍스트 및 위치 정보를 기반으로 텍스트 단위를 생성하는 데이터 처리부, 상기 텍스트 기반으로 상기 이미지의 서식을 분류하는 서식 분류부, 상기 분류된 서식을 바탕으로 상기 텍스트 단위를 항목명, 항목값 또는 기타에 각각 대응되는 제1 텍스트 내지 제3 텍스트로 라벨링하는 라벨링부, 제1 텍스트에 대응하는 제2 텍스트를 맵핑하여 구조화하는 관계 식별부 및 제1 텍스트에 대한 오인식을 판단하고, 오인식으로 판단된 제1 텍스트의 경우 이를 교정하는 오인식 교정부를 포함하는 것을 일 특징으로 한다.
또한 본 발명은 서버가 텍스트 데이터를 구조화하는 방법에 있어서 OCR 기법을 기반으로 이미지에서 텍스트와 상기 텍스트의 위치 정보를 추출하는 단계, 상기 텍스트 및 상기 위치 정보를 기반으로 텍스트 단위를 생성하는 단계; 상기 텍스트를 기반으로 상기 이미지의 서식을 분류하는 단계, 상기 분류된 서식을 바탕으로 상기 텍스트 단위를 항목명, 항목값 또는 기타에 각각 대응되는 제1 텍스트 내지 제3 텍스트로 라벨링하는 단계, 제1 텍스트에 대응하는 제2 텍스트를 맵핑하여 구조화하는 단계 및 제1 텍스트에 대한 오인식을 판단하고, 오인식으로 판단된 제1 텍스트의 경우 이를 교정하는 단계를 포함하는 것을 일 특징으로 한다.
전술한 바와 같은 본 발명에 의하면, 이미지 문서를 분류, 이미지 문서 내 텍스트(항목명 및 항목값) 추출, 텍스트 데이터의 구조화, 오인식 교정 등을 통해 이미지 문서의 운영 관리를 효율적으로 수행할 수 있다. 또한 본 발명은 학습 데이터 적재, 현장 상황에 따라 상이하게 적용되는 메타 정보에 효과적으로 대응할 수 있다.
도 1은 본 발명의 일 실시 예에 의한 텍스트 데이터 구조화 장치의 대략적인 구조를 도시한 도면,
도 2는 본 발명의 일 실시 예에 의한 이미지에서 텍스트를 추출하는 과정의 인풋과 아웃풋을 도시한 도면,
도 3은 본 발명의 다른 실시 예에 의한 텍스트 데이터 구조화 장치의 대략적인 구조를 도시한 도면,
도 4는 본 발명의 일 실시 예에 의한 텍스트 데이터 구조화 방법을 설명하기 위한 순서도이다.
전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다.
도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용되며, 명세서 및 특허청구의 범위에 기재된 모든 조합은 임의의 방식으로 조합될 수 있다. 그리고 다른 식으로 규정하지 않는 한, 단수에 대한 언급은 하나 이상을 포함할 수 있고, 단수 표현에 대한 언급은 또한 복수 표현을 포함할 수 있음이 이해되어야 한다.
본 명세서에서 사용되는 용어는 단지 특정 예시적 실시 예들을 설명할 목적을 가지고 있으며 한정할 의도로 사용되는 것이 아니다. 본 명세서에서 사용된 바와 같은 단수적 표현들은 또한, 해당 문장에서 명확하게 달리 표시하지 않는 한, 복수의 의미를 포함하도록 의도될 수 있다. 용어 "및/또는," "그리고/또는"은 그 관련되어 나열되는 항목들의 모든 조합들 및 어느 하나를 포함한다. 용어 "포함한다", "포함하는", "포함하고 있는", "구비하는", "갖는", "가지고 있는" 등은 내포적 의미를 갖는 바, 이에 따라 이러한 용어들은 그 기재된 특징, 정수, 단계, 동작, 요소, 및/또는 컴포넌트를 특정하며, 하나 이상의 다른 특징, 정수, 단계, 동작, 요소, 컴포넌트, 및/또는 이들의 그룹의 존재 혹은 추가를 배제하지 않는다. 본 명세서에서 설명되는 방법의 단계들, 프로세스들, 동작들은, 구체적으로 그 수행 순서가 확정되는 경우가 아니라면, 이들의 수행을 논의된 혹은 예시된 그러한 특정 순서로 반드시 해야 하는 것으로 해석돼서는 안 된다. 추가적인 혹은 대안적인 단계들이 사용될 수 있음을 또한 이해해야 한다.
또한, 각각의 구성요소는 각각 하드웨어 프로세서로 구현될 수 있고, 위 구성요소들이 통합되어 하나의 하드웨어 프로세서로 구현될 수 있으며, 또는 위 구성요소들이 서로 조합되어 복수 개의 하드웨어 프로세서로 구현될 수도 있다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시 예에 의한 텍스트 데이터 구조화 장치의 대략적인 구조를 도시한 도면이다.
도 1을 참조하면, 본 발명의 일 실시 예에 의한 텍스트 데이터 구조화 장치는 데이터 추출부(100), 데이터 처리부(200), 서식 분류부(300), 라벨링부(400), 관계 식별부(500), 오인식 교정부(600) 및 데이터베이스(700)를 포함하여 수신된 이미지에서 사용자가 원하는 정보를 추출할 수 있다.
데이터 추출부(100)는 사용자 단말(미도시)에 의해 수신된 이미지에 포함된 텍스트와 텍스트의 위치 정보를 추출할 수 있다. 데이터 추출부(100)는 OCR 기법을 기반으로 이미지에 포함된 텍스트와 텍스트의 위치 정보를 추출할 수 있는데, 일 예로 데이터 추출부(100)는 도 2의 (a)와 같은 이미지에 OCR 기법을 적용하여 도 2의 (b)와 같은 output을 추출할 수 있다.
데이터 처리부(200)는 데이터 추출부(100)에서 추출된 텍스트 및 위치 정보를 기반으로 텍스트 단위를 생성할 수 있다. 데이터 처리부(200)는 텍스트의 위치 정보를 기반으로, 미리 설정된 길이 임계 값 및 텍스트에 포함된 키워드 간 거리를 기준으로 텍스트 단위를 설정할 수 있다.
서식 분류부(300)는 데이터 추출부(100)에 의해 추출된 텍스트를 기반으로 수신된 이미지의 서식을 분류할 수 있다. 서식 분류부(300)는 기존에 등록된 복수 개의 서식 샘플이 저장된 데이터베이스(700)에 데이터 추출부(100)에 의해 추출된 텍스트를 검색하여, 텍스트와 가장 유사한 서식을 식별하여 수신된 이미지의 서식을 분류할 수 있다.
예를 들어, 서식 분류부(300)는 서식 샘플에 A, B, C 그리고 D 텍스트를 포함하는 제1 서식과 A, C, E 그리고 F 텍스트를 포함하는 제2 서식이 포함되어 있고 데이터 추출부(100)에 의해 추출된 텍스트에 A, B 그리고 C 텍스트가 포함되어 있는 경우, 수신된 이미지의 서식을 제1 서식으로 분류할 것이다.
라벨링부(400)는 서식 분류부(300)에 의해 분류된 서식(서식 별 항목 등)을 기반으로 텍스트 단위를 제1 내지 제3 텍스트로 라벨링 할 수 있다. 라벨링부(400)는 텍스트 단위 중 항목명에 대응하는 텍스트를 제1 텍스트로, 항목값에 대응하는 텍스트를 제2 텍스트로, 기타에 대응하는 텍스트를 제3 텍스트로 라벨링 할 수 있다.
라벨링부(400)는 설정된 그룹에 포함된 텍스트 단위를 BERT 기반의 자연어 처리 모델인 텍스트 분류 모델에 적용하여 항목명, 항목값 혹은 기타로 라벨링할 수 있다.
텍스트 분류 모델은 사용자에 의해 항목명, 항목값 혹은 기타로 라벨링된 학습 데이터를 기반으로 미리 학습된 모델로, 라벨링부(400)에 의해 동작하여 그룹에 포함된 텍스트 단위를 라벨링할 것이다. 텍스트 분류 모델은 OCR 기법에 의해 추출된 텍스트가 오인식 되어있을 경우를 대비하여 O-Q와 같은 오인식 발생률이 높은 문자에 대해 학습 데이터를 변형하여 학습할 수 있다. 예를 들어 일 텍스트에 Orange가 포함되어 있으면 텍스트 분류 모델은 Orange에 대한 키워드 학습 뿐 아니라 Qrange에 대한 키워드 학습을 더 수행할 수 있다.
관계 식별부(500)는 라벨링부(400)에서 라벨링된 제1 텍스트 및 제2 텍스트를 맵핑하여 텍스트의 구조화를 수행할 수 있다. 관계 식별부(500)는 제1 텍스트에 대응되는 제2 텍스트, 즉 항목명에 대응되는 항목값을 서로 맵핑할 수 있다.
관계 식별부(500)는 제1 텍스트 및 제2 텍스트의 위치 정보를 기반으로 맵핑을 수행할 수 있다. 관계 식별부(500)는 제2 텍스트와 기 설정된 거리 임계 값 내에 속하는 제1 텍스트인 제4 텍스트를 식별할 수 있다.
관계 식별부(500)는 제4 텍스트가 복수 개 식별되면, 유사도 검증 모델을 통해 제2 텍스트와 제4 텍스트의 벡터 유사도를 연산하고 이를 기반으로 가장 높은 유사도를 갖는 제4 텍스트를 제2 텍스트와 맵핑할 수 있다.
이 때 관계 식별부(500)는 제4 텍스트를 식별함에 있어서, 서식의 양식 상 제1 텍스트는 제2 텍스트보다 위치 정보에 있어서 y 값이 크거나 x 값이 작다는 것을 가정하고 맵핑 프로세스를 처리할 것이다.
또한 관계 식별부(500)는 하나의 그룹에 동일한 형식의 제2 텍스트가 복수 개 존재하는 경우 모든 제2 텍스트는 가장 좌측에 있는 제2 텍스트 혹은 가장 위쪽에 있는 제2 텍스트에 맵핑된 제1 텍스트에 맵핑될 수 있다.
관계 식별부(500)는 제1 텍스트와 제1 텍스트에 맵핑된 제2 텍스트를 일 그룹으로 설정하여 항목명-항목값에 대한 텍스트를 맵핑할 수 있다. 이에 따라 일 그룹은 항목명에 대한 텍스트 단위와 적어도 하나의 항목값에 대한 텍스트 단위를 포함할 수 있다.
오인식 교정부(600)는 제1 텍스트에 대한 오인식 여부를 판단하고 이를 교정할 수 있다. 오인식 교정부(600)는 제1 텍스트와 라벨링부(400)에서 사용하는 자연어 처리 모델의 학습 데이터 중 항목명에 대한 대표 키워드를 비교할 수 있다. 학습 데이터 중 항목명에 대한 키워드는 오인식을 방지하기 위해 변형된 키워드를 모두 포함하기 때문에, 그 중 변형되지 않은 대표 키워드와 제1 텍스트를 비교하여 오인식 여부를 판단할 수 있다.
오인식 교정부(600)는 대표 키워드와 제1 텍스트 간 유사도를 연산할 수 있는데, 대표 키워드와 제1 텍스트가 서로 동일하지 않되 연산된 유사도가 기 설정된 유사도 임계 값 이상일 경우 제1 텍스트가 오인식 되었다고 판단할 수 있다.
오인식 교정부(600)는 오인식으로 판단된 제1 텍스트를 대표 키워드로 교정하고 교정 내역을 사용자 단말에 제공할 수 있다.
항목명의 경우 서식에 기재된 데이터의 지표로서 역할을 하기 때문에 항목명이 오인식되는 경우 데이터 구조화 과정에서 큰 장애로 작용함에 따라 오인식 교정부(600)는 항목명에 대응하는 제1 텍스트를 교정함으로써 데이터 구조화의 품질을 향상시키고 검수 및 보정 과정에서의 작업 부하를 감소시킬 수 있다.
본 발명의 일 실시 예에 의한 텍스트 데이터 구조화 장치는 텍스트를 라벨링하는 과정에 있어서 기존의 학습 데이터를 기반으로 하기 때문에 데이터에 다소 의존적이다. 이를 해결하기 위한 본 발명의 다른 실시 예에 의한 텍스트 데이터 구조화 장치(도 3)는 데이터 추출부(100), 데이터 처리부(210), 서식 분류부(300), 라벨링부(410), 관계 식별부(510), 오인식 교정부(600) 및 데이터베이스(700)를 포함할 수 있다.
도 3의 본 발명의 다른 실시 예에 의한 텍스트 데이터 구조화 장치는 도 1의 본 발명의 일 실시 예에 의한 텍스트 데이터 구조화 장치와 데이터 처리부, 라벨링부, 그리고 관계 식별부의 동작에 있어서 상이할 것이다. 이하에서는 데이터 처리부(210), 라벨링부(410) 그리고 관계 식별부(510)의 동작을 설명한다.
데이터 처리부(210)는 데이터 추출부(100)에서 추출된 텍스트, 텍스트의 위치 정보 및 이미지 원본 파일을 이용하여 이미지에 포함된 선 정보를 추출할 수 있다. 데이터 처리부(210)는 추출된 선 정보를 기반으로 텍스트 단위를 생성할 수 있다. 또한 이 때 추출된 선 정보는 관계 식별부(510)에서 텍스트를 맵핑하는 데 사용될 수도 있다.
라벨링부(410)는 사용자 단말로부터 수신한 이미지를 인풋 데이터로 딥러닝 모델에 적용하여 이미지 내 존재하는 텍스트 단위들을 제1 내지 제3 텍스트로 분류할 수 있다.
라벨링부(410)는 딥러닝 모델을 통해 이미지 내 존재하는 텍스트 단위 각각에 태그를 추가할 수 있다. 라벨링부(410)는 딥러닝 모델을 통해 텍스트 단위에 포함된 키워드 각각에 <KEY-B>, <KEY-I>, <VAL-B>, <VAL-I>의 태그를 추가할 수 있다. KEY는 항목명을, VAL는 항목값을, B는 시작을, I는 중간을 의미할 것이다.
예를 들어 텍스트에 SHIPPER/EXPORTER NO. & DATA IN VOICE의 키워드가 존재하면 라벨링부(410)는 딥러닝 모델을 통해 SHIPPER/EXPORTER <KEY-B>, NO. & DATA<KEY-B>, IN VOICE<KEY-I>와 같은 태그를 추가할 수 있다. 이는 SHIPPER/EXPORTER, NO. & DATA IN VOICE가 항목명이라고 판단할 수 있게 하는 근거가 될 것이다.
라벨링부(410)는 딥러닝 모델을 통해 NER 기법을 적용하여 상기와 같이 키워드 각각에 태그를 추가하여 텍스트에 대한 라벨링을 수행할 수 있다.
관계 식별부(510)는 라벨링부(410)에서 라벨링된 제1 텍스트 및 제2 텍스트를 맵핑하여 텍스트의 구조화를 수행할 수 있는데 데이터 처리부(210)에서 추출한 선 정보를 더 이용할 수 있다.
관계 식별부(510)는 선 정보를 기반으로 제1 텍스트 및 제2 텍스트를 맵핑할 수 있다. 문서에 존재하는 선 정보가 텍스트를 항목 별로 구분하기 때문에 이를 더 이용하여 텍스트의 맵핑 정확도를 향상시킬 수 있다.
관계 식별부(510)는 이미지 내 선 정보가 존재하지 않을 경우 관계 식별부(500)와 같이 유사도 검증 모델을 통해 제1 텍스트와 제2 텍스트의 벡터 유사도를 기반으로 제1 텍스트와 제2 텍스트를 맵핑할 것이다.
도 4은 본 발명의 일 실시 예에 의한 텍스트 데이터 구조화 방법을 설명하기 위한 순서도이다. 이하에서는 도 4를 참조하여 텍스트 데이터 구조화 방법을 설명한다. 텍스트 데이터 구조화 방법에 대한 설명에 있어서, 앞서 설명한 텍스트 데이터 구조화 장치와 중복되는 세부 실시 예는 생략될 수 있다.
단계 100에서, 서버는 사용자 단말로부터 수신된 이미지에 포함된 텍스트와 텍스트의 위치 정보를 추출할 수 있다. 서버는 OCR 기법을 기반으로 이미지에 포함된 텍스트와 텍스트의 위치 정보를 추출할 수 있다.
단계 200에서, 서버는 추출된 텍스트 및 위치 정보를 기반으로 텍스트 단위를 생성할 수 있다. 이 때, 텍스트 단위는 텍스트의 위치 정보를 기반으로, 미리 설정된 길이 임계 값 및 텍스트에 포함된 키워드 간 거리를 통해 텍스트 단위를 설정할 수 있다.
단계 300에서, 서버는 추출된 텍스트를 기반으로 이미지의 서식을 분류할 수 있다. 서버는 기존에 등록된 복수 개의 서식 샘플이 저장된 데이터베이스에 추출된 텍스트를 검색하여 텍스트와 가장 유사한 서식을 식별하여 이미지의 서식을 분류할 수 있다.
단계 400에서, 서버는 서식을 기반으로 텍스트 단위를 제1 텍스트 내지 제3 텍스트로 라벨링 할 수 있다. 서버는 텍스트 단위 중 항목명에 대응하는 텍스트 단위를 제1 텍스트로, 항목값에 대응하는 텍스트 단위를 제2 텍스트로, 기타에 대응하는 텍스트 단위를 제3 텍스트로 라벨링 할 수 있다. 서버는 설정된 그룹에 포함된 텍스트 단위를 BERT 기반의 자연어 처리 모델에 적용하여 항목명, 항목값 혹은 기타에 대응하는 제1 텍스트 내지 제3 텍스트로 라벨링 할 수 있다.
단계 500에서 서버는 라벨링된 제1 텍스트 및 제2 텍스트를 맵핑하여 텍스트의 구조화를 수행할 수 있다. 서버는 제1 텍스트 및 제2 텍스트의 위치 정보를 기반으로 맵핑을 수행할 수 있다. 서버는 제2 텍스트와 기 설정된 거리 임계 값 내에 속하는 제1 텍스트인 제4 텍스트를 식별하여 제4 텍스트와 제2 텍스트를 맵핑하되, 제4 텍스트가 복수 개 존재하는 경우 벡터 유사도를 기반으로 가장 높은 유사도를 갖는 제4 텍스트를 제2 텍스트와 맵핑할 수 있다.
단계 500에서 서버는 제4 텍스트를 식별함에 있어서, 서식의 양식 상 제1 텍스트는 제2 텍스트보다 위치 정보의 y 값이 크거나 x 값이 작다는 것을 가정하고 맵핑 프로세스를 처리할 것이다.
단계 600에서, 서버는 제1 텍스트에 대한 오인식 여부를 판단하고 이를 교정할 수 있다. 서버는 제1 텍스트와 자연어 처리 모델의 학습 데이터 중 항목명에 대한 대표 키워드를 비교할 수 있다. 학습 데이터 중 항목명에 대한 키워드는 오인식을 방지하기 위해 변형된 키워드를 모두 포함하기 때문에, 그 중 변형되지 않은 대표 키워드와 제1 텍스트를 비교하여 오인식 여부를 판단할 수 있다.
본 명세서와 도면에 개시된 본 발명의 실시 예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.

Claims (9)

  1. OCR 기법을 기반으로 이미지에서 텍스트와 상기 텍스트의 위치 정보를 추출하는 데이터 추출부;
    상기 추출된 텍스트 및 상기 추출된 텍스트의 위치 정보를 기반으로, 미리 설정된 길이 임계 값 및 상기 추출된 텍스트에 포함된 키워드 간 거리를 통해 복수의 텍스트 단위를 생성하는 데이터 처리부;
    상기 추출된 텍스트를 기반으로 상기 이미지의 서식을 분류하는 서식 분류부;
    사용자에 의해 항목명, 항목값 또는 기타로 라벨링된 학습 데이터를 이용하여 미리 학습된 자연어 처리 모델과 상기 분류된 서식을 바탕으로 상기 복수의 텍스트 단위 각각에 항목명의 시작임을 의미하는 태그, 항목명의 시작이 아님을 의미하는 태그, 항목값의 시작을 의미하는 태그, 및 항목값의 시작이 아님을 의미하는 태그 중 적어도 하나를 추가하고, 서로 연관된 태그가 추가된 텍스트 단위들을 연결하고 상기 연결된 텍스트 단위 각각을 항목명에 대응되는 제1 텍스트, 항목값에 대응되는 제2 텍스트 및 기타에 대응되는 제3 텍스트 중 하나로 분류하는 라벨링부;
    상기 제1 텍스트와 상기 제2 텍스트를 맵핑하여 구조화하는 관계 식별부; 및
    상기 제1 텍스트에 대한 오인식을 판단하고, 오인식으로 판단된 상기 제1 텍스트를 교정하는 오인식 교정부를 포함하는 텍스트 데이터 구조화 장치.
  2. 제1항에 있어서, 상기 서식 분류부는,
    상기 텍스트를 서치 엔진에 검색하여 서식을 분류하되,
    상기 서치 엔진은 복수 개의 서식 샘플을 포함하여, 상기 텍스트와 가장 유사한 서식을 라벨링하는 텍스트 데이터 구조화 장치.
  3. 제1항에 있어서, 상기 데이터 처리부는,
    상기 텍스트의 위치 정보를 기반으로 상기 텍스트 간 거리가 기 설정된 임계 값 이하인 텍스트를 일 텍스트 단위로 설정하는 텍스트 데이터 구조화 장치.
  4. 제3항에 있어서, 상기 데이터 처리부는,
    상기 텍스트 단위를 생성하는 과정에 있어서 상기 분류된 서식에 대응하는 항목명을 더 이용하는 텍스트 데이터 구조화 장치.
  5. 제1항에 있어서,
    상기 자연어 처리 모델은,
    오인식 발생률이 높은 문자에 대해 상기 학습 데이터를 변형하여 학습하고, 상기 학습 데이터 중 상기 항목명에 대한 키워드는 변형되지 않은 대표 키워드와 오인식을 방지하기 위해 변형된 키워드를 모두 포함하고,
    상기 오인식 교정부는,
    상기 학습 데이터 중 항목명에 대한 상기 대표 키워드와 상기 제1 텍스트 간의 유사도를 연산하고,
    상기 대표 키워드와 상기 제1 텍스트가 서로 동일하지 않되, 상기 연산된 유사도가 기 설정된 유사도 임계 값 이상일 경우, 상기 제1 텍스트가 오인식 되었다고 판단하고,
    상기 오인식된 상기 제1 텍스트를 상기 대표 키워드로 교정하는 텍스트 데이터 구조화 장치.
  6. 제1항에 있어서, 상기 관계 식별부는,
    제2 텍스트와 기 설정된 거리 임계 값 내에 속하는 제1 텍스트인 제4 텍스트를 식별하고, 제4 텍스트에 대응하는 제1 텍스트와 제2 텍스트를 맵핑하는 텍스트 데이터 구조화 장치.
  7. 제6항에 있어서, 상기 관계 식별부는,
    제4 텍스트가 복수 개 식별되면 유사도 검증 모델을 통해 제2 텍스트와 제4 텍스트의 벡터 유사도를 연산하고,
    상기 벡터 유사도가 가장 높은 제4 텍스트에 대응하는 제1 텍스트를 제2 텍스트와 맵핑하는 텍스트 데이터 구조화 장치.
  8. 제1항에 있어서,
    상기 데이터 처리부는 상기 추출된 텍스트, 상기 추출된 텍스트의 위치 정보 및 상기 이미지를 이용하여 상기 이미지에 포함된 선 정보를 추출하고,
    상기 관계 식별부는 상기 제1 텍스트와 상기 제2 텍스트를 매핑하여 구조화하는데 있어서 상기 추출된 선 정보를 더 이용하는 텍스트 데이터 구조화 장치.
  9. OCR 기법을 기반으로 이미지에서 텍스트와 상기 텍스트의 위치 정보를 추출하는 단계;
    상기 추출된 텍스트 및 상기 추출된 텍스트의 위치 정보를 기반으로, 미리 설정된 길이 임계 값 및 상기 추출된 텍스트에 포함된 키워드 간 거리를 통해 복수의 텍스트 단위를 생성하는 단계;
    상기 추출된 텍스트를 기반으로 상기 이미지의 서식을 분류하는 단계;
    사용자에 의해 항목명, 항목값 또는 기타로 라벨링된 학습 데이터를 이용하여 미리 학습된 자연어 처리 모델과 상기 분류된 서식을 바탕으로 상기 복수의 텍스트 단위 각각에 항목명의 시작임을 의미하는 태그, 항목명의 시작이 아님을 의미하는 태그, 항목값의 시작을 의미하는 태그, 및 항목값의 시작이 아님을 의미하는 태그 중 적어도 하나를 추가하고, 서로 연관된 태그가 추가된 텍스트 단위들을 연결하고, 상기 연결된 텍스트 단위 각각을 항목명에 대응되는 제1 텍스트, 항목값에 대응되는 제2 텍스트 및 기타에 대응되는 제3 텍스트 중 하나로 분류하는 단계;
    상기 제1 텍스트와 상기 제2 텍스트를 맵핑하여 구조화하는 단계; 및
    상기 제1 텍스트에 대한 오인식을 판단하고, 오인식으로 판단된 상기 제1 텍스트를 교정하는 단계를 포함하는 텍스트 데이터 구조화 방법.
KR1020210135569A 2021-10-13 2021-10-13 텍스트의 데이터 구조화 방법 및 장치 KR102670389B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020210135569A KR102670389B1 (ko) 2021-10-13 2021-10-13 텍스트의 데이터 구조화 방법 및 장치
EP21202576.1A EP4167106A1 (en) 2021-10-13 2021-10-14 Method and apparatus for data structuring of text
US17/502,017 US12033413B2 (en) 2021-10-13 2021-10-14 Method and apparatus for data structuring of text
KR1020240067652A KR20240082294A (ko) 2021-10-13 2024-05-24 텍스트의 데이터 구조화 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210135569A KR102670389B1 (ko) 2021-10-13 2021-10-13 텍스트의 데이터 구조화 방법 및 장치

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020240067652A Division KR20240082294A (ko) 2021-10-13 2024-05-24 텍스트의 데이터 구조화 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20230052468A KR20230052468A (ko) 2023-04-20
KR102670389B1 true KR102670389B1 (ko) 2024-05-29

Family

ID=78528594

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020210135569A KR102670389B1 (ko) 2021-10-13 2021-10-13 텍스트의 데이터 구조화 방법 및 장치
KR1020240067652A KR20240082294A (ko) 2021-10-13 2024-05-24 텍스트의 데이터 구조화 방법 및 장치

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020240067652A KR20240082294A (ko) 2021-10-13 2024-05-24 텍스트의 데이터 구조화 방법 및 장치

Country Status (2)

Country Link
EP (1) EP4167106A1 (ko)
KR (2) KR102670389B1 (ko)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3056775A1 (en) * 2017-03-22 2018-09-27 Drilling Info, Inc. Extracting data from electronic documents
US10936863B2 (en) * 2017-11-13 2021-03-02 Way2Vat Ltd. Systems and methods for neuronal visual-linguistic data retrieval from an imaged document
EP3891755A4 (en) * 2018-12-03 2022-09-07 Tempus Labs, Inc. SYSTEM FOR IDENTIFICATION, EXTRACTION AND PREDICTION OF CLINICAL CONCEPTS AND ASSOCIATED PROCESSES
KR102287149B1 (ko) * 2019-09-19 2021-08-06 주식회사 한글과컴퓨터 Pdf 문서에서 텍스트 라인 정보를 기초로 단락의 구분선을 표시하는 전자 장치 및 그 동작 방법
JP2021060876A (ja) * 2019-10-08 2021-04-15 キヤノン株式会社 学習データ生成装置、その制御方法、及びプログラム
KR102300464B1 (ko) * 2019-10-28 2021-09-09 주식회사 한글과컴퓨터 교정부호가 삽입된 텍스트를 기반으로 구축된 교정 데이터베이스를 활용한 문장 자동 교정 장치 및 그 동작 방법

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
한국 공개특허공보 제10-2019-0123790호(2019.11.01.) 1부.*
한국 공개특허공보 제10-2021-0033730호(2021.03.29.) 1부.*
한국 공개특허공보 제10-2021-0050202호(2021.05.07.) 1부.*

Also Published As

Publication number Publication date
KR20240082294A (ko) 2024-06-10
KR20230052468A (ko) 2023-04-20
US20230110931A1 (en) 2023-04-13
EP4167106A1 (en) 2023-04-19

Similar Documents

Publication Publication Date Title
CN110795919B (zh) 一种pdf文档中的表格抽取方法、装置、设备及介质
US8788503B1 (en) Content identification
CN107392143B (zh) 一种基于svm文本分类的简历精确解析方法
CN109685056B (zh) 获取文档信息的方法及装置
CN111680490B (zh) 一种跨模态的文档处理方法、装置及电子设备
CN111444723B (zh) 信息抽取方法、计算机设备和存储介质
Howedi et al. Text classification for authorship attribution using Naive Bayes classifier with limited training data
US10133965B2 (en) Method for text recognition and computer program product
US11200412B2 (en) Method and system for generating parsed document from digital document
US20090144277A1 (en) Electronic table of contents entry classification and labeling scheme
US9754176B2 (en) Method and system for data extraction from images of semi-structured documents
KR101769918B1 (ko) 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치
Hazra et al. Optical character recognition using KNN on custom image dataset
CN110909123B (zh) 一种数据提取方法、装置、终端设备及存储介质
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN110532449B (zh) 一种业务文档的处理方法、装置、设备和存储介质
US20200219481A1 (en) System and method for discriminating removing boilerplate text in documents comprising structured labelled text elements
US20090327210A1 (en) Advanced book page classification engine and index page extraction
KR102670389B1 (ko) 텍스트의 데이터 구조화 방법 및 장치
US12033413B2 (en) Method and apparatus for data structuring of text
CN110909538B (zh) 问答内容的识别方法、装置、终端设备及介质
US11449794B1 (en) Automatic charset and language detection with machine learning
CN114328930A (zh) 基于实体抽取的文本分类方法及系统
EP4325382A1 (en) Text data structuring method and apparatus using line information
CN114003750A (zh) 物料上线方法、装置、设备及存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right