KR102670389B1

KR102670389B1 - 텍스트의 데이터 구조화 방법 및 장치

Info

Publication number: KR102670389B1
Application number: KR1020210135569A
Authority: KR
Inventors: 김동환; 권유경; 고소영; 노숙진; 권기범; 문다혜
Original assignee: 주식회사 포티투마루
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2024-05-29
Also published as: KR20240082294A; KR20230052468A; US20230110931A1; EP4167106A1

Abstract

본 발명은 텍스트의 데이터 구조화 방법 및 장치에 관한 것으로, OCR 기법을 기반으로 이미지에서 텍스트와 상기 텍스트의 위치 정보를 추출하는 데이터 추출부, 상기 텍스트 및 상기 위치 정보를 기반으로 텍스트 단위를 생성하는 데이터 처리부, 상기 텍스트를 기반으로 상기 이미지의 서식을 분류하는 서식 분류부, 상기 분류된 서식을 바탕으로 상기 텍스트 단위를 항목명, 항목값 또는 기타에 각각 대응되는 제1 텍스트 내지 제3 텍스트로 라벨링하는 라벨링부, 제1 텍스트에 대응하는 제2 텍스트를 맵핑하여 구조화하는 관계 식별부 및 제1 텍스트에 대한 오인식을 판단하고, 오인식으로 판단된 제1 텍스트의 경우 이를 교정하는 오인식 교정부를 포함하는 것을 특징으로 한다.

Description

텍스트의 데이터 구조화 방법 및 장치{METHOD AND APPARATUS FOR DATA STRUCTURING OF TEXT}

본 발명은 텍스트의 데이터 구조화 방법 및 장치에 관한 것으로, 보다 자세하게는 비정형 이미지 문서에 포함된 텍스트를 구조화하여 문서의 운영 관리의 효율을 향상시키는 텍스트의 데이터 구조화 방법 및 장치에 관한 것이다.

산업현장에서는 개인, 기관 혹은 각기 다른 기관 간 상호 전달되는 비정형 문서를 효과적으로 관리, 운용 가능한 형태로 가공하고자 하는 요구가 지속적으로 이어져 왔다. 그러나 상이한 문서의 양식, 용어의 다양성 등으로 인하여 정보의 단순 반복 입력 과정에 큰 비용이 요구되는 단점이 있다.

본 발명은 전술한 문제점을 해결하기 위한 것으로서, 이미지 문서를 분류, 이미지 문서 내 텍스트(항목명 및 항목값) 추출, 텍스트 데이터의 구조화, 오인식 교정 등을 통해 이미지 문서의 운영 관리를 효율적으로 수행하게 하는 것을 일 목적으로 한다.

이러한 목적을 달성하기 위한 본 발명은 OCR 기법을 기반으로 이미지에서 텍스트와 상기 텍스트의 위치 정보를 추출하는 데이터 추출부, 상기 텍스트 및 위치 정보를 기반으로 텍스트 단위를 생성하는 데이터 처리부, 상기 텍스트를 기반으로 상기 이미지의 서식을 분류하는 서식 분류부, 상기 분류된 서식을 바탕으로 상기 텍스트 단위를 항목명, 항목값 또는 기타에 각각 대응되는 제1 텍스트 내지 제3 텍스트로 라벨링하는 라벨링부, 제1 텍스트에 대응하는 제2 텍스트를 맵핑하여 구조화하는 관계 식별부 및 제1 텍스트에 대한 오인식을 판단하고, 오인식으로 판단된 제1 텍스트의 경우 이를 교정하는 오인식 교정부를 포함하는 것을 일 특징으로 한다.

또한 본 발명은 서버가 텍스트 데이터를 구조화하는 방법에 있어서 OCR 기법을 기반으로 이미지에서 텍스트와 상기 텍스트의 위치 정보를 추출하는 단계, 상기 텍스트 및 상기 위치 정보를 기반으로 텍스트 단위를 생성하는 단계; 상기 텍스트를 기반으로 상기 이미지의 서식을 분류하는 단계, 상기 분류된 서식을 바탕으로 상기 텍스트 단위를 항목명, 항목값 또는 기타에 각각 대응되는 제1 텍스트 내지 제3 텍스트로 라벨링하는 단계, 제1 텍스트에 대응하는 제2 텍스트를 맵핑하여 구조화하는 단계 및 제1 텍스트에 대한 오인식을 판단하고, 오인식으로 판단된 제1 텍스트의 경우 이를 교정하는 단계를 포함하는 것을 일 특징으로 한다.

전술한 바와 같은 본 발명에 의하면, 이미지 문서를 분류, 이미지 문서 내 텍스트(항목명 및 항목값) 추출, 텍스트 데이터의 구조화, 오인식 교정 등을 통해 이미지 문서의 운영 관리를 효율적으로 수행할 수 있다. 또한 본 발명은 학습 데이터 적재, 현장 상황에 따라 상이하게 적용되는 메타 정보에 효과적으로 대응할 수 있다.

도 1은 본 발명의 일 실시 예에 의한 텍스트 데이터 구조화 장치의 대략적인 구조를 도시한 도면,
도 2는 본 발명의 일 실시 예에 의한 이미지에서 텍스트를 추출하는 과정의 인풋과 아웃풋을 도시한 도면,
도 3은 본 발명의 다른 실시 예에 의한 텍스트 데이터 구조화 장치의 대략적인 구조를 도시한 도면,
도 4는 본 발명의 일 실시 예에 의한 텍스트 데이터 구조화 방법을 설명하기 위한 순서도이다.

전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다.

도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용되며, 명세서 및 특허청구의 범위에 기재된 모든 조합은 임의의 방식으로 조합될 수 있다. 그리고 다른 식으로 규정하지 않는 한, 단수에 대한 언급은 하나 이상을 포함할 수 있고, 단수 표현에 대한 언급은 또한 복수 표현을 포함할 수 있음이 이해되어야 한다.

본 명세서에서 사용되는 용어는 단지 특정 예시적 실시 예들을 설명할 목적을 가지고 있으며 한정할 의도로 사용되는 것이 아니다. 본 명세서에서 사용된 바와 같은 단수적 표현들은 또한, 해당 문장에서 명확하게 달리 표시하지 않는 한, 복수의 의미를 포함하도록 의도될 수 있다. 용어 "및/또는," "그리고/또는"은 그 관련되어 나열되는 항목들의 모든 조합들 및 어느 하나를 포함한다. 용어 "포함한다", "포함하는", "포함하고 있는", "구비하는", "갖는", "가지고 있는" 등은 내포적 의미를 갖는 바, 이에 따라 이러한 용어들은 그 기재된 특징, 정수, 단계, 동작, 요소, 및/또는 컴포넌트를 특정하며, 하나 이상의 다른 특징, 정수, 단계, 동작, 요소, 컴포넌트, 및/또는 이들의 그룹의 존재 혹은 추가를 배제하지 않는다. 본 명세서에서 설명되는 방법의 단계들, 프로세스들, 동작들은, 구체적으로 그 수행 순서가 확정되는 경우가 아니라면, 이들의 수행을 논의된 혹은 예시된 그러한 특정 순서로 반드시 해야 하는 것으로 해석돼서는 안 된다. 추가적인 혹은 대안적인 단계들이 사용될 수 있음을 또한 이해해야 한다.

또한, 각각의 구성요소는 각각 하드웨어 프로세서로 구현될 수 있고, 위 구성요소들이 통합되어 하나의 하드웨어 프로세서로 구현될 수 있으며, 또는 위 구성요소들이 서로 조합되어 복수 개의 하드웨어 프로세서로 구현될 수도 있다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시 예에 의한 텍스트 데이터 구조화 장치의 대략적인 구조를 도시한 도면이다.

도 1을 참조하면, 본 발명의 일 실시 예에 의한 텍스트 데이터 구조화 장치는 데이터 추출부(100), 데이터 처리부(200), 서식 분류부(300), 라벨링부(400), 관계 식별부(500), 오인식 교정부(600) 및 데이터베이스(700)를 포함하여 수신된 이미지에서 사용자가 원하는 정보를 추출할 수 있다.

데이터 추출부(100)는 사용자 단말(미도시)에 의해 수신된 이미지에 포함된 텍스트와 텍스트의 위치 정보를 추출할 수 있다. 데이터 추출부(100)는 OCR 기법을 기반으로 이미지에 포함된 텍스트와 텍스트의 위치 정보를 추출할 수 있는데, 일 예로 데이터 추출부(100)는 도 2의 (a)와 같은 이미지에 OCR 기법을 적용하여 도 2의 (b)와 같은 output을 추출할 수 있다.

데이터 처리부(200)는 데이터 추출부(100)에서 추출된 텍스트 및 위치 정보를 기반으로 텍스트 단위를 생성할 수 있다. 데이터 처리부(200)는 텍스트의 위치 정보를 기반으로, 미리 설정된 길이 임계 값 및 텍스트에 포함된 키워드 간 거리를 기준으로 텍스트 단위를 설정할 수 있다.

서식 분류부(300)는 데이터 추출부(100)에 의해 추출된 텍스트를 기반으로 수신된 이미지의 서식을 분류할 수 있다. 서식 분류부(300)는 기존에 등록된 복수 개의 서식 샘플이 저장된 데이터베이스(700)에 데이터 추출부(100)에 의해 추출된 텍스트를 검색하여, 텍스트와 가장 유사한 서식을 식별하여 수신된 이미지의 서식을 분류할 수 있다.

예를 들어, 서식 분류부(300)는 서식 샘플에 A, B, C 그리고 D 텍스트를 포함하는 제1 서식과 A, C, E 그리고 F 텍스트를 포함하는 제2 서식이 포함되어 있고 데이터 추출부(100)에 의해 추출된 텍스트에 A, B 그리고 C 텍스트가 포함되어 있는 경우, 수신된 이미지의 서식을 제1 서식으로 분류할 것이다.

라벨링부(400)는 서식 분류부(300)에 의해 분류된 서식(서식 별 항목 등)을 기반으로 텍스트 단위를 제1 내지 제3 텍스트로 라벨링 할 수 있다. 라벨링부(400)는 텍스트 단위 중 항목명에 대응하는 텍스트를 제1 텍스트로, 항목값에 대응하는 텍스트를 제2 텍스트로, 기타에 대응하는 텍스트를 제3 텍스트로 라벨링 할 수 있다.

라벨링부(400)는 설정된 그룹에 포함된 텍스트 단위를 BERT 기반의 자연어 처리 모델인 텍스트 분류 모델에 적용하여 항목명, 항목값 혹은 기타로 라벨링할 수 있다.

텍스트 분류 모델은 사용자에 의해 항목명, 항목값 혹은 기타로 라벨링된 학습 데이터를 기반으로 미리 학습된 모델로, 라벨링부(400)에 의해 동작하여 그룹에 포함된 텍스트 단위를 라벨링할 것이다. 텍스트 분류 모델은 OCR 기법에 의해 추출된 텍스트가 오인식 되어있을 경우를 대비하여 O-Q와 같은 오인식 발생률이 높은 문자에 대해 학습 데이터를 변형하여 학습할 수 있다. 예를 들어 일 텍스트에 Orange가 포함되어 있으면 텍스트 분류 모델은 Orange에 대한 키워드 학습 뿐 아니라 Qrange에 대한 키워드 학습을 더 수행할 수 있다.

관계 식별부(500)는 라벨링부(400)에서 라벨링된 제1 텍스트 및 제2 텍스트를 맵핑하여 텍스트의 구조화를 수행할 수 있다. 관계 식별부(500)는 제1 텍스트에 대응되는 제2 텍스트, 즉 항목명에 대응되는 항목값을 서로 맵핑할 수 있다.

관계 식별부(500)는 제1 텍스트 및 제2 텍스트의 위치 정보를 기반으로 맵핑을 수행할 수 있다. 관계 식별부(500)는 제2 텍스트와 기 설정된 거리 임계 값 내에 속하는 제1 텍스트인 제4 텍스트를 식별할 수 있다.

관계 식별부(500)는 제4 텍스트가 복수 개 식별되면, 유사도 검증 모델을 통해 제2 텍스트와 제4 텍스트의 벡터 유사도를 연산하고 이를 기반으로 가장 높은 유사도를 갖는 제4 텍스트를 제2 텍스트와 맵핑할 수 있다.

이 때 관계 식별부(500)는 제4 텍스트를 식별함에 있어서, 서식의 양식 상 제1 텍스트는 제2 텍스트보다 위치 정보에 있어서 y 값이 크거나 x 값이 작다는 것을 가정하고 맵핑 프로세스를 처리할 것이다.

또한 관계 식별부(500)는 하나의 그룹에 동일한 형식의 제2 텍스트가 복수 개 존재하는 경우 모든 제2 텍스트는 가장 좌측에 있는 제2 텍스트 혹은 가장 위쪽에 있는 제2 텍스트에 맵핑된 제1 텍스트에 맵핑될 수 있다.

관계 식별부(500)는 제1 텍스트와 제1 텍스트에 맵핑된 제2 텍스트를 일 그룹으로 설정하여 항목명-항목값에 대한 텍스트를 맵핑할 수 있다. 이에 따라 일 그룹은 항목명에 대한 텍스트 단위와 적어도 하나의 항목값에 대한 텍스트 단위를 포함할 수 있다.

오인식 교정부(600)는 제1 텍스트에 대한 오인식 여부를 판단하고 이를 교정할 수 있다. 오인식 교정부(600)는 제1 텍스트와 라벨링부(400)에서 사용하는 자연어 처리 모델의 학습 데이터 중 항목명에 대한 대표 키워드를 비교할 수 있다. 학습 데이터 중 항목명에 대한 키워드는 오인식을 방지하기 위해 변형된 키워드를 모두 포함하기 때문에, 그 중 변형되지 않은 대표 키워드와 제1 텍스트를 비교하여 오인식 여부를 판단할 수 있다.

오인식 교정부(600)는 대표 키워드와 제1 텍스트 간 유사도를 연산할 수 있는데, 대표 키워드와 제1 텍스트가 서로 동일하지 않되 연산된 유사도가 기 설정된 유사도 임계 값 이상일 경우 제1 텍스트가 오인식 되었다고 판단할 수 있다.

오인식 교정부(600)는 오인식으로 판단된 제1 텍스트를 대표 키워드로 교정하고 교정 내역을 사용자 단말에 제공할 수 있다.

항목명의 경우 서식에 기재된 데이터의 지표로서 역할을 하기 때문에 항목명이 오인식되는 경우 데이터 구조화 과정에서 큰 장애로 작용함에 따라 오인식 교정부(600)는 항목명에 대응하는 제1 텍스트를 교정함으로써 데이터 구조화의 품질을 향상시키고 검수 및 보정 과정에서의 작업 부하를 감소시킬 수 있다.

본 발명의 일 실시 예에 의한 텍스트 데이터 구조화 장치는 텍스트를 라벨링하는 과정에 있어서 기존의 학습 데이터를 기반으로 하기 때문에 데이터에 다소 의존적이다. 이를 해결하기 위한 본 발명의 다른 실시 예에 의한 텍스트 데이터 구조화 장치(도 3)는 데이터 추출부(100), 데이터 처리부(210), 서식 분류부(300), 라벨링부(410), 관계 식별부(510), 오인식 교정부(600) 및 데이터베이스(700)를 포함할 수 있다.

도 3의 본 발명의 다른 실시 예에 의한 텍스트 데이터 구조화 장치는 도 1의 본 발명의 일 실시 예에 의한 텍스트 데이터 구조화 장치와 데이터 처리부, 라벨링부, 그리고 관계 식별부의 동작에 있어서 상이할 것이다. 이하에서는 데이터 처리부(210), 라벨링부(410) 그리고 관계 식별부(510)의 동작을 설명한다.

데이터 처리부(210)는 데이터 추출부(100)에서 추출된 텍스트, 텍스트의 위치 정보 및 이미지 원본 파일을 이용하여 이미지에 포함된 선 정보를 추출할 수 있다. 데이터 처리부(210)는 추출된 선 정보를 기반으로 텍스트 단위를 생성할 수 있다. 또한 이 때 추출된 선 정보는 관계 식별부(510)에서 텍스트를 맵핑하는 데 사용될 수도 있다.

라벨링부(410)는 사용자 단말로부터 수신한 이미지를 인풋 데이터로 딥러닝 모델에 적용하여 이미지 내 존재하는 텍스트 단위들을 제1 내지 제3 텍스트로 분류할 수 있다.

라벨링부(410)는 딥러닝 모델을 통해 이미지 내 존재하는 텍스트 단위 각각에 태그를 추가할 수 있다. 라벨링부(410)는 딥러닝 모델을 통해 텍스트 단위에 포함된 키워드 각각에 <KEY-B>, <KEY-I>, <VAL-B>, <VAL-I>의 태그를 추가할 수 있다. KEY는 항목명을, VAL는 항목값을, B는 시작을, I는 중간을 의미할 것이다.

예를 들어 텍스트에 SHIPPER/EXPORTER NO. & DATA IN VOICE의 키워드가 존재하면 라벨링부(410)는 딥러닝 모델을 통해 SHIPPER/EXPORTER <KEY-B>, NO. & DATA<KEY-B>, IN VOICE<KEY-I>와 같은 태그를 추가할 수 있다. 이는 SHIPPER/EXPORTER, NO. & DATA IN VOICE가 항목명이라고 판단할 수 있게 하는 근거가 될 것이다.

라벨링부(410)는 딥러닝 모델을 통해 NER 기법을 적용하여 상기와 같이 키워드 각각에 태그를 추가하여 텍스트에 대한 라벨링을 수행할 수 있다.

관계 식별부(510)는 라벨링부(410)에서 라벨링된 제1 텍스트 및 제2 텍스트를 맵핑하여 텍스트의 구조화를 수행할 수 있는데 데이터 처리부(210)에서 추출한 선 정보를 더 이용할 수 있다.

관계 식별부(510)는 선 정보를 기반으로 제1 텍스트 및 제2 텍스트를 맵핑할 수 있다. 문서에 존재하는 선 정보가 텍스트를 항목 별로 구분하기 때문에 이를 더 이용하여 텍스트의 맵핑 정확도를 향상시킬 수 있다.

관계 식별부(510)는 이미지 내 선 정보가 존재하지 않을 경우 관계 식별부(500)와 같이 유사도 검증 모델을 통해 제1 텍스트와 제2 텍스트의 벡터 유사도를 기반으로 제1 텍스트와 제2 텍스트를 맵핑할 것이다.

도 4은 본 발명의 일 실시 예에 의한 텍스트 데이터 구조화 방법을 설명하기 위한 순서도이다. 이하에서는 도 4를 참조하여 텍스트 데이터 구조화 방법을 설명한다. 텍스트 데이터 구조화 방법에 대한 설명에 있어서, 앞서 설명한 텍스트 데이터 구조화 장치와 중복되는 세부 실시 예는 생략될 수 있다.

단계 100에서, 서버는 사용자 단말로부터 수신된 이미지에 포함된 텍스트와 텍스트의 위치 정보를 추출할 수 있다. 서버는 OCR 기법을 기반으로 이미지에 포함된 텍스트와 텍스트의 위치 정보를 추출할 수 있다.

단계 200에서, 서버는 추출된 텍스트 및 위치 정보를 기반으로 텍스트 단위를 생성할 수 있다. 이 때, 텍스트 단위는 텍스트의 위치 정보를 기반으로, 미리 설정된 길이 임계 값 및 텍스트에 포함된 키워드 간 거리를 통해 텍스트 단위를 설정할 수 있다.

단계 300에서, 서버는 추출된 텍스트를 기반으로 이미지의 서식을 분류할 수 있다. 서버는 기존에 등록된 복수 개의 서식 샘플이 저장된 데이터베이스에 추출된 텍스트를 검색하여 텍스트와 가장 유사한 서식을 식별하여 이미지의 서식을 분류할 수 있다.

단계 400에서, 서버는 서식을 기반으로 텍스트 단위를 제1 텍스트 내지 제3 텍스트로 라벨링 할 수 있다. 서버는 텍스트 단위 중 항목명에 대응하는 텍스트 단위를 제1 텍스트로, 항목값에 대응하는 텍스트 단위를 제2 텍스트로, 기타에 대응하는 텍스트 단위를 제3 텍스트로 라벨링 할 수 있다. 서버는 설정된 그룹에 포함된 텍스트 단위를 BERT 기반의 자연어 처리 모델에 적용하여 항목명, 항목값 혹은 기타에 대응하는 제1 텍스트 내지 제3 텍스트로 라벨링 할 수 있다.

단계 500에서 서버는 라벨링된 제1 텍스트 및 제2 텍스트를 맵핑하여 텍스트의 구조화를 수행할 수 있다. 서버는 제1 텍스트 및 제2 텍스트의 위치 정보를 기반으로 맵핑을 수행할 수 있다. 서버는 제2 텍스트와 기 설정된 거리 임계 값 내에 속하는 제1 텍스트인 제4 텍스트를 식별하여 제4 텍스트와 제2 텍스트를 맵핑하되, 제4 텍스트가 복수 개 존재하는 경우 벡터 유사도를 기반으로 가장 높은 유사도를 갖는 제4 텍스트를 제2 텍스트와 맵핑할 수 있다.

단계 500에서 서버는 제4 텍스트를 식별함에 있어서, 서식의 양식 상 제1 텍스트는 제2 텍스트보다 위치 정보의 y 값이 크거나 x 값이 작다는 것을 가정하고 맵핑 프로세스를 처리할 것이다.

단계 600에서, 서버는 제1 텍스트에 대한 오인식 여부를 판단하고 이를 교정할 수 있다. 서버는 제1 텍스트와 자연어 처리 모델의 학습 데이터 중 항목명에 대한 대표 키워드를 비교할 수 있다. 학습 데이터 중 항목명에 대한 키워드는 오인식을 방지하기 위해 변형된 키워드를 모두 포함하기 때문에, 그 중 변형되지 않은 대표 키워드와 제1 텍스트를 비교하여 오인식 여부를 판단할 수 있다.

본 명세서와 도면에 개시된 본 발명의 실시 예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.

Claims

OCR 기법을 기반으로 이미지에서 텍스트와 상기 텍스트의 위치 정보를 추출하는 데이터 추출부;
상기 추출된 텍스트 및 상기 추출된 텍스트의 위치 정보를 기반으로, 미리 설정된 길이 임계 값 및 상기 추출된 텍스트에 포함된 키워드 간 거리를 통해 복수의 텍스트 단위를 생성하는 데이터 처리부;
상기 추출된 텍스트를 기반으로 상기 이미지의 서식을 분류하는 서식 분류부;
사용자에 의해 항목명, 항목값 또는 기타로 라벨링된 학습 데이터를 이용하여 미리 학습된 자연어 처리 모델과 상기 분류된 서식을 바탕으로 상기 복수의 텍스트 단위 각각에 항목명의 시작임을 의미하는 태그, 항목명의 시작이 아님을 의미하는 태그, 항목값의 시작을 의미하는 태그, 및 항목값의 시작이 아님을 의미하는 태그 중 적어도 하나를 추가하고, 서로 연관된 태그가 추가된 텍스트 단위들을 연결하고 상기 연결된 텍스트 단위 각각을 항목명에 대응되는 제1 텍스트, 항목값에 대응되는 제2 텍스트 및 기타에 대응되는 제3 텍스트 중 하나로 분류하는 라벨링부;
상기 제1 텍스트와 상기 제2 텍스트를 맵핑하여 구조화하는 관계 식별부; 및
상기 제1 텍스트에 대한 오인식을 판단하고, 오인식으로 판단된 상기 제1 텍스트를 교정하는 오인식 교정부를 포함하는 텍스트 데이터 구조화 장치.
제1항에 있어서, 상기 서식 분류부는,
상기 텍스트를 서치 엔진에 검색하여 서식을 분류하되,
상기 서치 엔진은 복수 개의 서식 샘플을 포함하여, 상기 텍스트와 가장 유사한 서식을 라벨링하는 텍스트 데이터 구조화 장치.
제1항에 있어서, 상기 데이터 처리부는,
상기 텍스트의 위치 정보를 기반으로 상기 텍스트 간 거리가 기 설정된 임계 값 이하인 텍스트를 일 텍스트 단위로 설정하는 텍스트 데이터 구조화 장치.
제3항에 있어서, 상기 데이터 처리부는,
상기 텍스트 단위를 생성하는 과정에 있어서 상기 분류된 서식에 대응하는 항목명을 더 이용하는 텍스트 데이터 구조화 장치.
제1항에 있어서,
상기 자연어 처리 모델은,
오인식 발생률이 높은 문자에 대해 상기 학습 데이터를 변형하여 학습하고, 상기 학습 데이터 중 상기 항목명에 대한 키워드는 변형되지 않은 대표 키워드와 오인식을 방지하기 위해 변형된 키워드를 모두 포함하고,
상기 오인식 교정부는,
상기 학습 데이터 중 항목명에 대한 상기 대표 키워드와 상기 제1 텍스트 간의 유사도를 연산하고,
상기 대표 키워드와 상기 제1 텍스트가 서로 동일하지 않되, 상기 연산된 유사도가 기 설정된 유사도 임계 값 이상일 경우, 상기 제1 텍스트가 오인식 되었다고 판단하고,
상기 오인식된 상기 제1 텍스트를 상기 대표 키워드로 교정하는 텍스트 데이터 구조화 장치.
제1항에 있어서, 상기 관계 식별부는,
제2 텍스트와 기 설정된 거리 임계 값 내에 속하는 제1 텍스트인 제4 텍스트를 식별하고, 제4 텍스트에 대응하는 제1 텍스트와 제2 텍스트를 맵핑하는 텍스트 데이터 구조화 장치.
제6항에 있어서, 상기 관계 식별부는,
제4 텍스트가 복수 개 식별되면 유사도 검증 모델을 통해 제2 텍스트와 제4 텍스트의 벡터 유사도를 연산하고,
상기 벡터 유사도가 가장 높은 제4 텍스트에 대응하는 제1 텍스트를 제2 텍스트와 맵핑하는 텍스트 데이터 구조화 장치.
제1항에 있어서,
상기 데이터 처리부는 상기 추출된 텍스트, 상기 추출된 텍스트의 위치 정보 및 상기 이미지를 이용하여 상기 이미지에 포함된 선 정보를 추출하고,
상기 관계 식별부는 상기 제1 텍스트와 상기 제2 텍스트를 매핑하여 구조화하는데 있어서 상기 추출된 선 정보를 더 이용하는 텍스트 데이터 구조화 장치.
OCR 기법을 기반으로 이미지에서 텍스트와 상기 텍스트의 위치 정보를 추출하는 단계;
상기 추출된 텍스트 및 상기 추출된 텍스트의 위치 정보를 기반으로, 미리 설정된 길이 임계 값 및 상기 추출된 텍스트에 포함된 키워드 간 거리를 통해 복수의 텍스트 단위를 생성하는 단계;
상기 추출된 텍스트를 기반으로 상기 이미지의 서식을 분류하는 단계;
사용자에 의해 항목명, 항목값 또는 기타로 라벨링된 학습 데이터를 이용하여 미리 학습된 자연어 처리 모델과 상기 분류된 서식을 바탕으로 상기 복수의 텍스트 단위 각각에 항목명의 시작임을 의미하는 태그, 항목명의 시작이 아님을 의미하는 태그, 항목값의 시작을 의미하는 태그, 및 항목값의 시작이 아님을 의미하는 태그 중 적어도 하나를 추가하고, 서로 연관된 태그가 추가된 텍스트 단위들을 연결하고, 상기 연결된 텍스트 단위 각각을 항목명에 대응되는 제1 텍스트, 항목값에 대응되는 제2 텍스트 및 기타에 대응되는 제3 텍스트 중 하나로 분류하는 단계;
상기 제1 텍스트와 상기 제2 텍스트를 맵핑하여 구조화하는 단계; 및
상기 제1 텍스트에 대한 오인식을 판단하고, 오인식으로 판단된 상기 제1 텍스트를 교정하는 단계를 포함하는 텍스트 데이터 구조화 방법.