KR102347386B1

KR102347386B1 - 단어 정의 기반 헤더 추출 장치 및 방법

Info

Publication number: KR102347386B1
Application number: KR1020210121087A
Authority: KR
Inventors: 이병철
Original assignee: 주식회사 애자일소다
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2022-01-05

Abstract

단어 정의 기반 헤더 추출 장치 및 방법을 개시한다. 본 발명은 등록된 단어를 기반으로 문서의 종류와 복잡한 규칙의 설정 없이 분리된 단어의 병합을 통해 테이블의 상단 헤더 또는 좌측 헤더를 추출하여 높은 정확도, 범용성, 유지 보수성을 제공할 수 있다.

Description

단어 정의 기반 헤더 추출 장치 및 방법{HEADER EXTRACTION DEVICE AND METHOD BASED ON WORD DEFINITION}

본 발명은 단어 정의 기반 헤더 추출 장치 및 방법에 관한 발명으로서, 더욱 상세하게는 등록된 단어를 기반으로 문서의 종류와 복잡한 규칙의 설정 없이 분리된 단어의 병합을 통해 테이블의 상단 헤더 또는 좌측 헤더를 추출하여 높은 정확도, 범용성, 유지 보수성을 제공할 수 있는 단어 정의 기반 헤더 추출 장치 및 방법에 관한 것이다.

개인이나 기업은 경제 활동 중에 수집하는 영수증을 경비보고, 지출결의 등의 회계 처리 혹은 종합소득세 신고 등의 세무 처리를 위한 사후 증빙 서류로 보관하여 관리한다.

이렇게 보관 및 관리되는 영수증은 종이로 되어 있기 때문에 근본적으로 원본의 훼손 위험이 있으며, 오손, 분실, 부패에 대한 노출을 예방해야 하는 기술적, 경제적 부담이 있고, 영수증 보관량의 증대에 비례하여 영수증 보관 공간을 늘려야 하는 문제점이 있다.

또한, 개인이나 기업의 담당자는 수기 입력 방식으로 종래의 영수증으로부터 상기한 회계 처리 혹은 세무 처리에 필요한 정보를 추출하고 분류하여 장부에 기입하거나 회계관리 프로그램이 설치된 PC에 입력, 저장하기 때문에 정보 추출 작업이 불편한 문제점이 있다.

한편, 문서에 포함된 글자(텍스트) 이미지는 기계 인코딩을 통해 변환할 수 있는 데, 인코딩을 통해 변환된 글자는 전자적으로 편집, 검색 등이 가능하고, 변환된 글자는 파일 등의 형태로 데이터베이스에 저장할 수도 있게 된다.

그러나, 이러한 인코딩 시스템은 처리시간, 처리건수, 정확도 등과 같은 성능면에서 높은 성능을 제공하지 못하는 문제점이 있다.

또한, 종래의 인코딩 시스템 복잡도가 증가됨에 따라 성능의 최적화에 어려움이 발생하고, 그에 따른 문제 발생시 대응 속도가 감소하는 문제점이 있다.

또한, 종래의 인코딩 시스템은 범용성 부족으로 인해 특정 영역별로 성능의 최적화에 따른 시간과 노력이 소요되는 문제점이 있다.

한국 등록특허공보 등록번호 제10-1139801호(발명의 명칭: 영수증 판독을 통한 자동 정보 수집 시스템 및 방법)

이러한 문제점을 해결하기 위하여, 본 발명은 등록된 단어를 기반으로 문서의 종류와 복잡한 규칙의 설정 없이 분리된 단어의 병합을 통해 테이블의 상단 헤더 또는 좌측 헤더를 추출하여 높은 정확도, 범용성, 유지 보수성을 제공할 수 있는 단어 정의 기반 헤더 추출 장치 및 방법을 제공하는 것을 목적으로 한다.

상기한 목적을 달성하기 위하여 본 발명의 일 실시 예는 단어 정의 기반 헤더 추출 장치로서, 인공 지능 모델이 임의의 문서 이미지에 포함된 복수의 단어를 인식하고, 상기 인식된 단어를 포함한 단어 객체의 위치를 탐지하며, 상기 인식된 단어와, 테이블의 상단 헤더 영역 및 좌측 헤더 영역 중 적어도 하나를 추출하기 위해 지정된 하나 이상의 단어 사이의 유사도를 비교하되, 상기 인식된 단어와 지정된 단어 사이의 유사도 값이, 미리 설정된 기준 값 이상인 인식 단어들의 위치를 검색하고, 상기 유사도 값이 일정 값 이상인 인식 단어를 중심으로 주변의 단어를 검색하여 단어 병합 후보군을 설정하되, 상기 설정된 단어 병합 후보군 중에서 상기 지정된 단어와 일치하는 단어들을 병합하며, 병합된 단어를 거리에 기반하여 가장 가까운 이웃한 병합된 단어들과 클러스터링을 통해 그룹을 형성하고, 상기 그룹에 포함된 단어들의 위치에 기반한 가로방향 또는 세로방향 정렬 상태를 분석하여 테이블의 상단 헤더와 좌측 헤더를 추출하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 지정된 단어는 문서 이미지에 포함된 테이블의 상단 헤더 및 좌측 헤더 중 적어도 하나에 포함된 추출 대상 단어인 것을 특징으로 한다.

또한, 상기 실시 예에 따른 유사도는 인식된 단어의 첫 글자에 가중치를 부가하여 산출하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 단어 병합 후보군은 인식된 단어의 길이보다 긴 길이의 지정된 단어가 있으면 검색된 주변 단어를 단어 병합 후보군으로 지정되는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 상단 헤더와 좌측 헤더는 상기 지정된 단어를 가장 많이 포함한 그룹으로 이루어지는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 상단 헤더와 좌측 헤더는 가로방향으로 정렬된 단어들을 포함한 그룹의 가로방향 기준선과, 세로방향으로 정렬된 단어들을 포함한 그룹의 세로방향 기준선이 서로 교차하는 그룹으로 이루어지는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 단어 정의 기반 헤더 추출 장치는 테이블의 상단 헤더 영역 및 좌측 헤더 영역 중 적어도 하나를 추출하기 위해 지정된 하나 이상의 단어와, 테이블을 포함한 문서 이미지를 수신하는 입력부; 인공 지능 모델을 통해 상기 문서 이미지에 포함된 복수의 단어를 인식하고, 상기 인식된 단어를 포함한 단어 객체의 위치를 탐지하며, 상기 인식된 단어와 지정된 단어 사이의 유사도를 비교하여 인식된 단어와 지정된 단어 사이의 유사도 값이, 미리 설정된 기준 값 이상인 인식 단어들의 위치를 검색하는 유사도 분석부; 상기 유사도 값이 일정 값 이상인 인식 단어를 중심으로 주변의 단어를 검색하여 단어 병합 후보군을 설정하고, 상기 설정된 단어 병합 후보군 중에서 상기 지정된 단어와 일치하는 단어들을 병합하는 주변 단어 병합부; 상기 병합된 단어들을 거리에 기반하여 가장 가까운 이웃한 병합된 단어들과 클러스터링을 통해 그룹을 형성하는 클러스터링부; 및 상기 지정된 단어를 가장 많이 포함한 그룹을 검색하되, 상기 그룹에 포함된 단어들의 위치에 기반한 가로방향 또는 세로방향 정렬 상태를 분석하여 테이블의 상단 헤더와 좌측 헤더를 추출하는 헤더 추출부;를 포함하는 것을 특징으로 한다.

또한, 본 발명의 일 실시 예는 단어 정의 기반 헤더 추출 방법으로서, a) 헤더 추출 장치가 테이블의 상단 헤더 영역 및 좌측 헤더 영역 중 적어도 하나를 추출하기 위해 지정된 하나 이상의 단어와, 테이블을 포함한 문서 이미지를 수신하는 단계; b) 상기 헤더 추출 장치가 인공 지능 모델을 통해 상기 문서 이미지에 포함된 복수의 단어를 인식하고, 상기 인식된 단어를 포함한 단어 객체의 위치를 탐지하며, 상기 인식된 단어와, 지정된 단어 사이의 유사도를 비교하여 인식된 단어와 지정된 단어 사이의 유사도 값이, 미리 설정된 기준 값 이상인 인식 단어들의 위치를 검색하는 단계; c) 상기 헤더 추출 장치가 상기 유사도 값이 일정 값 이상인 인식 단어를 중심으로 주변의 단어를 검색하여 단어 병합 후보군을 설정하고, 상기 설정된 단어 병합 후보군 중에서 상기 지정된 단어와 일치하는 단어들을 병합하는 단계; d) 상기 헤더 추출 장치가 상기 병합된 단어들을 거리에 기반하여 가장 가까운 이웃한 병합된 단어들과 클러스터링을 통해 그룹을 형성하는 단계; 및 e) 상기 헤더 추출 장치가 지정된 단어를 가장 많이 포함한 그룹을 검색하되, 상기 그룹에 포함된 단어들의 위치에 기반한 가로방향 또는 세로방향 정렬 상태를 분석하여 테이블의 상단 헤더와 좌측 헤더를 추출하는 단계;를 포함한다.

또한, 상기 실시 예에 따른 b) 단계의 유사도는 인식된 단어의 첫 글자에 가중치를 부가하여 산출되는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 c) 단계의 단어 병합 후보군은 인식된 단어의 길이보다 긴 길이의 지정된 단어가 있으면 검색된 주변 단어를 단어 병합 후보군으로 지정하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 e) 단계의 상단 헤더와 좌측 헤더는 상기 지정된 단어를 가장 많이 포함한 그룹으로 이루어지되, 가로방향으로 정렬된 단어들을 포함한 그룹의 가로방향 기준선과, 세로방향으로 정렬된 단어들을 포함한 그룹의 세로방향 기준선이 서로 교차하는 그룹으로 이루어진 것을 특징으로 한다.

본 발명은 등록된 단어를 기반으로 문서의 종류와 복잡한 규칙의 설정 없이 분리된 단어의 병합을 통해 테이블의 상단 헤더 또는 좌측 헤더를 추출하여 높은 정확도, 범용성, 유지 보수성을 제공할 수 있는 장점이 있다.

또한, 본 발명은 유사도를 통한 단어 탐색 및 추출 과정을 공간 탐색을 이용함으로써, 처리 시간을 단축시킬 수 있는 장점이 있다.

또한, 본 발명은 복잡한 데이터 노이즈 예외 처리 과정과, 데이터를 쉽게 변경할 수 없게 기록된 하드 코드(Hard-coded)된 규칙 기반의 단어 병합 처리 과정을 제거하고, 단어 묶음처럼 텍스트 문자열을 단어로 나누는 단어 기반 거리 알고리즘을 통해 유지 보수와 정확도를 향상시킬 수 있는 장점이 있다.

또한, 본 발명은 단어 사전 및 군집화를 이용하여 범용성의 증가와 사용자의 개입을 최소화할 수 있는 장점이 있다.

또한, 본 발명은 리펙토링(Refactoring)을 통해 코드의 가독성과 간결성을 향상시킬 수 있는 장점이 있다.

도1은 본 발명의 일 실시 예에 따른 단어 정의 기반 헤더 추출 장치의 구성을 나타낸 블록도.
도2는 본 발명의 일 실시 예에 따른 단어 정의 기반 헤더 추출 방법을 설명하기 위해 나타낸 흐름도.
도3은 본 발명의 일 실시 예에 따른 단어 정의 기반 헤더 추출 방법의 단어 유사도 검색 과정을 설명하기 위해 나타낸 예시도.
도4는 본 발명의 일 실시 예에 따른 단어 정의 기반 헤더 추출 방법의 주변 단어 병합 과정을 설명하기 위해 나타낸 예시도.
도5는 도4의 주변 단어 병합 과정을 설명하기 위해 나타낸 다른 예시도.
도6은 본 발명의 일 실시 예에 따른 단어 정의 기반 헤더 추출 방법의 단어 클러스터링 과정을 설명하기 위해 나타낸 예시도.
도7은 본 발명의 일 실시 예에 따른 단어 정의 기반 헤더 추출 방법의 헤더 추출 과정을 설명하기 위해 나타낸 예시도.
도8은 본 발명의 일 실시 예에 따른 단어 정의 기반 헤더 추출 방법의 헤더 추출 과정을 설명하기 위해 나타낸 다른 예시도.

이하에서는 본 발명의 바람직한 실시 예 및 첨부하는 도면을 참조하여 본 발명을 상세히 설명하되, 도면의 동일한 참조부호는 동일한 구성요소를 지칭함을 전제하여 설명하기로 한다.

본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 발명의 기술적 요지와 직접적 관련이 없는 구성에 대해서는 본 발명의 기술적 요지를 흩뜨리지 않는 범위 내에서 생략하였음에 유의하여야 할 것이다.

또한, 본 명세서 및 청구범위에 사용된 용어 또는 단어는 발명자가 자신의 발명을 최선의 방법으로 설명하기 위해 적절한 용어의 개념을 정의할 수 있다는 원칙에 입각하여 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다.

본 명세서에서 어떤 부분이 어떤 구성요소를 "포함"한다는 표현은 다른 구성요소를 배제하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.

또한, "‥부", "‥기", "‥모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는 그 둘의 결합으로 구분될 수 있다.

또한, "적어도 하나의" 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다.

또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시 예에 따라 변경가능하다 할 것이다.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예에 따른 단어 정의 기반 헤더 추출 장치 및 방법의 바람직한 실시예를 상세하게 설명한다.

도1은 본 발명의 일 실시 예에 따른 단어 정의 기반 헤더 추출 장치의 구성을 나타낸 블록도이다.

도1을 참조하면, 본 발명의 일 실시 예에 따른 단어 정의 기반 헤더 추출 장치(100)는, 인공 지능 모델이 임의의 문서 이미지(200)에 포함된 복수의 단어를 인식하고, 인식된 단어를 포함한 단어 객체의 위치를 탐지하며, 인식된 단어와 테이블의 상단 헤더 영역 및 좌측 헤더 영역 중 적어도 하나를 추출하기 위해 미리 지정된 하나 이상의 단어(또는 정의된 단어) 사이의 유사도를 비교할 수 있다.

또한, 헤더 추출 장치(100)는 인식된 단어와 지정된 단어 사이의 유사도 값이, 미리 설정된 기준 값 이상인 인식 단어들의 위치를 검색하고, 상기 유사도 값이 일정 값 이상인 인식 단어를 중심으로 주변의 단어를 검색하여 단어 병합 후보군을 설정할 수 있다.

또한, 헤더 추출 장치(100)는 설정된 단어 병합 후보군 중에서 지정된 단어와 일치하는 단어들을 병합하며, 병합된 단어를 거리에 기반하여 가장 가까운 이웃한 병합된 단어들과 클러스터링을 통해 그룹을 형성할 수 있다.

또한, 헤더 추출 장치(100)는 그룹에 포함된 단어들의 위치에 기반한 가로방향 또는 세로방향 정렬 상태를 분석하여 테이블의 상단 헤더와 좌측 헤더를 추출할 수 있다.

이를 위해, 헤더 추출 장치(100)는 입력부(110)와, 유사도 분석부(120)와, 주변 단어 병합부(130)와, 클러스터링부(140)와, 헤더 추출부(150)를 포함하여 구성될 수 있다.

입력부(110)는 사용자로부터 문서 이미지(200)에 포함된 테이블의 상단 헤더 영역 및 좌측 헤더 영역 중 적어도 하나를 추출하기 위해 미리 지정된 하나 이상의 단어를 수신할 수 있다.

여기서, 지정된 단어는 예를 들어, 문서 이미지(200)에 포함된 테이블의 상단 헤더에 포함된 '본인 부담금', '공단 부담금', '전액 부담금'이나, 테이블의 좌측 헤더에 포함된 '약품비', '조제기본료', 복약지도료', '합계' 등과 같은 단어가 지정되거나 또는 정의될 수 있다.

유사도 분석부(120)는 인공 지능 모델을 통해 입력부(110)를 통해 수신된 문서 이미지(200)에 포함된 복수의 단어를 인식할 수 있다.

또한, 유사도 분석부(120)는 인식된 단어를 포함한 단어 객체의 위치를 탐지하고, 인식된 단어와 사용자로부터 하나 이상 지정된 단어 사이의 유사도를 비교할 수 있다.

이때, 유사도 분석부(120)는 입력부(110)를 통해 지정된 상단 헤더와 좌측 헤더의 단어와, 인공 지능 모델을 통해 인식한 단어들 사이에 편집 거리(Edit distance)를 이용하여 두 단어(또는 문자열) 사이의 공동 문자수와 순서를 기반으로 유사도를 분석할 수 있다.

또한, 유사도 분석부(120)는 접두사 길이에 대하여 처음부터 일치하는 단어(또는 문자열)에 더 유리한 가중치를 부가하여 산출할 수 있다.

또한, 유사도 분석부(120)는 인식된 단어와 지정된 단어 사이의 유사도 값을 미리 설정된 기준 값과 비교하고, 비교 결과 유사도 값이 기준 값 이상인 인식 단어들의 위치를 검색할 수 있다.

또한, 유사도 분석부(120)는 5순위 안에 인식 단어의 길이보다 긴 길이의 지정된 단어가 있을 경우, 단어 병합 후보군으로 지정될 수 있도록 선택할 수도 잇다.

즉, 전체 문서에서 예를 들어, '전액 본인부담'이란 단어가 어디에 위치했는지 검색하고, 미리 지정된 단어와 유사도가 높은 단어를 추출하며, 추출된 단어를 통해 테이블의 위치가 어디인지를 찾을 수 있다.

또한, 유사도 분석부(120)는 단어의 의미를 분석 또는 파악하는 것이 아니라 형태의 유사도를 기반으로 판단할 수 있다.

주변 단어 병합부(130)는 유사도 분석부(120)에서 분석된 유사도 값이 일정 값 이상인 인식 단어를 중심으로 Region-tree를 이용하여 주변의 단어를 검색한다.

또한, 주변 단어 병합부(130)는 유사도 값이 높게 평가된 유사 단어와 그 유사 단어를 중심으로 검색된 단어를 단어 병합 후보군으로 설정할 수 있다.

또한, 주변 단어 병합부(130)는 검색된 주변 단어를 순열 처리(permutation)한 다음, 지정된 단어와 일치하는 단어들을 병합할 수 있다.

또한, 주변 단어 병합부(130)는 인식된 단어의 길이보다 긴 길이의 지정된 단어가 있으면 검색된 주변 단어를 단어 병합 후보군으로 지정할 수 있다.

즉, 주변 단어 병합부(130)는 인공 지능 모델을 이용하여 '전액 본인 부담'이라는 단어를 인식하여 추출할 경우, '전액'과, '본인부담'이란 두 단어로 분리되어 인식될 수 있어서, '전액 본인부담'이라는 온전한 단어로 나오기 위해서는 떨어져 있는 2개의 셀을 합치는 작업이 필요하게 되어, 추출하고 싶은 단어와 가장 유사한 단어를 검색한 후, 자기 자신 주변 단어 중에서 Region-tree를 이용한 공간 탐색을 통해 주변 단어를 검색 및 추출한다.

클러스터링부(140)는 테이블의 헤더일 가능이 높게 평가되는 병합된 단어들을 대상으로, 거리에 기반하여 가장 가까운 이웃한 병합된 단어들과 클러스터링을 통해 그룹을 형성할 수 있다.

예를 들어, 임의의 클러스터 크기를 기준으로 일정 거리 이내에 위치한 병합된 단어들을 그룹핑하여 그룹을 형성할 수 있다.

클러스터링을 통한 그룹의 생성은 테이블 상단 헤더나 또는 좌측 헤더는 일정 규칙이 있고, 그 규칙은 단어가 원형, 방사형과 같이 불규칙적으로 배치되는 것이 아니라 직선 형태로 정렬된 경우가 대부분이다.

따라서, 클러스터링을 통해 거리를 기반으로 가장 가까운 단어들끼리 클러스터링을 통한 그룹을 형성하여 상단 헤더와 좌측 헤더를 추출할 때 단어들의 상호 위치가 직선인지 또는 방사형인지 여부를 판단하여 쉽게 추출할 수 있도록 한다.

헤더 추출부(150)는 클러스터링을 통해 그룹이 형성되면, 추출할 때 단어들의 상호간의 위치, 예를 들어 직선 배치, 방사형 배치 등을 판단하여 경계값을 이용하여 상단 헤더로 추출하고 싶은 경우 가로로 정렬된 그룹을 추출하고, 좌측 헤더로 추출하고 싶은 경우, 세로로 정렬된 그룹을 하여 단어들이 가로방향 또는세로방향으로 잘 정렬된(또는 클러스터링) 그룹에 대한 확률값을 산출하고, 그에 따라 레이블(Label) 분류할 수 있다.

또한, 헤더 추출부(150)는 지정된 단어를 가장 많이 포함한 그룹의 레이블을 검색하여 상단 헤더 또는 좌측 헤더로 추출하기 위한 레이블로 선택할 수 있다.

즉, 헤더 추출부(150)는 중앙값(Median) 기준을 통해 가로방향으로 정렬된 단어들을 포함한 그룹의 가로방향 기준선과, 세로방향으로 정렬된 단어들을 포함한 그룹의 세로방향 기준선이 서로 교차하는 처리와, 지정된 단어와 일치하는 단어의 비율이 가장 높은 레이블의 그룹을 선택하여 상단 헤더와 좌측 헤더로 추출할 수 있다.

다음은 본 발명의 일 실시 예에 따른 단어 정의 기반 헤더 추출 방법을 설명한다.

도2는 본 발명의 일 실시 예에 따른 단어 정의 기반 헤더 추출 방법을 설명하기 위해 나타낸 흐름도이다.

도1 및 도2를 참조하면, 본 발명의 일 실시 예에 따른 단어 정의 기반 헤더 추출 방법은 헤더 추출 장치(100)가 사용자로부터 문서 이미지(200)에 포함된 테이블의 상단 헤더 및 좌측 헤더에 포함된 추출 대상 단어를 지정한 단어와, 테이블을 포함한 문서 이미지(200)를 수신(S100)한다.

헤더 추출 장치(100)는 인공 지능 모델을 통해 문서 이미지(200)에 포함된 복수의 단어를 인식하고, 인식된 단어를 포함한 단어 객체의 위치를 탐지한다.

또한, 헤더 추출 장치(100)는 인식된 단어와, 사용자로부터 하나 이상 지정된 단어 사이의 유사도를 비교하여 인식된 단어와 지정된 단어 사이의 유사도 값이, 미리 설정된 기준 값 이상인 인식 단어들의 위치를 검색(S200)한다.

또한, 헤더 추출 장치(100)는 비교 결과, 유사도 값이 기준 값 이상인 인식 단어들의 위치를 추출할 수 있다.

즉, 도3에 나타낸 바와 같이, 문서 이미지(200)의 전체 단어를 인식하고, 인식된 단어들 중에서 예를 들어, 사용자가 지정한 단어로서, 테이블의 상단 헤더에 포함된 '본인 부담금', '공단 부담금', '전액 부담금'이나, 테이블의 좌측 헤더에 포함된 '약품비', '조제기본료', 복약지도료', '합계' 등과 같은 단어 사이에 유사도를 비교한다.

또한, 비교 결과 유사도 값이 기준 값 이상인 인식 단어를 포함한 제1 단어 객체(210), 제2 단어 객체(220), 제3 단어 객체(230)와, 제1 내지 제3 단어 객체(210, 220, 230)에 포함된 제1 인식 단어(210a), 제2 인식 단어(210b), 제3 인식 단어(230a), 제4 인식 단어(230b), 제6 인식 단어(240a), 제7 인식 단어(240b), 제8 인식 단어(240c)들의 위치를 추출한다.

또한, S200 단계에서 헤더 추출 장치(100)는 접두사 길이에 대하여 처음부터 일치하는 단어(또는 문자열)에 더 유리한 가중치를 부가하여 산출할 수 있다.

계속해서, 헤더 추출 장치(100)는 유사도 값이 일정 값 이상인 인식 단어를 중심으로 주변의 단어를 검색하여 단어 병합 후보군을 설정하고, 상기 설정된 단어 병합 후보군 중에서 지정된 단어와 일치하는 단어들을 병합(S300)한다.

즉, S300 단계에서 헤더 추출 장치(100)는 예를 들어 '전액'이란 제1 인식 단어(210a)를 중심으로 주변의 '본인부담'이란 제2 인식 단어(210b)를 검색하여 단어 병합 후보군으로 설정할 수 있다.

또한, '전액'으로 인식된 제3 인식 단어(230a)를 중심으로 주변을 검색하여 '본인부담'이란 제4 인식 단어(230b)와 '형법 시행규칙'과 같은 제5 인식 단어(230c)를 단어 병합 후보군으로 설정할 수 있다.

또한, '전액'으로 인식된 제6 인식 단어(240a)를 중심으로 주변을 검색하여 '부담한'이란 제8 인식 단어(240c)를 단어 병합 후보군으로 설정할 수도 있다.

또한, S300 단계에서 헤더 추출 장치(100)는 검색된 주변 단어를 순열 처리(permutation)한 다음, 지정된 단어와 일치하는 인식 단어들의 병합을 수행할 수 있다.

즉, S300 단계에서 헤더 추출부(100)는'전액 본인부담'이라는 단어를 인식하여 추출할 경우, '전액 본인부담'이라는 온전한 단어를 추출하기 위해 도5와 같이, 제1 병합 단어(300)와, 제2 병합 단어(310), 제3 병합 단어(320) 등을 이용한 주변 단어과의 병합을 통해 지정된 단어와 일치하는 인식 단어를 추출할 수 있다.

또한, S300 단계에서 단어 병합 후보군은 인식된 단어의 길이보다 긴 길이의 지정된 단어가 있으면 검색된 주변 단어를 단어 병합 후보군으로 지정할 수도 있다.

계속해서, 헤더 추출 장치(100)는 병합된 단어들을 거리에 기반하여 가장 가까운 이웃한 병합된 단어들과 클러스터링을 통해 그룹을 형성(S400)한다.

즉, 도6과 같이, 제1 클러스터링 영역(250), 제2 클러스터링 영역(251), 제3 클러스터링 영역(252), 제4 클러스터링 영역(253), 제5 클러스터링 영역(254)의 단어들을 군집화시켜 그룹을 형성할 수 있다.

S400 단계의 클러스터링을 통해 그룹이 형성되면, 헤더 추출 장치(100)는 지정된 단어를 가장 많이 포함한 그룹을 검색하고, 검색된 그룹에 포함된 단어들의 위치에 기반한 가로방향 또는 세로방향 정렬 상태를 분석하여 테이블의 상단 헤더와 좌측 헤더를 추출(S500)한다.

또한, S500 단계에서 헤더 추출 장치(100)는 도7과 같이, 추출할 때 단어들의 상호간의 위치, 예를 들어 직선 배치, 방사형 배치 등을 판단하여 경계값을 이용하여 상단 헤더로 추출하고 싶은 경우 가로로 정렬된 그룹을 추출하고, 좌측 헤더로 추출하고 싶은 경우, 세로로 정렬된 그룹을 하여 단어들이 가로방향 또는세로방향으로 잘 정렬된(또는 클러스터링) 그룹에 대한 확률값을 산출하고, 그에 따라 제1 레이블(260), 제2 레이블(261), 제3 레이블(262), 제4 레이블(263), 제5 레이블(264)로 분류한다.

또한, S500 단계에서 헤더 추출 장치(100)는 도8과 같이, 중앙값(Median) 기준을 통해 가로방향으로 정렬된 단어들을 포함한 그룹의 가로방향 기준선인 상단 헤더 중앙선(270a)과, 세로방향으로 정렬된 단어들을 포함한 그룹의 세로방향 기준선인 좌측 헤더 중앙선(271a)이 서로 교차하는 처리를 통해 상단 헤더(270)와 좌측 헤더(271)를 추출할 수 있다.

또한, S500 단계에서 헤더 추출 장치(100)는 지정된 단어와 일치하는 단어의 비율이 가장 높은 레이블의 그룹을 선택하여 상단 헤더(270)와 좌측 헤더(271)로 추출할 수 있다.

따라서, 등록된 단어를 기반으로 문서의 종류와 복잡한 규칙의 설정 없이 분리된 단어의 병합을 통해 테이블의 상단 헤더 또는 좌측 헤더를 추출하여 높은 정확도, 범용성, 유지 보수성을 제공할 수 있다.

또한, 유사도를 통한 단어 탐색 및 추출 과정을 공간 탐색을 이용함으로써, 처리 시간을 단축시킬 수 있다.

또한, 복잡한 데이터 노이즈 예외 처리 과정과, 데이터를 쉽게 변경할 수 없게 기록된 하드 코드(Hard-coded)된 규칙 기반의 단어 병합 처리 과정을 제거하고, 단어 묶음처럼 텍스트 문자열을 단어로 나누는 단어 기반 거리 알고리즘을 통해 유지 보수와 정확도를 향상시킬 수 있다.

또한, 지정된 단어 사전과 군집화를 이용하여 범용성의 증가와 사용자의 개입을 최소화할 수 있다.

상기와 같이, 본 발명의 바람직한 실시 예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

또한, 본 발명의 특허청구범위에 기재된 도면번호는 설명의 명료성과 편의를 위해 기재한 것일 뿐 이에 한정되는 것은 아니며, 실시예를 설명하는 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.

또한, 상술된 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있으므로, 이러한 용어들에 대한 해석은 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

또한, 명시적으로 도시되거나 설명되지 아니하였다 하여도 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기재사항으로부터 본 발명에 의한 기술적 사상을 포함하는 다양한 형태의 변형을 할 수 있음은 자명하며, 이는 여전히 본 발명의 권리범위에 속한다.

또한, 첨부하는 도면을 참조하여 설명된 상기의 실시예들은 본 발명을 설명하기 위한 목적으로 기술된 것이며 본 발명의 권리범위는 이러한 실시예에 국한되지 아니한다.

100 : 헤더 추출 장치 110 : 입력부
120 : 유사도 분석부 130 : 주변 단어 병합부
140 : 클러스터링부 150 : 헤더 추출부
200 : 문서 이미지 210 : 제1 단어 객체
210a : 제1 인식 단어 210b : 제2 인식 단어
220 : 제2 단어 객체 230 : 제3 단어 객체
230a : 제3 인식 단어 230b ;제4 인식 단어
230c : 제5 인식 단어 240a : 제6 인식 단어
240b : 제7 인식 단어 250 : 제1 클러스터링 영역
251 : 제2 클러스터링 영역 252 : 제3 클러스터링 영역
253 : 제4 클러스터링 영역 254 : 제5 클러스터링 영역
260 : 제1 레이블 261 : 제2 레이블
262 : 제3 레이블 263 : 제4 레이블
264 : 제5 레이블 270 : 상단 헤더
270a : 상단 헤더 중앙선 271 : 좌측 헤더
271a : 좌측 헤더 중앙선 300 : 제1 병합 단어
310 : 제2 병합 단어 320 : 제3 병합 단어

Claims

테이블의 상단 헤더 영역 및 좌측 헤더 영역 중 적어도 하나를 추출하기 위해 미리 지정된 하나 이상의 단어와 상기 테이블을 포함한 문서 이미지(200)가 수신되면, 인공 지능 모델이 상기 문서 이미지(200)에 포함된 복수의 단어를 인식하고, 상기 인식된 단어를 포함한 단어 객체의 위치를 탐지하며,
상기 인식된 단어와, 테이블의 상단 헤더 영역 및 좌측 헤더 영역 중 적어도 하나를 추출하기 위해 지정된 하나 이상의 단어 사이의 유사도를 비교하되,
상기 인식된 단어와 상기 지정된 하나 이상의 단어 사이에 편집 거리(Edit distance)를 이용하여 두 단어 또는 문자열 사이의 공동 문자수와 순서를 기반으로 형태의 유사도를 판단하되, 접두사 길이에 대하여 처음부터 일치하는 단어 또는 문자열에 유리한 가중치를 부가하여 유사도를 산출하고, 상기 인식된 단어와 지정된 하나 이상의 단어 사이의 유사도 값이, 미리 설정된 기준 값 이상인 인식 단어들의 위치를 검색하고,
상기 유사도 값이 일정 값 이상인 인식 단어를 중심으로 주변 위치의 단어를 검색하여 단어 병합 후보군을 설정하되,
검색된 주변 단어를 순열 처리(permutation)한 후, 상기 지정된 단어와 일치하는 단어들을 병합하며,
병합된 단어를 거리에 기반하여 가장 가까운 이웃한 병합된 단어들과 클러스터링을 통해 그룹을 형성하고,
상기 그룹에 포함된 단어들의 상호간 위치에 기반한 가로방향 또는 세로방향 정렬 상태를 분석하여 가로방향 또는 세로방향으로 정렬된 그룹에서 상기 지정된 단어와 일치하는 단어의 비율이 가장 높은 그룹을 테이블의 상단 헤더와 좌측 헤더로 추출하는 것을 특징으로 하는 단어 정의 기반 헤더 추출 장치.
제 1 항에 있어서,
상기 지정된 단어는 문서 이미지(200)에 포함된 테이블의 상단 헤더 및 좌측 헤더 중 적어도 하나에 포함된 추출 대상 단어인 것을 특징으로 하는 단어 정의 기반 헤더 추출 장치.
제 1 항에 있어서,
상기 유사도는 인식된 단어의 첫 글자에 가중치를 부가하여 산출하는 것을 특징으로 하는 단어 정의 기반 헤더 추출 장치.
제 1 항에 있어서,
상기 단어 병합 후보군은 인식된 단어의 길이보다 긴 길이의 지정된 단어가 있으면 검색된 주변 단어를 단어 병합 후보군으로 지정하는 것을 특징으로 하는 단어 정의 기반 헤더 추출 장치.
삭제
제 1 항에 있어서,
상기 상단 헤더와 좌측 헤더는 가로방향으로 정렬된 단어들을 포함한 그룹의 가로방향 기준선과, 세로방향으로 정렬된 단어들을 포함한 그룹의 세로방향 기준선이 서로 교차하는 그룹으로 이루어지는 것을 특징으로 하는 단어 정의 기반 헤더 추출 장치.
제 1 항에 있어서,
상기 단어 정의 기반 헤더 추출 장치는 테이블의 상단 헤더 영역 및 좌측 헤더 영역 중 적어도 하나를 추출하기 위해 지정된 하나 이상의 단어와, 테이블을 포함한 문서 이미지(200)를 수신하는 입력부(110);
인공 지능 모델을 통해 상기 문서 이미지(200)에 포함된 복수의 단어를 인식하고, 상기 인식된 단어와, 테이블의 상단 헤더 영역 및 좌측 헤더 영역 중 적어도 하나를 추출하기 위해 지정된 하나 이상의 단어 사이의 유사도를 비교하되, 상기 인식된 단어와 상기 지정된 하나 이상의 단어 사이에 편집 거리(Edit distance)를 이용하여 두 단어 또는 문자열 사이의 공동 문자수와 순서를 기반으로 형태의 유사도를 판단하되, 접두사 길이에 대하여 처음부터 일치하는 단어 또는 문자열에 유리한 가중치를 부가하여 유사도를 산출하고, 상기 인식된 단어와 지정된 하나 이상의 단어 사이의 유사도 값이, 미리 설정된 기준 값 이상인 인식 단어들의 위치를 검색하는 유사도 분석부(120);
상기 유사도 값이 일정 값 이상인 인식 단어를 중심으로 주변의 단어를 검색하여 단어 병합 후보군을 설정하되, 상기 검색된 주변 단어를 순열 처리(permutation)한 후, 지정된 단어와 일치하는 단어들을 병합하는 주변 단어 병합부(130);
상기 병합된 단어들을 거리에 기반하여 가장 가까운 이웃한 병합된 단어들과 클러스터링을 통해 그룹을 형성하는 클러스터링부(140); 및
상기 지정된 단어를 가장 많이 포함한 그룹을 검색하되, 상기 그룹에 포함된 단어들의 위치에 기반한 가로방향 또는 세로방향 정렬 상태를 분석하여 가로방향 또는 세로방향으로 정렬된 그룹에서 상기 지정된 단어와 일치하는 단어의 비율이 가장 높은 그룹을 테이블의 상단 헤더와 좌측 헤더로 추출하는 헤더 추출부(150);를 포함하는 것을 특징으로 하는 단어 정의 기반 헤더 추출 장치.
a) 헤더 추출 장치(100)가 테이블의 상단 헤더 영역 및 좌측 헤더 영역 중 적어도 하나를 추출하기 위해 미리 지정된 하나 이상의 단어와, 테이블을 포함한 문서 이미지(200)를 수신하는 단계;
b) 상기 헤더 추출 장치(100)가 인공 지능 모델을 통해 상기 문서 이미지(200)에 포함된 복수의 단어를 인식하고, 상기 인식된 단어와, 테이블의 상단 헤더 영역 및 좌측 헤더 영역 중 적어도 하나를 추출하기 위해 지정된 하나 이상의 단어 사이의 유사도를 비교하되, 상기 인식된 단어와 상기 지정된 하나 이상의 단어 사이에 편집 거리(Edit distance)를 이용하여 두 단어 또는 문자열 사이의 공동 문자수와 순서를 기반으로 형태의 유사도를 판단하되, 접두사 길이에 대하여 처음부터 일치하는 단어 또는 문자열에 유리한 가중치를 부가하여 유사도를 산출하고, 상기 인식된 단어와 지정된 하나 이상의 단어 사이의 유사도 값이, 미리 설정된 기준 값 이상인 인식 단어들의 위치를 검색하는 단계;
c) 상기 헤더 추출 장치(100)가 상기 유사도 값이 일정 값 이상인 인식 단어를 중심으로 주변의 단어를 검색하여 단어 병합 후보군을 설정하되, 상기 검색된 주변 단어를 순열 처리(permutation)한 후, 지정된 단어와 일치하는 단어들을 병합하는 단계;
d) 상기 헤더 추출 장치(100)가 상기 병합된 단어들을 거리에 기반하여 가장 가까운 이웃한 병합된 단어들과 클러스터링을 통해 그룹을 형성하는 단계; 및
e) 상기 헤더 추출 장치(100)가 지정된 단어를 가장 많이 포함한 그룹을 검색하되, 상기 그룹에 포함된 단어들의 위치에 기반한 가로방향 또는 세로방향 정렬 상태를 분석하여 가로방향 또는 세로방향으로 정렬된 그룹에서 상기 지정된 단어와 일치하는 단어의 비율이 가장 높은 그룹을 테이블의 상단 헤더와 좌측 헤더로 추출하는 단계;를 포함하는 단어 정의 기반 헤더 추출 방법.
제 8 항에 있어서,
상기 b) 단계의 유사도는 인식된 단어의 첫 글자에 가중치를 부가하여 산출되는 것을 특징으로 하는 단어 정의 기반 헤더 추출 방법.
제 8 항에 있어서,
상기 c) 단계의 단어 병합 후보군은 인식된 단어의 길이보다 긴 길이의 지정된 단어가 있으면 검색된 주변 단어를 단어 병합 후보군으로 지정하는 것을 특징으로 하는 단어 정의 기반 헤더 추출 방법.
제 8 항에 있어서,
상기 e) 단계의 상단 헤더와 좌측 헤더는 상기 지정된 단어를 가장 많이 포함한 그룹으로 이루어지되,
가로방향으로 정렬된 단어들을 포함한 그룹의 가로방향 기준선과, 세로방향으로 정렬된 단어들을 포함한 그룹의 세로방향 기준선이 서로 교차하는 그룹으로 이루어진 것을 특징으로 하는 단어 정의 기반 헤더 추출 방법.