KR20210105764A

KR20210105764A - 전자문서 내의 텍스트 추출 방법 및 관련 장치

Info

Publication number: KR20210105764A
Application number: KR1020200020654A
Authority: KR
Inventors: 고해신
Original assignee: 한국전자통신연구원
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2021-08-27

Abstract

수집된 전자문서 내에 포함된 글자의 글자 그룹 및 전자문서의 전자문서 이미지를 사용하여 기계학습 모델을 트레이닝하는 단계, 타깃 전자문서를 기계학습 모델에 입력함으로써 타깃 전자문서 내에서 항목을 식별하는 단계, 그리고 타깃 전자문서 내의 항목에서 텍스트를 추출하는 단계를 통해 타깃 전자문서에서 텍스트를 추출하는 방법이 제공된다.

Description

전자문서 내의 텍스트 추출 방법 및 관련 장치{METHOD FOR EXTRACTING TEXT IN ELECTRONIC DOCUMENT AND RELATED APPARATUS THEREFOR}

본 기재는 전자문서 내에서 텍스트를 추출하는 방법 및 관련 장치에 관한 것이다.

최근 연구개발에 대한 투자가 확대되고 각종 기술이 급격하게 발전함에 따라 수많은 정보를 담고 있는 문서들이 매우 빠른 속도로 생산되고 있다. 예를 들어, 과학기술 분야의 연구논문 수는 매년 4~5%씩 늘어나고 있다. 또한 의학 분야에서 환자의 케이스 스터디에 관한 문서도 기하급수적으로 증가하고 있고, 법률적 갈등이 증가함에 따라 관련된 법률문서 또한 급격하게 증가하고 있다. 이러한 환경에서, 개인이 직접 수많은 문서들을 읽고 분석하는 데 어려움이 있다.

위와 같은 어려움을 해결하기 위해, 인공지능을 활용한 자연어 처리 기술(natural language processing)이 주목을 받고 있다. 인공지능을 활용한 자연어 처리 기술은 문서 내의 텍스트를 분석하여 사람들에게 유의미한 정보를 제공할 수 있다. 예를 들어, 인공지능을 활용한 자연어 처리 장치는 장문의 텍스트를 분석하여 핵심을 요약하거나, 또는 관심 정보를 검색하여 개인에게 추천할 수 있다. 사람들은 인공지능을 활용한 자연어 처리를 통해 필요한 문서와 문서 내의 정보를 수고로움 없이 제공 받을 수 있다. 그리고 인공지능을 활용한 자연어 처리를 위해 텍스트가 전자문서 내에서 추출되는 것이 선행될 필요가 있다.

한 실시예는, 타깃 전자문서에서 텍스트를 추출하는 방법을 제공한다.

다른 실시예는, 타깃 전자문서에서 텍스트를 추출하기 위한 학습 데이터 세트를 생성하는 방법을 제공한다.

또 다른 실시예는, 타깃 전자문서에서 텍스트를 추출하기 위한 학습 데이터 세트를 생성하는 장치를 제공한다.

한 실시예에 따르면 타깃 전자문서에서 텍스트를 추출하는 방법이 제공된다. 상기 텍스트 추출 방법은, 수집된 전자문서 내에 포함된 글자의 글자 그룹 및 전자문서의 전자문서 이미지를 사용하여 기계학습 모델을 트레이닝하는 단계, 타깃 전자문서를 기계학습 모델에 입력함으로써 타깃 전자문서 내에서 항목을 식별하는 단계, 그리고 타깃 전자문서 내의 항목에서 텍스트를 추출하는 단계를 포함한다.

상기 텍스트 추출 방법에서 트레이닝하는 단계는, 전자문서에서 글자를 추출하고, 글자의 위치 정보를 사용하여 글자를 글자 그룹으로 그룹핑하는 단계, 그리고 글자 그룹에 기반하여 전자문서 이미지 내에서 적어도 하나의 구분 영역을 결정하는 단계를 포함할 수 있다.

상기 텍스트 추출 방법에서 글자 그룹에 기반하여 전자문서 이미지 내에서 적어도 하나의 구분 영역을 결정하는 단계는, 전자문서 이미지를 복수의 서브 이미지로 분할하는 단계, 그리고 글자 그룹에 기반하여 복수의 서브 이미지를 유지하거나, 재분할하거나, 또는 결합함으로써 복수의 구분 영역을 결정하는 단계를 포함할 수 있다.

상기 텍스트 추출 방법에서 수집된 전자문서 내에 포함된 글자의 글자 그룹 및 전자문서의 전자문서 이미지를 사용하여 기계학습 모델을 트레이닝하는 단계는, 적어도 하나의 구분 영역에 대해 항목을 라벨링하는 단계, 그리고 항목이 라벨링된 구분 영역을 바탕으로 지도 학습 방식을 통해 기계학습 모델을 트레이닝하는 단계를 포함할 수 있다.

상기 텍스트 추출 방법에서 수집된 전자문서 내에 포함된 글자의 글자 그룹 및 전자문서의 전자문서 이미지를 사용하여 기계학습 모델을 트레이닝하는 단계는, 지도 학습 방식을 통해 기계학습 모델이 미리 결정된 횟수만큼 트레이닝된 후, 항목이 라벨링되지 않은 구분 영역을 포함하는 전자문서 이미지를 사용하여 비지도 학습 방식을 통해 기계학습 모델을 트레이닝하는 단계를 더 포함할 수 있다.

상기 텍스트 추출 방법에서 타깃 전자문서를 기계학습 모델에 입력함으로써 타깃 전자문서 내에서 항목을 식별하는 단계는, 트레이닝의 결과를 바탕으로 타깃 전자문서 내에서 항목이 차지하는 영역을 결정하는 단계를 포함할 수 있다.

다른 실시예에 따르면, 텍스트 추출을 위한 학습 데이터 세트를 생성하는 방법이 제공된다. 상기 학습 데이터 세트 생성 방법은, 전자문서를 수집하는 단계, 수집된 전자문서 내에서 글자를 추출하고, 글자를 글자 그룹으로 그룹핑하는 단계, 그리고 글자 그룹에 기반하여 전자문서의 전자문서 이미지 내에서 적어도 하나의 구분 영역을 결정하는 단계를 포함한다.

상기 학습 데이터 세트 생성 방법에서 수집된 전자문서 내에서 글자를 추출하고, 글자를 글자 그룹으로 그룹핑하는 단계는, 글자의 위치 정보를 획득하는 단계, 그리고 글자의 위치 정보를 사용하여 글자를 글자 그룹으로 그룹핑하는 단계를 포함할 수 있다.

상기 학습 데이터 세트 생성 방법에서 글자의 위치 정보는 전자문서의 각 페이지 내의 글자의 좌표를 포함할 수 있다.

상기 학습 데이터 세트 생성 방법에서 글자의 위치 정보를 사용하여 글자를 글자 그룹으로 그룹핑하는 단계는, 글자의 위치 정보를 사용하여 결정된, 글자 간 간격 및 글자 주변의 여백을 바탕으로 글자 그룹을 그룹핑하는 단계를 포함할 수 있다.

상기 학습 데이터 세트 생성 방법에서 글자 그룹에 기반하여 전자문서의 전자문서 이미지 내에서 적어도 하나의 구분 영역을 결정하는 단계는, 전자문서 이미지를 복수의 서브 이미지로 분할하는 단계, 그리고 글자 그룹에 기반하여 복수의 서브 이미지를 유지, 재분할, 또는 결합함으로써 적어도 하나의 구분 영역을 결정하는 단계를 포함할 수 있다.

상기 학습 데이터 세트 생성 방법에서 전자문서 이미지를 복수의 서브 이미지로 분할하는 단계는, 전자문서 이미지의 여백 정보, 라인 정보, 및 색상 정보 중 적어도 하나를 바탕으로 이미지 처리 알고리즘, 규칙 기반 알고리즘, 및 기계학습 알고리즘 중 적어도 하나를 사용하여 전자문서 이미지를 복수의 서브 이미지로 분할하는 단계를 포함할 수 있다.

또 다른 실시예에 따르면, 텍스트 추출을 위한 학습 데이터 세트를 생성하는 장치가 제공된다. 상기 학습 데이터 세트 생성 장치는, 프로세서, 메모리, 및 통신 장치를 포함하고, 프로세서는 메모리에 저장된 프로그램을 실행하여, 통신 장치를 통해 전자문서를 수집하는 단계, 수집된 전자문서 내에서 글자를 추출하고, 글자를 글자 그룹으로 그룹핑하는 단계, 그리고 글자 그룹에 기반하여 전자문서의 전자문서 이미지 내에서 적어도 하나의 구분 영역을 결정하는 단계를 수행한다.

상기 학습 데이터 세트 생성 장치에서 프로세서는, 수집된 전자문서 내에서 글자를 추출하고, 글자를 글자 그룹으로 그룹핑하는 단계를 수행할 때, 글자의 위치 정보를 획득하는 단계, 그리고 글자의 위치 정보를 사용하여 글자를 글자 그룹으로 그룹핑하는 단계를 수행할 수 있다.

상기 학습 데이터 세트 생성 장치에서 글자의 위치 정보는 전자문서의 각 페이지 내의 글자의 좌표를 포함할 수 있다.

상기 학습 데이터 세트 생성 장치에서 프로세서는, 글자의 위치 정보를 사용하여 글자를 글자 그룹으로 그룹핑하는 단계를 수행할 때, 글자의 위치 정보를 사용하여 결정된, 글자 간 간격 및 글자 주변의 여백을 바탕으로 글자 그룹을 그룹핑하는 단계를 수행할 수 있다.

상기 학습 데이터 세트 생성 장치에서 프로세서는, 글자 그룹에 기반하여 전자문서의 전자문서 이미지 내에서 적어도 하나의 구분 영역을 결정하는 단계를 수행할 때, 전자문서 이미지를 복수의 서브 이미지로 분할하는 단계, 그리고 글자 그룹에 기반하여 복수의 서브 이미지를 유지, 재분할, 또는 결합함으로써 적어도 하나의 구분 영역을 결정하는 단계를 수행할 수 있다.

상기 학습 데이터 세트 생성 장치에서 프로세서는, 전자문서 이미지를 복수의 서브 이미지로 분할하는 단계를 수행할 때, 전자문서 이미지의 여백 정보, 라인 정보, 및 색상 정보 중 적어도 하나를 바탕으로 이미지 처리 알고리즘, 규칙 기반 알고리즘, 및 기계학습 알고리즘 중 적어도 하나를 사용하여 전자문서 이미지를 복수의 서브 이미지로 분할하는 단계를 수행할 수 있다.

글자 그룹과 이미지 분할 간의 상호 보완을 통해 전자문서의 항목 별로 텍스트가 신속하고 정확하게 추출될 수 있다.

도 1a 및 도 1b는 한 실시예에 따른 논문과 논문의 항목 구분을 나타낸 도면이다.
도 2는 한 실시예에 따른 텍스트 추출 장치를 나타낸 블록도이다.
도 3은 한 실시예에 따른 텍스트 추출 방법을 나타낸 흐름도이다.
도 4는 한 실시예에 따른 텍스트 추출을 위한 학습 데이터 세트를 생성하는 방법의 일부를 나타낸 흐름도이다.
도 5a 및 도 5b는 한 실시예에 따른 전자문서 이미지 내에서 구분 영역을 결정하는 방법을 나타낸 개념도이다.
도 6은 다른 실시예에 따른 텍스트 추출 장치를 나타낸 블록도이다.

아래에서는 첨부한 도면을 참고로 하여 본 기재의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 기재는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 기재를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 명세서에서 단수로 기재된 표현은 "하나" 또는 "단일" 등의 명시적인 표현을 사용하지 않은 이상, 단수 또는 복수로 해석될 수 있다.

본 명세서에서 "및/또는"은 언급된 구성 요소들의 각각 및 하나 이상의 모든 조합을 포함한다.

본 명세서에서, 제1, 제2 등과 같이 서수를 포함하는 용어들은 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 개시의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

본 명세서에서 도면을 참고하여 설명한 흐름도에서, 동작 순서는 변경될 수 있고, 여러 동작들이 병합되거나, 어느 동작이 분할될 수 있고, 특정 동작은 수행되지 않을 수 있다.

지난 수십 년간 전자 장치의 발달에 따라 각종 연구의 결과물(예를 들어, 논문)이 전자문서의 형태로 작성되었다. PDF(portable document format) 포맷은 국제표준화기구(ISO)에 의해 국제표준으로 선정되었고, 각 연구 분야에서 수많은 연구 결과물이 PDF 파일로 배포되고 있다. PDF 등 전자문서 내의 항목 구분을 위해 전처리가 필요할 수 있다.

도 1a 및 도 1b는 한 실시예에 따른 논문과 논문의 항목 구분을 나타낸 도면이다.

도 1a를 참고하면, 연구 논문 내에는 제목, 저자명, 소속기관, 논문 게재 정보, 초록, 본문으로 구분된 항목이 포함되어 있고, 항목 사이에는 분류 번호, 출판 정보, 간행물의 페이지 번호도 포함되어 있다. 도 1b를 참조하면, 연구 논문 내에는 제목, 저자명과 소속기관, 초록, 참조문헌으로 구분된 항목이 포함되어 있고, 항목 사이에는 분류 코드, 논문 게재 정보가 포함되어 있다. 즉, 논문이 게재된 저널 또는 출판사에 따라 논문 내에서 각 항목은 서로 다른 곳에 위치할 수 있다. 또한, 각 항목에 포함된 글자의 크기, 폰트가 각각 다르고, 하나의 페이지 내의 주변 디자인도 서로 다르다.

도 2는 한 실시예에 따른 텍스트 추출 장치를 나타낸 블록도이다.

도 2를 참조하면, 한 실시예에 따른 텍스트 추출 장치(100)는 전자문서 수집부(110), 글자 그룹핑부(120), 이미지 분할부(130), 기계학습부(140), 및 텍스트 추출부(150)를 포함한다.

전자문서 수집부(110)는 전자문서를 수집하고, 수집된 전자문서를 전자문서 이미지로 변환할 수 있다. 전자문서 수집부(110)는 수집된 전자문서의 각 페이지마다 하나의 전자문서 이미지를 생성할 수 있다. 수집되는 복수의 전자문서는 각각 서로 다른 다양한 형태의 레이아웃을 가질 수 있다.

글자 그룹핑부(120)는 수집된 전자문서에서 글자를 추출하고, 전자문서 내의 각 글자의 위치 정보를 획득할 수 있다. 그리고 글자 그룹핑부(120)는 글자의 위치 정보 등을 사용하여 추출된 글자를 그룹핑할 수 있다. 글자 그룹핑부(120)는 글자 그룹을 생성하기 위해, 글자의 위치 정보, 글자 간 간격 등을 사용할 수 있다.

이미지 분할부(130)는 글자 그룹을 참조하여 전자문서 이미지 내에서 복수의 구분 영역(division area)을 결정할 수 있다. 한 실시예에 따르면, 이미지 분할부(130)는 전자문서의 한 페이지의 전자문서 이미지 내에서 구분 영역을 분할하고, 글자 그룹을 참조하여 분할된 구분 영역을 유지 또는 재분할 또는 결합할 수 있다. 이미지 분할부(130)가 전자문서 이미지 내에서 복수의 구분 영역을 결정하는 방법은 아래 도 3 및 도 4를 바탕으로 상세히 설명한다.

기계학습부(140)는 트레이닝 단계에서 복수의 구분 영역으로 분할된 전자문서 이미지를 사용하여 기계학습 모델을 트레이닝할 수 있다. 기계학습부(140)는 기계학습 모델의 트레이닝을 위해 전자문서 이미지 내의 각 구분 영역에 대해 라벨링을 수행할 수 있다. 각 구분 영역의 라벨은 전자문서 내의 각 항목의 명칭일 수 있다. 기계학습부(140)는 이후 추론 단계에서 타깃 전자문서를 트레이닝된 기계학습 모델에 입력함으로써, 타깃 전자문서 내에서 각 항목을 식별할 수 있다. 여기서 트레이닝된 기계학습 모델은, 트레이닝의 결과에 따라 타깃 전자문서 내에서 각 항목이 차지하는 영역을 결정함으로써 항목을 식별할 수 있다.

텍스트 추출부(150)는 타깃 전자문서의 각 항목 내에서 텍스트를 추출할 수 있다. 타깃 전자문서에서 추출된 텍스트는 이후 자연어 처리, 논문 추천 서비스 등의 다양한 목적에 따라 사용될 수 있다.

도 3은 한 실시예에 따른 텍스트 추출 방법을 나타낸 흐름도이고, 도 4는 한 실시예에 따른 텍스트 추출을 위한 학습 데이터 세트를 생성하는 방법의 일부를 나타낸 흐름도이며, 도 5a 및 도 5b는 한 실시예에 따른 전자문서 이미지 내에서 구분 영역을 결정하는 방법을 나타낸 개념도이다.

도 3을 참조하면, 한 실시예에 따른 텍스트 추출 장치(100)의 전자문서 수집부(110), 글자 그룹핑부(120), 및 이미지 분할부(130)는 전자문서에서 텍스트를 추출하기 위한 학습 데이터 세트를 생성할 수 있다.

전자문서 수집부(110)는 전자문서를 수집하고, 수집된 전자문서를 이미지로 변환할 수 있다(S110). 전자문서 수집부(110)는 다양한 유형, 예를 들어, 오픈 도큐먼트 포맷(open document format, ODF), XML(extensible markup language), PDF 등의 전자문서를 수집할 수 있다.

글자 그룹핑부(120)는 수집된 전자문서 내에서 글자를 추출하고, 글자의 위치 정보를 획득하며, 글자의 위치 정보를 사용하여 추출된 글자를 글자 그룹으로 그룹핑할 수 있다(S120). 글자 그룹핑부(120)는 글자의 그룹핑을, S110에서 전자문서가 전자문서 이미지로 변환되는 것과 병렬적으로 수행할 수 있다. 글자 그룹핑부(120)는 전자문서의 각 페이지마다 개별적으로 글자를 추출하고 글자의 위치 정보를 획득할 수 있다. 글자의 위치 정보는 전자문서의 각 페이지 내의 글자의 좌표를 포함할 수 있다. 글자 그룹핑부(120)는 글자의 위치 정보를 사용하여 결정된, 글자 간 간격, 글자 주변의 여백과, 글자의 크기, 색상, 서체, 굵기, 또는 기울임 여부 등을 바탕으로 전자문서 내의 각 페이지마다 글자를 그룹핑할 수 있다. 각 글자 그룹은 숫자, 수학식 기호 등의 특수 기호 등을 포함하건, 또는 각 글자 그룹은 배경색 또는 배경 이미지를 가질 수 있다.

이미지 분할부(130)는 글자 그룹에 기반하여 전자문서의 각 페이지의 전자문서 이미지 내에서 구분 영역을 결정할 수 있다(S130). 구분 영역이 결정되어 있는 전자문서 이미지는 기계학습 모델의 트레이닝을 위한 학습 데이터 세트로서 사용될 수 있다.

이미지 분할부(130)는 수집된 전자문서의 전자문서 이미지 내에서 2단계로 구분 영역을 결정할 수 있다. 도 4를 참조하면, 이미지 분할부(130)는 전자문서 이미지의 여백 정보, 라인 정보, 및 색상 정보 중 적어도 하나를 바탕으로 전자문서 이미지를 복수의 서브 이미지로 분할할 수 있다(S131). 도 5a의 왼쪽 도면에서, 이미지 분할부(130)는 논문의 첫 페이지에 대응하는 전자문서 이미지를 8개의 서브 이미지로 분할하였다. 도 5b의 왼쪽 도면에서, 이미지 분할부(130)는 논문의 중간 한 페이지에 대응하는 전자문서 이미지를 4개의 서브 이미지로 분할하였다. 한 실시예에 따르면, 이미지 분할부(130)는 전자문서 이미지의 상부에서 하부로 향하는 방향으로 전자문서 이미지를 복수의 서브 이미지로 분할할 수 있다. 다른 실시예에 따르면, 이미지 분할부(130)는 하나의 전자문서 이미지 내의 그림(또는 도면) 또는 글자에 의해 점유된 부분만을 서브 이미지로서 결정할 수 있다. 이때 서브 이미지의 도 5a 및 도 5b의 여백을 포함하지 않을 수 있고, 따라서 그림 또는 글자에 의해 점유된 부분에 대응하는 각 서브 이미지의 가로 폭은 서로 다를 수 있다. 이미지 분할부(130)는 전자문서 이미지를 복수의 서브 이미지로 분할하기 위해, 이미지 처리 알고리즘, 규칙 기반 알고리즘, 및 기계학습 알고리즘 중 적어도 하나를 사용할 수 있다.

다음으로, 이미지 분할부(130)는 글자 그룹에 기반하여 전자문서 이미지 내에서 1차적으로 분할된 서브 이미지를 그대로 유지하여 구분 영역으로서 결정하거나, 또는 이미지 분할부(130)는 글자 그룹에 기반하여 서브 이미지를 재분할하거나 또는 결합함으로써 구분 영역을 결정할 수 있다(S132). 도 5a를 참조하면, 서브 이미지 2는 구분 영역 #5로서 그대로 유지되었다. 도 5a를 참조하면, 서브 이미지 #1은 글자 그룹에 기반하여 4개의 구분 영역(#1, #2, #3, #4)로 재분할되었고, 서브 이미지 #5는 글자 그룹에 기반하여 3개의 구분 영역(#8, #9, #10)로 재분할되었다.

한 실시예에 따른 이미지 분할부(130)는 서브 이미지 내에 포함된 것이 그림인지 또는 글자인지 또는 그림과 글자인지 여부를 결정하고, 서브 이미지 내에 그림 또는 그림과 글자가 포함된 경우, 해당 서브 이미지를 글자를 포함하는 다른 이미지와 결합할 수 있다. 이미지 분할부(130)는 서브 이미지의 위치와 글자 그룹의 위치를 바탕으로 서브 이미지 내에 글자가 포함되어 있는지 여부를 결정할 수 있다. 예를 들어, 이미지 분할부(130)는 서브 이미지의 위치에 또는 서브 이미지와 인접한 위치에 대응하는 글자 그룹이 존재할 때, 서브 이미지 내에 글자가 포함된 것으로 결정할 수 있다. 또는 이미지 분할부(130)는 서브 이미지의 위치에 또는 서브 이미지와 인접한 위치에 대응하는 글자 그룹이 존재하지 않을 때, 서브 이미지 내에 그림이 포함된 것으로 결정할 수 있다.

도 5b를 참조하면, 서브 이미지 #2 및 서브 이미지 #3는 글자 그룹에 기반하여 구분 영역 #4로 결합되었다. 이미지 분할부(130)는 서브 이미지 #2 내에 그림이 포함되어 있음을 결정하고, 서브 이미지 #2와 관련된 다른 서브 이미지 #3를 서브 이미지 #2와 결합할 수 있다. 이미지 분할부(130)는 서브 이미지 #2의 위치 및 크기를 바탕으로 서브 이미지 #2와 관련된 다른 서브 이미지를 검색할 수 있다. 예를 들어, 도 5b에서 서브 이미지 #2의 위쪽에 위치한 서브 이미지 #1 및 아래쪽에 위치한 서브 이미지 #3 중에서 글자만을 포함하고 있는 서브 이미지 #3이 서브 이미지 #2와 관련된 서브 이미지로서 결정될 수 있다. 서브 이미지 #2와 관련된 다른 서브 이미지는 서브 이미지 #2의 이전 페이지의 전자문서 이미지 또는 서브 이미지 #2의 다음 페이지의 전자문서 이미지에서 검색될 수 있다.

다른 실시예에 따르면, 이미지 분할부(130)는 서브 이미지 #2의 위치에 대응하는 글자 그룹이 없고, 서브 이미지 #2의 아래에 위치하는 서브 이미지 #3의 위치에 대응하는 글자 그룹이 존재한다는 것으로부터, 서브 이미지 #3를 서브 이미지 #2와 관련된 서브 이미지로 결정하고, 서브 이미지 #2 및 서브 이미지 #3를 결합할 수 있다. 이미지 분할부(130)는 글자 그룹으로부터 각 서브 이미지 간의 관계를 판단할 수 있다.

이후, 기계학습부(140)는, 이미지 분할부(130)에 의해 복수의 구분 영역으로 분할된 전자문서 이미지(즉, 학습 데이터 세트)를 사용하여 기계학습 모델을 트레이닝한다(S140). 기계학습부(140)는 지도 학습 기법 및/또는 비지도 학습 기법에 따라 복수의 구분 영역을 포함하는 전자문서 이미지를 사용하여 기계학습 모델을 트레이닝할 수 있다.

한 실시예에 따른 기계학습부(140)는 또 다른 기계학습 모델 또는 규칙 기반 알고리즘을 통해 구분 영역에 라벨링을 수행하고, 라벨링된 구분 영역을 포함하는 전자문서 이미지를 사용하여 지도 학습 방식으로 기계학습 모델을 트레이닝할 수 있다. 구분 영역에 라벨링된 라벨은, 예를 들어, 전자문서가 논문일 때, 제목, 저자명, 각 저자의 이메일 주소, 소속기관, 초록, 본문, 저널명, 출판정보, 참고문헌, DOI(digital object identifier) 등의 각 항목에 대응할 수 있다.

기계학습부(140)는 라벨링을 수행하기 위해 전자문서 이미지의 페이지 번호를 고려할 수 있다. 예를 들어, 기계학습부(140)는 '초록' 항목을 라벨링하기 위해 전자문서의 첫 번째 페이지에 포함된 구분 영역 중 하나를 선택할 수 있고, 또는 '결론' 항목을 라벨링하기 위해 전자문서의 마지막 페이지에 포함된 구분 영역 중 하나를 선택할 수 있다. 또는 다른 실시예에 따른 기계학습부(140)는 사용자에 의해 라벨링된 구분 영역을 포함하는 전자문서 이미지를 사용하여 지도 학습 방식으로 기계학습 모델을 트레이닝할 수 있다.

또는 한 실시예에 따른 기계학습부(140)는 지도 학습 방식으로 미리 결정된 횟수만큼 기계학습 모델이 트레이닝된 후, 라벨링되지 않은 구분 영역을 포함하는 전자문서 이미지를 사용하여 비지도 학습 방식으로 기계학습 모델을 트레이닝할 수 있다.

기계학습부(140)가 비지도 학습 방식으로 기계학습 모델을 트레이닝할 때, 클러스터링(clustering) 기술을 통해 동일하거나 유사한 모양의 글자를 포함하는 구분 영역을 분류할 수 있다. 기계학습부(140)는 기계학습 모델을 트레이닝할 때, 전자문서 이미지 내에 포함된 아이콘, 마크 등을 사용하여 이전에 학습된 전자문서 이미지와 레이아웃이 일치하는지 여부를 결정할 수 있다. 기계학습부(140)는 새롭게 입력된 전자문서 이미지가 기존에 학습된 전자문서와 동일하거나 또는 유사한 구분 영역을 포함하면, 학습된 전자문서에 과적합(overfitting)된 모델을 적용할 수 있다.

한 실시예에 따른 기계학습 모델에는 서포트 벡터 머신(support vector machine, SVM)과 같은 기계학습 기술, 딥러닝(deep learning) 기술 등의 일부 또는 전체가 적용될 수 있다. 한 실시예에 따른 기계학습부(140)는 트레이닝시, 글자 그룹, 글자의 위치 정보, 전자문서 이미지, 전자문서 이미지 내의 각 구분 영역 등을 학습 데이터로서 사용할 수 있다. 이때, 한 실시예에 따른 기계학습부(140)는 전자문서의 한 페이지에 대응하는 전자문서 이미지 전체와, 해당 전자문서 이미지 내의 각 구분 영역을 함께 데이터로서 사용하여, 각 페이지의 전체 이미지와 전체 이미지 내의 각 구분 영역 간의 상관관계 분석을 수행할 수 있고, 상관관계 분석의 결과는 기계학습부(140)의 기계학습의 정확성을 향상시킬 수 있다. 한 실시예에 따른 기계학습부(140)는 학습 결과의 확인 및 비용 함수(cost function)의 계산을 위해 각 구분 영역에 라벨링된 라벨을 사용할 수 있다.

이후, 기계학습부(140)는 추론 단계에서, 분석 대상인 타깃 전자문서를 미리 트레이닝된 기계학습 모델에 입력한다(S210). 타깃 전자문서는 전자문서 이미지의 형태로 기계학습 모델에 입력될 수도 있다. 기계학습부(140)는 기계학습 모델을 사용하여 타깃 전자문서 내에서 항목을 식별할 수 있다. 텍스트 추출부(150)는 타깃 전자문서 내의 항목에서 텍스트를 인식할 수 있다(S220). 이후 타깃 전자문서 내의 각 항목마다 인식된 텍스트는 자연어 처리, 논문 추천 서비스 등의 다양한 목적에 따라 사용될 수 있다.

위에서 설명한 대로, 한 실시예에 따른 텍스트 추출 장치(100)는, 글자 그룹과 이미지 분할 간의 상호 보완을 통해 전자문서의 항목 별로 텍스트를 신속하고 정확하게 추출할 수 있다.

도 6은 다른 실시예에 따른 텍스트 추출 장치를 나타낸 블록도이다.

한 실시예에 따른 텍스트 추출 장치는, 컴퓨터 시스템, 예를 들어 컴퓨터 판독 가능 매체로 구현될 수 있다. 도 6을 참조하면, 컴퓨터 시스템(600)은, 버스(670)를 통해 통신하는 프로세서(610), 메모리(630), 입력 인터페이스 장치(650), 출력 인터페이스 장치(660), 및 저장 장치(640) 중 적어도 하나를 포함할 수 있다. 컴퓨터 시스템(600)은 또한 네트워크에 결합된 통신 장치(620)를 포함할 수 있다. 프로세서(610)는 중앙 처리 장치(central processing unit, CPU)이거나, 또는 메모리(630) 또는 저장 장치(640)에 저장된 명령을 실행하는 반도체 장치일 수 있다. 메모리(630) 및 저장 장치(640)는 다양한 형태의 휘발성 또는 비휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리는 ROM(read only memory) 및 RAM(random access memory)를 포함할 수 있다. 본 기재의 실시예에서 메모리는 프로세서의 내부 또는 외부에 위치할 수 있고, 메모리는 이미 알려진 다양한 수단을 통해 프로세서와 연결될 수 있다. 메모리는 다양한 형태의 휘발성 또는 비휘발성 저장 매체이며, 예를 들어, 메모리는 읽기 전용 메모리(read-only memory, ROM) 또는 랜덤 액세스 메모리(random access memory, RAM)를 포함할 수 있다.

따라서, 본 발명의 실시예는 컴퓨터에 구현된 방법으로서 구현되거나, 컴퓨터 실행 가능 명령이 저장된 비일시적 컴퓨터 판독 가능 매체로서 구현될 수 있다. 한 실시예에서, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 본 기재의 적어도 하나의 양상에 따른 방법을 수행할 수 있다.

통신 장치(620)는 유선 신호 또는 무선 신호를 송신 또는 수신할 수 있다.

한편, 본 발명의 실시예는 지금까지 설명한 장치 및/또는 방법을 통해서만 구현되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있으며, 이러한 구현은 상술한 실시예의 기재로부터 본 발명이 속하는 기술 분야의 통상의 기술자라면 쉽게 구현할 수 있는 것이다. 구체적으로, 본 발명의 실시예에 따른 방법(예, 네트워크 관리 방법, 데이터 전송 방법, 전송 스케줄 생성 방법 등)은 다양한 컴퓨터 수단을 통해 수행될 수 있는 프로그램 명령 형태로 구현되어, 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은, 본 발명의 실시예를 위해 특별히 설계되어 구성된 것이거나, 컴퓨터 소프트웨어 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체는 프로그램 명령을 저장하고 수행하도록 구성된 하드웨어 장치를 포함할 수 있다. 예를 들어, 컴퓨터 판독 가능 기록 매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 롬(ROM), 램(RAM), 플래시 메모리 등일 수 있다. 프로그램 명령은 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라, 인터프리터 등을 통해 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

이상에서 실시예에 대하여 상세하게 설명하였지만 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 권리범위에 속하는 것이다.

Claims

타깃 전자문서에서 텍스트를 추출하는 방법으로서,
수집된 전자문서 내에 포함된 글자의 글자 그룹 및 상기 전자문서의 전자문서 이미지를 사용하여 기계학습 모델을 트레이닝하는 단계,
상기 타깃 전자문서를 상기 기계학습 모델에 입력함으로써 상기 타깃 전자문서 내에서 항목을 식별하는 단계, 그리고
상기 타깃 전자문서 내의 상기 항목에서 상기 텍스트를 추출하는 단계
를 포함하는 텍스트 추출 방법.
제1항에서,
상기 트레이닝하는 단계는,
상기 전자문서에서 상기 글자를 추출하고, 상기 글자의 위치 정보를 사용하여 상기 글자를 상기 글자 그룹으로 그룹핑하는 단계, 그리고
상기 글자 그룹에 기반하여 상기 전자문서 이미지 내에서 적어도 하나의 구분 영역을 결정하는 단계
를 포함하는, 텍스트 추출 방법.
제2항에서,
상기 글자 그룹에 기반하여 상기 전자문서 이미지 내에서 적어도 하나의 구분 영역을 결정하는 단계는,
상기 전자문서 이미지를 복수의 서브 이미지로 분할하는 단계, 그리고
상기 글자 그룹에 기반하여 상기 복수의 서브 이미지를 유지하거나, 재분할하거나, 또는 결합함으로써 상기 복수의 구분 영역을 결정하는 단계
를 포함하는, 텍스트 추출 방법.
제2항에서,
상기 수집된 전자문서 내에 포함된 글자의 글자 그룹 및 상기 전자문서의 전자문서 이미지를 사용하여 기계학습 모델을 트레이닝하는 단계는,
상기 적어도 하나의 구분 영역에 대해 항목을 라벨링하는 단계, 그리고
상기 항목이 라벨링된 구분 영역을 바탕으로 지도 학습 방식을 통해 상기 기계학습 모델을 트레이닝하는 단계
를 포함하는, 텍스트 추출 방법.
제4항에서,
상기 수집된 전자문서 내에 포함된 글자의 글자 그룹 및 상기 전자문서의 전자문서 이미지를 사용하여 기계학습 모델을 트레이닝하는 단계는,
상기 지도 학습 방식을 통해 상기 기계학습 모델이 미리 결정된 횟수만큼 트레이닝된 후, 상기 항목이 라벨링되지 않은 구분 영역을 포함하는 전자문서 이미지를 사용하여 비지도 학습 방식을 통해 상기 기계학습 모델을 트레이닝하는 단계
를 더 포함하는, 텍스트 추출 방법.
제1항에서,
상기 타깃 전자문서를 상기 기계학습 모델에 입력함으로써 상기 타깃 전자문서 내에서 항목을 식별하는 단계는,
상기 트레이닝의 결과를 바탕으로 상기 타깃 전자문서 내에서 상기 항목이 차지하는 영역을 결정하는 단계
를 포함하는, 텍스트 추출 방법.
텍스트 추출을 위한 학습 데이터 세트를 생성하는 방법으로서,
전자문서를 수집하는 단계,
수집된 전자문서 내에서 글자를 추출하고, 상기 글자를 글자 그룹으로 그룹핑하는 단계, 그리고
상기 글자 그룹에 기반하여 상기 전자문서의 전자문서 이미지 내에서 적어도 하나의 구분 영역을 결정하는 단계
를 포함하는 학습 데이터 세트 생성 방법.
제7항에서,
수집된 전자문서 내에서 글자를 추출하고, 상기 글자를 글자 그룹으로 그룹핑하는 단계는,
상기 글자의 위치 정보를 획득하는 단계, 그리고
상기 글자의 위치 정보를 사용하여 상기 글자를 상기 글자 그룹으로 그룹핑하는 단계
를 포함하는, 학습 데이터 세트 생성 방법.
제8항에서,
상기 글자의 위치 정보는 상기 전자문서의 각 페이지 내의 상기 글자의 좌표를 포함하는, 학습 데이터 세트 생성 방법.
제8항에서,
상기 글자의 위치 정보를 사용하여 상기 글자를 상기 글자 그룹으로 그룹핑하는 단계는,
상기 글자의 위치 정보를 사용하여 결정된, 글자 간 간격 및 글자 주변의 여백을 바탕으로 상기 글자 그룹을 그룹핑하는 단계
를 포함하는, 학습 데이터 세트 생성 방법.
제7항에서,
상기 글자 그룹에 기반하여 상기 전자문서의 전자문서 이미지 내에서 적어도 하나의 구분 영역을 결정하는 단계는,
상기 전자문서 이미지를 복수의 서브 이미지로 분할하는 단계, 그리고
상기 글자 그룹에 기반하여 상기 복수의 서브 이미지를 유지, 재분할, 또는 결합함으로써 상기 적어도 하나의 구분 영역을 결정하는 단계
를 포함하는, 학습 데이터 세트 생성 방법.
제11항에서,
상기 전자문서 이미지를 복수의 서브 이미지로 분할하는 단계는,
상기 전자문서 이미지의 여백 정보, 라인 정보, 및 색상 정보 중 적어도 하나를 바탕으로 이미지 처리 알고리즘, 규칙 기반 알고리즘, 및 기계학습 알고리즘 중 적어도 하나를 사용하여 상기 전자문서 이미지를 상기 복수의 서브 이미지로 분할하는 단계
를 포함하는, 학습 데이터 세트 생성 방법.
텍스트 추출을 위한 학습 데이터 세트를 생성하는 장치로서,
프로세서, 메모리, 및 통신 장치를 포함하고,
상기 프로세서는 상기 메모리에 저장된 프로그램을 실행하여,
상기 통신 장치를 통해 전자문서를 수집하는 단계,
수집된 전자문서 내에서 글자를 추출하고, 상기 글자를 글자 그룹으로 그룹핑하는 단계, 그리고
상기 글자 그룹에 기반하여 상기 전자문서의 전자문서 이미지 내에서 적어도 하나의 구분 영역을 결정하는 단계
를 수행하는, 학습 데이터 세트 생성 장치.
제13항에서,
상기 프로세서는, 수집된 전자문서 내에서 글자를 추출하고, 상기 글자를 글자 그룹으로 그룹핑하는 단계를 수행할 때,
상기 글자의 위치 정보를 획득하는 단계, 그리고
상기 글자의 위치 정보를 사용하여 상기 글자를 상기 글자 그룹으로 그룹핑하는 단계
를 수행하는, 학습 데이터 세트 생성 장치.
제14항에서,
상기 글자의 위치 정보는 상기 전자문서의 각 페이지 내의 상기 글자의 좌표를 포함하는, 학습 데이터 세트 생성 장치.
제14항에서,
상기 프로세서는, 상기 글자의 위치 정보를 사용하여 상기 글자를 상기 글자 그룹으로 그룹핑하는 단계를 수행할 때,
상기 글자의 위치 정보를 사용하여 결정된, 글자 간 간격 및 글자 주변의 여백을 바탕으로 상기 글자 그룹을 그룹핑하는 단계
를 수행하는, 학습 데이터 세트 생성 장치.
제13항에서,
상기 프로세서는, 상기 글자 그룹에 기반하여 상기 전자문서의 전자문서 이미지 내에서 적어도 하나의 구분 영역을 결정하는 단계를 수행할 때,
상기 전자문서 이미지를 복수의 서브 이미지로 분할하는 단계, 그리고
상기 글자 그룹에 기반하여 상기 복수의 서브 이미지를 유지, 재분할, 또는 결합함으로써 상기 적어도 하나의 구분 영역을 결정하는 단계
를 수행하는, 학습 데이터 세트 생성 장치.
제17항에서,
상기 프로세서는, 상기 전자문서 이미지를 복수의 서브 이미지로 분할하는 단계를 수행할 때,
상기 전자문서 이미지의 여백 정보, 라인 정보, 및 색상 정보 중 적어도 하나를 바탕으로 이미지 처리 알고리즘, 규칙 기반 알고리즘, 및 기계학습 알고리즘 중 적어도 하나를 사용하여 상기 전자문서 이미지를 상기 복수의 서브 이미지로 분할하는 단계
를 수행하는, 학습 데이터 세트 생성 장치.