KR102569816B1

KR102569816B1 - 문서 이미지의 텍스트와 도형을 분리하는 방법 및 장치

Info

Publication number: KR102569816B1
Application number: KR1020180072337A
Authority: KR
Inventors: 발레리 발레리에비치 아니시모브스키
Original assignee: 삼성전자주식회사
Priority date: 2017-06-29
Filing date: 2018-06-22
Publication date: 2023-08-24
Also published as: KR20190002328A; RU2656708C1

Abstract

본 발명은 문서 이미지에서 텍스트와 도형을 분리하는 방법 및 장치에 관한 것이다. 본 발명의 일 실시예에 따른 문서 이미지에서 텍스트와 도형을 분리하는 방법은 문서 이미지를 획득하는 단계, 상기 문서 이미지를 복수의 관심 영역으로 분할하는 단계, 상기 관심 영역에 대한 리사이징 및 연결 컴포넌트 추출을 통해 획득한 2D 히스토그램을 사용하여 특징 벡터를 획득하는 단계, 커널을 사용하여 상기 특징 벡터에 대한 변환 벡터를 획득하고, 상기 변환 벡터의 클러스터 중심을 획득하고, 상기 클러스터 중심에 대해 클러스터링을 수행하여 수퍼 클러스터를 획득하는 단계 및 상기 수퍼 클러스터의 수에 기초하여 상기 수퍼 클러스터를 텍스트 또는 도형 중 어느 하나의 클래스로 분류하는 단계를 포함한다.

Description

문서 이미지의 텍스트와 도형을 분리하는 방법 및 장치{METHOD FOR SEPARATING TEXT AND FIGURES IN DOCUMENT IMAGES AND APPARATUS THEREOF}

본 발명은 문서 이미지의 분석 및 처리에 관한 것으로, 보다 상세하게는 문서 이미지에서 텍스트와 도형을 분리하는 방법 및 장치에 관한 것이다.

문서 이미지에 포함된 텍스트 및 도형의 분리는 다양한 이미지 분석 및 처리 작업, 예를 들어, 문서 색인 생성 및 검색, 문서 객체 탐지 및 인식, OCR, 문서 압축과 같은 작업에 이용된다.

예를 들어, 문서 이미지에 포함된 관심 영역(Regions Of Interest, ROI)을 텍스트 및 도형과 같은 두 가지 클래스 중 어느 하나의 클래스로 분류할 경우, OCR 과정에서 비텍스트 영역을 제거하거나 이미지의 인덱싱 또는 검색 과정에서 텍스트 영역을 제거할 수 있으므로, 문서 처리에 필요한 데이터의 양을 크게 줄일 수 있다.

문서 이미지의 텍스트 및 도형을 분리하기 위해 제안된 기존의 방법들은 관심 영역 디스크립터의 설계를 통해 텍스트 및 비텍스트 영역에 대하여 각각 쉽게 구별 가능한 특징 벡터를 생성하고 할당하거나, 수동으로 레이블이 지정된 데이터 세트에 대한 머신 러닝 알고리즘(machine learning algorithms)을 사용하여 문서의 텍스트 및 도형을 분리한다.

가장 널리 사용되는 문서 이미지에서 텍스트 및 도형을 분리하는 방법 중 하나는, 관심 영역으로부터 간단한 특징을 추출한 다음, 비텍스트 영역으로부터 텍스트를 분리하는 것을 목적으로 하는 휴리스틱(heuristics)을 사용하여 양 특징을 분리하는 것이다.

이러한 방식은 연결된 컴포넌트(Connected components), 런 길이 통계(Run-length statistics), 스캔 라인 사이의 상호 상관 관계(cross-correlation), 투영 프로파일 및 검정 픽셀 분포 등의 기능을 사용하여 문서 이미지에서 텍스트 및 도형을 분리한다.

휴리스틱을 이용하는 분류 방식을 사용할 경우, 도형의 구조가 사진, 페인팅 및 비디오 이미지 프레임 등과 같이 텍스트의 구조와 크게 다른 구조의 도형에 해당할 경우 빠르고 효율적으로 텍스트 및 도형을 분류할 수 있는 장점이 있으나, 라인 드로잉 또는 텍스트가 많은 블록 다이어그램 및 이와 유사한 종류의 도형을 포함하는 문서에 대해서는 종종 훨씬 낮은 분리 정확도를 나타내기도 한다.

특히, 이와 같은 분류 방식의 큰 단점 중 하나는, 사용되는 휴리스틱이 일반적으로 특정 클래스 또는 복수의 클래스에 속하는 도형에 대한 관측에서 추론되고, 다른 클래스에 대해서는 일반화되지 않을 수도 있다는 것이다.

이와 같은 단점은 클래스 중 일부가 해당 휴리스틱에 완전히 맞지 않는 다양한 도형 클래스 집합을 포함하는 문서에서 특히 문제될 수 있다.

예를 들어, 런 길이 히스토그램(Run-length histograms)에 의존하는 분류 방식은 많은 텍스트가 포함된 블록 다이어그램을 텍스트 영역으로 잘못 분류할 수 있다.

이러한 문제는 위와 같은 종류의 문서, 즉 라인 드로잉 또는 텍스트가 많은 블록 다이어그램 및 이와 유사한 종류의 도형을 포함하는 문서에 대해 지도 학습 (supervised learning) 기반 머신 러닝 알고리즘을 사용하는 또 다른 접근 방식에 의하여 해결될 수 있다.

보다 구체적으로, 텍스트 및 도형의 분리 작업은 이진 분류 문제로 공식화 될 수 있기 때문에, 지도 머신 러닝 알고리즘을 사용하는 분류 방식은 수동으로 레이블이 지정된 데이터 세트를 활용하여 텍스트 영역과 비텍스트 영역 간 구분을 학습할 수 있다.

이와 같은 지도 학습 기반 알고리즘은 대규모 데이터 세트를 사용할 경우 훈련 데이터 세트가 충분히 표현된 모든 관련 도형 클래스를 필요로 하기 때문에, 수동으로 분류된 훈련 데이터 세트의 필요성을 없애기 위해 비지도 학습(unsupervised learning) 기반 머신 러닝 알고리즘이 개발되었다.

예를 들어, 비지도 학습 기반 머신 러닝 알고리즘 중 하나인 K-평균(K-means) 알고리즘은 주파수 파장 또는 에지맵을 사용하여 계산된 통계적 특징을 클러스터링 하는데 사용될 수 있다.

다만, 이와 같은 K-평균 알고리즘은 알고리즘 자체가 비볼록(non-convex) 형태, 중첩(nested) 및 연장(elongated)된 클러스터를 처리할 수 없고, 특히 유클리드 거리를 사용할 때 텍스트 및 도형의 분리 성능이 저조하므로, 텍스트 및 회로도, 특히 텍스트 블록 다이어그램, 전기 회로 또는 유사한 비즈니스 그래픽의 분리에 적합하지 않다.

본 발명은 이미지에 포함된 복수의 관심 영역에서 특징 벡터를 추출하고, 추출된 특징 벡터에 대한 클러스터링을 수행하여 문서 이미지의 텍스트와 도형을 분리하는 방법 및 장치를 제공하는 것을 목적으로 한다.

본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

이러한 목적을 달성하기 위한 본 발명의 일 측면은 문서 이미지를 획득하는 단계, 상기 문서 이미지를 복수의 관심 영역으로 분할하는 단계, 상기 관심 영역에 대한 리사이징 및 연결 컴포넌트 추출을 통해 획득한 2D 히스토그램을 사용하여 특징 벡터를 획득하는 단계, 커널을 사용하여 상기 특징 벡터에 대한 변환 벡터를 획득하고, 상기 변환 벡터의 클러스터 중심을 획득하고, 상기 클러스터 중심에 대해 클러스터링을 수행하여 수퍼 클러스터를 획득하는 단계 및 상기 수퍼 클러스터의 수에 기초하여 상기 수퍼 클러스터를 텍스트 또는 도형 중 어느 하나의 클래스로 분류하는 단계를 포함하는 문서 이미지에서 텍스트와 도형을 분리하는 방법을 제공할 수 있다.

본 발명의 일 실시예에 따르면, 상기 문서 이미지를 복수의 관심 영역으로 분할하는 단계는 미리 정의 된 제1 임계 값 이하의 길이를 갖는 수평 배경 픽셀을 전경색으로 채우는 단계, 미리 정의 된 제2 임계 값 이하의 길이를 갖는 수직 배경 픽셀을 전경색으로 채우는 단계, 전경색으로 채워진 상기 수평 배경 픽셀 및 전경색으로 채워진 상기 수직 배경 픽셀로 구성되는 복수의 이미지에 대하여 논리합 연산(OR)을 적용하는 단계, 연결 컴포넌트 추출을 수행하여 상기 논리합 연산 결과의 이미지로부터 제1 연결 컴포넌트를 획득하는 단계 및 상기 제1 연결 컴포넌트로 구성되는 경계 박스를 상기 관심 영역으로 선택하는 단계를 포함할 수 있다.

또한 본 발명의 일 실시예에 따르면, 상기 관심 영역에 대한 리사이징 및 연결 컴포넌트 추출을 통해 획득한 2D 히스토그램을 사용하여 특징 벡터를 획득하는 단계는 상기 관심 영역의 종횡비를 유지하면서 상기 관심 영역을 미리 설정된 크기로 리사이징하는 단계, 상기 리사이징된 관심 영역에 대한 연결 컴포넌트 추출을 수행하여 제2 연결 컴포넌트를 획득하고, 상기 제2 연결 컴포넌트의 중심점을 획득하는 단계, 상기 제2 연결 컴포넌트의 중심점의 최근접 이웃을 결정하는 단계, 상기 중심점 및 상기 최근접 이웃으로 구성된 쌍에 대한 2D 히스토그램을 생성하는 단계, 상기 2D 히스토그램에 대한 정규화를 수행하는 단계 및 상기 정규화가 수행된 2D 히스토그램을 특징 벡터로 재구성하는 단계를 포함할 수 있다.

또한 본 발명의 일 실시예에 따르면, 상기 관심 영역의 종횡비를 유지하면서 상기 관심 영역을 미리 설정된 크기로 리사이징하는 단계는 상기 관심 영역의 종횡비를 유지하면서 상기 관심 영역의 높이 및 폭 중 길이가 더 긴 어느 하나가 300 픽셀 또는 500 픽셀에 대응되는 길이를 갖도록 조정하는 단계 및 상기 관심 영역의 높이 및 폭 중 길이가 더 짧은 나머지 하나가 300 픽셀 또는 500 픽셀에 대응되는 길이를 갖도록 패딩을 수행하는 단계를 포함할 수 있다.

또한 본 발명의 일 실시예에 따르면, 상기 리사이징된 관심 영역에 대한 연결 컴포넌트 추출을 수행하여 제2 연결 컴포넌트를 획득하고, 상기 제2 연결 컴포넌트의 중심점을 획득하는 단계는 경계 박스의 높이 또는 폭이 미리 설정된 임계치 미만인 연결 컴포넌트를 필터링하는 단계를 포함할 수 있다.

또한 본 발명의 일 실시예에 따르면, 상기 2D 히스토그램에 대한 정규화를 수행하는 단계는 상기 중심점 및 상기 최근접 이웃 사이의 각 거리를 상기 중심점 및 상기 최근접 이웃 사이의 거리의 평균 거리로 나누는 단계를 더 포함할 수 있다.

또한 본 발명의 일 실시예에 따르면, 상기 정규화가 수행된 2D 히스토그램을 특징 벡터로 재구성하는 단계는 상기 2D 히스토그램이 단일화 된 L1 norm을 갖도록 정규화하는 단계를 포함할 수 있다.

또한 본 발명의 일 실시예에 따르면, 상기 특징 벡터에 대한 클러스터링을 수행하여 클러스터를 획득하는 단계는 커널 근사화 특징 맵핑(kernel-approximating feature mapping)을 사용하여 상기 특징 벡터를 제1 변환 벡터로 변환하는 단계, 변환된 상기 제1 변환 벡터에 대해 제1 레벨 클러스터링을 수행하여 클러스터 중심을 획득하는 단계 및 상기 클러스터 중심에 대하여 제2 레벨 클러스터링을 수행하여 수퍼 클러스터를 획득하는 단계를 포함할 수 있다.

또한 본 발명의 일 실시예에 따르면, 상기 커널 근사화 특징 맵핑을 사용하여 상기 특징 벡터를 제1 변환 벡터로 변환하는 단계는 Hellinger 's 커널, 커널, 교차(intersection) 커널, Jensen-Shannon 커널 및 jaccard 커널 중 적어도 하나의 커널을 기초로 커널 근사화 특징 맵핑을 수행하는 단계를 포함할 수 있다.

또한 본 발명의 일 실시예에 따르면, 상기 클러스터 중심에 대하여 제2 레벨 클러스터링을 수행하여 수퍼 클러스터를 획득하는 단계는 친화도 전파 클러스터링(affinity propagation clustering) 알고리즘, 응집 클러스터링(agglomerative clustering) 알고리즘, 평균 이동(mean shift) 클러스터링 알고리즘, BIRCH 알고리즘, DBSCAN 알고리즘, HDBSCAN 알고리즘, 단일 클래스 SVM(Support Vector Machine) 알고리즘 및 스펙트럴 클러스터링(spectral clustering) 알고리즘 중 적어도 하나의 클러스터링 알고리즘을 기초로 제2 레벨 클러스터링을 수행하는 단계를 포함할 수 있다.

또한 본 발명의 일 실시예에 따르면, 상기 클러스터를 텍스트 또는 도형 중 어느 하나의 클래스로 분류하는 단계는 획득된 수퍼 클러스터의 수가 두 개일 경우, 각 수퍼 클러스터를 텍스트 클래스 또는 도형 클래스 중 어느 하나의 클래스로 분류하기 위해 제로 샷 레이블 추론(zero-shot label inference) 연산을 사용하는 단계 및 획득된 수퍼 클러스터의 수가 두 개를 초과할 경우, 각 수퍼 클러스터 를 텍스트 클래스 또는 도형 클래스 중 어느 하나의 클래스로 분류하기 위해 준지도 레이블 전파(semi-supervised label propagation) 연산을 사용하는 단계를 포함할 수 있다.

또한 본 발명의 일 실시예에 따르면, 상기 각 수퍼 클러스터를 텍스트 클래스 또는 도형 클래스 중 어느 하나의 클래스로 분류하기 위해 제로 샷 레이블 추론(zero-shot label inference) 연산을 사용하는 단계는 텍스트 관심 영역 및 도형 관심 영역의 비율을 기초로 상기 각 수퍼 클러스터를 텍스트 클래스 및 도형 클래스 중 어느 하나의 클래스로 레이블링 하는 단계를 포함할 수 있다.

또한 본 발명의 일 실시예에 따르면, 상기 각 수퍼 클러스터를 텍스트 클래스 또는 도형 클래스 중 어느 하나의 클래스로 분류하기 위해 준지도 레이블 전파(semi-supervised label propagation) 연산을 사용하는 단계는 상기 각 수퍼 클러스터에 대하여 텍스트 레이블이 지정된 서브 세트에 속하는 관심 영역의 비율인 텍스트 오염도를 계산하는 단계 및 상기 텍스트 오염도가 미리 설정된 임계치를 초과하는 수퍼 클러스터를 텍스트 클래스로 레이블링하고, 나머지 수퍼 클러스터를 도형 클래스로 레이블링하는 단계를 포함할 수 있다.

또한 본 발명의 일 실시예에 따르면, 상기 텍스트 레이블이 지정된 서브 세트는 문서 이미지의 모든 텍스트에 특정 단어가 존재하지 않음을 식별한 뒤, 전체 관심 영역에 대해 텍스트 관심 영역으로 레이블을 지정하여 얻어질 수 있다.

한편, 이러한 목적을 달성하기 위한 본 발명의 다른 측면은 문서 이미지를 획득하고, 상기 문서 이미지를 복수의 관심 영역으로 분할하며, 상기 관심 영역에 대한 리사이징 및 연결 컴포넌트 추출을 통해 획득한 2D 히스토그램을 사용하여 특징 벡터를 획득하고, 커널을 사용하여 상기 특징 벡터에 대한 변환 벡터를 획득하며, 상기 변환 벡터의 클러스터 중심을 획득하고, 상기 클러스터 중심에 대해 클러스터링을 수행하여 수퍼 클러스터를 획득하고, 상기 수퍼 클러스터의 수에 기초하여 상기 수퍼 클러스터를 텍스트 또는 도형 중 어느 하나의 클래스로 분류하는 프로세서 및 상기 문서 이미지 및 상기 프로세서에 의해 텍스트 또는 도형 중 어느 하나의 클래스로 분류된 상기 수퍼 클러스터를 저장하는 메모리를 포함하는 문서 이미지에서 텍스트와 도형을 분리하는 장치를 제공할 수 있다.

본 발명에 의하면, 이미지에 포함된 복수의 관심 영역에서 특징 벡터를 추출하고, 추출된 특징 벡터에 대한 클러스터링을 수행하여 문서 이미지의 텍스트와 도형의 분리 성능을 높일 수 있는 효과가 있다.

도 1은 일부 실시예에 따른 문서 이미지의 텍스트와 도형을 분리하는 장치의 블록도이다.
도 2는 일 실시예에 따른 문서 이미지에서 텍스트와 도형을 구분하는 방법을 순서대로 도시한 흐름도이다.
도 3은 일 실시예에 따른 문서 이미지를 관심 영역으로 분할하는 방법의 각 단계를 순서대로 도시한 흐름도이다.
도 4는 일 실시예에 따른 관심 영역별 특징 벡터를 추출하는 방법을 순서대로 도시한 흐름도이다.
도 5는 일 실시예에 따른 특징 벡터에 대한 클러스터링을 수행하여 클러스터를 획득하는 방법을 순서대로 도시한 흐름도이다.
도 6A는 일 실시예에 따른 RLSO 알고리즘을 적용한 문서 이미지의 예시를 나타낸 도면이다.
도 6B는 일 실시예에 따른 RLSO 알고리즘을 적용한 문서 이미지의 예시를 나타낸 도면이다.
도 7은 일 실시예에 따른 텍스트 및 도형을 모두 포함하는 문서 이미지로부터 추출된 관심 영역의 예시를 나타낸 도면이다.
도 8은 일 실시예에 따른 도형 관심 영역에 대한 연결 컴포넌트의 중심점 및 최근접 이웃으로 구성된 각 쌍의 예시를 나타낸 도면이다.
도 9는 일 실시예에 따른 텍스트 관심 영역에 대한 연결 컴포넌트의 중심점 및 최근접 이웃으로 구성된 각 쌍의 예시를 나타낸 도면이다.
도 10A는 일 실시예에 따른 도 8의 도형 관심 영역에 대해 계산된 Docstrum 디스크립터의 예시를 나타낸 도면이다.
도 10B는 일 실시예에 따른 도 9의 텍스트 관심 영역에 대해 계산된 Docstrum 디스크립터의 예시를 나타낸 도면이다.
도 11A는 일 실시예에 따른 도 8의 도형 관심 영역에 대한 리사이징 이후 계산된 Docstrum 디스크립터의 예시를 나타낸 도면이다.
도 11B는 일 실시예에 따른 도 9의 텍스트 관심 영역에 대한 리사이징 이후 계산된 Docstrum 디스크립터의 예시를 나타낸 도면이다.
도 12는 일 실시예에 따른 Jaccard 커널 근사화 특징 맵핑을 학습하기 위한 샴 신경망의 구조의 예시를 나타낸 도면이다.
도 13은 일 실시예에 따른 도 5의 흐름도에 대해 병렬 분류 성능 평가 경로를 추가한 예시를 나타낸 흐름도이다.
도 14A는 일 실시예에 따른 근사된 커널 변형에 대한 정확도-재현율 곡선을 나타낸 그래프이다.
도 14B는 일 실시예에 따른 근사된 커널 변형에 대한 정확도-재현율 곡선을 나타낸 그래프이다.
도 15A는 일 실시예에 따른 정확한 커널 변형에 대한 정확도-재현율 곡선을 나타낸 그래프이다.
도 15B는 일 실시예에 따른 정확한 커널 변형에 대한 정확도-재현율 곡선을 나타낸 그래프이다.
도 16은 일 실시예에 따른 2D 임베디드 공간에서 특징 벡터에 해당하는 점군(point clouds)의 산점도를 나타낸 그래프이다.

전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다. 도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용된다.

문서에 포함된 이미지의 분석 방법과 관련하여, 문서 이미지의 텍스트 및 도형 영역의 분리는 일반적으로 훨씬 더 복잡한 후속 단계에서 사용될 데이터를 준비하기 위한 전처리 단계로 이용될 수 있으므로, 분리 과정에서 사용되는 알고리즘은 상대적으로 경량이며 빠른 시간 내에 데이터를 처리할 수 있을 것이 요구된다.

이러한 요구 사항은 저 차원 특징 벡터를 생성하는 경량의 전역 디스크립터 추출 알고리즘(Global descriptor extraction algorithm)이 사용되어야 함을 의미하며, 특히 흑백과 같은 바이너리 문서 이미지(예: 텍스트)의 경우에는 텍스트 영역과 최소한 부분적으로 텍스트가 채워진 도형 영역을 포함하는 문서 이미지에 대응되도록 지정된 특정의 디스크립터 추출 알고리즘의 사용이 요구된다.

한편, 텍스트 및 도형 영역의 분리 과정에서 사용되는 알고리즘에 대한 또 다른 요구 사항은, 분류 알고리즘이 대규모 데이터 세트를 처리하는 데 적합해야 한다는 것이다.

분류 된 대표 데이터 집합이 존재하지 않기 때문에, 분류 알고리즘은 특징 벡터의 작은 부분에만 레이블을 지정하고 레이블이 지정되지 않은 데이터에게 레이블을 전파하는 데 사용되는 준지도 레이블 전파(semi-supervised label propagation) 연산, 또는 데이터 세트 레이블의 지정이 전혀 필요하지 않은 경우에 사용되는 제로 샷 레이블 추론(zero-shot label inference) 연산을 사용할 수 있다.

마지막으로, 텍스트 및 도형 영역의 분리 과정에서 사용되는 알고리즘에 대한 또 다른 요구 사항은 텍스트 또는 도형 영역을 완전하고 효율적으로 분리할 수 있어야 하는 것으로, 이와 같은 분리 알고리즘은 텍스트 및 도형 영역의 분리 과정에서 높은 재현율(recall) 및 우수한 정확도(precision)를 제공할 수 있다.

참고로, 본 개시의 주된 목적 중 하나는 후속 인덱싱(indexing) 및 검색을 위한 도형의 분리이며, 이에 본 개시의 분리 방법은 도형 관심 영역의 재현율을 약 90%로, 정확도를 약 75%로 설정하였다. 또한 이와 같은 분리 방법으로 처리된 모든 문서 도형에 포함된 수치는 누락되었으며, 선택한 관심 영역 세트에서 텍스트 오염은 최대 25%가 허용된다.

낮은 재현율은 너무 많은 도형에 대하여 색인이 생성되지 않게 하고, 낮은 정확도는 텍스트 관심 영역에 대한 계산을 과도하게 증가시키므로, 텍스트 및 도형의 분리 작업에서 재현율 및 정확도를 모두 높게 유지하는 것은 매우 중요하다.

도 1은 일부 실시예에 따른 문서 이미지의 텍스트와 도형을 분리하는 장치의 블록도이다.

도 1을 참조하면, 일부 실시예에 따른 문서 이미지의 텍스트와 도형을 분리하는 장치(10)는 프로세서(101) 및 메모리(102)를 포함할 수 있다.

프로세서(101)는 문서 이미지를 획득하고, 획득한 문서 이미지를 복수의 관심 영역으로 분할한다.

문서 이미지는 텍스트 및 도형을 나타내기 위해 맨하탄 레이아웃(Manhattan layout)을 사용하는 흑백(바이너리) 이미지를 포함할 수 있으며, 이러한 문서 이미지의 분할은 RLSO(Run-Length Smoothing with OR) 알고리즘을 통해 이루어질 수 있다.

프로세서(101)는 관심 영역에 대한 리사이징 및 연결 컴포넌트 추출을 통해 획득한 2D 히스토그램을 사용하여 특징 벡터를 획득한다. 프로세서(101)는 전역 디스크립터(global descriptor)를 기초로 관심 영역으로부터 특징 벡터를 추출할 수 있다.

프로세서(101)는 커널을 사용하여 특징 벡터에 대한 변환 벡터를 획득하며, 변환 벡터의 클러스터 중심을 획득하고, 클러스터 중심에 대해 클러스터링을 수행하여 수퍼 클러스터를 획득한다.

프로세서(101)는 수퍼 클러스터의 수에 기초하여 수퍼 클러스터를 텍스트 또는 도형 중 어느 하나의 클래스로 분류한다.

즉, 프로세서(101)는 문서 이미지를 복수의 관심 영역으로 분할하고, 분할된 관심 영역 별 특징 벡터에 대한 2단계 클러스터링을 통해 수퍼 클러스터를 추출함으로써, 문서 이미지의 텍스트와 도형을 분리할 수 있다.

메모리(102)는 문서 이미지 및 프로세서(101)에 의해 텍스트 또는 도형 중 어느 하나의 클래스로 분류된 수퍼 클러스터를 저장할 수 있다.

일 실시예에서, 프로세서(101) 및 메모리(102) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다.

예를 들어, 프로세서(101) 및 메모리(102) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.

도 2는 일 실시예에 따른 문서 이미지에서 텍스트와 도형을 구분하는 방법을 순서대로 도시한 흐름도이다.

도 2를 참조하면, 먼저 프로세서는 문서 이미지를 획득한다(S201).

문서 이미지가 획득되면, 프로세서는 문서 이미지를 복수의 관심 영역으로 분할한다(S202).

RLSO 알고리즘은 RLSA(Run-Length Smoothing Algorithm)의 변형된 버전이며, RLSO 알고리즘을 사용하여 이미지를 관심 영역으로 분할하는 상세한 과정은 도 7을 통해 후술한다.

프로세서는 관심 영역에 대한 리사이징 및 연결 컴포넌트 추출을 통해 획득한 2D 히스토그램을 사용하여 특징 벡터를 획득한다(S203).

문서 이미지가 관심 영역으로 분할되면, 프로세서는 전역 디스크립터(global descriptor)를 기초로 관심 영역으로부터 특징 벡터를 추출한다. 전역 디스크립터는 바이너리 문서 이미지에 적합한 Hu 모멘트, Haralick 피처, SCD (Shape Context Descriptor), RLH (Run-Length Histogram), LBP (Local Binary Patterns), 적응형 계층적 밀도 히스토그램(AHDH) 및 문서 스펙트럼 디스크립터(document spectrum descriptor, 이하 Docstrum 디스크립터) 등을 포함할 수 있다.

일 실시예에서, 분할된 관심 영역 별 특징 벡터는 전역 디스크립터 중 Docstrum 디스크립터에 의해 추출될 수 있다.

이러한 Docstrum 디스크립터는 텍스트만으로 이루어진 문서의 페이지 레이아웃을 분석하기 위해 설계되었기 때문에, 텍스트 영역이 아닌 다른 영역에 대해서는 상대적으로 무질서한(Chaotic) 특징 벡터를 추출할 수 있으며, 이러한 무질서한 특징 벡터는 텍스트 영역에 대해 추출된 일반(Regular) 특징 벡터와 쉽게 구별될 수 있다.

Docstrum 디스크립터를 통해 관심 영역 별 특징 벡터를 추출하는 상세한 과정은 도 4를 통해 후술한다.

특징 벡터가 획득되면, 프로세서는 커널을 사용하여 특징 벡터에 대한 변환 벡터를 획득하며, 변환 벡터의 클러스터 중심을 획득하고, 클러스터 중심에 대해 클러스터링을 수행하여 수퍼 클러스터를 획득한다(S204).

프로세서는 수퍼 클러스터의 수에 기초하여 수퍼 클러스터를 텍스트 또는 도형 중 어느 하나의 클래스로 분류한다(S205).

프로세서가 특징 벡터로부터 수퍼 클러스터를 획득하고, 수퍼 클러스터를 텍스트 또는 도형 중 어느 하나의 클래스로 분류하는 상세한 과정은 도 5를 통해 후술한다.

도 3은 일 실시예에 따른 문서 이미지를 관심 영역으로 분할하는 방법의 각 단계를 순서대로 도시한 흐름도이다.

도 3을 참조하면, 프로세서는 미리 정의 된 임계 값 이하의 길이를 갖는 수평 배경 픽셀을 전경색(foreground color)으로 채우고(S301), 미리 정의 된 임계 값 이하의 길이를 갖는 수직 배경 픽셀을 전경색으로 채운다(S302).

프로세서는 전경색으로 채워진 수평 배경 픽셀 및 수직 배경 픽셀로 구성되는 복수의 이미지에 대하여 논리합 연산(OR)을 적용한다(S303).

문서 이미지를 관심 영역으로 분할하기 위해 사용되는 RLSO 알고리즘은 기존의 RLSA 알고리즘이 논리곱 연산(AND)을 사용하는 것과 달리 수평 및 수직 평활화 된 이미지 사이의 논리합 연산(OR)을 사용한다.

일 실시예에서, RLSO 알고리즘은 수평 및 수직 평활화를 위해 배경 픽셀 런 길이를 각각 90% 및 80%의 백분율로 계산하여 평활화 이전의 추정치를 대체함으로써, 문서 이미지를 관심 영역으로 분할하는 각 단계를 더욱 단순화할 수 있다. 이와 같은 백분율은 어느 특정 값에 한정되는 것은 아니며, 다른 실시 예들에서 배경 픽셀 런 길이의 다른 백분위가 본 개시의 범위를 벗어나지 않고 각각 수평 및 수직 평활화를 위해 사용될 수 있다.

프로세서는 연결 컴포넌트 추출을 수행하여 논리합 연산 결과의 이미지로부터 제1 연결 컴포넌트를 획득한다(S304).

제1 연결 컴포넌트가 획득되면, 프로세서는 제1 연결 컴포넌트로 구성되는 경계 박스를 관심 영역으로 선택한다(S305).

일 실시예에 따른 RLSO 알고리즘의 적용에 관한 예가 도 6A 및 도 6B에 도시되어 있으며, 텍스트 및 도형을 모두 포함하는 문서 이미지로부터 추출된 관심 영역의 예가 도 7에 도시되어 있다.

도 6B에서, 참조 번호 601은 제1 연결 컴포넌트를 나타내고, 참조 번호 602는 경계 박스를 나타낸다. 도 7에서, 참조 번호 701은 관심 영역을 나타낸다.

한편, 일 실시예에서 전체 이미지 영역의 0.1% 미만의 크기(픽셀 단위)에 해당하는 관심 영역은 비율과 관계없이 필터링 될 수 있다.

도 4는 일 실시예에 따른 관심 영역별 특징 벡터를 추출하는 방법을 순서대로 도시한 흐름도이다.

도 4를 참조하면, 프로세서는 종횡비를 유지하면서 관심 영역을 미리 설정된 크기로 리사이징한다(S401).

일 실시예에서, 프로세서는 관심 영역의 종횡비를 유지하면서 관심 영역의 높이 및 폭 중 길이가 더 긴 어느 하나가 300 픽셀 또는 500 픽셀에 대응하는 길이를 갖도록 조정한 뒤, 관심 영역의 높이 및 폭 중 조정되지 않은 어느 하나가 300 픽셀 또는 500 픽셀에 대응하는 길이를 갖도록 패딩(padding)을 수행하여 관심 영역을 미리 설정된 크기로 리사이징할 수 있다.

예를 들어, 프로세서는 500 픽셀 X 500 픽셀의 크기를 갖도록 관심 영역의 크기를 조정하기 위해, 먼저 관심 영역의 높이 및 폭 중 길이가 더 긴 관심 영역의 높이를 500 픽셀에 대응하는 길이로 조정한 뒤, 일정한 종횡비를 유지하면서 관심 영역의 높이에 따라 조정된 관심 영역의 폭이 500 픽셀에 대응하는 길이를 갖도록 패딩을 수행할 수 있다.

일반적인 관심 영역은 500 픽셀 X 500 픽셀보다 훨씬 큰 크기를 갖기 때문에, 계산 복잡성을 줄이기 위해 관심 영역의 리사이징이 수행되며, 등방성(isotropic) 크기 조정으로 인하여 거리/각도 분포가 왜곡되는 것을 방지하기 위해 관심 영역의 종횡비가 일정하게 유지된다.

관심 영역의 리사이징 크기는 디스크립터의 계산 복잡성 및 도형의 디테일 보전 사이의 절충을 통해 선택될 수 있다. 이때 관심 영역의 리사이징 크기는 300 픽셀 X 300 픽셀 내지 500 픽셀 X 500 픽셀의 크기 범위에서 선택된 N 픽셀 X N 픽셀의 크기로 결정될 수 있다.

관심 영역이 미리 설정된 크기로 리사이징 되면, 프로세서는 리사이징된 관심 영역에 대한 연결 컴포넌트 추출을 수행하여 제2 연결 컴포넌트를 획득하고, 제2 연결 컴포넌트의 중심점을 획득한다(S402).

일 실시예에서, 프로세서는 경계 박스의 높이 또는 폭이 미리 설정된 임계치 미만인 제2 연결 컴포넌트를 필터링할 수 있다.

예를 들어, 프로세서는 리사이징된 관심 영역을 기준으로 1% 미만의 경계 박스 폭 또는 높이를 갖는 제2 연결 컴포넌트를 필터링할 수 있다.

프로세서는 제2 연결 컴포넌트의 중심점의 최근접 이웃(nearest neighbor)을 결정한다(S403).

제2 연결 컴포넌트의 중심점의 최근접 이웃이 결정되면, 프로세서는 제2 연결 컴포넌트의 중심점 및 최근접 이웃으로 구성된 쌍에 대한 Docstrum 디스크립터, 즉 제2 연결 컴포넌트의 중심점 및 최근접 이웃으로 구성된 쌍에 대한 2D 히스토그램을 생성한다(S404).

일 실시예에서, 프로세서는 각 제2 연결 컴포넌트의 중심점에 근접한 이웃 중심점 중 가장 가까운 곳에 위치한 K개의 이웃 중심점을 각 제2 연결 컴포넌트의 최근접 이웃으로 결정할 수 있다.

여기서 가장 가까운 K개의 이웃 중심점은 제2 연결 컴포넌트로부터 떨어진 거리를 기준으로 제2 연결 컴포넌트로부터 떨어진 거리가 가장 가까운 이웃 중심점 내지 제2 연결 컴포넌트로부터 떨어진 거리가 K번째로 가까운 이웃 중심점으로 구성되며, 두 개의 중심점 사이의 거리는 2차원 평면 상의 중심점들 사이의 유클리드 거리이다.

한편, 한 쌍의 중심점에 대한 각도는 각 중심점을 연결하는 직선과 수평선 사이의 각도를 기초로 계산된다.

2D 히스토그램이 생성되면, 프로세서는 2D 히스토그램에 대한 정규화를 수행한다(S405).

최근접 이웃을 구성하는 중심점의 개수 K는 변경 가능하나, 중심점의 수가 상대적으로 적은 경우(예를 들어, 4개 이하)에는 제2 연결 컴포넌트의 중심점 및 최근접 이웃으로 구성된 쌍에 대한 2D 히스토그램은 분포가 고르게 형성될 수 있다.

이에 따라, 프로세서는 중심점 및 최근접 이웃 사이의 각 거리를 모든 쌍의 중심점 및 최근접 이웃 사이의 거리의 평균 거리로 나누어 2D 히스토그램에 대한 정규화를 수행할 수 있다.

2D 히스토그램에 대한 정규화가 수행되면, 프로세서는 정규화가 수행된 2D 히스토그램을 특징 벡터로 재구성한다(S406).

일 실시예에서, 프로세서는 Docstrum 디스크립터가 스케일링(scaling)에 영향 받지 않도록 중심점 및 최근접 이웃 사이의 거리에 대한 정규화를 수행할 수 있다. 이때 2D 히스토그램은 벡터 요소에 대한 절대값의 합, 즉 L_i norm이 1이 되도록 추가로 정규화 될 수 있다.

한편, 전술한 관심 영역의 리사이징 및 2D 히스토그램의 구축 단계에서의 정규화는 기존의 Docstrum 디스크립터 버전과는 구별됨을 유의하여야 한다.

한편, 일 실시예에 따르면 프로세서는 2D 히스토그램을 생성하기 위해 64개의 각도 빈(bin, 여기서 bin은 히스토그램의 간격을 의미함) 및 20개의 거리 빈을 사용할 수 있으며, 이와 같은 2D 히스토그램을 기초로 1280 차원의 특징 벡터를 재구성할 수 있다.

이러한 설정은 디스크립터 차원과 문서 이미지에서 텍스트와 도형을 구분하는 차별적인 기능 사이의 절충으로 선택 될 수 있다.

도 8 및 도 9는 도형 관심 영역 및 텍스트 관심 영역 각각에 대한 중심점 및 최근접 이웃으로 구성된 각 쌍과 연결 컴포넌트의 예를 도시한 것이다.

도 8을 참조하면, 도형 관심 영역에 대한 중심점 및 최근접 이웃으로 구성된 쌍(802) 및 이에 대응되는 연결 컴포넌트(801)가 나타나있다.

도 9를 참조하면, 텍스트 관심 영역에 대한 중심점 및 최근접 이웃으로 구성된 쌍(902) 및 이에 대응되는 연결 컴포넌트(901)가 나타나있다.

한편, 도 10A는 도 8의 도형 관심 영역에 대해 계산된 Docstrum 디스크립터를 도시한 것이고, 도 10B는 도 9의 텍스트 관심 영역에 대해 계산된 Docstrum 디스크립터를 도시한 것이다.

도 10A 및 도 10B를 참조하면, 일 실시예에 따른 일반적인 텍스트 관심 영역의 2D 히스토그램은 도형 관심 영역의 히스토그램과 달리 규칙적인 간격이 있는 피크(peak)를 포함한다.

한편, 다른 실시예에 따르면 관심 영역 및 2D 히스토그램 빈의 크기를 더 감소시킴으로써 디스크립터 차원(및 디스크립터 계산 및 프로세싱의 계산 복잡성)을 감소시키는 것이 가능하다.

예를 들어, 16개의 각도 빈 및 20개의 거리 빈을 갖는 실시 예에서는 320 차원의 특징 벡터를 생성할 수 있다. 이와 같은 설정을 도 8 및 도 9의 각 관심 영역을 기초로 300 픽셀 X 300 픽셀의 크기를 갖도록 조정된 각 관심 영역에 대해 적용한 Docstrum 디스크립터가 도 11A 및 도 11B에 나타나 있다.

다만, 이와 같은 관심 영역 및 히스토그램 빈의 크기를 감소시키는 설정에 대한 Docstrum 디스크립터의 판별 능력은 상대적으로 감소할 수 있다. 이때 텍스트 관심 영역에 대한 히스토그램은 상대적으로 덜 규칙적인 구조를 가지게 된다.

도 5는 일 실시예에 따른 특징 벡터에 대한 클러스터링을 수행하여 클러스터를 획득하는 방법을 순서대로 도시한 흐름도이다.

도 5를 참조하면, 프로세서는 커널 근사화 특징 맵핑(kernel-approximating feature mapping)을 사용하여 특징 벡터를 제1 변환 벡터로 변환한다(S501).

여기서 커널(Kernel)은 일반화된 스칼라 곱, 즉 원점을 중심으로 대칭이며 형상 벡터 쌍에 대해 정의된 실수 값을 갖는 확률 분포를 나타내기에 적합 양(+)의 함수를 의미하지만, 반드시 선형인 것은 아니다.

커널 근사화 특징 맵핑은 선택사항이지만, 본 개시에 따른 디스크립터는 커널 근사화 특징 맵핑을 통해 대규모 데이터에 대한 학습 문제를 해결하는 데 사용되므로, 종래의 디스크립터를 사용하는 분류 방법과 구별된다.

Docstrum 디스크립터는 히스토그램이기 때문에, 특징 벡터에 대한 클러스터링을 수행하는 단계에서 사용되는 유클리드 거리(또는 스칼라 곱)은 특징 벡터 근접성의 척도로는 적합하지 않다.

컴퓨터 비전(vision) 및 머신 러닝 응용 프로그램에서 널리 사용되는 히스토그램 기반 디스크립터의 커널의 예로는, Hellinger's 커널, 커널, intersection 커널 및 Jensen-Shannon 커널 등이 있으며, 이와 같은 커널들의 정의가 각 커널에 대응되는 거리와 함께 표 1에 나타나있다.

후술할 미니 배치 k-평균(mini-batch k-means)을 사용하는 제1 레벨 클러스터링 단계는 특징 벡터들 사이의 유클리드 거리만을 사용할 수 있기 때문에, 특징 벡터는 적절한 커널 근사화 특징 맵핑을 사용하여 변환되어야 한다.

이러한 커널 근사화 특징 맵핑은 임의의 x, y ∈ R^D: K(x, y) = <Ψ(x), Ψ(y)>에 대하여 Ψ: R^D → R^N으로 정의될 수 있으며, 변환된 특징 공간 R^N의 선형(유클리드) 스칼라 곱은 원래의 특징 공간 R^D에서 비선형 커널 K(x, y)를 근사화한다.

이때, 양(+)의 커널 K(x, y)는 D²(x, y) = K(x, x) + K(y, y) - 2K(x, y)의 식에서 주어지는 거리 D(x, y)에 해당하므로, ∥·∥²가 R^N 상에서 유클리드 거리의 제곱을 나타낼 때, x, y ∈ R^D: D²(x, y) ∥Ψ(x), Ψ(y)∥²이며, 결국 커널에 대응하는 거리도 동일한 방식의 특징 맵핑을 통해 근사화될 수 있다.

Hellinger's 커널, 커널, intersection 커널 및 Jensen-Shannon 커널은 모두 가산적(additive)이고 -균질이기 때문에, 이들의 근사 특징 맵핑은 분석적 형태로 유도될 수 있다.

예를 들어, Hellinger's 커널의 경우, 각 구성 요소의 제곱근을 취하는 정확한 차원 유지 맵핑을 사용하는 반면, 커널, intersection 커널 및 Jensen-Shannon 커널은 Ψ : R¹²⁸⁰→ R⁶⁴⁰⁰,(5 x 1280)의 차원 변경 맵핑을 사용한다.

한편, 다른 히스토그램 기반 커널과 달리, Jaccard 커널은 가산적 또는 g-균질이 아니므로, 분석적 형태로 근사화 된 특징 맵핑을 유도하는 것이 상대적으로 어렵다.

따라서, 일 실시예에 따른 프로세서는 Jaccard 커널 근사화 특징 맵핑을 학습하기 위하여 샴 신경망(Siamese neural network)을 사용할 수 있으며, 이와 같은 샴 신경망의 구조가 도 12에 도시되어있다

도 12를 참조하면, 샴 신경망에서 음영이 표시된 단계는 가중치를 공유하고 신경망에 의하여 학습된 Ψ 특징 맵핑을 구성한다. 일 실시예에 대한 레이어 출력 차원이 도 12의 괄호 안에 도시되어있다.

샴 신경망은 2개의 임의로 선택된 Docstrum 특징 벡터 x 및 y(각각 1280 차원에 해당함)을 입력받을 수 있다.

두 특징 벡터 x 및 y는 Parametric Rectified Linear Unit(PReLU) 활성화 및 5000 개의 출력을 갖는 fully-connected (FC) 레이어에 공급된다.

두 FC + PReLU 레이어는 학습 도중 모든 가중치를 공유하므로, 각 레이어는 실제로 신경망에서 학습중인 Ψ: R¹²⁸⁰ → R⁵⁰⁰⁰ 의 동일한 특징 맵핑을 수행한다.

두 FC + PReLU 레이어의 출력 Ψ(x) 및 Ψ(y)은 제곱 유클리드 거리 ∥Ψ(x) - Ψ(y)∥² 를 계산하고, 학습 가능한 파라미터를 포함하지 않는 L₂거리 계산 레이어로 전달되며, 계산 결과로 얻어진 제곱 거리는 신경망의 출력에 해당한다.

Jaccard 커널 거리의 제곱 거리 D²(x, y)가 학습 진행 동안 목표 출력으로 사용되는 반면, 평균 절대 비율 오류(Mean Absolute Percentage Error, MAPE)는 학습 손실 기능에 사용된다.

FC 레이어의 가중치는 Glorot uniform 초기화를 통해 초기화될 수 있으며, PReLU 파라미터는 0으로 초기화될 수 있고, Nesterov ADAM은 최적화 알고리즘으로 사용될 수 있다.

샴 신경망은 10,000개의 특징 벡터 쌍의 배치(batch) 사이즈를 사용하여 300 에포크(epoch) 동안 학습을 수행하고, Jaccard 거리 근사값에서 7%(MAPE)의 테스트 정확도를 달성하며, 이는 다른 커널의 정확도와 비슷하다.

커널 근사화 특징 맵핑 이후에 특징 벡터들을 처리하는 후속 단계는 유클리드 거리(또는 선형 커널이라고도 함)를 사용하며, 커널 근사 단계는 사용하지 않는다.

다시 도 5를 참조하면, 프로세서는 변환된 제1 변환 벡터에 대해 제1 레벨 클러스터링을 수행하여 클러스터 중심을 획득한다(S502).

일 실시예에서, 프로세서는 대규모 데이터에 적합한 신속한 학습을 위해, 미니 배치 k-평균 알고리즘을 사용하여 제1 레벨 클러스터링을 수행함으로써 제1 변환 벡터에 대한 클러스터 중심을 획득할 수 있다.

이와 같은 미니 배치 k-평균 알고리즘은 빠른 성능, 대규모 처리를 위한 적합성 및 결과 클러스터링의 일반적인 양호한 품질과 같은 장점을 갖는다.

그러나, 미니 배치 k-평균 알고리즘은 표준 k-평균 알고리즘와 마찬가지로, 비볼록 클러스터 또는 연장된 클러스터를 정확하게 처리할 수 없다.

이러한 가설은 변환된 Docstrum 디스크립터에게 상대적으로 작은 수의 클러스터(예를 들어, 2에서 10까지)를 출력하도록 구성된 k-평균 클러스터링을 수행하고, 결과 클러스터의 특징 벡터에 해당하는 관심 영역을 시각적으로 검사함으로써 확인할 수 있다.

특히, 이와 같은 검사는 결과 클러스터가 어느 하나의 클래스를 명확하게 지배하지 않고 텍스트 관심 영역 및 도형 관심 영역을 혼합하여 포함하고 있음을 보여준다.

그러나, 요청된 클러스터의 수가 상대적으로 많을수록 k-평균 알고리즘이 비볼록 또는 연장된 텍스트/도형 클러스터를 더 작은 볼록(convex) 및 등방성 서브 클러스터로 어렵지 않게 세분화할 수 있기 때문에, 클러스터의 수를 20개 이상으로 증가시키면 출력 클러스터는 텍스트 관심 영역 또는 도형 관심 영역 중 어느 하나에 의해 지배된다.

일 실시예에 따르면, 클러스터 수를 2에서 1,000으로 변경하고 결과를 시각적으로 검사함으로써 100개의 클러스터가 클러스터 평균과 k-means 클러스터링의 계산 복잡성간에 최적의 균형을 유지하는 것으로 나타났다.

바람직한 일 실시예에서, 프로세서는 미니 배치 k-평균 알고리즘을 사용하여 제1 레벨 클러스터링을 통해 100개의 클러스터 및 그 중심을 획득할 수 있다.

전술한 것과 같이, 제1 레벨 클러스터링을 수행하는 단계에서는 100 에포크에 대해 1,000개의 특징 벡터에 대응하는 미니 배치 크기로 100개의 클러스터를 출력하도록 구성된 미니 배치 k-평균 알고리즘이 실행된다.

텍스트 클러스터 및 도형 클러스터는 100%에 가까운 비율로 텍스트 또는 도형만으로 이루어지는 반면(즉, 텍스트 또는 도형 중 하나의 관심 영역만을 포함함), 일반적인 혼합 클러스터는 한 클래스에 의해 지배됨과 동시에 다른 클래스의 불순물을 최대 30% 까지 포함할 수 있다.

일 실시예에 따르면, 혼합 클러스터에 대한 수동 분석을 수행한 결과, 혼합 클러스터는 설명 데이터 셋의 모든 기능 벡터 중 10% 미만을 포함한다는 것이 나타났으며, 전체 불순물 백분율은 3% 미만이고, 이는 본 개시의 과제 해결의 맥락에서 안전하게 무시 가능한 정도에 해당한다.

따라서, 추가 처리 및 분석을 위해, 제1 레벨 클러스터링은 충분히 순수한 텍스트 클러스터 및 도형 클러스터를 출력할 수 있음을 가정한다.

일 실시예에 따르면, Jaccard 커널을 사용할 때 가장 작은 불순물이 얻어지고, 커널 및 Jensen-Shannon 커널을 사용할 때 상대적으로 높은 불순물이 얻어지는 반면, intersection 커널 및 선형 커널을 사용할 때 가장 높은 불순물이 얻어진다.

한편, Hellinger's 커널은 성능 관점에서의 이점은 제공하지 않지만, 선형 커널보다 더 나은 클러스터링 결과를 제공하기 때문에 본 개시에서는 사용되지 않는다.

다시 도 5를 참조하면, 프로세서는 클러스터 중심에 대하여 제2 레벨 클러스터링을 수행하여 수퍼 클러스터를 획득한다(S503).

이와 같은 제2 레벨 클러스터링은 특징 공간 내 고유한 데이터 구조에서의 탐색 능력을 향상시키기 위해 이용되며, 보다 정확한 텍스트/도형 분리 능력을 제공할 수 있다.

제1 레벨 클러스터링 단계에서 사용되는 k-평균 클러스터링은 볼록한 등방성 클러스터를 출력하고, 이러한 클러스터 지오메트리는 텍스트 관심 영역 및 도형 관심 영역에 대응하는 Docstrum 특징 벡터 클러스터가 아니기 때문에, 제1 레벨 클러스터링을 통해 생성된 클러스터는 비볼록한 비등방성(non- isotropic) 클러스터를 처리할 수 있는 클러스터링 알고리즘에 의해 수퍼 클러스터로 집합되어야 한다.

이러한 클러스터링 알고리즘의 대부분은 대형 데이터 세트에 비해 확장성이 떨어지기 때문에, 실제 특징 벡터에 적용되지 않고 제1 레벨 클러스터링에 의해 출력된 클러스터의 중심에 적용된다.

즉, 제1 레벨 클러스터링에 의해 출력된 클러스터의 중심의 수는 100개(또는 그 미만)이기 때문에, 제2 레벨 클러스터링 알고리즘의 적용은 대형 데이터 세트를 처리하기 위한 적합 요건에 관하여 제약을 받지 않는다.

일 실시예에서, 프로세서가 제2 레벨 클러스터링 단계에서 사용하는 알고리즘은 k-평균 알고리즘의 초기값을 사용하는 k-평균++ 알고리즘, 친화도 전파 클러스터링(affinity propagation clustering) 알고리즘, 응집 클러스터링(agglomerative clustering) 알고리즘, 평균 이동(mean shift) 클러스터링 알고리즘, BIRCH(균형 잡힌 반복 감소 및 계층 구조를 사용한 클러스터링) 알고리즘, DBSCAN(잡음이 있는 응용 프로그램의 밀도 기반 공간 클러스터링) 알고리즘, HDBSCAN(계층형 DBSCAN) 알고리즘, 단일 클래스 SVM (Support Vector Machine) 알고리즘 및 스펙트럴 클러스터링(spectral clustering) 알고리즘을 포함할 수 있다.

커널, 교차(intersection) 커널, Jensen-Shannon 커널 및 Jaccard 커널의 경우, 변형된 특징 공간은 원본 Docstrum 디스크립터보다 몇 배 더 높은 차원을 갖기 때문에, 이와 같은 커널들에 대한 제1 레벨 클러스터링은 전체 과정 중 가장 긴 시간을 소모하며, 선형 커널(즉, 원래의 Docstrum 특징 벡터에 대한 커널)과 비교할 때 약 2-3배 더 긴 시간을 필요로 한다.

따라서, 클러스터링 단계에서 계산 성능을 향상시키는 하나의 방법은 커널 근사화 특징 맵핑을 통해 특징 벡터를 제1 변환 벡터로 변환하는 단계를 생략하고 히스토그램 기반 커널 중 어느 하나의 커널을 사용하여 제2 레벨 클러스터링을 수행하는 것이다.

제1 레벨 클러스터링에 의해 출력된 클러스터의 중심에 대한 행렬의 크기는 입력된 대규모 데이터 세트의 크기보다 훨씬 작으므로, 이와 같은 계산 성능 향상은 특징 벡터 대신에 커널 행렬(또는 거리 기반 알고리즘에 대한 거리 행렬)을 입력으로 취할 수 있는 클러스터링 알고리즘을 사용함으로써 달성될 수 있다.

정확한(exact) 커널 변형은 근사 커널 변형과 동일한 커널을 사용할 수 있다.

정확한 커널 변형은 근사 커널 변형과 달리, Docstrum 특징 벡터 쌍에 대하여 근사치가 아닌 정확한 커널/거리를 사용한다.

정확한 커널 변형에서 커널/거리 행렬은 미니 배치 k-평균 방법으로 얻은 모든 쌍의 중심에 대해 쌍을 이루는 커널/거리의 행렬로 직접 계산될 수 있으며(이때 Kij = K(ci, cj) 이며, (정확한) Kij는 커널/거리 행렬에 포함된 i번째 행과 j번째 열의 교점에 해당하는 행렬 구성 요소이고, K(ci, cj)는 i번째 중심점과 j번째 중심점의 커널/거리에 해당한다), 계산된 행렬은 제2 레벨 클러스터링 알고리즘에 직접 입력될 수 있다.

이때 프로세서는 제2 레벨 클러스터링의 수행에 사용되는 알고리즘의 일부(DBSCAN 알고리즘 및 HDBSCAN 알고리즘을 제외한 모든 알고리즘)에 대하여 커널 행렬을 사용할 수 있고, 나머지 알고리즘, 즉 DBSCAN 알고리즘 및 HDBSCAN 알고리즘에 대하여 거리 행렬을 사용할 수 있다.

프로세서는 정확한 커널 변형 및 근사 커널 변형 모두를 사용할 수 있으며, 각 변형의 동작 결과 및 성능 비교는 후술하기로 한다.

한편, 일 실시예에 따른 프로세서는 제2 레벨 클러스터링에 사용되는 알고리즘 각각에 대하여 정확도(precision), 재현율(recall) 및 F₁ 스코어(F₁score)의 관점에서 최상의 성능을 갖는 파라미터 값들의 조합을 발견하기 위해, 넓은 범위에서 가장 중요한 파라미터들을 변경할 수 있다.

아래의 표 2는 제2 레벨 클러스터링 알고리즘에 대한 파라미터와 해당 파라미터의 범위를 나타낸다.

Algorithm	Parameter	Range	Description
Affinity propagation	DF	0,5 ÷ 1	Damping factor
Agglomerative clustering²	N_clusters	2 ÷ 100	Number of clusters to find
Agglomerative clustering²	K_neighbors	1 ÷ 20	Number of nearest neighbors for connectivity matrix computation
BIRCH	RT	10^-4 ÷ 0,5	Subcluster radius threshold for new subcluster creation
	BF	2 ÷ 20	Maximum number of subclusters in each node
	N_clusters	2 ÷ 50	Number of clusters after the final clustering step
DBSCAN		10^-3 ÷ 1	Radius of sample neighborhood
DBSCAN	N_samples	1 ÷ 30	Number of samples in core point's neighborhood
HDBSCAN	N_minsize	2 ÷ 30	Minimal size of cluster
HDBSCAN	N_samples	1 ÷ 30	Number of samples in core point's neighborhood
k-means	N_clusters	2 ÷ 50	Number of clusters to form
Mean shift	BW	10^-4 ÷ 1	Bandwidth used in the RBF kernel
One-class SVM³	n	0,05 ÷ 0,5	Upper bound on the fraction of training errors
One-class SVM³	g	0,2 ÷ 0,8	Kernel coefficient for the RBF and sigmoid kernels
Spectral clustering⁴	N_clusters	2 ÷ 50	Dimension of the projection subspace

일 실시예에 따르면, 제2 레벨 클러스터링의 출력에 따라 수퍼 클러스터에 대한 두 가지 레이블 지정 모드가 사용된다.수퍼 클러스터가 획득되면, 프로세서는 획득된 수퍼 클러스터의 수가 두 개인지, 또는 두 개를 초과하는지 여부를 판단한다(S504).

판단 결과, 획득된 수퍼 클러스터의 수가 두 개일 경우, 프로세서는 각 수퍼 클러스터를 텍스트 클래스 또는 도형 클래스 중 어느 하나의 클래스로 분류하기 위해 제로 샷 레이블 추론(zero-shot label inference) 연산을 사용한다(S505).

한편, 획득된 수퍼 클러스터의 수가 두 개를 초과할 경우, 프로세서는 각 수퍼 클러스터를 텍스트 클래스 또는 도형 클래스 중 어느 하나의 클래스로 분류하기 위해 준지도 레이블 전파(semi-supervised label propagation) 연산을 사용한다(S506).

일반적인 제2 레벨 클러스터링 수행 단계는 상대적으로 적은 개수의 수퍼 클러스터를 출력하므로, 이와 같은 수퍼 클러스터를 텍스트 또는 도형 클래스로 분류하기 위해 해당 클래스에 대한 추가 정보 소스의 사용이 요구된다.

제로 샷 레이블 추론 모드는 레이블이 지정된 데이터를 전혀 사용하지 않으며, 데이터 집합의 텍스트/도형 관심 영역의 일반적인 사전 정보만을 사용한다.

반면, 준지도 레이블 전파 모드는 추가 부수 정보를 사용하여 하나의 클래스(예를 들어, 텍스트 관심 영역 클래스)로 레이블이 지정된 작은 서브 세트(모든 데이터의 1% 미만)만을 사용한다. 즉, 준지도 레이블 전파 모드는 관심있는 두 클래스 중 어느 하나의 클래스에만 레이블이 지정된 데이터를 사용할 수 있다.

제로 샷 레이블 추론 모드에서, 프로세서는 클래스들에 관한 일반적인 통계 정보를 사용한다.

예를 들어, 특허 관련 문서에 포함된 이미지의 경우, 텍스트 관심 영역의 비율이 도형 관심 영역의 비율에 비해 상대적으로 우세하므로, 두 개의 수퍼 클러스터 중 크기가 큰 클러스터는 텍스트 관심 영역으로 분류되고, 작은 클러스터는 도형 관심 영역으로 분류될 수 있다.

한편, 준지도 레이블 전파 모드에서는 레이블이 지정된 작은 서브 세트가 사용될 수 있으며, 이러한 서브 세트는 도형이 없는 복수의 특허 관련 문서에 대한 관찰로부터 얻어진다. 이때 도형이 없는 특허 관련 문서는 전체 텍스트에서 “fig”, “drawing” 및 “"##str”와 같은 단어(다만, 이러한 단어들에 한정되지 않음)의 부재에 의해 쉽게 식별될 수 있다.

이처럼 도형을 포함하지 않는 특허 관련 문서의 모든 관심 영역(및 해당 Docstrum 특징 벡터)은 모두 텍스트 관심 영역으로 레이블이 지정되고, 각각의 수퍼 클러스터에 대한 텍스트 오염(text contamination) 정도가 계산된다.

다음으로, 특정 임계 값 이상의 텍스트 오염을 갖는 수퍼 클러스터를 텍스트 클래스로 레이블링하고, 나머지 수퍼 클러스터에 대해 도형 클래스으로 레이블링하는 수퍼 클러스터 분류가 수행된다.

이때 특정 임계 값은 모든 수퍼 클러스터의 텍스트 오염 백분율로 설정될 수 있지만, 백분위값 자체는 제2 레벨 클러스터링 알고리즘의 파라미터와 함께 0%에서 100%까지 다양하게 설정될 수 있다.

텍스트만으로 구성되는 특허 관련 문서는 전체 텍스트 관심 영역 세트를 대표하는 텍스트 관심 영역을 포함하기 때문에(즉, 표제 텍스트, 표 텍스트 및 일반 텍스트 상자와 같이 특허 관련 문서에 특유한 모든 종류의 텍스트 영역의 모든 클래스를 포함하기 때문에), 이러한 텍스트 레이블 전파는 본 개시의 과제 해결에 적합하다.

일 실시예에 따르면, 수퍼 클러스터를 획득하기 위한 프로세서의 분류 성능을 평가하기 위해, 도 13에 도시된 바와 같이 도 5의 흐름도에 병렬 분류 성능 평가 경로가 추가될 수 있다.

도 13에서 추가된 병렬 분류 성능 평가 경로를 제외한 나머지 구성들은 도 5를 통해 전술한 실시예와 동일하므로, 편의를 위해 나머지 구성들(S501 내지 S506)에 대한 설명은 생략한다.

도 13를 참조하면, 일 실시예에 따른 프로세서는 평가 제1 단계에서 클러스터에 수동으로 레이블을 지정한다(S1401).

클러스터에 레이블이 지정되면, 프로세서는 평가 제2 단계에서 클러스터의 예측된 레이블을 수동으로 지정된 레이블 및 재현율과 비교하여 정확도 및 F1 스코어의 비율을 계산한다(S1402).

특허 관련 문서의 페이지가 USPTO 또는 Google Patents에서 사용 가능한 텍스트 도는 도형 페이지인 것으로 분류되면, 특허 관련 문서의 페이지에 두 클래스의 관심 영역이 모두 포함될 수 있으므로, 관심 영역을 정확하게 표시하지 못한다.

도형 페이지에는 텍스트 요소(예를 들어, 특허 번호, 참고 문헌 및 도형 제목 등)가 포함되어 있지만, 화학 분야에 대한 특허 관련 문서 페이지에는 텍스트 영역과 혼합된 화학 성분이 포함되어있는 경우가 많다. 외부 ground truth label을 사용하지 않는 또 다른 동기는, 본 개시에 따른 텍스트/도형 분리를 필요로 하는 다른 종류의 문서에 대해 이와 같은 레이블의 외부 소스가 없을 수 있다는 것이다.

따라서, 분류 성능 평가를 위해, 제1 레벨 클러스터링 단계에 의해 생성된 각각의 클러스터에 대응하는 관심 영역의 랜덤 서브 세트에 대한 육안 검사에 의해 수동으로 생성되는 ground truth label이 기준값으로 사용된다.

전술한 것과 같이, 대부분의 클러스터는 단일 클래스(텍스트 또는 도형 클래스 중 어느 하나)에 의해 광범위하게 지배되므로, 이러한 클러스터의 모든 관심 영역은 클러스터의 지배적인 클래스에 속한 것으로 표시된다. 또한, 이와 같은 접근 방법은 잘못된 레이블 지정으로 인해 허용 가능한 정도 안에서 범위가 잘못 표시될 수 있다.

데이터 세트의 모든 관심 영역에 수동으로 레이블을 지정하면, 텍스트/도형 분리의 품질은 예측된 레이블과 수동으로 지정된 레이블을 비교하여 계산된 재현율, 정확도 및 F₁ 스코어와 같이, 널리 사용되는 분류 성능 단위를 사용하여 평가된다.

다만, 이와 같은 분류 성능 단위를 사용한 평가의 결과는 전술한 것과 같이 허용 가능한 정도 안에서 범위가 잘못 표시될 수 있으므로, 근사치임에 유의하여야 한다. 또한, 수동 레이블링은 분류 성능 평가 및 본 개시의 최적 파라미터의 탐색에 대해서만 사용되었지만, 수동 레이블링 방법 그 자체는 완전히 자동이고 임의의 수작업에 의존하지 않는다는 것을 유의해야 한다.

이하에서는 도 13의 일 실시예에 따른 분류 성능 평가 방법 및 그 평가 결과를 상세히 설명한다.

우선, 일 실시예에서 분류 성능 평가 방법은 NumPy/SciPy 패키지를 사용하여 파이썬으로 구현된 방법을 사용한다.

이때 Scikit 학습 및 fastcluster가 커널 근사 및 클러스터링 단계에서 사용되고, Keras 라이브러리가 샴 신경망의 구축 및 학습에 사용되며, 이미지 및 디스크립터에 대한 데이터는 PyTables 패키지를 사용하여 HDF5 형식으로 저장된고, 이미지 처리 작업에는 scikit 이미지가 사용된다.

한편, 이와 같은 테스트 시스템은 8 코어 AMD FX-8350 CPU 및 NVIDIA GeForce GTX 780 GPU(신경망을 훈련 시키는데 사용됨)를 포함한다.

실험에 사용되는 데이터 세트는 USPTO 사이트로부터 다운로드 된 무작위로 선택된 2005년에서 2013년 사이의 12,100개의 특허 관련 문서로 구성되며, 특허 주제에 대한 제한은 존재하지 않는다. 이러한 접근 방식을 통해 광대하고 다양한 분야(전자, 건설, 기계 및 화학 등)에서 매우 다양한 특허 관련 도형들이 산출될 수 있다.

본 개시의 문서 이미지를 복수의 관심 영역으로 분할하는 단계에서, 특허 관련 문서의 페이지로부터 총 110만개의 관심 영역이 추출되며, 12,100건의 특허 중 197건만이 텍스트 전용 특허이고, 이러한 텍스트 전용 특허들로부터 10,458 개의 텍스트 관심 영역이 추출된다(모든 관심 영역의 1% 미만).

일 실시예에 따른 분류 성능 평가 방법의 각 단계 중, 시간이 가장 많이 소요되는 단계는 Jaccard 커널에 대한 근사화 특성 맵핑을 얻기 위해 샴 신경망을 훈련시키는 단계이다(약 20시간 이상).

또한 Docstrum 디스크립터 계산 및 커널 근사화 특징 맵핑을 사용한 Docstrum 특징 벡터 변환에는 약 1.5시간이 소요되며, 제1 레벨 클러스터링 단계는 선형 커널의 경우 약 3시간, 커널, 교차(intersection) 커널 및 Jensen-Shannon 커널 각각은 약 7시간, Jaccard 커널의 경우 약 10.5 시간이 소요된다.

반면, 제2 레벨 클러스터링 단계 및 수퍼 클러스터의 분류 단계는 이전 단계들과 비교할 때(특히 비선형 커널이 사용되는 경우) 무시할 수 있는 수준의 짧은 시간이 소요된다.

분류 성능 평가 결과를 얻기 위해, 제2 레벨 클러스터링(표 2 참조)의 하위 단계 및 수퍼 클러스터의 분류와 관련된 모든 파라미터의 조합에 대해 근사 커널 변형의 분류 성능을 평가한다. 이때 변형에 대해 시도된 총 파라미터의 조합 수는 총 406,665개 이다.

표 3을 참조하면, 일 실시예에 따른 프로세서의 분류 성능 평가 결과가 도시되어있다.

각 테이블 셀은 제2 레벨 클러스터링 및 근사 커널 알고리즘(표 3의 행과 열에 각각 표시)의 해당 쌍에 대해 가장 높은 F₁ 스코어를 제공하는 파라미터 조합에 대한 결과(F_i, 정확도 및 재현율)를 포함한다.

			Intersection		Jaccard		Jensen-Shannon		Linear
Affinity Propagation	0,68		0,68		0,70		0,63		0,53
	0,52	1,00	0,64	0,73	0,80	0,63	0,48	0,91	0,41	0,76
Agglomerative Clustering	0,86 complete linkage		0,75 mean linkage		0,90 Ward linkage		0,76 Ward linkage		0,65 Ward linkage
	0,75	1,00	0,62	0,96	1,00	0,81	0,67	0,87	0,48	1,00
BIRCH	0,77		0,81		0,90		0,79		0,68
	0,65	0,95	0,70	0,96	1,00	0,81	0,72	0,87	0,53	0,96
DBSCAN	0,80		0,94		0,78		0,86		0,70
	0,94	0,70	1,00	0,89	0,72	0,86	0,82	0,89	0,87	0,58
HDBSCAN	0,68		0,89		0,81		0,76		0,64
	0,67	0,70	0,88	0,89	0,75	0,87	0,72	0,80	0,67	0,62
K-Means	0,75		0,78		0,81		0,68		0,68
	0,60	1,00	0,66	0,96	0,85	0,77	0,56	0,87	0,56	0,88
Mean shift	0,70		0,66		0,64		0,65		0,61
	0,57	0,93	0,51	0,94	0,47	0,98	0,54	0,82	0,48	0,85
One-class SVM	0,79 RBF		0,73 sigmoid		0,60 RBF		0,69 RBF		0,76 sigmoid
	0,68	0,95	0,70	0,77	0,51	0,75	0,58	0,85	0,96	0,64
Spectral Clustering	0,88		0,85		0,87		0,76		0,78
	0,82	0,95	0,89	0,81	0,83	0,91	0,73	0,80	0,73	0,84

상기 표로부터, 테스트된 커널 중 가장 좋은 결과는 Jaccard 커널 및 커널에 의해 제공되는 반면, 제2 레벨 클러스터링 알고리즘 중에서는 BIRCH, DBSCAN, HDBSCAN 및 스펙트럴 클러스터링 알고리즘에 의해 최상의 결과가 제공되는 것을 알 수 있다.

또한, DBSCAN 알고리즘과 교차(intersection) 커널을 사용하면 전반적으로 최상의 결과를 얻을 수 있으며, 이러한 조합은 커널 근사를 이용하는 본 개시의 바람직한 실시 예에서 사용될 수 있다.

선형 커널의 사용은 모든 제2 레벨 클러스터링 알고리즘에 대한 비선형 커널의 사용보다 상대적으로 낮은 분류 성능을 도출하므로, 본 개시의 바람직한 실시 예에서는 추출된 특징 벡터를 텍스트 또는 도형 중 어느 하나의 클래스로 분류하는 단계의 첫 번째 하위 단계로서, 비선형 커널 중 하나를 근사화하는 변환이 사용될 수 있다.

도 14A 및 도 14B는 일 실시예에 따른 근사된 커널 변형에 대한 정확도-재현율 곡선을 나타낸 그래프이며, 표 3의 평가 결과에 대한 결론을 뒷받침한다.

도 14A 및 도 14B를 참조하면, 정확도 - 재현율 결과를 시각화하기 위해 각 제2 레벨 클러스터링 알고리즘(또는 각각의 커널 근사화)에 대해 각 알고리즘(또는 각 커널)과 관련된 모든 정확도-재현율 포인트의 컨벡스 헐(convex hull)이 획득되었으며, 이때 컨벡스 헐의 우측 상단 세그먼트는 최상의 결과를 갖는 세그먼트, 즉 상대적으로 높은 정확도 및 상대적으로 높은 재현율을 동시에 갖는 세그먼트에 해당한다.

3가지 최상의 결과 케이스(표 3의 밑줄 부분), 즉 교차(intersection) 커널을 사용한 DBSCAN, 커널을 사용한 스펙트럴 클러스터링 및 커널을 사용한 응집 클러스터링이 추가 분석을 위해 선택되었다.

비록 제2 레벨 클러스터링 및 근사 커널 알고리즘 쌍에 대한 파라미터 조합 중 일부가 후자의 두 가지 결과보다 더 좋은 F₁ 스코어를 제공하지만, 정확도와 재현율 면에서 교차(intersection) 커널을 사용하는 DBSCAN 알고리즘에 비해 향상된 점은 없으며, 커널을 사용한 응집 클러스터링은 더 좋은 재현율을 제공하고, 커널을 사용한 스펙트럴 클러스터링은 두 모듈간의 좋은 상충 관계를 제공한다.

본 실시예의 정확한 커널 변형에 대해 시도된 파라미터 조합의 총 개수는 438,170개이며, 아래의 표 4는 이와 같은 커널 변형에 대한 분류 성능 평가 결과를 나타낸 것이다. 표 4의 각 제2 레벨 클러스터링 및 근사 커널 알고리즘 쌍에 대한 셀에서, 상단은 F₁ 스코어를, 좌측 하단은 정확도를, 우측 하단은 재현율을 나타낸다.

			Hellinger		Intersection		Jaccard		Jensen-Shannon		Linear
Affinity Propagation	0,67		0,70		0,74		0,74		0,67		0,53
	0,53	0,90	0,57	0,92	0,64	0,88	0,64	0,88	0,53	0,90	0,41	0,76
Agglomerative Clustering	0,94 single linkage		0,94 single linkage		0,94 single linkage		0,94 single linkage		0,94 single linkage		0,65 Ward linkage
	0,99	0,89	1,00	0,89	0,99	0,89	0,99	0,89	0,99	0,89	0,48	1,00
DBSCAN	0,93		0,93		0,89		0,89		0,83		0,70
	1,00	0,86	1,00	0,86	1,00	0,81	1,00	0,81	1,00	0,86	0,87	0,58
HDBSCAN	0,76		0,78		0,68		0,68		0,78		0,64
	0,69	0,85	0,73	0,85	0,56	0,87	0,56	0,87	0,73	0,85	0,67	0,62
One-class SVM	0,34		0,29		0,41		0,42		0,32		0,66
	0,26	0,50	0,22	0,42	0,26	0,97	0,27	0,97	0,24	0,50	0,63	0,68
Spectral Clustering	0,87		0,84		0,90		0,93		0,87		0,78
	0,87	0,87	0,72	1,00	0,88	0,92	0,94	0,92	0,87	0,87	0,73	0,84

표 4를 참조하면, Jaccard 커널, 커널, Hellinger 커널 및 Jensen-Shannon 커널에 의해 가장 높은 분류 성능이 제공되는 것을 쉽게 알 수 있다.

도 15A 및 도 15B는 일 실시예에 따른 정확한 커널 변형에 대한 정확도-재현율 곡선을 나타낸 그래프이다.

표시된 결과로부터, 정확한 커널 변형은 근사 커널 변형에 대한 대안이 될 수 있음을 알 수 있으며, 이는 선형 커널의 경우 가장 긴 시간을 소요하는 제1 레벨 클러스터링이 비선형 커널보다 두 배 이상 빠르게 수행되기 때문이다.

선형 커널을 사용하는 제1 레벨 클러스터링(정확한 커널 변형에서 이용됨)은 비선형 커널을 사용할 때보다 상대적으로 많은 수의 혼합 클러스터를 출력하므로, 추후 분석을 위해 근사 커널 변형을 시도한 모든 구성 중 세 가지 최상의 수행 구성이 선택되었다.

근사 커널 변형에서 최상의 결과를 제공하는 수퍼 클러스터 분류 파라미터 (백분위 값)뿐만 아니라, 제2 레벨 클러스터링 알고리즘 파라미터의 요약이 아래의 표 5에서 주어진다.

2^nd Level Clustering Algorithm	Approximated Kernel	2 ^nd Level clustering Parameters	Selected Figure ROIs, %	Percentile value, %	F₁
					Precision	Recall
Agglomerative Clustering		N_clusters=2	28	0	0,86
		Complete linkage			0,75	1,00
Spectral Clustering		N_clusters=10	23	12.5	0,88
		Labeling strategy: k-means			0,82	0,95
DBSCAN	Intersection	ε=0.43 (N_clusters=5)	18	0	0,94
		N_samples=5			1,00	0,89

상기 표 5로부터, 정확도 및 재현율 성능면에서 세 가지 최상의 수행 구성이 두 가지 극단적인 케이스와 그 사이의 절충 케이스를 제공한다는 것을 알 수 있다.

여기서 하나의 극단적인 케이스는 100% 재현율(단, 75%의 정확도)을 제공하는 커널을 사용하는 응집 클러스터링(이하, 제1 구성)이며, 다른 하나의 극단적인 케이스는 100% 정확도를 제공하는 교차(intersection) 커널을 사용하는 DBSCAN(단, 89% 재현율)이고(이하, 제2 구성), 그 사이의 절충 케이스는 커널을 사용한 스펙트럴 클러스터링으로써, 82%의 정확도와 95%의 재현율을 제공한다(이하, 제3 구성).

제1 구성에 있어서, 수퍼 클러스터의 최적의 수는 2개이며, 이는 제로 샷 레이블 추론 연산을 위해 이 구성을 사용하는 것을 가능하게 한다.

나머지 제2 구성 및 제3 구성에 있어서, 출력 수퍼 클러스터의 수는 10(스펙트럴 클러스터링)과 5(DBSCAN)이며, 분류에는 제로샷 레이블 추론 연산모드의 사용을 허용하지 않는다.

여기서 중요 관심사는 상기 표 5에 주어진 파라미터들의 특정 데이터 세트의 특성에 대한 의존성일 수 있다.

제1 구성에서 최적의 설정은 찾고자 하는 클러스터의 수를 2개로 설정하고, 완전 연관(complete linkage) 연결 방법을 사용하는 것이다.

개시된 분류 방법의 목적은 두 개의 별개의 클러스터를 분리하는 것이고, 그 중 하나는 매우 지배적인 클러스터에 해당하므로, “rich get richer” 행동을 촉진하는 완전 연관 연결 방법은 자연스러운 선택이며, 이와 같은 설정은 모두 본 발명의 과제에 대해 일반적으로 사용될 수 있다.

제2 구성의 경우, 최적의 설정은 샘플 이웃의 반경(데이터 세트의 속성보다는 Docstrum 디스크립터, 사용된 커널 및 분리될 클래스의 속성에 의해 결정됨) 및 한 지점이 코어 포인트로 간주되기 위한 샘플 이웃의 수를 설정하는 것을 포함한다.

모든 구성에 대한 공통 파라미터인 첫 번째 및 세 번째 구성의 백분위 값은 0이고, 이는 텍스트 오염이 최소인 단일 수퍼 클러스터가 도형 수퍼 클러스터로 레이블링된 것을 의미한다.

상기에 요약된 이론적 고려 사항을 확인하기 위해, 표 5의 최적 파라미터, 특히 제1 구성 및 제3 구성을 사용하여 합리적인 크기의 데이터 세트의 무작위 하위 집합에 대해 본 방법을 적용하고, 출력을 육안 검사로 확인하였다.

이 실험은 서로 다른 종류의 특허 관련 도형 및 텍스트 영역에 대해, 뛰어난 텍스트/도형 분리능력을 나타냈으며, 일반적인 경우에 대해 표 5에 주어진 최적 설정의 유용성을 뒷받침한다.

그러나 제3 구성에 있어서, 최적의 파라미터 값 (Nclusters=10 및 12.5%의 백분위 수)은 데이터 세트의 상이한 서브 세트에 대해 동일한 안정성을 나타내지 않으며, 또한 강한 이론적 근거를 갖지도 않는다.

왜냐하면, 2개 이상의 Nclusters가 실제로 데이터 집합에 있는 주요 클래스의 하위 클래스 수(예 : 여러 종류의 텍스트 또는 수치 관심 영역)를 나타낼 수 있기 때문이다.

따라서, 이러한 구성은 본 개시에서 예시적인 데이터 세트로 사용된 특허 관련 관심 영역의 데이터 세트와 상당히 다른 데이터 세트에서 주의하여 사용되어야 한다.

텍스트/도형 클러스터의 지오메트리에 대한 통찰력을 얻기 위해, t-SNE 방법을 사용하여 맵핑 근사화 커널에 의해 변형된 Docstrum 특성 벡터에 대해 비선형 차원 감소가 수행되었으며, "텍스트"또는 "도형"으로 분류 된 특징 벡터에 해당하는 점군(point clouds)을 표 5의 세 번째 구성(F₁ 스코어 면에서 가장 좋은 점)을 사용하여 나열하기 위해 2D 임베디드 공간이 사용되었다.

도 16은 일 실시예에 따른 2D 임베디드 공간에서 특징 벡터에 해당하는 점군(point clouds)의 산점도를 나타낸 그래프이다.

도 16을 참조하면, "텍스트" 포인트는 여러 개의 클러스터를 형성하고, 그 중 일부는 정교한 비볼록형 기하학 구조를 가지며 서로 멀리 떨어져 있고, 대다수의 “도형” 포인트는 텍스트 클러스터로 둘러싸인 고밀도의 지역화된 클러스터를 형성한다.

이와 같은 텍스트/도형 클러스터의 지오메트리는 단일 클래스 SVM을 사용하는 구성에서 분류 성능이 떨어지는 원인이 될 수 있다.

단일 클래스 SVM은 새로운 검출 방법에 해당하므로, 본 개시의 과제를 해결하기 위한 자연스러운 선택이다. 본 개시의 일 실시예에서 텍스트 클래스에 대한 학습 서브 세트가 사용되었고, 그 목적은 텍스트 클래스에 대한 아웃라이어(outlier)로서 도형 클래스를 식별하는 것이었다.

그러나, 일반화된 RBF 및 시그모이드 커널을 사용(SVM 자체에서 RBF 또는 시그모이드 커널과 유사하게 커널 근사화에서 히스토그램 기반 커널을 결합하여 사용)하는 경우에도, 단일 클래스 SVM은 복잡한 클러스터 형상(예: DBSCAN 또는 응집 클러스터링)을 처리하는데 효율적인 알고리즘의 분류 성능을 달성하지 못한다.

결론적으로, 본 개시는 매우 다양한 도형 클래스를 포함하는 흑백 문서 이미지에 대한 텍스트 및 도형을 분리하는 새로운 방법에 관한 것으로, 더 간단한 방법을 통해 텍스트로 잘못 분류 된 많은 도형 클래스를 분리할 수 *?*있으며, 대규모 데이터 세트를 처리하는데 적합하고, 제로 샷 추론 모드(데이터 세트의 텍스트/도형 분포에 대한 일반적인 선척적 정보만을 사용) 또는 준지도 레이블 전파 모드(텍스트로 표시된 데이터의 작은 서브 세트 사용)에서 분류 작업을 할 수 있다는 장점을 갖는다.

이와 같은 장점은 Docstrum 디스크립터의 사용, 다양한 히스토그램 기반 커널( 커널, 교차(intersection) 커널 및 Jaccard 커널 등)에 대한 커널 근사 특징 맵핑 및 효율적인 2레벨 클러스터링(미니 배치 k-평균, 응집 클러스터링 및 DBSCAN 등)의 사용에 기인한다.

본 개시의 텍스트 및 도형을 분리하는 방법은 매우 크고 다양한 특허 관련 문서의 이미지 데이터 세트에서 증명되었으며, 제로 샷 추론 모드에 대한 0.86 및 준지도 레이블 전파 모드에 대한 0.94의 F₁ 스코어를 달성하였다.

본 개시의 다양한 단계에 대한 최적의 파라미터는 이와 같은 데이터 세트에서 수행되는 광범위한 파라미터 최적화를 사용하여 얻어질 수 있으며, 이 방법의 실험 결과가 분석되었고, 최적의 구성은 이론적인 고려 사항과 실험적 증거에 의해 동기가 부여되었다.

본 개시의 텍스트 및 도형을 분리하는 방법은 문서 색인화 및 검색, 문서 객체 검출 및 인식, OCR, 및 문서 압축 등과 같은 다양한 문서 이미지 처리 작업을 위한 전처리 단계로 사용될 수 있으며, 이는 본 개시의 내용을 통하여 당업자에게 명백할 것이다.

전술한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

Claims

문서 이미지를 획득하는 단계;
상기 문서 이미지를 복수의 관심 영역으로 분할하는 단계;
상기 관심 영역에 대한 리사이징 및 연결 컴포넌트 추출을 통해 획득한 2D 히스토그램을 사용하여 특징 벡터를 획득하는 단계;
커널을 사용하여 상기 특징 벡터에 대한 변환 벡터를 획득하고, 상기 변환 벡터의 클러스터 중심을 획득하고, 상기 클러스터 중심에 대해 클러스터링을 수행하여 수퍼 클러스터를 획득하는 단계; 및
상기 수퍼 클러스터의 수에 기초하여 상기 수퍼 클러스터를 텍스트 또는 도형 중 어느 하나의 클래스로 분류하는 단계;를 포함하는
문서 이미지에서 텍스트와 도형을 분리하는 방법.
제1항에 있어서,
상기 문서 이미지를 복수의 관심 영역으로 분할하는 단계는
미리 정의 된 제1 임계 값 이하의 길이를 갖는 수평 배경 픽셀을 전경색으로 채우는 단계;
미리 정의 된 제2 임계 값 이하의 길이를 갖는 수직 배경 픽셀을 전경색으로 채우는 단계;
전경색으로 채워진 상기 수평 배경 픽셀 및 전경색으로 채워진 상기 수직 배경 픽셀로 구성되는 복수의 이미지에 대하여 논리합 연산(OR)을 적용하는 단계;
연결 컴포넌트 추출을 수행하여 상기 논리합 연산 결과의 이미지로부터 제1 연결 컴포넌트를 획득하는 단계; 및
상기 제1 연결 컴포넌트로 구성되는 경계 박스를 상기 관심 영역으로 선택하는 단계;를 포함하는
문서 이미지에서 텍스트와 도형을 분리하는 방법.
제1항에 있어서,
상기 관심 영역에 대한 리사이징 및 연결 컴포넌트 추출을 통해 획득한 2D 히스토그램을 사용하여 특징 벡터를 획득하는 단계는,
상기 관심 영역의 종횡비를 유지하면서 상기 관심 영역을 미리 설정된 크기로 리사이징하는 단계;
상기 리사이징된 관심 영역에 대한 연결 컴포넌트 추출을 수행하여 제2 연결 컴포넌트를 획득하고, 상기 제2 연결 컴포넌트의 중심점을 획득하는 단계;
상기 제2 연결 컴포넌트의 중심점의 최근접 이웃을 결정하는 단계;
상기 중심점 및 상기 최근접 이웃으로 구성된 쌍에 대한 2D 히스토그램을 생성하는 단계;
상기 2D 히스토그램에 대한 정규화를 수행하는 단계; 및
상기 정규화가 수행된 2D 히스토그램을 특징 벡터로 재구성하는 단계;를 포함하는
문서 이미지에서 텍스트와 도형을 분리하는 방법.
제3항에 있어서,
상기 관심 영역의 종횡비를 유지하면서 상기 관심 영역을 미리 설정된 크기로 리사이징하는 단계는
상기 관심 영역의 종횡비를 유지하면서 상기 관심 영역의 높이 및 폭 중 길이가 더 긴 어느 하나가 300 픽셀 또는 500 픽셀에 대응되는 길이를 갖도록 조정하는 단계; 및
상기 관심 영역의 높이 및 폭 중 길이가 더 짧은 나머지 하나가 300 픽셀 또는 500 픽셀에 대응되는 길이를 갖도록 패딩을 수행하는 단계;를 포함하는
문서 이미지에서 텍스트와 도형을 분리하는 방법.
제3항에 있어서,
상기 리사이징된 관심 영역에 대한 연결 컴포넌트 추출을 수행하여 제2 연결 컴포넌트를 획득하고, 상기 제2 연결 컴포넌트의 중심점을 획득하는 단계는
경계 박스의 높이 또는 폭이 미리 설정된 임계치 미만인 연결 컴포넌트를 필터링하는 단계를 포함하는
문서 이미지에서 텍스트와 도형을 분리하는 방법.
제3항에 있어서,
상기 2D 히스토그램에 대한 정규화를 수행하는 단계는
상기 중심점 및 상기 최근접 이웃 사이의 각 거리를 상기 중심점 및 상기 최근접 이웃 사이의 거리의 평균 거리로 나누는 단계를 더 포함하는
문서 이미지에서 텍스트와 도형을 분리하는 방법.
제3항에 있어서,
상기 정규화가 수행된 2D 히스토그램을 특징 벡터로 재구성하는 단계는
상기 2D 히스토그램이 단일화 된 L1 norm을 갖도록 정규화하는 단계를 포함하는
문서 이미지에서 텍스트와 도형을 분리하는 방법.
제1항에 있어서,
상기 수퍼 클러스터를 획득하는 단계는
커널 근사화 특징 맵핑(kernel-approximating feature mapping)을 사용하여 상기 특징 벡터를 제1 변환 벡터로 변환하는 단계;
변환된 상기 제1 변환 벡터에 대해 제1 레벨 클러스터링을 수행하여 클러스터 중심을 획득하는 단계; 및
상기 클러스터 중심에 대하여 제2 레벨 클러스터링을 수행하여 수퍼 클러스터를 획득하는 단계를 포함하는
문서 이미지에서 텍스트와 도형을 분리하는 방법.
◈청구항 9은(는) 설정등록료 납부시 포기되었습니다.◈

제8항에 있어서,
상기 커널 근사화 특징 맵핑을 사용하여 상기 특징 벡터를 제1 변환 벡터로 변환하는 단계는
Hellinger 's 커널, 커널, 교차(intersection) 커널, Jensen-Shannon 커널 및 jaccard 커널 중 적어도 하나의 커널을 기초로 커널 근사화 특징 맵핑을 수행하는 단계를 포함하는
문서 이미지에서 텍스트와 도형을 분리하는 방법.
◈청구항 10은(는) 설정등록료 납부시 포기되었습니다.◈

제8항에 있어서,
상기 클러스터 중심에 대하여 제2 레벨 클러스터링을 수행하여 수퍼 클러스터를 획득하는 단계는
친화도 전파 클러스터링(affinity propagation clustering) 알고리즘, 응집 클러스터링(agglomerative clustering) 알고리즘, 평균 이동(mean shift) 클러스터링 알고리즘, BIRCH 알고리즘, DBSCAN 알고리즘, HDBSCAN 알고리즘, 단일 클래스 SVM(Support Vector Machine) 알고리즘 및 스펙트럴 클러스터링(spectral clustering) 알고리즘 중 적어도 하나의 클러스터링 알고리즘을 기초로 제2 레벨 클러스터링을 수행하는 단계를 포함하는
문서 이미지에서 텍스트와 도형을 분리하는 방법.
제8항에 있어서,
상기 수퍼 클러스터의 수에 기초하여 상기 수퍼 클러스터를 텍스트 또는 도형 중 어느 하나의 클래스로 분류하는 단계는
획득된 수퍼 클러스터의 수가 두 개일 경우, 각 수퍼 클러스터를 텍스트 클래스 또는 도형 클래스 중 어느 하나의 클래스로 분류하기 위해 제로 샷 레이블 추론(zero-shot label inference) 연산을 사용하는 단계; 및
획득된 수퍼 클러스터의 수가 두 개를 초과할 경우, 각 수퍼 클러스터를 텍스트 클래스 또는 도형 클래스 중 어느 하나의 클래스로 분류하기 위해 준지도 레이블 전파(semi-supervised label propagation) 연산을 사용하는 단계;를 포함하는
문서 이미지에서 텍스트와 도형을 분리하는 방법.
◈청구항 12은(는) 설정등록료 납부시 포기되었습니다.◈

제11항에 있어서,
상기 각 수퍼 클러스터를 텍스트 클래스 또는 도형 클래스 중 어느 하나의 클래스로 분류하기 위해 제로 샷 레이블 추론(zero-shot label inference) 연산을 사용하는 단계는
텍스트 관심 영역 및 도형 관심 영역의 비율을 기초로 상기 각 수퍼 클러스터를 텍스트 클래스 및 도형 클래스 중 어느 하나의 클래스로 레이블링 하는 단계를 포함하는
문서 이미지에서 텍스트와 도형을 분리하는 방법.
◈청구항 13은(는) 설정등록료 납부시 포기되었습니다.◈

제11항에 있어서,
상기 각 수퍼 클러스터를 텍스트 클래스 또는 도형 클래스 중 어느 하나의 클래스로 분류하기 위해 준지도 레이블 전파(semi-supervised label propagation) 연산을 사용하는 단계는
상기 각 수퍼 클러스터에 대하여 텍스트 레이블이 지정된 서브 세트에 속하는 관심 영역의 비율인 텍스트 오염도를 계산하는 단계; 및
상기 텍스트 오염도가 미리 설정된 임계치를 초과하는 수퍼 클러스터를 텍스트 클래스로 레이블링하고, 나머지 수퍼 클러스터를 도형 클래스로 레이블링하는 단계;를 포함는
문서 이미지에서 텍스트와 도형을 분리하는 방법.
◈청구항 14은(는) 설정등록료 납부시 포기되었습니다.◈

제13항에 있어서,
상기 텍스트 레이블이 지정된 서브 세트는
문서 이미지의 모든 텍스트에 특정 단어가 존재하지 않음을 식별한 뒤, 전체 관심 영역에 대해 텍스트 관심 영역으로 레이블을 지정하여 얻어지는
문서 이미지에서 텍스트와 도형을 분리하는 방법.
문서 이미지를 획득하고, 상기 문서 이미지를 복수의 관심 영역으로 분할하며, 상기 관심 영역에 대한 리사이징 및 연결 컴포넌트 추출을 통해 획득한 2D 히스토그램을 사용하여 특징 벡터를 획득하고, 커널을 사용하여 상기 특징 벡터에 대한 변환 벡터를 획득하며, 상기 변환 벡터의 클러스터 중심을 획득하고, 상기 클러스터 중심에 대해 클러스터링을 수행하여 수퍼 클러스터를 획득하고, 상기 수퍼 클러스터의 수에 기초하여 상기 수퍼 클러스터를 텍스트 또는 도형 중 어느 하나의 클래스로 분류하는 프로세서; 및
상기 문서 이미지 및 상기 프로세서에 의해 텍스트 또는 도형 중 어느 하나의 클래스로 분류된 상기 수퍼 클러스터를 저장하는 메모리;를 포함하는
문서 이미지에서 텍스트와 도형을 분리하는 장치.