KR20020055454A - 문서영상 영역해석 방법 - Google Patents

문서영상 영역해석 방법 Download PDF

Info

Publication number
KR20020055454A
KR20020055454A KR1020000083420A KR20000083420A KR20020055454A KR 20020055454 A KR20020055454 A KR 20020055454A KR 1020000083420 A KR1020000083420 A KR 1020000083420A KR 20000083420 A KR20000083420 A KR 20000083420A KR 20020055454 A KR20020055454 A KR 20020055454A
Authority
KR
South Korea
Prior art keywords
elements
text
document image
grouping
connected components
Prior art date
Application number
KR1020000083420A
Other languages
English (en)
Other versions
KR100411894B1 (ko
Inventor
지수영
장대근
황영섭
문경애
조수현
정연구
Original Assignee
오길록
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오길록, 한국전자통신연구원 filed Critical 오길록
Priority to KR10-2000-0083420A priority Critical patent/KR100411894B1/ko
Priority to US09/827,210 priority patent/US20020085755A1/en
Publication of KR20020055454A publication Critical patent/KR20020055454A/ko
Application granted granted Critical
Publication of KR100411894B1 publication Critical patent/KR100411894B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Abstract

1. 청구범위에 기재된 발명이 속하는 기술분야
본 발명은 문서영상의 영역해석 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.
2. 발명이 해결하고자 하는 기술적 과제
본 발명은, 축소된 문서영상에서 추출한 연결요소들의 공간적인 관계에 따라 트리구조로 그룹화하고 텍스트 영역에서는 반복적인 분리와 병합을 통하여 세밀하게 정리하고자 한 문서영상의 영역해석 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공함에 그 목적이 있음.
3. 발명의 해결방법의 요지
본 발명은, 문서영상 영역해석 시스템에 적용되는 문서영상의 영역 해석 방법에 있어서, 축소된 문서 영상을 통해 연결 요소를 분석하는 제 1 단계; 상기 연결요소의 분석 결과에 의해 트리를 생성하여 연결 요소를 분류하는 제 2 단계; 상기 분류된 연결 요소에서 텍스트 요소들을 공간적인 관계에 따라 그룹화하는 제 3 단계; 및 상기 그룹화 후, 상기 연결 요소의 반복적인 분리와 병합을 통하여 텍스트 블록을 재 구성하는 제 4 단계를 포함한다.
4. 발명의 중요한 용도
본 발명은 본 발명은 문자인식을 위한 전 단계에 이용됨. 또한, 멀티미디어 문서 작성을 위한 문서의 분석 도구로 이용되며, 문서의 검색 시스템의 입력 부분으로 이용됨.

Description

문서영상 영역해석 방법{Method for Region Analysis of Documents}
본 발명은 문서영상 영역해석 방법에 관한 것으로, 보다 상세하게는 설정된 연결 요소 그룹화에 의한 연결 요소들을 추출한 다음, 이들의 공간적인 관계에 따라 트리 구조로 그룹화하고 텍스트 영역에서 대해서는 새롭게 반복적인 분리와 병합으로 세밀하게 정리하기 위한 문서영상 영역해석 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
일반적으로 문서 구조의 해석에 관한 연구는 문자 인식에 비해 상대적으로 미흡한 실정이고, 지금까지 개발된 결과로는 일반적이고 복잡한 다단 문서에 대해서는 적용할 수 없는 문제점이 있었다.
이에 본 발명은, 상기와 같은 종래의 문제점을 해결하기 위해 제안된 것으로, 축소된 문서영상에서 추출된 연결 요소들의 공간적인 관계에 따라 트리 구조로 그룹화하고 텍스트 영역에서는 반복적인 분리와 병합을 통하여 세밀하게 정리하고자 한 문서영상 영역해석 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공함에 그 목적이 있다.
도 1은 본 발명에 따른 문서영상 영역해석에서 연결요소 기초정보를 설명하는 도면.
도 2a 내지 도 2c는 본 발명에 따른 문서영상 영역해석에서 연결요소 유형을 설명하는 도면.
도 3은 본 발명에 따른 문서영상 영역해석에서 인접한 단어 및 텍스내의 줄 사이의 공간과 문자크기를 계산하는 도면.
도 4a 및 도 4b는 본 발명에 따른 문서영상 영역해석에서 영역해석 된 실험문서의 분리 결과를 보여주는 일실시예 도면.
도 5는 도 4b에 도시된 분리결과를 토대로 생성된 페이지의 트리구조를 보여주는 일실시예 도면.
도 6은 본 발명에 따른 문서영상 영역해석에 대한 일실시예 흐름도.
상기와 같은 목적을 달성하기 위한 본 발명은, 문서영상 영역해석 시스템에 적용되는 문서영상의 영역 해석 방법에 있어서, 축소된 문서 영상을 통해 연결 요소를 분석하는 제 1 단계; 상기 연결요소의 분석 결과에 의해 트리를 생성하여 연결 요소를 분류하는 제 2 단계; 상기 분류된 연결 요소에서 텍스트 요소들을 공간적인 관계에 따라 그룹화하는 제 3 단계; 및 상기 그룹화 후, 상기 연결 요소의 반복적인 분리와 병합을 통하여 텍스트 블록을 재 구성하는 제 4 단계를 포함하는 것을 특징으로 한다.
한편, 본 발명은, 문서 영상을 해석하기 위해 프로세서를 구비한 영역해석 시스템에, 축소된 문서 영상을 통해 연결 요소를 분석하는 제 1 기능; 상기 연결요소의 분석 결과에 의해 트리를 생성하여 연결 요소를 분류하는 제 2 기능; 상기 분류된 연결 요소에서 텍스트 요소들을 공간적인 관계에 따라 그룹화하는 제 3 기능; 및 상기 그룹화 후, 상기 연결 요소의 반복적인 분리와 병합을 통하여 텍스트 블록을 재 구성하는 제 4 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공함을 특징으로 한다.
여기서 상술된 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 1은 본 발명에 따른 문서영상 영역해석에서 연결요소 기초정보를 설명하는 도면이다.
도 1에 도시된 바와 같이, 영상 영역(m)에 대해서 연결 요소 즉, 병합된 길이의 집합을 구하는데, 하나의 연결 요소는 각각 y1,y2,x1,x2,x11,x12,x21,x22로 표현된다.
여기서, 상기 y1,y2는 외접 사각형의 수평 확장, x1,x2는 외접 사각형의 수직 확장, x11은 맨 윗줄 x 좌표의 최 좌측점, x12는 맨 윗줄 x 좌표의 최 우측점, x21은 맨 아랫줄 x 좌표의 최 좌측점 및 x22는 맨 아랫줄 x 좌표의 최 우측점을 각각 나타낸다.
도 2a 내지 도 2c는 본 발명에 따른 문서영상 영역해석에서 연결 요소 유형을 설명하는 도면이다.
도 2a에 도시된 바와 같이, 문서 영상(m)에 대한 영역을 해석할 때 문서 영상의 두 라인 즉, 아랫줄과 윗줄 중에 윗줄을 부모라인(Parent Line: PL)이라 정의하고, 아랫줄을 자식라인(Child Line: CL)이라고 정의한다.
그리고, 상기 부모라인의 맨 왼쪽 상단 위치의 점을 "rpleft"로, 부모라인의 맨 오른쪽 상단 위치의 점을 "rpright"로, 자식라인의 맨 왼쪽 상단 위치의 점을 'rcleft"로, 그리고 자식라인의 맨 오른쪽 상단 위치의 점을 "rc.ight"로 정의한다.
도 2b에 도시된 바와 같이, 문서영상의 두 라인중에 윗 줄(부모라인)은 2개 이상으로 직선선분이 간격을 두고, 아랫줄(자식라인)은 길게 위치하는 유형을 "다중 부모 유형"(Multiple Father Type)라 정의한다. 도 2c에 도시된 바와 같이, 문서영상에서 두 라인중에 윗줄(부모라인)은 길게 위치하고, 그 아랫줄(자식라인)이 2 개 이상의 직선 선분이 일정한 간격을 두로 위치한 유형을 "다중 형제 유형"(Multiple Brother Type)이라 정의한다.
상기와 같은 정의되는 연결요소의 유형은 축소된 문서영역을 아래의 조건식 을 만족하면 두 라인이 연결이 되었다고 판단하고 하나의 큰 연결요소 영역으로 묶는다.
또한, 두 연결 요소 유형중에 다중 부모유형 및 다중 형제유형에 따른 영역도 상기의 조건식을 가지고 수행하고, 그 수행 결과에 대해 두 영역간에 관계를 지속적으로 반복하여 조건을 만족할 때까지 수행한다.
도 3은 본 발명에 따른 문서영상 영역해석에서 인접한 단어 및 텍스내의 줄 사이의 공간과 문자크기를 계산하는 도면이다.
도 3의 도시된 바와 같이, 수평 및 수직으로 정렬된 텍스트와 일정하지 않게 떨어져 있는 텍스트를 처리하기 위하여 전체문서 대신에 각 내 노드에 대하여 인접한 단어나 인접한 텍스트내의 줄 사이의 공간과 문자 크기를 계산한다. 즉, 연결요소에 대하여 x축 방향으로 겹친 다른 요소를 찾고 그것으로부터 가장 작은 y축 거리를 두 라인사이의 거리를 "S"로 정의한다.
또한, 문서 영상내의 여러 라인을 살펴 볼 때, 현재 라인과 다음 라인이 일정한 간격으로 존재하지 않고 한 라인을 뛰어넘고 다음 라인이 있는 경우 이 둘 사이의 라인간격을 "S1"로 정의한다.
도 4a 및 도 4b는 본 발명에 따른 문서영상 영역해석에서 영역 해석된 실험 문서의 분리 결과를 보여주는 일실시예 도면이다.
도 4a는 영역해석을 위한 문서(50)로서, 텍스트(Text), 사진(Photo), 바(Bar) 및 프레임(Frame)등의 영역을 포함하고 있다.
도 4b는 도 4a의 문서(50)를 텍스트(Text), 사진(Photo), 바(Bar) 및 프레임(Frame) 영역으로 구분한다. 상기 문서(50)에서 번호 1,2,3,4,5,6,7,8,9 와알파벳A,B,C,D,E는 각각 독립된 연결 요소를 나타내며, 번호 41,42,43,44,45,46,47,48,49,4A 는 연결요소 4에 포함된 보조 연결요소(sub connected component)를 나타낸다. 그리고, 상기 번호 51,52,53,54,55,56,57은 연결요소 5에 포함된 보조 연결요소(sub connected component)를 나타낸다.
도 5는 도 4b에 도시된 분리결과를 토대로 생성된 페이지의 트리구조를 보여주는 일실시예 도면이다.
즉, 도 5에 도시된 바와 같이, 전체적인 문서 페이지(70)가 루트가 되고, 각 내부 노드는 테이블, 텍스트 영역, 사진 및 바 등과 같은 의미있는 블록으로 정의한다. 여기서, 말단의 노드가 연결 요소이다.
먼저, 연결 요소들로부터 초기 트리를 구성함에 함에 있어, 테이블, 프레임 및 사진 등을 갖는 연결 요소들은 요소들에 속한 텍스트와 함께 독립된 노드로 그룹화하고, 여백에 의해 둘려쌓인 텍스트 블록내의 연결요소 들은 다음 단계에서 그룹화된다.
다음으로, 노드들이 개략적으로 분류하는데 즉, 긴 높이와 좁은 넓이를 갖는 연결요소를 "수직바"로, 긴 높이와 넓은 영역을 갖는 것은 수직으로 놓여있는 그림으로 간주한다. 유사하게, 수평바와 수평으로 된 그림으로 분류한다. 연결요소의 넓이와 길이가 가장 큰 글자보다 크면 비 문자영역이고, 이것은 테이블이나 프레임 혹은 그림이라고 간주한다. 이외에 다른 요소들은 가능한 텍스트라고 간주한다.
도 6은 본 발명에 따른 문서영상 영역해석에 대한 일실시예 흐름도이다.
도 6에 도시된 바와같이, 먼저, 연결요소를 분석전에 이미지를 감소시키는데, 이는 요소들의 수를 감소시켜 시스템의 처리시간을 줄이려는 것이다(61). 그 후, 감소된 이미지를 토대로 한줄씩 축소된 영상을 조사하여 그 전줄의 임의의 8개로 연결된 길이(8-connected runs)를 병합하는데, 이때, 병합된 길이의 집합인 연결요소를 분석하고, 그 유형을 정의한다(62,63).
여기서, 연결요소의 분석은 위에서 상술된 조건식에 의해 분석되는데, 축소된 문서영역을 한 줄씩 조사하여 조건식을 만족하면 두 라인이 서로 연결이 되었다고 판단하고 하나의 큰 연결요소 영역으로 묶는다. 계속해서 다음 줄과 비교하면서 반복적으로 연결 요소들을 찾아 분석하여 최종적으로 연결 요소의 유형을 정의한다.
그러면, 상기와 같이 정의된 연결요소의 유형을 토대로 초기 트리를 생성하는데, 즉, 연결요소들로부터 초기 트리를 생성함에 함에 있어, 테이블, 프레임 및 사진 등을 갖는 연결 요소들은 요소들에 속한 텍스트와 함께 독립된 노드로 그룹화하고, 여백에 의해 둘려쌓인 텍스트 블록내의 연결요소 들은 다음 단계에서 그룹화하고, 노드들의 분리를 통해 요소를 분류한다(64). 그리고, 텍스트 요소들을 그룹화하는데, 이는 수평 및 수직으로 정렬된 텍스트와 일정하지 않게 떨어져 있는 텍스트를 갖는 혼합된 문서를 처리하기 위한 것이다. 이를 위해 먼저, 인접한 텍스트 줄사이의 평균거리를 계산하고, 다음으로 모든 요소들로부터 두 라인사이의 거리를 측정하고, 이 측정후에 인접한 줄 사이의 간격에 일치하지 않는 커다란 값은 소거하여 텍스트 요소들을 그룹화 할 수 있다.
여기서, 그룹화는 두 요소 사이의 거리에 의존하는 것으로, 임의의 두 요소가 충분히 가까우면 하나의 블록으로 그룹핑되고, 지식기반 규칙이 요소가 충분히 가까운지 결정할 때 이용된다. 지식기반 규칙이 요소가 둘러쌓인 사각형의 수직방향으로의 거리가 인접한 줄과 글자의 높이 사이의 거리와 비교하여 작고, 두 사각형의 X축 방향으로 겹치면 그 둘사이의 거리는 가깝다고 말한다. 다음에 이것이 그 블록의 임의의 연결요소와 가까우면 하나의 연결된 요소는 하나의 블록으로 묶는다.
이때, 하나의 요소가 임의의 요소와 인접하지 않으면 새로운 블록으로 지정한다. 여기서, 블록이 형성되었기에 텍스트 정렬선, 문자들 사이의 간격, 문자의 크기를 계산하여 텍스트 블록을 제 구성한다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.
이상에서 설명한 본 발명은 진술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진자에게 있어 명백할 것이다.
상기와 같은 본 발명은, 설정된 기준에 의해 연결요소들을 추출 및 이 추출된 연결요소들의 공간적인 관계에 따라 트리구조로 그룹화하고, 텍스트 영역에서는반복적인 분리와 병합을 거쳐 재 조정하여 문서구조의 해석을 효율적으로 수행할 수 있는 효과가 있다.

Claims (7)

  1. 문서영상 영역해석 시스템에 적용되는 문서영상의 영역 해석 방법에 있어서,
    축소된 문서 영상을 통해 연결 요소를 분석하는 제 1 단계;
    상기 연결요소의 분석 결과에 의해 트리를 생성하여 연결 요소를 분류하는 제 2 단계;
    상기 분류된 연결 요소에서 텍스트 요소들을 공간적인 관계에 따라 그룹화하는 제 3 단계; 및
    상기 그룹화 후, 상기 연결 요소의 반복적인 분리와 병합을 통하여 텍스트 블록을 재 구성하는 제 4 단계
    를 포함하는 문서영상 영역해석 방법.
  2. 제 1 항에 있어서, 상기 연결 요소의 분석은,
    문서 영상에서 rcleft 또는 rpleft 위치 좌표 중 둘 중의 큰 좌표가 rcright 또는 rpright 위치 좌표 중 작은 좌표보다 작거나 같으면 두 라인을 하나의 영역으로 묶어 분석하는 것을 특징으로 하는 문서영상 영역해석 방법.
    (여기서, rpleft 는 부모라인의 맨 왼쪽 상단 위치의 점, rpright는 부모라인의 맨 오른쪽 상단 위치의 점을, rcleft 는 자식라인의 맨 왼쪽 상단 위치의 점, 그리고 rc.ight는 자식라인의 맨 오른쪽 상단 위치의 점이다)
  3. 제 1 항에 있어서, 상기 연결요소의 분류는,
    단일 라인, 다중 부모라인 및 다중 형제라인 형태로 추출되는 것을 특징으로 하는 것을 특징으로 하는 문서영상 영역해석 방법.
  4. 제 1 항에 있어서, 상기 제 2 단계는,
    상기 연결 요소의 유형들로부터 트리를 구성하는 제 5 단계;
    상기 구성된 트리에서 테이블, 프레임, 그림을 포함하는 연결요소들은 요소들에 속한 텍스트와 함께 독립된 노드로 그룹화하는 제 6 단계;
    여백에 의해 둘려 쌓인 텍스트 블록내의 연결요소들을 그룹화하는 제 7 단계; 및
    상기 그룹화되지 않은 노드들을 연결요소의 영역에 의해 분류하는 제 8 단계
    를 포함하는 것을 특징으로 하는 문서영상 영역해석 방법.
  5. 제 1 항에 있어서, 상기 텍스트 요소의 그룹화는,
    동일한 부모노드를 갖는 텍스트 요소상에서 수행되며, 수평/수직으로 정렬된덱스트와 일정하지 않게 떨어져 있는 텍스트는 전체문서 대신에 각 내부 노드에 대하여 인접한 단어나 인접한 텍스트내의 줄 사이의 공간과 문자 크기를 계산하여 수행되는 것을 특징으로 하는 문서영상 영역해석 방법.
  6. 제 3 항에 있어서, 상기 제 8 단계에서 노드들은,
    긴 높이와 좁은 영역을 갖는 연결요소는 수직바로, 긴 높이와 넓은 영역을 갖는 연결요소는 수직으로 놓여 있는 그림 및 연결요소의 넓이와 길이가 가장 큰 글자보다 크면 비 문자영역으로 분류하는 것을 특징으로 하는 문서영상 영역해석 방법.
  7. 문서 영상을 해석하기 위해 프로세서를 구비한 영역해석 시스템에,
    축소된 문서 영상을 통해 연결 요소를 분석하는 제 1 기능;
    상기 연결요소의 분석 결과에 의해 트리를 생성하여 연결 요소를 분류하는 제 2 기능;
    상기 분류된 연결 요소에서 텍스트 요소들을 공간적인 관계에 따라 그룹화하는 제 3 기능; 및
    상기 그룹화 후, 상기 연결 요소의 반복적인 분리와 병합을 통하여 텍스트 블록을 재 구성하는 제 4 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR10-2000-0083420A 2000-12-28 2000-12-28 문서영상 영역해석 방법 KR100411894B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR10-2000-0083420A KR100411894B1 (ko) 2000-12-28 2000-12-28 문서영상 영역해석 방법
US09/827,210 US20020085755A1 (en) 2000-12-28 2001-04-06 Method for region analysis of document image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2000-0083420A KR100411894B1 (ko) 2000-12-28 2000-12-28 문서영상 영역해석 방법

Publications (2)

Publication Number Publication Date
KR20020055454A true KR20020055454A (ko) 2002-07-09
KR100411894B1 KR100411894B1 (ko) 2003-12-24

Family

ID=19703732

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2000-0083420A KR100411894B1 (ko) 2000-12-28 2000-12-28 문서영상 영역해석 방법

Country Status (2)

Country Link
US (1) US20020085755A1 (ko)
KR (1) KR100411894B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2019202743B2 (en) * 2018-11-30 2021-04-01 Tata Consultancy Services Limited Systems and methods for automating information extraction from piping and instrumentation diagrams

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100382096C (zh) * 2003-08-20 2008-04-16 奥西-技术有限公司 文档扫描设备及方法
US8023741B2 (en) 2008-05-23 2011-09-20 Sharp Laboratories Of America, Inc. Methods and systems for detecting numerals in a digital image
US8023770B2 (en) 2008-05-23 2011-09-20 Sharp Laboratories Of America, Inc. Methods and systems for identifying the orientation of a digital image
US8351691B2 (en) * 2008-12-18 2013-01-08 Canon Kabushiki Kaisha Object extraction in colour compound documents
US8311330B2 (en) * 2009-04-06 2012-11-13 Accenture Global Services Limited Method for the logical segmentation of contents
JP5208043B2 (ja) * 2009-04-16 2013-06-12 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
KR101635738B1 (ko) * 2014-12-16 2016-07-20 전남대학교산학협력단 퍼지 에너지 매트릭스에 기반하여 문서 구조를 분석하기 위한 방법, 장치 및 컴퓨터 프로그램
WO2017069741A1 (en) * 2015-10-20 2017-04-27 Hewlett-Packard Development Company, L.P. Digitized document classification

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06274307A (ja) * 1993-03-18 1994-09-30 Hitachi Ltd 画面表示方式
US5588072A (en) * 1993-12-22 1996-12-24 Canon Kabushiki Kaisha Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks
US5787194A (en) * 1994-11-08 1998-07-28 International Business Machines Corporation System and method for image processing using segmentation of images and classification and merging of image segments using a cost function
JPH09305704A (ja) * 1996-05-20 1997-11-28 Sharp Corp 文書処理装置
US5937084A (en) * 1996-05-22 1999-08-10 Ncr Corporation Knowledge-based document analysis system
KR100277831B1 (ko) * 1998-10-15 2001-01-15 정선종 문서 영상에서의 표 분석방법
JP3659471B2 (ja) * 1999-06-03 2005-06-15 富士通株式会社 印刷物作成方法ならびにそのための印刷物作成装置およびコンピュ−タ読み取り可能な記録媒体
KR20000037433A (ko) * 2000-04-24 2000-07-05 강승일 인터넷을 이용한 디지털신문 제작 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2019202743B2 (en) * 2018-11-30 2021-04-01 Tata Consultancy Services Limited Systems and methods for automating information extraction from piping and instrumentation diagrams

Also Published As

Publication number Publication date
US20020085755A1 (en) 2002-07-04
KR100411894B1 (ko) 2003-12-24

Similar Documents

Publication Publication Date Title
Ha et al. Document page decomposition by the bounding-box project
US6512848B2 (en) Page analysis system
JP3359095B2 (ja) 画像処理方法及び装置
EP1146478B1 (en) A method for extracting titles from digital images
US7627176B2 (en) Apparatus, method, and computer program for analyzing document layout
US20070174761A1 (en) Strategies for Processing Annotations
US20070165950A1 (en) Image processing apparatus, image processing method, and computer program product
JP2004126648A (ja) 画像処理方法、画像処理装置および画像処理プログラム
Zuyev Table image segmentation
US9858506B2 (en) Methods and systems for processing of images of mathematical expressions
Liang et al. Document layout structure extraction using bounding boxes of different entitles
KR20020055454A (ko) 문서영상 영역해석 방법
Dori et al. Segmentation and recognition of dimensioning text from engineering drawings
JP4391704B2 (ja) 多値画像から二値画像を生成する画像処理装置および方法
US9049400B2 (en) Image processing apparatus, and image processing method and program
Liang et al. Performance evaluation of document layout analysis algorithms on the UW data set
JP3837193B2 (ja) 文字行抽出方法および装置
Saitoh et al. Document image segmentation and text area ordering
JPH06214983A (ja) 文書画像の論理構造化文書への変換方法および装置
JP3720892B2 (ja) 画像処理方法および画像処理装置
US20040001628A1 (en) Apparatus and method of analyzing layout of document, and computer product
JPH08320914A (ja) 表認識方法および装置
JPH11232439A (ja) 文書画像構造解析方法
Cao et al. Automatic recognition of tables in construction tender documents
KR100331035B1 (ko) 서식문서영상의자동해석방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20081202

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee