KR970017047A - 문서 화상으로부터의 타이틀 추출 장치 및 방법 - Google Patents
문서 화상으로부터의 타이틀 추출 장치 및 방법 Download PDFInfo
- Publication number
- KR970017047A KR970017047A KR1019960035503A KR19960035503A KR970017047A KR 970017047 A KR970017047 A KR 970017047A KR 1019960035503 A KR1019960035503 A KR 1019960035503A KR 19960035503 A KR19960035503 A KR 19960035503A KR 970017047 A KR970017047 A KR 970017047A
- Authority
- KR
- South Korea
- Prior art keywords
- character string
- area
- title
- region
- character
- Prior art date
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/387—Composing, repositioning or otherwise geometrically modifying originals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Character Input (AREA)
- Processing Or Creating Images (AREA)
Abstract
문서를 화상 데이타로 변환하여 얻어진 문서 화상으로부터 용이하게 타이틀 부분을 추출하는 것이 과제이다. 타이틀 추출 장치는 문서 화상내의 블랙 화소를 주사하고, 그것들이 연결되어 있는 영역에 외접하는 직사각형 영역을 문자 직사각형으로서 추출하고, 인접하는 복수의 문자 직사각형을 통합하여, 그것들의 문자 직사각형에 외접하는 직사각형 영역을 문자열 직사각형으로서 추출한다. 다음에, 각 문자열 직사각형의 하선 속성, 프레임 속성 및 괘선 속성등의 속성과, 문서 화상내의 문자열 직사각형의 위치나 상호 위치 관계에 기초하여, 바람직한 타이틀의 포인트를 계산하여, 높은 포인트를 획득한 문자열 직사각형을 타이틀 직사각형으로서 추출한다. 또한, 표형식의 문서의 경우, 표내에서 타이틀 직사각형을 추출할 수 있다. 추출된 타이틀 직사각형 내의 문자는 인식 처리 후에 문서 화상의 키워드로서 이용된다.
Description
본 내용은 요부공개 건이므로 전문내용을 수록하지 않았음
제1도는 본 발명의 원리도,
제2도는 시스템 구성도.
Claims (51)
- 문서를 화상 데이타로 변환하여 얻은 문서 화상으로부터 필요로 하는 부분 영역을 취출하여 인식하는 정보 처리 장치에 있어서, 상기 문서 화상내에 연결된 블랙 화소로 이루어지는 블랙 화소 연결 영역을 포함하는 문자 영역을 생성하는 문자 영역 생성 수단과, 상기 문자 영역 생성 수단이 생성한 1개 이상의 문자 영역을 통합하여, 그 1개 이상의 문자 영역을 포함하는 문자열 영역을 생성하는 문자열 영역 생성 수단과, 상기 문자열 영역 생성 수단이 생성한 복수의 문자열 영역의 속성에 기초하여, 그 복수의 문자열 영역중 특정 문자열 영역을 타이틀 영역으로서 추출하는 타이틀 추출 수단을 구비하는 것을 특징으로 하는 타이틀 추출 장치.
- 제1항에 있어서, 상기 타이들 영역에 포함되는 문자 영역을 잘라 내어, 문자를 인식하는 인식 수단을 추가로 구비하는 것을 특징으로 하는 타이틀 추출 장치.
- 제1항에 있어서, 상기 문자 영역 생성 수단은 상기 블랙 화소 연결 영역의 외접 직사각형을 상기 문자 영역으로서 구하고, 상기 문자열 영역 생성 수단은 상기 문서 화상내에서의 해당 외접 직사각형의 주변 길이 빈도의 막대 그래프를 작성하여, 특정 빈도와 해당 특정 빈도를 부여하는 최대의 주변 길이와의 관계표를 작성하고, 그 관계표를 이용하여 상기 문서 화상내에서 나타내는 빈도가 높은 제1주변 길이를 구비하여, 그 제1주변 길이를 기준으로 이용하여 상기 문자열 영역을 생성하는 것을 특징으로 하는 타이틀 추출 장치.
- 제3항에 있어서, 상기 문자열 영역 생성 수단은 상기 관계표에 있어서 빈도가 크게 변화하는 주변 길이를 바탕으로 상기 제1주변 길이를 결정하는 것을 특징으로 하는 타이틀 추출 장치.
- 제3항에 있어서, 상기 문자열 영역 생성 수단은 상기 외접 직사각형의 높이 또는 폭을 상기 주변 길이로서 이용하여 상기 막대그래프를 작성하는 것을 특징으로 하는 타이틀 추출 장치.
- 제3항에 있어서, 상기 문자열 영역 생성 수단은 상기 제1주변 길이를 이용하여 임계치를 생성하고, 그 임계치를 이용하여 불필요한 문자 영역을 제거하는 것을 특징으로 하는 타이틀 추출 장치.
- 제6항에 있어서, 상기 문자열 영역 생성 수단은 상기 임계치를 이용하여 도표 또는 사진의 외접 직사각형을 제거하는 것을 특징으로 하는 타이틀 추출 장치.
- 제1항에 있어서, 상기 문자 영역 생성 수단은 상기 블랙 화소 연결 영역의 외접 직사각형을 상기 문자 영역으로서 구하고, 상기 문자열 영역 생성 수단은 각 외접 직사각형의 제1주변을 이용하여, 상기 문서 영역내의 제1방향에서의 외접 직사각형의 분포 범위를 나타내는 제1막대그래프를 작성하여, 그 제1막대그래프의 형상으로부터 외접 직사각형의 그룹을 구하고, 그 그룹마다 처리를 행하는 것을 특징으로 하는 타이틀 추출 장치.
- 제8항에 있어서, 상기 문자열 영역 생성 수단은 각 외접 직사각형의 제2주변을 이용하여 상기 문서영역내의 제2방향에서의 외접 직사각형의 분포 범위를 나타내는 제2막대그래프를 작성하여, 상기 제1 및 제2막대그래프의 형상으로부터 상기 그룹을 구하고, 그 그룹마다 처리를 행하는 것을 특징으로 하는 타이틀 추출장치.
- 제8항에 있어서, 상기 문자열 영역 생성 수단은 상기 제1주변의 중간선상에 정점을 갖는 이등변 삼각형을 작성하고, 그 이등변 삼각형을 이용하여 상기 제1막대그래프를 작성하는 것을 특징으로 하는 타이틀 추출 장치.
- 제8항에 있어서, 상기 문자열 영역 생성 수단은 상기 그룹에 속하는 외접 직사각형을 탐색하여, 중복된 2개 이상의 외접 직사각형을 구하며, 그 2개 이상의 외접 직사각형을 1개의 외접 직사각형으로 통합하는 것을 특징으로 하는 타이틀 추출 장치.
- 제8항에 있어서, 상기 문자열 영역 생성 수단은 상기 그룹에 속하는 외접 직사각형을 탐색하여, 네스트된 외접 직사각형을 구하며, 네스트를 제거하는 것을 특징으로 하는 타이틀 추출 장치.
- 제8항에 있어서, 상기 문자열 영역 생성 수단은 기준으로 하는 제1외접 직사각형이 속하는 그룹내의 외접 직사각형을 탐색하여, 그 제1외접 직사각형에 근접하는 제2외접 직사각형을 구비하고, 그 제1 및 제2외접 직사각형의 연결 관계를 나타내는 연결 관계표를 작성하여, 그 연결 관계표를 이용하여 상기 문자열 영역을 생성하는 것을 특징으로 하는 타이틀 추출 장치.
- 제1항에 있어서, 상기 문자 영역 생성 수단은 상기 블랙 화소 연결 영역의 외접직사각형을 상기 문자 영역으로서 구하고, 상기 문자열 영역 생성 수단은 기준으로 하는 제1외접 직사각형에 근접하는 제2외접 직사각형을 구하며, 그 제1 및 제2외접 직사각형의 연결 관계를 나타내는 연결 관계표를 작성하여, 그 연결 관계표를 이용하여 그 제1 및 제2외접 직삭각형에 동일한 식별 정보를 부가함으로써, 그 제1 및 제2외접 직사각형을 1개의 문자열 영역에 통합하는 것을 특징으로 하는 타이틀 추출 장치.
- 제14항에 있어서, 상기 문자열 영역 생성 수단은 상기 제1외접 직사각형으로부터 상기 제2외접 직사각형으로 향하는 포인터와, 상기 제2외접 직사각형으로부터 상기 제1외접직사각형으로 향하는 포인터 중, 적어도 한쪽을 상기 연결 관계표에 저장하는 것을 특징으로 하는 타이틀 추출 장치.
- 제14항에 있어서, 상기 문자열 영역 생성 수단은 상기 제1외접 직사각형과 상기 제2외접 직사각형의 사이에 테두리선이 있는 경우에 그 제1 및 제2외접 직사각형을 연결하지 않는 것을 특징으로 하는 타이틀 추출 장치.
- 제1항에 있어서, 상기 타이틀 추출 수단은 상기 문자열 영역의 내부를 가로 방향에 복수의 부분 영역으로 분할하고, 각 부분 영역 중에서 블랙 화소 점유율이 큰 부분 세그먼트 영역을 추출하여, 임계치 이상의 높이의 부분 세그먼트 영역에 관하여는 높이를 무시하고, 가로방향으로 연결되어 있는 각부분 세그먼트 영역을 통합하여, 통합된 세그먼트 영역을 추출하는 세그먼트 추출 수단을 가지며, 그 세그먼트 영역을 이용하여 상기 타이틀 영역을 추출하는 것을 특징으로 하는 타이틀 추출 장치.
- 제17항에 있어서, 상기 세그먼트 추출 수단은 상기 문자열 영역의 내부를 중복하는 복수의 부분 영역으로 분할하는 것을 특징으로 하는 타이틀 추출 장치.
- 제17항에 있어서, 상기 세그먼트 추출 수단은 상기 문자열 영역의 폭에 가까운 길이의 상기 세그먼트 영역을 추출하는 것을 특징으로 하는 타이틀 주출 장치.
- 제17항에 있어서, 상기 타이틀 추출 수단은 상기 세그먼트 영역이 상기 문자열 영역내의 하부에 있을 때, 그 세그먼트 영역을 하선으로 판별하여, 그 문자열 영역을 상기 타이틀 영역의 후보로 하는 것을 특징으로 하는 타이틀 추출 장치.
- 제17항에 있어서, 상기 세그먼트 추출 수단은 상기 문자열 영역에서 같은 정도의 좌단 좌표 및 우단 좌표를 갖는 2개의 세그먼트 영역을 추출하여, 그 좌단 좌표 부근에서 세로방향의 블랙 화소의 제3막대그래프를 작성하고, 그 우단 좌표 부근에서 세로 방향의 블랙 화소의 제4막대그래프를 작성하여, 제3 및 제4막대그래프의 피크의 높이가 상기 2개의 세그먼트 영역의 거리 정도이면, 상기 문자열 영역내에 테두리선이 있다고 판정하는 것을 특징으로 하는 타이틀 주출 장치.
- 제1항에 있어서, 상기 타이틀 추출 수단은 상기 복수의 문자열 영역의 속성으로서 하선 속성 또는 프레임 속성을 추출하여, 추출한 속성과 각 문자열 영역의 위치와 문자열 영역 사이의 상대적 위치 관계 중 적어도 1개를 이용하여 각 문자열 영역에 포인트를 부여하고, 높은 포인트의 문자열 영역을 상기 특정 문자열 영역으로 하는 것을 특징으로 하는 타이틀 추출 장치.
- 제22항에 있어서, 상기 타이틀 추출 수단은 하선 속성 또는 프레임 속성이 있는 문자열 영역에 일정한 득점을 부여하는 것을 특징으로 하는 타이틀 추출 장치.
- 제22항에 있어서, 상기 타이틀 추출 수단은 제1방향의 중심 좌표가 상기 문서 화상의 중앙 부근에 있는 문자열 영역에 일정한 득점을 부여하는 것을 특징으로 하는 타이틀 추출 장치.
- 제22항에 있어서, 상기 타이틀 추출 수단은 상하에 있는 문자열 영역과의 거리가 떨어져 있는 문자열 영역에 일정한 득점을 부여하는 것을 특징으로 하는 타이틀 추출 장치.
- 제22항에 있어서, 상기 타이틀 추출 수단은 좌측에 다른 문자열 영역이 없는 문자열 영역에 일정한 득점을 부여하는 것을 특징으로 하는 타이들 추출 장치.
- 제22항에 있어서, 상기 타이틀 추출 수단은 테두리선을 포함하는 제1문자열 영역의 내부에 제2문자열 영역이 있고, 그 제1문자열 영역과 제2문자열 영역이 임계치 이상으로 떨어져 있지 않은 일정한 위치관계에 있는 경우에, 그 제2문자열 영역이 프레임 속성을 가진다고 간주하는 것을 특징으로 하는 타이틀 추출 장치.
- 제1항에 있어서, 상기 타이틀 영역의 위치 또는 사이즈의 정보로부터 다른 문자열 영역의 상대적인 위치 관계 또는 사이즈를 구하고, 그 다른 문자열 영역의 상대적인 위치 관계 또는 사이즈가 특정한 조건을 충족시킬 때, 그 다른 문자열 영역을 수신지 영역으로서 추출하는 수신지 추출 수단을 추가로 구비하는 것을 특징으로 하는 타이틀 추출 장치.
- 제1항에 있어서, 상기 타이틀 영역의 위치 또는 사이즈의 정보로부터 다른 문자열 영역의 상대적인 위치 관계 또는 사이즈를 구하고, 그 다른 문자열 영역의 상대적인 위치 관계 또는 사이즈가 특정한 조건을 충족시킬 때, 그 다른 문자열 영역을 발신지 정보 영역으로서 추출하는 발신지 정보 추출 수단을 추가로 구비하는 것을 특징으로 하는 타이틀 추출 장치.
- 제1항에 있어서, 상기 타이틀 추술 수단은 상기 문서 화상내에서 일정 범위의 사이즈의 문자열 영역이 존재하는 문서영역을 구하고, 그 문서 영역에서 상기 타이틀 영역을 추출하는 것을 특징으로 하는 타이틀 추출 장치.
- 제1항에 있어서, 상기 타이틀 추출 수단은 인접한 2개의 문자열 영역의 사이즈 또는 좌표값이 유사한 경우에, 그 2개의 문자열 영역을 1개의 문자열 영역에 통합하는 것을 특징으로 하는 타이틀 추출 장치.
- 제1항에 있어서, 상기 타이틀 추술 수단은 문자열 영역의 사이즈 또는 형상으로부터 괘선을 표시한다고 판정했을 때, 그 문자열 영역에 괘선 속성을 설정하여 그 괘선 속성을 이용하여 상기 타이틀 영역을 추출하는 것을 특징으로 하는 타이틀 추출 장치.
- 제32항에 있어서, 상기 타이틀 추출 수단은 상기 괘선 속성을 가지는 제3문자열 영역 위에 있는 제4문자열 영역에 하선 속성을 설정하고, 그 제4문자열 영역을 상기 타이틀 영역의 후보로 하는 것을 특징으로 하는 타이틀 추출 장치.
- 문서를 화상 데이타로 변환하여 얻은 문서 화상으로부터 필요로 하는 부분 영역을 취출하여 인식하는 정보 처리 장치에 있어서, 상기 문서 화상내에 연결된 블랙 화소로 이루어지는 블랙 화소 연결 영역을 포함하는 문자 영역을 생성하는 문자 영역 생성 수단과, 상기 문자 영역 생성 수단이 생성한 1개 이상의 문자 영역을 통합하여, 그 1개 이상의 문자 영역을 포함하는 문자열 영역을 생성하는 문자열 영역 생성 수단과, 일정 이상의 크기를 가지는 블랙 화소 연결 영역을 포함하는 표 영역을 추출하고, 해당 표 영역내의 복수의 문자열 영역 중 특정한 문자열 영역을 타이틀 영역으로서 추출하는 타이틀 추출 수단을 구비하는 것을 특징으로 하는 타이틀 추출 장치.
- 제34항에 있어서, 상기 타이틀 추출 수단은 제5문자열 영역의 내부에 괘선이 있는 경우에 그 괘선의 위치에서 그 제5문자열 영역을 분할하는 것을 특징으로 하는 타이틀 추출 장치.
- 제35항에 있어서, 상기 타이틀 추출 수단은 상기 제5문자열 영역내의 복수의 문자 영역의 사이에 블랙 화소가 있는지를 조사하여, 블랙 화소가 있는 위치에서 서 제5문자열 영역을 분할하는 것을 특징으로 하는 타이틀 추출 장치.
- 제35항에 있어서, 상기 타이틀 추출 수단은 상기 제5문자열 영역내의 복수의 문자 영역과, 상기 문자 영역 생성 수단이 그 제5문자열 영역내를 대상으로 하여 다시 구한 복수의 문자 영역과의 차이를 조사하여, 그 차이가 검출된 위치에서 그 제5문자열 영역을 분할하는 것을 특징으로 하는 타이틀 추출 장치.
- 제34항에 있어서, 상기 타이틀 추출 수단은 상기 표 영역내의 제6문자열 영역의 근처의 특정 영역에 괘선이 있는지 없는지를 조사하여, 괘선이 없으면 그 제6문자열 영역을 표밖의 문자열 영역으로 하는 것을 특징으로 하는 타이틀 추출 장치.
- 제38항에 있어서, 상기 타이틀 추출 수단은 상기 표 영역내의 문자열 영역 상호의 위치 관계로부터 상측에 표내 문자열 영역이 없는 문자열 영역을 상기 제6문자열 영역으로 하고, 그 제6문자열 영역의 상측에 있는 상기 특정 영역의 블랙 화소를 탐색하여 일정 임계치 이상의 블랙 화소가 검출된 경우에 그 특정 영역내에 상기 괘선이 있다고 판정하는 것을 특징으로 하는 타이틀 추출 장치.
- 제39항에 있어서, 상기 타이틀 추출 수단은 상기 제6문자열 영역 위의 다른 문자열 영역 또는 표 영역까지의 사이를 상기 특정 영역으로 하고, 상기 임계치를 그 제6문자열 영역과 그 다른 문자열 영역 또는 표 영역과의 위치 관계로부터 결정하는 것을 특징으로 하는 타이틀 추출 장치.
- 제34항에 있어서, 상기 타이틀 추출 수단은 상기 복수의 문자열 영역을 상기 표 영역의 좌상에 가까운 순으로 우선적으로 출력하는 것을 특징으로 하는 타이틀 추출 장치.
- 제41항에 있어서, 문자열 영역 생성 수단은 상기 1개 이상의 문자 영역을 포함하는 문자열 직사각형을 문자열 영역으로서 생성하고, 상기 타이틀 추출 수단은 그 문자열 직사각형의 특정한 정점의 좌표값을 바탕으로, 상기 표 영역내의 복수의 문자열 직사각형에 우선 순위를 붙이는 것을 특징으로 하는 타이틀 추출 장치.
- 제34항에 있어서, 상기 타이를 추출 수단은 상기 복수의 문자열 영역 중, 바람직한 항목 문자열 영역을 항목 영역으로 하고, 바람직한 타이틀 문자열 영역을 상기 타이틀 영역으로서 우선 순위를 붙여서 출력하는 것을 특징으로 하는 타이틀 추출 장치.
- 제43항에 있어서, 상기 타이틀 추출 수단은 소정 항목과 타이틀의 위치 및 문자수의 관계에 해당하는 문자열 영역의 쌍을 구하고, 그 문자열 영역의 쌍을 위에서 순서대로 출력하는 것을 특징으로 하는 타이틀 추출 장치.
- 제43항에 있어서, 상기 타이틀 추출 수단은 상기 복수의 문자열 영역 중 임계치 이상의 문자수를 가지는 제7문자열 영역을 상기 항목 영역으로서 출력하는 것을 특징으로 하는 타이틀 추출 장치.
- 제45항에 있어서, 상기 타이틀 추출 수단은 상기 제7문자열 영역의 우측의 문자열 영역을 상기 타이틀영역으로서 출력하는 것을 특징으로 하는 타이틀 추출 장치.
- 제43항에 있어서, 상기 타이틀 추출 수단은 상기 복수의 문자열 영역 중, 임계치 미만의 문자수를 가지는 제8문자열 영역을 상기 항목 영역으로서 출력하고, 그 제8문자열 영역의 우측에 있어서 그 임계치 이상의 문자수를 가지는 문자열 영역을 상기 타이틀 영역으로서 출력하는 것을 특징으로 하는 타이틀 추출 장치.
- 정보 처리 장치에 의해 이용되는 기억 매체로서, 그 정보 처리 장치가 문서을 화상 데이타로 변환하여 얻은 문서 화상내에 연결된 블랙 화소로 이루어지는 블랙 화소 연결 영역을 포함하는 문자 영역을 생성하고, 1개 이상의 문자 영역을 통합하여 그 1개 이상의 문자 영역을 포함하는 문자열 영역을 생성하며, 복수의 문자열 영역의 속성에 기초하여 그 복수의 문자열 영역 중 특정한 문자열 영역을 타이틀 영역으로서 추출하도록 유도하는 것을 특징으로 하는 기억매체.
- 정보 처리 장치에 의해 이용되는 기억매체로서, 그 정보 처리 장치가 문서를 화상 데이타로 변환하여 얻어진 문서 화상내에 연결된 블랙 화소로 이루어지는 블랙 화소 연결 영역을 포함하는 문자 영역을 생성하고, 1개 이상의 문자 영역을 통합하여 그 1개 이상의 문자 영역을 포함하는 문자열 영역을 생성하며, 일정 이상의 크기를 가지는 블랙 화소 연결 영역을 포함하는 표 영역을 추출하여, 그 표 영역내의 복수의 문자열 영역 중, 특정한 문자열 영역을 타이틀 영역으로서 추출하도록 유도하는 것을 특징으로 하는 기억매체.
- 문서를 화상 데이타로 변환하여 문서 화상을 생성하는 단계와, 그 문서 화상내에 연결된 블랙 화소로 이루어지는 블랙 화소 연결 영역을 포함하는 문자 영역을 생성하는 단계와, 1개 이상의 문자 영역을 통합하여 그 1개 이상의 문자 영역을 포함하는 문자열 영역을 생성하는 단계와, 복수의 문자열 영역의 속성에 기초하여 그 복수의 문자열 영역 중 특정한 문자열 영역을 타이틀 영역으로서 추출하는 단계와, 그 타이틀 영역에 포함되는 문자를 인식하는 단계를 포함하는 것을 특징으로 하는 타이틀 추출 방법.
- 문서를 화상 데이타로 변환하여 문서 화상을 생성하는 단계와, 그 문서 화상내에 연결된 블랙 화소로 이루어지는 블랙 화소 연결 영역을 포함하는 문자 영역을 생성하는 단계와, 1개 이상의 문자 영역을 통합하여 그 1개 이상의 문자 영역을 포함하는 문자열 영역을 생성하는 단계와, 일정 이상의 크기를 가지는 블랙 화소 연결 영역을 포함하는 표 영역을 추출하는 단계와, 그 표 영역내의 복수의 문자열 영역 중, 특정한 문자열 영역을 타이틀 영역으로서 추출하는 단계와, 그 타이틀 영역에 포함되는 문자를 인식하는 단계를 포함하는 것을 특징으로 하는 타이틀 추출 방법.※ 참고사항 : 최초출원 내용에 의하여 공개하는 것임.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP22950895 | 1995-09-06 | ||
JP95-229508 | 1995-09-06 | ||
JP34198395A JP3425834B2 (ja) | 1995-09-06 | 1995-12-28 | 文書画像からのタイトル抽出装置および方法 |
JP95-341983 | 1995-12-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR970017047A true KR970017047A (ko) | 1997-04-28 |
KR100311633B1 KR100311633B1 (ko) | 2001-12-17 |
Family
ID=26528832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019960035503A KR100311633B1 (ko) | 1995-09-06 | 1996-08-26 | 문서화상으로부터의타이틀추출장치및방법 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6035061A (ko) |
EP (1) | EP0762730B1 (ko) |
JP (1) | JP3425834B2 (ko) |
KR (1) | KR100311633B1 (ko) |
CN (5) | CN1094224C (ko) |
DE (1) | DE69624433T2 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100420065B1 (ko) * | 1997-01-20 | 2004-04-17 | 삼성전자주식회사 | 이치화된 혼재 이미지에서 글씨영역과 그림영역을 구분하는 방법 |
US6728403B1 (en) | 2000-01-21 | 2004-04-27 | Electronics And Telecommunications Research Institute | Method for analyzing structure of a treatise type of document image |
Families Citing this family (72)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6327387B1 (en) | 1996-12-27 | 2001-12-04 | Fujitsu Limited | Apparatus and method for extracting management information from image |
US5950196A (en) * | 1997-07-25 | 1999-09-07 | Sovereign Hill Software, Inc. | Systems and methods for retrieving tabular data from textual sources |
JPH11203305A (ja) * | 1998-01-12 | 1999-07-30 | Ricoh Co Ltd | 文書画像処理方法および記録媒体 |
JP3881439B2 (ja) * | 1998-01-23 | 2007-02-14 | シャープ株式会社 | 画像処理装置 |
US7099507B2 (en) | 1998-11-05 | 2006-08-29 | Ricoh Company, Ltd | Method and system for extracting title from document image |
JP3574584B2 (ja) * | 1998-12-16 | 2004-10-06 | 富士通株式会社 | 表画像処理装置及びそのプログラム記憶媒体 |
US7035463B1 (en) * | 1999-03-01 | 2006-04-25 | Matsushita Electric Industrial Co., Ltd. | Document image processor, method for extracting document title, and method for imparting document tag information |
WO2000062243A1 (fr) * | 1999-04-14 | 2000-10-19 | Fujitsu Limited | Procede et dispositif d'extraction de chaines de caracteres utilisant un composant de base d'une image de document |
US20020143804A1 (en) * | 2001-04-02 | 2002-10-03 | Dowdy Jacklyn M. | Electronic filer |
JP2002342710A (ja) * | 2001-05-16 | 2002-11-29 | Nec Corp | 文字切出し装置及びそれに用いる文字切出し方法並びにそのプログラム |
JP2003058556A (ja) * | 2001-08-16 | 2003-02-28 | Ricoh Co Ltd | 文書画像のタイトル抽出方法、抽出プログラム、及びタイトル抽出装置 |
US6801673B2 (en) | 2001-10-09 | 2004-10-05 | Hewlett-Packard Development Company, L.P. | Section extraction tool for PDF documents |
JP2004070523A (ja) | 2002-08-02 | 2004-03-04 | Canon Inc | 情報処理装置およびその方法 |
US7079686B2 (en) * | 2002-08-20 | 2006-07-18 | Lexmark International, Inc. | Systems and methods for content-based document image enhancement |
JP4113804B2 (ja) * | 2003-03-19 | 2008-07-09 | 株式会社リコー | 画像処理装置及び画像処理プログラム |
JP2006085582A (ja) * | 2004-09-17 | 2006-03-30 | Fuji Xerox Co Ltd | 文書処理装置およびプログラム |
CN100444194C (zh) * | 2005-10-27 | 2008-12-17 | 富士施乐株式会社 | 文章标题及关联信息的自动抽取装置和抽取方法 |
CN101226596B (zh) * | 2007-01-15 | 2012-02-01 | 夏普株式会社 | 文档图像处理装置以及文档图像处理方法 |
US8594387B2 (en) * | 2007-04-23 | 2013-11-26 | Intel-Ge Care Innovations Llc | Text capture and presentation device |
JP4804417B2 (ja) * | 2007-05-17 | 2011-11-02 | キヤノン株式会社 | 動画撮像装置及び動画撮像方法 |
US8094202B2 (en) | 2007-05-17 | 2012-01-10 | Canon Kabushiki Kaisha | Moving image capture apparatus and moving image capture method |
US7932907B2 (en) * | 2007-05-21 | 2011-04-26 | Microsoft Corp. | Layered graph layouts with a given aspect ratio |
CN101354705B (zh) * | 2007-07-23 | 2012-06-13 | 夏普株式会社 | 文档图像处理装置和文档图像处理方法 |
CN101354703B (zh) * | 2007-07-23 | 2010-11-17 | 夏普株式会社 | 文档图像处理装置和文档图像处理方法 |
CN101354704B (zh) * | 2007-07-23 | 2011-01-12 | 夏普株式会社 | 字形特征字典制作装置及具备该装置的文档图像处理装置 |
JP4476318B2 (ja) * | 2007-10-31 | 2010-06-09 | 富士通株式会社 | 論理構造認識プログラム、論理構造認識装置、および論理構造認識方法 |
JP6051827B2 (ja) * | 2012-12-07 | 2016-12-27 | 株式会社リコー | 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム |
US8233671B2 (en) * | 2007-12-27 | 2012-07-31 | Intel-Ge Care Innovations Llc | Reading device with hierarchal navigation |
US8185398B2 (en) * | 2007-12-31 | 2012-05-22 | Intel-Ge Care Innovations Llc | Reading device with shortcut read function |
CN101493896B (zh) * | 2008-01-24 | 2013-02-06 | 夏普株式会社 | 文档图像处理装置及文档图像处理方法 |
CN101551859B (zh) * | 2008-03-31 | 2012-01-04 | 夏普株式会社 | 图像辨别装置及图像检索装置 |
US7471826B1 (en) | 2008-03-31 | 2008-12-30 | International Business Machines Corporation | Character segmentation by slices |
US8180788B2 (en) * | 2008-06-05 | 2012-05-15 | Enpulz, L.L.C. | Image search engine employing image correlation |
JP5217814B2 (ja) * | 2008-09-10 | 2013-06-19 | 株式会社リコー | 画像処理装置、画像処理方法、制御プログラム及び記録媒体 |
US8620080B2 (en) * | 2008-09-26 | 2013-12-31 | Sharp Laboratories Of America, Inc. | Methods and systems for locating text in a digital image |
JP2010134561A (ja) * | 2008-12-02 | 2010-06-17 | Hitachi Software Eng Co Ltd | 業務文書処理装置 |
JP5321109B2 (ja) * | 2009-02-13 | 2013-10-23 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP5357612B2 (ja) * | 2009-04-13 | 2013-12-04 | 株式会社日立ソリューションズ | 下線除去装置 |
CN101635058B (zh) * | 2009-06-30 | 2011-06-01 | 方正国际软件(北京)有限公司 | 一种检测页边的方法及装置 |
JP5340847B2 (ja) | 2009-07-27 | 2013-11-13 | 株式会社日立ソリューションズ | 文書データ処理装置 |
JP5663866B2 (ja) | 2009-08-20 | 2015-02-04 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP5712487B2 (ja) | 2009-09-04 | 2015-05-07 | 株式会社リコー | 画像処理装置、画像処理システム、画像処理方法、及びプログラム |
CN102081736B (zh) * | 2009-11-27 | 2014-11-26 | 株式会社理光 | 从可移植电子文档中提取字符外接矩形的设备和方法 |
JP5488077B2 (ja) * | 2010-03-15 | 2014-05-14 | オムロン株式会社 | 文字列検知装置、文字評価装置、画像処理装置、文字列検知方法、文字評価方法、制御プログラムおよび記録媒体 |
JP5591578B2 (ja) * | 2010-04-19 | 2014-09-17 | 日本電産サンキョー株式会社 | 文字列認識装置および文字列認識方法 |
JP5621169B2 (ja) * | 2010-05-26 | 2014-11-05 | 日立オムロンターミナルソリューションズ株式会社 | 帳票認識装置および帳票認識方法 |
JP5508953B2 (ja) | 2010-06-28 | 2014-06-04 | 株式会社日立ソリューションズ | 文書処理装置及びプログラム |
CN102402693B (zh) * | 2010-09-09 | 2014-07-30 | 富士通株式会社 | 处理包含字符的图像的方法和设备 |
JP5653817B2 (ja) * | 2011-03-29 | 2015-01-14 | 日立オムロンターミナルソリューションズ株式会社 | 帳票認識装置、帳票認識方法およびそのためのプログラム |
JP5742399B2 (ja) * | 2011-04-06 | 2015-07-01 | 富士ゼロックス株式会社 | 画像処理装置及びプログラム |
JP5847807B2 (ja) * | 2011-04-18 | 2016-01-27 | キヤノン株式会社 | データ処理装置、データ処理装置の制御方法、及びプログラム |
JP5594269B2 (ja) * | 2011-09-29 | 2014-09-24 | コニカミノルタ株式会社 | ファイル名作成装置、画像形成装置、およびファイル名作成プログラム |
EP2579217A1 (de) * | 2011-10-04 | 2013-04-10 | Deutsche Post AG | Verfahren und Vorrichtung für die Markierung von Wertlabeln |
EP2579222A1 (de) * | 2011-10-04 | 2013-04-10 | Deutsche Post AG | Automatische Überprüfung von Wertlabeln |
CN102426564A (zh) * | 2011-11-01 | 2012-04-25 | 无敌科技(西安)有限公司 | 一种矢量斜体字的反白方法 |
JP5279930B1 (ja) * | 2012-03-27 | 2013-09-04 | 株式会社東芝 | サーバ、電子機器、サーバの制御方法、サーバの制御プログラム |
JP2014013534A (ja) * | 2012-07-05 | 2014-01-23 | Ricoh Co Ltd | 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム |
JP6204076B2 (ja) * | 2013-06-10 | 2017-09-27 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 文章領域読み取り順序判定装置、文章領域読み取り順序判定方法及び文章領域読み取り順序判定プログラム |
JP6303531B2 (ja) * | 2014-01-22 | 2018-04-04 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
JP6050843B2 (ja) * | 2015-01-30 | 2016-12-21 | 株式会社Pfu | 情報処理装置、方法およびプログラム |
CN107368236B (zh) * | 2017-04-19 | 2020-08-25 | 阿里巴巴集团控股有限公司 | 一种信息目录中标题的展示方法及装置 |
JP6753370B2 (ja) * | 2017-07-12 | 2020-09-09 | 京セラドキュメントソリューションズ株式会社 | 原稿読取装置 |
CN107291677A (zh) * | 2017-07-14 | 2017-10-24 | 北京神州泰岳软件股份有限公司 | 一种pdf文档标题结构树生成方法、装置、终端及系统 |
US11475209B2 (en) | 2017-10-17 | 2022-10-18 | Handycontract Llc | Device, system, and method for extracting named entities from sectioned documents |
WO2019077405A1 (en) * | 2017-10-17 | 2019-04-25 | Handycontract, LLC | METHOD, DEVICE AND SYSTEM FOR IDENTIFYING DATA ELEMENTS IN DATA STRUCTURES |
CN108021711A (zh) * | 2017-12-28 | 2018-05-11 | 深圳市巨鼎医疗设备有限公司 | 一种信息处理的方法 |
US10572587B2 (en) * | 2018-02-15 | 2020-02-25 | Konica Minolta Laboratory U.S.A., Inc. | Title inferencer |
JP7439435B2 (ja) * | 2019-09-30 | 2024-02-28 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
US11335108B2 (en) | 2020-08-10 | 2022-05-17 | Marlabs Incorporated | System and method to recognise characters from an image |
CN112101323B (zh) * | 2020-11-18 | 2021-02-02 | 北京智慧星光信息技术有限公司 | 标题列表的识别方法、系统、电子设备及存储介质 |
JP7417116B2 (ja) * | 2020-12-28 | 2024-01-18 | キヤノンマーケティングジャパン株式会社 | 情報処理システム、情報処理方法、プログラム |
TWI769809B (zh) * | 2021-05-06 | 2022-07-01 | 廣達電腦股份有限公司 | 內容擷取系統及內容擷取方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6126150A (ja) * | 1984-07-17 | 1986-02-05 | Nec Corp | 文書画像フアイル登録検索装置 |
JPS6126149A (ja) * | 1984-07-17 | 1986-02-05 | Nec Corp | 文書画像フアイル登録検索装置 |
US5185813A (en) * | 1988-01-19 | 1993-02-09 | Kabushiki Kaisha Toshiba | Document image processing apparatus |
JP2569134B2 (ja) * | 1988-07-25 | 1997-01-08 | 富士電機株式会社 | 文字列抽出方法 |
JP2812982B2 (ja) * | 1989-04-05 | 1998-10-22 | 株式会社リコー | 表認識方法 |
JP2890482B2 (ja) * | 1989-06-13 | 1999-05-17 | 富士ゼロックス株式会社 | 文書画像再配置ファイリング装置 |
JP2968284B2 (ja) * | 1989-07-12 | 1999-10-25 | 富士通株式会社 | 文字認識装置およびその文字領域分離方法 |
JPH04207571A (ja) * | 1990-11-30 | 1992-07-29 | Toshiba Corp | ファクシミリ装置 |
JP3149221B2 (ja) * | 1991-03-27 | 2001-03-26 | 株式会社リコー | 画像処理装置 |
JPH0520505A (ja) * | 1991-07-16 | 1993-01-29 | Nec Home Electron Ltd | 文字認識装置 |
JP3278471B2 (ja) * | 1991-11-29 | 2002-04-30 | 株式会社リコー | 領域分割方法 |
JPH05274367A (ja) * | 1992-03-25 | 1993-10-22 | Toshiba Corp | 画像記憶装置 |
JP3253356B2 (ja) * | 1992-07-06 | 2002-02-04 | 株式会社リコー | 文書画像の領域識別方法 |
JPH06103402A (ja) * | 1992-09-18 | 1994-04-15 | Sony Corp | 名刺認識装置 |
JP3278221B2 (ja) * | 1993-01-11 | 2002-04-30 | キヤノン株式会社 | 画像処理方法及び装置 |
-
1995
- 1995-12-28 JP JP34198395A patent/JP3425834B2/ja not_active Expired - Fee Related
-
1996
- 1996-08-07 DE DE69624433T patent/DE69624433T2/de not_active Expired - Lifetime
- 1996-08-07 EP EP96112721A patent/EP0762730B1/en not_active Expired - Lifetime
- 1996-08-07 US US08/694,503 patent/US6035061A/en not_active Expired - Lifetime
- 1996-08-26 KR KR1019960035503A patent/KR100311633B1/ko not_active IP Right Cessation
- 1996-09-04 CN CN961118970A patent/CN1094224C/zh not_active Expired - Fee Related
- 1996-09-04 CN CNB011359439A patent/CN1269068C/zh not_active Expired - Fee Related
- 1996-09-04 CN CNB011359463A patent/CN100501760C/zh not_active Expired - Fee Related
-
2001
- 2001-10-29 CN CNB011359455A patent/CN1220163C/zh not_active Expired - Fee Related
- 2001-10-29 CN CNB011359447A patent/CN1220162C/zh not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100420065B1 (ko) * | 1997-01-20 | 2004-04-17 | 삼성전자주식회사 | 이치화된 혼재 이미지에서 글씨영역과 그림영역을 구분하는 방법 |
US6728403B1 (en) | 2000-01-21 | 2004-04-27 | Electronics And Telecommunications Research Institute | Method for analyzing structure of a treatise type of document image |
Also Published As
Publication number | Publication date |
---|---|
CN1220162C (zh) | 2005-09-21 |
EP0762730A2 (en) | 1997-03-12 |
CN100501760C (zh) | 2009-06-17 |
CN1094224C (zh) | 2002-11-13 |
EP0762730B1 (en) | 2002-10-23 |
US6035061A (en) | 2000-03-07 |
KR100311633B1 (ko) | 2001-12-17 |
DE69624433D1 (de) | 2002-11-28 |
CN1495660A (zh) | 2004-05-12 |
JP3425834B2 (ja) | 2003-07-14 |
DE69624433T2 (de) | 2003-03-06 |
CN1153955A (zh) | 1997-07-09 |
CN1365078A (zh) | 2002-08-21 |
CN1365079A (zh) | 2002-08-21 |
CN1365080A (zh) | 2002-08-21 |
JPH09134406A (ja) | 1997-05-20 |
CN1269068C (zh) | 2006-08-09 |
CN1220163C (zh) | 2005-09-21 |
EP0762730A3 (en) | 1998-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR970017047A (ko) | 문서 화상으로부터의 타이틀 추출 장치 및 방법 | |
US6754385B2 (en) | Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof | |
Kise et al. | Segmentation of page images using the area Voronoi diagram | |
US5774580A (en) | Document image processing method and system having function of determining body text region reading order | |
JP3359095B2 (ja) | 画像処理方法及び装置 | |
US20070041642A1 (en) | Post-ocr image segmentation into spatially separated text zones | |
Clark et al. | Rectifying perspective views of text in 3D scenes using vanishing points | |
Dori et al. | Segmentation and recognition of dimensioning text from engineering drawings | |
Chowdhury et al. | Segmentation of text and graphics from document images | |
JP4011646B2 (ja) | 行検出方法および文字認識装置 | |
Nguyen et al. | Enhanced character segmentation for format-free Japanese text recognition | |
JPS61117670A (ja) | 文字切り出し処理方式 | |
JP3476595B2 (ja) | 画像領域分割方法、および画像2値化方法 | |
JP3095470B2 (ja) | 文字認識装置 | |
JPH0728935A (ja) | 文書画像処理装置 | |
JPH0452783A (ja) | 図面読取装置 | |
Zhang et al. | Using Orientation Voting to Extract Text Lines with Various Mixed Directions from a Document Image | |
JPH03142691A (ja) | 表形式文書認識方式 | |
JP3517077B2 (ja) | パターン抽出装置及びパターン領域の切り出し方法 | |
JPS60238986A (ja) | 文字認識装置のパタ−ンマツチング方式 | |
JPH0728930A (ja) | 文字認識装置 | |
JPH05274472A (ja) | 画像認識装置 | |
JPH03189888A (ja) | 図面読取装置における文字列の種類決定装置 | |
JPH0628520A (ja) | 文字認識装置 | |
JPH03161888A (ja) | 光学的文字読取装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130903 Year of fee payment: 13 |
|
FPAY | Annual fee payment |
Payment date: 20140901 Year of fee payment: 14 |
|
LAPS | Lapse due to unpaid annual fee |