KR20130096004A - 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템 및 그 방법 - Google Patents

문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템 및 그 방법 Download PDF

Info

Publication number
KR20130096004A
KR20130096004A KR1020120017474A KR20120017474A KR20130096004A KR 20130096004 A KR20130096004 A KR 20130096004A KR 1020120017474 A KR1020120017474 A KR 1020120017474A KR 20120017474 A KR20120017474 A KR 20120017474A KR 20130096004 A KR20130096004 A KR 20130096004A
Authority
KR
South Korea
Prior art keywords
document
information
analyzing
tables
analyzer
Prior art date
Application number
KR1020120017474A
Other languages
English (en)
Other versions
KR101316780B1 (ko
Inventor
리우 잉
김성찬
한기준
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020120017474A priority Critical patent/KR101316780B1/ko
Publication of KR20130096004A publication Critical patent/KR20130096004A/ko
Application granted granted Critical
Publication of KR101316780B1 publication Critical patent/KR101316780B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템 및 그 방법에 관한 것이다.
본 발명의 따른 실시예는, 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템에 있어서, 하나 이상의 테이블을 포함하는 상기 문서를 업로드하는 인터페이스부; 상기 인터페이스부를 통해 업로드된 상기 문서의 상기 테이블에 포함된 정보를 추출하는 추출기; 상기 추출기를 통해 추출된 상기 테이블의 정보를 사용하여 상기 테이블의 특징을 파악하는 분석기; 상기 분석기를 통해 파악된 상기 테이블의 특징에 따라 상기 테이블을 자동 분류하는 분류기; 상기 분류기에 의해 분류된 상기 테이블과 기 분류된 테이블들을 추가 분석하여 저장하는 융합기를 포함하는 것을 특징으로 하는 테이블 자동분류 시스템 및 그 방법을 제공한다.

Description

문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템 및 그 방법 {Automatic Table Classification Method and System based on Information in Table within Document}
본 발명의 실시예는 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템 및 그 방법에 관한 것이다. 더욱 상세하게는, 다수의 테이블을 포함한 문서를 업로드하여, 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템을 통해 테이블을 분류, 분류된 테이블의 정보를 이용하는 테이블 기반 검색엔진을 구현하는 테이블 자동분류 시스템 및 그 방법에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.
문서 내의 테이블은 문서가 나타내고자 하는 목표, 방법, 수단과 그 결과 등에 대한 내용을 함축적으로 보여주는 매우 중요한 컨텐츠로, 특히 과학 문서에서 테이블은 간결한 방식으로 실험 결과를 나타내거나 통계적 데이터를 표현하는 데 사용된다. 이러한 테이블을 사용하면 연구의 주된 내용을 파악하는 데 있어서 효율적일 뿐만 아니라 연구자가 의도한 바를 쉽게 이해할 수 있다. 그러나 현재 검색엔진은 테이블 기반의 검색을 지원하지 않는다. 이는 범용 테이블 메타데이터(MetaData)의 부족과 검색된 테이블의 우선순위를 정하는 랭킹 방식의 한계 때문에 문서로부터 테이블을 자동 추출하는 것이 어렵기 때문이다.
이를 대처하기 위한 기존의 검색엔진은 테이블시어(Tableseer)와 바이오텍스트(BioText)가 있다. 테이블시어는 전통적인 키워드 기반의 테이블 검색으로 키워드를 통해 검색된 문서에서 페이지박스 커팅 방법(Novel Page Box―Cutting Method)을 사용하여 테이블을 발견, 테이블의 메타데이터를 추출하고 분류한다. 분류된 테이블은 테이블 랭킹 알로리즘을 통해 검색어에 적절한 테이블의 우선 순서를 정한 후 최종 인터페이스에 표시되는 방법이다. 바이오텍스트는 생물학자들이 과학전 문헌에 접근할 수 있는 방법을 제공하는 웹 기반 응용 프로그램으로 마찬가지로 입력된 검색어에 적절한 문서의 그림과 캡션을 검색하고 탐색할 수 있는 방법이다. 하지만 이런 검색엔진은 단순히 키워드 기반의 테이블 검색만이 가능하기 때문에 필요한 정보를 찾고자 하는데 있어서 신뢰성이 떨어진다는 한계가 있다.
이에 HTML의 소스 페이지부터 검색어와 관련된 테이블 정보를 검색하여 사용할 수 있는 Mesa 검색엔진이나, 구글의 "Search By Image"를 사용하여 업로드 된 실제 이미지나 비디오 컨텐츠로부터 검색어를 선정하여 관련된 이미지를 찾는 방법과 유사한 연구가 시행되어 왔으나 이 역시 키워드 기반의 테이블 검색에 크게 벗어나지 않기 때문에 테이블 기반의 검색 방식을 이용하여 문서로부터 테이블을 자동 추출하는 할 수 없다는 점에 있어서 한계가 있다.
전술한 문제점을 해결하기 위해 본 실시예는, 다수의 테이블을 포함한 문서를 업로드 하여, 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템을 통해 테이블을 분류, 분류된 테이블의 정보를 이용하는 테이블 기반 검색엔진을 구현하는 테이블 자동분류 시스템 및 그 방법을 제공하여 필요한 정보를 효과적으로 찾고자 하는데 주된 목적이 있다.
전술한 목적을 달성하기 위해 본 실시예는, 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템에 있어서, 하나 이상의 테이블을 포함하는 상기 문서를 업로드하는 인터페이스부; 상기 인터페이스부를 통해 업로드된 상기 문서의 상기 테이블에 포함된 정보를 추출하는 추출기; 상기 추출기를 통해 추출된 상기 테이블의 정보를 사용하여 상기 테이블의 특징을 파악하는 분석기; 상기 분석기를 통해 파악된 상기 테이블의 특징에 따라 상기 테이블을 자동 분류하는 분류기; 상기 분류기에 의해 분류된 상기 테이블과 기 분류된 테이블들을 추가 분석하여 저장하는 융합기를 포함하는 것을 특징으로 하는 테이블 자동분류 시스템을 제공한다.
또한, 본 실시에의 다른 측면에 의하면, 사용자에 의해 입력된 하나 이상의 테이블을 가지는 문서를 추가하는 인터페이스부; 상기 인터페이스부에 의해 추가된 상기 문서에서 상기 테이블의 정보를 수집하는 추출기; 상기 수집된 상기 테이블의 정보를 사용하여 상기 테이블의 특징을 파악하는 분석기; 상기 분석기를 통해 파악된 상기 테이블의 특징을 사용하여 상기 테이블을 자동분류하는 분류기; 및 상기 분류기에 의해 분류된 상기 테이블과 기 분류된 테이블들을 추가 분석하고 타입에 따라 저장하는 융합기를 포함하되, 상기 분석기는, 상기 테이블의 내용을 분석하는 내용 분석부; 상기 테이블과 연관된 상기 문서의 본문 내용을 분석하는 본문 분석부; 상기 테이블의 위치를 분석하는 위치 분석부; 및 상기 테이블의 구조를 분석하는 구조 분석부를 포함하는 것을 특징으로 하는 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템을 제공한다.
또한, 본 실시에의 다른 측면에 의하면, 사용자에 의해 입력된 하나 이상의 테이블을 가지는 문서를 추가하는 인터페이스부; 상기 인터페이스부에 의해 추가된 상기 문서에서 상기 테이블의 정보를 수집하는 추출기; 상기 수집된 상기 테이블의 정보를 사용하여 상기 테이블의 특징을 파악하는 분석기; 상기 분석기를 통해 파악된 상기 테이블의 특징을 사용하여 상기 테이블을 자동분류하는 분류기; 및 상기 분류기에 의해 분류된 상기 테이블과 기 분류된 테이블들을 추가 분석하고 타입에 따라 저장하는 융합기를 포함하되, 상기 분류기는, 상기 분석기에 의해 분석된 상기 테이블의 정보와 기 분석된 타 문서 내 테이블과의 유사도를 비교하는 유사도 계산부; 상기 분석된 테이블의 정보를 추가하는 분류기 학습부; 및 상기 분석된 테이블의 정보를 상기 테이블의 구조와 구성에 따라 분류하는 테이블 분류부를 포함하는 것을 특징으로 하는 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템을 제공한다.
또한, 본 실시에의 다른 측면에 의하면, 사용자에 의해 입력된 하나 이상의 테이블을 가지는 문서를 추가하는 인터페이스부; 상기 인터페이스부에 의해 추가된 상기 문서에서 상기 테이블의 정보를 수집하는 추출기; 상기 수집된 상기 테이블의 정보를 사용하여 상기 테이블의 특징을 파악하는 분석기; 상기 분석기를 통해 파악된 상기 테이블의 특징을 사용하여 상기 테이블을 자동분류하는 분류기; 및 상기 분류기에 의해 분류된 상기 테이블과 기 분류된 테이블들을 추가 분석하고 타입에 따라 저장하는 융합기를 포함하되, 상기 융합기는, 상기 분류기에 의해 자동으로 분류된 상기 테이블을 태깅하는 테이블 태깅부; 및 동일한 특징을 갖는 테이블들을 분류, 관리하고 저장하는 클러스터 관리부를 포함하는 것을 특징으로 하는 테이블 자동분류 시스템을 제공한다.
또한, 본 실시에의 다른 측면에 의하면, 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류의 방법에 있어서, 다수의 테이블을 포함하는 상기 문서를 업로드 시키는 과정; 상기 문서의 상기 테이블의 정보를 추출하는 과정; 상기 정보를 추출하는 과정을 통해 추출된 상기 테이블의 정보를 분석하는 과정; 상기 분석하는 과정을 통해 분석된 상기 테이블의 정보에 따라 상기 테이블을 분류하는 과정; 및 상기 분류하는 과정을 통해 분류된 상기 테이블을 관리하고 저장하는 과정을 포함하는 것을 특징으로 하는 테이블 자동분류 방법을 제공한다.
또한, 본 실시에의 다른 측면에 의하면, 사용자에 의해 복수의 테이블을 가지는 문서를 추가하는 과정; 상기 문서를 추가하는 과정을 통해 추가된 상기 문서에서 상기 테이블의 정보를 수집하는 과정; 상기 수집된 상기 테이블의 정보를 분석하는 과정; 상기 분석하는 과정을 통해 분석된 상기 테이블의 정보를 이용하여 상기 테이블을 자동 분류하는 과정; 및 상기 분류하는 과정을 통해 분류된 상기 테이블을 타입에 따라 관리하고 저장하는 과정을 포함하되, 상기 테이블의 정보를 분석하는 과정은, 상기 테이블의 내용을 분석하는 과정; 상기 테이블과 연관된 상기 문서의 본문의 내용을 분석하는 과정; 상기 테이블의 위치를 분석하는 과정; 및 상기 테이블의 구조를 분석하는 과정을 포함하는 것을 특징으로 하는 테이블 자동분류 방법을 제공한다.
또한, 본 실시에의 다른 측면에 의하면, 사용자에 의해 복수의 테이블을 가지는 문서를 추가하는 과정; 상기 문서를 추가하는 과정을 통해 추가된 상기 문서에서 상기 테이블의 정보를 수집하는 과정; 상기 수집된 상기 테이블의 정보를 분석하는 과정; 상기 분석하는 과정을 통해 분석된 상기 테이블의 정보를 이용하여 상기 테이블을 자동분류하는 과정; 및 상기 분류하는 과정을 통해 분류된 상기 테이블을 타입에 따라 관리하고 저장하는 과정을 포함하되, 상기 테이블을 자동분류하는 과정은, 상기 분석하는 과정에 의해 분석된 상기 테이블의 정보와 기 분석된 타 문서 내 테이블과의 유사도를 비교하는 과정; 상기 테이블의 정보를 추가하는 과정; 및 상기 테이블을 상기 테이블의 구조와 구성에 따라 분류하는 과정을 포함하는 것을 특징으로 하는 테이블 자동분류 방법을 제공한다.
또한, 본 실시에의 다른 측면에 의하면, 사용자에 의해 복수의 테이블을 가지는 문서를 추가하는 과정; 상기 문서를 추가하는 과정을 통해 추가된 상기 문서에서 상기 테이블의 정보를 수집하는 과정; 상기 수집된 상기 테이블의 정보를 분석하는 과정; 상기 분석하는 과정을 통해 분석된 상기 테이블의 정보를 이용하여 상기 테이블을 자동분류하는 과정; 및 상기 분류하는 과정을 통해 분류된 상기 테이블을 타입에 따라 관리하고 저장하는 과정을 포함하되, 상기 테이블을 타입에 따라 관리하고 저장하는 과정은, 상기 자동분류하는 과정에 의해 자동으로 분류된 상기 테이블의 정보를 대표할 수 있는 키워드 또는 태그를 다는 태깅하는 과정; 및 상기 태깅하는 과정에 의해 태깅된 테이블들을 각각의 특징에 따라 분류, 관리하고 저장하는 과정을 포함하는 것을 특징으로 하는 테이블 자동분류 방법을 제공한다.
이상에서 설명한 바와 같이 본 실시예에 의하면, 다수의 테이블을 포함한 문서를 업로드 하여, 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템을 통해 테이블을 분류, 분류된 테이블의 정보를 이용하는 테이블 기반 검색엔진을 구현하는 테이블 자동분류 시스템 및 그 방법을 제공하여 필요한 정보를 효과적으로 찾을 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 다수의 테이블을 포함한 문서로부터 추출된 테이블의 정보를 분석, 분류 및 관리하는 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템의 구조를 개략적으로 나타낸 블럭 구성도,
도 2는 본 발명의 일 실시예에 따른 사용자에 의해 다수의 테이블을 포함한 문서를 업로드 하는 인터페이스부를 도시한 도면,
도 3은 본 발명의 일 실시예에 따른 추출된 테이블의 정보를 분석하는 분석기의 구조를 개략적으로 나타낸 블럭 구성도,
도 4는 본 발명의 일 실시예에 따른 분석된 테이블의 정보에 따라 테이블을 자동분류하는 분류기의 구조를 개략적으로 나타낸 블럭 구성도,
도 5는 본 발명의 일 실시예에 따른 분류된 테이블을 관리하고 저장하는 융합기의 구조를 개략적으로 나타낸 블럭 구성도,
도 6은 본 발명의 일 실시예에 따른 다수의 테이블을 포함하는 문서로부터 테이블을 자동분류하는 시스템의 방법을 설명하기 위한 순서도,
도 7은 본 발명의 일 실시예에 따른 추출된 테이블의 정보를 분석하는 방법을 설명하기 위한 순서도,
도 8은 본 발명의 일 실시예에 따른 분석된 테이블의 정보에 따라 테이블을 자동분류하는 방법을 설명하기 위한 순서도,
도 9는 본 발명의 일 실시예에 따른 분류된 테이블을 관리하고 저장하는 방법을 설명하기 위한 순서도이다.
이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
도 1은 본 실시예의 다수의 테이블을 포함한 문서로부터 추출된 테이블의 정보를 분석, 분류 및 관리하는 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템의 구조를 개략적으로 나타낸 블럭 구성도이다.
도 1에 도시하듯이 본 발명의 일 실시예에 따른 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템은 인터페이스부(110), 추출기(120), 분석기(130), 분류기(140) 및 융합기(150)를 포함한다.
본 발명의 일 실시예에 따른 인터페이스부(110)를 통해 업로드된 다수의 테이블을 포함하는 문서로부터 추출기(120)를 사용하여 테이블의 정보를 추출하고, 추출된 테이블의 특징을 분석기(130)를 통해 파악하며, 파악된 테이블은 분류기(140)를 통해 분류하고, 융합기(150)를 통해 분류된 테이블과 기 분류된 테이블들을 추가 분석하여 저장한다.
인터페이스부(110)를 통해 업로드되는 문서 내의 테이블은 디지털 도서관에서 흔히 볼 수 있다. 디지털 도서관이란 도서관에 소장되어 있는 도서나 자료의 제목·출판사·저자·출판 연도·면 수·초록 등 서지사항과 본문(Full­Text)을 디지털데이터화 하여 인터넷이나 PC 통신을 통해 제공하는 시스템을 말한다. 최근에는 도서나 자료의 문자정보뿐만 아니라 화상·영상·음성 등 멀티미디어 정보도 제공하고 있다. 이러한 디지털 도서관 문서 내의 테이블은 문서가 나타내고자 하는 내용을 함축적으로 보여준다. 이러한 테이블의 특징은 전문적인 내용을 다루는 문서에서 두드러지게 나타나며 이를 통해, 문서의 전반적인 내용을 파악할 수 있다.
추출기(120)는 문서에서 테이블을 위치를 파악하고 테이블의 제목, 캡션(Caption), 위치, 구조 등을 포함한 메타데이터(MetaData)를 생성하고 테이블의 내용을 추출한다. 메타데이터는 문서의 데이터에 대한 구조화된 데이터로 속성정보라고도 한다. 대량의 정보 가운데서 찾고 있는 정보를 효율적으로 찾아내서 이용하기 위해, 일정한 규칙에 따라 컨텐츠(Content)에 부여되는 데이터로서 여기에는 컨텐츠의 위치와 내용, 작성자에 관한 정보, 권리조건, 이용조건, 이용내력 등이 기록되어있다. 사용자는 메타데이터를 이용하여 자기가 원하는 특정 데이터를 검색엔진 등으로 쉽게 찾아낼 수 있다.
추출기(120)에 의해 추출된 테이블의 정보에 대한 키워드(Key word)들은 기존의 TF-IDF(Term Frequency-Inverse Total Term Frequency) 방법 대신에 TTF(Total Term Frequency)와 ITTF(Inverse Total Term Frequency)에 가중치를 주는 TTF―ITTF 방법을 사용하여 정렬된다. TF―IDF(Term Frequency-Inverse Document Frequency)는 정보 검색과 텍스트 마이닝(Text Mining)에서 사용하는 가중치로, 여러 문서로 이루어진 문서군이 있을 때, 특정 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치이다. 문서의 핵심어를 추출하거나, 검색 엔진에서 검색 결과의 순위를 결정하거나, 문서들 사이의 비슷한 정도를 구하는 등의 용도로 사용한다. TF(단어 빈도수, Term Frequency)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값으로, 이 값이 높을수록 문서에서 중요하다고 생각할 수 있다. 하지만 특정 단어 자체가 문서군 내에서 자주 사용되는 경우, 이것은 그 단어가 흔하게 등장한다는 것을 의미한다. 이것을 DF(문서 빈도수, Document Frequency)라고 하며, 이 값의 역수를 IDF(Inverse Document Frequence)라고 한다. TF-IDF는 TF와 IDF를 곱한 값이다. 하지만 이 방법의 경우, 전체 문서에 대한 단어의 중요도만을 고려하기 때문에 문서 내에 존재하는 테이블과 단어 내에서의 연관성을 반영하기가 어려워 테이블분류의 정확도에 한계가 있다는 단점이 있다. 이를 대처하기 위한 TTF―ITTF 방식은 TTF(전체 테이블에서 단어 빈도수, Total Term Frequency)와 ITTF(총 역단어 빈도, Inverse Total Term Frequency)를 곱한 값으로 ITTF는 특정 테이블을 제외한 나머지 모든 테이블에서 특정 단어의 빈도수를 나타낸다. 이렇듯 TTF와 ITTF에 가중치를 줌으로써 TF-IDF를 사용할 때보다 하나의 테이블에 대한 단어의 중요도를 산출하기 위한 가중치를 좀더 공평하게 나눌 수 있으며 이로 인해 문서분류의 정확도를 높일 수 있다.
또한 다수의 테이블을 포함하는 문서의 형태는 PDF(Portable Document Format), HTML(HyperText Markup Language), Word, PowerPoint 등의 형태가 대부분이나 반드시 이에 한정하지는 않는다.
도 2는 본 실시예의 사용자에 의해 다수의 테이블을 포함한 문서를 업로드 하는 인터페이스부(110)를 도시한 도면이다.
도 2에 도시한 바와 같이, 인터페이스부(110)는 키워드 검색부(210), 파일 업로드부(220) 및 디스플레이부(230)를 포함한다.
키워드 검색부(210)는 기존의 키워드 검색 방식을 사용하여, 도 1의 자동분류 시스템을 통해 기 분류되어 저장되어 있는 테이블에 관한 정보를 검색할 수 있다.
파일 업로드부(220)는 도 1의 테이블 자동분류 시스템을 통해 테이블을 자동분류하기 위하여 다수의 테이블을 포함한 문서를 업로드하며, 기존의 키워드 검색 방식이 아닌, 테이블의 정보를 기반으로 하여 문서 내 테이블 및 분석된 테이블과 관련된, 기 분류된 테이블들을 검색할 수 있다.
디스플레이부(230)는 파일 업로드부(220)을 통해 업로드된 다수의 테이블을 포함한 문서에서, 도 1의 테이블 자동분류 시스템을 통해 분류된 테이블의 결과를 보여주며 분류된 테이블과 관련된, 기 분류된 테이블의 정보와 학습 된 테이블의 정보를 손쉽게 확인 및 사용할 수 있다.
본 발명의 일 실시예에는, 인터페이스부(110)를 키워드 검색부(210), 파일 업로드부(220) 및 디스플레이부(230)만을 포함하는 것으로 기재하고 있으나, 이는 본 발명의 일 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명의 일 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 일 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 인터페이스부(110)에 포함되는 구성 요소에 대하여 다양하게 수정 및 변형하여 적용 가능할 것이다.
도 3은 본 실시예의 추출된 테이블의 정보를 분석하는 분석기(130)의 구조를 개략적으로 나타낸 블럭 구성도이다.
도 3에 도시한 바와 같이, 추출된 테이블의 정보를 분석하는 분석기(130)는 내용 분석부(310), 본문 분석부(320), 위치 분석부(330) 및 구조 분석부(340)를 포함한다.
내용 분석부(310)는 가장 기본적인 테이블의 분석으로, 도 1의 추출기(120)로부터 추출 및 정렬된 테이블의 정보에 대한 표제, 제목, 헤드라인(Headline), 타이틀 헤딩(Title Heading) 등을 표현한 캡션, 키워드(Key Word)를 이용하여 테이블의 내용을 분석한다.
본문 분석부(320)는 내용 분석부(310)를 통해 분석된 테이블의 내용을 이용하여 인터페이스부(110)를 통해 업로드된 문서의 본문에서 해당 테이블에 관한 내용을 언급하고 있는 문장들을 찾아 테이블의 내용을 추가적으로 분석한다.
위치 분석부(330)는 테이블의 위치를 분석한다. 테이블이 문서에서 어느 곳에 위치해 있는지를 분석하는 것은 테이블의 성격을 파악하는 데에 있어 매우 중요한 역할을 한다. 예를 들어 테이블이 문서에 앞 부분에 배치되어 있다면, 테이블은 해당 문서와 그 문서와 관련된 연구에 대한 간략한 설명을 포함하고 있을 것이며, 테이블이 문서의 끝 부분에 배치되어 있다며, 테이블은 해당 문서에 관련된 결과를 포함하고 있을 가능성이 높다. 따라서 테이블의 위치를 확인하여 테이블의 정보를 분석하면 해당 문서의 내용을 파악할 수 있다.
구조 분석부(340)는 테이블의 구조를 분석한다. 테이블은 그 구조에 따라 각기 다른 쓰임새를 가진다. 예를 들어 보조 행이 많은 구조의 테이블의 경우에는 테이블이 문서의 결과를 나타낼 확률이 증가한다. 따라서 테이블의 구조를 확인하여 테이블의 정보를 분석하면 테이블의 중요도를 파악할 수 있으며 테이블의 정보를 분석하는데 있어서 좀더 정확한 데이터를 얻을 수 있다.
도 4는 본 실시예의 분석된 테이블의 정보에 따라 테이블을 자동분류하는 분류기(140)의 구조를 개략적으로 나타낸 블럭 구성도이다.
도 4에 도시한 바와 같이, 분석된 테이블의 정보에 따라 테이블을 자동분류하는 분류기(140)는 유사도 계산부(410), 분류기 학습부(420), 테이블 분류부(430)를 포함한다.
유사도 계산부(410)는 도 3의 분석기(130)의 내용분석부(310), 본문분석부(320), 위치분석부(330), 구조분석부(340)을 통해 분석된 테이블의 정보와 도 1의 테이블 자동분류 시스템을 걸쳐 기 분석, 분류, 관리 및 저장된 타 문서 내 테이블과의 유사도 값을 계산한다.
분류기 학습부(420)는 도 3의 분석기(130)를 통해 분석되고 유사도 계산부를 통해 계산된, 테이블의 정보와 도 1의 테이블 자동분류 시스템을 걸친, 기 분석된 타 문서 내 테이블과의 유사도 값을 확인하여 유사도 값이 높은 경우에는 테이블의 정보를 학습 및 추가하고, 유사도 값이 낮은 경우에는 테이블의 정보를 새로이 추가하여 테이블 분류의 정확성을 높일 수 있다.
테이블 분류부(430)는 분류기 학습부(420)를 걸친 테이블 분석된 테이블의 정보를 분류한다. 테이블은 그 구조와 구성에 따라 각각 IMRAD(Introduction, Method, Result, Discussion)와 Fine―Grained(세밀한 테이블 분류)로 나눌 수 있다.
IMRAD는 Introduction, Method, Result, Discussion의 약자로, 분석된 테이블의 정보를 개요, 방법, 결과, 토론 등을 기반으로 하여 문서 안의 테이블의 구조적인 위치를 고려하여 테이블을 분류하는 방법이다.
Fine―Grained는 IMRAD 보다 세밀한 접근 방법을 사용하여 테이블을 분류하는 방법으로 테이블을 정의 테이블, 통계/유통 테이블, 설문조사 질문/결과 테이블, 예시 테이블, 절차 테이블, 실험설정 테이블, 실험 결과 테이블 등으로 분류한다. IMRAD 방식의 경우 테이블을 분류하는 데 있어서 디테일한 과정을 거치지 않았기 때문에, Fine―Grained를 통해 IMRAD의 구조를 따르지 않는 다양한 내용을 포함하는 테이블에 접근, 세밀하게 분류한다. 이를 통해 테이블을 구성에 따라 분류, 검색의 정확성을 개선한다. IMRAD와 Fine―Grained을 통해 분류가 되지 않는 테이블의 경우에는 두가지 방법을 모두 사용하여 테이블을 분석한다.
도 5는 본 실시예의 분류된 테이블을 관리하고 저장하는 융합기(150)의 구조를 개략적으로 나타낸 블럭 구성도이다.
도 5에 도시한 바와 같이, 분류된 테이블을 관리하고 저장하는 융합기(150)는 테이블 태깅부(510), 클러스터(Cluster) 관리부(520)를 포함한다.
테이블 태깅부(510)는 분류기(140)에 의해 자동으로 분류된 테이블을 태깅(Tagging) 한다. 태깅은 문서의 컨텐츠의 내용을 대표할 수 있는 검색용 꼬리표인 키워드 또는 태그를 다는 것으로, 태깅이 된 글이나 콘텐츠의 태그는 태그를 종합 관리하는 사이트에서 주제나 카테고리의 형태에 따라 분류되어 나열되므로 일반 사용자들은 이를 확인 해당 콘텐츠를 찾아낸다.
클러스터 관리부(520)는 분류기(140)에 의해 자동으로 분류된 테이블을 테이블 태킹부(510)를 통해 태깅하고 각각의 타입에 따라 관리 및 저장한다. 클러스터란 같은 속성을 갖는 대상을 모아서 하나의 대상으로 만드는 것을 의미하며, 클러스터 관리부에 의해 분류된 테이블들은 각각의 테이블의 속성에 따라 하나의 대상으로 만들어져 관리 및 저장하여 이후 검색과 관리를 용이하게 한다.
도 6은 본 실시예의 다수의 테이블을 포함하는 문서로부터 테이블을 자동분류하는 시스템의 방법을 설명하기 위한 순서도이다.
도 6에서 도시하듯이, 다수의 테이블을 포함하는 문서로부터 테이블을 자동분류하는 시스템의 방법으로서, 먼저 인터페이스부(110)에 다수의 테이블을 포함하는 문서를 업로드 한다(S600).
추출기(120)는 인터페이스부(110)에 의해 업로드 된 문서로부터, 테이블의 위치를 파악하고 테이블의 메타데이터를 생성, 테이블의 내용을 확인하여 추출한다(S610).
분석기(130)는 추출기(120)에 의해 추출된 테이블의 위치, 내용, 구조 및 구성에 관한 정보를 확인하고 분석한다(S620).
분류기(140)는 분석기(130)에 의해 분석된 테이블을 구조와 구성에 따라 IMRAD와 Fine-Grained로 분류한다(S630).
융합기(150)는 분류기(140)에 의해 분류된 테이블을 태깅하고 분류된 테이블과 기 분류된 테이블들을 추가 분석하여 저장한다(S640).
도 7은 본 실시예의 추출된 테이블의 정보를 분석하는 방법을 설명하기 위한 순서도이다.
도 7에서 도시하듯이, 추출된 테이블의 정보를 분석하는 방법으로서, 먼저 내용 분석부(310)는 추출기(120)로부터 추출 및 정렬된 테이블의 정보에 대한 표제, 제목, 헤드라인, 타이틀 헤딩을 표현한 캡션 및 키워드를 사용하여 테이블의 내용을 분석한다(S700).
본문 분석부(320)는 내용 분석부(310)를 통해 분석된 테이블의 내용을 이용하여 분석된 테이블에 관한 내용을 언급하고 있는 문장들을 찾아 테이블의 내용을 추가 분석한다(S710).
위치 분석부(330)는 테이블의 위치를 분석하여 테이블이 나타내고자 하는 바를 유추 및 추가 분석한다(S720).
구조 분석부(340)는 테이블의 구조를 분석하여 테이블의 쓰임새에 관한 내용을 유추 및 추가 분석한다(S730).
도 8은 본 실시예의 분석된 테이블의 정보에 따라 테이블을 자동분류하는 방법을 설명하기 위한 순서도이다.
도 8에서 도시하듯이, 분석된 테이블의 정보에 따라 테이블을 자동분류하는 방법으로서, 먼저 유사도 계산부(410)는 분석기(130)를 통해 분석된 테이블의 정보와 저장되어 있는 기 분석된 테이블과의 유사도를 계산한다(S800).
분류기 학습부(420)는 유사도 계산부(410)에 의해 유사도가 계산된 테이블의 정보를 확인하여, 테이블의 정보를 학습 및 추가한다(S810).
테이블 분류부(430)는 분류기 학습부(420)를 걸친 테이블의 정보가 IMRAD 방법을 사용하여 분류가 가능하다면, 테이블의 정보를 IMRAD 방법으로 분류한다(S820).
테이블 분류부(430)는 분류기 학습부(420)을 걸친 테이블의 정보가 IMRAD 방법을 사용하여 분류가 가능하지 않는다면, 테이블의 정보를 Fine―Grained 방법을 사용하여 분류한다(S830).
도 9는 본 실시예의 분류된 테이블을 관리하고 저장하는 방법을 설명하기 위한 순서도이다.
도 9에서 도시하듯이, 분류된 테이블을 관리하고 저장하는 방법으로서, 먼저 테이블 태깅부(510)는 분류기(140)를 통해 분류된 테이블의 정보를 대표할 수 있는 키워드 및 태그를 확인한다(S900).
테이블 태깅부(510)는 확인된 테이블의 키워드 및 태그를 단다(S910).
클러스터 관리부(520)를 사용하여 태깅된 테이블이 기존에 저장된 테이블과 동일한 특징을 가지고 있는지 확인한다(S920).
클러스터 관리부(520)는 태깅한 테이블이 기존에 저장된 테이블과 동일한 특징을 가지고 있을 경우, 각각의 테이블의 타입에 따른 클러스터 테이블의 정보를 저장 및 관리한다(S930).
클러스터 관리부(520)는 태깅한 테이블이 기존에 저장된 테이블과 동일한 특징을 가지고 있지 않을 경우, 새로운 타입의 클러스터를 생성하여 테이블의 정보를 저장 및 관리한다(S940).
도 6,7,8 및 9에서는 단계 S600 내지 단계 S640, 단계 S700 내지 단계 S730, 단계 S800 내지 단계 S830 및 단계 S900 내지 단계 S940을 순차적으로 실행하는 것으로 기재하고 있으나, 이는 본 발명의 일 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명의 일 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 일 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 도 6,7,8 및 9 에 기재된 순서를 변경하여 실행하거나 단계 S600 내지 단계 S640, 단계 S700 내지 단계 S730, 단계 S800 내지 단계 S830 및 단계 S900 내지 단계 S940 중 하나 이상의 단계를 병렬적으로 실행하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이므로, 도 6,7,8 및 9는 시계열적인 순서로 한정되는 것은 아니다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
110: 인터페이스부 120: 추출기
130: 분석기 140: 분류기
150: 융합기 210: 키워드 검색부
220: 파일 업로드부 230: 디스플레이부
310: 내용 분석부 320: 본문 분석부
330: 위치 분석부 340: 구조 분석부
410: 유사도 계산부 420: 분류기 학습부
430: 테이블 분류부 510: 테이블 태깅부
529: 클러스터 관리부

Claims (27)

  1. 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템에 있어서,
    하나 이상의 테이블을 포함하는 상기 문서를 업로드하는 인터페이스부;
    상기 인터페이스부를 통해 업로드된 상기 문서의 상기 테이블에 포함된 정보를 추출하는 추출기;
    상기 추출기를 통해 추출된 상기 테이블의 정보를 사용하여 상기 테이블의 특징을 파악하는 분석기;
    상기 분석기를 통해 파악된 상기 테이블의 특징에 따라 상기 테이블을 자동 분류하는 분류기;
    상기 분류기에 의해 분류된 상기 테이블과 기 분류된 테이블들을 추가 분석하여 저장하는 융합기
    를 포함하는 것을 특징으로 하는 테이블 자동분류 시스템.
  2. 제 1항에 있어서,
    상기 테이블은 상기 문서가 나타내는 목표, 방법, 수단과 그 결과 중 일부 또는 전부에 대한 내용을 함축적으로 보여주는 것을 특징으로 하는 테이블 자동분류 시스템.
  3. 제 1항에 있어서,
    상기 추출기는 상기 문서에서 상기 테이블의 위치를 파악하고 상기 테이블의 제목, 캡션, 위치, 구조를 포함한 메타데이터(MetaData)를 생성, 상기 테이블의 정보를 추출하는 것을 특징으로 하는 테이블 자동분류 시스템.
  4. 제 3항에 있어서,
    상기 추출기는 상기 테이블을 정보를 추출하여 기존의 TF―IDF(Term Frequency―Inverse Total Term Frequency) 방법 대신에 TTF(Total Term Frequency)와 ITTF(Inverse Total Term Frequency)에 가중치를 주는 TTF―ITTF 방법을 사용하여 상기 테이블의 키워드를 정렬하여 문서분류의 정확도를 높이는 것을 특징으로 하는 테이블 자동분류 시스템.
  5. 제 1항에 있어서,
    상기 분석기는, 상기 테이블의 내용을 분석하는 내용 분석부 및 상기 테이블과 연관된 상기 문서의 본문의 내용을 분석하는 본문 분석부, 상기 테이블의 위치를 분석하는 위치 분석부, 상기 테이블의 구조를 분석하는 구조 분석부를 포함하는 것을 특징으로 하는 테이블 자동분류 시스템.
  6. 제 1항에 있어서,
    상기 분류기는, 상기 테이블을 상기 테이블의 구조와 구성에 따라 IMRAD(Introduction, Method, Result, Discussion)와 Fine―Grained(세밀한 테이블 분류)로 분류하는 것을 특징으로 하는 테이블 자동분류 시스템.
  7. 제 6항에 있어서,
    상기 분류기는, 상기 분석기에 의해 분석된 상기 테이블의 정보와 기 분석된 타 문서 내 테이블과의 유사도를 비교하는 유사도 계산부, 상기 테이블의 정보를 추가하는 분류기 학습부 및 상기 테이블을 상기 IMRAD와 상기 Fine―Grained로 분류하는 테이블 분류부를 포함하는 것을 특징으로 하는 테이블 자동분류 시스템.
  8. 제 1항에 있어서,
    상기 융합기는, 상기 분류기에 의해 자동으로 분류된 상기 테이블을 태깅(Tagging)하는 테이블 태깅부와 동일한 특징을 갖는 테이블들을 분류, 관리하고 저장하는 클러스터(Cluster) 관리부를 포함하는 것을 특징으로 하는 테이블 자동분류 시스템.
  9. 사용자에 의해 입력된 하나 이상의 테이블을 가지는 문서를 추가하는 인터페이스부;
    상기 인터페이스부에 의해 추가된 상기 문서에서 상기 테이블의 정보를 수집하는 추출기;
    상기 수집된 상기 테이블의 정보를 사용하여 상기 테이블의 특징을 파악하는 분석기;
    상기 분석기를 통해 파악된 상기 테이블의 특징을 사용하여 상기 테이블을 자동분류하는 분류기; 및
    상기 분류기에 의해 분류된 상기 테이블과 기 분류된 테이블들을 추가 분석하고 타입에 따라 저장하는 융합기를 포함하되,
    상기 분석기는,
    상기 테이블의 내용을 분석하는 내용 분석부;
    상기 테이블과 연관된 상기 문서의 본문 내용을 분석하는 본문 분석부;
    상기 테이블의 위치를 분석하는 위치 분석부; 및
    상기 테이블의 구조를 분석하는 구조 분석부
    를 포함하는 것을 특징으로 하는 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템.
  10. 제 9항에 있어서,
    상기 내용 분석부와 상기 본문 분석부는 상기 테이블을 정보를 분석하는 데 있어서 표제, 제목, 헤드라인(Headline), 타이틀 헤딩(Title Heading) 중 일부 또는 전부를 표현한 캡션(Caption), 상기 테이블의 키워드(Key Word) 및 상기 본문에서 상기 테이블을 언급하고 있는 문장들을 이용하는 것을 특징으로 하는 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템.
  11. 제 9항에 있어서,
    상기 위치 분석부는 상기 문서 내의 상기 테이블의 위치를 분석함으로써, 상기 테이블의 특징을 파악하며, 상기 테이블이 상기 문서의 앞 부분에 위치한 경우, 상기 테이블은 상기 문서와 상기 문서와 관련된 연구에 대한 설명을 포함할 수 있을 것이라는 상기 테이블의 특징을 파악할 수 있는 것을 특징으로 하는 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템.
  12. 제 9항에 있어서,
    상기 구조 분석부는 상기 테이블의 구조에 따라 달라지는 상기 테이블의 쓰임새를 유추하기 위한 것으로, 보조 행이 많은 경우에는 상기 테이블이 상기 문서의 결과를 나타낼 확률이 클 것이라는 상기 테이블의 특징을 파악할 수 있는 것을 특징으로 하는 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템.
  13. 사용자에 의해 입력된 하나 이상의 테이블을 가지는 문서를 추가하는 인터페이스부;
    상기 인터페이스부에 의해 추가된 상기 문서에서 상기 테이블의 정보를 수집하는 추출기;
    상기 수집된 상기 테이블의 정보를 사용하여 상기 테이블의 특징을 파악하는 분석기;
    상기 분석기를 통해 파악된 상기 테이블의 특징을 사용하여 상기 테이블을 자동분류하는 분류기; 및
    상기 분류기에 의해 분류된 상기 테이블과 기 분류된 테이블들을 추가 분석하고 타입에 따라 저장하는 융합기를 포함하되,
    상기 분류기는,
    상기 분석기에 의해 분석된 상기 테이블의 정보와 기 분석된 타 문서 내 테이블과의 유사도를 비교하는 유사도 계산부;
    상기 분석된 테이블의 정보를 추가하는 분류기 학습부; 및
    상기 분석된 테이블의 정보를 상기 테이블의 구조와 구성에 따라 분류하는 테이블 분류부
    를 포함하는 것을 특징으로 하는 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템.
  14. 제 13항에 있어서,
    상기 분류기 학습부는 상기 유사도 계산부를 통해 계산된, 상기 분석기에 의해 분석된 테이블의 정보와 기 분석된 타 문서 내 테이블과의 유사도의 값을 바탕으로 하여 테이블의 정보를 학습, 추가하여 상기 테이블 분류의 정확성을 높이는 것을 특징으로 하는 문서 내 테이블의 정보를 기반으로 한 테이블 자동분류 시스템.
  15. 제 13항에 있어서,
    상기 테이블의 구조와 구성에 따라 분류하는 테이블 분류부는 상기 테이블을 개요, 방법, 결과, 토론 등으로 분류하여 상기 문서의 저자가 말하고자 하는 기본 목적을 이해하는데 도움을 주는 IMRAD와 상기 IMRAD 보다 세밀한 접근 방법을 사용하여 상기 테이블을 분류하는 Fine―Grained로 분류하는 것을 특징으로 하는 문서 내 테이블의 정보를 기반으로 한 테이블 자동분류 시스템.
  16. 사용자에 의해 입력된 하나 이상의 테이블을 가지는 문서를 추가하는 인터페이스부;
    상기 인터페이스부에 의해 추가된 상기 문서에서 상기 테이블의 정보를 수집하는 추출기;
    상기 수집된 상기 테이블의 정보를 사용하여 상기 테이블의 특징을 파악하는 분석기;
    상기 분석기를 통해 파악된 상기 테이블의 특징을 사용하여 상기 테이블을 자동분류하는 분류기; 및
    상기 분류기에 의해 분류된 상기 테이블과 기 분류된 테이블들을 추가 분석하고 타입에 따라 저장하는 융합기를 포함하되,
    상기 융합기는,
    상기 분류기에 의해 자동으로 분류된 상기 테이블을 태깅하는 테이블 태깅부; 및
    동일한 특징을 갖는 테이블들을 분류, 관리하고 저장하는 클러스터 관리부를 포함하는 것을 특징으로 하는 테이블 자동분류 시스템.
  17. 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류의 방법에 있어서,
    다수의 테이블을 포함하는 상기 문서를 업로드 시키는 과정;
    상기 문서의 상기 테이블의 정보를 추출하는 과정;
    상기 정보를 추출하는 과정을 통해 추출된 상기 테이블의 정보를 분석하는 과정;
    상기 분석하는 과정을 통해 분석된 상기 테이블의 정보에 따라 상기 테이블을 분류하는 과정; 및
    상기 분류하는 과정을 통해 분류된 상기 테이블을 관리하고 저장하는 과정
    을 포함하는 것을 특징으로 하는 테이블 자동분류 방법.
  18. 제 17항에 있어서,
    상기 테이블을 정보를 추출하는 과정은 기존의 TF―IDF(Term Frequency―Inverse Total Term Frequency) 방법 대신에 TTF(Total Term Frequency)와 ITTF(Inverse Total Term Frequency)에 가중치를 주는 TTF―ITTF 방법을 사용하여 상기 테이블의 키워드를 정렬, 문서분류의 정확도를 높이는 것을 특징으로 하는 테이블 자동분류 방법.
  19. 제 17항에 있어서,
    상기 테이블을 분류하는 과정은 상기 테이블을 상기 테이블의 구조와 구성에 따라 IMRAD(Introduction, Method, Result, Discussion)와 Fine―Grained(세밀한 테이블 분류)로 분류하는 것을 특징으로 하는 테이블 자동분류 방법.
  20. 사용자에 의해 복수의 테이블을 가지는 문서를 추가하는 과정;
    상기 문서를 추가하는 과정을 통해 추가된 상기 문서에서 상기 테이블의 정보를 수집하는 과정;
    상기 수집된 상기 테이블의 정보를 분석하는 과정;
    상기 분석하는 과정을 통해 분석된 상기 테이블의 정보를 이용하여 상기 테이블을 자동 분류하는 과정; 및
    상기 분류하는 과정을 통해 분류된 상기 테이블을 타입에 따라 관리하고 저장하는 과정을 포함하되,
    상기 테이블의 정보를 분석하는 과정은,
    상기 테이블의 내용을 분석하는 과정;
    상기 테이블과 연관된 상기 문서의 본문의 내용을 분석하는 과정;
    상기 테이블의 위치를 분석하는 과정; 및
    상기 테이블의 구조를 분석하는 과정
    을 포함하는 것을 특징으로 하는 테이블 자동분류 방법.
  21. 제 20항에 있어서,
    상기 테이블의 내용을 분석하는 과정과 상기 본문의 내용을 분석하는 과정은 상기 테이블을 정보를 분석하는데 있어서 표제, 제목, 헤드라인(Headline), 타이틀 헤딩(Title Heading) 등을 표현한 캡션(Caption), 상기 테이블의 키워드(Key Word) 및 상기 본문에서 상기 테이블을 언급하고 있는 문장들을 이용하는 것을 특징으로 하는 테이블 자동분류 방법.
  22. 제 20항에 있어서,
    상기 위치를 분석하는 과정은 상기 문서 내의 상기 테이블의 위치를 분석함으로써, 상기 테이블의 특징을 파악하며, 상기 테이블이 상기 문서의 앞 부분에 위치한 경우, 상기 테이블은 상기 문서와 상기 문서와 관련된 연구에 대한 설명을 포함할 수 있을 것이라는 상기 테이블의 특징을 파악할 수 있는 것을 특징으로 하는 테이블 자동분류 방법.
  23. 제 20항에 있어서,
    상기 구조를 분석하는 과정은 상기 테이블의 구조에 따라 달라지는 상기 테이블의 쓰임새를 유추하기 위한 것으로, 보조 행이 많은 경우에는 상기 테이블이 상기 문서의 결과를 나타낼 확률이 클 것이라는 상기 테이블의 특징을 파악할 수 있는 것을 특징으로 하는 테이블 자동분류 방법.
  24. 사용자에 의해 복수의 테이블을 가지는 문서를 추가하는 과정;
    상기 문서를 추가하는 과정을 통해 추가된 상기 문서에서 상기 테이블의 정보를 수집하는 과정;
    상기 수집된 상기 테이블의 정보를 분석하는 과정;
    상기 분석하는 과정을 통해 분석된 상기 테이블의 정보를 이용하여 상기 테이블을 자동분류하는 과정; 및
    상기 분류하는 과정을 통해 분류된 상기 테이블을 타입에 따라 관리하고 저장하는 과정을 포함하되,
    상기 테이블을 자동분류하는 과정은,
    상기 분석하는 과정에 의해 분석된 상기 테이블의 정보와 기 분석된 타 문서 내 테이블과의 유사도를 비교하는 과정;
    상기 테이블의 정보를 추가하는 과정; 및
    상기 테이블을 상기 테이블의 구조와 구성에 따라 분류하는 과정
    을 포함하는 것을 특징으로 하는 테이블 자동분류 방법.
  25. 제 24항에 있어서,
    상기 정보를 추가하는 과정은 상기 유사도를 비교하는 과정을 통해 계산된, 상기 분석하는 과정에 의해 분석된 테이블의 정보와 기 분석된 타 문서 내 테이블과의 유사도의 값을 바탕으로 하여 테이블의 정보를 학습, 추가하여 상기 테이블 분류의 정확성을 높이는 것을 특징으로 하는 테이블 자동분류 방법.
  26. 제 24항에 있어서,
    상기 테이블의 구조와 구성에 따라 분류하는 과정은 상기 테이블을 개요, 방법, 결과, 토론 등으로 분류하여 상기 문서의 저자가 말하고자 하는 기본 목적을 이해하는데 도움을 주는 IMRAD와 상기 IMRAD 보다 세밀한 접근 방법을 사용하여 상기 테이블을 분류하는 Fine―Grained로 분류하는 것을 특징으로 하는 테이블 자동분류 방법.
  27. 사용자에 의해 복수의 테이블을 가지는 문서를 추가하는 과정;
    상기 문서를 추가하는 과정을 통해 추가된 상기 문서에서 상기 테이블의 정보를 수집하는 과정;
    상기 수집된 상기 테이블의 정보를 분석하는 과정;
    상기 분석하는 과정을 통해 분석된 상기 테이블의 정보를 이용하여 상기 테이블을 자동분류하는 과정; 및
    상기 분류하는 과정을 통해 분류된 상기 테이블을 타입에 따라 관리하고 저장하는 과정을 포함하되,
    상기 테이블을 타입에 따라 관리하고 저장하는 과정은,
    상기 자동분류하는 과정에 의해 자동으로 분류된 상기 테이블의 정보를 대표할 수 있는 키워드 또는 태그를 다는 태깅하는 과정; 및
    상기 태깅하는 과정에 의해 태깅된 테이블들을 각각의 특징에 따라 분류, 관리하고 저장하는 과정
    을 포함하는 것을 특징으로 하는 테이블 자동분류 방법.
KR1020120017474A 2012-02-21 2012-02-21 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템 및 그 방법 KR101316780B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120017474A KR101316780B1 (ko) 2012-02-21 2012-02-21 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120017474A KR101316780B1 (ko) 2012-02-21 2012-02-21 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20130096004A true KR20130096004A (ko) 2013-08-29
KR101316780B1 KR101316780B1 (ko) 2013-10-17

Family

ID=49219082

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120017474A KR101316780B1 (ko) 2012-02-21 2012-02-21 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR101316780B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102005067B1 (ko) * 2018-10-25 2019-10-01 지의소프트 주식회사 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템 및 그 방법
CN110659346A (zh) * 2019-08-23 2020-01-07 平安科技(深圳)有限公司 表格提取方法、装置、终端及计算机可读存储介质
JP2020170445A (ja) * 2019-04-05 2020-10-15 株式会社日立製作所 デジタル文書からのデータ抽出方法およびシステム
KR20230025245A (ko) * 2021-08-13 2023-02-21 주식회사 신한디에스 문서비교방법 및 그 장치
CN117496545A (zh) * 2024-01-02 2024-02-02 物产中大数字科技有限公司 一种面向pdf文档的表格数据融合处理方法及装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101995763B1 (ko) * 2017-08-25 2019-07-03 (주)뉴옵틱스 혈구 감별 장치 및 방법
KR102364100B1 (ko) 2020-05-14 2022-02-21 지의소프트 주식회사 전자문서 내 테이블 정보 저장 시스템 및 그 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100993817B1 (ko) * 2007-12-21 2010-11-12 한국과학기술정보연구원 정보 분석 시스템 및 그 방법

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102005067B1 (ko) * 2018-10-25 2019-10-01 지의소프트 주식회사 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템 및 그 방법
JP2020170445A (ja) * 2019-04-05 2020-10-15 株式会社日立製作所 デジタル文書からのデータ抽出方法およびシステム
CN110659346A (zh) * 2019-08-23 2020-01-07 平安科技(深圳)有限公司 表格提取方法、装置、终端及计算机可读存储介质
CN110659346B (zh) * 2019-08-23 2024-04-12 平安科技(深圳)有限公司 表格提取方法、装置、终端及计算机可读存储介质
KR20230025245A (ko) * 2021-08-13 2023-02-21 주식회사 신한디에스 문서비교방법 및 그 장치
CN117496545A (zh) * 2024-01-02 2024-02-02 物产中大数字科技有限公司 一种面向pdf文档的表格数据融合处理方法及装置
CN117496545B (zh) * 2024-01-02 2024-03-15 物产中大数字科技有限公司 一种面向pdf文档的表格数据融合处理方法及装置

Also Published As

Publication number Publication date
KR101316780B1 (ko) 2013-10-17

Similar Documents

Publication Publication Date Title
KR101316780B1 (ko) 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템 및 그 방법
US10248662B2 (en) Generating descriptive text for images in documents using seed descriptors
US9678993B2 (en) Context based systems and methods for presenting media file annotation recommendations
US8082248B2 (en) Method and system for document classification based on document structure and written style
US9229958B2 (en) Retrieving visual media
US20140229810A1 (en) Topic extraction and video association
Koolen et al. Overview of the CLEF 2016 social book search lab
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
US20150302036A1 (en) Method, system and computer program for information retrieval using content algebra
KR20080060547A (ko) 문맥기반 광고 장치와 그 방법 및 이를 구현할 수 있는컴퓨터로 읽을 수 있는 기록 매체
KR20130097018A (ko) 화일 기반 질의로 자료를 검색하는 장치 및 그 방법
Bartík Text-based web page classification with use of visual information
Nixon et al. Multimodal video annotation for retrieval and discovery of newsworthy video in a news verification scenario
Gali et al. Extracting representative image from web page
Kato et al. Can social tagging improve web image search?
Fuxman et al. Improving classification accuracy using automatically extracted training data
US10579660B2 (en) System and method for augmenting search results
Aletras et al. Computing similarity between cultural heritage items using multimodal features
Balaji et al. Finding related research papers using semantic and co-citation proximity analysis
KR20080091738A (ko) 문맥기반 광고 장치와 그 방법 및 이를 구현할 수 있는 컴퓨터로 읽을 수 있는 기록 매체
Vagliano et al. Training researchers with the moving platform
KR100574889B1 (ko) 웹 문서의 태그를 이용한 용어 가중치 할당 방법
Garrido-Marquez et al. A French weblog corpus for new insights on blog post tagging
Rexha et al. Social media monitoring for companies: A 4W summarisation approach
Yang A Webpage Classification Algorithm Concerning Webpage Design Characteristics.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161004

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee