KR20130097018A

KR20130097018A - 화일 기반 질의로 자료를 검색하는 장치 및 그 방법

Info

Publication number: KR20130097018A
Application number: KR1020120018700A
Authority: KR
Inventors: 리우 잉; 김성찬; 한기준
Original assignee: 한국과학기술원
Priority date: 2012-02-23
Filing date: 2012-02-23
Publication date: 2013-09-02

Abstract

본 발명은, 질의를 위한 정보가 포함된 화일을 입력받는 문서화일 수신단계; 상기 화일에 포함된 질의 관련정보의 구성요소를 분석하여 질의관련 데이터를 추출하는 정보추출단계; 상기 질의관련 데이터를 이용하여 질의를 생성하는 질의생성단계; 및 상기 질의에 대하여 검색결과를 추출하는 정보검색단계를 포함하는 것을 특징으로 하는 자료검색 장치 및 방법을 제공한다.

Description

화일 기반 질의로 자료를 검색하는 장치 및 그 방법{Method and Apparatus for Retrieving Relevant Data by Using File-based Query Generation}

본 발명의 실시예는 화일 기반 질의로 자료를 검색하는 장치 및 그 방법에 관한 것이다. 더욱 상세하게는, 하나 이상의 테이블을 포함한 문서화일을 업로드하여, 업로드된 문서 내의 테이블 등의 정보를 분석하여 데이터를 추출하고 이를 기반으로 질의를 생성하고 관련 데이터를 검색하고자 하는 화일 기반 질의로 자료를 검색하는 장치 및 그 방법에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 발명의 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

문서 내의 테이블은 문서가 나타내고자 하는 목표, 방법, 수단과 그 결과 등에 대한 내용을 함축적으로 보여주는 매우 중요한 컨텐츠로, 특히 과학 문서에서 테이블은 간결한 방식으로 실험 결과를 나타내거나 통계적 데이터를 표현하는 데 사용된다. 이러한 테이블을 사용하면 연구의 주된 내용을 파악하는 데 있어서 효율적일 뿐만 아니라 연구자가 의도한 바를 쉽게 이해할 수 있다. 그러나 현재 검색엔진은 테이블 기반의 검색을 지원하지 않는다. 이는 범용 테이블 메타데이터(MetaData)의 부족과 검색된 테이블의 우선순위를 정하는 랭킹 방식의 한계 때문에 문서로부터 테이블을 자동 추출하는 것이 어렵기 때문이다.

이를 대처하기 위한 기존의 검색엔진은 테이블시어(Tableseer)와 바이오텍스트(BioText)가 있다. 테이블시어는 전통적인 키워드 기반의 테이블 검색으로 키워드를 통해 검색된 문서에서 페이지박스 커팅 방법(Novel Page Box-Cutting Method)을 사용하여 테이블을 발견, 테이블의 메타데이터를 추출하고 분류한다. 분류된 테이블은 테이블 랭킹 알로리즘을 통해 검색어에 적절한 테이블의 우선 순서를 정한 후 최종 인터페이스에 표시되는 방법이다. 바이오텍스트는 생물학자들이 과학전 문헌에 접근할 수 있는 방법을 제공하는 웹 기반 응용 프로그램으로 마찬가지로 입력된 검색어에 적절한 문서의 그림과 캡션을 검색하고 탐색할 수 있는 방법이다. 하지만 이런 검색엔진은 단순히 키워드 기반의 테이블 검색만이 가능하기 때문에 필요한 정보를 찾고자 하는데 있어서 신뢰성이 떨어진다는 한계가 있다.

이에 HTML의 소스 페이지부터 검색어와 관련된 테이블 정보를 검색하여 사용할 수 있는 Mesa 검색엔진이나, 구글의 "Search By Image"를 사용하여 업로드 된 실제 이미지나 비디오 컨텐츠로부터 검색어를 선정하여 관련된 이미지를 찾는 방법과 유사한 연구가 시행되어 왔으나 이 역시 키워드 기반의 테이블 검색에 크게 벗어나지 않기 때문에 테이블 기반의 검색 방식을 이용하여 문서로부터 테이블을 자동 추출하는 할 수 없다는 점에 있어서 한계가 있다.

본 발명의 실시예는 하나 이상의 테이블을 포함한 문서화일을 업로드하여, 업로드된 문서 내의 테이블 등의 정보를 분석하여 데이터를 추출하고 이를 기반으로 질의를 생성하고 관련 데이터를 검색하고자 하는 데 주된 목적이 있다.

또한, 질의에 사용되는 키워드 대상을 명시하는 경우에는 사용자가 더 우선시하는 검색 키워드에 대해서 관련도가 높은 정보의 검색순위가 상위에 랭크되도록 검색하는 데에도 그 목적이 있다.

본 발명의 일 실시예에 따르면, 화일로 질의를 생성하여 자료를 검색하는 장치에 있어서, 질의를 위한 정보가 포함된 화일을 입력받는 문서화일 수신부; 상기 화일에 포함된 질의 관련정보의 구성요소를 분석하여 질의관련 데이터를 추출하는 정보추출부; 상기 질의관련 데이터를 이용하여 질의를 생성하는 질의생성부; 및 상기 질의에 대하여 검색결과를 추출하는 정보검색부를 포함하는 것을 특징으로 하는 자료검색 장치를 제공한다.

상기 질의 관련정보는 테이블을 포함할 수 있다.

상기 자료검색 장치는, 질의대상에 대한 정보를 수신하는 질의대상 수신부를 더 포함할 수 있다.

상기 자료검색 장치는, 질의를 위한 대상후보에 대한 정보를 출력하는 분석후보정보 출력부를 더 포함할 수 있다.

상기 질의 생성부는, 상기 질의관련 데이터로부터 키워드를 분리하여 질의를 생성할 수 있다.

상기 자료검색 장치는, 질의에 사용될 키워드를 분리하는데 참조하는 키워드DB를 더 포함할 수 있다.

상기 정보추출부는, 상기 테이블에 대한 위치를 찾은 후에 상기 테이블의 구조를 분석하고 상기 질의관련 데이터를 추출할 수 있다.

상기 정보추출부는, 상기 테이블의 내용을 분석하는 내용 분석부 및 상기 테이블과 연관된 상기 문서의 본문의 내용을 분석하는 본문 분석부, 상기 테이블의 위치를 분석하는 위치 분석부, 상기 테이블의 구조를 분석하는 구조 분석부를 포함할 수 있다.

본 발명의 일 실시예에 따르면, 화일로 질의를 생성하여 자료를 검색하는 방법에 있어서, 질의를 위한 정보가 포함된 화일을 입력받는 문서화일 수신단계; 상기 화일에 포함된 질의 관련정보의 구성요소를 분석하여 질의관련 데이터를 추출하는 정보추출단계; 상기 질의관련 데이터를 이용하여 질의를 생성하는 질의생성단계; 및 상기 질의에 대하여 검색결과를 추출하는 정보검색단계를 포함하는 것을 특징으로 하는 자료검색 방법을 제공한다.

상기 질의 관련정보는 테이블을 포함할 수 있다.

상기 자료검색 방법은, 질의대상에 대한 정보를 수신하는 질의대상 수신단계를 더 포함할 수 있다.

상기 자료검색 방법은, 질의를 위한 대상후보에 대한 정보를 출력하는 분석후보정보 출력단계를 더 포함할 수 있다.

본 발명의 실시예에 따르면, 하나 이상의 테이블을 포함한 문서화일을 업로드하여, 업로드된 문서 내의 테이블 등의 정보를 분석하여 데이터를 추출하고 이를 기반으로 질의를 생성하고 관련 데이터를 검색하여 정보를 용이하게 획득하도록 하는 효과가 있다.

또한, 질의에 사용되는 키워드 대상을 명시하는 경우에는 사용자가 더 우선시하는 검색 키워드에 대해서 관련도가 높은 정보의 검색순위가 상위에 랭크되도록 검색하는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 하나 이상의 테이블을 포함한 문서로부터 추출된 테이블의 정보를 기반으로 한 자료검색 장치의 구조를 개략적으로 나타낸 블럭 구성도이다.
도 2는 논문 DB를 인덱스화하여 저장하는 문서 자동분류 시스템의 구조를 도시한 도면이다.
도 3은 사용자에 의해 다수의 테이블을 포함한 문서를 업로드 하는 인터페이스부(110)를 도시한 도면이다.
도 4는 본 실시예의 추출된 테이블의 정보를 분석하는 분석기(230)의 구조를 개략적으로 나타낸 블럭 구성도이다.
도 5는 본 실시예의 분석된 테이블의 정보에 따라 테이블을 자동분류하는 분류기(240)의 구조를 개략적으로 나타낸 블럭 구성도이다.
도 6은 본 실시예의 분류된 테이블을 관리하고 저장하는 융합기(250)의 구조를 개략적으로 나타낸 블럭 구성도이다.
도 7은 본 발명의 일 실시예에 따른 자료 검색방법을 설명하기 위한 순서도이다.

이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

도 1은 본 발명의 일 실시예에 따른 하나 이상의 테이블을 포함한 문서로부터 추출된 테이블의 정보를 기반으로 한 자료검색 장치의 구조를 개략적으로 나타낸 블럭 구성도이다.

도 1에 도시하듯이 본 발명의 일 실시예에 따른 자료검색 장치는 문서화일 수신부(110), 정보추출부(120), 질의생성부(130) 및 정보검색부(140)를 포함한다. 경우에 따라 본 발명의 일 실시예에 따른 자료검색 장치는 질의대상 수신부(150)를 더 포함할 수 있으며, 또한 질의대상 수신부(150) 및 분석후보정보 출력부(160)를 더 포함할 수도 있다. 도 1은 본 발명의 일 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명의 일 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 일 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 자료검색 장치에 포함되는 구성 요소에 대하여 다양하게 수정 및 변형하여 적용 가능할 것이다.

문서화일 수신부(110)는 질의를 위한 정보가 포함된 문서화일을 사용자로부터 입력받는다. 여기서 질의를 위한 정보는 테이블 등 기설정된 형식을 갖는 데이처의 모음을 의미한다. 즉, 질의를 위한 정보는 행과 열 사이를 가르는 선이 존재하는 테이블 형식뿐만 아니라, 선은 없지만 정해져 있는 일정한 형식으로 나열되는 논문의 헤더(Header) 부분 등이 이에 해당한다. 예를 들어, 저널 등에 기고되는 논문의 서두에는 논문의 제목, 저자, 초록, 키워드 등의 정보가 일정한 형태로 논문 화일 내에 존재할 수 있다.

또한, 문서화일로는 검색하고자 하는 정보가 있는 테이블 등의 정보가 포함된 PDF(Portable Document Format) 문서, 이미지 문서, HTML(HyperText Markup Language) 등으로 작성된 웹 문서, 텍스트문서 등이 될 수 있으나 본 발명이 이에 한정되지는 않는다. 문서화일 수신부(110)는 수신된 문서를 읽어들일 때 이러한 문서의 형태를 자동으로 분류하거나 사용자가 문서화일을 입력할 때 문서의 종류를 입력하도록 하는 수단을 구비함으로써 입력된 질의문서 화일의 종류를 파악할 수 있다.

정보추출부(120)는 화일에 포함된 질의 관련정보의 구성요소를 분석하여 질의관련 데이터를 추출한다.

정보추출부(120)는 문서에서 테이블을 위치를 파악하고 테이블의 구성요소의 위치, 구조 등을 포함하는 구조정보와 테이블의 캡션(Caption), 논문의 저자, 제목, 초록, 발표시기, 발표자소속 등을 포함하는 메타데이터(MetaData)를 생성하고 테이블의 내용을 추출한다. 메타데이터는 문서의 데이터에 대한 구조화된 데이터로 속성정보라고도 한다. 대량의 정보 가운데서 찾고 있는 정보를 효율적으로 찾아내서 이용하기 위해, 일정한 규칙에 따라 컨텐츠(Content)에 부여되는 데이터로서 여기에는 컨텐츠의 위치와 내용, 작성자에 관한 정보, 권리조건, 이용조건, 이용내력 등이 기록될 수도 있다. 이러한 메타데이터는 사용자가 자기가 원하는 특정 데이터를 찾는데 사용될 수 있다.

한편 본 발명의 일 실시예에 따른 하나 이상의 테이블을 포함한 문서로부터 추출된 테이블의 정보를 기반으로 한 자료검색 장치는 질의대상 수신부(150)를 더 포함할 수 있으며, 여기에 분석후보정보 출력부(160)를 더 포함할 수도 있다.

질의대상 수신부(150)는 사용자로부터 질의대상에 대한 정보를 수신한다. 여기서 질의대상이란 질의에 대한 검색을 할 키워드를 적용할 대상을 의미한다. 예를 들어, 사용자가 '제목'이라는 정보를 입력하면 질의대상 수신부(150)는 '제목'이라는 정보를 수신하여 이를 질의 우선정보로 저장하고 후술하는 질의생성부(130)에 의한 질의생성 시에 참고자료로 사용할 수 있다. 예를 들어, 질의대상 수신부(150)가 존재하지 않는 경우에는 질의대상에 대한 정보는 업로드한 문서에 포함된 데이터를 추출하는 것으로도 가능하지만 더 검색대상을 구체화하기 위하여 어떤 내용에 대하여 우선적으로 하여 검색할 지에 대한 정보를 입력할 수도 있다.

또한, 사용자로부터 질의대상에 대한 정보를 수신하는데 편의를 도모하기 위하여 분석후보정보 출력부(160)를 이용하여 질의대상 정보에 대한 리스트를 화면에 출력하여 이를 사용자가 선택할 수 있도록 함으로써 사용자에게 질의대상에 대한 정보의 선택 시에 편의를 도모할 수도 있다.

질의생성부(130)는 정보추출부(120)에 의해 추출되는 질의관련 데이터(예컨대, 테이블 컨텐츠)를 이용하여 질의를 생성한다.

질의생성부(130)는 테이블 컨텐츠에 대하여 키워드를 분리해낸다. 키워드를 분리해 내는 방법으로는 저자의 이름 또는 테이블에 포함된 키워드 정보를 질의 키워드로 사용하여 질의를 생성할 수도 있다. 또한 논문의 제목과 같이 의미있는 단어와 전치사, 접속사 또는 조사 등의 의미없는 단어가 혼재하는 논문제목의 경우에는 의미있는 단어를 추출하기 위한 소정의 키워드DB(170)를 이용하여 저장된 키워드에 매칭되는 단어에 대하여 해당 업로드 문서에 대한 질의키워드로 추출할 수도 있다.

질의생성부(130)에 의해 생성되는 질의의 형태는 SQL(structured query language)와 같은 쿼리 언어를 이용하여 해당 퀴리 언어에 추출된 키워드에 대응하는 정보의 검색을 질의하는 형태일 수도 있고, 다른 소정의 질의 언어를 이용하여 질의를 생성하는 등 질의 생성 수단은 다양한 방법을 사용할 수 있다.

정보검색부(140)는 질의생성부(130)에 생성된 질의에 대하여 검색결과를 추출한다. 정보검색부(140)는 인덱스화되어 저장된 자료DB(예컨대, 논문 DB)를 검색하여 검색결과를 추출한다. 이러한 논문 DB(180)에는 소정의 문서 자동분류 시스템을 이용하여 다수의 논문을 입력받아 각 논문에 대하여 관련정보를 추출하여 이를 인덱스화한 것이 저장된다.

정보검색부(140)는 질의생성부(130)에 의해 추출되는 테이블의 정보에 대한 키워드(Key word)들에 대하여 기존의 TF-IDF(Table Term Frequency-Inverse Document Frequency) 방법 대신에 TTF(Table Term Frequency)와 ITTF(Inverse Table Term Frequency)에 가중치를 주는 TTF-ITTF 방법을 사용하여 정보를 검색할 수 있다. TF-IDF(Term Frequency-Inverse Document Frequency)는 정보 검색과 텍스트 마이닝(Text Mining)에서 사용하는 가중치로, 여러 문서로 이루어진 문서군이 있을 때, 특정 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치이다. 이러한 TF-IDF는 후술하는 정보검색부(140)에 의해 문서의 핵심어를 추출하거나, 검색 결과의 순위를 결정하거나, 문서들 사이의 비슷한 정도를 구하는 등의 용도로 사용될 수 있다. TF(단어 빈도수, Term Frequency)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값으로, 이 값이 높을수록 문서에서 중요하다고 생각할 수 있다. 하지만 특정 단어 자체가 문서군 내에서 자주 사용되는 경우, 이것은 그 단어가 흔하게 등장한다는 것을 의미한다. 이것을 DF(문서 빈도수, Document Frequency)라고 하며, 이 값의 역수를 IDF(Inverse Document Frequence)라고 한다. TF-IDF는 TF와 IDF를 곱한 값이다. 하지만 이 방법의 경우, 단어에 전체 문서에 대한 빈도 비율의 공정성이 떨어져 문서분류의 단어의 중요도만을 고려하기 때문에 문서 내에 존재하는 테이블과 단어 내에서의 연관성을 반영하기 어려워 테이블 분류의 정확도에 한계가 있다는 단점이 있다. 이를 대처하기 위한 TTF-ITTF 방식은 TTF(전체 문서에서 테이블에서 단어 빈도수, Table Term Frequency)와 ITTF(총 역단어 빈도, Inverse Table Term Frequency)를 곱한 값으로 ITTF는 특정 문서에 대하여 테이블을 제외한 나머지 모든 문서에서 테이블에서 특정 단어의 빈도수를 나타낸다. 이렇듯 TTF와 ITTF에 가중치를 줌으로써 TF-IDF를 사용할 때보다 단어의 중요도에 하나의 테이블에 대한 단어의 중요도를 산출하기 위한 가중치를 좀더 공평하게 나눌 수 있으며 이로 인해 테이블 검색의 정확도를 높일 수 있다.

정보검색부(140)가 문서검색을 하는 방법으로서 키워드의 가중치를 이용한 키워드 간의 유사도를 이용하여 검색할 수 있다.

즉, 수학식 1과 같이 인덱스화되어 저장된 어느 하나의 테이블 tb_j와 입력된 문서의 테이블에서 추출된 쿼리 Q 사이의 유사도 sim(tbj, Q)는 키워드벡터 tbj의 절대값과 키워드벡터 Q의 절대값의 곱에 반비례하고, 테이블 tb_j의 k 번째 메타데이터의 i 번째 추출 단어(Term)와 테이블 Q의 k 번째 메타데이터의 i 번째 추출 단어(Term)와의 곱을 모든 단어(단, 메타데이터 안의 추출 단어의 갯수는 s)에 대하여 적용한 것을 합한 것에 비례하도록 설정될 수 있다.

이렇게 테이블 간의 유사도를 구하는 예는 수학식 1에서와 같이 구할 수도 있으나 본 실시예에서 예시한 것에 한정되지 않고 다양한 방법으로 구현할 수 있다.

정보검색부(140)는 다양한 키워드 우선순위에 의하여 검색결과를 출력할 수 있다. 예를 들어, 입력한 문서의 테이블과 유사한 논문 DB 자료를 출력할 때 소정의 기준에 따라 검색결과를 출력할 수 있다. 예를 들어, 논문DB에 저장된 자료의 인용횟수에 따라 출력순서를 결정할 수도 있고, 저자의 소속의 우선순위에 따라 출력순서를 결정할 수도 있고, 또는 사용자가 입력한 키워드 대상의 우선순위에 따라 출력순서를 결정할 수도 있다. 예를 들어, 사용자가 질의대상 수신부(150)를 통하여 입력한 질의 대상이 "논문제목"인 경우 제목이 유사한 것을 우선순위로 하여 검색결과를 순서대로 출력할 수도 있다.

한편, 도 2는 논문 DB를 인덱스화하여 저장하는 문서 자동분류 시스템의 구조를 도시한 도면이다.

도 2에 도시하듯이 본 발명의 일 실시예에 따른 문서 자동분류 시스템은 인터페이스부(210), 추출기(220), 분석기(230), 분류기(240) 및 융합기(250)를 포함한다.

인터페이스부(210)를 통해 업로드된 하나 이상의 테이블을 포함하는 다수의 문서로부터 추출기(120)를 사용하여 테이블의 정보를 추출하고, 추출된 테이블의 특징을 분석기(130)를 통해 파악하며, 파악된 테이블은 분류기(140)를 통해 분류하고, 융합기(150)를 통해 분류된 테이블과 기 분류된 테이블들을 추가 분석하여 저장한다.

인터페이스부(110)를 통해 업로드되는 문서 내의 테이블은 디지털 도서관에서 흔히 볼 수 있다. 디지털 도서관이란 도서관에 소장되어 있는 도서나 자료의 제목, 출판사, 저자, 출판 연도, 면 수, 초록 등 서지사항과 본문(Full Text)을 디지털데이터화 하여 인터넷이나 PC 통신을 통해 제공하는 시스템을 말한다. 최근에는 도서나 자료의 문자정보뿐만 아니라 화상, 영상, 음성 등 멀티미디어 정보도 제공하고 있다. 이러한 디지털 도서관 문서 내의 테이블은 문서가 나타내고자 하는 내용을 함축적으로 보여준다. 이러한 테이블의 특징은 전문적인 내용을 다루는 문서에서 두드러지게 나타나며 이를 통해, 문서의 전반적인 내용을 파악할 수 있다.

추출기(120)는 문서에서 테이블을 위치를 파악하고 테이블의 제목, 캡션(Caption), 위치, 구조 등을 포함한 메타데이터(MetaData)를 생성하고 테이블의 내용을 추출한다. 메타데이터는 문서의 데이터에 대한 구조화된 데이터로 속성정보라고도 한다. 대량의 정보 가운데서 찾고 있는 정보를 효율적으로 찾아내서 이용하기 위해, 일정한 규칙에 따라 컨텐츠(Content)에 부여되는 데이터로서 여기에는 컨텐츠의 위치와 내용, 작성자에 관한 정보, 권리조건, 이용조건, 이용내력 등이 기록되어있다. 사용자는 메타데이터를 이용하여 자기가 원하는 특정 데이터를 검색엔진 등으로 쉽게 찾아낼 수 있다.

추출기(120)에 의해 추출된 테이블의 정보에 대한 키워드(Key word)들은 기존의 TF-IDF(Term Frequency-Inverse Document Frequency) 방법 대신에 TTF(Table Term Frequency)와 ITTF(Inverse Table Term Frequency)에 가중치를 주는 TTF-ITTF 방법을 사용하여 정렬된다. 전술하였듯이, TF-IDF(Term Frequency-Inverse Document Frequency)는 정보 검색과 텍스트 마이닝(Text Mining)에서 사용하는 가중치로, 여러 문서로 이루어진 문서군이 있을 때, 특정 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치이다. 문서의 핵심어를 추출하거나, 검색 엔진에서 검색 결과의 순위를 결정하거나, 문서들 사이의 비슷한 정도를 구하는 등의 용도로 사용한다. TF(단어 빈도수, Term Frequency)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값으로, 이 값이 높을수록 문서에서 중요하다고 생각할 수 있다. 하지만 특정 단어 자체가 문서군 내에서 자주 사용되는 경우, 이것은 그 단어가 흔하게 등장한다는 것을 의미한다. 이것을 DF(문서 빈도수, Document Frequency)라고 하며, 이 값의 역수를 IDF(Inverse Document Frequence)라고 한다. TF-IDF는 TF와 IDF를 곱한 값이다. 하지만 이 방법의 경우, 단어에 전체 문서에 대한 빈도 비율의 공정성이 떨어져 문서분류의 단어의 중요도만을 고려하기 때문에 문서 내에 존재하는 테이블과 단어 내에서의 연관성을 반영하기 어려워 테이블 분류의 정확도에 한계가 있다는 단점이 있다. 이를 대처하기 위한 TTF-ITTF 방식은 TTF(전체 문서에서 테이블에서 단어 빈도수, Table Term Frequency)와 ITTF(총 역단어 빈도, Inverse Table Term Frequency)를 곱한 값으로 ITTF는 특정 문서를 테이블을 제외한 나머지 모든 문서에 대하여 테이블에서 특정 단어의 빈도수를 나타낸다. 이렇듯 TTF와 ITTF에 가중치를 줌으로써 TF-IDF를 사용할 때보다 단어의 중요도에 하나의 테이블에 대한 단어의 중요도를 산출하기 위한 가중치를 좀더 공평하게 나눌 수 있으며 이로 인해 문서분류의 정확도를 높일 수 있다.

또한 다수의 테이블을 포함하는 문서의 형태는 PDF(Portable Document Format), HTML(HyperText Markup Language), Word, PowerPoint 등의 형태일 수 있으나 반드시 이에 한정하지는 않는다.

도 3은 사용자에 의해 다수의 테이블을 포함한 문서를 업로드 하는 인터페이스부(110)를 도시한 도면이다.

도 3에 도시한 바와 같이, 인터페이스부(210)는 키워드 검색부(310), 파일 업로드부(320) 및 디스플레이부(330)를 포함한다.

키워드 검색부(310)는 기존의 키워드 검색 방식을 사용하여, 도 2의 문서 자동분류 시스템을 통해 기 분류되어 저장되어 있는 테이블에 관한 정보를 검색할 수 있다.

파일 업로드부(320)는 도 3의 문서 자동분류 시스템을 통해 테이블을 자동분류하기 위하여 하나 이상의 테이블을 포함한 문서를 업로드하며, 업로드된 정보는 기존의 키워드 검색 방식이 아닌, 테이블의 정보를 기반으로 하여 문서 내 테이블 및 분석된 테이블과 관련된, 기 분류된 테이블들을 검색하는 데 사용될 수 있다.

디스플레이부(330)는 파일 업로드부(320)을 통해 업로드된 하나 이상의 테이블을 포함한 문서에서, 도 2의 문서 자동분류 시스템을 통해 분류된 테이블의 결과를 보여주며 분류된 테이블과 관련된, 기 분류된 테이블의 정보와 학습 된 테이블의 정보를 확인 및 사용할 수 있다.

본 발명의 일 실시예에는, 인터페이스부(210)를 키워드 검색부(310), 파일 업로드부(320) 및 디스플레이부(330)만을 포함하는 것으로 기재하고 있으나, 이는 본 발명의 일 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명의 일 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 일 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 인터페이스부(210)에 포함되는 구성 요소에 대하여 다양하게 수정 및 변형하여 적용 가능할 것이다.

도 4는 본 실시예의 추출된 테이블의 정보를 분석하는 분석기(230)의 구조를 개략적으로 나타낸 블럭 구성도이다.

도 4에 도시한 바와 같이, 추출된 테이블의 정보를 분석하는 분석기(230)는 내용 분석부(410), 본문 분석부(420), 위치 분석부(430) 및 구조 분석부(440)를 포함한다.

내용 분석부(410)는 가장 기본적인 테이블의 분석으로, 도 2의 추출기(220)로부터 추출 및 정렬된 테이블의 정보에 대한 표제, 제목, 헤드라인(Headline), 타이틀 헤딩(Title Heading) 등을 표현한 캡션, 키워드(Key Word)를 이용하여 테이블의 내용을 분석한다.

본문 분석부(420)는 내용 분석부(410)를 통해 분석된 테이블의 내용을 이용하여 인터페이스부(210)를 통해 업로드된 문서의 본문에서 해당 테이블에 관한 내용을 언급하고 있는 문장들을 찾아 테이블의 내용을 추가적으로 분석한다.

위치 분석부(430)는 테이블의 위치를 분석한다. 테이블이 문서에서 어느 곳에 위치해 있는지를 분석하는 것은 테이블의 성격을 파악하는 데에 있어 매우 중요한 역할을 한다. 예를 들어 테이블이 문서에 앞 부분에 배치되어 있다면, 테이블은 해당 문서와 그 문서와 관련된 연구에 대한 간략한 설명을 포함하고 있을 것이며, 테이블이 문서의 끝 부분에 배치되어 있다며, 테이블은 해당 문서에 관련된 결과를 포함하고 있을 가능성이 높다. 따라서 테이블의 위치를 확인하여 테이블의 정보를 분석하면 해당 문서의 내용을 파악할 수 있다.

구조 분석부(440)는 테이블의 구조를 분석한다. 테이블은 그 구조에 따라 각기 다른 쓰임새를 가진다. 예를 들어 보조 행이 많은 구조의 테이블의 경우에는 테이블이 문서의 결과를 나타낼 확률이 증가한다. 따라서 테이블의 구조를 확인하여 테이블의 정보를 분석하면 테이블의 중요도를 파악할 수 있으며 테이블의 정보를 분석하는데 있어서 좀더 정확한 데이터를 얻을 수 있다.

본 실시예에서 설명한 분석기(230)의 구성요소는 정보추출부(120)의 구성요소로도 사용될 수 있다.

도 5는 본 실시예의 분석된 테이블의 정보에 따라 테이블을 자동분류하는 분류기(240)의 구조를 개략적으로 나타낸 블럭 구성도이다.

도 5에 도시한 바와 같이, 분석된 테이블의 정보에 따라 테이블을 자동분류하는 분류기(240)는 유사도 계산부(510), 분류기 학습부(520), 테이블 분류부(530)를 포함한다.

유사도 계산부(510)는 도 4의 내용분석부(410), 본문분석부(420), 위치분석부(430), 구조분석부(440)를 통해 분석된 테이블의 정보와 도 2의 문서 자동분류 시스템을 걸쳐 기 분석, 분류, 관리 및 저장된 타 문서 내 테이블과의 유사도 값을 계산한다.

이러한 유사도 계산부(510)의 기능은 정보검색부(140)가 분석된 테이블의 정보를 바탕으로 유사도 값이 높은 논문을 검색하는데 사용하기 위한 구성요소로서 사용될 수 있다.

분류기 학습부(520)는 도 3의 분석기(230)를 통해 분석되고 유사도 계산부(510)를 통해 계산된 테이블의 정보와 도 2의 문서 자동분류 시스템을 걸친, 기 분석된 타 문서 내 테이블과의 유사도 값을 확인하여 유사도 값이 높은 경우에는 테이블의 정보를 학습 및 추가하고, 유사도 값이 낮은 경우에는 테이블의 정보를 새로 추가하여 테이블 분류의 정확성을 높일 수 있다.

테이블 분류부(530)는 분류기 학습부(520)를 걸친 테이블 분석된 테이블의 정보를 분류한다. 테이블은 그 구조와 구성에 따라 각각 IMRAD(Introduction, Method, Result, Discussion)와 Fine-Grained(세밀한 테이블 분류)로 나눌 수 있다.

IMRAD는 Introduction, Method, Result, Discussion의 약자로, 분석된 테이블의 정보를 개요, 방법, 결과, 토론 등을 기반으로 하여 문서 안의 테이블의 구조적인 위치를 고려하여 테이블을 분류하는 방법이다.

Fine-Grained는 IMRAD 보다 세밀한 접근 방법을 사용하여 테이블을 분류하는 방법으로 테이블을 정의 테이블, 통계/유통 테이블, 설문조사 질문/결과 테이블, 예시 테이블, 절차 테이블, 실험설정 테이블, 실험 결과 테이블 등으로 분류한다. IMRAD 방식의 경우 테이블을 분류하는 데 있어서 디테일한 과정을 거치지 않았기 때문에, Fine-Grained를 통해 IMRAD의 구조를 따르지 않는 다양한 내용을 포함하는 테이블에 접근, 세밀하게 분류한다. 이를 통해 테이블을 구성에 따라 분류, 검색의 정확성을 개선한다. IMRAD와 Fine-Grained을 통해 분류가 되지 않는 테이블의 경우에는 두가지 방법을 모두 사용하여 테이블을 분석한다.

도 6은 본 실시예의 분류된 테이블을 관리하고 저장하는 융합기(250)의 구조를 개략적으로 나타낸 블럭 구성도이다.

도 6에 도시한 바와 같이, 분류된 테이블을 관리하고 저장하는 융합기(250)는 테이블 태깅부(610), 클러스터(Cluster) 관리부(620)를 포함한다.

테이블 태깅부(610)는 분류기(240)에 의해 자동으로 분류된 테이블을 태깅(Tagging) 한다. 태깅은 문서의 컨텐츠의 내용을 대표할 수 있는 검색용 꼬리표인 키워드 또는 태그를 다는 것으로, 태깅이 된 글이나 콘텐츠의 태그는 태그를 종합 관리하는 사이트에서 주제나 카테고리의 형태에 따라 분류되어 나열되므로 일반 사용자들은 이를 확인 해당 콘텐츠를 찾아낸다.

클러스터 관리부(620)는 분류기(240)에 의해 자동으로 분류된 테이블을 테이블 태킹부(610)를 통해 태깅하고 각각의 타입에 따라 관리 및 저장한다. 클러스터란 같은 속성을 갖는 대상을 모아서 하나의 대상으로 만드는 것을 의미하며, 클러스터 관리부에 의해 분류된 테이블들은 각각의 테이블의 속성에 따라 하나의 대상으로 만들어져 관리 및 저장하여 이후 검색과 관리를 용이하게 한다.

도 7은 본 발명의 일 실시예에 따른 자료 검색방법을 설명하기 위한 순서도이다.

도 7에서 도시하듯이, 본 발명의 일 실시예에 따른 자료 검색방법으로서, 분석후보정보 출력부(160)의 질의를 위한 대상후보에 대한 정보를 출력하는 분석후보정보 출력단계(S710), 질의대상 수신부(150)의 질의대상에 대한 정보를 수신하는 질의대상 수신단계(S720), 문서화일 수신부(110)의 질의를 위한 정보가 포함된 화일을 입력받는 문서화일 수신단계(S730), 정보추출부(120)의 화일에 포함된 질의 관련정보의 구성요소를 분석하여 질의관련 데이터를 추출하는 정보추출단계(S740), 질의생성부(130)의 질의관련 데이터를 이용하여 질의를 생성하는 질의생성단계750), 정보검색부(140)의 질의에 대하여 검색결과를 추출하는 정보검색단계(S760)에 따라 수행될 수 있다.

이상에서, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성 요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다. 이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 저장매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 저장매체로서는 자기 기록매체, 광 기록매체, 캐리어 웨이브 매체 등이 포함될 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

이상에서 설명한 바와 같이, 본 발명은 문서 내의 테이블 등의 정보를 분석하여 데이터를 추출하고 이를 기반으로 질의를 생성하고 관련 데이터를 검색하여 정보를 용이하게 획득하는 효과가 있어 유용한 발명이다.

110: 문서화일 수신부 120: 정보추출부
130: 질의생성부 140: 정보검색부
150: 질의대상 수신부 160: 분석후보정보 출력부
170: 키워드 DB 180: 논문DB
210: 인터페이스부 220: 추출기
230: 분석기 240: 분류기
250: 융합기 310: 키워드 검색부
320: 파일 업로드부 330: 디스플레이부
410: 내용 분석부 420: 본문 분석부
430: 위치 분석부 540: 구조 분석부
510: 유사도 계산부 520: 분류기 학습부
530: 테이블 분류부 610: 테이블 태깅부
620: 클러스터 관리부

Claims

화일로 질의를 생성하여 자료를 검색하는 장치에 있어서,
질의를 위한 정보가 포함된 화일을 입력받는 문서화일 수신부;
상기 화일에 포함된 질의 관련정보의 구성요소를 분석하여 질의관련 데이터를 추출하는 정보추출부;
상기 질의관련 데이터를 이용하여 질의를 생성하는 질의생성부; 및
상기 질의에 대하여 검색결과를 추출하는 정보검색부
를 포함하는 것을 특징으로 하는 자료검색 장치.
제 1항에서,
상기 질의 관련정보는 테이블을 포함하는 것을 특징으로 하는 자료검색 장치.
제 1항에서,
상기 자료검색 장치는,
질의대상에 대한 정보를 수신하는 질의대상 수신부를 더 포함하는 것을 특징으로 하는 자료검색 장치.
제 3항에서,
상기 자료검색 장치는,
질의를 위한 대상후보에 대한 정보를 출력하는 분석후보정보 출력부를 더 포함하는 것을 특징으로 하는 자료검색 장치.
제 1항에서,
상기 질의 생성부는,
상기 질의관련 데이터로부터 키워드를 분리하여 질의를 생성하는 것을 특징으로 하는 자료검색 장치.
제 5항에서,
상기 자료검색 장치는, 질의에 사용될 키워드를 분리하는데 참조하는 키워드DB를 더 포함하는 것을 특징으로 하는 자료검색 장치.
제 2항에서,
상기 정보추출부는,
상기 테이블에 대한 위치를 찾은 후에 상기 테이블의 구조를 분석하고 상기 질의관련 데이터를 추출하는 것을 특징으로 하는 자료검색 장치.
제 2항에서,
상기 정보추출부는, 상기 테이블의 내용을 분석하는 내용 분석부 및 상기 테이블과 연관된 상기 문서의 본문의 내용을 분석하는 본문 분석부, 상기 테이블의 위치를 분석하는 위치 분석부, 상기 테이블의 구조를 분석하는 구조 분석부를 포함하는 것을 특징으로 하는 자료검색 장치.
화일로 질의를 생성하여 자료를 검색하는 방법에 있어서,
질의를 위한 정보가 포함된 화일을 입력받는 문서화일 수신단계;
상기 화일에 포함된 질의 관련정보의 구성요소를 분석하여 질의관련 데이터를 추출하는 정보추출단계;
상기 질의관련 데이터를 이용하여 질의를 생성하는 질의생성단계; 및
상기 질의에 대하여 검색결과를 추출하는 정보검색단계
를 포함하는 것을 특징으로 하는 자료검색 방법.
제 9항에서,
상기 질의 관련정보는 테이블을 포함하는 것을 특징으로 하는 자료검색 방법.
제 9항에서,
상기 자료검색 방법은,
질의대상에 대한 정보를 수신하는 질의대상 수신단계를 더 포함하는 것을 특징으로 하는 자료검색 방법.
제 11항에서,
상기 자료검색 방법은,
질의를 위한 대상후보에 대한 정보를 출력하는 분석후보정보 출력단계를 더 포함하는 것을 특징으로 하는 자료검색 방법.