KR101513660B1 - Historical information retrieval system based on period query - Google Patents

Historical information retrieval system based on period query Download PDF

Info

Publication number
KR101513660B1
KR101513660B1 KR1020130061316A KR20130061316A KR101513660B1 KR 101513660 B1 KR101513660 B1 KR 101513660B1 KR 1020130061316 A KR1020130061316 A KR 1020130061316A KR 20130061316 A KR20130061316 A KR 20130061316A KR 101513660 B1 KR101513660 B1 KR 101513660B1
Authority
KR
South Korea
Prior art keywords
information
history
unit
query
history information
Prior art date
Application number
KR1020130061316A
Other languages
Korean (ko)
Other versions
KR20140140690A (en
Inventor
권용진
이준
Original Assignee
한국항공대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국항공대학교산학협력단 filed Critical 한국항공대학교산학협력단
Priority to KR1020130061316A priority Critical patent/KR101513660B1/en
Publication of KR20140140690A publication Critical patent/KR20140140690A/en
Application granted granted Critical
Publication of KR101513660B1 publication Critical patent/KR101513660B1/en

Links

Images

Abstract

시간 속성을 반영한 기간쿼리(period query) 기반으로 역사정보를 검색하도록 하고, 직관적인 정보습득이 가능하도록 한 기간쿼리기반의 역사정보 검색시스템에 관한 것으로, 검색 엔진을 통해 역사정보를 수집하고, 시간의 변화를 중심으로 정보의 내용을 검색하기 위한 기간(Period)쿼리 기반으로 수집된 역사정보를 가공하여 저장하는 역사정보 관리부; 상기 기간쿼리에 따라 상기 역사정보 관리부로부터 검색된 역사객체 간의 연관관계를 추출하고 군집화하여 구조화하는 역사정보 구조화부; 및 상기 역사정보 관리부에 입력 쿼리를 발생시키고, 상기 역사정보 구조화부에서 구조화된 역사객체 정보를 제공하는 역사정보 제공부를 구비한다.The present invention relates to a history information retrieval system based on a periodic query in which history information is retrieved based on a period query reflecting a time attribute and intuitive information acquisition is enabled. A history information management unit for processing and storing historical information collected on the basis of a period query for retrieving contents of information based on a change of the history information; A history information structuring unit for extracting and clustering relationships between historical objects retrieved from the history information management unit according to the period query, And a history information providing unit for generating an input query in the history information management unit and providing the structured history object information in the history information structuring unit.

Figure R1020130061316
Figure R1020130061316

Description

기간쿼리기반의 역사 정보 검색 시스템{Historical information retrieval system based on period query}[0002] Historical information retrieval system based on period query [

본 발명은 역사 정보 검색에 관한 것으로, 특히 시간 속성을 반영한 기간쿼리(period query) 기반으로 역사정보를 검색하도록 하고, 직관적인 정보습득이 가능하도록 한 기간쿼리기반의 역사정보 검색시스템에 관한 것이다.
The present invention relates to a history information retrieval system, and more particularly, to a history information retrieval system based on a periodic query in which history information is retrieved based on a period query reflecting a time attribute and intuitive information is acquired.

최근 인터넷과 웹의 급속한 발달로 인하여 웹상에는 방대한 양의 웹 문서들이 생성되어 축적되고 있다. 이러한 웹 문서들 가운데 사용자는 원하는 정보를 찾기 위하여 일반적으로 검색엔진을 통한 정보검색을 수행한다. 현재 구글로 대표되는 인터넷 검색엔진은 사용자가 찾고자 하는 정보에 대한 대표 키워드를 쿼리로 입력받아 단순히 그 키워드가 포함된 웹 문서들을 순위에 따라 나열하는 방식을 취하고 있다. 하지만, 검색결과로 제공된 문서들은, 해당 키워드가 포함되거나 관련된 문서일지라도 그 문서가 해당 키워드에 대하여 나타내는 주제나 의견과 같은 정보의 내용은 상반되거나 다양한 내용으로 나타난다. 이러한 내용상의 변화는 웹 문서의 내용이 시간적인 배경을 기반으로 기술되는 것으로부터 기인하며, 이러한 정보내용이 내포하는 시간속성 때문에 동일한 주제를 기술함에 있어서 대중의 여론이나 유행, 평가와 같은 내용이 시대적 배경이나 시간적 흐름에 따라서 변화하는 것을 많은 문서에서 발견할 수 있다.Recently, due to the rapid development of the Internet and the web, a huge amount of web documents have been created and accumulated on the web. Among these web documents, users generally search for information through a search engine to search for desired information. Currently, the Internet search engine, typified by Google, takes a representative keyword for the information that the user wants to search as a query, and simply takes the web documents including the keywords in order. However, the documents provided as a result of the search may be conflicting or various contents, such as the topic or the opinion expressed by the document, even if the keyword is included or related to the keyword. This change in content is caused by the description of the contents of the web document based on the temporal background. In describing the same subject due to the time attribute contained in the information content, contents such as public opinion, fashion, It can be found in many documents that changes with background or temporal flow.

예를 들어, 서울시버스체계라는 주제에 대하여 검색을 수행하면, 시행 전이나 초기시점에 작성된 블로그나 신문 기사와 같은 웹 문서의 내용은 불편하다거나 불필요한 정책이라는 등의 의견이나 주제를 갖는 경우가 대부분임을 확인할 수 있다. 하지만, 시행 후 1 ~ 2년이 지난 후에 작성된 문서들에서는 환승이나 전용차선과 같은 장점을 들며 편리하다 또는 유용하다 라는 의견을 담고 있는 경우가 많이 발견된다. 이처럼 웹 문서의 정보 내용은 시간속성을 내포하기 때문에 특정 시구간이나 시점에 따라서 그 내용이 달라지는 경우가 많지만, 현재 검색엔진이 제공하는 키워드 색인을 기반으로 관련문서들을 일괄적으로 나열하는 정보제공 방식으로는 이러한 정보의 시간속성을 충분히 반영하기 어렵다. 이러한 문제를 해결하기 위해 키워드 색인 기반 정보검색을 통해 제공된 검색결과에 대해 관점을 달리하여 웹 문서가 가진 시간속성의 관점에서 바라본다면, 이는 시간으로 구분되지 않은 과거로부터 현재까지 전체기간 동안의 검색어와 관련 있는 모든 웹 문서들을 모아놓은 것에 불과하다. 이로 인해 검색시스템에서 임진왜란 전후와 같은 특정 기간이나 특정 시점을 대상으로 한 정보를 검색하거나 시간에 따라 변화된 정보 내용을 검색하고자 하는 사용자는 단지 키워드만을 이용하여 반복적인 정보검색 및 복잡한 여과과정을 수행하여야 하고, 이는 사용자에게 비효율적인 시간과 노력의 소모를 요구한다.For example, if you conduct a search on the subject of the Seoul Bus System, the contents of a web document such as a blog or a newspaper article created before or at the beginning of the project are often inconvenient or unnecessary policies . However, documents written after one or two years after the implementation have many advantages such as transfer or exclusive lane, which is convenient or useful. Since the information content of a web document implies a time attribute, the content of the web document varies depending on a specific time period or a viewpoint. However, in the present invention, an information providing method that collectively lists related documents based on a keyword index provided by a search engine It is difficult to sufficiently reflect the time attribute of such information. In order to solve this problem, if we look at the search results provided through keyword index-based information retrieval from the viewpoint of the time attribute of the web document by different viewpoints, It is just a collection of all relevant web documents. Therefore, a user searching for information about a specific time period or a certain time point, such as before or after the invasion of Japan, or searching for information contents changed over time, should perform repetitive information search and complex filtering process using only keywords , Which requires users to spend time and effort inefficiently.

하지만, 키워드 색인이 아닌 웹 문서의 시간속성을 반영하여 시간 축을 기준으로 한 정보내용의 변화가 검색가능하다면 즉, 임진왜란 전후의 시대상황, 한미FTA실행에 따른 정치인의 발언변화와 같은 새로운 형태의 정보검색이 가능할 것이다. 더불어 이러한 검색은 웹 문서가 가진 시간속성을 반영하기 때문에 사용자가 실제로 찾고자 하는 정보의 내용에 더욱 정확하게 접근할 수 있도록 해주며, 특히 기존의 검색엔진이 제공하지 못하는 시간의 흐름에 따른 정보의 내용적인 변화를 검색하는데 있어서 도움을 줄 수 있다. 특히, 구체적으로 1년 혹은 10년과 같은 시간단위로 시구간을 선택하여 검색을 수행할 수 있다면, 즉, 한미 FTA시행 전 1년과 후 1년과 같은 검색구간을 설정하여 시간에 따른 정보의 내용의 변화를 검색 가능할 것이다. 더불어 검색어에 대한 정보의 내용이 변하는 변곡점에 해당하는 시점과 같은 관련 핵심정보를 검색하기 용이할 것이다.However, if the change of the information contents based on the time axis can be retrieved by reflecting the time attribute of the web document instead of the keyword index, it is possible to obtain new types of information such as the situation before and after the Japanese invasion, Search will be possible. In addition, since this search reflects the time attribute of the web document, it allows the user to access the contents of the information actually sought more accurately, and in particular, It can help you to detect changes. In particular, if the search can be performed by selecting the time zone as a time unit such as 1 year or 10 years, that is, by setting a search interval such as 1 year and 1 year before the FTA, You will be able to search for changes in content. In addition, it is easy to search for relevant key information such as a time point corresponding to an inflection point at which the contents of information about a search word change.

시간은 정보공간에 있어서 중요한 하나의 차원으로 고려될 수 있으며, 정보추출(Information extraction), 주제탐색(Topic-detection), 질의 응답 시스템(Questionanswering) 등 정보검색의 여러 분야에서 매우 유용하게 사용될 수 있다. 특히, 시간적인 정보를 활용하여 정보검색의 결과를 재구성하거나, 검색결과 순위의 계산에 시간적인 정보를 반영하여 사용자가 검색한 정보를 더욱 정확한 검색결과로써 제공할 수 있다(비특허문헌 1 참조). 그러나 기존의 검색엔진을 비롯한 정보검색 시스템에서는 시간적인 정보의 장점을 최대한 활용하지 못한 정보검색이 이루어지고 있다.Time can be considered as an important dimension in information space and can be very useful in various fields of information retrieval such as information extraction, topic retrieval, and questionanswering . In particular, it is possible to reconstruct the result of information retrieval using temporal information, or to reflect the temporal information in the calculation of the retrieval result ranking, thereby providing information retrieved by the user as a more accurate retrieval result (see Non-Patent Document 1) . However, in the information retrieval system including the conventional search engine, information retrieval that does not utilize the advantage of temporal information as much as possible is being performed.

하지만, 최근 몇 년 동안 정보검색에 있어서 시간적인 정보의 중요성을 인식하고 이를 분석하고 개척하는데 있어서 흥미 있는 연구들이 진행되고 있다(비특허문헌 2 참조).However, in recent years, there has been an intriguing research on recognizing the importance of temporal information in information retrieval and analyzing and pioneering it (see Non-Patent Document 2).

시간적인 정보를 정보검색 분야에 활용하기 위해서는 웹 문서에서 나타내고 있는 시간적인 정보를 추출해야 한다. 일반적으로 웹 문서의 시간적인 정보는 문서의 생성일자나 최종수정일과 같은 정보를 통해 간단하게 추출할 수 있다. 하지만, 정보검색의 목적을 위해서 정확한 시간적인 정보를 이용하려면 단순한 문서의 메타정보뿐만 아니라, 문서의 내용상에 존재하는 시간적인 정보를 추출할 수 있어야 한다. 문서의 내용상에 존재하는 시간적인 정보의 추출을 위해서 J.Pustejovsky(비특허문헌 3 참조) 등은 XML기반의 TimeML의 제안을 통해서 문맥상의 시간적인 표현(Temporal Expression)을 일자(Data), 시간(Time), 기간(Duration), 집단(Set) 등의 4가지 유형으로 분류하였다. 또한, 문장 속에서 시간적인 표현에 해당하는 부분을 실제 시간을 나타내는 표준적인 형태, 즉 'YYYY-MM-DD'와 같은 형태로 정규화하여 시간적인 정보를 사용하기 용이하도록 하는 시간적인 정보의 정규화 표현을 제안하였다.In order to utilize temporal information in the information retrieval field, it is necessary to extract the temporal information indicated in the web document. In general, the temporal information of a Web document can be extracted simply by information such as the date of creation of the document or the date of the last modification. However, in order to use accurate time information for the purpose of information retrieval, it is necessary to extract not only meta information of a simple document but also temporal information existing in the contents of the document. For example, J. Pustejovsky (see Non-Patent Document 3) extracts a temporal expression in a context from a proposal of XML-based TimeML in order to extract temporal information existing on the content of a document, Time, Duration, and Set. In addition, a portion corresponding to a temporal expression in a sentence is normalized to a standard form representing real time, i.e., 'YYYY-MM-DD', so that a normalized expression of temporal information .

하지만, 실제 문서에서 시간적인 표현은 위와 같은 4가지 유형뿐만 아니라 다양한 형태로 발생하게 때문에 정규화는 간단하게 수행되기 어렵다. 이렇게 다양하게 발생하는 시간적인 표현을 정확하게 추출하기 위해서 O.Alonso(비특허문헌 4 참조) 등은 웹 문서에 나타나는 시간적인 정보의 형태를 3가지로 구분하였다. 구분된 표현의 유형은 'December 2004'와 같이 직접적으로 시간과 대응되는 Explicit 표현, 'Labor Day 2008'과 같이 기념일이나 사건과 같은 특정 이름으로 명명되는 Implicit 표현, 'Last week'와 같이 문서의 메타데이터와의 비교를 통해 시간적인 정보를 알 수 있는 Relative 표현으로 정의하였다. 이러한 세 가지 유형으로 정의함으로써 문서의 메타데이터의 시간적인 정보뿐만 아니라 문맥상에 존재하는 시간적인 표현에 대하여 더욱 정확한 추출이 가능하도록 하였다.However, since the temporal representation in actual documents occurs not only in the above four types but also in various forms, the normalization is difficult to perform simply. O.Alonso (refer to non-patent document 4) divides temporal information forms appearing in web documents into three types in order to accurately extract such temporal expressions that occur in various ways. The types of expressions that can be expressed are explicit expressions that correspond directly with time such as 'December 2004', Implicit expressions that are named with specific names such as anniversaries or events, such as 'Labor Day 2008' We defined it as a relational expression that can understand the temporal information through comparison with the data. By defining these three types, not only the temporal information of the metadata of the document but also the temporal expression existing in the context can be extracted more accurately.

이와 같은 시간적인 정보의 추출과 정규화의 전반적인 과정을 시간 태깅(Temporal tagging)이라고 부르며 시간 태깅을 수행하는 기계를 시간 태거(Temporal tagger)라고 한다. 시간 태거들은 형태소 분석과 같은 기본적인 텍스트처리 과정과 일련의 자연언어처리 과정을 거쳐 문장을 전처리하고, 전처리된 문장에서 기계학습 기술들을 활용하여 시간적인 표현의 범위(boundary)를 확인한 후 시간적인 정보를 추출하고 이를 정규화한다(비특허문헌 5 참조).This process of temporal information extraction and normalization is called temporal tagging, and the machine that performs time tagging is called a temporal tagger. Time staggers preprocess sentences through a basic text processing process such as morphological analysis and a series of natural language processing and use machine learning techniques in preprocessed sentences to check the boundaries of temporal expressions, Extracted and normalized (see Non-Patent Document 5).

이러한 방법으로 추출된 시간적인 정보는 정보검색의 여러 분야에서 활용되고 있다. M. Gertz(비특허문헌 6 참조) 등은 정보검색결과로 제공된 웹 문서들의 시간적인 정보를 추출하고 이를 기준으로 클러스터링을 수행하여 유사한 시간정보를 갖는 웹 문서들끼리 군집화여 검색결과를 재구성하는 연구를 수행하였다. 또한, 유사한 연구로써 J.Makkonen(비특허문헌 7 참조) 등은 비교적 시간적인 정보가 분명한 뉴스기사들을 활용하여 각 기사의 시간적인 정보를 추출하고 이들 간의 비교를 통해서 기사들 간의 유사성을 측정하는 연구를 수행하였다. 검색결과 제공의 또 다른 측면에서 검색결과로 제공되는 문서의 요약이나 snippet의 생성에 있어서도 시간적인 정보가 활용될 수 있다. O.Alonso(비특허문헌 8 참조) 등은 문서의 메타데이터의 시간정보와 본문 상의 시간정보를 추출하고 이를 문서의 주제와 함께 고려하여 가장 적합한 본문의 일부를 Snippet으로 생성하는 연구를 진행하였다.The temporal information extracted by this method is utilized in various fields of information retrieval. M. Gertz (see Non-Patent Document 6) extracts temporal information of web documents provided as a result of information retrieval and performs clustering on the basis of the extracted information, thereby reconstructing search results by clustering web documents having similar time information Respectively. In addition, J. Makkonen (see Non-Patent Document 7) has used a similar study to extract the temporal information of each article by using news articles that have relatively clear temporal information, and to measure the similarity between articles Respectively. In another aspect of providing search results, temporal information can be utilized in the creation of snippets or summaries of documents provided as search results. O.Alonso (refer to non-patent document 8) extracts time information of the metadata of the document and time information on the text and considers this information together with the subject of the document, and has conducted research to generate a part of the most suitable text as a snippet.

이러한 검색결과 제공에서의 활용뿐만 아니라 유용한 정보를 추출하기 위해 블로그로부터 시간정보를 활용하여 데이터 마이닝을 수행하는 연구가 진행되었다(비특허문헌 9 참조). 아울러 문서의 주제를 검출하고 검출된 주제를 관련된 기간(Timeline) 상에 표현해주는 연구도 진행되고 있으며(비특허문헌 10 참조), Future Retrieval 분야와 결합하여 미래의 어떤 사실이나 객체 간의 관계를 예측하는데 있어서 시간적인 정보를 활용하는 연구(비특허문헌 11 참조) 등과 같이 다양한 정보검색 분야에서 시간적인 정보가 활용 중에 있다. 더불어 최근 진행되고 있는 시간적인 정보를 활용해서 정보의 특성이나 패턴을 분석하거나 인식하는 Temporal pattern(비특허문헌 12 참조) 분야, 웹 문서 내용의 시간정보를 파악하여 정보의 최신성을 파악하고 이를 정보검색에 이용하는 Fresh Information Retrieval (비특허문헌 13 참조) 분야, 시간적인 정보와 공간적인 정보를 동시에 고려하여 지리정보 상에 시간의 순서에 따라 정보를 매핑 하거나 이동체에 대한 정보검색에 활용되는 Spatio-Temporal exploration(비특허문헌 14 참조) 등의 정보검색 관련 연구분야에서 시간정보는 중요한 하나의 요소로써 활용되고 있다.In order to extract useful information as well as utilization in providing search results, research has been conducted on data mining using time information from a blog (see Non-Patent Document 9). In addition, studies are being conducted to detect the subject of a document and to express the detected subject on a related time line (see Non-Patent Document 10), and to combine with the Future Retrieval field to predict the relation between some facts or objects in the future (See Non-Patent Document 11), which utilize temporal information, are used in various information retrieval fields. In addition, there is a temporal pattern (see non-patent document 12) that analyzes or recognizes the characteristics and patterns of information using recent temporal information, a time information of the contents of a web document, In the field of Fresh Information Retrieval (refer to non-patent document 13) used for searching, it is possible to map information in accordance with the order of time on geographic information, or to use Spatio-Temporal time information is used as an important factor in research related to information retrieval such as exploration (refer to non-patent document 14).

한편, 정보검색 기술은 90년대 후반부터 인터넷의 발달과 함께 급속하게 발전하고 있으며, 최근에는 웹 문서의 양이 급격하게 증가하면서 대용량 문서 색인 기술과 함께 검색결과 중에서 사용자가 원하는 의도에 맞는 정보를 정확하게 찾아주는 효과적인 검색 랭킹 기술이 요구되고 있다. 특히 웹의 영역에서 정보검색은 다양한 분야의 정보들이 서로 연결되어 있는 상황에서 빠르고 정확하게 찾아주는 점에 초점을 맞추어 기술개발이 이루어지고 있다. 현재 대표적인 웹 검색엔진인 구글(www.google.com)의 경우 이러한 웹의 특성을 반영하여 Page Rank라는 랭킹 시스템 등 다양한 검색 및 랭킹 알고리즘의 도입을 통하여 사용자 입장에서 높은 검색 효과를 얻는 서비스를 제공하고 있다. 정보검색 기술은 이외에도 중복검색결과 제거, 메타검색, 전문 검색 등 여러 이슈들에 대하여 활발한 연구가 이루어지고 있다(비특허문헌 15 참조).Meanwhile, the information retrieval technology has been rapidly developing with the development of the Internet since the late 90's. In recent years, the amount of web documents has been rapidly increased, and a large amount of document indexing technology has been used. There is a need for an effective search ranking technique. In particular, information retrieval in the area of the web is focused on the point that information of various fields are connected to each other and quickly and accurately finds the technology development. Currently, Google (www.google.com), a representative web search engine, provides a service that obtains a high search effect from a user's point of view by introducing various search and ranking algorithms such as a ranking system called "Page Rank" have. In addition to the information retrieval technology, various researches such as elimination of duplicate retrieval result, meta retrieval, and specialized retrieval have been actively conducted (refer to non-patent document 15).

정보검색의 또 다른 측면에서 웹상의 정보에 잘 정의된 의미를 부여함으로써 컴퓨터가 의미를 해석하여 사용자 질의 의도에 적합한 검색결과를 제공하는 시맨틱 웹에 관한 연구와 다수의 개인들의 지식을 사용자의 질의에 활용하는 질의 응답형 검색서비스와 같은 지식기반 정보검색에 관한 연구가 활발하게 이루어지고 있다. 이러한 지식기반 정보검색 서비스들은 사용자의 질의에 대해 관련문서를 검색결과로 제공하는 것이 아니라 단편적인 정보들을 하나의 지식으로 가공하여 검색결과로 제공함으로써 사용자가 질의에 대한 정보를 보다 쉽게 습득하고 나아가 관련정보와 같은 지식으로서의 정보까지 습득할 수 있다는 점에서 의미가 있다.In another aspect of information retrieval, a semantic web that provides a well-defined meaning to information on the web and provides a search result suitable for the user's query intention by interpreting the meaning of the computer, Research on knowledge - based information retrieval such as query - based retrieval service is being actively carried out. These knowledge-based information retrieval services not only provide related documents to the user's query but also provide the retrieval result by processing the fragmented information into a single knowledge so that the user can acquire information about the query more easily, It is meaningful that you can acquire information as knowledge as information.

네이버(www.naver.com)의 지식인 서비스는 대표적인 질의 응답형 지식검색 서비스로써 다수 이용자의 참여로 사용자의 질의에 응답이 이루어진다. 지식인 서비스는 누구나 어떠한 주제에 대해서도 질문과 답변을 할 수 있는 개방적 구조와, 이렇게 축적된 자료를 공유할 수 있다는 커뮤니티적인 특성으로 인하여 비즈니스 위크지가 구글이 NHN에게서 배워야 할 점으로 지식인 서비스를 주목했을 정도로 정보검색의 한 영역으로 자리 잡았다(비특허문헌 16 참조). 비록 검증되지 않은 답변이나 추측성 답변들로 인하여 답변의 신뢰성, 정확성, 전문성이 저하되고 지식의 질적 하락이 초래될 수 있지만, 사용자의 질의에 대한 정확한 답변이 가능하다는 점, 다수의 답변자로부터 다양한 정보를 얻을 수 있다는 점, 또한 축적된 답변들로부터 관련 정보들을 손쉽게 얻을 수 있다는 점 등의 정보검색에 있어서 많은 장점을 가진다.The intellectual service of Naver (www.naver.com) is a representative question-and-answer type knowledge search service. The intellectual services are open-minded because everyone can ask and answer any topic, and because of the communicative nature of sharing the accumulated data, Businessweek has paid attention to intellectual services because it needs to learn from NHN. And has become an area of information retrieval (see Non-Patent Document 16). Although unreliable answers or speculative answers may reduce the reliability, accuracy, and expertise of answers and result in a decrease in the quality of knowledge, it is possible to answer the user's query accurately, And that it is easy to obtain relevant information from the accumulated answers.

이러한 지식인 서비스를 비롯한 지식검색 서비스에서 질의는 검색엔진의 검색 창에 입력되며, 지식검색 시스템은 지식 데이터베이스로부터 사용자의 질의에 적합할 가능성이 높은 문서들을 검색한다. 따라서 지식 데이터베이스로부터 검색 질의에 적합한 문서를 선정하는 것이 가장 중요하다. 일반적인 웹 문서의 품질 평가에 대해서는 상당한 연구가 수행되었으나, 질의응답형 서비스와 같은 지식검색 서비스에 대한 연구는 현재 활발한 진행 중에 있다. Bivens-Tatum(비특허문헌 17 참조) 등은 지식검색 서비스의 역사와 현황을 소개하였고, J. Hill(비특허문헌 18 참조) 등은 전문가 질의응답 서비스에 대한 간단한 성능 실험을 수행하였다. Park(비특허문헌 19 참조) 등은 네이버, 야후, 엠파스의 지식 검색 서비스를 대상으로 응답률, 응답소요시간과 같은 실험을 수행하여 성능을 비교하였으며, 온라인 설문조사를 통하여 이용자들의 전반적인 특성을 파악하고 정보이용행태 등을 조사하여 지식검색 서비스를 개선하기 위한 방안을 제시하였다. 또한, Choi(비특허문헌 20 참조) 등은 네이버 지식인의 질의 응답문서들을 대상으로 클러스터링 기법과 수작업 주제분류의 주제 표현성능을 비교, 평가하였다.In the knowledge search service including the intellectual service, the query is inputted into the search window of the search engine, and the knowledge search system searches the knowledge database for documents likely to be suitable for the user's query. Therefore, it is most important to select a document suitable for the search query from the knowledge database. Although a considerable amount of research has been conducted on the quality evaluation of general web documents, researches on knowledge search services such as question-and-answer services are currently underway. Bivens-Tatum (see Non-Patent Document 17) introduced the history and the status of the knowledge search service, and J. Hill (see Non-Patent Document 18) performed a simple performance test on the expert query response service. Park (refer to non-patent reference 19) performed experiments such as response rate and response time for Naver, Yahoo, and Empas knowledge search services, and compared the performances. Through online surveys, And information usage behavior, and suggested ways to improve the knowledge search service. In addition, Choi (see Non-Patent Document 20) compares and evaluates the topic expression performance of the clustering technique and the manual subject classification for the query response documents of Naver intellectuals.

지식기반 정보검색의 다른 측면에서의 접근으로 문서의 의미를 파악하여 컴퓨터가 자동으로 의미에 맞는 문서를 검색할 수 있도록 하는 온톨로지를 사용한 시맨틱 검색방법이 있다. 현재까지 웹상의 대부분의 정보는 컴퓨터가 아닌 사람이 읽고 해석하기 편리하도록 구성되어 있기 때문에 이를 컴퓨터가 지능적으로 해석하여 처리하기에는 어려움이 많다. 사용자의 일반적인 정보검색 과정을 살펴보면, 사용자는 검색 엔진을 이용하여 원하는 정보를 검색하고 이를 사용자의 눈으로 일일이 확인하여 필요한 정보를 선택한 후 선택한 내용을 다시 해석하여 확인하는 과정을 반복적으로 수행해야 한다. 사용자가 원하는 정보를 해석하여 핵심정보만을 추출한 후 가공하여 사용자의 의도에 맞게 제공할 수 있는 검색엔진이 있다면 사용자는 반복적이고 소모적인 작업에서 벗어날 수 있을 것이다. 이러한 측면에서 시맨틱 웹의 문서는 컴퓨터가 해석하기 쉽도록 부여한 의미가 있기 때문에 자동화된 에이전트나 정교한 검색엔진들이 부여된 의미를 이용하여 높은 수준의 지식검색이 가능하게 한다.There is a semantic search method using an ontology that allows a computer to automatically search for a meaningful document by grasping the meaning of the document by accessing from other aspects of the knowledge-based information retrieval. Until now, most of the information on the web has been configured to be easy to read and interpret by people, not the computer. Therefore, it is difficult for the computer to intelligently interpret and process the information. A general information retrieval process of a user is as follows. A user searches for desired information using a search engine, checks the information with the user's eyes, selects necessary information, and reinterprets the selected information. If a user has a search engine that interprets desired information, extracts only core information, processes it, and provides it to the user's intention, the user will be able to escape repetitive and exhausting tasks. In this sense, the Semantic Web documents are meant to be easily interpreted by computers, which makes it possible to search through high level knowledge using the meanings of automated agents or sophisticated search engines.

웹에 의미(Semantic)를 부여한다는 것은 사용자 인터페이스를 위한 자연어 처리 기능을 부가하고자 하는 것이 아니라 컴퓨터가 처리하기 용이하게 하고자 선언적인 추가 정보를 부여하는 것을 뜻한다(비특허문헌 21 참조). 시맨틱 웹에 대한 연구로써 문서에 의미를 부여하기 위한 지식의 정의와 관련된 온톨로지에 대한 연구와 웹 자원을 서술하기 위한 RDF 및 RDFS와 같은 연구(비특허문헌 22 참조), 그리고 이를 활용하기 위한 자동화된 자율적 프로그램인 에이전트(비특허문헌 23 참조)에 관한 연구 등을 포괄한다.Assigning a semantic to the web means not to add a natural language processing function for a user interface but to give declarative additional information to facilitate processing by the computer (refer to non-patent document 21). Research on ontologies related to the definition of knowledge for semantic web as a research on semantic web and researches such as RDF and RDFS for describing web resources (see non-patent reference 22), and automated And research on an autonomous program agent (see Non-Patent Document 23).

온톨로지는 해당영역의 개념들과 이들 개념 간의 상호 관계를 정의하는 것으로서, 지식 기반 시스템에서는 컴퓨터 프로그램에 의해서 처리되기 용이하도록 광범위한 구성원 간에 합의되어 애매모호하지 않게 정의된 지식 체계를 말한다(비특허문헌 24 참조). 이렇게 잘 정의된 지식체계를 이용하여 주제들과 주제들 간의 관계를 계층적으로 정의하여 문서를 분류하고 사용자의 의도에 적합한 검색을 수행할 수 있다. 이러한 온톨로지의 정의를 위해서 XML과 RDF가 사용된다. XML은 사용자가 정의한 태그를 이용하여 임의의 문서 구조를 지정하고 RDF는 웹 문서를 표현하는데 기본이 되는 제목, 저자, 최종 수정일과 같은 웹 문서에 관한 메타데이터를 표현한다. RDF는 기본적으로 일반 문장의 주어, 동사(또는 서술어), 목적어에 해당하는 것으로써, 이러한 세 개의 정보를 지닌 쌍들을 정의하며 사람이나 웹 문서 등 특정 대상(Object)이 특정 속성(Attribute)에 대하여 특정 값(Value)을 가지고 있는 상태를 표현한다. 이와 같은 방법을 통해 의미를 이용하여 문서를 분류함으로써 의미를 반영한 정보검색이 가능하도록 한다. 웹 문서의 의미적인 표현과 관련된 언어에는 RDF를 기반으로 하여 DAML(DARPA Agent Markup Language)과 주로 유럽에서 개발된 OIL(Ontology Inference Layer)의 결합을 통해 만들어진 DAML+OIL(비특허문헌 25 참조)를 거쳐 W3C에 의해 정의된 OWL(비특허문헌 26 참조)로 계승발전되고 있다.The ontology defines the concepts of the domain and the interrelationships between these concepts. In the knowledge-based system, it refers to a knowledge system that is unambiguously defined and agreed upon by a wide range of people to facilitate processing by a computer program (Non-Patent Document 24 Reference). Using this well-defined knowledge system, we can classify documents by hierarchically defining the relationship between themes and themes, and search suitable for user's intention. XML and RDF are used to define these ontologies. XML specifies an arbitrary document structure using tags defined by the user, and RDF represents metadata related to Web documents such as title, author, and last modification date, which are bases for representing a Web document. RDF is basically a subject, a verb (or a descriptor) and an object of a general sentence. By defining a pair of these three pieces of information, a specific object such as a person or a web document, Represents a state having a specific value. Through such a method, it is possible to search for information that reflects meaning by classifying documents using meaning. DAML + OIL (refer to non-patent document 25), which is a combination of DAML (DARPA Agent Markup Language) and OIL (Ontology Inference Layer) developed mainly in Europe, based on RDF, OWL (see Non-Patent Document 26) defined by W3C.

한편, 키워드 검색에 따란 단점을 해소하고자 종래에 제안된 또 다른 기술이 하기 <특허문헌 1> 대한민국 공개특허 공개번호 제10-2011-0041320호(2011. 04. 21. 공개)에 기재된 문화정보의 시간/공간/주체 분류를 이용한 연관검색 방법 및 시스템과 같이 다양한 연관 검색 방법이 개발되고 있는 실정이다.
Meanwhile, another technique proposed in the prior art for solving the disadvantages of the keyword search is a method of extracting the cultural information described in the patent document 1, Korean Patent Laid-Open Publication No. 10-2011-0041320 (published on April 21, 2011) And related search methods and systems using time / space / subject classification.

대한민국 공개특허 공보 10-2011-0041320A, 2011. 04. 21, 8쪽 내지 9쪽.Korean Patent Publication No. 10-2011-0041320A, 2011. 04. 21, pp. 8-9.

J.F. Allen. Maintaining Knowledge about Temporal Intervals. In Communications of the ACM, 26(11):832-843, 1983J.F. Allen. Maintaining Knowledge about Temporal Intervals. In Communications of the ACM, 26 (11): 832-843, 1983 O.Alonso, M. Gertz, and R. Baeza-Yaters, On the value of temporal information in information retrieval. SIGIR Forum, 41(2):35~41,2007.O. Alonso, M. Gertz, and R. Baeza-Yaters, On the value of temporal information in information retrieval. SIGIR Forum, 41 (2): 35-41,2007. J. Pustejovsky, J. M. Casta?no, et al. TimeML: Robust Specification of Event and Temporal Expressions in Text. In Proceedings of the AAAI Spring Symposium on New Directions in Question Answering, pages 28 -34, 2008.J. Pustejovsky, J. M. Castaño, et al. TimeML: Robust Specification of Event and Temporal Expressions in Text. In Proceedings of the AAAI Spring Symposium on New Directions in Question Answering, pages 28-34, 2008. O.Alonso, et. al. Temporal information retrieval: Challenges and opportunities. In International Temporal Web Analytics Workshop, pages 1-8, 2011O.Alonso, et. al. Temporal information retrieval: Challenges and opportunities. In International Temporal Web Analytics Workshop, pages 1-8, 2011 O. Kolomiyets and M.-F. Moens. Meeting TempEval-2: Shallow Approach for Temporal Tagger. In Proceedings of the Workshop on Semantic Evaluations: Recent Achievements and Future Directions (SEW ’09), pages 52-57, 2009.O. Kolomiyets and M.-F. Moens. Meeting TempEval-2: Shallow Approach for Temporal Tagger. In Proceedings of the Workshop on Semantic Evaluations: Recent Achievements and Future Directions (SEW '09), pages 52-57, 2009. O. Alonso, M. Gertz, and R. Baeza-Yates. Clustering and Exploring Search Results Using Timeline Constructions. In Proceedings of the 18th ACM International Conference on Information and Knowledge Management (CIKM ’09), pages 97-106,2009.O. Alonso, M. Gertz, and R. Baeza-Yates. Clustering and Exploring Search Results Using Timeline Constructions. In Proceedings of the 18th ACM International Conference on Information and Knowledge Management (CIKM '09), pages 97-106, 2009. J. Makkonen and H. Ahonen-Myka. Utilizing Temporal Information in Topic Detection and Tracking. In Proceedings of 7th European Conference on Research and Advanced Technology for Digital Libraries (ECDL ’03), pages 393-404, 2003.J. Makkonen and H. Ahonen-Myka. Utilizing Temporal Information in Topic Detection and Tracking. In Proceedings of 7th European Conference on Research and Advanced Technology for Digital Libraries (ECDL '03), pages 393-404, 2003. O. Alonso, R. Baeza-Yates, and M. Gertz. Effectiveness of Temporal Snippets. In Proceedings of the Workshop on Web Search Result Summarization and Presentation (WSSP 09), pages 1-4, 2009.O. Alonso, R. Baeza-Yates, and M. Gertz. Effectiveness of Temporal Snippets. In Proceedings of the Workshop on Web Search Result Summarization and Presentation (WSSP 09), pages 1-4, 2009. A. Qamra, B. Tseng, and E. Chang. Mining Blog Stories Using Community-based and Temporal Clustering. In Proceedings of the 15th ACM International Conference on Information and Knowledge Management (CIKM ’06), pages 58-67, 2006.A. Qamra, B. Tseng, and E. Chang. Mining Blog Stories Using Community-based and Temporal Clustering. In Proceedings of the 15th ACM International Conference on Information and Knowledge Management (CIKM '06), pages 58-67, 2006. R. Swan and J. Allan. TimeMine: Visualizing Automatically Constructed Timelines. In Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR ’00), page 393, 2000.R. Swan and J. Allan. TimeMine: Visualizing Automatically Constructed Timelines. In Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR '00), page 393, 2000. A. Jatowt, K. Kanazawa, S. Oyama, and K. Tanaka. Supporting Analysis of Future-related Information in News Archives and the Web. In Proceedings of the 9th Joint Conference on Digital Libraries (JCDL '09), 2009.A. Jatowt, K. Kanazawa, S. Oyama, and K. Tanaka. Supporting Analysis of Future-related Information in the News Archives and the Web. In Proceedings of the 9th Joint Conference on Digital Libraries (JCDL '09), 2009. B. Shaparenko, R. Caruana, J. Gehrke, and T.Joachims. Identifying Temporal Patterns and Key Players in Document Collections. In Proceedings of the IEEE ICDM Workshop on Temporal Data Mining: Algorithms, Theory and Applications (TDM '05), pages 165-174, 2005.B. Shaparenko, R. Caruana, J. Gehrke, and T. Joachims. Identifying Temporal Patterns and Key Players in Document Collections. In Proceedings of the IEEE ICDM Workshop on Temporal Data Mining: Algorithms, Theory and Applications (TDM '05), pages 165-174, 2005. Toyoda, M., & Kitsuregawa, M. What's Really New on the Web? Identifying New Pages from a Series of Unstable Web Snapshots. In WWW2006: Proceedings of the 15th International World Wide Web Conference (pp. 233-241). Edinburgh,Toyoda, M., & Kitsuregawa, M. What's Really New on the Web? Identifying New Pages from a Series of Unstable Web Snapshots. In WWW2006: Proceedings of the 15th International World Wide Web Conference (pp. 233-241). Edinburgh, Scotland. May 23-26: ACM Press.Scotland. May 23-26: ACM Press. J. Strotgen, M. Gertz, and P. Popov. Extraction and Exploration of Spatio-temporal Information in Documents. In Proceedings of the 6th Workshop on Geographic Information Retrieval, pages 1-8, 2010.J. Strotgen, M. Gertz, and P. Popov. Extraction and Exploration of Spatio-temporal Information in Documents. In Proceedings of the 6th Workshop on Geographic Information Retrieval, pages 1-8, 2010. Monika Henzinger, "Google Tutorial: Web Information Retrieval", Tutorial on Web Information Retrieval at ICDE'2000 (16th International Conference on Data Engineering),2000.Monika Henzinger, "Google Tutorial: Web Information Retrieval ", Tutorial on Web Information Retrieval at ICDE'2000 (16th International Conference on Data Engineering), 2000. L. Moon and E. Woyke, 2006 "NHN : the little search engine that could" businessweek. 30 JanuaryL. Moon and E. Woyke, 2006 "NHN: the little search engine that could" businessweek. 30 January Bivens-Tatum, R. W. 2001. "Expert services on the Web : the commercial compettion for libraries", College & Research Libraries News. 62(7) : 714-716.Bivens-Tatum, R. W. 2001. "Expert services on the Web: the commercial compettion for libraries", College & Research Libraries News. 62 (7): 714-716. J. Hill, A. Rolfe. 2001, "Ask-an-expert services analysis" Journal of the American Soceity for Information Science and Technology. 52(13) : 1106-1121.J. Hill, A. Rolfe. 2001, "Ask-an-expert services analysis" Journal of the American Society for Information Science and Technology. 52 (13): 1106-1121. P.Joo-Bum, J.Dong-Youl. 2004. "An Empirical Study on Web-based Question-Answer Services", In Proceedings of Korea Society for Information Management, 21(3) : 83-98, 2004.P.Joo-Bum, J. Dong-Youl. 2004. "An Empirical Study on Web-based Question-Answer Services", In Proceedings of the Korea Society for Information Management, 21 (3): 83-98, 2004. C. sang-hee. 2005. "A Study on Clustering Query - answer Documents with Structural Features", In Proceedings of Korea Society for Library and Information Science, 39(4) : 105-118, 2005.C. sang-hee. 2005. "A Study on Clustering Query - Answer Documents with Structural Features ", In Proceedings of the Korea Society for Library and Information Science, 39 (4): 105-118, 2005. S.Y. Park, J.H. Lee, J.W. Jeon, 2006, "Evaluation of the documents from the Web-based Question and Answer Service", In Proceedings of Korea SocietyS.Y. Park, J.H. Lee, J.W. Jeon, 2006, "Evaluation of the documents from the Web-based Question and Answer Service ", In Proceedings of the Korea Society for Library and Information Science, 40(2) : 299-314, 2006.for Library and Information Science, 40 (2): 299-314, 2006. Klein, M., "XML, RDF, and Relatives," IEEE Intelligent Systems, vol.16, no.2, March/April, 2001,pp.26-28.Klein, M., "XML, RDF, and Relatives," IEEE Intelligent Systems, vol.16, no.2, March / April, 2001, pp. 26-28. James Hendler, "Agents and the Semantic Web," IEEE Intelligent Systems, vol.16, no.2, March/April, 2001, pp.30-37.James Hendler, "Agents and the Semantic Web," IEEE Intelligent Systems, vol. 16, no. 2, March / April, 2001, pp. 30-37. T. R. Gruber, "A Translation Approach to Portable Ontologies," Knowledge Acquisition, 5(2):199-220, 1993.T. R. Gruber, "A Translation Approach to Portable Ontologies," Knowledge Acquisition, 5 (2): 199-220, 1993. Debora L. McGuinness, Richard Fikes, James Hendler and Lynn Andrea Stein, "DAML+ OIL: An Ontology Language for the Semantic Web," IEEE Intelligent Systems, vol.17, no.5, September/October, 2002, pp.72-80.Debora L. McGuinness, Richard Fikes, James Hendler and Lynn Andrea Stein, "DAML + OIL: An Ontology Language for the Semantic Web," IEEE Intelligent Systems, vol.17, no.5, September / October, 2002, pp.72- 80. Mike Dean et al. (Eds.), "Web Ontology Language(OWL) Reference Version 1.0,"W3C Working Draft 12 November, 2002, http://www.w3.org/TR/owl-ref/.Mike Dean et al. Web Ontology Language (OWL) Reference Version 1.0, W3C Working Draft 12 November, 2002, http://www.w3.org/TR/owl-ref/. Kang, Seung-Shik, “Word Classification and Data Structure for Korean Morphological Analysis”, The 8th Annual Conference on Human & Cognitive Language Technology, 1996, pp241-245Kang, Seung-Shik, "Word Classification and Data Structure for Korean Morphological Analysis", The 8th Annual Conference on Human & Cognitive Language Technology, 1996, pp241-245

그러나 상기와 같은 종래의 기술들은 반드시 검색하고자하는 대상의 키워드가 입력되어야 하는데 '16세기의 조선시대상' 등과 같은 역사정보는 검색쿼리를 키워드로 특정하기 곤란하므로, 역사 정보 검색 과정이 더욱 복잡해지는 문제점이 있다.However, in the conventional techniques described above, it is necessary to input a keyword of a target to be searched. However, since it is difficult to specify a search query by keyword, the history information such as 'the 16th century shipbuilding era' .

그리고 역사 정보는 시간의 흐름에 따라서 인물이나 사건 간의 관계가 변화하는데 기존 역사 정보 검색 서비스는 이러한 변화에 대응하지 못하고 동일한 키워드에 대하여 같은 검색결과만을 제공하는 한계점이 있었다.
And history information has a limit to provide the same search result for the same keyword because the history information search service can not cope with such change because the relationship between person and event changes according to the passage of time.

본 발명의 목적은 시간 속성을 반영한 기간쿼리(period query) 기반으로 역사정보를 검색하도록 하고, 직관적인 정보습득이 가능하도록 한 기간쿼리기반의 역사정보 검색시스템을 제공하는 것이다.An object of the present invention is to provide a history information retrieval system based on a periodic query in which history information is retrieved based on a period query reflecting a time attribute and intuitive information acquisition is possible.

본 발명의 다른 목적은 시간색인에 대응하여 특정 시구간을 대상으로 검색이 가능한 기간쿼리기반의 역사정보 검색시스템을 제공하는 것이다.Another object of the present invention is to provide a history information retrieval system based on a periodic query that can be searched for a specific time period corresponding to a time index.

본 발명의 또 다른 목적은 시간의 흐름에 따른 정보내용의 변화를 관찰하는 것이 가능하도록 한 기간쿼리기반의 역사정보 검색시스템을 제공하는 것이다.It is still another object of the present invention to provide a history information retrieval system based on a periodic query that enables observation of a change in information content over time.

본 발명이 또 다른 목적은 사용자의 직관적인 정보습득을 위하여 기간궈리를 통해 시구간을 대상으로 검색된 역사정보에 대하여 역사객체 간의 연관관계를 추출하고 군집화하여 제공할 수 있도록 한 기간쿼리기반의 역사정보 검색시스템을 제공하는 것이다.
It is still another object of the present invention to provide a historical query-based historical information system capable of extracting and clustering association information between historical objects with respect to historical information searched for through a period of time to acquire intuitive information of a user, And a search system.

상기한 바와 같은 목적을 달성하기 위하여, 본 발명에 따른 기간쿼리기반의 역사정보 검색시스템은 검색 엔진을 통해 역사정보를 수집하고, 시간의 변화를 중심으로 정보의 내용을 검색하기 위한 기간(Period)쿼리 기반으로 수집된 역사정보를 가공하여 저장하는 역사정보 관리부; 상기 기간쿼리에 따라 상기 역사정보 관리부로부터 검색된 역사객체 간의 연관관계를 추출하고 군집화하여 구조화하는 역사정보 구조화부; 및 상기 역사정보 관리부에 입력 쿼리를 발생시키고, 상기 역사정보 구조화부에서 구조화된 역사객체 정보를 제공하는 역사정보 제공부를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided a history information retrieval system based on a periodic query, the history information retrieval system including: a history information collecting unit for retrieving historical information through a search engine, A history information management unit for processing and storing historical information collected on a query basis; A history information structuring unit for extracting and clustering relationships between historical objects retrieved from the history information management unit according to the period query, And a history information providing unit for generating an input query to the history information management unit and providing the structured history object information in the history information structuring unit.

상기에서 역사정보 관리부는 가공된 역사객체 및 실록정보를 시간색인으로 데이터베이스화하는 것을 특징으로 한다.In the above, the history information management unit is configured to convert the processed history object and the annotation information into a time index database.

상기에서 역사정보 관리부는 검색 엔진으로부터 역사객체를 포함하는 웹페이지 정보 및 고문서 정보를 수집하는 데이터 수집부; 상기 데이터 수집부에서 수집된 상기 역사정보 및 고문서 정보를 기간별로 가공하고, 역사객체의 빈도순을 정렬하는 데이터 가공부; 상기 데이터 가공부에서 가공된 역사객체 및 실록정보를 시간 색인으로 데이터베이스화하는 데이터 서버부를 포함하는 것을 특징으로 한다.The history information management unit includes a data collection unit for collecting web page information and old document information including a history object from a search engine; A data processing unit processing the history information and the old document information collected by the data collecting unit according to periods and sorting the frequency of the history objects; And a data server unit for converting the history object and annoy information processed by the data processor into a time index database.

상기에서 역사객체는 역사에 기술된 실존 인물을 지칭하는 인명, 과거로부터 남겨진 가치있는 유/무형 자산인 문화재, 역사 전개에 있어서 발단이나 중심이 되는 일인 사건, 지역상에 존재하는 실존 장소의 명칭인 지명 중 적어도 어느 하나 이상을 포함하는 것을 특징으로 한다.In the above, the historical object is the name of the person who refers to the existential person described in the history, the cultural property which is a worthy tangible / intangible asset left from the past, the event that is the beginning or center of history development, And a place name.

상기에서 역사정보 구조화부는 상기 역사정보 관리부로부터 검색된 웹페이지 및 고문서 정보의 역사객체를 추출하는 역사객체 추출부, 상기 추출된 역사객체 간의 연관도를 판정하는 연관도 판정부, 상기 추출된 역사객체 간의 세부 관계를 판정하는 세부관계 판정부를 포함하는 것을 특징으로 한다.The history information structuring unit includes a history object extracting unit for extracting a history object of the web page and the old document information retrieved from the history information managing unit, an association degree determining unit for determining a degree of association between the extracted history objects, And a detailed relationship judging section for judging the detailed relationship.

상기에서 입력 쿼리는 검색하는 기간을 한정하는 기간쿼리(Period Query) 및 검색하는 상기 역사객체의 키워드를 지정하는 키워드쿼리(Keyword Query)를 포함하는 것을 특징으로 한다.The input query includes a period query for defining a period for searching and a keyword query for specifying a keyword of the history object to be searched.

상기에서 역사정보 제공부는 검색하고자하는 대상의 입력쿼리를 입력하는 검색입력부, 상기 검색입력부에서 입력된 입력쿼리를 발생시켜 상기 역사정보관리부에 전달하는 쿼리발생부 및 상기 역사정보구조화부에서 검색된 결과 정보를 도시하는 역사정보표시부를 포함하는 것을 특징으로 한다.
The history information providing unit includes a search input unit for inputting an input query of a target to be searched, a query generating unit for generating an input query input from the search input unit and transmitting the generated input query to the history information management unit, And a history information display unit.

본 발명에 따르면 수집된 역사정보를 시간중심의 색인을 통해 데이터베이스화하고, 데이터 검색을 시구간으로 검색하도록 함으로써, 사용자의 역사 정보 습득을 위한 과정을 최소화할 수 있어 역사 정보의 검색 시간을 단축하고, 기간을 기준으로 다양한 역사객체의 관계를 취득할 수 있는 효과가 있다.According to the present invention, the collected history information is converted into a database through a time-based index, and the search for the data search is performed over a period of time, thereby minimizing the process for acquiring history information of the user, , The relationship between various historical objects can be obtained based on the period.

또한, 본 발명에 따르면 정보의 내용적인 특징에 초점을 맞추고 그 특징을 색인의 기준으로 하여 데이터를 정렬함으로써 더욱 효율적인 검색이 가능하도록 도모해주는 효과가 있다.In addition, according to the present invention, there is an effect that more efficient search can be performed by focusing on the content characteristic of information and sorting the data by using the characteristic as index reference.

또한, 본 발명에 따르면 검색 결과를 인간이 직관적으로 파악할 수 있는 그래프 형태의 인터페이스로 제공해줌으로써, 관련 정보를 한눈에 파악할 수 있도록 도모해주는 장점이 있다.Further, according to the present invention, the search result is provided as a graph-like interface that can be grasped intuitively by humans, thereby providing an advantage that relevant information can be grasped at a glance.

또한, 본 발명에 따르면 인명, 문화재, 사건, 지명 중 어느 하나 이상으로 구성된 역사객체를 통해 다양한 검색 접근 방식을 제공할 수 있으며, 두 개 이상의 역사객체 관계의 검색도 가능한 효과가 있다.In addition, according to the present invention, it is possible to provide various retrieval access methods through a history object composed of one or more of life, cultural property, event, and place name, and it is also possible to search for two or more historical object relations.

또한, 본 발명에 따르면 형태소 분석 및 발생 빈도 수에 따라 웹페이지 정보 및 고문서 정보를 정렬함으로써, 역사 정보의 정확성을 향상시킬 수 있는 효과가 있다.
In addition, according to the present invention, the accuracy of the historical information can be improved by aligning the web page information and the old document information according to the morphological analysis and the frequency of occurrence.

도 1은 본 발명에 따른 기간궈리기반의 역사정보 검색 시스템의 전체 구성도,
도 2는 도 1의 역사정보관리부의 상세 동작을 나타내는 개념도,
도 3a 내지 도 3c는 도 1의 역사정보 관리부에 저장된 역사 정보의 실시 예도,
도 4는 도 1의 역사정보 구조화부의 상세 동작을 나타내는 제1개념도,
도 5는 도 1의 역사정보 구조화부의 상세 동작을 나타내는 제2개념도,
도 6a 내지 도 6b는 도 1의 역사정보 구조화부에서 정보 추출 과정을 나타내는 실시 예도,
도 7a 내지 도 7d는 본 발명에서 역사객체의 빈도와 역사객체 간의 연판정 결과를 나타내는 실시 예도,
도 8은 도 1의 역사정보 제공부의 일 실시 예도,
도 9a 내지 도 9d는 본 발명에서 역사정보의 검색 결과의 예시도.
Brief Description of the Drawings Fig. 1 is a block diagram of a history information retrieval system based on periodic queries according to the present invention;
FIG. 2 is a conceptual diagram showing a detailed operation of the history information management unit of FIG. 1;
FIGS. 3A to 3C are diagrams showing examples of the history information stored in the history information management unit of FIG. 1,
FIG. 4 is a first conceptual diagram showing a detailed operation of the history information structuring unit of FIG. 1,
FIG. 5 is a second conceptual diagram showing the detailed operation of the history information structuring unit of FIG. 1;
6A and 6B are diagrams showing an example of the information extraction process in the history information structuring unit of FIG. 1,
7A to 7D are diagrams showing the frequency of a history object and the result of soft determination between historical objects in the present invention,
FIG. 8 is a view showing an example of the history information providing unit of FIG. 1,
9A to 9D illustrate examples of search results of history information in the present invention.

이하 본 발명의 바람직한 실시 예에 따른 기간쿼리기반의 역사정보 검색시스템을 첨부된 도면을 참조하여 상세하게 설명한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS A history query system based on a periodic query according to a preferred embodiment of the present invention will now be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 바람직한 실시 예에 따른 기간쿼리기반의 역사정보 검색시스템의 구성도이다.1 is a block diagram of a history information search system based on a periodic query according to a preferred embodiment of the present invention.

도 1에 도시된 바와 같이, 본 발명에 따른 기간쿼리기반의 역사정보 검색시스템은 역사정보 관리부(100), 역사정보 구조화부(200) 및 역사정보 제공부(300)를 포함한다.As shown in FIG. 1, a history query system based on a periodic query according to the present invention includes a history information manager 100, a history information structure unit 200, and a history information provider 300.

상기 역사정보관리부(100)는 검색 엔진을 통해 역사정보를 수집하고, 시간의 변화를 중심으로 정보의 내용을 검색하기 위한 기간(Period)쿼리 기반으로 수집된 역사정보를 가공하여 저장하는 역할을 하는 것으로서, 데이터 수집부(110), 데이터 가공부(120) 및 데이터 서버부(130)를 포함한다.The history information management unit 100 collects historical information through a search engine and processes and stores historical information collected on the basis of a period query for searching for information contents based on a change in time And includes a data collecting unit 110, a data processing unit 120, and a data server unit 130.

여기서 검색엔진은 디렉토리 검색엔진, 인덱스 검색엔진, 메타 검색엔진 등으로 분류할 수 있으며, 표현방식의 분류에 따라 위에 언급한 디렉토리, 인덱스, 메타 검색엔진의 결과를 통합해서 보여주는 통합 검색엔진을 포함한다.Here, the search engine can be classified into a directory search engine, an index search engine, a meta search engine, and the like, and includes an integrated search engine that integrates the results of the above-mentioned directory, index, and meta search engine according to classification of expression .

일반적으로, 검색엔진들의 대부분은 키워드를 검색 쿼리로 하여 이와 매칭되는 문서를 검색결과로 제공하는 방식을 따르고 있기 때문에 결과적으로 키워드를 색인하는 것에서 크게 벗어나지 못한다.In general, most of the search engines follow a method of providing keywords as search queries and matching documents as search results, and as a result, they do not deviate much from indexing keywords.

본 발명은 상기와 같은 키워드 검색의 단점을 해결하기 위해서, 시간의 변화를 중심으로 하여 정보의 내용을 검색하는 것에 초점을 맞추고 이를 위해 시구간을 기반으로 검색을 수행하기 적합한 시간중심의 색인방식을 제공한다. 키워드가 아닌 시간을 색인화하면 시간을 정보검색 쿼리로 하여 원하는 시구간에 대한 검색을 즉각적으로 수행할 수 있고 이를 통해 해당 시구간의 정보의 내용을 쉽게 검색할 수 있다. 또한, 일정한 시구간을 기준으로 한 검색결과를 서로 비교해 봄으로써 시간에 따른 정보의 변화에 대한 검색을 용이하게 수행할 수 있다. In order to solve the disadvantages of the keyword search as described above, the present invention focuses on retrieving the contents of information centered on the change of time, and in order to do so, a time-based indexing method suitable for performing search based on time- to provide. When indexing a time other than a keyword, it is possible to search for a desired time period instantaneously by using time as an information search query, and thereby it is possible to easily retrieve the information of the corresponding time period information. Also, by comparing search results based on a certain time period, it is possible to easily search for changes in information over time.

본 발명은 시간기반의 검색을 위하여 역사정보를 대상으로 한 시간색인을 실시 예로 설명한다. 일반적인 웹 문서의 경우 문서의 작성일자와 문서의 내용이 시간적으로 일치하지 않는 경우가 대부분이기 때문에 문서의 메타데이터가 나타내는 시간을 문서의 내용이 내포하는 시간이라고 갈음할 수 없다. 즉, 신문기사와 같은 특수한 경우를 제외하고 문서를 작성한 날짜와 문서에 작성된 내용의 시간이 다른 것이 일반적이다. 하지만 편년체로 작성된 역사정보의 경우 해당일자를 기준으로 발생한 일을 기록함으로써 문서의 작성일자와 문서의 내용이 시간적으로 일치한다. 때문에 시간을 중심으로 색인하는 것이 내용상 타당하며 색인화 하기에도 용이하다. 이러한 색인 상의 장점을 활용하여 실제 시스템의 구현에서 조선왕조실록의 국역본을 수집하고 이를 일, 월, 년을 기준으로 시간중심의 색인을 진행하였다. 이를 통해 시구간 범위의 형태로 정보검색 쿼리인 기간 쿼리(Period Query)를 발생시킴으로써 해당 시구간의 범위에 대한 정보를 데이터베이스로부터 추출해 낼 수 있다.The present invention will now be described by way of an example of a time index for historical information for time-based retrieval. In the case of general web documents, since the date of creation of the document and the contents of the document do not coincide with each other in time, the time indicated by the metadata of the document can not be replaced with the time that the contents of the document contain. In other words, except for special cases such as newspaper articles, it is common that the date of the document is different from the time of the document. However, in the case of historical information written in an elaborate manner, the date of creation of the document and the contents of the document coincide with each other in a timely manner. Therefore, indexing based on time is reasonable in terms of contents and is easy to index. Using the advantage of this index, we collected the souce of the Joseon Dynasty from the implementation of the actual system, and performed a time - based index based on day, month, and year. In this way, a period query, which is an information retrieval query, is generated in the form of a time-lapse range, so that information on the range of the corresponding time period can be extracted from the database.

본 발명에서 사용할 역사정보의 정의를 위하여 '역사'라는 단어의 사전적 정의를 살펴보면 "인간이 거쳐온 모습이나 인간의 행위로 일어난 사실, 또는 그 사실에 대한 기록을 말한다."라고 정의되어 있다.For the definition of historical information to be used in the present invention, the dictionary definition of the word "history" is defined as "a history of human being, a fact occurring in human behavior, or a record of the fact".

역사정보의 의미를 명확하게 사용하기 위해 위와 같은 역사의 정의로부터 역사정보를 정의한다. '역사'라는 단어가 가지고 있는 정의를 살펴보면 공통적으로 두 가지 특징이 있다. 하나는 과거의 어떤 시간을 중심으로 기록된 사실을 의미한다는 점이고, 또 다른 하나는 인류, 사물, 사건 등과 같이 어떤 객체를 대상으로 기술된다는 점이다. 즉, 과거의 어떤 특정한 시간에 실존했던 객체에 대한 사실이나 기록을 의미한다고 볼 수 있다. 이에 본 발명에서 역사정보란 "과거의 특정 시간과 대응관계에 있는 객체에 대한 정보" 라고 정의하고 앞으로의 전개과정에서 이 정의를 사용한다.To clearly use the meaning of historical information, historical information is defined from the above definition of history. The definition of 'history' has two characteristics in common. One is the fact that it is recorded around some time in the past, and the other is that it is described in some object such as human being, things, events. In other words, it means a fact or record of an object that existed at a certain time in the past. In the present invention, the history information is defined as "information about an object corresponding to a specific time in the past" and this definition is used in the future development process.

이와 같이 정의된 역사정보는 기술적인 측면에서 크게 두 가지 특징을 가진다. 첫 번째로 대부분의 역사정보들이 시간을 중심으로 기술된다는 점이다. 역사정보의 기술방법에는 기전체, 기사본말체 등 여러 가지가 있지만 '고려사절요', '동국통감', '조선왕조실록' 등과 같이 역사를 기록한 대부분의 역사사료들은 사실을 연, 월, 일 순서로 기록하는 편년체 형태를 지닌다. 본 발명에서는 시간의 순서로 기록된 역사정보의 기술방식에 초점을 맞추고 기존의 키워드를 기준으로 색인하는 것이 아닌 시간을 기준으로 색인하는 방법을 취한다. 이와 같이 시간을 기준으로 색인함으로써 뒤에서 설명할 Period Query에 대응하여 시구간 별로 정보를 검색하는 것이 가능하고, 이를 통해 역사정보의 시간적 변화를 관찰하기에 용이 해진다. 역사정보의 두 번째 특징으로써 역사정보는 관련 객체들과 함께 기술되고, 기술된 객체간의 관계가 시간의 흐름에 따라 변한다는 점이다.The historical information thus defined has two characteristics in terms of technology. First, most historical information is written around time. Although there are many ways to describe historical information, such as the entire history and articles, there are many historical records such as 'Goryeo Byeonyo', 'Dongukguk', and 'Chosun Dynasty Records' . The present invention focuses on the description method of historical information recorded in order of time and takes a method of indexing based on time rather than indexing based on existing keywords. By indexing on the basis of time in this manner, it is possible to search for information by time period in correspondence with the Period Query which will be described later, thereby making it easy to observe the temporal change of the historical information. As a second characteristic of historical information, history information is described with related objects, and the relationship between the described objects changes with the passage of time.

예컨대, 특정의 년도에서는 남곤, 조광조 등 관련인물들이 함께 관련 지어 기술되는 것을 볼 수 있고, 이러한 기술 방식을 통해 역사정보는 관련 있는 인물이나 사건 등의 객체들이 함께 기술됨을 확인할 수 있다. 또한, 1517년에는 남곤이 조광조를 관직에 천거할 정도로 둘 사이의 관계가 돈독하다라고 여길 수 있지만 시간이 흐른 후 1520년에는 남곤이 왕에게 조광조를 모함하여 죽일 것을 주청하는 것을 확인할 수 있다. 이에 따라 1520년에는 조광조와 남곤의 관계가 매우 적대적이라고 여겨질 수 있다. For example, in a particular year, it can be seen that related persons such as Namgon and Zhao Kwang are described in association with each other. Through this technique, history information can be confirmed that objects such as persons and events are described together. Also, in 1517, it can be considered that the relationship between the two is so intense that it is enough for the Namgong to hold office in the office. However, in 1520, it can be confirmed that the King Namgon was ordered to kill the king. Thus, in 1520, the relationship between Gwanggyo and the South can be considered very hostile.

이러한 예처럼 역사정보는 각 인물이나, 사물, 사건 간의 관계가 한번 수립되면 고정되는 것이 아니라 시간의 변화를 기반으로 하여 그 속의 역사정보들 간의 관계도 같이 변화한다는 특징을 담고 있다. 따라서 단순한 키워드 검색으로는 위와 같은 특징을 쉽게 검색할 수 없으며, 다수의 정보여과 과정을 거치고 나서야 비로소 위와 같이 변화하는 관계에 대하여 파악이 가능하다.Historical information, like this example, is characterized not only by establishing the relationship between each person, thing, and event, but also by changing the relationship between history information based on time change. Therefore, it is not easy to search for the above characteristics by simple keyword search, and it is not until after a lot of information filtering process that the above-mentioned changing relationship can be grasped.

역사정보의 특징을 통하여 역사정보는 관련된 역사정보와 함께 기술됨을 확인할 수 있다. 이와 같이 관련지어 함께 기술되는 객체들은 검색엔진을 통한 키워드 검색에서 쿼리로 사용되며, 주로 정보를 얻고자 하는 주요 대상이다. 이렇게 역사정보로써 검색이 요구되는 객체는 유형이 특정범위로 한정된다는 특징이 있다. 예를 들어, 대중적으로 많이 사용되는 '한국 역사정보 통합시스템'은 디렉토리 분류를 통하여 역사정보를 제공한다. 일반적으로 디렉토리 분류는 검색이 요구되는 유형별로 수행하는 것이 대부분이다. '한국 역사정보 통합시스템'의 디렉토리 분류의 경우 '인물, 지도, 유물, 도서, 연구자료' 등으로 분류되어 있고, 이를 객체의 점유비율로 정리하면 '인물(60%), 유물, 도서(25%), 지도, 지명(10%), 기타(5%)'로 구성됨을 알 수 있다. 또한, 대중적으로 사용되는 역사백과사전인 '한국 민족문화 대백과사전'의 콘텐츠 색인 분류는 '인명, 지명, 서명, 잠재(사건, 관직 등)'으로 분류되어 있다. 이러한 대중적인 역사정보 제공시스템들의 디렉토리 분류 또는 콘텐츠 색인으로 볼 때, 역사정보는 주로 '인명, 문화재, 지명, 사건'을 중심으로 기술되고 검색된다는 사실을 발견하였고, 이와 같은 사실을 통하여 본 발명에서는 넓은 의미의 역사정보를 '역사객체'로 정리하여 사용한다.Through the characteristics of historical information, it can be confirmed that the history information is described together with related history information. The objects that are related to each other in this way are used as queries in keyword search through the search engine, and they are the main object to obtain information mainly. In this way, the object which is searched for by history information is characterized in that the type is limited to a specific range. For example, 'Korean Historical Information Integration System', which is widely used in public, provides historical information through directory classification. In general, directory classification is performed mostly for each type of search. In the case of the directory classification of 'Korean Historical Information Integration System', it is categorized as' person, map, relic, book, research data ', and it can be classified as' person (60%), %), Map, place name (10%) and others (5%). In addition, the content index classification of 'Korean National Culture Encyclopedia', which is a popular history encyclopedia, is classified into 'life, place name, signature, potential (event, office)'. In view of the directory classification or contents index of such popular information providing systems, it has been found that the historical information is mainly described and searched around 'people, cultural properties, place names and events'. Through this fact, Historical information in a broad sense is used as a 'historical object'.

본 발명에서 새롭게 대두 된 기간 쿼리(Period Query)는 사용자가 일정한 기간을 선택하는 것만으로써 생성되며, 키워드 형태의 쿼리가 아닌 역사정보가 포함하고 있는 시간을 검색기반으로 한 정보검색 쿼리이다.The period query newly generated in the present invention is generated by simply selecting a certain period of time, and is an information search query based on a search-based time included in history information rather than a keyword-type query.

상기에서 살펴본 바와 같이, 역사정보는 시간을 중심으로 기술된다. 이러한 사실로부터 키워드로 역사정보의 검색을 수행하는 것보다 기술상의 중심요소로 두고 있는 시간을 활용해 역사정보를 검색할 수 있다면 사용자는 원하는 역사 정보를 보다 쉽게 검색할 수 있다. 본 발명에서 사용하는 기간 쿼리는 일정한 시점 혹은 기간을 대상, 즉 시구간에 대한 검색이 수행되므로 시간을 중심으로 기술된 역사정보를 검색하기에 적합하다. 또한, 시간의 변화에 따라서 정보의 내용이나 객체 간의 관계가 변화하는 특징을 가진 역사정보에 대하여 연속적인 시간을 대상으로 쿼리를 발생시켜 시구간 검색을 수행함으로써 사용자의 역사정보의 시간적인 변화에 대한 정보의 습득이 용이하도록 한다. 그리고 검색하고자 하는 역사정보의 키워드를 알지 못하거나 "1630년대의 주요인물관계'와 같이 키워드로 표현할 수 없는 시간중심의 역사정보에 대하여 기간을 선택하여 쿼리로 발생시킴으로써 해당 시구간의 역사정보를 검색할 수 있는 장점이 있다.As described above, the history information is described around time. From this fact, it is easier to search for the desired history information if the history information can be searched using the time which is the central element of the technology rather than the search of the history information by the keyword. The periodic query used in the present invention is suitable for retrieving historical information described around a time since a search for a certain time or period is performed, that is, a search for a time zone is performed. In addition, by performing a temporal search by generating a query based on a continuous time with respect to historical information having a feature in which the contents of information or the relationship between objects change in accordance with a change of time, Making it easy to acquire information. In addition, a history is selected for a time-based history information that can not be represented by a keyword such as "a major person relationship in the 1630s" There are advantages to be able to.

본 발명에서 역사정보검색시스템에서는 역사정보를 시간색인으로 데이터베이스화하므로 제안한 Period Query를 기반으로 해당 시구간의 역사정보의 검색이 가In the present invention, since the history information retrieval system converts the history information into a time index database, the retrieval of the history information of the corresponding time period is performed based on the proposed Period Query

능하고, 쿼리로 검색된 정보를 대상으로 검색결과를 구성하여 사용자에게 제공한다. 이 쿼리는 구현한 시스템의 인터페이스상에서 시간영역을 선택하는 것으로써 발생시킬 수 있고 단독으로 발생시키는 것뿐만 아니라 기존의 키워드 검색방식과 결합하여 키워드 검색으로 검색된 결과에 대하여 추가적인 시구간 검색을 수행할 수도 있다.And constructs search results for the information retrieved by the query and provides it to the user. This query can be generated by selecting the time domain on the interface of the implemented system. It can be generated not only by itself, but also by performing additional time search on the result retrieved by keyword search in combination with existing keyword search method. have.

본 발명에서는 실시 예로 조선시대(1394~1911)를 대상으로 하였고, 조선시대 역사정보의 수집을 위하여 조선시대의 대표적인 역사서인 '조선왕조실록'을 기본 데이터로 하였다. 조선왕조실록은 편년체의 기술방식으로써 시간색인을 구성하기에 적합한 데이터이다. 시스템의 구성은 도 1에 도시된 바와 같이, 크게 다음의 3부분으로 구성된다. 첫 번째로 조선시대에 해당하는 역사정보를 수집 및 가공하고 시간색인에 따라 저장하는 역사정보 수집 및 색인 부분, 두 번째로 Period Query에 대응하여 해당 시구간에 대한 정보를 검색하고 검색된 정보들 간의 연관도 판정을 통해 군집화하는 시구간 검색 및 군집화 부분, 마지막으로 군집화된 결과를 그래프형태의 검색결과로 구성하여 시스템 인터페이스상에 제공해주는 역사정보제공 부분으로 구성된다.In the present invention, as an example, the Chosun Dynasty (1394-1911) was taken as a basic data for the collection of historical information of Joseon Dynasty. The Chosun Dynasty annals are data suitable for constructing a time index as a description method of the elders. The configuration of the system is largely divided into the following three parts as shown in Fig. First, it collects and processes the historical information corresponding to the Joseon Dynasty, and collects and indexes historical information to store it according to the time index. Second, it searches the information of the relevant city in response to the Period Query, And a history information providing section which provides a graphical search result and provides it on the system interface.

특히, 마지막 역사정보제공 부분의 시스템인터페이스는 기존 검색엔진의 검색결과와의 비교를 통하여 본 발명에서 제안하는 시스템이 기존의 검색엔진에 비하여 시간요소를 반영한 효율적인 역사정보의 검색 및 습득이 가능함을 확인할 수 있다.In particular, the system interface of the last history information provision part compares with the search result of the existing search engine, and it is confirmed that the system proposed by the present invention can search and acquire efficient historical information reflecting the time factor as compared with the existing search engine .

사용자의 쿼리에 대응한 역사정보 검색을 위해서는 역사정보를 미리 수집하고, 가공 및 색인하는 전처리 과정이 필요하다. 역사정보는 래퍼(112)를 제작하여 디지털화된 조선왕조실록을 수집하고, 수집된 실록은 기간 쿼리 및 키워드 검색에 대응하기 위하여 분류 및 텍스트 전처리 과정을 거친다.In order to retrieve historical information corresponding to a user's query, it is necessary to collect historical information in advance, and to process and index it. The history information collects digitized Chosun Dynasty annals by producing a wrapper 112, and the collected annotations are classified and text preprocessed in order to correspond to the period query and the keyword search.

이를 위해, 데이터 수집부(110)는 검색 엔진을 통해 역사객체를 포함하는 웹페이지 정보(11) 및 고문서 정보(13)를 수집하는 역할을 한다. 이러한 데이터 수집부(110)는 역사객체의 키워드를 수집하고, 상기 키워드를 포함하는 웹페이지 정보(11)를 수집하는 크롤러(111, Crawler) 및 고문서 정보(13)를 수집하는 래퍼(112, wrapper)를 포함한다. 여기서 역사객체는 역사에 기술된 실존 인물을 지칭하는 인명, 과거로부터 남겨진 가치 있는 유/무형 자산인 문화재, 역사 전개에 있어서 발단이나 중심이 되는 일인 사건, 지역상에 존재하는 실존 장소의 명칭인 지명 중 적어도 어느 하나 이상을 포함하는 것이 바람직하다.To this end, the data collection unit 110 collects web page information 11 and old document information 13 including a history object through a search engine. The data collecting unit 110 includes a crawler 111 for collecting keywords of history objects and collecting web page information 11 including the keywords and a wrapper 112 for collecting old document information 13 ). Here, the historical object refers to a person who refers to an existential person described in history, a cultural property that is a valuable or intangible asset left from the past, an event that is the beginning or center of history development, It is preferable to include at least one or more of them.

역사객체의 수집에 있어서 신뢰성을 유지하기 위해서 국가적으로 역사사료를 국역화하고 디지털화하는 과정에서 도출된 용어를 중심으로 수집한다. 키워드는 '국사편찬위원회, 한국고전번역원, 한국역사정보통합시스템'과 같은 공신력 있는 사이트로부터 수집하며, 역사객체의 정의에 따라 역사용어, 지명용어, 인명색인, 서명색인 등의 분류에서 수집한다. 수집된 키워드의 중복 및 불용단어를 제거하고 약 25,000개를 역사객체로 사용한다. 또한 동음이의어의 구별 등의 정확한 의미의 역사객체 수집을 위하여 '한글'형태를 유지한다.In order to maintain the credibility in the collection of historical objects, we collect mainly the terms derived from the process of nationalization and digitization of historical materials at national level. The keywords are collected from public domain sites such as 'Korea History Compilation Committee, Korea Classical Translation Institute, and Korean Historical Information Integration System', and they are collected in the categories of history terminology, nominative terminology, human index and signature index according to the definition of historical objects. Remove duplicate and insoluble words in the collected keywords and use about 25,000 as historical objects. Also, it keeps the form of 'Hangul' for collection of historical objects with exact meaning such as distinction of homonyms.

상기 크롤러(111)는 웹상에서 링크를 따라 이동하면서 해당 웹페이지 정보(11)를 수집하며, 수집된 웹페이지 정보는 인덱서에서 여러 단계를 거쳐 색인이 이루어진다. 이러한 색인 작업에는 역변화, N-gram, Tagging 등의 단계가 포함된다. 색인 작업을 거친 데이터는 데이터베이스에 저장되고 사용자의 Query에 따라 검색기를 통해 검색이 이루어진다. 도 3a는 상기 크롤러(111)를 통해 수집된 웹페이지의 실시 예를 도시한 것이다.The crawler 111 collects the web page information 11 while moving along the link on the web, and the collected web page information is indexed through various steps in the indexer. Such indexing includes steps such as inverse transformation, N-gram, and Tagging. The indexed data is stored in the database and retrieved by the searcher according to the user's query. FIG. 3A shows an embodiment of a web page collected through the crawler 111. FIG.

상기 래퍼(112)는 웹 문서 내에서 테이블 형태 등의 일정한 형태로 제공되는 정보를 찾아내어 그 형태에 맞게 데이터베이스화하는 역할을 한다. 이러한 래퍼(112)는 조선시대 역사를 대상으로 할 경우, 관련 데이터 중 조선왕조실록과 같은 고문서는 도 3b에 도시된 바와 같이, 세부 속성들이 일정한 테이블 형태로 구성되어 있어 웹 크롤러를 이용하는 것보다 래퍼를 사용하는 것이 정보 수집에 있어서 효율적이다. 또한 고문서 정보들은 일반적인 웹 정보와 달리 카테고리 등으로 분류하기 용이한 효과가 있다.The wrapper 112 finds information provided in a predetermined form such as a table form in a web document, and forms a database according to the form. When the wrapper 112 is used for the history of the Joseon Dynasty, as shown in FIG. 3B, an old document such as the Chosun Dynasty Annals of the related data is configured in the form of a table having a constant property, Is effective in information collection. In addition, the old document information is easy to classify into category, unlike general web information.

아울러 상기 데이터 가공부(120)는 상기 데이터 수집부(110)에서 수집된 상기 웹페이지 정보 및 고문서 정보를 시간 속성을 이용한 시간색인 형태의 기간별로 가공하고, 불필요한 태그 또는 키워드를 제거하며, 역사객체의 빈도순으로 정렬하는 역할을 한다.In addition, the data processor 120 processes the web page information and the old document information collected by the data collecting unit 110 according to a period of time index format using time attributes, removes unnecessary tags or keywords, In order of frequency.

이러한 데이터 가공부(120)는 상기 데이터 수집부(110)에서 수집된 상기 웹페이지 정보(11) 및 고문서 정보(13)의 불용 태그를 제거하는 불용태그제거부(121), 상기 웹페이지 정보(11) 및 고문서 정보(13)의 형태소를 분석하는 형태소분석부(122), 상기 웹페이지 정보(11) 및 고문서 정보(13)의 비역사객체 키워드를 제거하는 키워드제거부(123), 상기 웹페이지 정보(11) 및 고문서 정보(13)의 역사객체 빈도 수에 따라 정렬하는 역사객체 정렬부(124) 중 적어도 어느 하나 이상을 포함하는 것이 바람직하다.The data processing unit 120 includes an insoluble tag removing unit 121 for removing insoluble tags of the web page information 11 and the old document information 13 collected by the data collecting unit 110, A morphological analysis unit 122 for analyzing morphemes of the web page information 11 and the old document information 13, a keyword removing unit 123 for removing non-historical object keywords of the web page information 11 and the old document information 13, And a history object sorting unit 124 that sorts the history information according to the number of history object frequencies of the page information 11 and the old document information 13. [

상기 데이터 가공부(120)는 도 3c에 도시된 바와 같이, 데이터의 가공을 위하여 상기 형태소분석부(122)를 통해 다른 어형을 제외한 일반명사만을 추출하였다. 또한 추출된 일반명사 중에서 정의된 역사객체를 제외한 일반명사를 제거하였고, 조선왕조실록 페이지 및 각 역사객체별로 포함하고 있는 역사객체의 빈도 수를 계산하고 내림차순으로 정렬하였다.As shown in FIG. 3C, the data processing unit 120 extracts only general nouns other than the other morphemes through the morpheme analysis unit 122 for processing the data. In addition, general nouns excluding the historical objects defined in the extracted general nouns are removed, and the frequency of the history objects included in the Chosun dynasty annals page and each history object is calculated and sorted in descending order.

상기 데이터 서버부(130)는 상기 데이터 가공부(120)에서 가공된 웹페이지정보(21) 및 고문서 정보(23)를 분류하여, 시간 색인을 기반으로 데이터베이스화하고, 입력되는 기간쿼리에 따라 역사정보를 추출하여 상기 역사정보 구조화부(200)에 전달하는 역할을 한다. 이러한 데이터 서버부(130)는 도 2에 도시된 바와 같이, 역사 객체별 웹페이지를 저장하는 웹페이지 저장부(131), 상기 고문서 정보를 저장하는 고문서 저장부(132), 상기 역사객체의 빈도순에 따른 정렬된 고문서 정보를 저장하는 빈도순 고문서 저장부(133), 상기 역사객체의 빈도순에 따른 정렬된 웹페이지를 저장하는 빈도순 웹페이지 저장부(134) 중 적어도 어느 하나 이상을 포함하는 것이 바람직하다.The data server unit 130 classifies the web page information 21 and the old document information 23 processed in the data processing unit 120 into a database based on a time index, And transmits the extracted information to the history information structuring unit 200. 2, the data server unit 130 includes a web page storage unit 131 for storing a web page for each history object, an old document storage unit 132 for storing the old document information, And a frequency net web page storage unit 134 for storing the sorted web pages in order of the frequency of the history objects, as shown in FIG. .

또한, 역사정보 구조화부(200)는 상기 기간쿼리에 따라 상기 역사정보 관리부(100)로부터 검색된 역사객체 간의 연관관계를 추출하고 군집화하여 구조화하는 역할을 한다. 상기 역사정보 구조화부(200)는 도 4에 도시된 바와 같이, 역사객체 추출부(220), 연관도 판정부(230) 세부관계 판정부(240) 및 서비스 서버부(250)를 포함한다.In addition, the history information structuring unit 200 extracts and associates the relationship between the historical objects retrieved from the history information management unit 100 according to the period query, and organizes the structured relationship. 4, the history information structuring unit 200 includes a history object extracting unit 220, an association degree determining unit 230, a detail relation determining unit 240, and a service server unit 250.

상기 기간 쿼리(Period Query)를 위주로 역사정보를 추출하지만, 역사객체의 키워드를 지적하는 키워드 쿼리를 기반으로 검색이 이루어지는 과정에서도 최초 검색기간의 범위가 조선시대 전체의 기간일 뿐 기간이 제외되는 것은 아니므로 도 5에 도시된 바와 같이, 기간 및 키워드 검색에 있어서 모두 기간 쿼리가 사용되는 것을 확인할 수 있다.However, in the process of retrieving based on the keyword query pointing to the keyword of the history object, the period of the first search period is the entire period of the Joseon Dynasty, but the period is excluded As shown in FIG. 5, it can be confirmed that the period query is used in both the period and keyword search.

상기 역사객체 추출부(220)는 검색된 역사정보로부터 역사 객체를 추출하는 역할을 한다.The history object extracting unit 220 extracts a history object from the retrieved history information.

입력 쿼리가 기간 쿼리일 경우, 기간에 따라 정보의 내용이나 역사객체 간의 관계가 변화하는 특징을 가진 역사정보의 시간적 변화를 추출할 수 있으며, 기간 쿼리를 통한 정보추출은 수집된 데이터인 조선왕조실록과 웹 페이지에 두 가지 방법으로 적용되는데 조선왕조실록의 경우 데이터베이스에 정렬하고 있는 형태가 이미 시간순으로 정렬되어있기 때문에 도 6a에 도시된 바와 같이, SQL 연산자(<,>)를 통하여 쉽게 추출할 수 있다.If the input query is a period query, it can extract the temporal change of the historical information with the feature that the contents of the information or the relation between the historical objects change according to the period, and the information extraction through the period query is the collected data, And the web page. In the case of the Chosun Dynasty Annals, since the types arranged in the database are already sorted in chronological order, it can be easily extracted through the SQL operator (<,>) as shown in FIG. 6A have.

또한, 웹페이지 정보의 경우 역사객체별로 저장되어 있기 때문에 위와 같은 방법을 사용할 수 없으므로, 도 6b에 도시된 바와 같이, 기간 쿼리의 시작 시점을 Ts라 하고 종료 시점을 Te라 정의한다. 정의된 변수로부터 웹 페이지를 ",(컴마)"를 기준으로 한 줄씩 읽어내려가면서 Ts보다 크거나 같은 첫 yyyy형태의 Date를 찾는다. 이와 같은 조건을 만족하는 Ts 시작 지점의 Text부터 Te보다 크거나 같은 첫 Date가 출현할 때까지 Text를 수집하고 이를 Period에 해당하는 데이터로 간주하여 저장한다.In addition, since web page information is stored for each history object, the above method can not be used. Therefore, as shown in FIG. 6B, the start time of the period query is denoted by Ts and the end time is defined by Te. Search the web page from the defined variables line by line based on "(comma)", and find the Date in the first yyyy type greater than or equal to Ts. The text is collected until the first date that is greater than or equal to Te is found from the text at the Ts start point satisfying the above conditions, and is regarded as data corresponding to the period.

또한, 각각의 역사객체마다 본 과정을 수행하고 역사객체별로 하나의 파일로 취합하여 저장하는 방식을 이용한다.In addition, this process is performed for each history object, and a method of collecting and storing the history object as one file is used.

상기 연관도 판정부(230)는 상기 역사객체 추출부(220)에서 추출된 역사객체 간의 연관도를 판정하는 역할을 한다. 이때 연관도 판정은 유클리드 거리(Euclidean Distance) 알고리즘을 적용하여 산출되며, 상기 연관도는 하기의 [수학식 1]로 산출된다.The association degree determining unit 230 determines the degree of association between the history objects extracted by the history object extracting unit 220. [ In this case, the degree of association is calculated by applying an Euclidean distance algorithm, and the degree of association is calculated by the following equation (1).

Figure 112013047977989-pat00001
Figure 112013047977989-pat00001

여기서, p 및 q는 역사객체이며, n은 빈도 수를 나타낸다.Where p and q are historical objects, and n is the frequency.

상기 유클리드 거리는 일반적으로 다차원 공간에서 두 점 간의 거리를 구하는 공식으로 사용되는데, '역사객체가 본문에서 자주 공기할수록 두 역사객체 사이에 연관도가 높다'라고 가정하고 위의 공식을 적용하여 각 역사객체가 포함하고 있는 개별 역사객체 간의 거리를 구한 값을 합산함으로써 연관도를 판정한다.The Euclidean distance is generally used as a formula for finding the distance between two points in a multidimensional space. It is assumed that the degree of association between two historical objects is higher as the history object is frequently aired in the text, And determines the degree of association by summing the values obtained by dividing the distance between the individual historical objects included in the history information.

즉, 각 역사객체 간의 합산된 결과값이 작을수록(0에 근접할수록) 두 역사객체 간의 거리가 가까운 것으로 보아 둘 간의 연관도가 높은 것으로 판정한다.In other words, the closer the distance between the two historical objects is, the closer the sum result of each history object becomes (closer to 0).

예를 들어, 상기 기간쿼리가 '1501-1510'으로 발생했다고 가정하고, 해당 기간내의 '인물'과 '사건'에 관한 역사정보를 알고 싶은 경우, 도 7a에 도시된 바와 같이, 우선 해당 기간 내의 빈도 수 상위 N개의 역사객체를 추출한다.For example, if it is assumed that the period query is generated as '1501-1510' and history information about 'person' and 'event' within the period is to be known, as shown in FIG. 7A, Extracts N history objects above the frequency.

또한, 추출된 빈도 수 상위 역사객체 중에서 '조광조'와 '기묘사화'가 포함하는 역사객체와 그 빈도 수를 보여주는데, 이때, 역사객체와 그 빈도 수는 도 7b와 같이, 각각 '조광조'와 '기묘사화'에 해당하는 페이지들 중에서 기간 쿼리 '1501-1510'의 기간 범위로 추출된 데이터를 대상으로 역사객체들을 빈도순으로 정렬할 수 있다.Also, the number of the history objects and the frequency of the objects included in the extracted number of frequencies are shown. In this case, the number of the historical objects and the frequency is shown in FIG. 7B, The historical objects can be sorted in order of frequency with respect to the data extracted in the period range of the period query '1501-1510' among the pages corresponding to the pseudonymization.

더불어, 상기 도 7b에 정렬된 데이터를 바탕으로 하여 유클리드 거리를 산출하면 '조광조->기묘사화'의 경우 '조광조'를 기준으로 하여 두 역사객체가 포함하는 역사객체의 빈도수 간의 계산이 이루어짐을 확인할 수 있다.In addition, if the Euclidean distance is calculated based on the data arranged in FIG. 7B, it is confirmed that the frequency of the historical objects included in the two historical objects is calculated based on the ' .

이때 두 역사객체 간의 계산에는 포함하는 모든 역사객체가 이용되므로, 만약 한쪽에서 포함하지 않는 역사객체라도 다른 한쪽이 포함하고 있다면 그 역사객체를 포함하여 계산이 이루어진다.In this case, since all the history objects included in the calculation between the two historical objects are used, if a history object that does not include one is included in the other, calculation is performed including the history object.

따라서 두 개의 역사객체 간의 연관도 판정은 한 차례의 계산만을 통해 값을 구할 수 있고, 이와 같은 결과는 도 7c에 도시된 바와 같이, '기묘사화'의 값인 '628.037'과 도 7d에 도시된 바와 같이, '조광조'의 값인 '628.037'이 같은 값을 가지는 것으로 확인할 수 있다.Therefore, the determination of the association between two historical objects can be performed only through a single calculation. As shown in FIG. 7C, the result of the determination can be expressed as' 628.037 ', which is the value of' Likewise, it can be confirmed that '628.037', which is the value of 'light', has the same value.

이러한 결과를 통하여 역사객체 '조광조'는 기간쿼리 '1501-1510'에 대하여 '심정, 기묘사화, 남곤, 중정 반정·' 순으로 연관도가 높다고 판정할 수 있고, '기묘사화'의 경우는 '심정, 김정, 남곤, 김안로·' 순으로 연관도가 높다고 판정 할 수 있는 것이다.In this way, it can be concluded that the historical object 'JoKwangJo' has a high degree of association in the order of 'heart, mystery, Kim Jung, Nam-gon and Kim An-ro · '.

상기 세부관계 판정부(240)는 상기 역사객체 추출부(220)를 통해 추출된 역사객체 간의 세부 관계를 판정하는 역할을 한다. 세부관계 판정은 역사객체가 포함된 웹페이지 및 고문서의 문맥적 요소를 분석하여 판단하게 된다.The detail relation determining unit 240 determines a detailed relationship between the historical objects extracted through the history object extracting unit 220. The detailed relationship judgment is judged by analyzing the contextual elements of the web page and the old document containing the historical object.

상기 문맥적인 요소란 역사객체가 서술되는 과정에서 둘 간의 관계를 내포하는 단어로써 예를 들어, "남곤 등은 은밀히 입궐해 중종을 만나 주청하니, 조광조가 붕당을 만들어 국정을 어지럽히고 있사오니 이들을 처단해야 합니다. - 두산대백과 기묘사화" 라는 문장에서 '처단'이라는 단어는 함께 등장하는 인물인 '조광조'와 '남곤'의 적대적인 관계를 담고 있다고 여겨질 수 있다.The contextual element is a word that implies a relationship between two people in the process of describing a historical object. For example, "Namgon and others must secretly meet and meet with the middle class, and they must discipline them because they are making disorder and making disorder. The word 'kotan' in the sentence 'Doosan gaebyeok and mysterious poetry' can be considered to contain the hostile relationship between 'Kho Gwangjo' and 'Namgong'.

이처럼 각 역사객체 간의 세부관계에 대해서는 하기의 [표 1]로 정의할 수 있으며, 각 세부관계를 나타내는 문맥적인 요소인 단어들은 [표 2]로 정의할 수 있다.The details of each historical object can be defined in [Table 1] below, and the contextual elements representing each detail relationship can be defined in [Table 2].

Figure 112013047977989-pat00002
Figure 112013047977989-pat00002

Figure 112013047977989-pat00003
Figure 112013047977989-pat00003

[표 3]은 역사객체 '인물-인물'간의 세부관계를 판정하기 위해, 상기 세부관계 판정부(240)에서 '이순신-원균'과 '이순신-유성룡'간의 문맥적 요소를 분석한 결과이다.Table 3 is the result of analyzing the contextual elements between 'Yi Sun-kyun' and 'Yi Sung-yoo Sungryong' in the detail relation determination unit 240 to determine a detailed relationship between the historical object 'person-person'.

Figure 112013047977989-pat00004
Figure 112013047977989-pat00004

상기 [표 3]에 도시된 바와 같이, '이순신-원균'의 문맥적 요소는 부정적인 요소가 긍정적인 요소보다 약 3배 더 많이 발견되는 것을 볼 수 있고 이에 따라 둘 사이의 관계를 부정적인 관계로써 세부 관계를 정의할 수 있는 것이다. 반면에 '이순신-유성룡'간의 문맥적 요소는 긍정적인 요소가 부정적인 요소에 비하여 5배 이상 많이 발견되는 것을 볼 수 있음에 따라 둘 사이의 세부관계를 긍정적인 관계로써 정의할 수 있는 것이다.As shown in [Table 3], the contextual elements of 'Yi-Won Kyun' can be seen to be found about 3 times more negative elements than positive elements, The relationship can be defined. On the other hand, the contextual elements between 'Yi Sun-yoo' and 'Yoo Sung-ryong' can be defined as a positive relationship between the two, as positive elements are found to be found more than five times as much as negative elements.

한편, 상기 역사정보 제공부(300)는 상기 역사정보 관리부(100)에 입력 쿼리를 발생시키고, 상기 역사정보 구조화부(200)에서 구조화된 역사객체 정보를 제공하는 역할을 한다. 즉, 역사정보 제공부(300)는 시구간 검색 및 군집화 부분에서 사용자의 쿼리에 대응하여 검색되고 군집화된 역사정보를 사용자에게 직관적으로 제공하기 위한 인터페이스 부분이다. 역사정보의 검색결과는 랭킹에 따른 웹 문서의 리스트 형태가 아닌 연관성으로 군집화된 역사객체 간의 그래프 형태로 표현한다. 여기서 검색 결과는 사용자의 롤인-백 동작 및 인터페이스상의 메뉴의 선택을 통하여 재검색의 과정을 거치지 않고 검색결과에서 새로운 검색결과로 동적으로 변화될 수 있으며, 이를 통해 사용자의 정보여과 과정을 줄일 수 있다. 그래프의 Vertex는 각 역사객체에 대응하며 연관도의 유무에 따라 에지로 연결되어 있다. 이에 따라 사용자는 기존 검색엔진에서의 검색결과에서 일일이 문서를 열어 정보를 여과하는 과정 대신에 군집화된 역사객체 간의 관계로써 해당 역사기간의 분위기나 인물관계 등을 직/간접적으로 파악할 수 있고, 추가적인 정보습득을 새로운 검색 없이 바로 수행할 수 있다. 또한, 연속적인 시구간에 대하여 기간 쿼리를 발생시켜 각각의 검색결과를 비교해 봄으로써 역사정보의 시변화에 대한 정보를 얻는 것이 가능하다.The history information providing unit 300 generates an input query to the history information management unit 100 and provides structured history object information in the history information structure unit 200. That is, the history information providing unit 300 is an interface part for intuitively providing the user with historical information that is searched and clustered corresponding to the user's query in the time zone searching and clustering part. The retrieval result of the historical information is expressed in the graph form between the historical objects clustered by the association rather than the list form of the web document according to the ranking. Here, the search result can be dynamically changed from a search result to a new search result through a roll-in back operation of the user and a menu selection on the interface, thereby reducing the information filtering process of the user. The vertex of the graph corresponds to each history object and is connected by an edge depending on whether there is an association or not. Accordingly, the user can directly or indirectly grasp the atmosphere or the person relationship in the history period by the relationship between the clustering historical objects instead of the process of opening the document and filtering the information from the search results in the existing search engine, Learning can be performed directly without a new search. In addition, it is possible to obtain information on the time-variant of historical information by generating a period query for successive time periods and comparing the respective search results.

이러한 역사정보 제공부(300)는 검색 입력부(310), 쿼리 발생부(320) 및 역사정보 표시부(330)를 포함한다.The history information providing unit 300 includes a search input unit 310, a query generating unit 320, and a history information display unit 330.

상기 검색 입력부(310)는 검색하고자 하는 역사정보의 입력 쿼리를 입력하는 역할을 한다. 이러한 검색 입력부(310)는 도 8에 도시된 바와 같이, 기간기반 또는 객체기반의 검색유형을 설정하는 검색유형 입력부(311), 검색대상의 역사객체를 설정하는 객체 설정부(313), 검색 대상의 특정 키워드를 입력하는 키워드 입력부(315), 기간 쿼리를 나열하여, 특정 기간 쿼리를 선택 입력하는 기간쿼리 입력부(317) 중 어느 하나 이상을 포함하는 것이 바람직하다.The search input unit 310 serves to input an input query of history information to be searched. 8, the search input unit 310 includes a search type input unit 311 for setting a period-based or object-based search type, an object setting unit 313 for setting a history object to be searched, A keyword input unit 315 for inputting a specific keyword of the period query, and a period query input unit 317 for selecting and inputting a specific period query by listing the period queries.

여기서 검색 입력부(310)를 통해, 사용자가 역사객체에 대한 정확한 키워드를 모르거나, 키워드로 특정할 수 없을 때 기간을 선택하는 것만으로써 다양한 검색 결과를 얻을 수 있고 이를 통하여 원하는 검색결과에 접근할 수 있다.Here, it is possible to obtain various search results by only selecting the period when the user does not know the exact keyword for the history object or can not specify the keyword with the keyword through the search input unit 310, have.

상기 쿼리 발생부(320)는 상기 검색 입력부(310)에서 입력된 입력 쿼리를 발생시켜, 상기 역사정보관리부(100)에 전달하는 역할을 한다.The query generator 320 generates an input query input from the search input unit 310 and transmits the input query to the history information management unit 100.

상기 역사정보 표시부(330)는 상기 역사정보 구조화부(200)에서 검색된 결과 정보를 디스플레이하는 역할을 한다. 상기 역사정보 표시부(330)는 검색된 역사객체 간에 연관도 및 세부관계를 관계도 그래프로 나타내며, 관계도 그래프의 정점은 각 역사객체에 대응되며, 연관도의 유무에 따라 에지로 연결되어 있다.The history information display unit 330 displays the result information retrieved from the history information structuring unit 200. The history information display unit 330 displays a relationship graph and a detail relationship between the searched history objects in a relationship graph. The vertices of the relationship graph correspond to each of the history objects, and are connected to each other depending on the presence or absence of association.

또한, 상기 관계도 그래프는 상기 세부관계 판정부(240)에서 판정된 역사객체 간 세부관계에 따라 다른 색상으로 표현하는 것이 바람직하다.In addition, it is preferable that the relationship graph is expressed in different colors according to the detailed relationship between the historical objects determined by the detailed relationship determination unit 240. [

도 9a 내지 도 9c는 상기 역사정보 제공부(300)의 사용 실시 예를 나타내는 도면으로, 도 9a는 상기 기간쿼리 입력부(317)를 이용하여, 기간 쿼리 '1591-1600'을 입력한 검색 결과로, 사용자가 특정 기간을 선택함에 따라 해당 기간의 역사객체 관계를 한눈에 알아볼 수 있는 관계도 그래프를 제공받을 수 있는 것이다.9A to 9C are diagrams showing an embodiment of using the history information providing unit 300. FIG. 9A is a diagram showing a history information providing unit 300 using the period query input unit 317, , A graph of relationship graphs can be provided that allows the user to select a specific period and recognize historical object relations of the period at a glance.

또한, 본 발명에 따른 상기 역사정보표시부(330)는 검색된 역사객체가 각 기간 쿼리에서 출현한 빈도를 나타내는 출현빈도그래프(333)를 더 포함하는 것이 바람직하다.In addition, the history information display unit 330 according to the present invention may further include an appearance frequency graph 333 indicating the frequency of occurrence of the retrieved history object in each period query.

또한, 도 9b는 상기 객체 설정부(313)를 통해, 역사객체 '인물'을 선택하고, 상기 키워드 입력부(315)를 통해 '조광조'를 입력하여, 검색한 결과를 나타내는 도면으로, 상기 기간쿼리 입력부(317) 상에 표시된 출현빈도 그래프(333)를 통해 조광조가 빈번하게 출현한 '1510'년대를 선택하여 Query를 발생시키면 해당 Query에 대응하여 검색이 가능한 것이다.9B is a diagram showing a result of searching for a history object 'person' through the object setting unit 313 and inputting 'light modulation zone' through the keyword input unit 315, When the '1510' age in which the light modulation apparatus frequently appears is generated through the appearance frequency graph 333 displayed on the input unit 317 and a query is generated, it is possible to search for the corresponding query.

또한, 도 9c는 상기 객체 설정부(313)를 통해, 역사객체를 '인물'과 '사건'을 선택하고, 상기 키워드 입력부(315)를 통해 '조광조'를 입력하여, 검색한 결과를 나타내는 도면으로, '인물'과 '사건'의 역사객체에 관하여, '조광조'의 키워드와 기간쿼리가 결합한 검색결과를 제공받을 수 있다.9C is a diagram showing a result obtained by selecting 'person' and 'event' as history objects through the object setting unit 313, inputting 'light modulation zone' through the keyword input unit 315, , The search result combining the keywords of 'Kwang-Jo Kwon' with the period query can be provided for the historical objects of 'person' and 'event'.

또한, 도 9d는 상기 기간쿼리 입력부(317)를 이용하여, 기간 쿼리 '1570-1580'과 기간 쿼리 '1620-1620'을 입력한 검색결과로, 사용자가 특정 두 기간을 선택함에 따라 비교 검색 결과부(340)를 통하여 각 해당 기간의 역사객체의 생성과 소멸에 관한 검색결과 및 역사객체 간 관계도 그래프를 제공받을 수 있는 것이다.9D is a search result obtained by inputting the period query '1570-1580' and the period query '1620-1620' using the period query input unit 317. As a user selects a specific two periods, A graph of the relation between history objects and search results about generation and disappearance of historical objects in each corresponding period can be provided through the unit 340.

이상에서 설명한 바와 같이, 본 발명에 따르면 사용자는 검색을 위해 키워드를 특정하거나 입력하는 과정 없이도 기간을 선택하는 행동만으로 기간 쿼리를 발생시켜 해당 역사정보와 관련정보를 획득할 수 있으며, 사용자가 직관적으로 파악할 수 있는 구조화된 그래프를 제공받음으로써, 역사객체와 관련된 정보를 한눈에 파악할 수 있는 효과를 누릴 수 있다.As described above, according to the present invention, a user can acquire history information and related information by generating a period query only by selecting a period without specifying or inputting a keyword for searching, and the user can intuitively By providing a structured graph that can be grasped, the information related to the history object can be grasped at a glance.

또한, 종래의 검색엔진의 역사정보 검색 서비스를 기반으로 기간에 따른 변화를 적용한 검색서비스의 개발이 가능하여, 또한 각 키워드별로 관련 키워드들에 대한 연관도를 판정한 데이터베이스를 구축하고, 이를 업데이트하여 새로운 역사정보의 검색 서비스를 제공할 수 있는 효과를 누릴 수 있다.In addition, it is possible to develop a search service applying a change over a period based on a conventional history search service of a search engine, and also build a database that determines the degree of association of related keywords for each keyword, It is possible to provide a search service of new historical information.

이상 본 발명자에 의해서 이루어진 발명을 상기 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 상기 실시 예에 한정되는 것은 아니고 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.
Although the present invention has been described in detail with reference to the above embodiments, it is needless to say that the present invention is not limited to the above-described embodiments, and various modifications may be made without departing from the spirit of the present invention.

100 : 역사정보관리부
110 : 데이터수집부
120 : 데이터가공부
130 : 데이터 서버부
200 : 역사정보 구조화부
220 : 역사객체추출부
230 : 연관도판정부
240 : 세부관계판정부
300 : 역사정보제공부
310 : 검색입력부
320 : 쿼리발생부
330 : 역사정보발생부
100: History Information Management Department
110: Data collecting unit
120: Data Study
130: Data server unit
200: History Information Structuring Department
220: history object extracting unit
230: Associated Island Government
240: Detailed relationship judgment section
300: History information service
310: Search input
320: query generator
330: History information generator

Claims (17)

검색 엔진을 통해 역사정보를 수집하고, 시간의 변화를 중심으로 정보의 내용을 검색하기 위한 기간(Period)쿼리 기반으로 수집된 역사정보를 가공하여 저장하는 역사정보 관리부;
상기 기간쿼리에 따라 상기 역사정보 관리부로부터 검색된 역사객체 간의 연관관계를 추출하고 군집화하여 구조화하는 역사정보 구조화부;
상기 역사정보 관리부에 입력 쿼리를 발생시키고, 상기 역사정보 구조화부에서 구조화된 역사객체 정보를 제공하는 역사정보 제공부를 포함하고,
상기 역사정보관리부는 검색 엔진으로부터 역사객체를 포함하는 웹페이지 정보 및 고문서 정보를 수집하는 데이터 수집부; 상기 데이터 수집부에서 수집된 상기 역사정보 및 고문서 정보를 기간별로 가공하고, 역사객체의 빈도순을 정렬하는 데이터 가공부; 상기 데이터 가공부에서 가공된 역사객체 및 실록정보를 시간 색인으로 데이터베이스화하는 데이터 서버부를 포함하는 것을 특징으로 하는 기간쿼리기반의 역사정보 검색시스템.
A history information management unit for collecting historical information through a search engine and processing and storing collected historical information based on a period query for searching for information contents based on a change in time;
A history information structuring unit for extracting and clustering relationships between historical objects retrieved from the history information management unit according to the period query,
And a history information providing unit for generating an input query in the history information management unit and providing structured history object information in the history information structuring unit,
The history information management unit includes a data collection unit for collecting web page information and old document information including a history object from a search engine; A data processing unit processing the history information and the old document information collected by the data collecting unit according to periods and sorting the frequency of the history objects; And a data server unit for converting the history object and the annotated information processed by the data processing unit into a time index database.
청구항 1에 있어서, 상기 역사정보 관리부는 가공된 역사객체 및 실록정보를 시간색인으로 데이터베이스화하는 것을 특징으로 하는 기간쿼리기반의 역사정보 검색시스템.
The history information retrieval system according to claim 1, wherein the history information management unit databaseizes the processed history objects and the annotation information in a time index.
삭제delete 청구항 2에 있어서,
상기 역사객체는 역사에 기술된 실존 인물을 지칭하는 인명, 과거로부터 남겨진 가치있는 유/무형 자산인 문화재, 역사 전개에 있어서 발단이나 중심이 되는 일인 사건, 지역 상에 존재하는 실존 장소의 명칭인 지명 중 적어도 어느 하나 이상을 포함하는 것을 특징으로 하는 기간쿼리기반의 역사정보 검색 시스템.
The method of claim 2,
The historical object is defined as a person who refers to an actual person described in the history, a cultural property which is a valuable or intangible asset left from the past, an event that is the beginning or center of history development, Wherein the history information retrieval system includes at least one of the history information retrieval system and the history information retrieval system.
청구항 1에 있어서,
상기 데이터수집부는 역사객체의 키워드를 수집하고, 상기 키워드를 포함하는 웹페이지 정보를 수집하는 크롤러(Cralwer) 및 고문서 정보를 수집하는 래퍼(wrapper)를 포함하는 것을 특징으로 하는 기간쿼리기반의 역사정보 검색 시스템.
The method according to claim 1,
Wherein the data collecting unit includes a crawler for collecting keywords of the history object, collecting web page information including the keyword, and a wrapper for collecting the old document information. Search system.
청구항 1에 있어서,
상기 데이터 가공부는 상기 데이터수집부에서 수집된 상기 웹페이지 정보 및 고문서 정보의 불용 태그를 제거하는 불용태그제거부, 상기 웹페이지 정보 및 고문서정보의 형태소를 분석하는 형태소분석부, 상기 웹페이지 정보 및 고문서정보의 비역사객체 키워드를 제거하는 키워드제거부, 상기 웹페이지 정보 및 고문서정보의 역사객체 빈도수에 따라 정렬하는 역사객체정렬부 중 적어도 어느 하나 이상을 포함하는 것을 특징으로 하는 기간쿼리기반의 역사정보 검색 시스템.
The method according to claim 1,
The data processing unit may include a morpheme analysis unit for analyzing morphemes of the insoluble tag removing unit, the web page information and the old document information, which removes the insoluble tag of the web page information and the old document information collected by the data collecting unit, A history object sorting unit for sorting the history information of the web page information and the old document information according to the frequency of the history object, Information retrieval system.
청구항 1에 있어서,
상기 데이터 서버부는 상기 역사객체별 웹페이지를 저장하는 웹페이지저장부, 상기 고문서 정보를 저장하는 고문서 저장부, 상기 역사객체의 빈도순에 따른 정렬된 고문서 정보를 저장하는 빈도순 고문서저장부, 상기 역사객체의 빈도순에 따른 정렬된 웹페이지를 저장하는 빈도순 웹페이지 저장부 중 적어도 어느 하나 이상을 포함하는 것을 특징으로 하는 기간쿼리기반의 역사 정보 검색 시스템.
The method according to claim 1,
The data server unit includes a web page storage unit for storing the web page for each historical object, an old document storage unit for storing the old document information, a frequency sequential document storage unit for storing sorted old document information in the order of frequency of the historical objects, A history web page storage unit for storing sorted web pages in order of frequency of history objects, and a net web page storage unit for storing sorted web pages in order of frequency of history objects.
청구항 1에 있어서, 상기 역사정보 구조화부는 상기 역사정보 관리부로부터 검색된 웹페이지 및 고문서 정보의 역사객체를 추출하는 역사객체 추출부,
상기 추출된 역사객체 간의 연관도를 판정하는 연관도 판정부,
상기 추출된 역사객체 간의 세부 관계를 판정하는 세부관계 판정부를 포함하는 것을 특징으로 하는 기간쿼리기반의 역사정보 검색 시스템.
The history information structuring unit according to claim 1, wherein the history information structuring unit comprises: a history object extracting unit for extracting a history object of the web page and the old document information retrieved from the history information managing unit;
An association degree determining section for determining a degree of association between the extracted historical objects,
And a detailed relation determining unit for determining a detailed relationship between the extracted historical objects.
청구항 1에 있어서, 상기 입력 쿼리는 검색하는 기간을 한정하는 기간쿼리(Period Query)를 포함하는 것을 특징으로 하는 기간쿼리기반의 역사정보 검색 시스템.
The system of claim 1, wherein the input query includes a period query that defines a period of searching.
청구항 9에 있어서,
상기 입력쿼리는 검색하는 상기 역사객체의 키워드를 지정하는 키워드 쿼리(Keyword Query)를 더 포함하는 것을 특징으로 하는 기간쿼리기반의 역사정보 검색 시스템.
The method of claim 9,
Wherein the input query further comprises a keyword query that specifies a keyword of the history object to be searched.
청구항 8에 있어서,
상기 연관도판정부의 연관도 판정은 유클리드 거리(Euclidean Distance) 알고리즘을 적용하여 산출되며, 상기 연관도는 하기의 수식으로 산출되는 것을 특징으로 하는 기간쿼리기반의 역사정보 검색 시스템.
Figure 112013047977989-pat00005

여기서, p 및 q는 역사객체이며, n은 빈도수를 나타냄.
The method of claim 8,
Wherein the association degree determination of the associative mapping board is performed by applying an Euclidean distance algorithm, and the degree of association is calculated by the following equation.
Figure 112013047977989-pat00005

Where p and q are historical objects, and n is the frequency.
청구항 8에 있어서,
상기 세부관계판정부의 세부관계 판정은 역사객체가 포함된 웹페이지 및 고문서 정보의 문맥적 요소를 분석하여, 판단하는 것을 특징으로 하는 기간쿼리기반의 역사정보 검색 시스템.
The method of claim 8,
Wherein the detailed relationship determination unit of the detailed relationship determination unit analyzes the contextual elements of the web page and the preexisting document information including the historical object to determine the historical information.
청구항 9에 있어서,
상기 역사정보 제공부는 검색하고자하는 대상의 입력쿼리를 입력하는 검색입력부;
상기 검색입력부에서 입력된 입력쿼리를 발생시켜 상기 역사정보관리부에 전달하는 쿼리발생부 및
상기 역사정보구조화부에서 검색된 결과 정보를 도시하는 역사정보표시부를 포함하는 것을 특징으로 하는 기간쿼리기반의 역사정보 검색 시스템.
The method of claim 9,
Wherein the history information providing unit comprises: a search input unit for inputting an input query of a target to be searched;
A query generating unit for generating an input query input from the search input unit and transmitting the generated input query to the history information managing unit;
And a history information display unit for displaying the result information retrieved by the history information structuring unit.
청구항 13에 있어서,
상기 검색 입력부는 기간기반 또는 객체기반의 검색유형을 설정하는 검색유형입력부, 검색대상의 역사객체를 설정하는 객체설정부, 검색 대상의 특정 키워드를 입력하는 키워드입력부, 기간쿼리를 나열하여, 특정 기간쿼리를 선택 입력하는 기간쿼리입력부 중 적어도 하나 이상을 포함하는 것을 특징으로 하는 기간쿼리기반의 역사정보 검색 시스템.
14. The method of claim 13,
The search input unit may include a search type input unit for setting a search type based on a period or an object, an object setting unit for setting a history object of a search target, a keyword input unit for inputting a specific keyword of a search target, And a period query input unit for selecting and inputting a query.
청구항 13에 있어서,
상기 역사정보 표시부는 검색된 역사객체 간에 연관도 및 세부관계를 표시한 관계도 그래프를 포함하는 것을 특징으로 하는 기간쿼리기반의 역사정보 검색 시스템.
14. The method of claim 13,
Wherein the history information display unit includes a relationship graph that displays a degree of association and a detailed relationship among the searched history objects.
청구항 15에 있어서,
상기 역사정보 표시부는 검색된 역사객체가 각 기간쿼리에서 출현한 빈도를 나타내는 출현빈도 그래프를 더 포함하는 것을 특징으로 하는 기간쿼리기반의 역사정보 검색 시스템.
16. The method of claim 15,
Wherein the history information display unit further comprises an appearance frequency graph that indicates the frequency of occurrence of the searched history object in each period query.
청구항 13에 있어서,
상기 역사정보제공부는 임의의 두 기간을 선택하여 검색된 결과를 비교할 수 있도록 각 기간의 변화된 역사객체를 제공하며, 연관도 및 세부관계를 표시한 관계도 그래프를 제공해주는 것을 특징으로 하는 기간쿼리기반의 역사정보검색시스템.

14. The method of claim 13,
Wherein the history information providing unit provides a history object that has been changed in each period so as to select any two periods and compare the retrieved results, and provides a relationship diagram graph showing a relationship degree and a detail relationship. Historical information retrieval system.

KR1020130061316A 2013-05-29 2013-05-29 Historical information retrieval system based on period query KR101513660B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130061316A KR101513660B1 (en) 2013-05-29 2013-05-29 Historical information retrieval system based on period query

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130061316A KR101513660B1 (en) 2013-05-29 2013-05-29 Historical information retrieval system based on period query

Publications (2)

Publication Number Publication Date
KR20140140690A KR20140140690A (en) 2014-12-10
KR101513660B1 true KR101513660B1 (en) 2015-04-21

Family

ID=52458389

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130061316A KR101513660B1 (en) 2013-05-29 2013-05-29 Historical information retrieval system based on period query

Country Status (1)

Country Link
KR (1) KR101513660B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11328019B2 (en) 2020-04-03 2022-05-10 International Business Machines Corporation Providing causality augmented information responses in a computing environment

Also Published As

Publication number Publication date
KR20140140690A (en) 2014-12-10

Similar Documents

Publication Publication Date Title
Johnson et al. Web content mining techniques: a survey
US9659084B1 (en) System, methods, and user interface for presenting information from unstructured data
KR101078864B1 (en) The query/document topic category transition analysis system and method and the query expansion based information retrieval system and method
US8473473B2 (en) Object oriented data and metadata based search
Roopak et al. OntoKnowNHS: ontology driven knowledge centric novel hybridised semantic scheme for image recommendation using knowledge graph
Nazemi et al. Visual analytics for technology and innovation management: An interaction approach for strategic decision making
Sharifpour et al. Large-scale analysis of query logs to profile users for dataset search
Balasubramaniam Hybrid fuzzy-ontology design using FCA based clustering for information retrieval in semantic web
Hybridised OntoKnowNHS: Ontology Driven Knowledge Centric Novel Hybridised Semantic Scheme for Image Recommendation Using Knowledge Graph
KR101513660B1 (en) Historical information retrieval system based on period query
Di Pietro et al. Semantic crawling: an approach based on named entity recognition
Nisheva-Pavlova et al. Museum collections and the semantic web
Bordogna et al. A language for manipulating clustered web documents results
Mahdi et al. Review of techniques in faceted search applications
Ahmad et al. A comparative study on text mining techniques
CN105912584B (en) Data indexing system based on webpage information data
Potey et al. Personalization approaches for ranking: A review and research experiments
Bansal et al. Temporal information retrieval and its application: A survey
Abuoda et al. Automatic Tag Recommendation for the UN Humanitarian Data Exchange.
Lucchese et al. Recommender Systems.
Ni An Intelligent Retrieval Algorithm for Digital Literature Promotion Information Based on TRS Information Retrieval
Dong et al. Based User Profiling: A Systematic Mapping Study
Bosetti et al. Cati: An extensible platform supporting assisted classification of large datasets
Sugiyama Studies on Improving Retrieval Accuracy in Web Information Retrieval
Niskanen et al. A semantic layer for urban resilience content management

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment

Payment date: 20180413

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190416

Year of fee payment: 5