KR100849272B1

KR100849272B1 - 마크업 문서 자동 요약 방법

Info

Publication number: KR100849272B1
Application number: KR1020010073201A
Authority: KR
Inventors: 장은영
Original assignee: 주식회사 엘지이아이
Priority date: 2001-11-23
Filing date: 2001-11-23
Publication date: 2008-07-29
Also published as: KR20030042523A; US7181683B2; US20030101415A1

Abstract

검색 결과로 제시되는 마크업 문서들의 태그 정보를 이용해 여러 개의 문서를 하나로 요약하여 그 요약 시간을 단축시킬 수 있도록 하는 것과 아울러 요약 정보의 내용을 보다 충실하게 제공하여 사용자가 쉽고 빠르게 그 검색 내용을 파악하도록 하는 마크업 문서 요약 방법을 제공하는데 그 목적이 있다.

이를 위해 본 발명은 마크업 문서의 카테고리 등급 및 태그 별로 가중치를 미리 설정해 두었다가, 미리 설정해 둔 가중치를 이용해 요약할 마크업 문서의 해당 태그별 최종 가중치를 산출한 후, 최종 가중치가 높은 순서대로 해당 태그의 텍스트를 추출하여 요약 문서를 생성하도록 한다.

마크업, 요약, 태그, 카테고리, 가중치

Description

마크업 문서 자동 요약 방법{Method for automatically summarizing Markup-type documents}

도 1은 일반적인 문서 자동 요약 시스템을 예를 도시한 도면이고,

도 2는 종래의 문서 자동 요약 시스템을 사용하여 생성된 요약 문서이고,

도 3은 본 발명에 따른 문서 자동 요약 방법을 도시한 도면이고,

도 4는 본 발명에 적용되는 카테고리 등급별로 가중치가 부여된 예를 도시한 도면이고,

도 5는 본 발명에 적용되는 태그별로 가중치가 부여된 예를 도시한 도면이고,

도 6은 본 발명에 적용되는 마크업 문서의 제한 범위의 예를 도시한 도면이고,

도 7, 도 8, 도 9는 본 발명의 마크업 문서 자동 요약 방법을 예로 들어 설명한 도면이다.

본 발명은 마크업(Markup) 문서의 자동 요약 방법에 관한 것이다.

상기 "마크업(Markup)"은 화면에 표시되는 텍스트와 같은 파일들의 논리적인 구조를 묘사하기 위해, 상기 텍스트와 같은 파일의 특정위치에 삽입되는 일련의 문자들이나 기호들을 말하는데, 이러한 정보들이 포함된 문서가 바로 마크업 문서이며, 이 때 그 구조를 묘사하기 위해 사용되는 표지를 "태그"라 부른다.

일반적으로 오늘날에는 컴퓨터의 보급 및 인터넷의 발달로 전자 문서의 양이 급격히 증가하게 되었고 이에 따라 수많은 전자 문서 가운데 원하는 문서를 색출해내는 데에도 상대적으로 많은 시간이 걸리게 되었다.

종래의 문서 검색 시스템은 공통적으로 검색어(keyword)를 사용한 검색 시스템으로, 핵심 단어로 문서를 검색하는 경우 사용자가 간단한 검색어 입력만으로 원하는 정보를 검색할 수 있는 시스템이다.

이러한 일반적인 문서 검색 시스템을 도 1에 도시하였는데, 이에 도시된 바와 같이 상기 검색 시스템은 사용자 컴퓨터들과 인터넷, 그리고 검색 엔진과 서버로 구성되어, 사용자가 해당 사용자 컴퓨터를 이용해 검색어를 입력하면 검색 엔진이 그 검색어에 해당하는 응답데이터 즉 검색 결과에 해당하는 전자 문서를 서버로부터 전송받아 인터넷을 통해 해당 사용자 컴퓨터로 전송하여, 사용자가 상기 해당 사용자 컴퓨터를 통해 그 검색 결과를 확인할 수 있도록 한 것이다.

하지만, 오늘날에는 검색어에 해당하는 검색 결과의 양이 방대할 뿐만 아니라 그 검색 결과가 정확한 것인가도 제대로 파악 할 수 없기 때문에 실제로는 사용 자가 그 검색 결과에 해당하는 문서들을 다시 한 번 일일이 확인을 해야 한다.

그래서 이러한 문제점을 해결하기 위해 문서 자동 요약 시스템이 개발되었다.

상기 "문서 자동 요약 시스템"이란 간단히 말하면 '문서의 내용을 일정한 크기로 줄여주는 것'이라고 할 수 있으며, 상세하게는 검색 결과로 제공된 문서에서 중요하지 않은 부분이나 사소한 부분을 생략하면서 핵심적인 내용을 일관성있게 추려내어 모아주는 문서 내용 압축 시스템이다.

이러한 일반적인 문서 자동 요약 시스템에서 자동 요약을 하는 과정은 먼저 문서의 내용을 읽어들여서 요약용의 해석 단위로 분류하는 파싱(parsing) 단계로부터 시작한다.

이때 문서 자동 요약 시스템에서는 문서를 문단의 집합으로 간주하고, 문장은 다시 단어의 집합으로 파악하며, 단어가 문서 자동 요약 시스템의 최하위 요소인 동시에 주제어(keyword)의 역할을 한다.

문서 자동 요약의 두번째 단계는 문서의 주제어 정보를 구축하는 것이다. 즉, 문서의 최하위 요소인 단어를 기준으로 빈도 정보를 수집하여 주제어 정보를 구축한다. 주제어 정보를 구축한 후에는 주제문장을 선별하기 위해서 각 문장별로 문장의 가중치를 계산한다. 문장의 가중치 계산은 2단계로 나누어 진행되는데, 먼저 각 문장에 대해 주제어가 나타난 빈도를 중심으로 점수를 부여하고, 문장의 길이와 문장에 포함된 주제어의 길이를 기준으로 점수를 부여하여 각 문장별 가중치를 계산한다. 이와 같이 하여 각 문장의 가중치가 계산되면 가중치가 높은 문장부 터 차례로 문장을 선택하여 지정한 분량의 요약문서를 생성한다.

이러한 일반적인 문서 자동 요약 시스템을 사용하여 생성된 요약 문서의 예가 도 2에 도시되어 있는데, 상기 도 2는 주제어로 홍콩, 한국, 자금등이 입력되었을 때 그 주제어가 포함된 주제문장을 이용해 생성한 요약문서가 도시되어 있다.

하지만 이러한 일반적인 문서 자동 요약 시스템은 사용자가 검색 결과의 내용을 어느 정도 파악할 수 있기는 하지만, 검색어를 포함한 문장만을 부분적으로 조합하여 요약문서로 제시하기 때문에 내용에 일관성이 없고, 문장 조합만으로는 문서의 전체적인 내용을 이해할 수 없으며, 문장에 검색어가 포함되어 있더라도 문서의 전체적인 내용이 사용자가 요구하는 내용이 아닐 수도 있다.

또한 요약 문서가 하나의 문서에 포함된 문장들만을 요약한 것이기 때문에 그 요약정보의 내용이 빈약할 뿐만 아니라, 요약시간에 있어서도 상당한 시간이 걸리는 등과 같은 여러 가지 문제점들이 있어 왔다.

이에 본 발명은 상기한 바와 같은 종래의 문제점을 해소시키기 위한 것으로, 검색 결과로 제시되는 마크업 문서들의 태그 정보를 이용해 여러 개의 문서를 하나로 요약하여 그 요약 시간을 단축시킬 수 있도록 하는 것과 아울러 요약 정보의 내용을 보다 충실하게 제공하여 사용자가 쉽고 빠르게 그 검색 내용을 파악하도록 하는 마크업 문서 요약 방법을 제공하는데 그 목적이 있다.

상기 목적을 달성하기 위한 본 발명의 마크업 문서 자동 요약 방법은, 마크 업 문서의 카테고리 등급 및 태그 별로 가중치를 미리 설정해 두었다가, 미리 설정해 둔 가중치를 이용해 요약할 마크업 문서의 해당 태그별 최종 가중치를 산출한 후, 최종 가중치가 높은 순서대로 해당 태그의 텍스트를 추출하여 요약 문서를 생성하도록 하는 것을 특징으로 한다.

이하, 첨부된 도면을 참조하여 본 발명을 살펴보면 다음과 같다.

도 3은 본 발명에 따른 마크업 문서 자동 요약 방법을 도시한 도면이다.

상기 도 3에 도시된 바와 같이, 마크업 문서 자동 요약 방법은 카테고리 등급 및 태그별로 가중치를 설정하는 제 10 단계(S10)와, 요약할 마크업 문서의 범위와 요약정보의 분량을 설정하는 제 20 단계(S20)와, 상기 설정된 상태에서 마크업 문서를 입력하는 제 30 단계(S30)와, 입력된 마크업 문서에 포함된 태그의 최종 가중치를 계산하는 제 40 단계(S40)와, 최종가중치가 높은 순서대로 해당 태그의 텍스트를 하나씩 추출하는 제 50 단계(S50)와, 추출한 해당 텍스트가 요약 정보에 포함되는가를 판단하는 제 60 단계(S60)와, 판단 결과 추출한 텍스트가 요약 정보에 포함되지 않을 경우 다음 번째로 최종가중치가 높은 해당 텍스트를 추출하는 제 70 단계(S70)와, 판단 결과 추출한 텍스트가 요약 정보에 포함되지 않을 경우 추출한 텍스트를 요약 정보에 포함시키는 제 80 단계(S80)와, 상기 요약정보의 분량과 설정된 요약정보의 분량을 비교하는 제 80 단계(S90)와, 상기 비교 결과 요약 정보의 분량이 설정된 요약 정보 분량보다 적을 경우에는 제 70 단계(S70)를 진행하고 같 거나 많을 경우에는 텍스트 추출을 종료하는 제 100 단계(S100)로 이루어진다.

이렇게 이루어지는 마크업 문서 요약 방법은, 먼저 카테고리 등급 및 태그별로 가중치를 미리 설정한다(S10).

상기 카테고리 등급별로 가중치를 부여한 형태를 도 4를 예로 들어 설명한.

상기 도 4에 도시된 바와 같이, 카테고리 등급은 높으면 높을수록 요약정보로서 중요한 의미를 가지기 때문에 카테고리 등급이 높은 순서대로 높은 가중치를 부여하는데, 여기서는 카테고리 등급이 가장 높은 C1(엔터테인먼트)에 가중치 1.0을 부여하고, C2(영화)에는 0.9, C3(영화인)에는 0.8, C4(배우/탤런트)에서는 0.7의 가중치가 그 등급에 따라 부여되어 있는 예가 도시되어 있다.

그리고 도 5는 태그 별로 가중치를 부여한 형태를 예로 들어 보인 도면이다. 상기 도 5에 도시된 바와 같이, 상기와 같이 요약정보로서 중요도가 높은 태그 순서대로 가중치를 부여하는데, 상기 도 5에서는 마크업 문서 제목을 나타내는 <title>에는 가중치 "5"를, 글자 크기 조절을 나타내는 <h1>,<h2>에는 가중치 4, <h3>,<h4>,<h5>,<h6>에는 각기 가중치 3을, 링크를 나타내는 <a>에는 가중치 2를, 문단 구분을 나타내는 <p>에는 가중치 1이 각기 부여된 예가 도시되어 있다.

다음으로 상기와 같이 카테고리 등급과 태그별로 가중치를 부여하고 나면, "요약 정보의 분량"과 "요약할 마크업 문서의 범위"를 설정한다(S20).

상기 "요약정보의 분량"은 사용자가 원하는 분량이 바이트 수로 지정된 것이고, 상기 "요약할 마크업 문서의 범위"는 입력된 여러 개의 마크업 문서 중 어느 범위까지 요약할 것인가를 나타낸 것이다.

예를 들면, 입력된 마크업 문서가 하이퍼 링크로 연결되어 있을 경우에는 다음의 두 가지 방법으로 마크업 문서의 범위를 제한할 수 있다.

이 때 입력되는 각 마크업 문서는 노드로, 하이퍼 링크는 그래프의 에지라고 한다.

첫 번째 방법은, 최상위의 마크업문서로부터 m등급 아래의 마크업 문서까지 그 범위를 제한할 수 있는데 도 6a는 최상위 문서(A)로부터 2등급 아래까지의 문서만이 입력되도록 그 범위를 제한한 예를 도시한 도면이다.

두 번째 방법은, 각 마크업 문서가 BFS(Breath First Search)알고리즘으로 입력될 때 처음 방문되는 m개의 마크업 문서까지 각기 그 범위를 제한하는 것인데, 도 6b는 처음 방문되는 최상위문서로부터 순서대로 6개까지만이 입력되도록 그 범위를 제한한 예를 도시한 도면이다.

다음 이렇게 요약할 마크업 문서의 범위와 요약 정보의 분량이 설정되어 요약할 마크업 문서들이 입력되면(S30), 입력되는 각 마크업 문서의 태그별 최종 가중치를 계산한다(S40).

상기 태그별 최종 가중치는 해당 마크업 문서의 카테고리 등급과 해당 태그의 가중치를 승산이나 가산등과 같은 연산과정등을 통해 산출한다.

그런 다음 각 마크업 문서에 포함된 태그의 최종 가중치가 높은 순서대로 해당 태그의 텍스트를 하나씩 추출한다(S50).

추출한 텍스트가 요약정보에 포함되지 않을 경우에는(S60) 추출한 텍스트를 요약정보에 추가하고(S70), 포함될 경우에는 다음번째인 해당 태그의 텍스트를 추 출하는데(S80), 상기 요약 정보는 추출한 텍스트들의 집합체를 의미한다.

다음 상기 추출한 텍스트들로 이루어진 요약 정보의 분량이 미리 설정된 요약정보의 분량을 비교한다(S90).

그래서 상기 요약 정보의 분량이 미리 설정된 요약 정보의 분량보다 적을 경우에는(S90) 다음번째인 해당 태그의 텍스트를 계속 추출하고(S70), 같거나 많을 경우에는 텍스트 추출 동작을 종료하는데(S100), 이 때 하나의 요약 문서가 완성될 것이다.

이하 본 발명의 일실시예를 도 7 도 8, 도 9를 참조하여 설명한다.

설명할 일실시예는 도 7과 같이 최상위 문서가 index.html이고, 상기 최상위 문서를 포함한 여섯 개의 HTML문서(index.html, film.html, cast.html, cast1.html, cas2.html, cast3.html)가 하이퍼 링크로 연결된 마크업 문서들을 요약하는 방법을 예로 든 것이다.

먼저 각각의 태그에는 도 5에 도시된 바와 같이 가중치를 부여한다.

즉, 마크업 문서 제목을 나타내는 "<title>"태그에는 가중치 "5"를, 글자 크기 조절을 나타내는 <h1>,<h2>의 태그에는 가중치 4를, <h3>,<h4>,<h5>,<h6>의 태그에는 가중치 3을, 그리고 링크를 나타내는 <a>태그에는 가중치 2와, 문단 구분을 나타내는 <p>태그에는 가중치 1을 부여하는데, 이러한 가중치는 요약할 마크업 문서들이 입력되기 전에 미리 설정된 값들이다.

또한 각각의 카테고리 등급에도 가중치를 미리 설정하는데, 여기서는 최상위 문서들에는 가중치 1.0을, 상기 최상위 문서로부터 1 등급 아래의 문서에는 가중치 0.9의 값을, 2 등급 아래의 문서에는 가중치 0.8의 값을 미리 설정해 둔다.

그리고 요약 분량은 150바이트로 설정하고, 요약할 마크업 문서의 범위는 최상위문서로부터 1등급 아래의 문서까지로 그 제한 범위를 설정한다.

이에 따라 여기서는 검색 결과로서 제공된 도 7의 6개 마크업 문서들 중 최상위 문서인 index.html문서로부터 1 등급 아래의 film.html문서와 cast.html문서까지로 요약처리될 입력 범위가 제한된다.

아울러 입력된 3개의 마크업 문서들 즉 최상위 문서인 index.html문서는 가중치 1.0의 값이, 그리고 1등급 아래의 문서인 film. html문서와 cast. html문서는 각기 가중치 0.9의 값이 부여된다.

다음 마크업 문서들이 입력되어 카테고리와 태그 별로 해당 가중치가 부여되고 나면, 입력된 3개의 html마크업 문서에 포함된 태그들의 최종 가중치를 계산하는데, 여기서는 카테고리 등급에 부여된 가중치와 태그에 부여된 가중치를 승산하여 최종가중치를 산출하는 방법을 사용한다.

상기 도 8a는 index.html마크업 문서, 도 8b는 film.html마크업 문서, 도 8c는 cast.html마크업 문서에 포함된 태그들의 최종가중치가 산출된 도면이다.

예를 들면, 도 8a에 도시된 바와 같이 최상위 문서인 index. html마크업 문서에 포함된 <title>태그에는 최종가중치 5.0이 산출되어 있는데, 이는 상기 <title>태그의 가중치 5와 index.html문서의 카테고리 등급에 따라 부여된 가중치 1.0의 값을 승산하여 산출한 값이다.

이와 같이 각 마크업 문서에 포함된 태그들의 최종가중치가 산출되면, 최종 가중치가 높은 순서대로 해당 태그의 텍스트를 추출하는 동작을 수행한다.

도 9는 최종 가중치가 높은 순서대로 추출한 텍스트를 누적하여 만든 요약 문서를 보여 주는 도면이다.

이에 도시된 바와 같이, 상기 산출된 최종 가중치중 가장 높은 값(i = 5.0)을 가진 태그 즉, index. html의 <title>태그 텍스트인 "박하사탕"을 먼저 추출한다.

그런 다음 이 "박하사탕"이 추출된 텍스트들로 이루어진 요약 정보에 동일한 내용이 포함되는 있는 가를 판단하여, 동일한 내용이 포함된 경우에는 상기 요약 정보에 포함시키도록 하지 않고 이와 달리 동일한 내용이 포함되어 있지 않은 경우에는 추출한 텍스트를 상기 요약 정보에 포함시키도록 하는데, 여기서는 상기 "박하사탕"이 처음으로 추출된 텍스트로 동일한 내용의 텍스트가 상기 요약 정보에 포함되어 있지 않기 때문에 이를 상기 요약 정보에 포함시킨다.

다음 이 "박하사탕"의 텍스트가 포함된 상기 요약 정보의 분량과 미리 설정된 요약 정보의 분량을 비교하여 상기 요약 정보의 분량이 미리 설정된 요약 정보의 분량보다 많거나 같을 경우에는 택스트 추출동작이 종료되고, 이와 달리 상기 요약 정보의 분량이 미리 설정된 요약 정보의 분량보다 적을 경우에는 태그의 추출동작을 계속 수행하는데, 여기서는 추출된 요약 정보의 분량이 미리 설정된 요약 정보의 분량인 125 바이트 보다 적기 때문에 태그의 추출동작을 계속 수행한다.

이 때 추출되는 텍스트는 최종 가중치가 다음번째로 높은 태그의 텍스트가 추출된다.

여기서는 cast. html문서에 포함된 <title>태그와 film.html문서에 포함된 <title>태그의 최종 가중치가 i = 4.5로 두 번째로 높기 때문에 각기 해당 텍스트인 "영화 줄거리"와 "등장 인물"이 추출된다.

그런 다음 이 추출된 택스트들과 동일한 내용이 요약 정보에 포함되어 있지 않기 때문에 이를 상기 요약 정보에 포함시킨다.

그리고 나서 상기 요약 정보의 분량과 미리 설정된 요약 분량을 비교하는데, 여기서는 상기 요약 정보의 분량이 50 바이트로 미리 설정된 요약 분량 125 바이트보다 적기 때문에 다시 그 최종 가중치가 다음 번째로 높은 태그의 텍스트를 계속해서 추출하는 동작이 계속 수행된다.

그래서 최종 가중치가 다음번째로 높은 i = 3.6 의 텍스트를 추출하는데, 추출하는텍스트들은 film.html문서에 포함된 <h2>태그의 "영화 줄거리"텍스트와, cast.html문서에 포함된 <h2>태그의 "등장인물"텍스트이다.

다음 이렇게 추출된 텍스트는 상기 요약 정보에 동일한 내용이 있는가를 판단하는데, 상기 텍스트인 " 영화 줄거리"와 "등장인물"의 텍스트는 최종 가중치가 i = 4.5인 태그의 텍스트와 동일한 것이기 때문에 이를 상기 요약 정보에 포함시키지 않고 최종 가중치가 다음 번째로 높은 i = 3.0 태그의 텍스트를 추출한다.

상기 추출되는 텍스트는 index. html문서에 포함된 <h4>태그의 "이 창동 감독의..."텍스트이다.

다음 상기 텍스트가 요약 정보에 동일한 내용이 포함되어 있지 않기 때문에 이를 상기 요약 정보에 포함시키고, 상기 텍스트를 포함시킨 요약 정보 분량과 미 리 설정된 요약 분량을 비교한다.

상기 요약 정보 분량이 미리 설정된 요약 분량인 125 바이트보다 적기 때문에 다시 최종 가중치가 다음번째로 높은 태그의 텍스트를 추출하는 동작을 수행한다.

이에 따라 최종가중치가 i = 2.7인 cast. html문서에 포함된 <h3>태그의 텍스트인 "김영호","윤순임","양홍자"를 추출한다.

그런 다음 추출된 텍스트를 상기 요약 정보에 포함시키고, 상기 텍스트를 포함시킨 요약 정보 분량과 미리 설정된 요약 정보의 분량을 비교한다.

그 비교 결과 상기 요약 정보 분량이 125바이트로서 미리 설정된 요약 정보의 분량인 125 바이트와 동일하기 때문에 텍스트 추출동작을 종료하게 되는데, 이 때 상기한 텍스트 추출 동작이 종료되면 도 9에 도시된 바와 같이 하나의 요약문서가 생성된다.

상기한 마크업 문서의 자동 요약 방법은 인터넷을 이용한 검색 시스템에서 뿐만 아니라, 다양한 문자 서비스를 지원하는 데이터 방송 시스템등에서도 얼마든지 사용 가능하다.

즉 상기한 문서 자동 요약 방법은 인터넷을 통해 검색된 전자 문서들을 자동 요약하는데 이용되는 것 뿐만 아니라, HTML이나 XML(Extensible Markup Language)로 작성되는 마크업 문서를 디지털 방송 콘텐츠로 제공하는 데이터 방송 시스템에서도 활용될 수 있을 것이다.

이상에서 상세히 설명한 바와 같이 본 발명에 따른 마크업 문서 자동 요약 방법은, 검색 결과로 제시되는 마크업 문서들의 태그 정보를 이용해 여러 개의 문서를 하나로 요약하여 그 요약 시간을 단축시킬 수 있을 뿐만 아니라 요약 정보의 내용을 보다 충실하게 제공하여 사용자가 쉽고 빠르게 그 검색 내용을 파악할 수 있는 효과가 있다.

본 발명은 기재된 구체적인 예에 대해서만 상세히 설명되었지만 본 발명의 기술사상 범위 내에서 다양한 변형 및 수정이 가능함은 당업자에게 있어서 명백한 것이며, 이러한 변형 및 수정이 첨부된 특허청구범위에 속함은 당연한 것이다.

Claims

마크업(Markup) 문서 자동 요약 방법에 있어서,

상기 마크업 문서의 카테고리 등급 및 태그 별 가중치를 미리 설정해 두는 제 1 단계와 ;

상기 미리 설정해 둔 마크업 문서의 카테고리 등급 및 태그 별 가중치를 이용해 요약할 마크업 문서의 해당 태그별 최종 가중치를 산출하는 제 2 단계와 ;

상기 최종 가중치가 높은 순서대로 해당 태그의 텍스트를 추출하는 제 3 단계로 이루어지는 것을 특징으로 마크업 문서 자동 요약 방법.
제 1 항에 있어서, 상기 제 1 단계와 제 2 단계 사이에 ;

상기 요약할 마크업 문서의 범위와 요약 정보의 분량을 미리 설정하는 단계를 추가로 포함하는 것을 특징으로 하는 마크업 문서 자동 요약 방법.
제 2 항에 있어서, 상기 제 3 단계는 ;

상기 미리 설정한 마크업 문서의 범위 및 그 분량에 따라 상기 해당 태그의 텍스트를 추출하는 것을 특징으로 하는 마크업 문서 자동 요약 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서, 상기 마크업 문서는 ;

HTML(Hypertext Markup Language) 또는 XML(Extensible Markup Language)의 마크업 언어로 작성되는 것을 특징으로 하는 마크업 문서 자동 요약 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서, 상기 최종 가중치는 ;

상기 요약할 마크업 문서의 해당 카테고리 등급 가중치와 해당 태그 가중치를 승산하여 산출하는 것을 특징으로 하는 마크업 문서 자동 요약 방법.