KR100849272B1 - 마크업 문서 자동 요약 방법 - Google Patents

마크업 문서 자동 요약 방법 Download PDF

Info

Publication number
KR100849272B1
KR100849272B1 KR1020010073201A KR20010073201A KR100849272B1 KR 100849272 B1 KR100849272 B1 KR 100849272B1 KR 1020010073201 A KR1020010073201 A KR 1020010073201A KR 20010073201 A KR20010073201 A KR 20010073201A KR 100849272 B1 KR100849272 B1 KR 100849272B1
Authority
KR
South Korea
Prior art keywords
markup
document
tag
text
weight
Prior art date
Application number
KR1020010073201A
Other languages
English (en)
Other versions
KR20030042523A (ko
Inventor
장은영
Original Assignee
주식회사 엘지이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘지이아이 filed Critical 주식회사 엘지이아이
Priority to KR1020010073201A priority Critical patent/KR100849272B1/ko
Priority to US10/301,794 priority patent/US7181683B2/en
Publication of KR20030042523A publication Critical patent/KR20030042523A/ko
Application granted granted Critical
Publication of KR100849272B1 publication Critical patent/KR100849272B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/137Hierarchical processing, e.g. outlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/221Parsing markup language streams

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

검색 결과로 제시되는 마크업 문서들의 태그 정보를 이용해 여러 개의 문서를 하나로 요약하여 그 요약 시간을 단축시킬 수 있도록 하는 것과 아울러 요약 정보의 내용을 보다 충실하게 제공하여 사용자가 쉽고 빠르게 그 검색 내용을 파악하도록 하는 마크업 문서 요약 방법을 제공하는데 그 목적이 있다.
이를 위해 본 발명은 마크업 문서의 카테고리 등급 및 태그 별로 가중치를 미리 설정해 두었다가, 미리 설정해 둔 가중치를 이용해 요약할 마크업 문서의 해당 태그별 최종 가중치를 산출한 후, 최종 가중치가 높은 순서대로 해당 태그의 텍스트를 추출하여 요약 문서를 생성하도록 한다.
마크업, 요약, 태그, 카테고리, 가중치

Description

마크업 문서 자동 요약 방법{Method for automatically summarizing Markup-type documents}
도 1은 일반적인 문서 자동 요약 시스템을 예를 도시한 도면이고,
도 2는 종래의 문서 자동 요약 시스템을 사용하여 생성된 요약 문서이고,
도 3은 본 발명에 따른 문서 자동 요약 방법을 도시한 도면이고,
도 4는 본 발명에 적용되는 카테고리 등급별로 가중치가 부여된 예를 도시한 도면이고,
도 5는 본 발명에 적용되는 태그별로 가중치가 부여된 예를 도시한 도면이고,
도 6은 본 발명에 적용되는 마크업 문서의 제한 범위의 예를 도시한 도면이고,
도 7, 도 8, 도 9는 본 발명의 마크업 문서 자동 요약 방법을 예로 들어 설명한 도면이다.
본 발명은 마크업(Markup) 문서의 자동 요약 방법에 관한 것이다.
상기 "마크업(Markup)"은 화면에 표시되는 텍스트와 같은 파일들의 논리적인 구조를 묘사하기 위해, 상기 텍스트와 같은 파일의 특정위치에 삽입되는 일련의 문자들이나 기호들을 말하는데, 이러한 정보들이 포함된 문서가 바로 마크업 문서이며, 이 때 그 구조를 묘사하기 위해 사용되는 표지를 "태그"라 부른다.
일반적으로 오늘날에는 컴퓨터의 보급 및 인터넷의 발달로 전자 문서의 양이 급격히 증가하게 되었고 이에 따라 수많은 전자 문서 가운데 원하는 문서를 색출해내는 데에도 상대적으로 많은 시간이 걸리게 되었다.
종래의 문서 검색 시스템은 공통적으로 검색어(keyword)를 사용한 검색 시스템으로, 핵심 단어로 문서를 검색하는 경우 사용자가 간단한 검색어 입력만으로 원하는 정보를 검색할 수 있는 시스템이다.
이러한 일반적인 문서 검색 시스템을 도 1에 도시하였는데, 이에 도시된 바와 같이 상기 검색 시스템은 사용자 컴퓨터들과 인터넷, 그리고 검색 엔진과 서버로 구성되어, 사용자가 해당 사용자 컴퓨터를 이용해 검색어를 입력하면 검색 엔진이 그 검색어에 해당하는 응답데이터 즉 검색 결과에 해당하는 전자 문서를 서버로부터 전송받아 인터넷을 통해 해당 사용자 컴퓨터로 전송하여, 사용자가 상기 해당 사용자 컴퓨터를 통해 그 검색 결과를 확인할 수 있도록 한 것이다.
하지만, 오늘날에는 검색어에 해당하는 검색 결과의 양이 방대할 뿐만 아니라 그 검색 결과가 정확한 것인가도 제대로 파악 할 수 없기 때문에 실제로는 사용 자가 그 검색 결과에 해당하는 문서들을 다시 한 번 일일이 확인을 해야 한다.
그래서 이러한 문제점을 해결하기 위해 문서 자동 요약 시스템이 개발되었다.
상기 "문서 자동 요약 시스템"이란 간단히 말하면 '문서의 내용을 일정한 크기로 줄여주는 것'이라고 할 수 있으며, 상세하게는 검색 결과로 제공된 문서에서 중요하지 않은 부분이나 사소한 부분을 생략하면서 핵심적인 내용을 일관성있게 추려내어 모아주는 문서 내용 압축 시스템이다.
이러한 일반적인 문서 자동 요약 시스템에서 자동 요약을 하는 과정은 먼저 문서의 내용을 읽어들여서 요약용의 해석 단위로 분류하는 파싱(parsing) 단계로부터 시작한다.
이때 문서 자동 요약 시스템에서는 문서를 문단의 집합으로 간주하고, 문장은 다시 단어의 집합으로 파악하며, 단어가 문서 자동 요약 시스템의 최하위 요소인 동시에 주제어(keyword)의 역할을 한다.
문서 자동 요약의 두번째 단계는 문서의 주제어 정보를 구축하는 것이다. 즉, 문서의 최하위 요소인 단어를 기준으로 빈도 정보를 수집하여 주제어 정보를 구축한다. 주제어 정보를 구축한 후에는 주제문장을 선별하기 위해서 각 문장별로 문장의 가중치를 계산한다. 문장의 가중치 계산은 2단계로 나누어 진행되는데, 먼저 각 문장에 대해 주제어가 나타난 빈도를 중심으로 점수를 부여하고, 문장의 길이와 문장에 포함된 주제어의 길이를 기준으로 점수를 부여하여 각 문장별 가중치를 계산한다. 이와 같이 하여 각 문장의 가중치가 계산되면 가중치가 높은 문장부 터 차례로 문장을 선택하여 지정한 분량의 요약문서를 생성한다.
이러한 일반적인 문서 자동 요약 시스템을 사용하여 생성된 요약 문서의 예가 도 2에 도시되어 있는데, 상기 도 2는 주제어로 홍콩, 한국, 자금등이 입력되었을 때 그 주제어가 포함된 주제문장을 이용해 생성한 요약문서가 도시되어 있다.
하지만 이러한 일반적인 문서 자동 요약 시스템은 사용자가 검색 결과의 내용을 어느 정도 파악할 수 있기는 하지만, 검색어를 포함한 문장만을 부분적으로 조합하여 요약문서로 제시하기 때문에 내용에 일관성이 없고, 문장 조합만으로는 문서의 전체적인 내용을 이해할 수 없으며, 문장에 검색어가 포함되어 있더라도 문서의 전체적인 내용이 사용자가 요구하는 내용이 아닐 수도 있다.
또한 요약 문서가 하나의 문서에 포함된 문장들만을 요약한 것이기 때문에 그 요약정보의 내용이 빈약할 뿐만 아니라, 요약시간에 있어서도 상당한 시간이 걸리는 등과 같은 여러 가지 문제점들이 있어 왔다.
이에 본 발명은 상기한 바와 같은 종래의 문제점을 해소시키기 위한 것으로, 검색 결과로 제시되는 마크업 문서들의 태그 정보를 이용해 여러 개의 문서를 하나로 요약하여 그 요약 시간을 단축시킬 수 있도록 하는 것과 아울러 요약 정보의 내용을 보다 충실하게 제공하여 사용자가 쉽고 빠르게 그 검색 내용을 파악하도록 하는 마크업 문서 요약 방법을 제공하는데 그 목적이 있다.
상기 목적을 달성하기 위한 본 발명의 마크업 문서 자동 요약 방법은, 마크 업 문서의 카테고리 등급 및 태그 별로 가중치를 미리 설정해 두었다가, 미리 설정해 둔 가중치를 이용해 요약할 마크업 문서의 해당 태그별 최종 가중치를 산출한 후, 최종 가중치가 높은 순서대로 해당 태그의 텍스트를 추출하여 요약 문서를 생성하도록 하는 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명을 살펴보면 다음과 같다.
도 3은 본 발명에 따른 마크업 문서 자동 요약 방법을 도시한 도면이다.
상기 도 3에 도시된 바와 같이, 마크업 문서 자동 요약 방법은 카테고리 등급 및 태그별로 가중치를 설정하는 제 10 단계(S10)와, 요약할 마크업 문서의 범위와 요약정보의 분량을 설정하는 제 20 단계(S20)와, 상기 설정된 상태에서 마크업 문서를 입력하는 제 30 단계(S30)와, 입력된 마크업 문서에 포함된 태그의 최종 가중치를 계산하는 제 40 단계(S40)와, 최종가중치가 높은 순서대로 해당 태그의 텍스트를 하나씩 추출하는 제 50 단계(S50)와, 추출한 해당 텍스트가 요약 정보에 포함되는가를 판단하는 제 60 단계(S60)와, 판단 결과 추출한 텍스트가 요약 정보에 포함되지 않을 경우 다음 번째로 최종가중치가 높은 해당 텍스트를 추출하는 제 70 단계(S70)와, 판단 결과 추출한 텍스트가 요약 정보에 포함되지 않을 경우 추출한 텍스트를 요약 정보에 포함시키는 제 80 단계(S80)와, 상기 요약정보의 분량과 설정된 요약정보의 분량을 비교하는 제 80 단계(S90)와, 상기 비교 결과 요약 정보의 분량이 설정된 요약 정보 분량보다 적을 경우에는 제 70 단계(S70)를 진행하고 같 거나 많을 경우에는 텍스트 추출을 종료하는 제 100 단계(S100)로 이루어진다.
이렇게 이루어지는 마크업 문서 요약 방법은, 먼저 카테고리 등급 및 태그별로 가중치를 미리 설정한다(S10).
상기 카테고리 등급별로 가중치를 부여한 형태를 도 4를 예로 들어 설명한.
상기 도 4에 도시된 바와 같이, 카테고리 등급은 높으면 높을수록 요약정보로서 중요한 의미를 가지기 때문에 카테고리 등급이 높은 순서대로 높은 가중치를 부여하는데, 여기서는 카테고리 등급이 가장 높은 C1(엔터테인먼트)에 가중치 1.0을 부여하고, C2(영화)에는 0.9, C3(영화인)에는 0.8, C4(배우/탤런트)에서는 0.7의 가중치가 그 등급에 따라 부여되어 있는 예가 도시되어 있다.
그리고 도 5는 태그 별로 가중치를 부여한 형태를 예로 들어 보인 도면이다. 상기 도 5에 도시된 바와 같이, 상기와 같이 요약정보로서 중요도가 높은 태그 순서대로 가중치를 부여하는데, 상기 도 5에서는 마크업 문서 제목을 나타내는 <title>에는 가중치 "5"를, 글자 크기 조절을 나타내는 <h1>,<h2>에는 가중치 4, <h3>,<h4>,<h5>,<h6>에는 각기 가중치 3을, 링크를 나타내는 <a>에는 가중치 2를, 문단 구분을 나타내는 <p>에는 가중치 1이 각기 부여된 예가 도시되어 있다.
다음으로 상기와 같이 카테고리 등급과 태그별로 가중치를 부여하고 나면, "요약 정보의 분량"과 "요약할 마크업 문서의 범위"를 설정한다(S20).
상기 "요약정보의 분량"은 사용자가 원하는 분량이 바이트 수로 지정된 것이고, 상기 "요약할 마크업 문서의 범위"는 입력된 여러 개의 마크업 문서 중 어느 범위까지 요약할 것인가를 나타낸 것이다.
예를 들면, 입력된 마크업 문서가 하이퍼 링크로 연결되어 있을 경우에는 다음의 두 가지 방법으로 마크업 문서의 범위를 제한할 수 있다.
이 때 입력되는 각 마크업 문서는 노드로, 하이퍼 링크는 그래프의 에지라고 한다.
첫 번째 방법은, 최상위의 마크업문서로부터 m등급 아래의 마크업 문서까지 그 범위를 제한할 수 있는데 도 6a는 최상위 문서(A)로부터 2등급 아래까지의 문서만이 입력되도록 그 범위를 제한한 예를 도시한 도면이다.
두 번째 방법은, 각 마크업 문서가 BFS(Breath First Search)알고리즘으로 입력될 때 처음 방문되는 m개의 마크업 문서까지 각기 그 범위를 제한하는 것인데, 도 6b는 처음 방문되는 최상위문서로부터 순서대로 6개까지만이 입력되도록 그 범위를 제한한 예를 도시한 도면이다.
다음 이렇게 요약할 마크업 문서의 범위와 요약 정보의 분량이 설정되어 요약할 마크업 문서들이 입력되면(S30), 입력되는 각 마크업 문서의 태그별 최종 가중치를 계산한다(S40).
상기 태그별 최종 가중치는 해당 마크업 문서의 카테고리 등급과 해당 태그의 가중치를 승산이나 가산등과 같은 연산과정등을 통해 산출한다.
그런 다음 각 마크업 문서에 포함된 태그의 최종 가중치가 높은 순서대로 해당 태그의 텍스트를 하나씩 추출한다(S50).
추출한 텍스트가 요약정보에 포함되지 않을 경우에는(S60) 추출한 텍스트를 요약정보에 추가하고(S70), 포함될 경우에는 다음번째인 해당 태그의 텍스트를 추 출하는데(S80), 상기 요약 정보는 추출한 텍스트들의 집합체를 의미한다.
다음 상기 추출한 텍스트들로 이루어진 요약 정보의 분량이 미리 설정된 요약정보의 분량을 비교한다(S90).
그래서 상기 요약 정보의 분량이 미리 설정된 요약 정보의 분량보다 적을 경우에는(S90) 다음번째인 해당 태그의 텍스트를 계속 추출하고(S70), 같거나 많을 경우에는 텍스트 추출 동작을 종료하는데(S100), 이 때 하나의 요약 문서가 완성될 것이다.
이하 본 발명의 일실시예를 도 7 도 8, 도 9를 참조하여 설명한다.
설명할 일실시예는 도 7과 같이 최상위 문서가 index.html이고, 상기 최상위 문서를 포함한 여섯 개의 HTML문서(index.html, film.html, cast.html, cast1.html, cas2.html, cast3.html)가 하이퍼 링크로 연결된 마크업 문서들을 요약하는 방법을 예로 든 것이다.
먼저 각각의 태그에는 도 5에 도시된 바와 같이 가중치를 부여한다.
즉, 마크업 문서 제목을 나타내는 "<title>"태그에는 가중치 "5"를, 글자 크기 조절을 나타내는 <h1>,<h2>의 태그에는 가중치 4를, <h3>,<h4>,<h5>,<h6>의 태그에는 가중치 3을, 그리고 링크를 나타내는 <a>태그에는 가중치 2와, 문단 구분을 나타내는 <p>태그에는 가중치 1을 부여하는데, 이러한 가중치는 요약할 마크업 문서들이 입력되기 전에 미리 설정된 값들이다.
또한 각각의 카테고리 등급에도 가중치를 미리 설정하는데, 여기서는 최상위 문서들에는 가중치 1.0을, 상기 최상위 문서로부터 1 등급 아래의 문서에는 가중치 0.9의 값을, 2 등급 아래의 문서에는 가중치 0.8의 값을 미리 설정해 둔다.
그리고 요약 분량은 150바이트로 설정하고, 요약할 마크업 문서의 범위는 최상위문서로부터 1등급 아래의 문서까지로 그 제한 범위를 설정한다.
이에 따라 여기서는 검색 결과로서 제공된 도 7의 6개 마크업 문서들 중 최상위 문서인 index.html문서로부터 1 등급 아래의 film.html문서와 cast.html문서까지로 요약처리될 입력 범위가 제한된다.
아울러 입력된 3개의 마크업 문서들 즉 최상위 문서인 index.html문서는 가중치 1.0의 값이, 그리고 1등급 아래의 문서인 film. html문서와 cast. html문서는 각기 가중치 0.9의 값이 부여된다.
다음 마크업 문서들이 입력되어 카테고리와 태그 별로 해당 가중치가 부여되고 나면, 입력된 3개의 html마크업 문서에 포함된 태그들의 최종 가중치를 계산하는데, 여기서는 카테고리 등급에 부여된 가중치와 태그에 부여된 가중치를 승산하여 최종가중치를 산출하는 방법을 사용한다.
상기 도 8a는 index.html마크업 문서, 도 8b는 film.html마크업 문서, 도 8c는 cast.html마크업 문서에 포함된 태그들의 최종가중치가 산출된 도면이다.
예를 들면, 도 8a에 도시된 바와 같이 최상위 문서인 index. html마크업 문서에 포함된 <title>태그에는 최종가중치 5.0이 산출되어 있는데, 이는 상기 <title>태그의 가중치 5와 index.html문서의 카테고리 등급에 따라 부여된 가중치 1.0의 값을 승산하여 산출한 값이다.
이와 같이 각 마크업 문서에 포함된 태그들의 최종가중치가 산출되면, 최종 가중치가 높은 순서대로 해당 태그의 텍스트를 추출하는 동작을 수행한다.
도 9는 최종 가중치가 높은 순서대로 추출한 텍스트를 누적하여 만든 요약 문서를 보여 주는 도면이다.
이에 도시된 바와 같이, 상기 산출된 최종 가중치중 가장 높은 값(i = 5.0)을 가진 태그 즉, index. html의 <title>태그 텍스트인 "박하사탕"을 먼저 추출한다.
그런 다음 이 "박하사탕"이 추출된 텍스트들로 이루어진 요약 정보에 동일한 내용이 포함되는 있는 가를 판단하여, 동일한 내용이 포함된 경우에는 상기 요약 정보에 포함시키도록 하지 않고 이와 달리 동일한 내용이 포함되어 있지 않은 경우에는 추출한 텍스트를 상기 요약 정보에 포함시키도록 하는데, 여기서는 상기 "박하사탕"이 처음으로 추출된 텍스트로 동일한 내용의 텍스트가 상기 요약 정보에 포함되어 있지 않기 때문에 이를 상기 요약 정보에 포함시킨다.
다음 이 "박하사탕"의 텍스트가 포함된 상기 요약 정보의 분량과 미리 설정된 요약 정보의 분량을 비교하여 상기 요약 정보의 분량이 미리 설정된 요약 정보의 분량보다 많거나 같을 경우에는 택스트 추출동작이 종료되고, 이와 달리 상기 요약 정보의 분량이 미리 설정된 요약 정보의 분량보다 적을 경우에는 태그의 추출동작을 계속 수행하는데, 여기서는 추출된 요약 정보의 분량이 미리 설정된 요약 정보의 분량인 125 바이트 보다 적기 때문에 태그의 추출동작을 계속 수행한다.
이 때 추출되는 텍스트는 최종 가중치가 다음번째로 높은 태그의 텍스트가 추출된다.
여기서는 cast. html문서에 포함된 <title>태그와 film.html문서에 포함된 <title>태그의 최종 가중치가 i = 4.5로 두 번째로 높기 때문에 각기 해당 텍스트인 "영화 줄거리"와 "등장 인물"이 추출된다.
그런 다음 이 추출된 택스트들과 동일한 내용이 요약 정보에 포함되어 있지 않기 때문에 이를 상기 요약 정보에 포함시킨다.
그리고 나서 상기 요약 정보의 분량과 미리 설정된 요약 분량을 비교하는데, 여기서는 상기 요약 정보의 분량이 50 바이트로 미리 설정된 요약 분량 125 바이트보다 적기 때문에 다시 그 최종 가중치가 다음 번째로 높은 태그의 텍스트를 계속해서 추출하는 동작이 계속 수행된다.
그래서 최종 가중치가 다음번째로 높은 i = 3.6 의 텍스트를 추출하는데, 추출하는텍스트들은 film.html문서에 포함된 <h2>태그의 "영화 줄거리"텍스트와, cast.html문서에 포함된 <h2>태그의 "등장인물"텍스트이다.
다음 이렇게 추출된 텍스트는 상기 요약 정보에 동일한 내용이 있는가를 판단하는데, 상기 텍스트인 " 영화 줄거리"와 "등장인물"의 텍스트는 최종 가중치가 i = 4.5인 태그의 텍스트와 동일한 것이기 때문에 이를 상기 요약 정보에 포함시키지 않고 최종 가중치가 다음 번째로 높은 i = 3.0 태그의 텍스트를 추출한다.
상기 추출되는 텍스트는 index. html문서에 포함된 <h4>태그의 "이 창동 감독의..."텍스트이다.
다음 상기 텍스트가 요약 정보에 동일한 내용이 포함되어 있지 않기 때문에 이를 상기 요약 정보에 포함시키고, 상기 텍스트를 포함시킨 요약 정보 분량과 미 리 설정된 요약 분량을 비교한다.
상기 요약 정보 분량이 미리 설정된 요약 분량인 125 바이트보다 적기 때문에 다시 최종 가중치가 다음번째로 높은 태그의 텍스트를 추출하는 동작을 수행한다.
이에 따라 최종가중치가 i = 2.7인 cast. html문서에 포함된 <h3>태그의 텍스트인 "김영호","윤순임","양홍자"를 추출한다.
그런 다음 추출된 텍스트를 상기 요약 정보에 포함시키고, 상기 텍스트를 포함시킨 요약 정보 분량과 미리 설정된 요약 정보의 분량을 비교한다.
그 비교 결과 상기 요약 정보 분량이 125바이트로서 미리 설정된 요약 정보의 분량인 125 바이트와 동일하기 때문에 텍스트 추출동작을 종료하게 되는데, 이 때 상기한 텍스트 추출 동작이 종료되면 도 9에 도시된 바와 같이 하나의 요약문서가 생성된다.
상기한 마크업 문서의 자동 요약 방법은 인터넷을 이용한 검색 시스템에서 뿐만 아니라, 다양한 문자 서비스를 지원하는 데이터 방송 시스템등에서도 얼마든지 사용 가능하다.
즉 상기한 문서 자동 요약 방법은 인터넷을 통해 검색된 전자 문서들을 자동 요약하는데 이용되는 것 뿐만 아니라, HTML이나 XML(Extensible Markup Language)로 작성되는 마크업 문서를 디지털 방송 콘텐츠로 제공하는 데이터 방송 시스템에서도 활용될 수 있을 것이다.
이상에서 상세히 설명한 바와 같이 본 발명에 따른 마크업 문서 자동 요약 방법은, 검색 결과로 제시되는 마크업 문서들의 태그 정보를 이용해 여러 개의 문서를 하나로 요약하여 그 요약 시간을 단축시킬 수 있을 뿐만 아니라 요약 정보의 내용을 보다 충실하게 제공하여 사용자가 쉽고 빠르게 그 검색 내용을 파악할 수 있는 효과가 있다.
본 발명은 기재된 구체적인 예에 대해서만 상세히 설명되었지만 본 발명의 기술사상 범위 내에서 다양한 변형 및 수정이 가능함은 당업자에게 있어서 명백한 것이며, 이러한 변형 및 수정이 첨부된 특허청구범위에 속함은 당연한 것이다.

Claims (5)

  1. 마크업(Markup) 문서 자동 요약 방법에 있어서,
    상기 마크업 문서의 카테고리 등급 및 태그 별 가중치를 미리 설정해 두는 제 1 단계와 ;
    상기 미리 설정해 둔 마크업 문서의 카테고리 등급 및 태그 별 가중치를 이용해 요약할 마크업 문서의 해당 태그별 최종 가중치를 산출하는 제 2 단계와 ;
    상기 최종 가중치가 높은 순서대로 해당 태그의 텍스트를 추출하는 제 3 단계로 이루어지는 것을 특징으로 마크업 문서 자동 요약 방법.
  2. 제 1 항에 있어서, 상기 제 1 단계와 제 2 단계 사이에 ;
    상기 요약할 마크업 문서의 범위와 요약 정보의 분량을 미리 설정하는 단계를 추가로 포함하는 것을 특징으로 하는 마크업 문서 자동 요약 방법.
  3. 제 2 항에 있어서, 상기 제 3 단계는 ;
    상기 미리 설정한 마크업 문서의 범위 및 그 분량에 따라 상기 해당 태그의 텍스트를 추출하는 것을 특징으로 하는 마크업 문서 자동 요약 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서, 상기 마크업 문서는 ;
    HTML(Hypertext Markup Language) 또는 XML(Extensible Markup Language)의 마크업 언어로 작성되는 것을 특징으로 하는 마크업 문서 자동 요약 방법.
  5. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서, 상기 최종 가중치는 ;
    상기 요약할 마크업 문서의 해당 카테고리 등급 가중치와 해당 태그 가중치를 승산하여 산출하는 것을 특징으로 하는 마크업 문서 자동 요약 방법.
KR1020010073201A 2001-11-23 2001-11-23 마크업 문서 자동 요약 방법 KR100849272B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020010073201A KR100849272B1 (ko) 2001-11-23 2001-11-23 마크업 문서 자동 요약 방법
US10/301,794 US7181683B2 (en) 2001-11-23 2002-11-22 Method of summarizing markup-type documents automatically

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020010073201A KR100849272B1 (ko) 2001-11-23 2001-11-23 마크업 문서 자동 요약 방법

Publications (2)

Publication Number Publication Date
KR20030042523A KR20030042523A (ko) 2003-06-02
KR100849272B1 true KR100849272B1 (ko) 2008-07-29

Family

ID=19716224

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020010073201A KR100849272B1 (ko) 2001-11-23 2001-11-23 마크업 문서 자동 요약 방법

Country Status (2)

Country Link
US (1) US7181683B2 (ko)
KR (1) KR100849272B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101656245B1 (ko) 2015-09-09 2016-09-09 주식회사 위버플 문장 추출 방법 및 시스템
KR20170030434A (ko) 2016-09-05 2017-03-17 주식회사 위버플 문장 추출 방법 및 시스템
KR20180032541A (ko) 2018-03-20 2018-03-30 주식회사 위버플 문장 추출 방법 및 시스템
KR20190121727A (ko) 2019-10-14 2019-10-28 주식회사 딥서치 문장 추출 방법 및 시스템
KR20200042767A (ko) 2018-10-16 2020-04-24 주식회사 포스코아이씨티 키워드 추출 및 요약문 생성 시스템 및 방법

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8156216B1 (en) 2002-01-30 2012-04-10 Adobe Systems Incorporated Distributed data collection and aggregation
US9280603B2 (en) * 2002-09-17 2016-03-08 Yahoo! Inc. Generating descriptions of matching resources based on the kind, quality, and relevance of available sources of information about the matching resources
US20050216844A1 (en) * 2004-03-03 2005-09-29 Error Brett M Delayed transmission of website usage data
US7441195B2 (en) * 2003-03-04 2008-10-21 Omniture, Inc. Associating website clicks with links on a web page
JP4333229B2 (ja) * 2003-06-23 2009-09-16 沖電気工業株式会社 固有表現文字列の評価装置および評価方法
US9009153B2 (en) * 2004-03-31 2015-04-14 Google Inc. Systems and methods for identifying a named entity
KR100667756B1 (ko) * 2004-07-01 2007-01-11 삼성전자주식회사 방송 스트림 저장/검색 방법 및 장치
US8595223B2 (en) 2004-10-15 2013-11-26 Microsoft Corporation Method and apparatus for intranet searching
US20060095841A1 (en) * 2004-10-28 2006-05-04 Microsoft Corporation Methods and apparatus for document management
JP4185500B2 (ja) * 2005-03-14 2008-11-26 株式会社東芝 文書検索システム、文書検索方法及びプログラム
GB2429815A (en) * 2005-08-31 2007-03-07 Ant Software Ltd Markup language document processing
US20070124148A1 (en) * 2005-11-28 2007-05-31 Canon Kabushiki Kaisha Speech processing apparatus and speech processing method
US8726144B2 (en) * 2005-12-23 2014-05-13 Xerox Corporation Interactive learning-based document annotation
KR100775852B1 (ko) 2006-01-18 2007-11-13 포스데이타 주식회사 응용 프로그램의 자원 검색 시스템 및 방법
KR100785927B1 (ko) 2006-06-02 2007-12-17 삼성전자주식회사 데이터 요약 생성 방법 및 장치
US7707161B2 (en) * 2006-07-18 2010-04-27 Vulcan Labs Llc Method and system for creating a concept-object database
US8745684B1 (en) 2006-08-08 2014-06-03 CastTV Inc. Facilitating video search
US9398350B1 (en) * 2006-08-08 2016-07-19 CastTV Inc. Video matching service to offline counterpart
US20080281927A1 (en) * 2007-05-11 2008-11-13 Microsoft Corporation Summarization tool and method for a dialogue sequence
US8209617B2 (en) * 2007-05-11 2012-06-26 Microsoft Corporation Summarization of attached, linked or related materials
JP4983401B2 (ja) * 2007-05-25 2012-07-25 富士ゼロックス株式会社 情報処理装置及び制御プログラム
US7917755B1 (en) * 2007-07-27 2011-03-29 Adobe Systems Incorporated Identification of localized web page element
US8793342B2 (en) * 2010-08-26 2014-07-29 Hewlett-Packard Development Company, L.P. Interpreting web application content
JP5682480B2 (ja) * 2011-06-30 2015-03-11 富士通株式会社 情報処理装置、情報処理方法、および情報処理プログラム
CN103218355B (zh) * 2012-01-18 2016-08-31 腾讯科技(深圳)有限公司 一种为用户生成标签的方法和装置
US10169456B2 (en) * 2012-08-14 2019-01-01 International Business Machines Corporation Automatic determination of question in text and determination of candidate responses using data mining
JP5955186B2 (ja) * 2012-09-28 2016-07-20 株式会社Nttドコモ 情報処理装置
WO2015183246A1 (en) 2014-05-28 2015-12-03 Hewlett-Packard Development Company, L.P. Data extraction based on multiple meta-algorithmic patterns
KR101636519B1 (ko) * 2014-10-07 2016-07-04 한국원자력연구원 코치닐추출색소의 알레르기원성 저감화 방법
CN105740404A (zh) * 2016-01-28 2016-07-06 上海晶赞科技发展有限公司 标签关联方法及装置
KR101873494B1 (ko) * 2017-06-13 2018-07-31 계원예술대학교 산학협력단 종이 겹침 효과의 표현이 가능한 웹 문서 표시 장치
CN110489542B (zh) * 2019-08-10 2023-12-12 刘莎 一种互联网网页信息和文本信息的自动摘要方法
KR20210043884A (ko) * 2019-10-14 2021-04-22 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN111858912A (zh) * 2020-07-03 2020-10-30 黑龙江阳光惠远知识产权运营有限公司 一种基于单篇长文本的摘要生成方法
CN113342941B (zh) * 2021-06-28 2022-08-26 平安信托有限责任公司 文本搜索方法、装置、电子设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000072184A (ko) * 2000-08-14 2000-12-05 박민우 온라인상의 문서파싱방법
KR20010018214A (ko) * 1999-08-18 2001-03-05 정선종 자연어 처리를 위한 에이치.티.엠.엘/에스.지.엠.엘 태그 처리장치 및 방법
KR20010060048A (ko) * 1999-12-31 2001-07-06 이계철 웹 문서의 태그를 이용한 용어 가중치 할당 방법

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09259028A (ja) * 1996-03-19 1997-10-03 Toshiba Corp 情報呈示方法
US6092081A (en) * 1997-03-05 2000-07-18 International Business Machines Corporation System and method for taggable digital portfolio creation and report generation
US6175830B1 (en) * 1999-05-20 2001-01-16 Evresearch, Ltd. Information management, retrieval and display system and associated method
US6308324B1 (en) * 1999-06-10 2001-10-23 International Business Machines Corporation Multi-stage profiler
US20040122731A1 (en) * 1999-09-23 2004-06-24 Mannik Peeter Todd System and method for using interactive electronic representations of objects
DE19964030A1 (de) * 1999-12-30 2001-07-05 Ibm Effizientes Laden von Dokumenten auf dem Internet
KR100367675B1 (ko) * 2000-04-27 2003-01-15 엘지전자 주식회사 티브이 문자정보 번역 시스템 및 그 제어방법
US20020078091A1 (en) * 2000-07-25 2002-06-20 Sonny Vu Automatic summarization of a document
US7607083B2 (en) * 2000-12-12 2009-10-20 Nec Corporation Test summarization using relevance measures and latent semantic analysis
US20020078165A1 (en) * 2000-12-14 2002-06-20 International Business Machines Corporation System and method for prefetching portions of a web page based on learned preferences

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010018214A (ko) * 1999-08-18 2001-03-05 정선종 자연어 처리를 위한 에이치.티.엠.엘/에스.지.엠.엘 태그 처리장치 및 방법
KR20010060048A (ko) * 1999-12-31 2001-07-06 이계철 웹 문서의 태그를 이용한 용어 가중치 할당 방법
KR20000072184A (ko) * 2000-08-14 2000-12-05 박민우 온라인상의 문서파싱방법

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101656245B1 (ko) 2015-09-09 2016-09-09 주식회사 위버플 문장 추출 방법 및 시스템
US10430468B2 (en) 2015-09-09 2019-10-01 Uberple Co., Ltd. Method and system for extracting sentences
KR20170030434A (ko) 2016-09-05 2017-03-17 주식회사 위버플 문장 추출 방법 및 시스템
KR20180032541A (ko) 2018-03-20 2018-03-30 주식회사 위버플 문장 추출 방법 및 시스템
KR20200042767A (ko) 2018-10-16 2020-04-24 주식회사 포스코아이씨티 키워드 추출 및 요약문 생성 시스템 및 방법
KR20190121727A (ko) 2019-10-14 2019-10-28 주식회사 딥서치 문장 추출 방법 및 시스템

Also Published As

Publication number Publication date
KR20030042523A (ko) 2003-06-02
US7181683B2 (en) 2007-02-20
US20030101415A1 (en) 2003-05-29

Similar Documents

Publication Publication Date Title
KR100849272B1 (ko) 마크업 문서 자동 요약 방법
US10599721B2 (en) Method and apparatus for automatically summarizing the contents of electronic documents
US7065707B2 (en) Segmenting and indexing web pages using function-based object models
US10169310B2 (en) Rich text handling for a web application
Chen et al. Function-based object model towards website adaptation
US7882450B2 (en) Interactive document summarization
US7458017B2 (en) Function-based object model for use in website adaptation
US7055094B2 (en) Virtual tags and the process of virtual tagging utilizing user feedback in transformation rules
US20110055209A1 (en) System and method for delivering content and advertisments
US20090125529A1 (en) Extracting information based on document structure and characteristics of attributes
US20080235567A1 (en) Intelligent form filler
US20080072140A1 (en) Techniques for inducing high quality structural templates for electronic documents
US20070005649A1 (en) Contextual title extraction
US20060026496A1 (en) Methods, apparatus and computer programs for characterizing web resources
KR100393176B1 (ko) 문서 자동 요약에 의한 인터넷 정보 검색 시스템 및 방법
JP5462591B2 (ja) 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置
WO2014049310A2 (en) Method and apparatuses for interactive searching of electronic documents
EP2096561B1 (en) Method for extracting relevant content from a markup language file, in particular from a HTML file
Lakshmi et al. Web structure analysis for information mining
KR20100014116A (ko) 탭을 위한 규칙 기반의 사용자 정의된 wi-메카니즘
JP2000331017A (ja) 文書間関連度計算装置、その方法およびその記録媒体
JP2000353165A (ja) 文書処理方法及び装置並びに記録媒体
Ko et al. Web page dependent vision based segementation for web sites
Alli et al. Automatic page scrolling for mobile Web search
JP2006072949A (ja) 文書検索システム及び文書検索エンジンプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130624

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140624

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20150624

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20160624

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20170614

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20180614

Year of fee payment: 11