KR20110012890A

KR20110012890A - 소형 이동 단말기를 위한 웹 기반 텍스트 요약 방법 및 시스템

Info

Publication number: KR20110012890A
Application number: KR1020090070790A
Authority: KR
Inventors: 차지은; 천승만; 박종태
Original assignee: 경북대학교 산학협력단
Priority date: 2009-07-31
Filing date: 2009-07-31
Publication date: 2011-02-09

Abstract

HTML 문서 요약 시스템 및 방법이 제공된다. 본 발명에 의한 HTML 문서 요약 시스템은 HTML(HyperText Markup Language) 문서의 데이터를 구성하는 각각의 단위 텍스트 중 태그를 기준으로 표제 단위 텍스트를 추출하여 키워드 추출부에 제공하는 표제 추출부, 상기 표제 단위 텍스트를 구성하는 각각의 단어 중 품사를 기준으로 키워드 데이터를 추출하는 키워드 추출부, 전체 상기 단위 텍스트 중 상기 표제 단위 텍스트를 제외한 각각의 본문 단위 텍스트에 포함된 문장 중, 해당 본문 단위 텍스트 직전의 상기 표제 단위 텍스트에서 추출된 상기 키워드 데이터를 가장 많이 포함하는 중심 문장 데이터를 추출하는 중심 문장 추출부 및 추출된 상기 표제 데이터 및 추출된 상기 중심 문장 데이터로 구성되는 요약 문서 데이터를 생성하는 요약 문서 생성부를 포함한다.

웹 기반 텍스트 요약, 웹 브라우징, 웹 프락시 서버, 이동 단말, 소형 이동 단말

Description

소형 이동 단말기를 위한 웹 기반 텍스트 요약 방법 및 시스템{Method and system for web-based text summarization for small mobile terminal}

본 발명은 HTML 문서 요약 시스템 및 방법에 관한 것이다. 더욱더 자세하게는, HTML 태그를 바탕으로 HTML 문서를 하나 이상의 단위 텍스트로 분리하고, 각각의 단위 텍스트 중 단락 및 글자의 외형을 설정하는 태그를 기준으로 설정된 중요도 값을 기초로 하여 표제 단위 텍스트를 추출한 후 상기 표제 단위 텍스트에 포함된 키워드를 가장 많이 포함한 문장을 해당 본문 단위 텍스트의 중요 문장으로 추출하여, 상기 표제 단위 텍스트 및 상기 중요 문장을 포함하는 요약 HTML 문서를 생성하는 HTML 문서 요약 시스템 및 방법에 관한 것이다.

현대인들에게 있어 웹 환경은 필요한 정보를 가장 빠르고 편리하게 제공 받을 수 있는 곳으로 인식되고 있다. 특히 PDA나 스마트폰과 같은 소형 이동 단말기의 보급이 확산됨에 따라 이동단말을 통한 Web 접속 또한 크게 증가하고 있다.

현재 대부분의 웹 브라우져 환경은 데스크탑에 적합하도록 설계되어 있다. 데스크탑 환경에서 수행되는 웹 페이지를 이동 단말에서 웹 페이지를 브라우징 할 경우 이동단말의 작은 출력화면(해상도)으로 인하여 한번에 전체 웹을 브라우징 할 수 없다. 이를 이동단말에서 웹 브라우징을 하기 위해서는 이동 단말에 적합하도록 변형 시켜야한다.

위와 같은 문제점을 해결하기 위해 기존의 웹페이지에 대해 이동 단말환경에서 브라우징 하기에 적합한 형태로 재구성하여 제공 하는 방법이 시도 되고 있다. 하지만 이로 인하여 웹 페이지 작업 중복으로 인한 시스템 자원의 낭비가 초래되는 문제점이 발생한다.

또 다른 해결 방안으로 이동 단말 전용 브라우저를 설치하는 방법이 제시되고 있다. 그러나, 이러한 방법 역시 단말에서 기본으로 제공하고 있는 브라우져와는 별개로 사용자가 또 다른 브라우져를 설치 하여야 하므로 이동 단말의 특성상 조작의 번거로움이 발생되는 문제점이 있다.

따라서, 단말에 설치된 범용 브라우저를 이용할 수 있고, 서버에 큰 작업 처리 부하를 초래하지 않는 HTML 텍스트 요약 시스템 및 방법의 제공이 요구 되고 있다.

본 발명이 해결하고자 하는 기술적 과제는 범용 웹 브라우저를 통하여 이동 단말에 적합한 웹 브라우징을 할 수 있도록 하는 HTML 문서 요약 시스템 및 방법을 제공하는 것이다.

본 발명이 해결하고자 하는 다른 기술적 과제는 문서의 구문적 특징을 크게 변화시키지 않도록 하기 위해, 다량의 텍스트가 동일 단락 안에 존재하는 경우에 한하여 내용을 요약하고, 각각의 문장 중 중요한 문장을 전체 게시하는 요약 방법을 사용하여 어떠한 요약 결과가 나오더라도 문장 자체에 변형을 주지 않도록 하여, 사용자로 하여금 가독성을 떨어뜨리는 결과를 방지할 수 있는 HTML 문서 요약 시스템 및 방법을 제공하는 것이다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해 될 수 있을 것이다.

상기 기술적 과제를 달성하기 위한 본 발명의 일 태양에 따른 HTML 문서 요약 시스템은 HTML(HyperText Markup Language) 문서의 데이터를 구성하는 각각의 단위 텍스트 중 태그를 기준으로 표제 단위 텍스트를 추출하여 키워드 추출부에 제공하는 표제 추출부, 상기 표제 단위 텍스트를 구성하는 각각의 단어 중 품사를 기준으로 키워드 데이터를 추출하는 키워드 추출부, 전체 상기 단위 텍스트 중 상기 표제 단위 텍스트를 제외한 각각의 본문 단위 텍스트에 포함된 문장 중, 해당 본문 단위 텍스트 직전의 상기 표제 단위 텍스트에서 추출된 상기 키워드 데이터를 가장 많이 포함하는 중심 문장 데이터를 추출하는 중심 문장 추출부 및 추출된 상기 표제 데이터 및 추출된 상기 중심 문장 데이터로 구성되는 요약 문서 데이터를 생성하는 요약 문서 생성부를 포함한다.

상기 기술적 과제를 달성하기 위한 본 발명의 다른 태양에 따른 HTML 문서 요약 방법은 HTML 문서의 데이터를 구성하는 각각의 단위 텍스트 중 태그를 기준으로 표제 단위 텍스트를 추출하는 단계, 상기 표제 단위 텍스트를 구성하는 각각의 단어 중 품사를 기준으로 키워드 데이터를 추출하는 단계, 전체 상기 단위 텍스트 중 상기 표제 단위 텍스트를 제외한 각각의 본문 단위 텍스트에 포함된 문장 중, 해당 본문 단위 텍스트 직전의 상기 표제 단위 텍스트에서 추출된 상기 키워드 데이터를 가장 많이 포함하는 중심 문장 데이터를 추출하는 단계 및 추출된 상기 표제 데이터 및 추출된 상기 중심 문장 데이터로 구성되는 요약 문서 데이터를 생성하는 단계를 포함한다.

상기와 같은 본 발명에 따르면, 범용 웹 브라우저를 통하여 요청된 HTML 문서가 요약된 HTML 문서를 수신함으로써, 낮은 해상도의 화면에서도 용이하게 내용을 파악할 수 있고, 텍스트 데이터 용량 감소로 인한 이동통신 망 이용요금도 절약할 수 있는 효과가 있다.

또한, 요약은 각 단락 중 가장 중요한 문장을 선택하는 방식으로 이뤄지므 로, 요약된 HTML 문서의 내용 파악이 쉽도록 하는 효과가 있다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

이하, 본 발명의 실시예들에 의하여 HTML 문서 요약 시스템 및 방법을 설명하기 위한 블록도 또는 처리 흐름도에 대한 도면들을 참고하여 본 발명에 대해 설명하도록 한다. 이 때, 처리 흐름도 도면들의 각 블록과 흐름도 도면들의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수 있음을 이해할 수 있을 것이다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 흐름도 블록(들)에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재 되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도 블록(들)에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실행 예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

이 때, '모듈'이라는 용어는 소프트웨어 또는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)과 같은 하드웨어 구성요소를 의미하며, 모듈은 어떤 역할들을 수행한다. 그렇지만 모듈은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. 모듈은 어드레싱 할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 모듈은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소 들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 모듈들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 모듈들로 결합되거나 추가적인 구성요소들과 모듈들로 더 분리될 수 있다.

뿐만 아니라, 구성요소들 및 모듈들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.

이하, 본 발명의 일 실시예에 따른 HTML 문서 요약 시스템의 구성 및 동작에 대하여 도 1을 참조하여 설명하기로 한다. 도 1은 본 실시예에 따른 HTML 문서 요약 시스템의 블록 구성도이다. 도 1에 도시된 바와 같이, 본 실시예에 따른 HTML 문서 요약 시스템은 파싱(Parsing)부(100), 표제 추출부(102), 키워드 추출부(104), 중심 문장 추출부(106), 요약 문서 생성부(108), 인터페이스부(110) 및 저장부(112)를 포함할 수 있다.

파싱부(100)는 HTML 문서(10) 데이터를 HTML 태그를 바탕으로 파싱하여 하나 이상의 단위 텍스트로 분리한 후 각 단위 텍스트에 대해 중요도 값을 부여한다. HTML 문서(10)는 수신 단말(20)에 의해 요청된 것으로, 수신 단말(20)은 유선 통신 방식 및 무선 통신 방식 중 적어도 하나를 이용하여 본 실시예에 따른 HTML 문서 요약 시스템에 연결된 것일 수 있다. 수신 단말은 웹 브라우저를 실행할 수 있는 운영체제가 설치된 것으로 예를 들어, 핸드폰, PDA(Personal Digital Assistants) 폰, 스마트폰, 노트북, 퍼스널 컴퓨터일 수 있다.

표제 추출부(102)는 HTML 문서의 데이터를 구성하는 각각의 단위 텍스트 중 태그를 기준으로 표제 단위 텍스트를 추출하여 키워드 추출부(104)에 제공한다. 표제 추출부(102)는 상기 각 단위 텍스트에 대한 중요도 값을 파싱부(100)로부터 제공 받아 상기 표제 단위 텍스트 추출에 참조할 수 있다. 표제 추출부(102)는 상기 각 단위 텍스트에 대한 중요도 값이 기준 값 이상인 경우 해당 단위 텍스트를 표제 단위 텍스트로 판정하여 상기 키워드 추출부에 제공하고, 상기 각 단위 텍스트에 대한 중요도 값이 기준 값 미만인 경우 해당 단위 텍스트를 본문 단위 텍스트로 판정하여 해당 단위 텍스트의 데이터를 포함한 본문 HTML 파일을 생성할 수 있다. 상기 본문 HTML 파일은 저장부(112)에 제공되어 저장될 수 있다.

저장부(112)는 캐쉬(Cache), 롬(Read Only Memory; ROM), 피롬(Programable ROM; PROM), 이피롬(Erasable Programmable ROM; EPROM), 이이피롬(Electrically Erasable Programmable ROM; EEPROM) 및 플래쉬 메모리(Flash memory)와 같은 비휘발성 메모리 소자, 램(Random Access Memory; RAM)과 같은 휘발성 메모리 소자, 및 하드디스크 드라이브(Hard disk drive)와 같은 저장매체로 중 적어도 하나로 구현될 수 있으나 이에 한정되지는 않는다. 또한, 도 1에는 저장부(112)가 HTML 문서 요약 시스템에 내장된 것으로 도시되어 있으나, HTML 문서 요약 시스템의 외부에 존재하여 네트워크를 통해 데이터를 송수신할 수도 있음을 유의하여야 한다. 예를 들어, HTML 문서 요약 시스템이 웹 서버에 설치되는 경우, 저장부(112)는 웹 프락시 서버에 설치될 수도 있다.

키워드 추출부(104)는 상기 표제 단위 텍스트를 구성하는 각각의 단어 중 품사를 기준으로 키워드 데이터를 추출한다.

중심 문장 추출부(106)는 전체 상기 단위 텍스트 중 상기 표제 단위 텍스트를 제외한 각각의 본문 단위 텍스트에 포함된 문장 중, 해당 본문 단위 텍스트 직전의 상기 표제 단위 텍스트에서 추출된 상기 키워드 데이터를 가장 많이 포함하는 중심 문장 데이터를 추출한다.

요약 문서 생성부(108)는 추출된 상기 표제 데이터 및 추출된 상기 중심 문장 데이터로 구성되는 요약 문서 데이터를 생성한다. 요약 문서 생성부(108)는 상기 중심 문장 데이터에 대하여 상기 중심 문장이 속했던 단위 텍스트의 데이터가 저장된 상기 본문 HTML 파일에 대한 링크를 부가할 수 있다.

인터페이스부(110)는 단말로부터 HTML 문서 데이터의 송신 요청을 받고 상기 표제 추출부에 상기 HTML 문서 데이터의 표제 추출 트리거(trigger)를 제공하고, 상기 요약 문서 생성부에 의해 상기 요청된 HTML 문서 데이터에 대응하는 요약 문서 데이터가 생성되면, 상기 요청된 HTML 문서 데이터의 원본 대신 상기 요약 문서 데이터를 상기 단말에 송신한다. 또한, 인터페이스부(110)는 수신 단말(20)이 본문 HTML 파일을 요청하는 경우, 저장부(112)에 저장된 해당 본문 HTML 파일을 수신 단말(20)에 제공할 수 있다.

이하, 본 실시예에 따른 HTML 문서 요약 시스템의 동작을 설명하기로 한다.

먼저, 본 실시예에 따른 HTML 문서 요약 시스템의 개략적인 개략적인 동작을 설명하기로 한다. HTML 문서 요약 시스템은 HTML 문서(10)를 파싱하여 HTML 문서(10)에 포함된 텍스트를 요약 함에 있어서, HTML 태그를 기준으로 HTML 문서(10) 를 하나 이상의 단위 텍스트로 분리하고, 상기 단위 텍스트 중 표제 단위 텍스트를 추출 한 후, 상기 표제 단위 텍스트 중 키워드를 추출하고, 상기 표제 단위 텍스트를 제외한 본문 단위 텍스트에서 상기 키워드를 가장 많이 포함하고 있는 문장을 중심 문장으로 추출하여, 상기 표제 단위 텍스트 및 상기 중심 문장을 포함하는 요약 문서를 생성하게 된다.

HTML 문서 요약 시스템은 수신 단말(20)로부터 요청된 원본 HTML 문서(10) 대신 상기 요약 문서를 제공하여 수신 단말(20)이 수신 해야 하는 데이터 양을 줄이고, 낮은 해상도에서도 내용을 용이하게 파악하게 할 수 있도록 한다.

다만, 해당 단락의 전문을 사용자가 보고자할 경우를 대비하여 각각의 본문 단위 텍스트 전체로 구성된 새로운 HTML 문서를 생성하여 저장부(112)에 저장 시켜 놓는다.

그리고 사용자가 삭제된 단락을 요청할 경우 저장부(112)로부터 해당 HTML 문서 조회하여 수신 단말(20)로 전송한다.

예를 들어, 사용자가 요청한 HTML 원문인 Base.html을 요약하는 HTML 문서 요약 시스템에 적용 시킨 결과 Index.html 과 New1.html, New2.html을 생성하게 되었다. 여기서 Index.html 파일은 사용자의 웹 페이지 요청에 대한 응답으로 전송될 요약 문서 데이터 파일이다.

상기 Base.html이 두개의 표제 단위 텍스트와 대응하는 두개의 본문 단위 텍스트를 포함하는 경우, New1.html 과 New2.html 파일은 두개의 본문 단위 텍스트 전체의 내용을 각각 담고 있으며 저장부(112)에 웹 프록시에 저장된다. 상기 Index.html 파일에 포함된 데이터 중, 두개의 본문 단위 텍스트의 중심 문장인 두개의 중심 문장을 표시하는 데이터는 상기 New1.html 및 New2.html에 대한 링크 데이터를 각각 포함하고 있는 것이 바람직하다.

이하, 본 실시예에 따른 HTML 문서 요약 시스템의 동작을 보다 상세하게 설명하기로 한다.

수신 단말(20)이 특정 HTML 문서(10)의 전송을 요청하는 경우, 파싱부(100)는 HTML 문서(10) 데이터를 HTML 태그를 바탕으로 파싱하여 하나 이상의 단위 텍스트로 분리한 후 각 단위 텍스트에 대해 중요도 값을 부여한다.

본 실시예에 다른 HTML 문서 요약 시스템의 동작은 요약 동작의 시작을 의미하는 명령인 트리거(trigger)가 제공됨에 의해 시작될 수 있다. 상기 트리거는 수신 단말(20)로부터 특정 HTML 문서(10)의 전송 요청을 수신한 인터페이스부(110)에 의해 제공될 수 있다.

보다 자세하게는 인터페이스부(110)가 표제 추출부(102)에 상기 HTML 문서 데이터의 표제 추출 트리거(trigger)를 제공하고, 요약 문서 생성부(108)에 의해 상기 요청된 HTML 문서(10) 데이터에 대응하는 요약 문서 데이터가 생성되면, 상기 요청된 HTML 문서 데이터의 원본 대신 상기 요약 문서 데이터를 상기 단말에 송신할 수 있다. 인터페이스부(110)는 수신 단말(20)의 운영체제가 범용 운영체제가 아닌 경우에 한하여 표제 추출부(102)에 상기 HTML 문서 데이터의 표제 추출 트리거(trigger)를 제공하거나, 수신 단말(20)에 설정된 운영체제의 해상도가 미리 정해진 것보다 작은 경우에 한하여 표제 추출부에 상기 HTML 문서 데이터의 표제 추 출 트리거(trigger)를 제공할 수 있다.

상기 트리거는 표제 추출부(102)가 아닌 파싱부(100)에 제공될 수도 있다. 이 경우에는 동작의 시작이 파싱부(100)부터 이뤄지게 된다.

이하, 파싱부(100)의 동작을 설명하기로 한다.

정확한 파싱(Parsing)을 위해서 HTML 태그의 특성을 정확히 알고 각 태그의 활용에 따른 HTML 문서의 공통적인 특징을 파악하여야 한다. 표 1은 HTML 태그를 타입별로 분류해 놓은 것이다.

<표 1: HTML 태그의 타입별 분류>

파싱부(100)는 표 1에 표시된 HTML 태그 중 단락 구성 설정 태그를 중심으로 HTML 문서(10)를 파싱하게 된다. 보다 자세하게는, HTML 문서(10) 데이터를 HTML 태그를 바탕으로 파싱하여 하나 이상의 단위 텍스트로 분리한 후 각 단위 텍스트에 대해 중요도 값을 부여하게 된다.

파싱부(100)가 HTML 문서(10) 데이터를 하나 이상의 단위 텍스트로 분리함에 있어서, 단락의 구성을 설정하는 태그 및 글자의 외형을 설정하는 태그의 동일성 여부를 기준으로 삼을 수 있다.

이하, 도 2를 참조하여 파싱부(100)가 HTML 문서(10) 데이터를 하나 이상의 단위 텍스트로 분리하는 동작을 보다 자세하게 설명하기로 한다. 도 2은 HTML 문서의 일 예이다.

'A Text with H1 Tag'라는 텍스트는 <H1> 태그가 적용되어 있다. 반면에 'B Text with H2 Tag'라는 텍스트는 <H2> 태그가 적용되어 있다. 상기 두 텍스트는 단락의 구성을 설정하는 태그인 <H> 태그가 다르게 적용되어 있어 각각 다른 단위 텍스트로 분리된다.

같은 이유로 도 2에 도시된 HTML 문서 데이터는 순서대로 A, B, C, D, E, F, G, H, I의 각각 다른 단위 텍스트로 분리된다.

요약하자면, 단락의 구성을 설정하는 태그 및 글자의 외형을 설정하는 태그가 상이하다면 다른 단위 텍스트로 분리되며, 상기 단락의 구성을 설정하는 태그 및 글자의 외형을 설정하는 태그의 예시는 표 1에 도시되어 있다.

파싱부(100)는 상기 분리된 각각의 단위 텍스트에 대하여 중요도 값을 설정한다. 도 3은 도 2에 도시된 HTML 데이터가 브라우저에서 게시된 경우의 개략적인 모습을 나타낸 도면이다. 도 3에 도시된 바와 같이, <H> 태그가 적용된 텍스트는 그렇지 않은 텍스트에 비하여 주의를 끌기 쉬우므로 표제 단위 텍스트로 분리하는 것이 바람직할 것이다. 따라서, 파싱부(100)는 <H> 태그와 같이 텍스트를 강조하는 태그가 적용된 단위 텍스트에 대하여는 높은 중요도를 부여하는 것이 바람직하다.

예를 들면, ‘Title’ 이나 ‘H’ 태그는 전체 문서나 세부 단락의 제목을 나타낼 때 주로 사용되며 특히 ‘H’ 태그는 강조하고자 하는 구문 또는 단어에 주로 사용되는 태그이므로 이러한 태그들이 적용되어 있는 텍스트를 상위 계층에 위 치하는 텍스트로 간주하고 높은 중요도 값을 설정하는 것이 바람직하다. 'B' 태그는 텍스트 볼드체를 제공하기 위해 사용되며, 이는 웹 문서에서 강조하고 싶은 구문이나 단어에 주로 사용되므로 역시 높은 중요도 값을 설정하는 것이 바람직하다. 또한 'FONT' 태그는 텍스트의 크기를 지정할 때 사용하므로 중요한 텍스트나 강조해야할 텍스트에 사용한다. 따라서, 'FONT' 태그를 통하여 큰 크기로 출력할 것을 지정한 경우, 높은 중요도 값이 지정될 수 있다.

도 4는 도 2에 도시된 HTML 문서 데이터의 각 단위 데이터에 대해 중요도 값이 설정된 결과를 도시한 도면이다. 도 4에서는 <H1>, <H2>, <H3>, <FONT4> 순으로 높은 중요도 값이 부여된 것을 가정하여 도출된 결과이다. 다만, 도 5에 도시된 것과는 달리, 상기 태그의 중요도 순서는 달라질 수 있음을 유의해야 한다.

파싱부(100)는 상기 언급한 과정을 거쳐 각 단위 텍스트에 대해 중요도 값이 설정된 결과를 표제 추출부(102)에 제공한다.

표제 추출부(102)는 상기 각각의 단위 텍스트 중 태그를 기준으로 표제 단위 텍스트를 추출한다. 보다 자세하게는, 파싱부(100)로부터 제공 받은 상기 각 단위 텍스트에 대한 중요도 값을 기초로 하여 표제 단위 텍스트를 추출한다. 보다 자세하게는, 중요도 값이 미리 정해진 한계치 이상으로 설정된 단위 텍스트를 표제 단위 텍스트로 판정한다.

표제 단위 텍스트는 문서를 구성하는 텍스트 중에서도 문서의 전체적인 내용 및 세부 단락이 말하고자 하는 내용을 포함하고 있을 가능성이 높은 구문을 의미하는 것으로써 구문적으로는 문서의 서로 다른 세부 단락과 단락 사이에 위치하 게 된다. 뿐만 아니라 표제 단위 텍스트는 표제 단위 텍스트가 아닌 텍스트와 비교해 볼 때 더 큰 활자체를 사용할 수 있다. 이는 문서를 읽는 사람들로 하여금 가독성을 높여주기 위함이다. 즉 상위 계층에 위치하는 텍스트는 하위 계층의 텍스트와 비교할 때 더 크거나 최소 동일한 크기의 활자체를 유지하게 되므로 이와 같은 가정을 통하여 표제 단위 텍스트를 찾는 것이 가능하다. 즉, HTML 문서의 데이터를 구성하는 각각의 단위 텍스트 중 표제 단위 텍스트가 될 수 있는 태그가 설정된 단위 텍스트를 표제 단위 텍스트로 설정하는 것이다.

표제 추출부(102)는 상기 각 단위 텍스트에 대한 중요도 값이 기준 값 미만인 경우 해당 단위 텍스트를 본문 단위 텍스트로 판정하여 해당 단위 텍스트의 데이터를 포함한 본문 HTML 파일을 생성하여 저장부(112)에 저장할 수 있다. 상기 본문 HTML 파일은 상기 각 단위 텍스트에 대하여 하나씩 생성되는 것이 바람직하다.

표제 추출부(102)는 상기 각 단위 텍스트 데이터에 표제 단위 텍스트인지 여부를 표시하는 데이터를 부가하여 키워드 추출부(104)에 제공할 수 있다.

키워드 추출부(104)는 상기 표제 단위 텍스트를 구성하는 각각의 단어 중 품사를 기준으로 키워드 데이터를 추출한다. 키워드 추출부(104)는 상기 표제 단위 텍스트를 먼저 각각의 단어로 분리한다. 예를 들어 공백(space)를 구분자(delimeter)로 하여 각각의 단어를 분리할 수 있을 것이다. 그 후, 상기 분리된 각각의 단어의 품사를 조회한다. 상기 조회시 미리 저장된 사전 데이터가 참조될 수 있다. 키워드 데이터 추출 방식에는 적극형 방식 또는 소극형 방식이 있을 수 있다. 적극형 방식은 미리 정해진 품사의 단어만을 키워드로 설정하는 방식이다. 이 경우, 예를 들면, 명사 또는 동사 만을 키워드로 설정할 수 있다. 반면에 소극형 방식은 미리 정해진 품사를 제외한 단어라면 모두 키워드로 설정하는 방식이다. 이 경우, 예를 들면, 조사(국어의 경우), 관사(영어의 경우) 같은 품사를 제외한 품사를 가진 단어는 모두 키워드로 설정될 수 있을 것이다.

키워드 추출부(104)는 추출된 키워드를 중심 문장 추출부(104)에 제공한다.

중심 문장 추출부(104)는 상기 본문 단위 텍스트에 포함된 문장 중, 해당 본문 단위 텍스트 직전의 상기 표제 단위 텍스트에서 추출된 상기 키워드 데이터를 가장 많이 포함하는 중심 문장 데이터를 추출한다. 중심 문장 추출부(104)는 먼저 본문 단위 텍스트를 문장 단위로 분리한다. 이때, 마침표(.)를 구분자(delimeter)로 하여 분리할 수 있다. 중심 문장 추출부(104)는 상기 분리된 각각의 문장에 대하여 포함된 키워드의 수를 판정한다. 해당 본문 단위 텍스트에 포함된 전체의 문장에 대하여 상기 판정이 종료되면, 가장 많은 키워드를 포함하고 있는 문장을 중심 문장으로 추출하여 요약 문서 생성부(108)에 제공한다.

요약 문서 생성부(108)는 상기 표제 단위 텍스트 및 상기 중심 문장 데이터로 구성되는 요약 문서 데이터를 생성한다.

도 5를 참조하여, 요약 문서 생성부(108)가 생성하는 요약 문서 데이터에 대해 설명하기로 한다. 도 5는 본 실시예에 따른 HTML 문서 요약 시스템이 입력 받는 HTML 문서 데이터 및 생성하는 HTML 문서 데이터를 도시한 도면이다.

Base.html(10)이 수신 단말(20)이 요청한 원본 html 문서이다. 이 경우, 파싱부(100)가 Base.html(10)을 4 개의 단위 텍스트로 분리할 수 있다. 상기 4 개의 단위 텍스트는 Paragraph 1, Paragraph 2, Paragraph 3, Paragraph 4가 될 것이다. 상기 4 개의 단위 텍스트는 단락의 구성을 설정하는 태그 및 글자의 외형을 설정하는 태그의 동일성 여부를 기준으로 분리될 수 있다.

파싱부(100)는 상기 4 개의 단위 텍스트에 대해 각각 중요도 값을 설정하여 표제 추출부(102)에 제공한다. 표제 추출부(102)는 미리 정해진 한계치 이상의 중요도 값을 갖는 단위 텍스트를 표제 단위 텍스트로 추출 하고, 그 외의 단위 텍스트를 본문 단위 텍스트로 추출한다. 도 5에서는 Paragraph 1, Paragraph 3의 두 개의 단위 텍스트가 표제 단위 텍스트로 추출된 상황을 가정하였다.

표제 추출부(104)는 상기 추출 결과를 키워드 추출부(104)에 제공하고, 키워드 추출부(106)는 Paragraph 1, Paragraph 3에서 키워드를 추출한다. 중심 문장 추출부(108)는 본문 단위 텍스트인 Paragraph 2, Paragraph 4에 포함된 문장 중 각각 Paragraph 1, Paragraph 3의 키워드를 가장 많이 포함한 문장을 중심 문장으로 추출한다. 상기 추출된 중심 문장을 각각 Sentence 1, Sentence 2로 도시하였다.

요약 문서 생성부(108)는 표제 단위 텍스트(Paragraph 1, Paragraph 3) 및 중심 문장(Sentence 1, Sentence 2)를 포함하는 요약 HTML 문서(20)를 생성한다. 상기 중심 문장에는 본 단위 텍스트의 전체 내용을 포함하고 있는 HTML 문서를 연결하는 링크 데이터를 포함하고 있는 것이 바람직하다. 즉, Sentence 1은 New1.html(30)을 연결하는 링크 데이터를, Sentence 2는 New2.html(40)을 연결하는 링크 데이터를 각각 포함하는 것이 바람직하다.

이하, 도 6 및 도 7을 참조하여 실제 원본 HTML 문서 및 요약 HTML 문서를 비교해보기로 한다.

도 6은 수신 단말(20)이 요청한 원본 HTML 문서(10)이다. 도 6에 도시된 'Headline'은 각각 표제 단위 텍스트를 의미하는 것으로, 'Paragraph'는 각각 본문 단위 텍스트를 의미하는 것으로 각각 이해될 수 있을 것이다. 본 실시예에 따른 HTML 문서 요약 시스템은 원본 HTML 문서(10)를 5개의 표제 단위 텍스트 및 3개의 본문 단위 텍스트로 분리하였음을 알 수 있다.

도 7은 원본 HTML 문서(10)로부터 생성한 요약 HTML 문서 데이터이다. 상기 5개의 표제 단위 텍스트는 모두 그대로 포함하고 있으나, 상기 3개의 본문 단위 텍스트는 중심 문장으로 요약되어 표시된 것을 알 수 있다.

도 8은 중심 문장에 포함된 링크 데이터를 이용하여 중심 문장에 해당하는 단위 텍스트의 전체 내용에 해당하는 본문 HTML 문서의 내용을 브라우저를 통해 게시한 도면이다. Paragraph 1이 요약된 summarized paragraph 1에 부가된 링크를 선택하는 경우, 인터페이스부(110)는 저장부(112)에 저장된 Paragraph 1의 본문 HTML 파일을 조회하여 수신 단말(20)에 제공한다.

이하, 본 발명의 다른 실시예에 따른 HTML 문서 요약 방법을 도 9를 참조하여 설명하기로 한다.

단말로부터 HTML 문서 데이터의 송신 요청을 받고 원본 HTML 문서 데이터를 송신할 지, 요약 문서 데이터를 송신할 지 여부를 판정한다(S900). 운영 체제의 종류 및 상기 단말이 현재 사용하는 해상도에 따른 픽셀 수 중 적어도 하나를 바탕으로하여 상기 요약 문서 데이터를 송신 여부를 판정(S900)할 수 있다.

판정(S900)의 결과 상기 요약 HTML 문서 데이터를 제공하는 것으로 판정된 경우, 상기 원본 HTML 문서 데이터를 HTML 태그를 바탕으로 파싱하여 하나 이상의 단위 텍스트로 분리한 후 각 단위 텍스트에 대해 중요도 값을 부여한다(S902). 상기 단위 텍스트로 분리하는 동작은 단락의 구성을 설정하는 태그 및 글자의 외형을 설정하는 태그의 동일성 여부를 기준으로 이뤄질 수 있다.

HTML 문서의 데이터를 구성하는 각각의 단위 텍스트 중 태그를 기준으로 표제 단위 텍스트를 추출한다(S904). 표제 단위 텍스트의 추출(S904)에는 상기 각 단위 텍스트에 대한 중요도 값이 참조 될 수 있다. 예를 들어, 미리 정해진 한계치 이상의 단위 텍스트 만을 표제 단위 텍스트로 판정할 수 있다. 또한, 상기 한계치 미만의 단위 텍스트는 본문 단위 텍스트로 판정하여 해당 단위 텍스트의 데이터를 포함한 본문 HTML 파일을 생성하여 저장할 수 있다.

상기 표제 단위 텍스트를 구성하는 각각의 단어 중 품사를 기준으로 키워드 데이터를 추출한다(S906).

전체 상기 단위 텍스트 중 상기 표제 단위 텍스트를 제외한 각각의 본문 단위 텍스트에 포함된 문장 중, 해당 본문 단위 텍스트 직전의 상기 표제 단위 텍스트에서 추출된 상기 키워드 데이터를 가장 많이 포함하는 중심 문장 데이터를 추출한다(S908).

추출된 상기 표제 데이터 및 추출된 상기 중심 문장 데이터로 구성되는 요약 문서 데이터를 생성한다(S910). 상기 요약 문서 데이터의 생성 시, 상기 중심 문장 데이터에 대하여 상기 중심 문장이 속했던 단위 텍스트의 데이터가 저장된 상 기 본문 HTML 파일에 대한 링크를 부가할 수 있다.

상기 요약 문서 데이터는 수신 단말(20)에 송신될 수 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시 예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

도 1은 본 발명의 일 실시 예에 따른 HTML 문서 요약 시스템의 블록 구성도이다.

도 2는 HTML 문서 데이터의 일 예이다.

도 3은 도 2에 도시된 HTML 문서 데이터가 웹 브라우저에 게시된 일 예이다.

도 4는 본 발명의 일 실시 예에 따른 HTML 문서 요약 시스템이 도 2에 도시된 HTML 문서 데이터를 분리하여 중요도 값을 설정한 개념도이다.

도 5는 본 발명의 일 실시 예에 다른 HTML 문서 요약 시스템의 입출력 데이터를 도시한 도면이다.

도 6은 원본 HTML 문서 데이터가 웹 브라우저에 게시된 일 예이다.

도 7은 본 발명의 일 실시 예에 따른 HTML 문서 요약 시스템이 도 6에 도시된 HTML 문서 데이터를 요약한 요약 HTML 문서가 웹 브라우저에 게시된 일 예이다.

도 8은 본문 데이터를 포함한 HTML 문서가 웹 브라우저에 게시된 일 예이다.

도 9는 본 발명의 일 실시예에 따른 HTML 문서 요약 방법의 순서도이다.

Claims

HTML(HyperText Markup Language) 문서의 데이터를 구성하는 각각의 단위 텍스트 중 태그를 기준으로 표제 단위 텍스트를 추출하여 키워드 추출부에 제공하는 표제 추출부;

상기 표제 단위 텍스트를 구성하는 각각의 단어 중 품사를 기준으로 키워드 데이터를 추출하는 키워드 추출부;

전체 상기 단위 텍스트 중 상기 표제 단위 텍스트를 제외한 각각의 본문 단위 텍스트에 포함된 문장 중, 해당 본문 단위 텍스트 직전의 상기 표제 단위 텍스트에서 추출된 상기 키워드 데이터를 가장 많이 포함하는 중심 문장 데이터를 추출하는 중심 문장 추출부; 및

추출된 상기 표제 데이터 및 추출된 상기 중심 문장 데이터로 구성되는 요약 문서 데이터를 생성하는 요약 문서 생성부를 포함하는 HTML 문서 요약 시스템.
제 1 항에 있어서,

상기 HTML 문서 데이터를 HTML 태그를 바탕으로 파싱하여 하나 이상의 단위 텍스트로 분리한 후 각 단위 텍스트에 대해 중요도 값을 부여하는 파싱부를 더 포함하고,

상기 표제 추출부는,

상기 각 단위 텍스트에 대한 중요도 값을 상기 파싱부로부터 제공 받아 상 기 표제 단위 텍스트 추출에 참조하는 HTML 문서 요약 시스템.
제 2 항에 있어서,

상기 파싱부는,

단락의 구성을 설정하는 태그 및 글자의 외형을 설정하는 태그의 동일성 여부를 기준으로 상기 단위 텍스트를 분리하는 HTML 문서 요약 시스템.
제 3 항에 있어서,

상기 단락의 구성을 설정하는 태그는, ‘<TITLE>’, ‘<H>’, ‘<P>’, ‘<BR>’ 중 적어도 하나를 포함하고,

상기 글자의 외형을 설정하는 태그는, ‘<TT>’, ‘<I>’, ‘<B>’, ‘<U>’, ‘<BIG>’, ‘<SMALL>’, ‘<EM>’, ‘<STRONG>’, ‘<FONT>’, ‘<A>’ 중 적어도 하나를 포함하는 HTML 문서 요약 시스템.
제 2 항에 있어서,

상기 표제 추출부는,

상기 각 단위 텍스트에 대한 중요도 값이 기준 값 이상인 경우 해당 단위 텍스트를 표제 단위 텍스트로 판정하여 상기 키워드 추출부에 제공하고, 상기 각 단위 텍스트에 대한 중요도 값이 기준 값 미만인 경우 해당 단위 텍스트를 본문 단위 텍스트로 판정하여 해당 단위 텍스트의 데이터를 포함한 본문 HTML 파일을 생성 하여 저장하는 HTML 문서 요약 시스템.
제 5 항에 있어서,

상기 요약 문서 생성부는,

상기 중심 문장 데이터에 대하여 상기 중심 문장이 속했던 단위 텍스트의 데이터가 저장된 상기 본문 HTML 파일에 대한 링크를 부가하는 HTML 문서 요약 시스템.
제 1 항에 있어서,

단말로부터 HTML 문서 데이터의 송신 요청을 받고 상기 표제 추출부에 상기 HTML 문서 데이터의 표제 추출 트리거(trigger)를 제공하고, 상기 요약 문서 생성부에 의해 상기 요청된 HTML 문서 데이터에 대응하는 요약 문서 데이터가 생성되면, 상기 요청된 HTML 문서 데이터의 원본 대신 상기 요약 문서 데이터를 상기 단말에 송신하는 인터페이스부를 더 포함하는 HTML 요약 시스템.
제 7 항에 있어서,

상기 인터페이스부는,

상기 단말의 운영체제가 범용 운영체제가 아닌 경우에 한하여 상기 표제 추출부에 상기 HTML 문서 데이터의 표제 추출 트리거(trigger)를 제공하는 HTML 요약 시스템.
제 7 항에 있어서,

상기 인터페이스부는,

상기 단말에 설정된 운영체제의 해상도가 미리 정해진 것보다 작은 경우에 한하여 상기 표제 추출부에 상기 HTML 문서 데이터의 표제 추출 트리거(trigger)를 제공하는 HTML 요약 시스템.
HTML 문서의 데이터를 구성하는 각각의 단위 텍스트 중 태그를 기준으로 표제 단위 텍스트를 추출하는 단계;

상기 표제 단위 텍스트를 구성하는 각각의 단어 중 품사를 기준으로 키워드 데이터를 추출하는 단계;

전체 상기 단위 텍스트 중 상기 표제 단위 텍스트를 제외한 각각의 본문 단위 텍스트에 포함된 문장 중, 해당 본문 단위 텍스트 직전의 상기 표제 단위 텍스트에서 추출된 상기 키워드 데이터를 가장 많이 포함하는 중심 문장 데이터를 추출하는 단계; 및

추출된 상기 표제 데이터 및 추출된 상기 중심 문장 데이터로 구성되는 요약 문서 데이터를 생성하는 단계를 포함하는 HTML 문서 요약 방법.
제 10 항에 있어서,

상기 표제 단위 텍스트를 추출하는 단계 이전에 상기 HTML 문서 데이터를 HTML 태그를 바탕으로 파싱하여 하나 이상의 단위 텍스트로 분리한 후 각 단위 텍스트에 대해 중요도 값을 부여하는 단계를 더 포함하고,

상기 표제 단위 텍스트를 추출하는 단계는,

상기 각 단위 텍스트에 대한 중요도 값을 상기 파싱부로부터 제공 받아 상기 표제 단위 텍스트 추출에 참조하는 단계를 포함하는 HTML 문서 요약 방법.
제 11 항에 있어서,

상기 각 단위 텍스트에 대해 중요도 값을 부여하는 단계는,

단락의 구성을 설정하는 태그 및 글자의 외형을 설정하는 태그의 동일성 여부를 기준으로 상기 단위 텍스트를 분리하는 단계를 포함하는 HTML 문서 요약 방법.
제 11 항에 있어서,

상기 표제 단위 텍스트를 추출하는 단계는,

상기 각 단위 텍스트에 대한 중요도 값이 기준 값 이상인 경우 해당 단위 텍스트를 표제 단위 텍스트로 판정하는 단계; 및

상기 각 단위 텍스트에 대한 중요도 값이 기준 값 미만인 경우 해당 단위 텍스트를 본문 단위 텍스트로 판정하여 해당 단위 텍스트의 데이터를 포함한 본문 HTML 파일을 생성하여 저장하는 단계를 포함하는 HTML 문서 요약 방법.
제 13 항에 있어서,

상기 요약 문서 데이터를 생성하는 단계는,

상기 중심 문장 데이터에 대하여 상기 중심 문장이 속했던 단위 텍스트의 데이터가 저장된 상기 본문 HTML 파일에 대한 링크를 부가하는 단계를 더 포함하는 HTML 문서 요약 방법.
제 10 항에 있어서,

상기 표제 단위 텍스트를 추출하는 단계 이전에, 단말로부터 HTML 문서 데이터의 송신 요청을 받고 상기 요약 문서 데이터의 송신 여부를 판정하는 단계; 및

요약 문서 데이터를 생성하는 단계 이후에, 상기 송신 여부를 판정하는 단계에서의 판정 결과 상기 요약 문서 데이터를 송신해야 하는 경우로 판정된 경우 요청된 HTML 문서 데이터의 원본 대신 상기 요약 문서 데이터를 상기 단말에 송신하는 단계를 더 포함하는 HTML 요약 방법.
제 15 항에 있어서,

상기 상기 요약 문서 데이터의 송신 여부를 판정하는 단계 이전에, 상기 단말의 운영 체제의 종류 및 상기 단말이 현재 사용하는 해상도에 따른 픽셀 수 중 적어도 하나를 바탕으로하여 상기 요약 문서 데이터의 송신 여부를 판정하는 단계를 더 포함하는 HTML 요약 방법.