KR20010018214A - 자연어 처리를 위한 에이치.티.엠.엘/에스.지.엠.엘 태그 처리장치 및 방법 - Google Patents

자연어 처리를 위한 에이치.티.엠.엘/에스.지.엠.엘 태그 처리장치 및 방법 Download PDF

Info

Publication number
KR20010018214A
KR20010018214A KR1019990034077A KR19990034077A KR20010018214A KR 20010018214 A KR20010018214 A KR 20010018214A KR 1019990034077 A KR1019990034077 A KR 1019990034077A KR 19990034077 A KR19990034077 A KR 19990034077A KR 20010018214 A KR20010018214 A KR 20010018214A
Authority
KR
South Korea
Prior art keywords
tag
sentence
result
document
html
Prior art date
Application number
KR1019990034077A
Other languages
English (en)
Inventor
심철민
김태완
최승권
여상화
김영길
정한민
박상규
안동언
Original Assignee
정선종
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정선종, 한국전자통신연구원 filed Critical 정선종
Priority to KR1019990034077A priority Critical patent/KR20010018214A/ko
Publication of KR20010018214A publication Critical patent/KR20010018214A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/221Parsing markup language streams

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 자연어 처리를 위한 HTML/SGML 태그 처리 장치 및 방법에 관한 것이다. 본 발명은 입력된 HTML문서에 대해 디스크 장치에 존재하는 자료를 적재하는 메모리 적재 장치; 메모리 적재 장치에 의해 메모리에 적재된 HTML문서, 메모리에 적재된 HTML문서에 대한 태그 분리를 수행하는 태그 분리 장치; 메모리에 적재된 HTML문서에 대해 HTML태그 분리를 시도함에 있어 참조로 하는 HTML태그 데이터베이스; 태그 분리 장치에 의해 분리된 태그를 저장하는 태그 저장 장치; 태그 분리 장치를 거쳐 태그가 분리된 문서의 내용 부분에 대한 문장 인식을 수행하는 문장 인식 장치; 문장 인식 장치의 수행 결과로 생성되는 문장 인식 결과를 저장하는 문장 인식 결과 저장 장치; 문장 인식 결과를 이용하여 번역, 요약 등의 가공을 가하는 내용 가공 장치; 가공된 내용이 저장되는 가공 결과 저장 장치; 가공 결과 저장 장치와 분리된 태그 저장 장치를 참조하여 태그와 내용을 결합하여 태그를 복원해 내는 태그 복원 장치; 복원된 태그를 문장 단위로 저장하는 복원된 태그 저장 장치; 문장 단위로 복원된 태그 저장 결과를 디스크에 저장하며 HTML문서를 생성하는 디스크 저장 장치를 포함하여 구성된 HTML/SGML태그 처리 장치 및 방법을 제공한다.

Description

자연어 처리를 위한 에이치.티.엠.엘/에스.지.엠.엘 태그 처리 장치 및 방법{HTML/SGML tag management device and method for natural language processing}
본 발명은 HTML(Hyper-Text Markup Language)나 SGML(Standard General Markup Language)과 같은 마크업(Markup) 언어로 작성된 문서에 대한 기계 번역이나 정보 요약, 정보 여과 등의 자연어 처리 응용 시스템을 개발하는데 있어, 마크업 태그를 분리하여 처리하고, 자연어 처리 결과와 분리했던 마크업 태그를 다시 복원함으로써, 마크업 태그로 인해 표현하고자 했던 정보의 손실을 최소화하면서 다양한 자연어 처리 응용 기법을 구현할 수 있는 자연어 처리를 위한 에이치.티.엠.엘/에스.지.엠.엘(이하, HTML/SGML 이라 함) 태그 처리 장치 및 방법에 관한 것이다.
HTML로 작성된 웹 문서에 대한 기계 번역의 경우 영어 웹 문서를 한국어로 번역하는 것과 같이 서로 다른 언어권끼리의 번역시 문장의 어순이 변경된다. 이 경우 문장 내부에 HTML 태그가 내포된 경우 HTML 태그를 손실하지 않기 위해서는 HTML 태그를 번역 대상 문장과 분리하는 처리가 필요하다.
종래의 웹 번역 시스템에서는 웹 문서의 내용에 따라 문장 영역을 인식하지 않고 단순히 HTML 태그와 또 다른 HTML 태그 사이를 번역 대상 영역으로 간주하여 번역을 실행하며, 번역 결과를 전후의 HTML 태그로 감싸서 최종적으로 번역된 HTML 문서를 생성하는 방법을 사용한다. 이 경우 실제로는 하나의 문장으로서 번역되어야 할 내용임에도 불구하고 내부의 HTML 태그로 인해 다수의 번역 대상으로 나뉘어 번역이 시도됨으로써 번역의 품질이 저하된다. 이러한 문제를 극복하기 위한 방안으로 HTML 태그 중 〈table〉 태그와 같이 확실히 문장을 구분지을 수 있는 태그들에 대해서는 문장 단위를 구분짓도록하고, 그 외의 태그는 일단 무시하여 문장 단위를 인식한 후, 하이퍼링크 정보를 담고 있는 〈a〉나 〈img〉 등의 태그만을 복원하는 방법이 사용된다. 이 방법의 경우, 문장 단위를 인식함으로 인해 번역의 품질을 향상할 수 있다는 장점이 있는 반면, 〈font〉에 관련된 태그 등 다수의 태그가 소실되어 원시 문서의 형태가 정상적으로 유지되지 못하는 단점이 있다.
따라서, 본 발명은 원시 문서의 태그를 문장 단위 태그와 단어 단위 태그로서 구분하며, 특별히 스크립트, 주석문 등에 대해서는 별도의 사용자 정의 태그를 정의함으로써, 원시 문서의 내용에 대해 문장 단위 인식을 수행할 수 있으며, 원시 문서에 존재했던 태그의 손실이 없이 수정된 문서를 생성할 수 있는 자연어 처리를 위한 HTML/SGML 태그 처리 장치 및 방법을 제공하는 데 그 목적이 있다.
상술한 목적을 달성하기 위한 본 발명에 따른 HTML/SGML 태그 처리 장치는 입력된 HTML 문서에 대해 디스크 장치에 존재하는 자료를 메모리 장치로 적재하는 메모리 적재 장치; 상기 메모리 적재 장치에 의해 메모리에 적재된 HTML 문서, 메모리에 적재된 HTML 문서에 대한 태그 분리를 수행하는 태그 분리 장치; 상기 메모리에 적재된 HTML 문서에 대해 HTML 태그 분리를 시도함에 있어 참조로 하는 HTML 태그 데이터베이스; 상기 태그 분리 장치에 의해 분리된 태그를 저장하는 태그 저장 장치; 상기 태그 분리 장치를 거쳐 태그가 분리된 문서의 내용 부분에 대한 문장 인식을 수행하는 문장 인식 장치; 상기 문장 인식 장치의 수행 결과로 생성되는 문장 인식 결과를 저장하는 문장 인식 결과 저장 장치; 상기 문장 인식 결과를 이용하여 번역, 요약 등의 가공을 가하는 내용 가공 장치; 상기 가공된 내용이 저장되는 가공 결과 저장 장치; 상기 가공 결과 저장 장치와 상기 분리된 태그 저장 장치를 참조하여 태그와 내용을 결합하여 태그를 복원해 내는 태그 복원 장치; 상기 복원된 태그를 문장 단위로 저장하는 복원된 태그 저장 장치; 및 상기 문장 단위로 복원된 태그 저장 결과를 디스크에 저장하며 HTML 문서를 생성하는 디스크 저장 장치를 포함하여 구성된 것을 특징으로 한다.
또한, 상술한 목적을 달성하기 위한 본 발명에 따른 HTML/SGML 태그 처리 방법은 메모리 장치로부터 1문장씩 읽어온 후 문서 끝 여부를 확인하는 단계와, 상기 확인 결과 문서 끝이 아니면 태그 시작 심볼까지를 내용 부분에 추가한 후 태그 시작 여부를 확인하는 단계와, 상기 확인 결과 태그 시작이 아니면 상기 메모리 장치로부터 1문장씩 읽어오는 단계로 복귀하여 상기 과정을 반복수행하고, 태그 시작이면 태그 끝까지를 태그 저장 장치에 추가하는 단계와, 상기 HTML 태그 데이터베이스를 참조하여 태그 종류를 인식한 후 태그 저장 장치에 태그 종류별 정보를 추가하는 단계와, 태그 이후부터 내용부분에 추가하고, 문장 인식 장치로 문장을 인식한 후 상기 태그 시작 심볼까지를 내용부분에 추가하는 단계로 복귀하여 상기 과정을 반복 수행하는 단계와, 상기 문서 끝 여부 확인 결과 문서 끝이면 종료하는 단계를 포함하여 이루어진 것을 특징으로 한다.
또한, 상술한 목적을 달성하기 위한 본 발명에 따른 HTML/SGML 태그 처리 방법은 문장 단위로 가공된 내용을 읽은 후 문서 끝 여부를 확인하는 단계와, 상기 확인 결과 문서 끝이 아니면 태그 분리 결과에서 해당하는 문장의 태그를 메모리 장치로 적재하는 단계와, 가상 태그의 경우 문장 시작 태그로 처리하고, 문장 시작 태그를 복원 결과로서 저장한 후 문장 끝 여부를 확인하는 단계와, 상기 확인 결과 문장 끝이면 태그쌍을 검증하고, 문장 끝 태그를 복원 결과로서 저장한 후 상기 문장 단위로 가공된 내용을 읽는 단계로 복귀하여 상기 과정을 반복 수행하는 단계와, 상기 문장 끝 확인 결과 문장 끝이 아니면 한 단어에 대한 단어 시작 태그를 복원 결과로서 저장하고, 가공된 단어의 내용을 복원 결과로서 저장하는 단계와, 상기 한 단어에 대한 단어 끝 태그를 복원 결과로서 저장한 후 상기 문장 끝 확인 단계로 복귀하여 상기 과정을 반복 수행하는 단계와, 상기 문서 끝 확인 결과 문서 끝인 경우에는 종료하는 단계를 포함하여 이루어진 것을 특징으로 한다.
또한, 본 발명은 메모리 장치로부터 1문장씩 읽어온 후 문서 끝 여부를 확인하는 단계와, 상기 확인 결과 문서 끝이 아니면 태그 시작 심볼까지를 내용 부분에 추가한 후 태그 시작 여부를 확인하는 단계와, 상기 확인 결과 태그 시작이 아니면 상기 메모리 장치로부터 1문장씩 읽어오는 단계로 복귀하여 상기 과정을 반복수행하고, 태그 시작이면 태그 끝까지를 태그 저장 장치에 추가하는 단계와, 상기 HTML 태그 데이터베이스를 참조하여 태그 종류를 인식한 후 태그 저장 장치에 태그 종류별 정보를 추가하는 단계와, 태그 이후부터 내용부분에 추가하고, 문장 인식 장치로 문장을 인식한 후 상기 태그 시작 심볼까지를 내용부분에 추가하는 단계로 복귀하여 상기 과정을 반복 수행하는 단계와, 상기 문서 끝 여부 확인 결과 문서 끝이면 종료하는 단계를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체인 것을 특징으로 한다.
또한, 본 발명은 문장 단위로 가공된 내용을 읽은 후 문서 끝 여부를 확인하는 단계와, 상기 확인 결과 문서 끝이 아니면 태그 분리 결과에서 해당하는 문장의 태그를 메모리 장치로 적재하는 단계와, 가상 태그의 경우 문장 시작 태그로 처리하고, 문장 시작 태그를 복원 결과로서 저장한 후 문장 끝 여부를 확인하는 단계와, 상기 확인 결과 문장 끝이면 태그쌍을 검증하고, 문장 끝 태그를 복원 결과로서 저장한 후 상기 문장 단위로 가공된 내용을 읽는 단계로 복귀하여 상기 과정을 반복 수행하는 단계와, 상기 문장 끝 확인 결과 문장 끝이 아니면 한 단어에 대한 단어 시작 태그를 복원 결과로서 저장하고, 가공된 단어의 내용을 복원 결과로서 저장하는 단계와, 상기 한 단어에 대한 단어 끝 태그를 복원 결과로서 저장한 후 상기 문장 끝 확인 단계로 복귀하여 상기 과정을 반복 수행하는 단계와, 상기 문서 끝 확인 결과 문서 끝인 경우에는 종료하는 단계를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체인 것을 특징으로 한다.
본 발명은 HTML/SGML 태그를 보유한 문서에 대해 기계 번역, 정보 요약 등의 자연어 처리 기법을 적용함에 있어서, 문서 내부의 태그를 손실하지 않고 문서의 내용을 가공해 내는 태그 처리 장치 및 방법에 관한 것으로써, 기존의 영한 기계 번역, 한영 기계 번역 및 상이한 언어권 간의 기계 번역 등에서 문제시되었던 HTML/SGML 태그의 분리/복원 문제를 해결함으로써 번역 시스템 등 문장 단위로 처리해야 하는 자연어 처리 응용 시스템에서 문장 단위 인식 및 문장의 번역, 요약 등의 작업을 수행함에 있어 정확도를 증가시키며, 처리 결과로 생성되는 문서에서 HTML/SGML 태그의 소실이 최소화됨으로써 처리 결과로 생성되는 문서의 형태가 변형되지 않고 유지되는 효과를 얻을 수 있어, 사용자로 하여금 처리 결과의 만족도를 증가시켜주기 위함이다.
도 1은 본 발명에 따른 자연어 처리를 위한 에이치.티.엠.엘/에스.지.엠.엘 (HTML/SGML) 태그 처리 장치의 구성도.
도 2는 본 발명에 따른 태그 분리 및 문장 인식 방법을 설명하기 위한 순서도.
도 3은 본 발명에 따른 태그 복원 방법을 설명하기 위한 순서도.
이하, 첨부된 도면을 참조하여 본 발명을 상세히 설명하기로 한다.
도 1 은 본 발명에 따른 자연어 처리를 위한 HTML/SGML 태그 처리 장치의 구성도이다.
입력된 HTML 문서(1)에 대해 디스크 장치에 존재하는 자료를 메모리 장치로 적재하는 메모리 적재 장치(2), 메모리 적재 장치에 의해 메모리에 적재된 HTML 문서(2a), 메모리에 적재된 HTML 문서에 대한 태그 분리를 수행하는 태그 분리 장치(3), 메모리에 적재된 HTML 문서에 대해 HTML 태그 분리를 시도함에 있어 참조로 하는 HTML 태그 데이터베이스(3a), 상기 태그 분리 장치에 의해 분리된 태그를 저장하는 태그 저장 장치(3b), 상기 태그 분리 장치를 거쳐 태그가 분리된 문서의 내용 부분에 대한 문장 인식을 수행하는 문장 인식 장치(4), 상기 문장 인식 장치의 수행 결과로 생성되는 문장 인식 결과를 저장하는 문장 인식 결과 저장 장치(4a), 상기 문장 인식 결과를 이용하여 번역, 요약 등의 가공을 가하는 내용 가공 장치(5), 상기 가공된 내용이 저장되는 가공 결과 저장 장치(5a), 상기 가공 결과 저장 장치와 상기 분리된 태그 저장 장치를 참조하여 태그와 내용을 결합하여 태그를 복원해 내는 태그 복원 장치(6), 상기 복원된 태그를 문장 단위로 저장하는 복원된 태그 저장 장치(6a), 상기 문장 단위로 복원된 태그 저장 결과를 디스크에 저장하는 디스크 저장 장치(7), 최종 결과로서 디스크 장치에 생성되는 출력 HTML 문서(8)로서 구성된다.
상기 입력 HTML 문서(1)는 웹 브라우저를 통해 전송받은 문서일 수 있으며, 국부 디스크 장치에서 읽어온 문서일 수도 있다. 상기 메모리 적재 장치(2)는 디스크 장치 상의 HTML 문서 파일을 라인 단위로 읽어 메모리 장치로 적재하는 역할을 수행한다. 상기 태그 분리 장치(3)는 메모리 장치로 적재된 HTML 문서를 분석하여 태그 부분과 내용 부분으로 구분하는 역할을 수행한다. 상기 태그 분리 장치의 수행 과정은 도 2와 같다.
도 2 는 본 발명에 따른 태그 분리 및 문장 인식 방법을 설명하기 위한 순서도이다.
시작신호로부터 단계(101)에서 메모리 장치로부터 1문장씩 읽어온 후 단계(102)로 진행하여 문서 끝인지를 확인한다. 확인 결과 문서 끝이 아니면 단계(103)로 진행하여 태그 시작 심볼까지를 내용 부분에 추가한 후 단계(104)로 진행하여 태그 시작 여부를 확인한다. 확인 결과 태그 시작이 아니면 상기 메모리 장치로부터 1문장씩 읽어오는 단계(101)로 복귀하여 상기 과정을 반복수행하고, 태그 시작이면 단계(105)로 진행하여 태그 끝까지를 태그 저장 장치에 추가한다. 이후 단계(106)에서 HTML 태그 데이터베이스(107)를 참조하여 태그 종류를 인식한다. 이후 단계(108)에서 태그 저장 장치에 태그 종류별 정보를 추가한다. 이후 단계(109)에서 태그 이후부터 내용부분에 추가하고, 단계(110)에서 문장 인식 장치로 문장을 인식한 후 상기 태그 시작 심볼까지를 내용부분에 추가하는 단계(103)로 복귀하여 상기 과정을 반복 수행하게 된다. 그러나, 상기 단계(102)에서 문서 끝의 확인 결과 문서 끝이면 종료하게 된다.
즉, 상기 태그 분리 장치의 수행 과정은 메모리 장치에 적재된 HTML 문서를 1 라인씩 읽어들인다. 상기 라인에 대하여 태그 시작 심볼인 '〈' 까지를 내용 부분에 추가한다. 상기 태그 시작 심볼이 나타나면 태그 끝 심볼 '〉' 까지를 읽어 태그 저장 장치에 추가하며, HTML 태그 데이터베이스를 참조하여 태그의 종류에 따른 정보를 태그 저장 장치에 추가로 기입한다. 태그 분리 장치에서 태그 데이터베이스를 통해 태그 저장 장치에 기입하는 정보는 상기 태그가 문장의 분리로서 간주되는 태그인지, 아니면 단어의 분리로서 간주되는 태그인지의 정보이다. 태그에 대한 구분은 다음의 4가지로 한다.
Sentence_start : 문장의 시작으로 간주되는 태그
Sentence_end : 문장의 끝으로 간주되는 태그
Word_start : 단어 또는 구, 절의 시작으로 간주되는 태그
Word_end : 단어 또는 구, 절의 끝으로 간주되는 태그
[표 1]은 HTML 태그들에 대해 위의 4가지 분류 기준으로 분류한 예이다.
다음은 알타비스타 홈페이지(http://www.altavista.com)에 대한 원시 입력 HTML 문서의 일부이다.
〈html〉 〈head〉
〈title〉 AltaVista: Main Page 〈/title〉
〈META http-equiv=Refresh content=1800〉
〈META http-equiv="PICS-Label" content='(PICS-1.1
"http://www.rsac.org/ratingsv01.html" l gen true comment "RSACi North America Server"for"http://www.altavista.com/"on"1998.05.18T13:30-0800"r(n 0 s 0 v 0 l0))'〉
〈META http-equiv="PICS-Label" content='(PICS-1.1
"http://www.classify.org/safesurf/"lby"suggestions.altavista@pa.dec.com"r (SS~~000 1))'〉
〈/head〉 〈body bgcolor=#ffffff text=#000000 link=#000099 vlink=#663366
alink=#ff0000〉
〈CENTER〉 〈table border=0 cellspacing=0 cellpadding=0〉
〈tr valign=bottom〉〈td〉〈A target=_top HREF="http://www.altavista.com/"〉
〈IMG target=_top SRC="http://www.altavista.com/av/gifs/new/front_hdr. gif"
alt="AltaVista" BORDER=0 HEIGHT=60 WIDTH=480〉 〈/A〉 〈/td〉
〈td width=120 height=60〉
이에 대하여 태그 분리 장치에서 분리된 태그와 그 정보는 다음과 같다.
1 0 Sstart_tag : 〈html〉
2 0 Sstart_tag : 〈head〉
3 0 Sstart_tag : 〈title〉
4 0 Send_tag : 〈/title〉
5 0 Sstart_tag : 〈META http-equiv=Refresh content=1800〉
6 0 Sstart_tag : 〈META http-equiv="PICS-Label" content='(PICS-1.1
"http://www.rsac.org/ratingsv01.html" l gen true comment "RSACi North America Server"for"http://www.altavista.com/"on"1998.05.18T13:30-0800"r(n 0 s 0 v 0 l 0))'〉
7 0 Sstart_tag : 〈META http-equiv="PICS-Label" content='(PICS-1.1
"http://www.classify.org/safesurf/" l by "suggestions.altavista@pa.dec.com" r (SS~~000 1))'〉
8 0 Send_tag : 〈/head〉
9 0 Sstart_tag: 〈body bgcolor=#ffffff text=#000000 link=#000099 vlink=#663366
alink=#ff0000〉
10 0 Sstart_tag : 〈CENTER〉
11 0 Sstart_tag : 〈table border=0 cellspacing=0 cellpadding=0〉
12 0 Sstart_tag : 〈tr valign=bottom〉
13 0 Sstart_tag : 〈td〉
13 0 Wstart_tag : 〈A target=_top HREF="http://www.altavista.com/"〉
14 0 Sstart_tag : 〈IMG target=_top
SRC="http://www.altavista.com/av/gifs/new/front_hdr.gif" alt="AltaVista"
BORDER=0 HEIGHT=60 WIDTH=480〉
상기 태그 분리 결과에서 첫 번째 열은 문장 번호를 의미하며, 두 번째 열은 문장 내에서 단어의 번호이다. 세 번째 열은 태그의 종류이고 네 번째는 태그의 내용이다. 이 단계에서 저장된 문장 번호와 단어 번호는 태그와 함께 문서 내부에 존재했던 내용 부분이 가공된 후 태그 복원 장치에서 해당하는 단어에 태그를 복원해 넣을 때 사용된다.
상기 태그 복원 장치에서 태그를 분리하면서 태그 외의 내용 부분에 대해서는 문장 인식 장치를 이용하여 문장 단위를 인식한다. 상기 문장 인식 방법은 다음과 같다.
1. 문장 단위를 의미하는 HTML 태그가 발생하면 새로운 문장의 시작으로 간주한다.
2. 문장 단위 태그가 존재하지 않더라도 내용 부분 중 문장의 분리를 의미하는 종결부호가 존재하면 새로운 문장으로 분리한다.
3. 문장 단위를 의미하는 태그가 존재하지 않더라도 〈a〉 태그가 연속하여 존재하는 경우는 하이퍼링크가 연속된 경우이므로 각각을 독립된 문장으로 간주한다.
상기 문장 인식 장치를 통한 문장 인식 결과는 메모리 장치에 적재되어 내용 가공 장치로 전달된다. 다음은 문장 인식 결과의 예이다.
1 NULL 2 Ask
2 NULL 2 AltaVista
3 NULL 9 TM
4 NULL 1 a
5 NULL 1 question
6 NULL 6 .
7 NULL 2 Or
8 NULL 1 enter
9 NULL 1 a
10 NULL 1 few
11 NULL 1 words
12 NULL 1 in
상기 문장 인식 결과 중 첫 번째 열은 문장 내에서 단어 번호를 의미하고, 두 번째 열은 각 단어에 대한 특별한 자질 정보를 의미한다. 이 자질 정보는 내용 가공 장치에서 필요로 하는 정보로서 사용자가 임의로 정의할 수 있다. 내용 가공 장치가 번역을 수행한다고 가정할 경우 자질 정보로서는 고유명사인지, 특수한 패턴을 의미하는지 등의 정보가 기술될 수 있다. 세 번째 열은 단어의 형식에 따른 정보이다. 즉, 문장 부호, 대문자로 시작하는 단어, 전체가 대문자인 단어 등을 구분함으로써 내용 가공 장치에서 이 정보를 이용할 수 있도록 한다. 네 번째 열은 단어의 문자열을 나타낸다.
스크립트를 나타내는 〈script〉나 주석을 나타내는 〈!-- 의 경우는 특별한 처리를 필요로 한다. 그 이유는 이러한 태그는 여러 라인에 걸친 내용을 포함하며 이를 모두 메모리 장치로 적재하여 내용 가공 장치로 전달할 경우 메모리 장치의 낭비가 심해진다. 따라서 이를 라인 단위로 세분하여 가상의 태그를 정의하여 전달함으로써 메모리 장치의 낭비를 줄이고 태그 분리 및 복원 알고리즘을 단순화한다. 다음은 스크립트가 포함된 경우에 가상 태그를 추가한 예이다.
〈SCRIPT LANGUAGE="JavaScript"〉
〈FROMTO_SCRIPT if (document.images) { 〉
〈FROMTO_SCRIPT cyberon=new Image; 〉
〈FROMTO_SCRIPT cyberon.target=_top src=" ......
상기와 같이 실제로는 존재하지 않는 〈FROMTO_SCRIPT〉라는 태그로서 스크립트 내부를 분할하여 처리한다. 주석문의 경우도 동일한 방식으로 처리할 수 있다.
태그 분리 및 문장 인식 장치를 거쳐 태그와 내용이 분리되면, 내용 가공 장치에서는 태그에 대한 고려를 할 필요없이 문장 단위로 분리된 내용에 대해서만 고려하면서 원하는 형태로 내용을 가공할 수 있다. 기계 번역의 경우를 예로 들면 "Altavista Main Page"라는 문장을 번역할 경우 다음과 같은 출력 결과를 얻는다.
(("알타비스타" "0") ("주요 페이지" "1 2"))
태그 복원 장치에서 정확하게 태그를 복원하기 위해서는 내용 가공 장치에서 단어의 순서가 변경되었거나 단어의 개수가 증감했을 경우, 이에 대한 정보를 넘겨주어야 한다. 즉 번역 시스템이 번역을 수행하는 과정에서 원래 단어의 번호를 유지하여 최종적인 결과로서 제시해 주어야 하며, 어휘적인 차이로 인해 단어 수가 변경된 경우는 초기 단어 번호로서 변경된 부분을 표현해 주어야 한다. 예를 들어 "manageable"의 경우 "조작하기 쉬운"으로 번역된다. 이 경우 원래 영어 단어의 번호가 10이면 "조작하기"와 "쉬운"에 각각 10번을 부여한다. 만일 "manageable"의 전후로 HTML 태그가 존재했다면 태그 복원 장치에서는 "조작하기"와 "쉬운"에 그 태그들을 모두 부여하게 되어 전체적으로 태그의 손실이 발생하지 않도록 한다. 반면에 영어 단어 중 한국어로 번역되면서 생략되는 단어의 전후에 태그가 존재할 경우는 태그의 소실이 발생할 수 있다. 그러나 번역 과정에서 생략되는 품사는 전치사나 관사 등이며 대부분의 영문 HTML 문서의 경우 명사나 동사, 형용사 등을 포함하여 태그가 부여되므로 이러한 경우가 발생한 확률은 극히 희박하다.
내용 가공 장치에서 내용 부분의 가공이 완료되면 메모리 장치에 그 결과를 저장하고 태그 복원 장치를 구동한다. 상기 태그 복원 장치의 수행 방법은 도면 4와 같다.
도 3은 본 발명에 따른 태그 복원 방법을 설명하기 위한 순서도이다.
시작신호로부터 단계(201)에서 문장 단위로 가공된 내용을 읽은 후 단계(201)로 진행하여 문서 끝 여부를 확인한다. 확인 결과 문서 끝이 아니면 단계(203)로 진행하여 태그 분리 결과에서 해당하는 문장의 태그를 메모리 장치로 적재한다. 이후 단계(204)에서 가상 태그의 경우 문장 시작 태그로 처리한다. 이후 단계(205)에서 문장 시작 태그를 복원 결과로서 저장한 후 단계(206)로 진행하여 문장 끝 여부를 확인한다. 확인 결과 문장 끝이면 단계(207)로 진행하여 태그쌍을 검증하고, 단계(208)에서 문장 끝 태그를 복원 결과로서 저장한 후 상기 문장 단위로 가공된 내용을 읽는 단계(201)로 복귀하여 상기 과정을 반복 수행한다. 한편, 상기 단계(206)에서 확인 결과 문장 끝이 아니면 단계(209)로 진행하여 한 단어에 대한 단어 시작 태그를 복원 결과로서 저장하고, 단계(210)에서 가공된 단어의 내용을 복원 결과로서 저장한다. 이후 단계(211)에서 한 단어에 대한 단어 끝 태그를 복원 결과로서 저장한 후 상기 문장 끝 확인 단계(206)로 복귀하여 상기 과정을 반복 수행한다. 그러나, 상기 단계(202)에서 확인 결과 문서 끝인 경우에는 종료하게 된다.
즉, 내용 가공 장치에서 가공된 내용과 태그 분리 장치에서 분리하여 메모리 장치에 적재했던 태그들을 문장 단위로 읽으면서 동일한 문장 번호를 가진 태그만을 모은다. 상기 동일한 문장 번호를 가진 태그 중 스크립트와 주석의 경우 가상으로 정의한 태그를 제거하고 원래의 태그 내용을 해당 문장의 태그 복원 결과로서 메모리 장치에 저장한다. 상기 동일한 문장 번호를 가진 태그 중 문장 시작 태그로서 분류된 태그를 상기 태그 복원 결과 메모리 장치에 추가하여 저장한다. 그 다음 각 단어별로 해당하는 단어의 단어 시작 태그를 태그 복원 결과 메모리에 추가하고, 가공된 단어의 문자열을 태그 복원 결과 메모리에 추가한 뒤, 단어의 끝 태그를 태그 복원 결과 메모리에 추가한다. 한 문장에 대하여 단어별 태그 복원이 완료되면 문장 끝 태그를 태그 복원 결과 메모리 장치에 추가하여 해당하는 문장의 태그 복원을 완료한다. 이 과정을 전체 문서에 대해 반복 수행함으로써 수정된 HTML 문서를 생성할 수 있다. 상기 태그 복원 장치에서는 태그의 검증을 위해 스택 자료구조를 사용하여 단어 단위 태그의 쌍을 검증한다. 만약 태그의 쌍이 일치하지 않을 경우는 단어 단위 태그임에도 불구하고 해당 문장의 영역을 벗어나서 이후의 다른 문장이나 이전의 다른 문장과 연관된 태그로 간주되므로 이러한 태그는 문장 단위 태그와 동일하게 문장의 끝에 일관적으로 저장한다.
[표 2]는 자연어 처리를 위한 HTML/SGML 태그 처리 장치 및 방법을 이용한 영한 기계 번역 시스템의 수행 예이다.
대상 사이트는 영문 알타비스타(http://www.altavista.com) 사이트이다.
이상에서 설명한 본 발명은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능함으로 전술한 실시 예 및 첨부된 도면에 한정되는 것이 아니다.
본 발명은 HTML/SGML 등 마크업 문서에 대하여 문장을 효율적으로 분리하고, 태그를 종류별로 분류하며, 태그의 분리 및 복원을 수행하는 태그 분리 복원 장치 및 방법에 대한 것으로서, 마크업 문서에 대하여 자연어 처리 기법을 적용하는 기계 번역, 정보 요약, 정보 여과 등의 응용 시스템에 있어서 원문의 형태의 소실 없이 가공된 문서를 생성할 수 있도록 하며, 원문으로부터 태그를 분리하면서 태그의 정보를 함께 고려하여 문장 단위를 인식함으로써 문장 인식의 정확도가 높아져 응용 시스템의 품질이 향상되는 효과를 얻을 수 있다.

Claims (5)

  1. 입력된 HTML 문서에 대해 디스크 장치에 존재하는 자료를 메모리 장치로 적재하는 메모리 적재 장치;
    상기 메모리 적재 장치에 의해 메모리에 적재된 HTML 문서, 메모리에 적재된 HTML 문서에 대한 태그 분리를 수행하는 태그 분리 장치;
    상기 메모리에 적재된 HTML 문서에 대해 HTML 태그 분리를 시도함에 있어 참조로 하는
    HTML 태그 데이터베이스;
    상기 태그 분리 장치에 의해 분리된 태그를 저장하는 태그 저장 장치;
    상기 태그 분리 장치를 거쳐 태그가 분리된 문서의 내용 부분에 대한 문장 인식을 수행하는 문장 인식 장치;
    상기 문장 인식 장치의 수행 결과로 생성되는 문장 인식 결과를 저장하는 문장 인식 결과 저장 장치;
    상기 문장 인식 결과를 이용하여 번역, 요약 등의 가공을 가하는 내용 가공 장치;
    상기 가공된 내용이 저장되는 가공 결과 저장 장치;
    상기 가공 결과 저장 장치와 상기 분리된 태그 저장 장치를 참조하여 태그와 내용을 결합하여 태그를 복원해 내는 태그 복원 장치;
    상기 복원된 태그를 문장 단위로 저장하는 복원된 태그 저장 장치; 및
    상기 문장 단위로 복원된 태그 저장 결과를 디스크에 저장하며 HTML 문서를 생성하는 디스크 저장 장치를 포함하여 구성된 것을 특징으로 하는 자연어 처리를 위한 에이치.티.엠.엘/에스.지.엠.엘 태그 처리 장치.
  2. 자연어 처리 응용 프로그램으로 하여금 HTML/SGML 등 마크업 언어로서 작성된 문서를 처리함에 있어서,
    상기 HTML/SGML 태그를 다수의 종류로 구분하여 분류하며, 태그 데이터 베이스를 참조하여 태그를 분리하는 단계와,
    상기 분리된 내용을 이용하여 내용을 가공하는 단계와,
    상기 가공된 내용과 상기 태그 분리 결과를 바탕으로 원래의 태그 소실을 최소화하며 태그와 내용을 결합하여 태크를 복원하는 단계를 포함하여 이루어진 것을 특징으로 하는 자연어 처리를 위한 에이치.티.엠.엘/에스.지.엠.엘 태그 처리 방법.
  3. 제 2 항에 있어서,
    상기 태그 분리는 메모리 장치로부터 1문장씩 읽어온 후 문서 끝 여부를 확인하는 단계와,
    상기 확인 결과 문서 끝이 아니면 태그 시작 심볼까지를 내용 부분에 추가한 후 태그 시작 여부를 확인하는 단계와,
    상기 확인 결과 태그 시작이 아니면 상기 메모리 장치로부터 1문장씩 읽어오는 단계로 복귀하여 상기 과정을 반복수행하고, 태그 시작이면 태그 끝까지를 태그 저장 장치에 추가하는 단계와,
    상기 HTML 태그 데이터베이스를 참조하여 태그 종류를 인식한 후 태그 저장 장치에 태그 종류별 정보를 추가하는 단계와,
    태그 이후부터 내용부분에 추가하고, 문장 인식 장치로 문장을 인식한 후 상기 태그 시작 심볼까지를 내용부분에 추가하는 단계로 복귀하여 상기 과정을 반복 수행하는 단계와,
    상기 문서 끝 여부 확인 결과 문서 끝이면 종료하는 단계를 포함하여 이루어진 것을 특징으로 하는 자연어 처리를 위한 에이치.티.엠.엘/에스.지.엠.엘 태그 처리 방법.
  4. 제 2 항에 있어서,
    상기 태그 복원은 문장 단위로 가공된 내용을 읽은 후 문서 끝 여부를 확인하는 단계와,
    상기 확인 결과 문서 끝이 아니면 태그 분리 결과에서 해당하는 문장의 태그를 메모리 장치로 적재하는 단계와,
    가상 태그의 경우 문장 시작 태그로 처리하고, 문장 시작 태그를 복원 결과로서 저장한 후 문장 끝 여부를 확인하는 단계와,
    상기 확인 결과 문장 끝이면 태그쌍을 검증하고, 문장 끝 태그를 복원 결과로서 저장한 후 상기 문장 단위로 가공된 내용을 읽는 단계로 복귀하여 상기 과정을 반복 수행하는 단계와,
    상기 문장 끝 확인 결과 문장 끝이 아니면 한 단어에 대한 단어 시작 태그를 복원 결과로서 저장하고, 가공된 단어의 내용을 복원 결과로서 저장하는 단계와,
    상기 한 단어에 대한 단어 끝 태그를 복원 결과로서 저장한 후 상기 문장 끝 확인 단계로 복귀하여 상기 과정을 반복 수행하는 단계와,
    상기 문서 끝 확인 결과 문서 끝인 경우에는 종료하는 단계를 포함하여 이루어진 것을 특징으로 하는 자연어 처리를 위한 에이치.티.엠.엘/에스.지.엠.엘 태그 처리 방법.
  5. HTML/SGML 태그를 다수의 종류로 구분하여 분류하며, 태그 데이터 베이스를 참조하여 태그를 분리하는 단계와,
    상기 분리된 내용을 이용하여 내용을 가공하는 단계와,
    상기 가공된 내용과 상기 태그 분리 결과를 바탕으로 원래의 태그 소실을 최소화하며 태그와 내용을 결합하여 태크를 복원하는 단계를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1019990034077A 1999-08-18 1999-08-18 자연어 처리를 위한 에이치.티.엠.엘/에스.지.엠.엘 태그 처리장치 및 방법 KR20010018214A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019990034077A KR20010018214A (ko) 1999-08-18 1999-08-18 자연어 처리를 위한 에이치.티.엠.엘/에스.지.엠.엘 태그 처리장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990034077A KR20010018214A (ko) 1999-08-18 1999-08-18 자연어 처리를 위한 에이치.티.엠.엘/에스.지.엠.엘 태그 처리장치 및 방법

Publications (1)

Publication Number Publication Date
KR20010018214A true KR20010018214A (ko) 2001-03-05

Family

ID=19607640

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990034077A KR20010018214A (ko) 1999-08-18 1999-08-18 자연어 처리를 위한 에이치.티.엠.엘/에스.지.엠.엘 태그 처리장치 및 방법

Country Status (1)

Country Link
KR (1) KR20010018214A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100849272B1 (ko) * 2001-11-23 2008-07-29 주식회사 엘지이아이 마크업 문서 자동 요약 방법
KR20150040747A (ko) 2014-09-25 2015-04-15 린노알미늄 주식회사 연결 조립형 케이블 트레이

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981569A (ja) * 1995-09-12 1997-03-28 Hitachi Ltd 多カ国対応サービス提供システム
JPH09265469A (ja) * 1995-10-20 1997-10-07 Sanyo Electric Co Ltd ハイパーテキスト型文書の翻訳方法およびhtml文書の翻訳装置
JPH09325961A (ja) * 1996-06-07 1997-12-16 Matsushita Electric Ind Co Ltd ネットワーク対応翻訳装置
JPH10134059A (ja) * 1996-11-05 1998-05-22 Matsushita Electric Ind Co Ltd Html文書処理装置及びhtml文書処理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981569A (ja) * 1995-09-12 1997-03-28 Hitachi Ltd 多カ国対応サービス提供システム
JPH09265469A (ja) * 1995-10-20 1997-10-07 Sanyo Electric Co Ltd ハイパーテキスト型文書の翻訳方法およびhtml文書の翻訳装置
JPH09325961A (ja) * 1996-06-07 1997-12-16 Matsushita Electric Ind Co Ltd ネットワーク対応翻訳装置
JPH10134059A (ja) * 1996-11-05 1998-05-22 Matsushita Electric Ind Co Ltd Html文書処理装置及びhtml文書処理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100849272B1 (ko) * 2001-11-23 2008-07-29 주식회사 엘지이아이 마크업 문서 자동 요약 방법
KR20150040747A (ko) 2014-09-25 2015-04-15 린노알미늄 주식회사 연결 조립형 케이블 트레이

Similar Documents

Publication Publication Date Title
US5384703A (en) Method and apparatus for summarizing documents according to theme
US5848385A (en) Machine translation system using well formed substructures
KR100912502B1 (ko) Pdf 파일을 대상으로 하는 자동 번역 방법
US6336124B1 (en) Conversion data representing a document to other formats for manipulation and display
US20020046018A1 (en) Discourse parsing and summarization
US7310773B2 (en) Removal of extraneous text from electronic documents
US6424982B1 (en) System and method for parsing a document using one or more break characters
US8327265B1 (en) System and method for parsing a document
JP2001067348A (ja) 構造化文書の圧縮方法および圧縮装置並びに構造化文書圧縮プログラムを記録したコンピュータ読取可能な記録媒体
US11361565B2 (en) Natural language processing (NLP) pipeline for automated attribute extraction
CN115995087B (zh) 基于融合视觉信息的文档目录智能生成方法及系统
JPS6033665A (ja) キ−ワ−ド自動抽出方式
KR20010018214A (ko) 자연어 처리를 위한 에이치.티.엠.엘/에스.지.엠.엘 태그 처리장치 및 방법
JPS5892063A (ja) イデイオム処理方式
JP3300142B2 (ja) 自然言語処理装置
JP3721397B2 (ja) 話し言葉の書き言葉への変換装置
JP3580760B2 (ja) 自動編集装置及び方法並びにこれに利用される記憶媒体
CN115410207B (zh) 一种针对竖排文本的检测方法及装置
JP3239845B2 (ja) 全文検索装置および方法
US20230222145A1 (en) Information search system
JP2001142897A (ja) 文書検索装置、文書検索方法、文書検索システム及び文書検索方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3747957B2 (ja) 接続テーブル編集装置
EP0805402B1 (en) Document conversion system for processing typographie effects
JP3874844B2 (ja) 機械翻訳装置
JP3109187B2 (ja) 形態素解析方式

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application