KR100374114B1 - 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기 - Google Patents

에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기 Download PDF

Info

Publication number
KR100374114B1
KR100374114B1 KR10-1999-0024696A KR19990024696A KR100374114B1 KR 100374114 B1 KR100374114 B1 KR 100374114B1 KR 19990024696 A KR19990024696 A KR 19990024696A KR 100374114 B1 KR100374114 B1 KR 100374114B1
Authority
KR
South Korea
Prior art keywords
html
abbreviation
document
hyperlink
morpheme
Prior art date
Application number
KR10-1999-0024696A
Other languages
English (en)
Other versions
KR20010004090A (ko
Inventor
홍기채
문병주
정현수
김홍배
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-1999-0024696A priority Critical patent/KR100374114B1/ko
Publication of KR20010004090A publication Critical patent/KR20010004090A/ko
Application granted granted Critical
Publication of KR100374114B1 publication Critical patent/KR100374114B1/ko

Links

Classifications

    • EFIXED CONSTRUCTIONS
    • E05LOCKS; KEYS; WINDOW OR DOOR FITTINGS; SAFES
    • E05DHINGES OR SUSPENSION DEVICES FOR DOORS, WINDOWS OR WINGS
    • E05D11/00Additional features or accessories of hinges
    • E05D11/10Devices for preventing movement between relatively-movable hinge parts
    • E05D11/1007Devices for preventing movement between relatively-movable hinge parts with positive locking
    • EFIXED CONSTRUCTIONS
    • E05LOCKS; KEYS; WINDOW OR DOOR FITTINGS; SAFES
    • E05DHINGES OR SUSPENSION DEVICES FOR DOORS, WINDOWS OR WINGS
    • E05D11/00Additional features or accessories of hinges
    • E05D11/10Devices for preventing movement between relatively-movable hinge parts
    • E05D11/1014Devices for preventing movement between relatively-movable hinge parts for maintaining the hinge in only one position, e.g. closed
    • EFIXED CONSTRUCTIONS
    • E05LOCKS; KEYS; WINDOW OR DOOR FITTINGS; SAFES
    • E05DHINGES OR SUSPENSION DEVICES FOR DOORS, WINDOWS OR WINGS
    • E05D3/00Hinges with pins
    • E05D3/02Hinges with pins with one pin
    • EFIXED CONSTRUCTIONS
    • E05LOCKS; KEYS; WINDOW OR DOOR FITTINGS; SAFES
    • E05DHINGES OR SUSPENSION DEVICES FOR DOORS, WINDOWS OR WINGS
    • E05D5/00Construction of single parts, e.g. the parts for attachment
    • E05D5/02Parts for attachment, e.g. flaps
    • E05D5/06Bent flaps
    • EFIXED CONSTRUCTIONS
    • E05LOCKS; KEYS; WINDOW OR DOOR FITTINGS; SAFES
    • E05DHINGES OR SUSPENSION DEVICES FOR DOORS, WINDOWS OR WINGS
    • E05D11/00Additional features or accessories of hinges
    • E05D11/0018Anti-tamper devices
    • E05D11/0027Anti-tamper devices arranged on or near the hinge and comprising parts interlocking as the wing closes, e.g. security studs
    • E05D2011/0036Anti-tamper devices arranged on or near the hinge and comprising parts interlocking as the wing closes, e.g. security studs near the hinge
    • EFIXED CONSTRUCTIONS
    • E05LOCKS; KEYS; WINDOW OR DOOR FITTINGS; SAFES
    • E05YINDEXING SCHEME ASSOCIATED WITH SUBCLASSES E05D AND E05F, RELATING TO CONSTRUCTION ELEMENTS, ELECTRIC CONTROL, POWER SUPPLY, POWER SIGNAL OR TRANSMISSION, USER INTERFACES, MOUNTING OR COUPLING, DETAILS, ACCESSORIES, AUXILIARY OPERATIONS NOT OTHERWISE PROVIDED FOR, APPLICATION THEREOF
    • E05Y2201/00Constructional elements; Accessories therefor
    • E05Y2201/20Brakes; Disengaging means; Holders; Stops; Valves; Accessories therefor
    • E05Y2201/218Holders
    • E05Y2201/22Locks

Landscapes

  • Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 HTML 기반 한글 용어/약어 하이퍼링크 생성기에 관한 것으로서, HTML과 TEXT 문서를 기반으로 정보의 내용 중에 있는 용어/약어에 대한 부가적인 설명을 지원하는 하이퍼링크 태그를 자동으로 생성하기 위해 HTML문서의 실제 문서내용을 추출하는 HTML분석기와, 한글의 서술적 특성을 고려한 형태소 분석을 통한 용어/약어를 추출하는 새로운 형태소분석기와, 하이퍼링크된 문서를 생성해주는 문서포맷터로 구성되며, 형태소를 독립적으로 쓰일 수 있는 자립형태소와 그렇지 않은 의존형태소로 분리한 후 용어/약어 사전과 상기 의존형태소 사전만을 가지고 인터넷 문서에 포함된 용어/약어를 추출하도록 함으로써 간결하고 신속하게 처리할 수 있도록 한 것을 특징으로 한다.

Description

에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기{Hyperlink generator for korean language terminology based HTML}
본 발명은 한글 용어/약어 하이퍼링크 생성기에 관한 것으로서, 특히, 인터넷 전문 정보 시스템 등에서 보다 정확한 정보 제공을 위해 형태소 분석 기법를 이용하여 용어/약어를 추출하고 이를 기반으로 인터넷의 HTML 환경에서 쉽게 활용할 수 있도록 하이퍼링크된 문서를 생성하는 HTML 기반 한글 용어/약어 하이퍼링크 생성기에 관한 것이다.
최근 인터넷 환경의 급속한 발전과 사용자의 급증으로 인하여 많은 새로운 기술이 등장하고 있으며, 특히 정보검색 분야에 있어서는 효율적인 정보검색을 위한 인터넷 정보 검색기술들이 개발되어 전문 정보시스템등에서 활용되고 있는데, 이러한 검색을 빠르고 정확하게 하도록 하기 위해 색인 기술이 사용된다.
이러한 색인 기술은 사용자와 정보를 연결시켜주는 매개체로 정보를 검색할 수 있도록 돕는 기술로서, 이러한 색인을 자동으로 수행하도록 하기 위한 방법으로 통계에 의한 방법, 형태소 분석에 의한 방법 그리고 구문 분석과 의미 분석에 의한 방법 등이 사용되고 있다.
먼저, 통계에 의한 색인 방법은 각 단어에 대하여 문헌에서 나타나는 빈도수를 구한 후, 현실적으로 색인어가 되기 어려운 것과 불용어를 버리고 높은 빈도의 단어들을 색인어로 선정하는 방법인데, 이러한 통계에 의한 색인 방법은 한국어에서는 용언의 활용이나 체언의 조사결합으로 인하여 사용하기 어렵다는 단점이 있다.
또한, 형태소 분석에 의한 색인 방법은 문장이나 낱말을 의미를 지닌 실질형태소(명사, 대명사, 수사, 부사, 형용사, 동사)와 의미는 없고 문법적인 관계만 가진 형식형태소(조사, 어미, 선어미, 접두사, 접미사)로 분리한 후, 형식형태소를 버리고 나머지 실질형태소만을 색인어로 선정하는 방법으로서, 모든 실질형태소를 색인어로 선정함으로써 메모리 공간이 낭비되고 처리속도가 느려진다. 특히, 복합명사에 있어서는 n-gram방식(각각의 색인분절에 대하여 인접한 n개의 음절을 추출하는 방식)과 명사사전에 의한 모든 경우의 단어를 색인어로 선정하기 때문에 비슷한 용어/약어에 대해서는 정확성이 떨어지며, 또한, 형태소에 대한 각각의 사전을 필요로 한다는 단점이 있다.
이러한 형태소 분석에 의한 색인 방법보다 한 단계 더 발전된 방법이 구문 분석에 의한 색인 방법이고, 상기 구문 분석에 의한 색인 방법 보다 더 발전된 방법이 의미 분석에 의한 색인 방법으로서, 이들은 형태소 분석을 한다는 점에서 공통점이 있지만 상기 형태소 분석에 의한 색인 방법이 단순한 형태적인 정보만을 이용하는데 반해 상기 구문분석 또는 의미분석에 의한 색인 방법은 여러 낱말이 어울려 구성하는 문장에서 필요한 문법정보와 의미정보를 가지고 분석한다는 점에서 상기 형태소 분석에 의한 색인 방법과 다르다. 따라서, 상기 구문분석 또는 의미분석에 의한 색인 방법은 형태소 분석에 의한 색인 방법 보다 효율적이지만 현실적으로 구현하기가 어려우며 제한된 환경에서만 사용되거나 이론적인 모델로만 제시되고 있다.
한편, 이러한 사용자의 특정정보 요구에 대한 효과적이고 빠른 정보 검색에 중점을 두는 종래의 인터넷 정보 검색 기술은 정보의 내용에 있어서 생소한 용어/약어의 사용과 분야별 용어/약어의 중복사용으로 인한 정보의 모호성에 대한 문제 해결 까지는 고려하지 않고 있는데, 서술적 특성을 갖는 한글에 있어서, 이러한 모호성에 대한 문제는 더욱 심각하다.
따라서, 본 발명에서는 이러한 문제점을 해결하기 위해 HTML 분석 기술과 형태소 분석 기법을 응용하여 간결하면서도 빠르게 용어/약어를 추출하고 이를 인터넷의 HTML 환경에서 쉽게 활용할 수 있도록 하이퍼링크된 문서를 생성하도록 하는 HTML 기반 한글 용어/약어 하이퍼링크 생성기를 제공하고자 한다.
상기 목적을 달성하기 위해 본 발명에서 제공하는 한글 용어/약어 하이퍼링크 생성기는 HTML과 TEXT 문서를 기반으로 정보의 내용 중에 있는 용어/약어에 대한 부가적인 설명을 지원하는 하이퍼링크 태그를 자동으로 생성하기 위해 HTML문서의 실제 문서내용을 추출하는 HTML분석기와, 한글의 서술적 특성을 고려한 형태소 분석을 통한 용어/약어를 추출하는 새로운 형태소분석기와, 하이퍼링크된 문서를생성해주는 문서포맷터로 구성되며, 형태소를 독립적으로 쓰일 수 있는 자립형태소와 그렇지 않은 의존형태소로 분리한 후 용어/약어 사전과 상기 의존형태소 사전만을 가지고 인터넷 문서에 포함된 용어/약어를 추출하도록 함으로써 간결하고 신속하게 처리할 수 있도록 한 것을 특징으로 한다.
도 1은 본 발명의 한글 용어/약어 하이퍼링크 생성기에 대한 전체 구성도,
도 2는 본 발명의 HTML 분석기에 대한 구성도,
도 3은 HTML DTD에서의 내용태그 정의에 대한 예시도,
도 4는 HTML 분석기의 처리 및 그 결과에 대한 예시도,
도 5는 본 발명의 형태소 분석기에 대한 구성도,
도 6은 본 발명의 문서 포맷터에 대한 구성도,
도 7은 본 발명의 하이퍼링크 생성기에 의해 생성된 최종 결과 문서 및 용어/약어 사전에 대한 예시도.
〈도면의 주요부분에 대한 부호의 설명〉
10 : 소스 문서 20 : HTML 분석기
21 : 문서 분석기 22 : HTML 명세
23 : 문서 변환기 30 : 형태소 분석기
31 : 형태소군 글로브 생성기 33 : 하이퍼링크 생성기
40 : 문서 포맷터 41 : 글로브 검색기
42 : 사전 검색기 43 : 문서 생성기
50 : 하이퍼링크된 문서 60 : 형태소 사전
70 : 한글 용어/약어 사전
이하, 첨부된 도면을 참조하여 본 발명의 한글 용어/약어 하이퍼링크 생성기를 좀 더 상세히 설명하고자 한다.
도 1은 본 발명의 한글 용어/약어 하이퍼링크 생성기에 대한 전체 구성도로서, 도 1을 참조하면 본 발명의 하이퍼링크 생성기는 HTML 또는 텍스트(Text)로 구성된 소스 문서(10)의 입력에 의해 동작하며, 상기 HTML 문서(10)의 실제 내용 부분을 분석/추출하여 텍스트(Text) 객체 리스트를 생성하는 HTML 분석기(20)와, 사전에 구축된 형태소 사전(60)과 한글 용어/약어 사전(70)을 이용하여 상기 HTML 분석기(20)에서 출력되는 텍스트(Text) 객체 리스트에 대한 형태소 분석을 통한 용어/약어를 추출하고 하이퍼링크 객체정보를 생성하는 형태소 분석기(30)와, 상기 형태소 분석기(30)의 결과를 이용하여 하이퍼링크된 문서를 출력하는 문서포맷터(40)로 구성된다.
이와 같이 구성된 본 발명의 한글 하이퍼링크 생성기는 HTML과 텍스트(Text) 문서를 기반으로 정보의 내용중에 있는 HTML 문서의 실제 내용을 분석, 추출하고 형태소를 분석하여 전문 정보시스템 등에서 관련되는 용어/약어 등의 부가적인 설명을 돕기 위한 인터넷 웹기반의 하이퍼링크를 생성하도록 하는데, 이를 위한 각 요소들의 구체적인 내용을 살펴보면 다음과 같다.
먼저, 상기 HTML 분석기(20)는 HTML문서의 실제 내용 부분을 추출하기 위해 HTML DTD(Document Type Definition)에서 정의한 태그(Tag)중에서 문서의 실제 내용 부분인 내용 태그를 정의하고 이를 기반으로 각 태그 내의 문서 내용을 절단, 추출하여 텍스트 리스트 객체를 생성하여 출력하며, 그 텍스트 또는 텍스트 리스트 객체를 입력받은 상기 형태소 분석기(30)는 형태소 사전(60) 및 한글 용어/약어 사전(70)을 이용하여 그 텍스트 또는 텍스트 리스트 객체로부터 하이퍼링크 객체를 추출한 후 이들의 구조적 객체 모임인 형태소군 글로브를 생성하는데, 상기 형태소를 독립적으로 쓰일 수 있는 자립형태소와 그렇지 않은 의존형태소로 분리하고 용어/약어 사전과 의존형태소 사전만을 가지고 용어/약어를 추출하도록 함으로써 간결하며 처리속도가 빠른 것이 특징이다.
이 때, 상기 형태소 사전(60)은 상기 HTML 분석기(20)의 처리 결과에 대한 형태소 분석에 사용되며, 용어/약어 사전(70)은 그 HTML 분석기(20)의 처리결과에 포함된 용어/약어 검색 및 하이퍼링크 문서생성시 사용되는데, 각 사전은 쉽게 사용할 수 있도록 텍스트 문서로 저장되어 있으며, 특히 용어/약어 사전(70)은 사용자의 각 분야별 사전구축을 필요로 한다.
한편, 상기 사전들(60, 70)을 로드하고 검색하는 알고리즘으로는 AVL 트리(Adelson Velskii and Landis Tree)를 사용하여 사전에 대한 용어/약어의 추가,삭제등에 대한 검색속도와 안정성을 보장하였다.
상기와 같이 형태소 분석기(30)에서 형태소군 글로브가 생성되면 상기 문서 포맷터(40)는 그 형태소군 글로브를 이용하여 사전검색을 통한 하이퍼링크된 문서를 생성한다.
이러한 본 발명의 하이퍼링크 생성기 각각의 구성 요소들을 도 2 내지 도 6을 참조하여 좀 더 구체적으로 설명한다.
도 2는 본 발명의 HTML 분석기에 대한 구성도로서, 도 2를 참조하면 본 발명의 HTML 분석기는 내부의 HTML 명세(22)에 의해 외부에서 입력받은 HTML 문서(10)를 원소 분석처리하는 문서 분석기(21)와 그 문서분석처리의 결과에 대하여 토큰화 및 변환 처리하여 인덱스, 위치, 길이 등의 객체 정보와 함께 텍스트 객체를 만들고 이들의 모임인 텍스트 객체 리스트(24)를 생성하도록 하는 문서 변환기(23)로 구성된다.
이 때, 상기 문서분석기(21)는 HTML 문서정의(DTD)에서 정의하는 태그중에서 HTML 문서의 실제 내용(Contents)부분을 담고 있는 태그를 "내용태그"로 정의하고 그 내용태그를<P>,<PRE>,<DT>,<DD>,<LI>,<TH>,<TD>등으로 정의하였으며 이들 태그가 담고 있는 텍스트를 추출한다.
도 3에 이러한 HTML DTD에서의 내용태그 정의에 대한 예시도가 나타나 있는데, HTML DTD에서의 내용태그 정의에서는 HTML DTD v4.0 (W3C)에서 정의한 태그 중에서 본 발명에서 내용태그로 정의한 부분을 보여주고 있다.
도 3을 참조하면, 내용태그인 Paragraphs(P), Preformatted Text(PRE), Lists (DT,DD,LI), Table(TH,TD)등은 "%inline"과 "%flow"로 구성되며, "%inline"은 "#PCDATA", "%fontstyle", "%phrase", "%special", "%formctrl"등으로 "%flow"는 "%block"과 "%inline"으로 각각 구성된다. 즉 "%inline"은 #PCDATA, TT, I, B, U, S, STRIKE, BIG, SMALL, EM, STRONG, DFN, CODE, SAMP, KBD, VAR, CITE, ABBR, ACRONYM, A , IMG, APPLET, OBJECT, FONT, BASEFONT, BR, SCRIPT, MAP, Q, SUB, SUP, SPAN, BDO, IFRAME, INPUT, SELECT, TEXTAREA, LABEL, BUTTON 등의 종속태그를 가지고 있으며 "%flow"는 "%inline", "%heading", "%list", "%preformatted", DL, DIV, CENTER, NOSCRIPT, NOFRAMES, BLOCKQUOTE, FORM, ISINDEX, HR, TABLE, FIELDSET, ADDRESS 등의 종속태그를 가진다.
따라서 문서분석에서는 이들 종속태그까지 고려해야만 하며, 이들 종속태그중에는 종속태그 그 자체가 하이퍼링크 객체이기 때문에 내용까지 없는 것으로 간주하여 처리하는 태그(<A>)와, 글꼴 표현에 대한 태그이기 때문에 태그는 없는 것으로 하고 그 태그의 내용만 추출하여 처리해야하는 태그(<SUB> 또는 </SUB>)가 있는데, 본 발명에서는 전자(<A>)를 '무시태그'로 정의하고, 후자(<SUB> 또는 </SUB>)를 '가상태그'로 정의한다.
도 3에 나타난 상기 무시 태그와 가상 태그의 예를 구분하여 표시하면 다음과 같다.
1. 무시태그
: DFN, CODE, SAMP, KBD, VAR, CITE, ABBR, ACRONYM, A , IMG, APPLET, OBJECT, SCRIPT, MAP, SPAN, BDO, INPUT, SELECT, TEXTAREA, LABEL, BUTTON, FIELDSET, ADDRESS
2. 가상태그
: TT, I, B, U, S, STRIKE, BIG, SMALL, EM, STRONG, FONT, BASEFONT, BR, Q, SUB, SUP, IFRAME, DL, DIV, CENTER, NOSCRIPT, NOFRAMES, BLOCKQUOTE, FORM, ISINDEX, HR, TABLE 등 내용태그와 무시태그가 아닌 태그
한편, 도 4는 본 발명에 의한 HTML 분석기의 처리 및 그 결과를 나타낸 예시도로서, 내용태그, 무시태그, 가상태그를 이용한 문서분석처리에 의한 HTML 문서(400)와 그에 의해 추출된 텍스트의 예(410)를 나타내었다.
도 4를 참조하면, 상기 HTML 문서(400)에서 <HTML> 및 </HTML>태그는 HTML 문서의 시작 및 종료를 나타내는 태그이고, 첫 번째 <P> 및 </P> 태그는 내용 태그로서 그 사이의 내용이 추출(401)되며, 두 번째 <P> 및 </P>는 그 사이에 또다른 종류의 태그들을 포함하는데, <br>은 그 이전까지의 내용 만을 추출하도록 하는 태그로서, 상기 <br>태그를 만나면, <P>태그에서부터 시작하여 가상태그인 <br> 이전까지의 내용만 추출(402)하며, 이미지 파일과 하이퍼링크됨을 나타내는 태그(<IMG>)와 문서 파일과 하이퍼링크됨을 나타내는 태그(<A>, </A>)는 무시태그로서, 텍스트에는 그 내용이 추출되지 않는다. 따라서, 상기 추출된 내용 뒤에는 무시태그</A> 다음부터 </P>까지의 내용이 추출(403)된다.
한편, 테이블의 시작과 끝을 나타내는 태그(<Table>, </Table>) 사이의 내용 중에서는 테이블 내에서의 행과 열을 구분하기 위한 태그들(<TR>, </TR>, <TD>, </TD>, <TH>, </TH>)을 제외한 내용이 추출(404)된다.
즉, 도 2의 문서 분석기(21)의 분석 결과로 추출되는 내용은 상기 도 4의 텍스트 영역(410)과 같다.
도 5는 본 발명의 형태소 분석기에 대한 구성도로서, 도 5를 참조하면, 상기 형태소 분석기는 상기 HTML 분석기(20)의 결과인 텍스트 객체 리스트(24)가 입력되면 그를 형태소 사전(60)을 참조하여 텍스트 객체 단위로 형태소를 분석하고 형태소군 글로브를 생성하는 형태소군 글로브 생성기(31)와 상기 형태소군 글로브 생성기(31)에서 출력되는 결과 글로브(32)가 입력되면 용어/약어 사전(70)을 참조하여 용어/약어를 추출하고 객체 링크를 수행하는 하이퍼링크 생성기(33)로 구성되며, 상기 하이퍼 링크 생성기(33)에서는 결과 글로브(34)가 추출된다.
이 때, 상기 형태소군 글로브 생성기(31)는 형태소 분석시 형태소를 독립적으로 쓰일 수 있는 자립형태소와 그렇지 않은 의존형태소로 구분하고 의존형태소가 없을 경우를 자립형태소로 결정한다. 따라서 상기 형태소 사전(60)은 "~가", "~는", "~의", "~에서", 등의 의존형태소 사전만을 필요로 한다.
본 발명에서 제시하는 80개의 의존형태소를 나열하면 다음과 같다.
< 가, 고, 과, 과는, 그려, 까지, 께, 께서, 께옵서, 나, 나마, 는, 더러, 도, 되는, 되면, 된다면, 될때, 들이, 들은, 들과, 등은, 등이, 라, 라고, 로서, 로써, 를, 마다, 마저, 만, 만큼, 보다, 부터, 뿐, 서도, 시여, 시피, 아, 야, 에, 에게, 에게는, 에는, 에서, 에서는, 에서도, 에서부터, 여, 와, 와는, 와의, 요, 으로, 으로는, 으며, 은, 을, 의, 이, 이나, 이라면, 이며, 이면, 이시여, 이어서, 이어야, 이야, 이여, 인, 조차, 처럼, 커녕, 키, 하게, 하고, 하기, 하는, 하면, 한테, "." >
한편, 형태소군은 문장의 시작이나 의존형태소의 종료시점에서부터 의존형태소가 발견될때까지의 범위로 정의하는데, 예를 들면, 다음과 같은 텍스트 객체에 대하여 강조된 부분이 의존형태소이다.
< 국내 에서도 상용 소프트웨어 개발 자바언어응용 채택 하는 개발업체 들이 잇따르 있다. >
따라서 상기 예문에서 추출되는 형태소군은 "국내", "상용소프트웨어 개발", "자바 언어 응용", "채택", "개발업체", "잇따르고", "있다" 등 7개가 되며, 이와 같이 상기 형태소군은 의존형태소에 의해 구분된다.
또한 추출된 형태소군을 글로브의 원소로 하여 AVL 트리 알고리즘을 적용한 형태소군 글로브를 생성한다.
상기와 같이 형태소군 글로브 생성기(31)에서 결과 글로브(32)를 생성하면 하이퍼링크 생성기(33)는 상기 결과 글로브의 각 형태소군에서 용어/약어를 추출하고 하이퍼링크 정보를 수록한 형태소군 글로브(34)를 생성한다.
이 때, 상기 용어/약어의 추출방법으로는 형태소군의 단어를 분리하여 순서적 조합을 만들고 그 순서적 조합을 용어/약어 사전과 비교하여 사전에 존재하는 조합을 하이퍼링크 객체로 결정한다. 특히, 복합명사와 같이 여러 개의 조합이 나올 경우에는 조합의 개수와 순서가 우선순위로 부여된다.
예를들어 "자바 언어 응용"이라는 형태소군에 대해서 순서적 조합의 경우의수는 다음과 같이 6가지이며 순서대로 우선순위가 부여된다.
(자바 언어 응용) > (자바 언어) > (언어 응용) > (자바) > (언어) > (응용)
만약 용어/약어 사전에 "자바언어", "언어응용", "언어", "자바" 등이 존재한다면, 이들 중 우선 순위가 가장 높은 것이 "자바언어"이므로 하이퍼링크 객체로서 추출되는 조합은 (자바언어)이다.
따라서, 상기 하이퍼링크 생성기(33)에서는 "자바 언어 응용"이라는 형태소군에 대하여 "자바 언어"부분에 대한 하이퍼링크 정보를 글로브에 수록하게 된다. 또한, 2개 이상으로 이루어진 조합은 다음과 같은 여러개의 내부조합을 가지며 이러한 내부조합은 모두 동일것으로 처리한다.
(자바 언어 응용) : (자바 언어 응용),(자바언어응용),(자바 언어응용),(자바언어 응용)
(자바 언어) : (자바 언어), (자바언어)
(언어 응용) : (언어 응용), (언어응용)
도 6은 본 발명의 문서 포맷터에 대한 구성도로서, 도 6을 참조하면, 문서 포맷터는 상기 형태소 분석기(30)에서 출력되는 형태소군 글로브(34)를 검색하는 글로브 검색기(41)와, 용어/약어 사전(70)을 참조하여 하이퍼링크 객체의 하이퍼텍스트 태그를 추가하기 위한 사전검색기(42)와, 상기 글로브 검색기(41)의 출력을HTML 문서나 텍스트, 또는 문자변수로 생성하기 위한 문서생성기(43)로 구성된다.
이 때, 상기 글로브 검색기(41)는 형태소군 글로브의 하이퍼링크 객체를 검색하여 사전검색기(42)에 넘겨주고 상기 사전검색기(42)는 용어/약어 사전(70)을 검색하여 하이퍼링크 태그에서 사용되는 질의(Query)를 명확하게 해주며, 문서 생성기(43)는 상기 글로브 검색기(41)에서 출력된 형태소군 글로브의 모든 정보를 순차적으로 검색하여 파일이나 스트링(String) 변수에 기록/저장하는 기능을 갖는다.
한편, 도 7은 이러한 본 발명의 하이퍼링크 생성기에 의해 생성된 최종 결과 문서(71) 및 용어/약어 사전(72)에 대한 예시도로서, 도 7을 참조하면, 상기 최종 결과 문서(71)의 내용중 용어/약어 사전(72)에 등록된 용어/약어가 하이퍼링크되었음을 알수 있다.
이 때, 사전(72)의 구축은 텍스트 문서로 쉽게 만들 수 있으며 용어/약어의 식별자로서 콤마(,), 세미콜론(;), 따옴표(" ") 등을 사용하며, 동일한 라인의 식별자에 의한 용어/약어는 동의어로 인식한다. 즉, 상기 용어/약어 사전(72)의 "인터넷"과 "INTERNET", "컴퓨터"와 "COMPUTER"는 동의어이다.
한편, 상기 HTML 문서(71)에서 첫 번째 내용 태그인 <P> 및 </P> 사이에 존재하는 내용중 마지막 라인인 태그 "<A Href = "TermSearch?key = 문서 표준"> 문서표준 </A>" 부분을 보면 하이퍼링크 객체는 "문서표준"이지만 질의는 "표준 문서"이다. 이는 하이퍼링크 객체의 내부조합이 모두 동일한 것으로 처리되기 때문에 용어/약어 내용검색을 위한 질의는 용어/약어 사전에 있는 것으로 생성되어야 하기 때문이다.
상기와 같은 본 발명은 HTML 분석 기술과 형태소 분석 기법을 응용하여 간결하면서도 빠르게 용어/약어를 추출하고 이를 인터넷의 HTML 환경에서 쉽게 활용할 수 있도록 하이퍼링크된 문서를 생성하도록 함으로써, 인터넷 웹기반의 전문 정보시스템 등에서 정보의 내용에 있어서 생소한 용어/약어의 사용과 분야별 중복사용으로 인한 사용자의 모호성을 해결할 수 있다.
또한, 이를 위해 수작업에 의해 처리하고 있는 HTML 문서의 용어/약어 하이퍼링크 작업을 자동으로 처리함으로써 오류를 피할 수 있고 비용절감의 효과를 기대할 수 있으며 기술적으로는 용어/약어 추출을 위한 새로운 한글 형태소 분석 방법을 제시함으로써 국내 인터넷 관련 정보서비스 분야의 기반기술의 축적에 기여할 수 있다.

Claims (7)

  1. HTML 또는 텍스트로 구성된 소스 문서의 입력에 의해 동작하며, 상기 HTML 문서의 실제 내용 부분을 분석/추출하여 텍스트 객체 리스트를 생성하는 HTML 분석기;
    사전에 구축된 형태소 사전과 한글 용어/약어 사전을 이용하여 상기 HTML 분석기에서 출력되는 텍스트 객체 리스트에 대한 형태소 분석을 통한 용어/약어를 추출하고 하이퍼링크 객체정보를 생성하는 형태소 분석기; 및
    상기 형태소 분석기의 결과를 이용하여 하이퍼링크된 문서를 출력하는 문서포맷터로 구성된 것을 특징으로 하는 HTML 기반 한글 용어/약어 하이퍼링크 생성기.
  2. 제 1 항에 있어서, 상기 HTML 분석기는
    내부의 HTML 명세에 의해 외부에서 입력받은 HTML 문서를 원소 분석처리하는 문서 분석기; 및
    그 문서 분석기의 처리 결과에 대하여 토큰화 및 변환 처리하여 인덱스, 위치, 길이 등의 객체 정보와 함께 텍스트 객체를 만들고 이들의 모임인 텍스트 객체 리스트를 생성하도록 하는 문서 변환기로 구성된 것을 특징으로 하는 HTML 기반 한글 용어/약어 하이퍼링크 생성기.
  3. 제 1 항에 있어서, 상기 형태소 분석기는
    상기 HTML 분석기의 결과인 텍스트 객체 리스트가 입력되면 그 텍스트 객체 리스트를 형태소 사전을 참조하여 텍스트 객체 단위로 형태소를 분석하고 형태소군 글로브를 생성하는 형태소군 글로브 생성기; 및
    상기 용어/약어 사전을 참조하여 상기 형태소군 글로브 생성기에서 출력되는 형태소군 글로브에서 용어/약어를 추출하고 객체 링크를 수행하는 하이퍼링크 생성기로 구성된 것을 특징으로 하는 HTML 기반 한글 용어/약어 하이퍼링크 생성기.
  4. 제 1 항 또는 제 3 항에 있어서, 상기 형태소 분석기는
    상기 형태소를 독립적으로 쓰일 수 있는 자립형태소와 그렇지 않은 의존형태소로 분리하고 용어/약어 사전과 의존형태소 사전만을 가지고 용어/약어를 추출하도록 하는 것을 특징으로 하는 HTML 기반 한글 용어/약어 하이퍼링크 생성기.
  5. 제 3 항에 있어서, 상기 하이퍼링크 생성기는
    형태소군의 단어를 분리하여 순서적 조합을 만들고 그 순서적 조합을 용어/약어 사전과 비교하여 사전에 존재하는 조합을 용어/약어로 추출하여 하이퍼링크 객체로 결정하는 것을 특징으로 하는 HTML 기반 한글 용어/약어 하이퍼링크 생성기.
  6. 제 3 항에 있어서, 상기 하이퍼링크 생성기는
    형태소군의 단어를 분리하여 순서적 조합을 생성할 때 복합명사와 같이 여러 개의 조합이 나올 경우에는 조합의 개수와 순서에 따라 우선순위를 부여하고 용어/약어 사전에 존재하는 단어중 우선 순위가 높은 조합을 하이퍼링크 객체로 결정하는 것을 특징으로 하는 HTML 기반 한글 용어/약어 하이퍼링크 생성기.
  7. 제 1 항에 있어서, 상기 문서 포맷터는
    상기 형태소 분석기에서 출력되는 형태소군 글로브의 하이퍼링크 객체를 검색하여 출력하는 글로브 검색기;
    상기 글로브 검색기에서 출력되는 형태소군 글로브의 하이퍼링크 객체에 대한 하이퍼텍스트 태그를 추가하기 위해 상기 용어/약어 사전을 검색하고 그 검색 결과를 상기 글로브 검색기로 출력하는 사전검색기; 및
    상기 글로브 검색기에서 출력된 형태소군 글로브의 모든 정보를 HTML 문서나 텍스트, 또는 문자 변수로 생성하기 위해 상기 형태소군 글로브의 모든 정보를 순차적으로 검색하여 파일이나 스트링 변수에 기록/저장하는 문서 생성기로 구성된 것을 특징으로 하는 HTML 기반 한글 용어/약어 하이퍼링크 생성기.
KR10-1999-0024696A 1999-06-28 1999-06-28 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기 KR100374114B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-1999-0024696A KR100374114B1 (ko) 1999-06-28 1999-06-28 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-1999-0024696A KR100374114B1 (ko) 1999-06-28 1999-06-28 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기

Publications (2)

Publication Number Publication Date
KR20010004090A KR20010004090A (ko) 2001-01-15
KR100374114B1 true KR100374114B1 (ko) 2003-03-03

Family

ID=19595962

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-1999-0024696A KR100374114B1 (ko) 1999-06-28 1999-06-28 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기

Country Status (1)

Country Link
KR (1) KR100374114B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100837797B1 (ko) * 2006-09-22 2008-06-13 고려대학교 산학협력단 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법, 그기록 매체 및 약어 생성 유형을 고려하는 약어 사전 자동구축 장치
KR100863418B1 (ko) * 2007-03-26 2008-10-14 주식회사 엔씨소프트 컴퓨터를 이용하여 작성되는 문서의 하이퍼 링크 처리 방법
KR100973893B1 (ko) * 2008-02-20 2010-08-03 (주)게이트위즈 사용자 요청에 의한 html문서에 추가 링크정보를 부가하는 웹브라우징 시스템 및 웹브라우징 방법
WO2010124424A1 (en) * 2009-04-29 2010-11-04 Google Inc. Short point-of-interest title generation

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970017011A (ko) * 1995-09-04 1997-04-28 양승택 정보 검색시스템에서의 자동 색인방법
KR980004135A (ko) * 1997-12-05 1998-03-30 양승택 전자기술 매뉴얼의 생성 처리 시스템 및 그 배포 방법
KR19990040514A (ko) * 1997-11-18 1999-06-05 정선종 씨지아이 프로그램 자동생성 방법
KR20000015619A (ko) * 1998-08-31 2000-03-15 정선종 웹 문서 자동 생성장치 및 그 방법
KR20000037595A (ko) * 1998-12-01 2000-07-05 정선종 온라인 상점 상의 제품 정보 자동 색인 방법 및 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970017011A (ko) * 1995-09-04 1997-04-28 양승택 정보 검색시스템에서의 자동 색인방법
KR19990040514A (ko) * 1997-11-18 1999-06-05 정선종 씨지아이 프로그램 자동생성 방법
KR980004135A (ko) * 1997-12-05 1998-03-30 양승택 전자기술 매뉴얼의 생성 처리 시스템 및 그 배포 방법
KR20000015619A (ko) * 1998-08-31 2000-03-15 정선종 웹 문서 자동 생성장치 및 그 방법
KR20000037595A (ko) * 1998-12-01 2000-07-05 정선종 온라인 상점 상의 제품 정보 자동 색인 방법 및 시스템

Also Published As

Publication number Publication date
KR20010004090A (ko) 2001-01-15

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US7174290B2 (en) Multi-language document search and retrieval system
US5680628A (en) Method and apparatus for automated search and retrieval process
US8027966B2 (en) Method and system for searching a multi-lingual database
US7516125B2 (en) Processor for fast contextual searching
KR100408637B1 (ko) 유사어 추출 및 문서 검색을 위한 방법 및 시스템
JP2742115B2 (ja) 類似文書検索装置
US20040117352A1 (en) System for answering natural language questions
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
US20050203900A1 (en) Associative retrieval system and associative retrieval method
WO2007016232A2 (en) Processor for fast phrase searching
KR100374114B1 (ko) 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
KR970049752A (ko) 동사정보를 이용한 한국어 자연어 질의 정보검색 방법
JPH03229367A (ja) テキストベース検索方式
JPH0827803B2 (ja) テキストベース検索方法
JPH0320866A (ja) テキストベース検索方式
Mráková et al. From Czech morphology through partial parsing to disambiguation
Thomas et al. Bhilai Institute of Technology Durg at TAC 2010: Knowledge Base Population Task Challenge.
JPH05225232A (ja) テキスト自動前編集装置
JPH03129468A (ja) 英日機械翻訳装置
JPH086950A (ja) キーワード翻訳機能付き機械翻訳装置
JPH0628391A (ja) 辞書生成システム
JPS62262178A (ja) 言語解析装置
JPH04180167A (ja) 英語形態素解析装置

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20101230

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20111031

Year of fee payment: 20

EXPY Expiration of term