KR20010060048A - 웹 문서의 태그를 이용한 용어 가중치 할당 방법 - Google Patents

웹 문서의 태그를 이용한 용어 가중치 할당 방법 Download PDF

Info

Publication number
KR20010060048A
KR20010060048A KR1019990068047A KR19990068047A KR20010060048A KR 20010060048 A KR20010060048 A KR 20010060048A KR 1019990068047 A KR1019990068047 A KR 1019990068047A KR 19990068047 A KR19990068047 A KR 19990068047A KR 20010060048 A KR20010060048 A KR 20010060048A
Authority
KR
South Korea
Prior art keywords
tag
weight
document
term
frequency
Prior art date
Application number
KR1019990068047A
Other languages
English (en)
Other versions
KR100574889B1 (ko
Inventor
이종혁
권오욱
Original Assignee
이계철
한국전기통신공사
정명식
학교법인 포항공과대학교
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이계철, 한국전기통신공사, 정명식, 학교법인 포항공과대학교 filed Critical 이계철
Priority to KR1019990068047A priority Critical patent/KR100574889B1/ko
Publication of KR20010060048A publication Critical patent/KR20010060048A/ko
Application granted granted Critical
Publication of KR100574889B1 publication Critical patent/KR100574889B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

1. 청구범위에 기재된 발명이 속하는 기술분야
본 발명은 웹 문서의 자동 분류 방법에 관한 것으로, 특히, 웹 문서의 태그(tag)를 이용한 용어 가중치 할당 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체에 관한 것임.
2. 발명이 해결하고자 하는 기술적 과제
본 발명은 웹 문서 작성자에 따라 달라질 수 있는 태그(tag) 가중치를 자동적으로 선정하고, 또한 선정된 태그(tag) 가중치를 이용하여 웹 문서에 나타나는 용어에 가중치를 할당하기 위한, 웹 문서의 태그(tag)를 이용한 용어 가중치 할당 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공하는데 그 목적이 있음.
3. 발명의 해결 방법의 요지
본 발명은 문서의 자동 분류 시스템에 적용되는 웹 문서의 태그(tag)를 이용한 용어 가중치 할당 방법에 있어서, 가중치를 할당하고자 하는 용어에 대응하는 태그의 출현 빈도와 상기 태그 사용의 적법성을 고려하여 상기 태그에 대한 가중치를 설정하는 제 1 단계; 및 상기 태그의 가중치를 이용하여 상기 용어의 가중치를 할당하는 제 2 단계를 포함함.
4. 발명의 중요한 용도
본 발명은 문서 검색 시스템과 문서 분류 시스템 등에 이용됨.

Description

웹 문서의 태그를 이용한 용어 가중치 할당 방법{Term Weighting Method Using Tag On Web Document}
본 발명은 웹 문서의 자동 분류 방법에 관한 것으로, 특히, 웹 문서의 태그(tag)를 이용한 용어 가중치 할당 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체에 관한 것이다.
정보 검색에서는 문서의 내용을 그 문서에 존재하는 단어나 구들로 내부 표현을 하여 사용자 질의에서 나타나는 단어나 구와 일치하는 문서들을 사용자의 관심 정보를 가진 문서로 본다. 이때, 문서를 나타내는 가중치가 높은 단어나 구가 사용자 질의문과 일치할 경우, 그 문서가 사용자 질의에 적합한 문서로 볼 수 있다.
그러므로, 단어나 구가 문서를 얼마나 잘 나타내고 있는가에 대한 가중치 할당이 정보 검색에서 중요한 역할을 한다. 또한, 문서 분류에서도 각 문서가 어떠한 분류에 속할 것인가에 대한 것도 문서에 나타나는 용어들의 가중치가 상당히 중요한 역할을 한다.
일반적으로 용어가 문서를 얼마나 잘 나타내는가의 측정 방법으로 대표성과 차별성을 들 수 있다.
즉, 용어의 대표성은 용어가 그 문서를 얼마나 대표할 수 있는가에 대한 측정이고, 차별성은 다른 문서와 현재 문서와의 차별을 그 용어가 나타내고 있는가에 대한 측정이다.
종래의 방법에서는 용어 대표성을 문서에서 그 용어의 빈도수로 표현하였다. 이것은 빈도수가 많은 용어가 문서를 잘 대표한다고 가정한 것이다.
그리고, 용어 차별성은 용어가 얼마나 많은 문서들에서 나타나는가에 대한 빈도수의 역 개념으로 한다. 이러한 방법을 용어의 문서 역빈도수라고 한다. 적은 문서에서 나타나는 용어가 그 문서를 다른 문서들과 차별할 수 있다고 보는 것이다. 그러므로, 어떤 문서에서 한 용어의 가중치는 용어 빈도수와 용어의 문서 역빈도수를 가지고 표현한다.
한편, 인터넷의 발전으로 웹 문서들의 증가는 꾸준히 늘어나고 이러한 웹 문서들은 새로운 미디어로서 정보 제공 및 전자 상거래 등을 통하여 생활의 질을 향상하고 있다.
이러한 웹 문서들의 증가로 현재 가장 필요로 하는 핵심 기술은 웹 문서의 정보를 쉽고 정확하게 찾기 위한 웹 검색 기술과 웹 문서들을 자동 분류하여 관리 및 검색의 효율을 증가하는 것으로 볼 수 있다. 이러한 기술들은 문서 처리 기술에서 기인한 것으로 문서에 나타나는 내용을 표현하여야만 가능하다.
이러한 문서 표현 방법을 색인 방법이라고 한다. 색인 방법에 의하여 웹 문서를 다루는 웹 검색이나 자동 분류의 성능의 향상을 가질 수 있다. 일반적으로 웹 문서 표현은 그 문서에 나타나는 용어(단어나 구)들로 표현하고 각 용어의 가중치에 따라 그 문서를 그 용어가 얼마나 잘 나타내고 있는가를 나타낸다. 그러므로, 용어의 가중치를 할당하는 방법은 웹 문서 처리의 성능을 좌우하게 된다.
일반적인 문서와 달리 웹 문서에는 그 용어가 제목에 나타나는지에 대한 정보, 또는 그 용어에 밑줄 또는 색깔 등으로 중요한가를 표현하기도 한다. 그러므로 이러한 정보를 용어 가중치에 사용하게 되면, 웹 문서에서 용어의 가중치를 나타내는 데에 보다 효과적일 것이다. 이러한 정보는 웹 문서가 하이퍼텍스트 마크업 랭귀지(HTML:HyperText Markup Language)(이하, 간단히 "HTML"이라함)로 작성될 때, HTML 마크업 태그(markup tag)에 의해서 표현되어 있어 쉽게 사용할 수 있다.
그러나, 종래의 기술에 있어서는, 웹 문서 작성자에 따라 어떠한 태그(tag)가 용어를 보다 중요하게 나타내는가에 대한 생각이 달라질 수 있으며, 특히, 웹 문서 작성자에 따라서는 거의 모든 내용을 다른 사용자들이 중요한 용어에만 사용하는 태그(tag)를 사용하여 작성할 수 있음에도 불구하고, 사용자에 따른 태그(tag) 가중치에 대한 차이를 자동적으로 알 수 있는 방법이 없다는 문제점이 있었다.
본 발명은 상기 문제점을 해결하기 위하여 안출된 것으로, 웹 문서 작성자에 따라 달라질 수 있는 태그(tag) 가중치를 자동적으로 선정하고, 또한 선정된 태그(tag) 가중치를 이용하여 웹 문서에 나타나는 용어에 가중치를 할당하기 위한, 웹 문서의 태그(tag)를 이용한 용어 가중치 할당 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공하는데 그 목적이 있다.
도 1 은 본 발명이 적용되는 문서 분류 시스템의 일실시예 구성도.
도 2 는 본 발명에 따른 태그 가중치 적용에 대한 개념을 나타낸 일예시도.
도 3 은 본 발명이 적용되는 HTML 문서의 일예시도.
도 4 는 본 발명이 적용되는 웹 문서 작성자에 따라 달라지는 하이퍼텍스트 마크업 랭귀지(HTML markup tag)의 사용 빈도와 평균적인 사용빈도를 비교한 일예시도.
도 5 는 본 발명에 따른 용어 가중치 할당 방법의 일실시예 흐름도.
상기 목적을 달성하기 위한 본 발명은, 문서의 자동 분류 시스템에 적용되는 웹 문서의 태그(tag)를 이용한 용어 가중치 할당 방법에 있어서, 가중치를 할당하고자 하는 용어에 대응하는 태그의 출현 빈도와 상기 태그 사용의 적법성을 고려하여 상기 태그에 대한 가중치를 설정하는 제 1 단계; 및 상기 태그의 가중치를 이용하여 상기 용어의 가중치를 할당하는 제 2 단계를 포함한다.
또한, 본 발명은 웹 문서의 태그(tag)를 이용한 용어 가중치 할당을 위하여, 대용량 프로세서를 구비한 문서 자동 분류 시스템에, 가중치를 할당하고자 하는 용어에 대응하는 태그의 출현 빈도와 상기 태그 사용의 적법성을 고려하여 상기 태그에 대한 가중치를 설정하는 제 1 기능; 및 상기 태그의 가중치를 이용하여 상기 용어의 가중치를 할당하는 제 2 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공한다.
본 발명은 날로 증가하고 있는 웹 문서 검색이나 자동 분류에서 핵심 기술인 용어 가중치 할당 방법을 기존의 용어 가중치 할당과는 달리 웹 문서에 존재하는 HTML 태그 정보를 이용하여 용어 가중치 할당을 함으로써 웹 문서 작성자가 고려한 용어에 대한 문서 표현력을 나타낼 수 있게 하였다.
즉, 웹 문서에서의 용어 가중치 계산을 위하여, HTML 태그를 일반적인 관점에서 가중치를 정의하였고, 웹 문서 작성자에 따라 일반적인 HTML 태그 가중치와 다르게 사용하는 경우에 대한 통계적 처리를 하여 용어 가중치를 설정하는데 도움을 주는 방법을 채택하였다.
이하, 도 1 내지 도 5 를 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 1 은 본 발명이 적용되는 문서 분류 시스템의 일실시예 구성도로서, 도면에 도시된 바와 같이, 용어의 가중치를 할당받고자 하는 문서가 입력장치(101)를 통하여 입력되면 중앙처리장치(102)는 상기와 같은 과정을 통해 용어의 가중치를 할당하여 출력장치(103)를 통해 그 결과를 출력한다.
도 2 는 본 발명에 따른 태그 가중치 적용에 대한 개념을 나타낸 일예시도이며, 도 3 은 본 발명이 적용되는 HTML 문서의 일예시도로서, 한국의 명절에 대해 소개하는 웹 문서를 HTML으로 코딩한 것이다. 또한, 도 4 는 본 발명이 적용되는 웹 문서 작성자에 따라 달라지는 하이퍼텍스트 마크업 랭귀지(HTML markup tag)의 사용 빈도와 평균적인 사용빈도를 비교한 일예시도이며, 도 5 는 본 발명에 따른 용어 가중치 할당 방법의 일실시예 흐름도이다.
일반적으로 문서를 표현하는 방법은 전통적인 정보검색의 색인에서 많이 사용하는 벡터 공간 모델을 이용한다. 벡터 공간 모델에서 문서를 표현하는 구조는 용어(term)들의 벡터로 표현한다. 용어는 단어나 구를 언급한다.
벡터 공간 모델에서 문서 Di에 대한 내부 표현으로 사용하는 용어 벡터(term vector)는 아래의 [수학식 1]과 같은 형식이다. [수학식 1]에서 WWj는 문서 Di에서 용어 Wj가 가지는 가중치이다.
여기서 단어 가중치라 함은 그 문서의 내용을 표현하기 위해서 그 단어가 어느만큼 중요한가에 대한 값을 말한다.
[수학식 1]에서 n 은 전체 문서 집합에서 나타나는 단어들의 전체 수를 의미한다. 문서 Di에서 단어 Wj가 나타나지 않을 경우에는 단어 Wj에 대한 단어 가중치 WWj는 0이 된다.
일반적으로 문서에 대한 단어 가중치 계산 방법은 용어 빈도수(term frequency)와 문서 역빈도(inverse document frequency)를 이용한다.
본 발명에서는 전통적인 용어 빈도수와 문서 역빈도에 의한 단어 가중치 계산보다 더 좋은 실험결과를 보이고 있는 방법을 이용한다.
즉, 본 발명에서는 전통적인 가중치 계산법을 변형시킨 단어 가중치를 이용한다.
우선, 웹 문서에서의 문서 구조 정보인 HTML 태그(tag)의 정보를 가중치 계산에 배제하였을 경우, 즉 일반적인 문서에서의 색인어의 가중치에 대해서만 고려하고 이 가중치 계산식에서부터 웹 문서일 경우에 발생하는 문서 구조 정보를 부여하여 가중치를 계산하는 식을 유도한다.
먼저, 종래의 가중치 계산 방법으로서 용어 빈도수와 문서 역빈도만을 이용하여 가중치를 구하기 위한 식이 아래의 [수학식 2]이다. 즉, 일반적인 문서 d 에 나타나는 단어 Wi의 종래의 가중치 계산 방법에 의한 가중치 Wd,Wi는 아래의 [수학식 2]와 같다.
[수학식 2]에서 단어 빈도수 계산 영역인 왼쪽의 첫 번째 수식에서 문서에 나타나는 빈도 수로 정규화(normalization)를 한 이유는 문서가 많은 단어들을 가지는 경우에 대한 보상으로 행하여 진다. 그리고, 단어 빈도수 계산에서 전통적인 방법과 달리 대수(logarithm)를 취한 이유는 문서에서 어느 정도로 많이 나타나는 단어들에 가중치를 비슷하게 하기 위함이다.
다음으로, 본 발명에 따른 HTML 태그 가중치를 이용한 계산 방법을 설명한다.
즉, 본 발명은 웹 문서에 나타나는 구조 정보를 이용하기 위해서, 색인어 가중치 부여에서 사용되는 단어 빈도수를 계산할 때, HTML 태그 가중치 개념을 도입한다.
이는 문서를 작성하는 사람이 내용을 이해하기 쉽도록 구성하려고 노력한다는 것을 전제로 한 것이다. 즉, 문서의 내용이 보다 쉽게 이해되도록 하기 위해서 문서의 내용을 큰제목, 소제목 등으로 내부를 구조화하여 배치하고, 이러한 제목에는 문서의 주제를 보다 잘 나타내는 중요한 용어를 사용하리라는 것이다.
그리고, 내용 중에 나타나는 중요한 단어는 글자를 크게 하거나 글자체를 다르게 하거나, 글자의 색을 다르게 하는 것도 예상할 수 있다. 또한, 주제의 흐름을 훼손하지 않으면서 특정 관심사항에 대한 불연속적인 참조가 가능하도록 문서간 연결 구조를 이용하는데 이때 사용되는 단어도 연결되는 문서를 대표하는 성격을 가지므로 중요한 자질이 될 수 있다.
따라서, 태그가 문서의 주제어를 부각시킬 것이라는 점을 고려하면 문서를 나타내는 자질을 보다 잘 표현할 수 있을 것으로 생각된다. 도 2 는 이러한 개념을 나타낸 것이다.
즉, 문서를 대표하는 정도면에서 각 단어가 동일하다는 개념에서 태그 가중치라는 증폭 체계를 사용하여 중요하다고 생각되는 단어들이 문서를 대표하는데 더 큰 역할을 하도록 하자는 것으로, 문서의 주제어를 부각시키는 효과가 있다.
한편, 도 3 에 도시된 웹 문서의 제목은 페스티발(Festivals)이며 <타이틀>(<title>)(이하, .간단히 "<title>"이라함) 태그가 붙어 있다.
그리고, 본문은 <바디>(<body>)(이하, 간단히 "<body>"라함) 태그로 구분되어 한국의 명절에 대한 개략적인 설명이 텍스트로 표현되어 있다.
그리고, 항목별로 보다 상세한 내용에 대한 조회를 위해 <에이>(<a>)(이하, 간단히 "<a>"이라함) 태그가 하부 웹 문서를 연결하고 있다.
하부 웹 문서의 선택은 해당 항목 그림을 마우스로 클릭하는 것으로 이루어지는데 웹 문서를 읽어 볼 때 전송시간을 줄이기 위해 어떤 내용인가를 보고자 할 경우에 대비하여 <알트>(<alt>)(이하, 간단히 "<alt>"라함) 태그를 사용한다.
즉, 명절, 설날, 정월 대보름과 같이 한국의 명절이라는 주제를 나타내는데중요한 단어들이 <a> 태그와 <alt>태그로 구분되어 표시되고 있다. 즉, <a> 또는 <alt> 태그는 <body>와 같은 내용을 상대적으로 축약한 내용이므로 중요한 태그로 구별이 되어야 함을 알 수 있다. 여기에서는 이상과 같은 관찰 결과를 바탕으로 하여 태그 별로 중요도를 직관에 의존할 수 밖에 없다.
즉, 일반적으로 중요하게 생각되는 태그들에 대한 가중치를 설정한다는 의미이다. 이는 각 태그들이 모든 사용자에게 모두 동일한 중요도를 가질 때에만 효과적이다.
본 발명에서는 무수한 실험의 결과로 다음과 같이 3 그룹으로 태그를 가중치에 따라 구분하였다. 태그를 세밀히 구분하여 여러 가중치 그룹을 설정한 경우가 보다 효과적일 것으로 생각할 수 있으나, 너무나도 많은 웹 문서 작성자들이 있고 그들이 세밀한 경우에 대해서도 태그에 대한 중요도를 일치하지 않기 때문에, 다음과 같이 모든 사용자들이 어느 정도 공감할 수 있게 단지 3그룹으로 표현하는 것이 더 효과적이다.
아래의 [표 1]에서 가중치는 용어가 그 태그로 한 번 나타났을 때의 빈도를 얼마만큼 증폭하는가를 나타내고 있다. 예를 들어, <title> 태그를 가진 용어 페스티발(festivals)은 웹 문서에서 한번 나타났지만, 3번 나타난 것으로 한다는 것이다.
HTML 태그 가중치 정의
구분 가중치 태 그
group 1 3 <title>, <meta_keyword>, <h1>
group 2 2 <meta_description>, <h2>, <dt>, <dfn>, <caption>, <abstract>, <ul>, <option>, <ol>, <menu>, <h3-h7>, <head>, <dir>, <alt>, <a>, <strong>, <strike>, <tt>, <em>, <blink>, <big>, <u>, <I>, <b>, <samp>, <role>, <q>, <note>, <margin>, <footnote>, <cite>, <blockquota>, <small>
group 3 1 나머지 태그이거나 태그가 없는 경우
즉, 본 발명에 따른 용어 가중치 할당을 위해서는 먼저 상기한 바와 같이 각 태그별 가중치를 산정하여야 한다(501).
한편, 이렇게 적절하게 태그를 사용하는 경우 이외에 태그를 무분별하게 사용하는 경우도 충분히 예상할 수 있다. 즉 도 4 와 같이 문서 집합의 웹 문서에서 텍스트의 표현에 사용되는 태그의 빈도를 구하였을 때 통계적으로 특정 태그의 사용 빈도는 평균에서 크게 벗어나지 않을 것으로 생각된다.
즉, 특정 웹 페이지가 특정 태그를 과도하게 사용한 경우는 예외적인 경우이며, 이때에도 태그 가중치를 그대로 반영하면 그 태그가 붙어 있는 텍스트가 문서의 표현에서 지배적인 역할을 하게 되는 부작용이 발생한다. 도 4 에서 막대 그래프의 왼쪽 부분은 특정 문서에서의 태그 빈도이고 오른쪽 부분은 문서 집합 전체의 태그 빈도이다. 이때 태그 Tk는 문서 집합의 평균 빈도에 비해 과도하게 사용된 예가 된다.
태그가 과도하게 사용되었다는 것은 실제 그 태그가 웹 페이지에서 많이 사용된 것보다 태그에 의해 영향을 받는 단어의 수가 많다는 것이다. 그러므로, 태그의 빈도수보다는 태그가 달리 단어의 수로 태그가 무분별하게 사용되었는지 아닌지를 파악해야 한다.
웹 페이지에서 한 번 이하로 나타나는 태그의 경우에는 그 태그 사용이 항상 일정하게 필요하기 때문이므로, 태그가 달린 단어 수와는 상관없이 항상 일정하게 값을 부여해야 한다. 그러므로, 이러한 태그들은 태그가 사용된 단어 빈도수와는 상관없이 [표 1]의 가중치 값을 가져야 한다. 그리고, [표 1]의 group 3에 해당하는 태그들은 태그 자체를 무시하기 때문에, 무분별하게 사용되었는지에 대한 파악이 필요없이 항상 일정한 최소의 값 1을 부여해야 한다. [표 2]에서 태그 가중치가 항상 유지되어야 할 태그들을 정의한다.
구분 가중치 태 그
group 1 3 <title>, <meta_keyword>
group 2 2 <meta_description>
group 3 1 [표 1]에서 group 3으로 정의된 모든 경우
태그의 사용 목적이 유사한 태그들은 특히 문서 작성자의 기호에 따라 사용되기도 하고 그렇지 않을 경우도 있다. 이런 형태의 태그들은 그 태그 자체만으로 무분별하게 사용되었는지 아닌지를 판별하기가 어렵다. 그러므로, 태그의 사용 목적이 유사한 태그들을 하나의 형태로 분리해서 사용의 무분별성을 판단해야 한다. [표 3]은 태그 사용 목적이 유사한 태그들을 정의하였다. [표 3]의 태그들은 앞으로 같은 태그로 보고 처리를 한다.
그래서, 본 발명에서는 태그를 적절하게 사용하는 문서 작성자를 위해 태그별로 가중치를 부여하고, 남용되는 경우에 대비하여 태그가 달린 단어의 출현 빈도를 정규화하였다. 정규화 기준은 문서별 태그별 단어 분포와 전체 웹 문서의 태그별 단어 분포를 비교하여 태그 가중치를 적절하게 조절하는 것으로 아래의 [수학식 3]과 같다.
[수학식 3]에서 임의의 HTML 태그 (tag)k가 임의의 문서 Di에 나타났을 경우의 태그 tagk에 대한 가중치를 나타낸다.
[수학식 3]은 문서 내 특정 태그가 전체 웹문서 집합에서의 평균 빈도보다 많이 사용된 경우에 사용되며 반대인 경우에는 적용하지 않는다.
예를 들면 <a> 태그의 가중치가 2이고, 전체 웹문서 집합에서는 전체 태그 집합에서 <a> 태그의 사용 비율이 10% 인데, 문서에서는 20%가 사용되었을 경우, 10/20 = 0.5 가 되어 <a> 태그가 가지는 가중치는 처음 설정된 값의 1/2, 즉 3*0.5=1.0 가 된다.
반대인 경우에는 20/10=2가 되어 1보다 큰 값을 가지지만 2배로 하면 증폭되는 정도가 너무 심한 것으로 생각되어 최초에 설정된 가중치 2를 그대로 사용한다.
즉, 계산 결과가 1보다 크게 되면 그대로 1로 두고, 1보다 적으면 계산 값을 해당 태그의 가중치에 곱하는 것으로 한다.
또한, 너무 많이 사용된 문서와 같이 <a> 태그의 사용 비율이 40%인 경우, 10/40 = 0.25가 되어 <a> 태그의 가중치가 0.5가 되어 태그 가중치를 고려하지 않은 가장 낮은 값 1.0보다 작아지지 않도록 이와 같은 경우에는 가장 적은 값 1.0을할당한다.
즉, 본 발명에 따른 용어 가중치 할당을 위해서 각 태그별 가중치를 산정(501)한 후 할 일은, 상기한 바와 같이 각 태그의 빈도수를 고려하여 [수학식 3]을 이용해 각 태그별 가중치를 조정하는 것이다(502).
마지막으로, 임의의 문서에서 HTML 태그 tagk를 가지는 용어 Tp의 가중치를 계산하기 위해서는 [수학식 2]의 용어 가중치 계산식에 [수학식 3]의 태그 가중치 계산식을 결합하여야 한다(503). 즉, 아래의 [수학식 4]는 임의의 웹 문서에서 단어 Tp의 가중치를 계산하는 식이다.
[수학식 4]와 [수학식 2]와의 차이는 [수학식 2]에서는 단지 용어의 빈도 수를 용어 가중치 계산에 이용하였고, [수학식 4]에서는 용어가 출현하였을 경우, 그 용어의 현재 출현에 대한 태그 가중치를 그 출현 빈도 1 대신에 이용하여 전체 용어 가중치를 계산한다.
[수학식 4]에서는 문서에서 j 번째에 나타난 용어 Tp가 여러 개의 HTML 태그들에 둘러싸인 경우에 대한 명확한 정의가 없다. 본 발명에서는 한 용어의 출현에 여러 개의 태그들이 관련되었을 경우, 가장 큰 태그 가중치를 가지는 태그를 그 출현의 태그 가중치로 결정한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.
상기와 같은 본 발명은 웹 문서가 가지는 특성에 의해서 기존의 일반적인 문서와 다르게 용어 가중치를 할당하는 방법을 제안함으로써, 웹 문서 처리 응용 기술인 웹 검색, 웹 자동 분류 등의 성능을 향상시킬 수 있으며, 보다 효과적인 웹 문서 표현으로 많은 웹 문서 처리 응용 시스템의 효율을 높일 수 있는 우수한 효과가 있다.

Claims (4)

  1. 문서의 자동 분류 시스템에 적용되는 웹 문서의 태그(tag)를 이용한 용어 가중치 할당 방법에 있어서,
    가중치를 할당하고자 하는 용어에 대응하는 태그의 출현 빈도와 상기 태그 사용의 적법성을 고려하여 상기 태그에 대한 가중치를 설정하는 제 1 단계; 및
    상기 태그의 가중치를 이용하여 상기 용어의 가중치를 할당하는 제 2 단계
    를 포함하는 용어 가중치 할당 방법.
  2. 제 1 항에 있어서,
    상기 제 1 단계는,
    웹 문서의 각 태그에 대하여 상기 각 태그의 중요도에 따라 가중치를 설정하는 제 3 단계;
    가중치를 할당하고자 하는 용어에 대응하는 태그의 출현 빈도를 고려하여 상기 제 3 단계에서 설정한 상기 태그에 대한 가중치를 수정하는 제 4 단계; 및
    상기 태그의 사용 목적이 적법한지를 고려하여 상기 태그에 대한 가중치를 수정하는 제 5 단계
    를 포함하는 용어 가중치 할당 방법.
  3. 제 2 항에 있어서,
    상기 제 4 단계는,
    가중치를 할당하고자 하는 용어에 대응하는 태그의 출현 빈도가 일반적인 출현 빈도보다 많은 경우 상기 태그에 대한 가중치를 낮게 수정하는 제 6 단계; 및
    가중치를 할당하고자 하는 용어에 대응하는 태그의 출현 빈도가 일반적인 출현 빈도보다 적은 경우 상기 태그에 대한 가중치를 수정하지 않는 제 7 단계
    를 포함하는 용어 가중치 할당 방법.
  4. 웹 문서의 태그(tag)를 이용한 용어 가중치 할당을 위하여, 대용량 프로세서를 구비한 문서 자동 분류 시스템에,
    가중치를 할당하고자 하는 용어에 대응하는 태그의 출현 빈도와 상기 태그 사용의 적법성을 고려하여 상기 태그에 대한 가중치를 설정하는 제 1 기능; 및
    상기 태그의 가중치를 이용하여 상기 용어의 가중치를 할당하는 제 2 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
KR1019990068047A 1999-12-31 1999-12-31 웹 문서의 태그를 이용한 용어 가중치 할당 방법 KR100574889B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019990068047A KR100574889B1 (ko) 1999-12-31 1999-12-31 웹 문서의 태그를 이용한 용어 가중치 할당 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990068047A KR100574889B1 (ko) 1999-12-31 1999-12-31 웹 문서의 태그를 이용한 용어 가중치 할당 방법

Publications (2)

Publication Number Publication Date
KR20010060048A true KR20010060048A (ko) 2001-07-06
KR100574889B1 KR100574889B1 (ko) 2006-04-27

Family

ID=19635135

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990068047A KR100574889B1 (ko) 1999-12-31 1999-12-31 웹 문서의 태그를 이용한 용어 가중치 할당 방법

Country Status (1)

Country Link
KR (1) KR100574889B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100849272B1 (ko) * 2001-11-23 2008-07-29 주식회사 엘지이아이 마크업 문서 자동 요약 방법
KR20130143642A (ko) * 2011-03-14 2013-12-31 각코호진 큐슈분카가쿠엔 단백질s 이상증의 검출방법
KR20170022806A (ko) * 2015-08-21 2017-03-02 네이버 주식회사 자료 제공 장치, 방법, 및 컴퓨터 프로그램

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100849272B1 (ko) * 2001-11-23 2008-07-29 주식회사 엘지이아이 마크업 문서 자동 요약 방법
KR20130143642A (ko) * 2011-03-14 2013-12-31 각코호진 큐슈분카가쿠엔 단백질s 이상증의 검출방법
KR20170022806A (ko) * 2015-08-21 2017-03-02 네이버 주식회사 자료 제공 장치, 방법, 및 컴퓨터 프로그램

Also Published As

Publication number Publication date
KR100574889B1 (ko) 2006-04-27

Similar Documents

Publication Publication Date Title
US10095752B1 (en) Methods and apparatus for clustering news online content based on content freshness and quality of content source
US8082248B2 (en) Method and system for document classification based on document structure and written style
US8989450B1 (en) Scoring items
US9342583B2 (en) Book content item search
US8630972B2 (en) Providing context for web articles
KR100932999B1 (ko) 사용자 정보 및 콘텐츠에 기초하여 자동으로 생성된 링크에의한 문서 브라우징
US8849787B2 (en) Two stage search
US6912550B2 (en) File classification management system and method used in operating systems
JP4637181B2 (ja) 文書構造に基づいた検索結果の表示
WO2009096523A1 (ja) 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
US7523109B2 (en) Dynamic grouping of content including captive data
US8316032B1 (en) Book content item search
KR101098832B1 (ko) 개인화 검색 장치 및 방법
KR20130096004A (ko) 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템 및 그 방법
Xu et al. Extracting keywords from texts based on word frequency and association features
EP3706014A1 (en) Methods, apparatuses, devices, and storage media for content retrieval
JP3829506B2 (ja) 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体
KR100574889B1 (ko) 웹 문서의 태그를 이용한 용어 가중치 할당 방법
JP6426074B2 (ja) 関連文書検索装置、モデル作成装置、これらの方法及びプログラム
Fuxman et al. Improving classification accuracy using automatically extracted training data
JP2002288189A (ja) 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体
KR20020064821A (ko) 문서 장르 학습 시스템 및 그 방법과 그를 이용한 문서장르 분류시스템 및 그 방법
Balaji et al. Finding related research papers using semantic and co-citation proximity analysis
Bischoff et al. Automatically identifying tag types
JP2009211124A (ja) ワード提示システム、方法及びプログラム、並びに情報検索システム

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100409

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee