KR100836878B1 - 정보 검색 시스템에서의 주제 또는 분야 할당 장치 및 그방법 - Google Patents
정보 검색 시스템에서의 주제 또는 분야 할당 장치 및 그방법 Download PDFInfo
- Publication number
- KR100836878B1 KR100836878B1 KR1020060118759A KR20060118759A KR100836878B1 KR 100836878 B1 KR100836878 B1 KR 100836878B1 KR 1020060118759 A KR1020060118759 A KR 1020060118759A KR 20060118759 A KR20060118759 A KR 20060118759A KR 100836878 B1 KR100836878 B1 KR 100836878B1
- Authority
- KR
- South Korea
- Prior art keywords
- field
- subject
- tag
- thesaurus
- information retrieval
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 정보 검색 시스템에서의 주제 또는 분야 할당 장치 및 그 방법을 제공하기 위한 것으로, 인터넷을 통해 사용자 단말, 웹 포털 사이트, 웹 사이트와 연결되어 정보를 검색하고 검색된 정보를 제공하는 정보 검색 서버에 있어서, 상기 정보 검색 서버는, 질의어 또는 문서에 대응하는 색인어를 기반으로 문서에 대하여 정보 검색을 수행하는 검색 엔진과; 상기 검색 엔진에서 검색된 정보를 저장하고 관리하는 데이터베이스와; 상기 데이터베이스에 저장된 원문으로부터 색인어를 추출하여 색인어에 의한 시소러스 매칭을 수행하여 원문에 대한 주제 또는 분야 할당을 수행하는 시소러스 매칭부와; 상기 데이터베이스에 저장된 정의문으로부터 용어를 추출하여 추출한 용어에 의해 주제를 할당하고 택소노미를 사용하여 분야를 할당하는 택소노미 처리부;를 포함하여 구성함으로서, 시소러스가 미구축된 경우 택소노미를 이용하여 주제 또는 분야를 자동으로 할당하거나 태그 또는 폭소노미를 이용하여 주제 또는 분야를 자동으로 할당하여 정보 검색을 수행할 수 있게 되는 것이다.
정보 검색 시스템, 주제 또는 분야 할당, 시소러스(Thesaurus), 택소노미(Taxonomy), 폭소노미(Folksnomy)
Description
도 1은 종래 정보 검색 시스템을 이용한 인터넷 웹 포털 사이트와 그 주변블록의 블록구성도이다.
도 2는 본 발명의 일 실시예에 의한 정보 검색 시스템에서의 주제 또는 분야 할당 장치의 블록구성도이다.
도 3은 본 발명의 일 실시예에 의한 정보 검색 시스템에서의 주제 또는 분야 할당 방법에서 시소러스 구축시의 동작을 보인 흐름도이다.
도 4는 본 발명의 다른 실시예에 의한 정보 검색 시스템에서의 주제 또는 분야 할당 방법에서 시소러스 미구축시의 동작을 보인 흐름도이다.
도 5는 도 4에서 택소노미를 이용하여 분야를 자동 할당하는 동작을 보인 흐름도이다.
도 6은 도 4에서 태그를 이용하여 주제를 자동 할당하는 동작을 보인 흐름도이다.
도 7은 도 4에서 태그와 폭소노미를 이용하여 주제 또는 분야를 자동 할당하는 동작을 보인 흐름도이다.
< 도면의 주요 부분에 대한 부호의 설명 >
10 : 사용자 단말
20 : 웹 포털 사이트
30 : 웹 사이트
40 : 정보 검색 서버
41 : 검색 엔진
42 : 데이터베이스
43 : 시소러스 매칭부
44 : 택소노미 처리부
45 : 태그 처리부
46 : 폭소노미 처리부
본 발명은 정보 검색 시스템에 관한 것으로, 특히 시소러스가 미구축된 경우 택소노미(Taxonomy)를 이용하여 주제 또는 분야를 자동으로 할당하거나 태그(Tag) 또는 폭소노미(Folksnomy)를 이용하여 주제 또는 분야를 자동으로 할당하여 정보 검색을 수행하기에 적당하도록 한 정보 검색 시스템에서의 주제 또는 분야 할당 장 치 및 그 방법에 관한 것이다.
일반적으로 정보 검색 시스템은 정보 수요자가 필요하다고 예측되는 정보나 데이터를 미리 수집, 가공, 처리하여 찾기 쉬운 형태로 축적해 놓은 데이터베이스로부터 요구에 적합한 정보를 신속하게 찾아내어 정보 요구자에게 제공하는 시스템을 말한다.
종래에는 이러한 정보 검색 시스템을 활용하여 웹 포털 사이트를 구축하는 등 활용하였다.
도 1은 종래 정보 검색 시스템을 이용한 인터넷 웹 포털 사이트와 그 주변블록의 블록구성도이다.
여기서 참조번호 1은 PC(Personal Computer) 또는 무선 단말기 등을 이용하여 사용자가 유무선 라인을 통해 인터넷에 접속하여 웹 서비스를 이용할 수 있도록 하는 사용자 단말이고, 2는 인터넷을 통해 사용자가 접속하여 필요한 정보를 검색하고 이용할 수 있도록 하는 서비스를 제공하는 웹 포털 사이트이며, 3은 인터넷을 통해 각종 정보를 제공하는 웹 사이트이다.
그래서 웹 포털 사이트(2)에서는 정보 검색 시스템을 활용하여 인터넷 등을 통해 웹 사이트(3) 등에서 정보를 수집하고 가공하며 처리하며 사용자 단말(1)에게 검색된 정보를 제공하게 된다.
한편 최근 정보 검색 분야에서 한글 자연어처리 기술은 형태소 분석 및 구문 분석을 통하여 품사의 식별과 원형 그리고 문장 내에서의 역할 등을 상당 수준 검출할 수 있게 되었다.
그러나 정보통신 및 기술의 발달로 새로운 분야 및 용어가 급격히 증가하는 추세에서 종래의 정보 검색 방법을 적용하는 경우, 새로운 분야나 용어가 증가함에 따라 관련된 정보 검색 시스템을 수시로 경신하는 작업이 필요하다.
종래의 정보 검색 방법에서 정보의 급격한 증가에 따라 시스템 관리자 또는 정보 관리자가 수시로 색인어 데이터베이스(Database, DB) 및 문서 DB 등을 변경하여야 하는데, 종래의 경우에는 이러한 DB를 수작업으로 변경하여야 하기 때문에 유지보수에 많은 비용과 인력이 필요하다.
특히 방대한 문서에 대한 정보가 저장된 문서 DB를 수정하는 일은 많은 시간과 비용이 소용되기 때문에 수시로 실시하기 어려운 문제점이 있었다.
이에 본 발명은 상기와 같은 종래의 제반 문제점을 해결하기 위해 제안된 것으로, 본 발명의 목적은 시소러스가 미구축된 경우 택소노미를 이용하여 주제 또는 분야를 자동으로 할당하거나 태그 또는 폭소노미를 이용하여 주제 또는 분야를 자동으로 할당하여 정보 검색을 수행할 수 있는 정보 검색 시스템에서의 주제 또는 분야 할당 장치 및 그 방법을 제공하는데 있다.
상기와 같은 목적을 달성하기 위하여 본 발명의 일실시예에 의한 정보 검색 시스템에서의 주제 또는 분야 할당 장치는, 인터넷을 통해 사용자 단말, 웹 포털 사이트, 웹 사이트와 연결되어 정보를 검색하고 검색된 정보를 제공하는 정보 검색 서버에 있어서, 상기 정보 검색 서버는, 질의어 또는 문서에 대응하는 색인어를 기 반으로 문서에 대하여 정보 검색을 수행하는 검색 엔진과; 상기 검색 엔진에서 검색된 정보를 저장하고 관리하는 데이터베이스와; 상기 데이터베이스에 저장된 원문으로부터 색인어를 추출하여 색인어에 의한 시소러스 매칭을 수행하여 원문에 대한 주제 또는 분야 할당을 수행하는 시소러스 매칭부와; 상기 데이터베이스에 저장된 정의문으로부터 용어를 추출하여 추출한 용어에 의해 주제를 할당하고 택소노미를 사용하여 분야를 할당하는 택소노미 처리부;를 포함하여 이루어짐을 그 기술적 구성상의 특징으로 한다.
상기와 같은 목적을 달성하기 위하여 본 발명의 일실시예에 의한 정보 검색 시스템에서의 주제 또는 분야 할당 방법은, 정보를 검색하고 검색된 정보를 제공하는 정보 검색 서버에서의 정보 검색 방법에 있어서, 상기 정보 검색 서버는 시소러스가 구축되었는지 판별하는 제 1 단계와; 상기 제 1 단계에서 시소러스가 구축되어 있으면, 시소러스 매칭부는 원문으로부터 색인어를 추출하는 제 2 단계와; 상기 제 2 단계 후 상기 시소러스 매칭부는 색인어를 시소러스 내의 개념어인 주제어와 매칭시키고 분야분류명과 시소러스 내의 개념어인 주제어를 매칭시키는 제 3 단계와; 상기 제 3 단계 후 상기 시소러스 매칭부는 주제어를 결정하고 분야분류명을 결정하는 제 4 단계와; 상기 제 4 단계 후 상기 시소러스 매칭부는 색인어의 용어빈도 조건, 문서빈도 조건, 분야분류코드 빈도 조건, 개념어 깊이 조건 중에서 하나 이상의 조건을 고려하여 결정된 주제어를 순위화하는 제 5 단계와; 상기 제 5 단계 후 상기 시소러스 매칭부는 해당 원문에 대해 상위에서 미리 설정한 특정 개수의 주제어를 할당하는 제 6 단계;를 포함하여 수행함을 그 기술적 구성상의 특징으로 한다.
이하, 상기와 같은 본 발명, 정보 검색 시스템에서의 주제 또는 분야 할당 장치 및 그 방법의 기술적 사상에 따른 일실시예를 도면을 참조하여 설명하면 다음과 같다.
도 2는 본 발명의 일 실시예에 의한 정보 검색 시스템에서의 주제 또는 분야 할당 장치의 블록구성도이다.
이에 도시된 바와 같이, 인터넷을 통해 사용자 단말(10), 웹 포털 사이트(20), 웹 사이트(30)와 연결되어 정보를 검색하고 검색된 정보를 제공하는 정보 검색 서버(40)에 있어서, 상기 정보 검색 서버(40)는, 질의어 또는 문서에 대응하는 색인어를 기반으로 문서에 대하여 정보 검색을 수행하는 검색 엔진(41)과; 상기 검색 엔진(41)에서 검색된 정보를 저장하고 관리하는 데이터베이스(42)와; 상기 데이터베이스(42)에 저장된 원문으로부터 색인어를 추출하여 색인어에 의한 시소러스 매칭을 수행하여 원문에 대한 주제 또는 분야 할당을 수행하는 시소러스 매칭부(43)와; 상기 데이터베이스(42)에 저장된 정의문으로부터 용어를 추출하여 추출한 용어에 의해 주제를 할당하고 택소노미를 사용하여 분야를 할당하는 택소노미 처리부(44);를 포함하여 구성된 것을 특징으로 한다.
상기 정보 검색 시스템에서의 주제 또는 분야 할당 장치는, 상기 데이터베이스(42)에 저장된 문서 중 태그를 가진 웹 문서로부터 태그를 추출하여 추출한 태 그를 사용하여 주제를 할당하는 태그 처리부(45);를 더욱 포함하여 구성된 것을 특징으로 한다.
상기 정보 검색 시스템에서의 주제 또는 분야 할당 장치는, 상기 데이터베이스(42)에 저장된 문서 중 태그를 가진 웹 문서로부터 태그를 추출하여 추출한 태그를 사용하여 주제를 할당하고, 폭소노미를 사용하여 분야를 할당하는 폭소노미 처리부(46);를 더욱 포함하여 구성된 것을 특징으로 한다.
도 3은 본 발명의 일 실시예에 의한 정보 검색 시스템에서의 주제 또는 분야 할당 방법에서 시소러스 구축시의 동작을 보인 흐름도이다.
이에 도시된 바와 같이, 정보를 검색하고 검색된 정보를 제공하는 정보 검색 서버(40)에서의 정보 검색 방법에 있어서, 상기 정보 검색 서버(40)는 시소러스가 구축되었는지 판별하는 제 1 단계(ST1)와; 상기 제 1 단계에서 시소러스가 구축되어 있으면, 시소러스 매칭부(43)는 원문으로부터 색인어를 추출하는 제 2 단계(ST2)와; 상기 제 2 단계 후 상기 시소러스 매칭부(43)는 색인어를 시소러스 내의 개념어인 주제어와 매칭시키고 분야분류명과 시소러스 내의 개념어인 주제어를 매칭시키는 제 3 단계(ST3)와; 상기 제 3 단계 후 상기 시소러스 매칭부(43)는 주제어를 결정하고, 분야분류명을 결정하는 제 4 단계(ST4)와; 상기 제 4 단계 후 상기 시소러스 매칭부(43)는 색인어의 용어빈도 조건, 문서빈도 조건, 분야분류코드 빈도 조건, 개념어 깊이 조건 중에서 하나 이상의 조건을 고려하여 결정된 주제어를 순위화하는 제 5 단계(ST5)와; 상기 제 5 단계 후 상기 시소러스 매칭부(43)는 해당 원문에 대해 상위에서 미리 설정한 특정 개수(N 개)의 주제어를 할당하는 제 6 단계(ST6);를 포함하여 수행하는 것을 특징으로 한다.
도 4는 본 발명의 다른 실시예에 의한 정보 검색 시스템에서의 주제 또는 분야 할당 방법에서 시소러스 미구축시의 동작을 보인 흐름도이다.
이에 도시된 바와 같이, 정보를 검색하고 검색된 정보를 제공하는 정보 검색 서버(40)에서의 정보 검색 방법에 있어서, 상기 정보 검색 서버(40)는 시소러스가 구축되어 있는지 판별하는 제 11 단계(ST11)와; 상기 제 11 단계에서 시소러스가 미구축되어 있으면, 상기 정보 검색 서버(40)는 택소노미 분류체계가 결정되어 있는지 판별하는 제 12 단계(ST12)와; 상기 제 12 단계에서 택소노미 분류체계가 결정되어 있다고 판별되면, 택소노미 처리부(44)는 택소노미를 이용하여 분야를 자동 할당하는 제 13 단계(ST13);를 포함하여 수행하는 것을 특징으로 한다.
상기 정보 검색 시스템에서의 주제 또는 분야 할당 방법은, 상기 제 12 단계에서 택소노미 분류체계가 결정되어 있지 않다고 판별되면, 태그 처리부(45)는 태그를 이용하여 주제를 자동 할당하는 제 14 단계(ST14);를 포함하여 수행하는 것을 특징으로 한다.
상기 정보 검색 시스템에서의 주제 또는 분야 할당 방법은, 상기 제 12 단계에서 택소노미 분류체계가 결정되어 있지 않다고 판별되면, 폭소노미 처리부(46)는 태그와 폭소노미를 이용하여 주제 또는 분야를 자동 할당하는 제 15 단계(ST14);를 포함하여 수행하는 것을 특징으로 한다.
도 5는 도 4에서 택소노미를 이용하여 분야를 자동 할당하는 동작을 보인 흐름도이다.
이에 도시된 바와 같이, 상기 제 13 단계는, 상기 택소노미 처리부(44)는 각 분야 분류명을 대표할 수 있는 정의문을 수집하는 제 21 단계(ST21)와; 상기 제 21 단계 후 상기 택소노미 처리부(44)는 정의문으로부터 용어를 추출하는 제 22 단계(ST22)와; 상기 제 22 단계 후 상기 택소노미 처리부(44)는 추출한 용어를 시소러스의 개념어인 주제어로 결정하는 제 23 단계(ST25)와; 상기 제 23 단계 후 상기 택소노미 처리부(44)는 택소노미를 사용하여 분야를 할당하여 시소러스를 구축하는 제 24 단계(ST26);를 포함하여 수행하는 것을 특징으로 한다.
또한 이후에는, 상기 제 24 단계 후 상기 택소노미 처리부(44)는 택소노미 내의 용어들과 입력된 원문에서 추출한 색인어를 매칭시켜 입력된 원문이 택소노미에 의한 어느 분야 분류 체계에 해당하는지 결정하는 제 25 단계(ST27)와; 상기 제 25 단계 후 색인어의 용어빈도 조건, 문서빈도 조건, 분야분류코드 빈도 조건, 개념어 깊이 조건 중에서 하나 이상의 조건을 고려하여 결정된 주제어(용어)를 순위화하는 제 26 단계(ST28)와; 상기 제 26 단계 후 입력된 원문에 대해 택소노미를 사용한 상위에서 미리 설정한 특정 개수(N 개)의 분야를 할당하는 제 27 단계(ST29);를 포함하여 수행하는 것을 특징으로 한다.
상기 제 21 단계는, 정의문 수집 시 백과 사전 검색, 웹 검색 중에서 하나 이상을 사용하여 정의문을 수집하는 것을 특징으로 한다.
상기 제 22 단계는, 정의문으로부터 용어 추출 시 형태소 분석을 통해 명사 상당어구 위주로 추출하는 것을 특징으로 한다.
상기 제 13 단계는, 상기 제 22 단계 후 추출한 용어에 대한 검증을 수행하 고자 하면, 추출된 용어가 주제어로 적당한지 검증을 수행한 이후 상기 제 23 단계로 리턴하는 단계(ST23, ST24);를 더욱 포함하여 수행하는 것을 특징으로 한다.
도 6은 도 4에서 태그를 이용하여 주제를 자동 할당하는 동작을 보인 흐름도이다.
이에 도시된 바와 같이, 상기 제 14 단계는, 상기 태그 처리부(45)는 태그를 가진 웹 문서로부터 태그를 추출하는 제 31 단계(ST31)와; 상기 제 31 단계 후 상기 태그 처리부(45)는 추출된 태그를 시소러스의 개념어인 주제어로 결정하는 제 32 단계(ST34)와; 상기 제 32 단계 후 상기 태그 처리부(45)는 추출된 태그를 사용하여 시소러스를 구축하는 제 33 단계(ST35);를 포함하여 수행하는 것을 특징으로 한다.
또한 이후에는, 상기 제 33 단계 후 상기 태그 처리부(45)는 시소러스 내의 용어들과 입력된 원문에서 추출한 색인어를 매칭시켜 입력된 원문이 시소러스 내의 어느 태그에 해당하는지 결정하는 제 34 단계(ST36)와; 상기 제 34 단계 후 색인어의 용어빈도 조건, 문서빈도 조건, 분야분류코드 빈도 조건, 개념어 깊이 조건 중에서 하나 이상의 조건을 고려하여 결정된 주제어(태그)를 순위화하는 제 35 단계(ST37)와; 상기 제 35 단계 후 입력된 원문에 대해 상위에서 미리 설정한 특정 개수(N 개)의 주제어(태그)를 할당하는 제 36 단계(ST38);를 포함하여 수행하는 것을 특징으로 한다.
상기 제 14 단계는, 상기 제 31 단계 후 추출한 태그에 대한 검증을 수행하고자 하면, 추출된 태그가 주제어로 적당한지 검증을 수행한 이후 상기 제 32 단계 로 리턴하는 단계(ST32, ST33);를 더욱 포함하여 수행하는 것을 특징으로 한다.
도 7은 도 4에서 태그와 폭소노미를 이용하여 주제 또는 분야를 자동 할당하는 동작을 보인 흐름도이다.
이에 도시된 바와 같이, 상기 제 15 단계는, 상기 폭소노미 처리부(46)는 태그를 가진 웹 문서로부터 태그를 추출하는 제 41 단계(ST41)와; 상기 제 41 단계 후 상기 폭소노미 처리부(46)는 추출된 태그를 시소러스의 개념어인 주제어로 결정하는 제 42 단계(ST44)와; 상기 제 42 단계 후 상기 폭소노미 처리부(46)는 폭소노미를 사용하여 분야를 할당하여 시소러스를 구축하는 제 43 단계(ST45);를 포함하여 수행하는 것을 특징으로 한다.
상기 15 단계는, 상기 제 43 단계 후 상기 폭소노미 처리부(46)는 시소러스 내의 태그들과 입력된 원문에서 추출한 색인어를 매칭시켜 입력된 원문이 폭소노미에 의한 어느 분야 분류 체계에 해당하는지 결정하는 제 44 단계(ST46)와; 상기 제 44 단계 후 색인어의 용어빈도 조건, 문서빈도 조건, 분야분류코드 빈도 조건, 개념어 깊이 조건 중에서 하나 이상의 조건을 고려하여 결정된 주제어(태그), 분야(폭소노미)를 순위화하는 제 45 단계(ST47)와; 상기 제 45 단계 후 입력된 원문에 대해 상위에서 미리 설정한 특정 개수(N 개)의 주제어(태그), 분야(폭소노미)를 할당하는 제 46 단계(ST48);를 포함하여 수행하는 것을 특징으로 한다.
상기 제 15 단계는, 상기 제 41 단계 후 추출된 태그에 대한 검증을 수행하고자 하면, 추출된 태그가 주제어로 적당한지 검증을 수행한 이후 상기 제 42 단계로 리턴하는 단계(ST42, ST43);를 더욱 포함하여 수행하는 것을 특징으로 한다.
이와 같이 구성된 본 발명에 의한 정보 검색 시스템에서의 주제 또는 분야 할당 장치 및 그 방법의 바람직한 실시예를 첨부한 도면에 의거하여 상세히 설명하면 다음과 같다. 하기에서 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서, 이는 사용자, 운용자의 의도 또는 판례 등에 따라 달라질 수 있으며, 이에 따라 각 용어의 의미는 본 명세서 전반에 걸친 내용을 토대로 해석되어야 할 것이다.
먼저 본 발명은 시소러스가 미구축된 경우 택소노미를 이용하여 주제 또는 분야를 자동으로 할당하거나 태그 또는 폭소노미를 이용하여 주제 또는 분야를 자동으로 할당하여 정보 검색을 수행하고자 한 것이다.
도 2는 본 발명의 일 실시예에 의한 정보 검색 시스템에서의 주제 또는 분야 할당 장치의 블록구성도이다.
그래서 정보 검색 서버(40)는 기본적으로 검색 엔진(41)과 데이터베이스(42)를 구비한다. 또한 본 발명에 의해 시소러스 매칭부(43), 택소노미 처리부(44), 태그 처리부(45), 폭소노미 처리부(46) 등을 더욱 포함하여 구성할 수 있다.
그리고 검색 엔진(41)은 질의어 또는 문서에 대응하는 색인어를 기반으로 문서에 대하여 정보 검색을 수행한다. 이러한 검색 엔진(41)은 시소러스 매칭부(43)에서 시소러스 매칭을 수행할 때 필요로 하는 원문을 검색하여 데이터베이스(42)에 저장하고, 또한 택소노미 처리부(44)에서의 택소노미 수행시 필요로 하는 정의문을 수집하여 데이터베이스(42)에 저장한다. 또한 태그 처리부(45)에서 태그를 가진 웹 문서를 처리할 때 필요로 하는 태그를 가진 웹 문서를 인터넷 검색 등을 통해 수집하여 데이터베이스(42)에 저장한다. 또한 폭소노미 처리부(46)에서 폭소노미를 이용한 분야 할당을 수행할 때 필요로 하는 태그를 가진 웹 문서를 수집하여 데이터베이스(42)에 저장해둔다.
또한 데이터베이스(42)는 검색 엔진(41)에서 검색된 정보를 저장하고 관리한다. 데이터베이스(42)에서 관리하는 정보는 원문, 정의문, 태그를 가진 웹 문서 등을 포함한다.
또한 시소러스 매칭부(43)는 데이터베이스(42)에 저장된 원문으로부터 색인어를 추출하여 색인어에 의한 시소러스 매칭을 수행하여 원문에 대한 주제 또는 분야 할당을 수행한다.
여기서 시소러스(Thesaurus)란 특정 주제 영역에서 사용되는 용어와 이들 용어 간의 의미 관계를 체계적으로 제시한 색인어휘집으로서, 색인과 검색 과정에서 디스크립터와 검색어를 선정하기 위한 도구로 사용된다. 이러한 시소러스는 어휘를 뜻의 관점에서 분류하여 체계화한 것을 말하는 것으로, 정보 검색 시스템을 이용한 정보 검색 분야에서 관련어를 표시한 어휘표를 시소러스라고 부르기도 한다. 이러한 시소러스에는 유의어, 반의어 뿐만 아니라 개념의 상위와 하위 관계에 의한 관련어도 포함된다. 용어의 관계성은 일반적으로 상위 개념, 하위 개념, 용례 혹은 동의어, 관계어, 대체어 등으로 분류되는데, 시소러스는 이러한 관계성을 이용, 탐 색기 질의에 포함된 용어의 의미를 확대하기 위해 주로 사용된다. 또한 시소러스는 어떤 개념을 가장 적절히 표현할 수 있는 표목을 선정하기 위하여 만들어진 어구의 집대성 또는 검색을 향상시키기 위해 동일한 관계, 계층적 관계, 연관 관계를 구분 하는 어휘집 역할을 수행하여 용어 검색이 가능하도록 해준다.
그리고 시소러스 매칭부(43), 택소노미 처리부(44), 태그 처리부(45), 폭소노미 처리부(46)의 큰 차이점을 먼저 구별하면 다음과 같다.
- 택소노미 처리부(44)는 시소러스 매칭부(43)와 비교하여 정의문 수집을 거치는 점에서 차이가 있다.
- 택소노미 처리부 : 이는 택소노미를 사용하여 분야 할당을 수행한다.
- 태그 처리부 : 이는 태그를 사용하여 주제 할당을 수행한다.
- 폭소노미 처리부 : 이는 태그를 사용하여 분야 할당을 수행하고, 폭소노미를 사용하여 분야를 할당한다.
여기서 시소러스에는 주제 할당에 의한 주제어와 분야 할당에 의한 분야 분류 체계가 있다. 그리고 주제어는 시소러스의 개념어이다.
그래서 택소노미 처리부(44)는 데이터베이스(42)에 저장된 정의문으로부터 용어를 추출하여 추출한 용어에 의해 주제를 할당하고 택소노미를 사용하여 분야를 할당한다. 이러한 택소노미를 사용한 분야 할당을 통해 시소러스를 구축한다.
여기서 택소노미(Taxonomy)는 '분류하다'라는 'tassein'과 '법, 과학'이라는 'nomos'의 합성으로 어원은 그리스어이다. 원래는 어원 그대로 살아있는 유기체를 분류하는 과학이란 뜻이지만, 지금은 확장된 의미로서 살아있는 것 뿐만 아니라 무 생물, 장소, 사건 등 모든 것을 택소노미 스키마(taxonomy schema)로 분류한 것이 택소노미이다. 이러한 택소노미(taxonomy)는 이미 결정된 체계를 가지고 있으며, 관계형 네트워크 구조 보다는 트리형의 위계적 구조로 나타난다. 예를 들면, 포털 사이트나 웹 사이트에서의 카테고리 구조나 사이트 맵은 택소노미로 데이터를 조직한 것이다.
또한 태그 처리부(45)는 데이터베이스(42)에 저장된 문서 중 태그를 가진 웹 문서로부터 태그를 추출하여 추출한 태그를 사용하여 주제를 할당한다. 이러한 태그를 사용한 주제 할당을 통해 시소러스를 구축한다.
여기서 태그(tag)는 특정한 문서나 이미지에 꼬리표를 달아서 그 문서를 설명하는 것으로, 태그를 달아두면 본문 내용과 관계없이 주제별로 검색할 수 있다. 이에 따라 한 단계 진전된 검색 혁명의 토대 역할을 할 수 있는 것이 바로 태그이다.
그리고 웹 2.0은 아무도 데이터를 소유하지 않고 어떤 프로그래밍 또는 인터넷 환경에서도 모든 사람이 데이터를 사용할 수 있는 플랫폼을 의미한다. 그동안 웹사이트는 일방적으로 TV나 라디오처럼 정보와 서비스를 제공하기만 해왔는데 이를 미디어라고 표현하기도 했다. 지금까지는 웹 사이트에 올린 데이터 또는 서비스되는 데이터를 이동시키거나 활용할 수 없었다. 그러나 웹 2.0 환경이 구축되면 자유롭게 데이터를 이동시킬 수 있게 된다. 웹 1.0을 가리키는 대표적인 서비스가 웹 포털 서비스라면 웹 2.0은 플랫폼을 의미한다. 웹 포털 사이트의 서비스는 사용자가 마음대로 할 수 없지만 플랫폼인 웹 2.0에서는 사용자가 원하는 대로 데이터를 활용할 수 있다. 이러한 웹 2.0에서는 태그를 사용하여 웹 문서를 작성하는 예가 증가하고 있다.
또한 폭소노미 처리부(46)는 데이터베이스(42)에 저장된 문서 중 태그를 가진 웹 문서로부터 태그를 추출하여 추출된 태그를 주제로 할당하고, 폭소노미를 사용하여 분야를 할당한다. 이러한 태그를 사용한 주제 할당과 폭소노미를 사용한 분야 할당을 통해 시소러스를 구축한다.
여기서 폭소노미(Folksnomy)는 전통적인 분류 기준인 '디렉터리' 대신 '꼬리표(태그)'에 따라 나누는 새로운 분류 체계를 말한다. 네티즌 백과사전인 위키피디어는 "자유롭게 선택된 키워드를 사용해 구성원이 함께 정보를 체계화하는 방식을 의미하는 신조어"라고 풀이하고 있다. 이를테면 정치, 경제, 사회로 나누는 것과 별도로 병역면제, WBC, 역전 홈런 등의 꼬리표를 기준으로 일목요연하게 모을 수 있다. 폭소노미란 '사람들에 의한 분류법'(Folk + order + nomos)이란 의미이다.
한편 본 발명의 일 실시예에 의한 정보 검색 시스템에서의 주제 또는 분야 할당 방법에 대해 상세히 설명하면 다음과 같다.
먼저 본 발명은 시소러스가 미리 구축되어 있지 않은 경우에 택소노미(Taxonomy)를 이용하여 주제, 분야를 자동으로 할당하는 것을 특징으로 한다. 택소노미(Taxonomy)는 일련의 용어들을 분류해 놓은 분류법이라고 정의할 수 있다. 반면 시소러스는 용어(개념어 또는 주제어)들 간의 관계(예를 들어, 동등관계, 상하관계 등)를 더 추가하여 용어 네트워크를 형성해 놓은 것으로 정의할 수 있다. 택소노미(Taxonomy)는 좀 더 하위 레벨의 용어 분류에 해당하는 것으로 구축이 비 교적 용이한데 이 구축 과정을 설명한 것이 본 발명의 핵심 중의 하나이다.
그리고 본 발명은 1) 시소러스가 구축된 경우, 2) 시소러스가 구축되지 않은 경우로 구분할 수 있으며, 2) 시소러스가 구축되지 않은 경우는 2-1) 택소노미를 이용하는 경우, 2-2) 태그를 이용하는 경우, 2-3) 폭소노미를 이용하는 경우로 구분할 수 있다. 이를 상세히 설명하면 다음과 같다.
1) 시소러스가 구축된 경우
도 3은 본 발명의 일 실시예에 의한 정보 검색 시스템에서의 주제 또는 분야 할당 방법에서 시소러스 구축시의 동작을 보인 흐름도이다.
이는 정보 검색 서버(40) 내의 시소러스 매칭부(43)에 의해 주도적으로 수행된다.
먼저 시소러스가 구축되어 있으면(ST1), 시소러스 매칭부(43)는 원문으로부터 색인어를 추출한다(ST2).
그리고 색인어를 시소러스 내의 개념어인 주제어와 매칭시키고 분야분류명과 시소러스 내의 개념어를 매칭시킨다(ST3).
그런 다음 주제어를 결정하고, 분야분류명을 결정한다(ST4).
그리고 색인어의 용어빈도 조건, 문서빈도 조건, 분야분류코드 빈도 조건, 개념어 깊이 조건 중에서 하나 이상의 조건을 고려하여 결정된 주제어를 순위화한다(ST5). 여기서 용어 빈도(term frequency)는 해당 용어가 문서에서 출현하는 빈도수를 말하고, 문서 빈도(inverse document frequency)는 특정 용어가 출현하는 문서의 빈도수를 말하며, 분야분류코드 빈도는 분야분류코드가 문서들에서 출현하 는 빈도수를 말하고, 개념어 깊이(depth)는 실질적 개념을 나타내는 개념어를 분류했을 경우 상위 분류에서 하위 분류로의 깊이를 말한다.
그래서 해당 원문에 대해 상위에서 미리 설정한 특정 개수(N 개) 만큼의 주제어를 할당하게 된다(ST6).
이를 통해 원문으로부터 색인어를 추출하고 이를 시소러스 내의 개념어인 주제어와 매칭함으로써 주제어를 결정하고 이를 빈도 등을 고려하여 순위화 함으로써 해당 원문에 대해 상위 N개의 주제를 할당할 수 있도록 한다. 또한 분야분류명과 시소러스 내의 개념어를 미리 매핑해 놓음으로써 주제가 결정되는 순간에 주제에 매핑된 분야분류명도 약간의 계산을 통해 자동 결정할 수 있게 된다.
여기서 본 발명에서는 용어, 개념어, 주제어를 혼용해서 쓰고는 있지만, 개념어나 주제어는 시소러스에 포함된 경우에 주로 일컫는 말이고, 용어는 단독으로 쓰일 때도 일컬을 수 있는 말이다.
2) 시소러스가 구축되지 않은 경우
도 4는 본 발명의 다른 실시예에 의한 정보 검색 시스템에서의 주제 또는 분야 할당 방법에서 시소러스 미구축시의 동작을 보인 흐름도이다.
그래서 시소러스가 구축되어 있는지 판별하여(ST11), 시소러스가 미구축되어 있으면, 택소노미 분류체계가 결정되어 있는지 판별한다(ST12).
만약 택소노미 분류체계가 결정되어 있다고 판별되면, 택소노미를 이용하여 분야를 자동 할당하고(ST13), 택소노미 분류체계가 결정되어 있지 않다고 판별되면 태그(또는 폭소노미)를 이용하여 주제 또는 분야를 자동 할당한다(ST14).
2-1) 택소노미를 이용하는 경우
도 5는 도 4에서 택소노미를 이용하여 분야를 자동 할당하는 동작을 보인 흐름도이다.
그래서 택소노미 처리부(44)는 각 분야 분류명을 대표할 수 있는 정의문을 수집한다. 이때 정의문 수집 시 백과 사전 검색, 웹 검색 등을 사용하여 정의문을 수집한다(ST21).
그리고 정의문으로부터 용어를 추출한다. 정의문으로부터 용어 추출 시 형태소 분석을 통해 명사 상당어구 위주로 추출할 수 있다(ST22).
이때 추출된 용어가 주제어로 적당한지 검증을 수행할 수 있다(ST23, ST24). 이러한 검증 과정은 관리자나 구축자에 의해 주제어로 적당한지 검증하는 방식을 사용할 수도 있고, 주제어로의 검증 과정을 자동화하여 검증하는 방식을 사용할 수도 있다. 또한 이와 같은 검증 과정은 생략될 수 있다.
그리고 추출한 용어를 시소러스의 개념어인 주제어로 결정한다(ST25).
또한 택소노미를 사용하여 분야를 할당하여 시소러스를 구축한다(ST26).
그리고 택소노미 내의 용어들과 입력된 원문에서 추출한 색인어를 매칭시켜 입력된 원문이 택소노미에 의한 분야 분류 체계 중에서 어느 택소노미에 해당하는지 결정한다(ST27).
그런 다음 색인어의 용어빈도 조건, 문서빈도 조건, 분야분류코드 빈도 조건, 개념어 깊이 조건 등을 고려하여 결정된 주제어(용어)를 순위화한다(STS28).
또한 입력된 원문에 대해 택소노미를 사용한 상위에서 미리 설정한 특정 개수(N 개) 만큼의 분야를 할당하게 된다(ST27).
그래서 택소노미의 분류체계가 이미 결정되어 있는 경우에는 각 분야분류명을 대표할 수 있는 정의문을 수집하고, 이렇게 수집된 정의문으로부터 자동으로 용어를 추출한다. 이렇게 해서 정리된 용어는 해당 분야분류명을 대표하는 용어로 관리한다. 분야분류명의 경우 이미 택소노미 구축 과정에서 특정 분야분류명에 용어들을 소속시킴에 따라 분야분류명과 개념어가 매핑된 것으로 볼 수 있기 때문이다. 그리고 택소노미 내의 용어 중 색인어와 매칭된 것들을 빈도 기반으로 순위화하면 주제 할당이 가능해진다.
2-2) 태그를 이용하는 경우
도 6은 도 4에서 태그를 이용하여 주제를 자동 할당하는 동작을 보인 흐름도이다.
그래서 태그 처리부(45)는 태그를 가진 웹 문서로부터 태그를 추출한다(ST31).
이때 추출된 태그가 주제어로 적당한지 검증을 수행할 수 있다(ST32, ST33). 이러한 검증 과정은 관리자나 구축자에 의해 주제어로 적당한지 검증하는 방식을 사용할 수도 있고, 주제어로의 검증 과정을 자동화하여 검증하는 방식을 사용할 수도 있다. 또한 이와 같은 검증 과정은 생략될 수 있다.
그런 다음 추출된 태그를 시소러스의 개념어인 주제어로 결정한다(ST34).
그리고 추출된 태그를 사용하여 분야를 할당하여 시소러스를 구축한 다(ST35).
또한 시소러스 내의 용어들과 입력된 원문에서 추출한 색인어를 매칭시켜 입력된 원문이 태그에 의해 설정된 분야 분류 체계 중에서 어느 태그에 해당하는지 결정한다(ST36).
그리고 색인어의 용어빈도 조건, 문서빈도 조건, 분야분류코드 빈도 조건, 개념어 깊이 조건 중에서 하나 이상의 조건을 고려하여 결정된 주제어(태그)를 순위화한다(ST37).
그런 다음 입력된 원문에 대해 상위에서 미리 설정한 특정 개수(N 개)의 주제어(태그)를 할당하게 된다(ST38).
2-3) 폭소노미를 이용하는 경우
도 7은 도 4에서 태그와 폭소노미를 이용하여 주제 또는 분야를 자동 할당하는 동작을 보인 흐름도이다.
그래서 폭소노미 처리부(46)는 태그를 가진 웹 문서로부터 태그를 추출한다(ST41).
그리고 추출된 태그가 주제어로 적당한지 검증을 수행할 수 있다(ST42, ST43). 이러한 검증 과정은 관리자나 구축자에 의해 주제어로 적당한지 검증하는 방식을 사용할 수도 있고, 주제어로의 검증 과정을 자동화하여 검증하는 방식을 사용할 수도 있다. 또한 이와 같은 검증 과정은 생략될 수 있다.
그런 다음 추출된 태그를 시소러스의 개념어인 주제어로 결정한다(ST44).
그리고 폭소노미를 사용하여 분야를 할당하여 시소러스를 구축한다(ST45).
이렇게 시소러스를 구축한 후 시소러스 내의 태그들과 입력된 원문에서 추출한 색인어를 매칭시켜 입력된 원문이 폭소노미에 의해 설정된 분야 분류 체계 중에서 어느 폭소노미에 해당하는지 결정한다(ST46).
그리고 색인어의 용어빈도 조건, 문서빈도 조건, 분야분류코드 빈도 조건, 개념어 깊이 조건 중에서 하나 이상의 조건을 고려하여 결정된 주제어(태그), 분야(폭소노미)를 순위화한다(ST47).
그런 다음 입력된 원문에 대해 상위에서 미리 설정한 특정 개수(N 개)의 주제어(태그), 분야(폭소노미)를 할당하게 된다(ST48).
웹 문서에는 태그(TAG)라는 특별한 태그를 두어 웹 문서를 작성한 사람이 임의로 해당 태그 내에 그 웹 문서를 대표할 수 있는 용어들을 넣어둔다. 웹 검색에서 이러한 TAG를 이용하여 검색 결과를 내기도 하므로, 검색 결과 상위에 해당 문서를 나오게 하기 위해 일부러 TAG 내의 용어를 변경하는 경우도 발생한다. 이러한 TAG를 주제어로서 간주한다면, 그 TAG를 가진 문서는 해당 주제어로 분류된 문서로서 간주할 수 있다. 상기의 예처럼 TAG를 남용하는 경우에도 이러한 TAG에 속한 문서를 좀 더 많이 수집 할수록 잘못 붙여진 문서들의 가치가 희소될 수 있으므로 대용량 문서를 가진 웹 포털 사이트 등에 유용한 방식이라고 할 수 있다. 해당 TAG를 가진 웹 문서로부터 용어를 추출한다. 그리고 추후 입력된 원문에 대해 TAG 내의 용어들과 색인어를 매칭시켜 어느 TAG에 해당하는 문서인지를 자동으로 결정할 수 있다. 나아가 폭소노미와 같은 TAG들을 분류해놓은 일종의 택소노미(Taxonomy)를 활용한다면 TAG가 결정되는 순간 폭소노미(Folksnomy) 내의 어느 분류에 속해 있는 지를 자동으로 파악하여 폭소노미(Folksnomy) 내에서의 분류명도 동시에 결정할 수 있게 되는 것이다.
이처럼 본 발명은 시소러스가 미구축된 경우 택소노미를 이용하여 주제 또는 분야를 자동으로 할당하거나 태그 또는 폭소노미를 이용하여 주제 또는 분야를 자동으로 할당하여 정보 검색을 수행하게 되는 것이다.
이상에서 살펴본 바와 같이, 본 발명에 의한 정보 검색 시스템에서의 주제 또는 분야 할당 장치 및 그 방법은 시소러스가 미구축된 경우 택소노미를 이용하여 주제 또는 분야를 자동으로 할당하거나 태그 또는 폭소노미를 이용하여 주제 또는 분야를 자동으로 할당하여 정보 검색을 수행할 수 있는 효과가 있게 된다.
따라서 본 발명은 시소러스의 구축을 미리 하지 않더라도 택소노미를 이용해서 문서에 분야를 할당할 수 있는 장점이 있다.
또한 본 발명은 태그와 폭소노미를 이용해서 웹 문서에 주제 및 분야를 할당할 수 있는 효과도 있게 된다.
이상에서 본 발명의 바람직한 실시예에 한정하여 설명하였으나, 본 발명은 이에 한정되지 않고 다양한 변화와 변경 및 균등물을 사용할 수 있다. 따라서 본 발명은 상기 실시예를 적절히 변형하여 응용할 수 있고, 이러한 응용도 하기 특허청구범위에 기재된 기술적 사상을 바탕으로 하는 한 본 발명의 권리범위에 속하게 됨은 당연하다 할 것이다.
Claims (16)
- 인터넷을 통해 사용자 단말, 웹 포털 사이트, 웹 사이트와 연결되어 정보를 검색하고 검색된 정보를 제공하는 정보 검색 시스템에서의 주제 또는 분야 할당 장치로서,상기 정보 검색 서버는,질의어 또는 문서에 대응하는 색인어를 기반으로 문서에 대하여 정보 검색을 수행하는 검색 엔진과;상기 검색 엔진에서 검색된 정보를 저장하고 관리하는 데이터베이스와;상기 데이터베이스에 저장된 원문으로부터 색인어를 추출하여 색인어에 의한 시소러스 매칭을 수행하여 원문에 대한 주제 또는 분야 할당을 수행하는 시소러스 매칭부와;상기 데이터베이스에 저장된 정의문으로부터 용어를 추출하여 추출한 용어에 의해 주제를 할당하고 택소노미를 사용하여 분야를 할당하는 택소노미 처리부;를 포함하여 구성되는 것을 특징으로 하는 정보 검색 시스템에서의 주제 또는 분야 할당 장치.
- 청구항 1에 있어서,상기 정보 검색 시스템에서의 주제 또는 분야 할당 장치는,상기 데이터베이스(42)에 저장된 문서 중 태그를 가진 웹 문서로부터 태그를 추출하여 추출한 태 그를 사용하여 주제를 할당하는 태그 처리부;를 더욱 포함하여 구성되는 것을 특징으로 하는 정보 검색 시스템에서의 주제 또는 분야 할당 장치.
- 청구항 1 또는 청구항 2에 있어서,상기 정보 검색 시스템에서의 주제 또는 분야 할당 장치는,상기 데이터베이스에 저장된 문서 중 태그를 가진 웹 문서로부터 태그를 추출하여 추출한 태그를 사용하여 주제를 할당하고, 폭소노미를 사용하여 분야를 할당하는 폭소노미 처리부;를 더욱 포함하여 구성되는 것을 특징으로 하는 정보 검색 시스템에서의 주제 또는 분야 할당 장치.
- 정보를 검색하고 검색된 정보를 제공하는 정보 검색 시스템에서의 주제 또는 분야 할당 방법으로서,상기 정보 검색 서버는 시소러스가 구축되었는지 판별하는 제 1 단계와;상기 제 1 단계에서 시소러스가 구축되어 있으면, 시소러스 매칭부는 원문으로부터 색인어를 추출하는 제 2 단계와;상기 제 2 단계 후 상기 시소러스 매칭부는 색인어를 시소러스 내의 개념어인 주제어와 매칭시키고 분야분류명과 시소러스 내의 개념어인 주제어를 매칭시키는 제 3 단계와;상기 제 3 단계 후 상기 시소러스 매칭부는 주제어를 결정하고, 분야분류명을 결정하는 제 4 단계와;상기 제 4 단계 후 상기 시소러스 매칭부는 색인어의 용어빈도 조건, 문서빈도 조건, 분야분류코드 빈도 조건, 개념어 깊이 조건 중에서 하나 이상의 조건을 고려하여 결정된 주제어를 순위화하는 제 5 단계와;상기 제 5 단계 후 상기 시소러스 매칭부는 해당 원문에 대해 상위에서 미리 설정한 특정 개수의 주제어를 할당하는 제 6 단계;를 포함하여 구성되는 것을 특징으로 하는 정보 검색 시스템에서의 주제 또는 분야 할당 방법.
- 정보를 검색하고 검색된 정보를 제공하는 정보 검색 시스템에서의 주제 또는 분야 할당 방법으로서,상기 정보 검색 서버는 시소러스가 구축되어 있는지 판별하는 제 11 단계와;상기 제 11 단계에서 시소러스가 미구축되어 있으면, 상기 정보 검색 서버는 택소노미 분류체계가 결정되어 있는지 판별하는 제 12 단계와;상기 제 12 단계에서 택소노미 분류체계가 결정되어 있다고 판별되면, 택소노미 처리부는 택소노미를 이용하여 분야를 자동 할당하는 제 13 단계;를 포함하여 구성되는 것을 특징으로 하는 정보 검색 시스템에서의 주제 또는 분야 할당 방법.
- 청구항 5에 있어서,상기 제 13 단계는,상기 택소노미 처리부는 각 분야 분류명을 대표할 수 있는 정의문을 수집하는 제 21 단계와;상기 제 21 단계 후 상기 택소노미 처리부는 정의문으로부터 용어를 추출하는 제 22 단계와;상기 제 22 단계 후 상기 택소노미 처리부는 추출한 용어를 시소러스의 개념어인 주제어로 결정하는 제 23 단계와;상기 제 23 단계 후 상기 택소노미 처리부는 택소노미를 사용하여 분야를 할당하여 시소러스를 구축하는 제 24 단계;를 포함하여 구성되는 것을 특징으로 하는 정보 검색 시스템에서의 주제 또는 분야 할당 방법.
- 청구항 6에 있어서,상기 제 21 단계는,정의문 수집 시 백과 사전 검색, 웹 검색 중에서 하나 이상을 사용하여 정의문을 수집하는 것을 특징으로 하는 정보 검색 시스템에서의 주제 또는 분야 할당 방법.
- 청구항 6에 있어서,상기 제 22 단계는,정의문으로부터 용어 추출 시 형태소 분석을 통해 명사 상당어구를 추출하는 것을 특징으로 하는 정보 검색 시스템에서의 주제 또는 분야 할당 방법.
- 삭제
- 청구항 5에 있어서,상기 정보 검색 시스템에서의 주제 또는 분야 할당 방법은,상기 제 12 단계에서 택소노미 분류체계가 결정되어 있지 않다고 판별되면, 태그 처리부는 태그를 이용하여 주제야를 자동 할당하는 제 14 단계;를 더욱 포함하여 구성되는 것을 특징으로 하는 정보 검색 시스템에서의 주제 또는 분야 할당 방법.
- 청구항 10에 있어서,상기 제 14 단계는,상기 태그 처리부는 태그를 가진 웹 문서로부터 태그를 추출하는 제 31 단계와;상기 제 31 단계 후 상기 태그 처리부는 추출된 태그를 시소러스의 개념어인 주제어로 결정하는 제 32 단계와;상기 제 32 단계 후 상기 태그 처리부는 추출된 태그를 사용하여 시소러스를 구축하는 제 33 단계;를 포함하여 구성되는 것을 특징으로 하는 정보 검색 시스템에서의 주제 또는 분야 할당 방법.
- 삭제
- 청구항 5에 있어서,상기 정보 검색 시스템에서의 주제 또는 분야 할당 방법은,상기 제 12 단계에서 택소노미 분류체계가 결정되어 있지 않다고 판별되면, 폭소노미 처리부는 태그와 폭소노미를 이용하여 주제 또는 분야를 자동 할당하는 제 15 단계;를 더욱 포함하여 구성되는 것을 특징으로 하는 정보 검색 시스템에서의 주제 또는 분야 할당 방법.
- 청구항 13에 있어서,상기 제 15 단계는,상기 폭소노미 처리부는 태그를 가진 웹 문서로부터 태그를 추출하는 제 41 단계와;상기 제 41 단계 후 상기 폭소노미 처리부는 추출된 태그를 시소러스의 개념어인 주제어로 결정하는 제 42 단계와;상기 제 42 단계 후 상기 폭소노미 처리부는 폭소노미를 사용하여 분야를 할당하여 시소러스를 구축하는 제 43 단계;를 포함하여 구성되는 것을 특징으로 하는 정보 검색 시스템에서의 주제 또는 분야 할당 방법.
- 청구항 14에 있어서,상기 제 15 단계는,상기 제 43 단계 후 상기 폭소노미 처리부는 시소러스 내의 태그들과 입력된 원문에서 추출한 색인어를 매칭시켜 입력된 원문이 폭소노미에 의한 어느 분야 분류 체계에 해당하는지 결정하는 제 44 단계와;상기 제 44 단계 후 색인어의 용어빈도 조건, 문서빈도 조건, 분야분류코드 빈도 조건, 개념어 깊이 조건 중에서 하나 이상의 조건을 고려하여 결정된 주제어(태그), 분야(폭소노미)를 순위화하는 제 45 단계와;상기 제 45 단계 후 입력된 원문에 대해 상위에서 미리 설정한 특정 개수의 주제어(태그), 분야(폭소노미)를 할당하는 제 46 단계;를 더욱 포함하여 수행하는 것을 특징으로 하는 정보 검색 시스템에서의 주제 또는 분야 할당 방법.
- 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060118759A KR100836878B1 (ko) | 2006-11-29 | 2006-11-29 | 정보 검색 시스템에서의 주제 또는 분야 할당 장치 및 그방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060118759A KR100836878B1 (ko) | 2006-11-29 | 2006-11-29 | 정보 검색 시스템에서의 주제 또는 분야 할당 장치 및 그방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080048600A KR20080048600A (ko) | 2008-06-03 |
KR100836878B1 true KR100836878B1 (ko) | 2008-06-11 |
Family
ID=39804671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060118759A KR100836878B1 (ko) | 2006-11-29 | 2006-11-29 | 정보 검색 시스템에서의 주제 또는 분야 할당 장치 및 그방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100836878B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9256679B2 (en) | 2008-12-11 | 2016-02-09 | Neopad, Inc. | Information search method and system, information provision method and system based on user's intention |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100990292B1 (ko) * | 2008-06-11 | 2010-10-26 | 서강대학교산학협력단 | 온토소노미를 이용한 태그 템플릿 제작 방법, 태그등록방법 및 컨텐츠 검색방법 |
KR102089348B1 (ko) * | 2019-01-28 | 2020-03-16 | 주식회사 와이즈넛 | 분산 데이터 저장 장치 기반 검색 엔진 시스템 및 검색 방법 |
CN113220898A (zh) * | 2021-04-30 | 2021-08-06 | 上海适享文化传播有限公司 | 一种基于云享智慧的Ai知识说系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050065773A1 (en) | 2003-09-20 | 2005-03-24 | International Business Machines Corporation | Method of search content enhancement |
US6898586B1 (en) | 1998-10-23 | 2005-05-24 | Access Innovations, Inc. | System and method for database design and maintenance |
US7076484B2 (en) | 2002-09-16 | 2006-07-11 | International Business Machines Corporation | Automated research engine |
US7113954B2 (en) | 1999-04-09 | 2006-09-26 | Entrleva, Inc. | System and method for generating a taxonomy from a plurality of documents |
-
2006
- 2006-11-29 KR KR1020060118759A patent/KR100836878B1/ko not_active IP Right Cessation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6898586B1 (en) | 1998-10-23 | 2005-05-24 | Access Innovations, Inc. | System and method for database design and maintenance |
US7113954B2 (en) | 1999-04-09 | 2006-09-26 | Entrleva, Inc. | System and method for generating a taxonomy from a plurality of documents |
US7076484B2 (en) | 2002-09-16 | 2006-07-11 | International Business Machines Corporation | Automated research engine |
US20050065773A1 (en) | 2003-09-20 | 2005-03-24 | International Business Machines Corporation | Method of search content enhancement |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9256679B2 (en) | 2008-12-11 | 2016-02-09 | Neopad, Inc. | Information search method and system, information provision method and system based on user's intention |
Also Published As
Publication number | Publication date |
---|---|
KR20080048600A (ko) | 2008-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992645B (zh) | 一种基于文本数据的资料管理系统及方法 | |
KR101192439B1 (ko) | 디지털 콘텐츠 검색 장치 및 방법 | |
KR101060594B1 (ko) | 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법 | |
CN105045852A (zh) | 一种教学资源的全文搜索引擎系统 | |
WO2005083597A1 (en) | Intelligent search and retrieval system and method | |
KR101873873B1 (ko) | 속성 정보 분석을 통한 멀티미디어 컨텐츠 검색장치 및 검색방법 | |
US11055295B1 (en) | Method and apparatus for determining search result demographics | |
EP2633430A1 (en) | Generating a taxonomy from unstructured information | |
Yi et al. | Revisiting the syntactical and structural analysis of Library of Congress Subject Headings for the digital environment | |
KR100836878B1 (ko) | 정보 검색 시스템에서의 주제 또는 분야 할당 장치 및 그방법 | |
WO1999014690A1 (fr) | Procede d'addition d'un mot cle au moyen d'informations de liaison | |
KR102434880B1 (ko) | 멀티미디어 플랫폼 기반 지식 공유 서비스 제공 시스템 | |
Ahrens et al. | Using a corpus of English and Chinese political speeches for metaphor analysis | |
KR20100068964A (ko) | 연관 질의어 추천 장치 및 방법 | |
KR101037091B1 (ko) | 자동 언어 번역을 통한 다국어의 전거 표목에 대한 온톨로지 기반 의미 검색 시스템 및 방법 | |
KR100659370B1 (ko) | 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법 | |
Ramezani et al. | Automated text summarization: An overview | |
KR20010107810A (ko) | 웹 검색시스템 및 그 방법 | |
Pfoser et al. | Providing universal access to history textbooks: a modified GIS case | |
Klavans et al. | Computational linguistics for metadata building (CLiMB): using text mining for the automatic identification, categorization, and disambiguation of subject terms for image metadata | |
Devezas et al. | Index-based semantic tagging for efficient query interpretation | |
Chen et al. | A novel user profile learning approach with fuzzy constraint for news retrieval | |
Ozioko et al. | LIS 303 INFORMATION RETRIEVAL (CATALOGUING II) | |
Lafia et al. | Exploratory and directed search strategies at a social science data archive | |
Bagheri et al. | Big Data-aware News Recommendation System According to Regional Twitter Users’ Interests |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20120327 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20130410 Year of fee payment: 6 |
|
LAPS | Lapse due to unpaid annual fee |