KR20100056065A - 의미 기반 자동 연계 시스템 및 방법 - Google Patents

의미 기반 자동 연계 시스템 및 방법 Download PDF

Info

Publication number
KR20100056065A
KR20100056065A KR1020080115039A KR20080115039A KR20100056065A KR 20100056065 A KR20100056065 A KR 20100056065A KR 1020080115039 A KR1020080115039 A KR 1020080115039A KR 20080115039 A KR20080115039 A KR 20080115039A KR 20100056065 A KR20100056065 A KR 20100056065A
Authority
KR
South Korea
Prior art keywords
information
index
semantic
web
academic
Prior art date
Application number
KR1020080115039A
Other languages
English (en)
Other versions
KR100992887B1 (ko
Inventor
정도헌
김환민
김혜선
신기정
최희윤
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020080115039A priority Critical patent/KR100992887B1/ko
Publication of KR20100056065A publication Critical patent/KR20100056065A/ko
Application granted granted Critical
Publication of KR100992887B1 publication Critical patent/KR100992887B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 학술정보를 기준 도메인 영역으로 정의하고, 기준 도메인 영역으로부터 자동 생성된 색인어를 바탕으로 외부 도메인 영역의 웹 정보를 학술정보와 연계하여 이기종 도메인 간의 자원들을 의미 유사도에 따라 자동 매핑하기 위한 의미 기반 자동 연계 시스템 및 방법에 관한 것으로서, 기 저장된 학술정보와 신규로 등록되는 학술정보를 기 설정된 기준에 따라 가공 처리하여 언어정보 자원을 생성하고, 이를 데이터베이스에 저장하는 언어자원 자동 생성부; 언어자원 자동 생성부에 의해서 생성된 언어정보 자원에 대해 필터링하고, 가중치를 부여하여 학술정보의 색인 및 자동 분류를 수행하는 의미 색인 및 해석부; 복수의 웹 서비스 서버로부터 수집된 웹 정보 자원에 대해 HTML 태그를 파싱하고 구분하여 데이터베이스에 저장하고, 웹 정보 자원에 대해 가중치 부여, 자동의미색인 및 자동 분류를 수행하여 웹 정보 자원을 구축하는 웹 정보 자원 수집 및 해석부; 학술정보와 웹 정보 간의 유사도를 측정하여 관련 문헌을 자동 연계 처리하는 유사 문헌 연계 처리부;를 포함하여, 학술정보 이용자가 학술연구 정보 서비스 플랫폼의 정보 검색 결과에서 학술정보와 관련된 웹 정보를 제공받을 수 있으며, 운용자 측에서는 이를 활용한 다양한 서비스를 확대 제공할 수 있다는 효과를 기대할 수 있다.

Description

의미 기반 자동 연계 시스템 및 방법{System and Method for Meaning-Based Automatic Linkage}
본 발명은 의미 기반 자동 연계 시스템 및 방법에 관한 것으로서, 보다 상세하게는 학술정보를 기준 도메인 영역으로 정의하고, 기준 도메인 영역으로부터 자동 생성된 색인어를 바탕으로 외부 도메인 영역의 웹 정보를 학술정보와 연계하여 이기종 도메인 간의 자원들을 의미 유사도에 따라 자동 매핑하기 위한 의미 기반 자동 연계 시스템 및 방법에 관한 것이다.
학술정보 관련 연구자들은 오프라인 또는 온라인 상의 학술 커뮤니티를 통해 공통의 관심분야 정보를 서로 교류하였다.
이때 교류되는 정보들은 정형화된 학술논문, 특허, 연구보고서 등이 작성되기 이전 또는 이후의 정보를 포함하고 있는 경우가 대부분이다.
한편, 학술정보를 다루는 기관은 학술논문, 특허, 연구보고서 등 정형 정보자원의 수집, 축적, 유통에 주력해 왔으나 연구자들이 학술논문, 특허, 보고서 생 산 이전 또는 이후 단계에서 교류하는 비정형 정보자원에 대해서는 서비스를 제공하고 있지 못한 실정이다.
본 발명의 목적은 학술정보 제공 서비스를 기반으로 특정 주제 분야의 전문 이용자들에게 유용할 수 있는 웹 정보를 자동으로 수집, 선별 및 분석하여 제공할 수 있도록 하기 위한 의미 기반 자동 연계 시스템 및 방법을 제공하는데 그 기술적 과제가 있다.
다른 본 발명의 목적은 학술정보와 웹 정보를 의미 기반으로 유사도를 측정하고, 이를 기초로 순위를 설정하여 학술정보와 매칭되는 웹 정보를 유사도 순위에 따라 제공할 수 있도록 하기 위한 것이다.
상술한 목적을 달성하기 위한 본 발명의 의미 기반 자동 연계 시스템은 통신망을 통해 통신을 수행하기 위한 통신 인터페이스부; 기 저장된 학술정보와 신규로 등록되는 학술정보를 기 설정된 기준에 따라 가공 처리하여 언어정보 자원을 생성하고, 이를 데이터베이스에 저장하는 언어자원 자동 생성부; 언어자원 자동 생성부에 의해서 생성된 언어정보 자원에 대해 필터링하고, 가중치를 부여하여 학술정보의 색인 및 자동 분류를 수행하는 의미 색인 및 해석부; 복수의 웹 서비스 서버로 부터 수집된 웹 정보 자원에 대해 HTML 태그를 파싱하고 구분하여 데이터베이스에 저장하고, 웹 정보 자원에 대해 가중치 부여, 자동의미색인 및 자동 분류를 수행하여 웹 정보 자원을 구축하는 웹 정보 자원 수집 및 해석부; 학술정보와 웹 정보 간의 유사도를 측정하여 관련 문헌을 자동 연계 처리하는 유사 문헌 연계 처리부; 및 의미 기반 자동 연계 시스템과 관련된 정보를 저장하는 데이터베이스;를 포함한다.
언어자원 자동 생성부는,
학술정보의 키워드 필드로부터 주요 색인어를 추출하여 데이터베이스에 저장하는 주요 언어자원 구축수단; 주요 색인어의 주제 분야별 가중치 벡터를 생성하여 색인어와 주제 가중치 벡터의 연계 정보(색인어-주제 가중치 벡터)를 생성하고 데이터베이스에 저장하는 가중치 벡터 구축수단; 및 학술정보 내에서 주요 색인어가 동시에 발생하는 공기정보(Co-Occurrence Information)를 측정하여 색인어 연관성 정보를 생성하고 데이터베이스에 저장하는 연관 정보 구축수단;을 포함하는 것이 바람직하다.
상기 주제 가중치 벡터는, 각각의 색인어에 대한 주제 코드와 가중치 값으로 구성된 것이 바람직하다.
상기 주요 언어자원 구축수단은,
신규 자원이 등록되어 학술정보자원이 갱신되면, 관련 언어자원을 자동으로 갱신하는 것이 바람직하다.
상기 가중치 벡터 구축수단은,
신규 자원이 등록되어 학술정보자원이 갱신되면, 해당 학술자원에 대한 색인 어와 주제 가중치 벡터의 연계 정보(색인어-주제 가중치 벡터)를 생성하여 기존의 정보를 갱신하는 것이 바람직하다.
상기 의미 색인 및 해석부는,
주요 색인어의 주제 분야별 가중치에 따라 동적으로 색인어 DB의 규모를 조절하는 색인어 선정수단; 및 상기 색인어 선정수단에 의해서 선정된 해당 학술정보의 초록 또는 원문 데이터에서 단일어절이나 2개 이상의 어절로 구성된 복합명사를 색인하고, 어절 수와 색인어 길이에 따라 가중치를 부여하는 의미 색인수단;을 포함하는 것이 바람직하다.
상기 의미 색인수단은, 이미 색인된 복합명사를 다시 단일어절 단위로 재색인 하지 않는 것이 바람직하다.
상기 의미 색인 및 해석부는,
학술정보 내에서 주요 색인어가 동시에 발생하는 것을 의미하는 기 생성된 색인어 연관성 정보를 이용하여, 학술정보 색인어의 연관 정도에 따라 의미 가중치를 추가 부여하는 의미 가중치 부여수단;을 더 포함하는 것이 바람직하다.
상기 웹 정보 자원 수집 및 해석부는,
복수의 웹 서비스 서버로부터 수집된 웹 정보 자원에 대해 HTML 태그를 파싱하고 구분하여 데이터베이스에 저장하는 웹 정보 자원 구축수단; 주요 HTML 태그에서 추출된 색인어의 주제 가중치 벡터에 가중치 값을 추가로 부여하는 가중치 부여수단; 웹 정보 자원의 주제 분야별 가중치에 따라 동적으로 색인어 DB의 규모를 조절하는 색인어 선정수단; 및 상기 색인어 선정수단에 의해서 선정된 색인어 DB를 이용하여 해당 웹 정보 자원의 초록 또는 원문 데이터에서 단일어절이나 2개 이상의 어절로 구성된 복합명사를 색인하고, 어절 수와 색인어 길이에 따라 가중치를 부여하는 의미 색인수단;을 포함하는 것이 바람직하다.
상기 웹 정보 자원 수집 및 해석부는, 웹 정보 내에서 주요 색인어가 동시에 발생하는 것을 의미하는 상기 연관정보 구축수단에 의해서 기 생성된 색인어 연관성 정보를 이용하여, 웹 정보 색인어의 연관 정도에 따라 의미 가중치를 추가 부여하는 연관정보 가중치 부여수단;을 더 포함하는 것이 바람직하다.
상기 의미 색인수단은,
이미 색인된 복합명사를 다시 단일어절 단위로 재색인 하지 않는 것이 바람직하다.
상기 웹 정보 자원 구축수단은, 웹 정보 자원의 HTML(Hyper Text Markup Language) 태그를 식별하여, 본문 내용 만을 남기도록 하는 것이 바람직하다.
유사 문헌 연계 처리부는,
학술정보와 웹 정보 각각에 생성된 색인어, 색인어 출현빈도, 주제코드, 주제분야별 가중치 값 또는 이들의 조합 중 어느 하나를 이용하여 유사도를 측정하고, 측정된 유사도에 따라 순위를 설정하여 결과값을 데이터베이스에 저장하는 것이 바람직하다.
상기 유사 문헌 연계 처리부는,
학술정보와 웹 정보 각각의 주요 색인어 추출 과정에서 생성된 색인어와 색인어 출현빈도를 이용하여 유사도를 측정하고 측정된 유사도에 따라 순위를 설정하 는 것이 바람직하다.
상기 유사 문헌 연계 처리부는,
학술정보와 웹 정보 간 색인어와 색인어 출현빈도를 유사 계수(Similarity Measures) 또는 거리 계수(Distance Measures)에 적용하여 유사도를 측정하고 측정된 유사도에 따라 순위를 설정하는 것이 바람직하다.
상기 유사 문헌 연계 처리부는,
학술정보와 웹 정보 양측의 자동분류 결과를 이용해 후보 클러스터를 사전 정의하여 비교대상 규모를 축소한 후, 축소된 정보를 기초로 학술정보와 웹 정보 간의 유사도를 측정하고 측정된 유사도에 따라 순위를 결정하는 것이 바람직하다.
상기 의미 기반 자동 연계 시스템은,
사용자에 의해서 특정 키워드가 입력되면, 해당 학술정보를 추출하여 제공하고, 상기 학술정보에 대한 상세 정보 열람이 요청되는 경우, 데이터베이스로부터 상기 학술정보와 연계된 웹 정보를 추출하여 유사도 순서로 제공하는 정보 검색 및 결과 제공부;를 더 포함하는 것이 바람직하다.
상기 정보 검색 및 결과 제공부는,
사용자에 의해서 특정 웹 정보가 선택되는 경우, 상기 특정 웹 정보를 제공하는 해당 사이트로 이동할 수 있도록 서비스를 제공하는 것이 바람직하다.
다른 본 발명은 의미 기반 자동 연계 시스템에서 학술정보와 웹 정보를 의미 기반으로 자동 연계하는 방법으로서,
a) 의미 기반 자동 연계 시스템이 기 저장된 학술정보와 신규로 등록되는 학 술정보를 기 설정된 기준에 따라 가공 처리 및 저장하여 언어정보 자원을 생성하는 단계; b) 상기 a) 단계에서 생성된 언어정보 자원에 대해 필터링하고, 가중치를 부여하여 학술정보의 색인 및 자동 분류를 수행하는 단계; c) 복수의 웹 서비스 서버로부터 수집된 웹 정보 자원에 대해 HTML 태그를 파싱하고 구분하여 저장하는 단계; d) 상기 c) 단계에서 수집된 웹 정보 자원에 대해 가중치 부여, 자동의미색인 및 자동 분류를 수행하여 웹 정보 자원을 구축하는 단계; e) 학술정보와 웹 정보 간의 유사도를 측정하여 관련 문헌을 자동 연계 처리하는 단계; 및 f) 사용자에 의해서 특정 키워드가 입력되면, 해당 학술정보를 추출하여 제공하고, 상기 학술정보에 대한 상세 정보 열람이 요청되는 경우, 기 저장된 정보로부터 상기 학술정보와 연계된 웹 정보를 추출하여 유사도 순서로 제공하는 단계;를 포함한다.
상기 a) 단계는,
학술정보의 키워드 필드로부터 주요 색인어를 추출하여 저장하는 단계; 주요 색인어의 주제 분야별 가중치 벡터를 생성하여 색인어와 주제 가중치 벡터의 연계 정보(색인어-주제 가중치 벡터)를 생성하여 저장하는 단계; 및 학술정보 내에서 주요 색인어가 동시에 발생하는 공기정보(Co-Occurrence Information)를 측정하여 색인어 연관성 정보를 생성하여 저장하는 단계;를 포함하는 것이 바람직하다.
상기 b) 단계는,
b-1) 주요 색인어의 주제 분야별 가중치에 따라 색인어 DB의 규모를 조절하는 단계; b-2) 상기 b-1) 단계에서 선정된 해당 학술정보의 초록 또는 원문 데이터에서 단일어절이나 2개 이상의 어절로 구성된 복합명사를 색인하고, 어절 수와 색 인어 길이에 따라 가중치를 부여하는 단계; 및 b-3) 학술정보 내에서 주요 색인어가 동시에 발생하는 것을 의미하는 기 생성된 색인어 연관성 정보를 이용하여, 학술정보 색인어의 연관 정도에 따라 의미 가중치를 부여하는 단계;를 포함하는 것이 바람직하다.
상기 b-2) 단계 이후에,
상기 b-2) 단계에서 이미 색인된 복합명사를 다시 단일어절 단위로 재색인 하지 않는 것이 바람직하다.
상기 d) 단계는,
d-1) 웹 정보 자원의 주요 HTML 태그에서 추출된 색인어의 주제 가중치 벡터에 대해 가중치 값을 추가로 부여하는 단계; d-2) 주요 색인어의 주제 분야별 가중치에 따라 색인어 DB의 규모를 조절하는 단계; d-3) 상기 d-2) 단계에서 선정된 색인어 DB를 이용하여 해당 웹 정보 자원의 초록 또는 원문 데이터에서 단일어절이나 2개 이상의 어절로 구성된 복합명사를 색인하고, 어절 수와 색인어 길이에 따라 가중치를 부여하는 단계; 및 d-4) 웹 정보 내에서 주요 색인어가 동시에 발생하는 것을 의미하는 기 생성된 색인어 연관성 정보를 이용하여, 웹 정보 색인어의 연관 정도에 따라 의미 가중치를 추가 부여하는 단계;를 포함하는 것이 바람직하다.
상기 d-3) 단계 이후에, 상기 d-3) 단계에서 이미 색인된 복합명사를 다시 단일어절 단위로 재색인 하지 않는 것이 바람직하다.
상술한 바와 같이 본 발명의 의미 기반 자동 연계 시스템 및 방법은 학술정보 이용자가 학술연구 정보 서비스 플랫폼의 정보 검색 결과에서 학술정보와 관련된 웹 정보를 제공받을 수 있으며, 운용자 측에서는 이를 활용한 다양한 서비스를 확대 제공할 수 있다는 효과를 기대할 수 있다.
또한, 본 발명은 의미 기반의 자동색인, 태깅 기술과 유사 문헌 식별기술을 정보 서비스 환경에 범용적으로 활용할 수 있다는 장점이 있다.
이에 더하여, 본 발명은 이기종 자원 간의 의미 매핑 기술의 기술력을 확보함으로써 지능형 정보 시스템의 응용 연구 및 서비스 고도화에 기여할 수 있다는 효과가 있다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 보다 상세히 설명하기로 한다.
먼저, 도 1은 본 발명에 의한 의미 기반 자동 연계 시스템과 통신망의 연결 관계를 나타내는 도면이다.
본 발명의 의미 기반 자동 연계 시스템(200)은 학술정보를 기준 도메인 영역으로 정의하고, 기준 도메인 영역으로부터 자동 생성된 색인어를 바탕으로 외부 도메인 영역인 웹 서비스 서버(100)로부터 수집한 웹 정보를 학술정보와 연계하여 이기종 도메인 간의 자원들을 의미 유사도에 따라 자동 매핑한다.
또한, 의미 기반 자동 연계 시스템(200)은 사용자가 특정 키워드를 기초로 정보 검색을 요청하는 경우, 해당 학술정보와 상기 학술정보에 매핑된 웹 정보 자원을 함께 제공한다.
도 1에서 개시하는 웹 정보 자원은 국내외 학술 블로그, 실라버스(Syllabus), 메일링 리스트 및 뉴스 그룹 등 웹상에서 유통되는 비정형 학술정보 자원을 의미하며, 상기 비정형 학술정보 자원을 제공하는 다양한 서버들을 웹 서비스 서버(100)로 통칭하기로 한다.
도 2는 본 발명에 의한 의미 기반 자동 연계 시스템의 구성을 나타내는 도면이다.
도시하는 것과 같이, 의미 기반 자동 연계 시스템(200)은 통신 인터페이스부(210), 언어자원 자동 생성부(220), 의미 색인 및 해석부(230), 웹 정보 자원 수집 및 해석부(240), 유사 문헌 연계 처리부(250), 정보 검색 및 결과 제공부(260) 및 데이터베이스(270)를 포함한다.
보다 상세히 설명하면, 통신 인터페이스부(210)는 통신망을 통해 통신을 수행하기 위한 구성 요소이다.
언어자원 자동 생성부(220)는 기 저장된 학술정보와 신규로 등록되는 학술정보를 기 설정된 기준에 따라 가공 처리하여 언어정보 자원을 생성하고, 이를 데이터베이스(270)에 저장한다.
여기에서, 언어자원은 정보자원을 자동 색인하고 주제분야별 특성에 따라 자동 해석하기 위한 색인어의 집합으로써, 자동 생성된 색인어와 데이터마이닝을 통 해 해석된 주제별 분포 및 가중치 정보 등을 담고 있는 어휘정보 데이터 또는 데이터베이스를 의미한다.
의미 색인 및 해석부(230)는 언어자원 자동 생성부(220)에 의해서 생성된 언어정보 자원에 대해 필터링하고, 가중치를 부여하여 학술정보의 색인 및 자동 분류를 수행한다.
웹 정보 자원 수집 및 해석부(240)는 복수의 웹 서비스 서버로부터 수집된 웹 정보 자원에 대해 HTML 태그를 파싱(parsing)하고 구분하여 데이터베이스에 저장하고, 웹 정보 자원에 대해 가중치 부여, 자동의미색인 및 자동 분류를 수행하여 웹 정보 자원을 구축한다.
유사 문헌 연계 처리부(250)는 학술정보와 웹 정보 간의 유사도를 측정하여 관련 문헌을 자동 연계 처리한다.
유사 문헌 연계 처리부(250)에 대해 보다 상세히 설명하면, 유사 문헌 연계 처리부(250)는 학술정보와 웹 정보 각각에 자동 생성된 색인어, 색인어 출현빈도, 주제코드, 주제분야별 가중치 값 또는 이들의 조합 중 어느 하나를 이용하여 유사도를 측정하고, 측정된 유사도에 따라 순위를 설정하여 결과값을 데이터베이스(270)에 저장한다.
이를 보다 상세히 설명하면, 유사 문헌 연계 처리부(250)는 학술정보와 웹 정보 각각의 주요 색인어 추출 과정에서 생성된 색인어와 색인어 출현빈도를 이용하여 유사도를 측정하고 측정된 유사도에 따라 순위를 결정한다. 즉, 학술정보와 웹 정보 간 색인어와 색인어 출현빈도를 유사 계수(Similarity Measures) 또는 거 리 계수(Distance Measures)에 적용하여 유사도를 측정하고 측정된 유사도에 따라 순위를 설정하거나, 또는 학술정보와 웹 정보 양측의 자동분류 결과를 이용해 후보 클러스터를 사전 정의하여 비교대상 규모를 축소한 후, 축소된 정보를 기초로 학술정보와 웹 정보 간의 유사도를 측정하고 측정된 유사도에 따라 순위를 결정한다.
상기 유사 계수로 내적 계수(Inner Product Coefficient), 코사인 계수(Cosine Coefficient) 등과, 거리 계수로 유클리드 거리(Euclidean Distance) 등을 대표적인 유사도 측정 함수로 사용할 수 있다.
정보 검색 및 결과 제공부(260)는 사용자에 의해서 특정 키워드가 입력되면, 해당 학술정보를 추출하여 제공하고, 상기 학술정보에 대한 상세 정보 열람이 요청되는 경우, 데이터베이스로부터 상기 학술정보와 연계된 웹 정보를 추출하여 유사도 순서로 제공한다.
또한, 정보 검색 및 결과 제공부(260)는 사용자에 의해서 특정 웹 정보가 선택되는 경우, 상기 특정 웹 정보를 제공하는 해당 사이트로 이동할 수 있도록 서비스를 제공한다.
데이터베이스(270)는 의미 기반 자동 연계 시스템(200)과 관련된 정보를 저장한다.
도 3은 본 발명에 의한 언어자원 자동 생성부의 구성을 상세하게 나타내는 도면이다.
도시하는 것과 같이, 언어자원 자동 생성부(220)는 주요 언어자원 구축수 단(221), 가중치 벡터 구축수단(223) 및 연관 정보 구축수단(225)을 포함한다.
보다 상세히 설명하면, 주요 언어자원 구축수단(221)은 학술정보의 키워드 필드로부터 주요 색인어를 추출하여 데이터베이스(270)에 저장한다.
또한, 주요 언어자원 구축수단(221)은 신규 자원이 등록되어 학술정보자원이 갱신되면, 관련 언어자원을 자동으로 갱신한다.
가중치 벡터 구축수단(223)은 주요 색인어의 주제 분야별 가중치 벡터를 생성하여 색인어와 주제 가중치 벡터의 연계 정보(색인어-주제 가중치 벡터)를 생성하고 데이터베이스(270)에 저장한다.
여기에서, 주제 가중치 벡터는 각각의 색인어에 대한 주제 코드와 가중치 값으로 구성되는 데, 색인어와 주제 가중치 벡터의 연계 정보는 색인어 = {주제 코드 : 가중치 값, ...}과 유사한 형태이다.
예를 들어, 색인어와 주제 가중치 벡터의 연계 정보는 terrestrial vertebrates = {CODE08:0.096281, CODE06:0.086072, CODE17:0.060375}, phylogenetic trees = {CODE22:0.293856, CODE26:0.05275, CODE20:0.038018, CODE35:0.037082, CODE15:0.028746}, bending strength = {CODE31:0.118066, CODE33:0.080455, CODE38:0.079793, CODE17:0.067829}과 같다.
또한, 가중치 벡터 구축수단(223)은 신규 자원이 등록되어 학술정보자원이 갱신되면, 해당 학술정보자원에 대한 색인어와 주제 가중치 벡터의 연계 정보(색인어-주제 가중치 벡터)를 생성하여 기존의 정보를 갱신한다.
연관 정보 구축수단(225)은 학술정보 내에서 주요 색인어가 동시에 발생하는 공기정보(Co-Occurrence Information)를 측정하여 색인어 연관성 정보를 생성하고 데이터베이스(270)에 저장한다.
여기에서, 공기정보를 측정하여 생성되는 색인어 연관성 정보는 a-tocopherol = {vitamin e:13, oxidative stress:11, ascorbic acid:8, lipid peroxidation:6, ...}과 같은 형태로, <a-tocopherol>이 학술정보 내에서 <vitamin e>와는 13번 동시에 발생하였고, <oxidative stress>와는 11번 동시에 발생하였으며, <ascorbic acid>는 8번 동시에 발생하였고, <lipid peroxidation>와는 6번 동시에 발생하였다는 것을 나타내는 것이다.
또한, 연관 정보 구축수단(225)은 상술한 색인어 연관성 정보를 이용하여, 의미 가중치를 부여하는 데, 예를 들어, <a-tocopherol>과 <vitamin e>가 학술정보 내에서 동시에 발생하는 경우의 의미 가중치 벡터는 {CODE20(생명과학):0.14384, CODEMED(의약학):0.07213, CODE21(식물학):0.05321, CODECHE(화학):0.01821}와 같은 형태이다.
이로 인해, <a-tocopherol>과 <vitamin e>이 서로 다른 학술정보 내에서 발생하는 것보다 동일한 학술정보 내에서 동시에 출현할 경우에 가중치 벡터를 추가 적용하여 자동분류의 정확성을 향상시키는 것이다.
도 4는 본 발명에 의한 의미 색인 및 해석부의 구성을 상세하게 나타내는 도면이다.
도시하는 것과 같이, 의미 색인 및 해석부(230)는 색인어 선정수단(231), 의 미 색인수단(233) 및 의미 가중치 부여수단(235)을 포함한다.
보다 상세히 설명하면, 색인어 선정수단(231)은 주요 색인어의 주제 분야별 가중치에 따라 동적으로 색인어 DB의 규모를 조절한다.
즉, 색인어 선정수단(231)은 색인어의 주제 가중치 벡터에서 가장 상위에 표현된 주제코드의 가중치값을 백분율로 환산하여 그 비율에 따라 10%, 30%, 50%, 70% 90% 등으로 조절하여 동적으로 색인어의 규모를 변경한다.
예를 들면, 색인어 선정수단(231)은 색인어 drug therapy가 {CODEBD:1.078726, CODESA:0.454345, CODEBA:0.043016}의 형태로 주제 가중치 벡터 구성이 되어 있다면, 이를 백분율로 계산하여 {CODEBD:68.443%, CODESA:28.827%, CODEBA:2.729%}로 환산할 수 있다. 즉, <drug therapy>라는 색인어는 특정 주제분야인 CODEBD에 대해 68%이상의 주제 분포비율 값을 갖는 것으로 해석된다. 만약, 색인어 추출 임계치 값을 60%이상으로 할 경우 이 색인어는 후보색인어로 등록이 되지만, 임계치 값을 70%이상으로 설정할 경우 자동으로 탈락되어 색인어로서 기능을 하지 못하게 된다. 이와 같이, 모든 색인어에 대해 주제 가중치 벡터를 해석하여 최상위 주제코드의 비율 값을 추출하고 이를 이용하여 색인어의 주제별 강도에 따라 후보 색인어 데이터베이스를 동적으로 선정한다.
의미 색인수단(233)은 색인어 선정수단(231)에 의해서 선정된 해당 학술정보의 초록 또는 원문 데이터에서 단일어절이나 2개 이상의 어절로 구성된 복합명사를 색인하고, 어절 수와 색인어 길이에 따라 가중치를 부여한다. 이때, 의미 색인수단(233)은 이미 색인된 복합명사를 다시 단일어절 단위로 재색인 하지 않는다.
예를 들어, 의미 색인수단(233)은 FDA(미국식품의약국)인 Food and Drug Administration을 각각 어절 별로 색인 처리하지 않고, Food and Drug Administration 모두를 그대로 색인 하여 food, drug, administration 각각을 색인할 경우 발생하는 의미 해석의 오류 가능성을 낮출 수 있도록 하는 것이다.
또 한가지 예로, 의미 색인수단(233)은 압력 용기(Pressure Vessel)도 하나의 색인어로 처리하고 각각의 어절을 재색인 하지 않는다. 만약, <Pressure>과 <Vessel>을 각각 색인할 경우, <Vessel>이 혈관의 의미로 해석되는 경우가 많으므로 의미 해석의 오류가 발생할 가능성이 높다.
의미 가중치 부여수단(235)은 학술정보 내에서 주요 색인어가 동시에 발생하는 것을 의미하는 기 생성된 색인어 연관성 정보를 이용(연관정보 구축수단(225)에서 생성된 정보)하여, 학술정보 색인어의 연관 정도에 따라 의미 가중치를 추가 부여한다.
즉, 의미 색인수단(233)에서 자동 색인과 동시에 연관 정보 구축수단(225)에서 구축된 주제 가중치 벡터를 이용하여 생성된 모든 벡터 가중치 값의 합을 계산해 주제분야별 자동분류까지 동시에 이루어진다.
도 5는 본 발명에 의한 웹 정보 자원 수집 및 해석부의 구성을 상세하게 나타내는 도면이다.
도시하는 것과 같이, 웹 정보 자원 수집 및 해석부(240)는 웹 정보 자원 구축수단(241), 가중치 부여수단(243), 색인어 선정수단(245), 의미 색인수단(247)및 연관정보 가중치 부여수단(249)을 포함한다.
웹 정보 자원 구축수단(241)은 복수의 웹 서비스 서버(100)로부터 수집된 웹 정보 자원에 대해 HTML 태그를 파싱하고 구분하여 데이터베이스(270)에 저장한다.
여기에서, 웹 정보 자원 구축수단(241)은 웹 정보 자원의 HTML(Hyper Text Markup Language) 태그를 식별하여, 본문 내용 만을 남기도록 한다.
가중치 부여수단(243)은 주요 HTML 태그로부터 추출된 색인어의 주제 가중치 벡터에 가중치 값을 추가로 부여할 수 있다.
여기에서, 주요 HTML 태그는 더욱 중요한 의미를 갖는 HTML 태그(타이틀, 이미지명 또는 이미지설명 등)를 의미하며, 운용자에 의해서 임의로 설정되는 기준에 따라 선정된다.
색인어 선정수단(245)은 웹 정보 자원의 주제 분야별 가중치에 따라 동적으로 색인어 DB의 규모를 조절한다. 이때, 색인어 선정수단(245)은 도 4의 색인어 선정수단(231)에서 설정한 값(예를 들어, 임계치)을 그대로 적용하거나 별도의 값을 설정하여 색인어 DB의 규모를 조절한다.
의미 색인수단(247)은 색인어 선정수단(245)에 의해서 선정된 색인어 DB를 이용하여 해당 웹 정보 자원의 초록 또는 원문 데이터에서 단일어절이나 2개 이상의 어절로 구성된 복합명사를 색인하고, 어절 수와 색인어 길이에 따라 가중치를 부여한다. 여기에서, 의미 색인수단(247)은 이미 색인된 복합명사를 다시 단일어절 단위로 재색인 하지 않는다.
연관정보 가중치 부여수단(249)은 웹 정보 내에서 주요 색인어가 동시에 발 생하는 것을 의미하는 기 생성된 색인어 연관성 정보를 이용(연관정보 구축수단(225)에서 생성된 정보)하여, 웹 정보 색인어의 연관 정도에 따라 의미 가중치를 추가 부여한다.
즉, 의미 색인수단(247)에서 자동 색인과 동시에 연관 정보 구축수단(225)에서 구축된 주제 가중치 벡터를 이용하여 생성된 모든 벡터 가중치 값의 합을 계산해 주제분야별 자동분류까지 동시에 이루어진다.
도 6은 본 발명에 의한 의미 기반 자동 연계 방법을 설명하기 위한 흐름도이다.
먼저, 의미 기반 자동 연계 시스템(200)은 기 저장된 학술정보와 신규로 등록되는 학술정보를 기 설정된 기준에 따라 가공 처리 및 저장하여 언어정보 자원을 생성한다(S101).
의미 기반 자동 연계 시스템(200)은 단계 S101에서 생성된 언어정보 자원에 대해 필터링하고, 가중치를 부여하여 학술정보의 색인 및 자동 분류를 수행한다(S103).
의미 기반 자동 연계 시스템(200)은 복수의 웹 서비스 서버(100)로부터 수집된 웹 정보 자원에 대해 HTML 태그를 파싱하고 구분하여 저장하고, 수집된 웹 정보 자원에 대해 가중치 부여, 자동의미색인 및 자동 분류를 수행하여 웹 정보 자원을 구축한다(S105).
의미 기반 자동 연계 시스템(200)은 학술정보와 웹 정보 간의 유사도를 측정 하여 관련 문헌을 자동 연계 처리한다(S107).
의미 기반 자동 연계 시스템(200)은 사용자에 의해서 특정 키워드가 입력되면, 해당 학술정보를 추출하여 제공하고, 학술정보에 대한 상세 정보 열람이 요청되는 경우, 데이터베이스(270)에 저장된 정보로부터 학술정보와 연계된 웹 정보를 추출하여 유사도 순서로 제공한다(S109, S111).
도 7은 본 발명에 의한 언어정보 자원 구축 방법을 설명하기 위한 흐름도로서, 도 6의 단계 S101을 보다 상세하게 설명하기로 한다.
의미 기반 자동 연계 시스템(200)은 학술정보의 키워드 필드로부터 주요 색인어를 추출하여 저장한다(S201).
이어서, 의미 기반 자동 연계 시스템(200)은 주요 색인어의 주제 분야별 가중치 벡터를 생성하여 색인어와 주제 가중치 벡터의 연계 정보(색인어-주제 가중치 벡터)를 생성하여 저장한다(S203).
의미 기반 자동 연계 시스템(200)은 학술정보 내에서 주요 색인어가 동시에 발생하는 공기정보(Co-Occurrence Information)를 측정하여 색인어 연관성 정보를 생성하여 저장한다(S205).
도 8은 본 발명에 의한 학술정보 자원의 색인 및 자동 분류 방법을 설명하기 위한 흐름도로서, 도 6의 단계 S103을 보다 상세하게 설명하기로 한다.
의미 기반 자동 연계 시스템(200)은 주요 색인어의 주제 분야별 가중치에 따 라 색인어 DB의 규모를 조절한다(S301).
이어서, 의미 기반 자동 연계 시스템(200)은 단계 S301에서 선정된 해당 학술정보의 초록 또는 원문 데이터에서 단일어절이나 2개 이상의 어절로 구성된 복합명사를 색인하고, 어절 수와 색인어 길이에 따라 가중치를 부여한다(S303).
이때, 의미 기반 자동 연계 시스템(200)은 이미 색인된 복합명사를 다시 단일어절 단위로 재색인 하지 않는다.
이후, 의미 기반 자동 연계 시스템(200)은 학술정보 내에서 주요 색인어가 동시에 발생하는 것을 의미하는 기 생성된 색인어 연관성 정보를 이용하여, 학술정보 색인어의 연관 정도에 따라 의미 가중치를 부여한다(S305).
도 9는 본 발명에 의한 웹 정보 자원 해석 방법을 설명하기 위한 흐름도로서, 도 6의 단계 S105를 보다 상세하게 설명하기로 한다.
먼저, 의미 기반 자동 연계 시스템(200)은 복수의 웹 서비스 서버(100)로부터 수집된 웹 정보 자원에 대해 HTML 태그를 파싱하고 구분하여 저장하여 웹 정보 자원을 구축한다(S401).
이어서, 의미 기반 자동 연계 시스템(200)은 웹 정보 자원의 주요 HTML 태그에서 추출된 색인어의 주제 가중치 벡터에 대해 가중치 값을 추가로 부여한다(S403).
여기에서, 주요 HTML 태그는 더욱 중요한 의미를 갖는 HTML 태그(타이틀, 이미지명 또는 이미지설명 정보 등)를 의미한다.
이후, 의미 기반 자동 연계 시스템(200)은 웹 정보 자원의 주제 분야별 가중치에 따라 동적으로 색인어 DB의 규모를 조절한다(S405).
이때, 의미 기반 자동 연계 시스템(200)은 도 8의 단계 S301에서 색인어 DB의 규모를 조절할 때 설정한 값(예를 들어, 임계치)을 그대로 적용하거나 별도의 값을 설정하여 색인어 DB의 규모를 조절한다.
의미 기반 자동 연계 시스템(200)은 단계 S405에서 선정된 색인어 DB를 이용하여 해당 웹 정보 자원의 초록 또는 원문 데이터에서 단일어절이나 2개 이상의 어절로 구성된 복합명사를 색인하고, 어절 수와 색인어 길이에 따라 가중치를 부여한다(S407).
이때, 의미 기반 자동 연계 시스템(200)은 이미 색인된 복합명사를 다시 단일어절 단위로 재색인 하지 않는다.
이후, 의미 기반 자동 연계 시스템(200)은 웹 정보 내에서 주요 색인어가 동시에 발생하는 것을 의미하는 기 생성된 색인어 연관성 정보를 이용하여, 웹 정보 색인어의 연관 정도에 따라 의미 가중치를 추가 부여한다(S409).
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구 범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
도 1은 본 발명에 의한 의미 기반 자동 연계 시스템과 통신망의 연결 관계를 나타내는 도면,
도 2는 본 발명에 의한 의미 기반 자동 연계 시스템의 구성을 나타내는 도면,
도 3은 본 발명에 의한 언어자원 자동 생성부의 구성을 상세하게 나타내는 도면,
도 4는 본 발명에 의한 의미 색인 및 해석부의 구성을 상세하게 나타내는 도면,
도 5는 본 발명에 의한 웹 정보 자원 수집 및 해석부의 구성을 상세하게 나타내는 도면,
도 6은 본 발명에 의한 의미 기반 자동 연계 방법을 설명하기 위한 흐름도,
도 7은 본 발명에 의한 언어정보 자원 구축 방법을 설명하기 위한 흐름도,
도 8은 본 발명에 의한 학술정보 자원의 색인 및 자동 분류 방법을 설명하기 위한 흐름도,
도 9는 본 발명에 의한 웹 정보 자원 해석 방법을 설명하기 위한 흐름도이다.
<도면의 주요 부분에 대한 부호의 설명>
100 : 웹 서비스 서버 200 : 의미 기반 자동 연계 시스템
210 : 통신 인터페이스부 220 : 언어자원 자동 생성부
221 : 주요 언어자원 구축수단 223 : 가중치 벡터 구축수단
225 : 연관 정보 구축수단 230 : 의미 색인 및 해석부
231 : 색인어 선정수단 233 : 의미 색인수단
235 : 의미 가중치 부여수단 240 : 웹 정보 자원 수집 및 해석부
241 : 웹 정보 자원 구축수단 243 : 가중치 부여수단
245 : 색인어 선정수단 247 : 의미 색인수단
249 : 연관정보 가중치 부여수단 250 : 유사 문헌 연계 처리부
260 : 정보 검색 및 결과 제공부 270 : 데이터베이스

Claims (24)

  1. 통신망을 통해 통신을 수행하기 위한 통신 인터페이스부;
    기 저장된 학술정보와 신규로 등록되는 학술정보를 기 설정된 기준에 따라 가공 처리하여 언어정보 자원을 생성하고, 이를 데이터베이스에 저장하는 언어자원 자동 생성부;
    언어자원 자동 생성부에 의해서 생성된 언어정보 자원에 대해 필터링하고, 가중치를 부여하여 학술정보의 색인 및 자동 분류를 수행하는 의미 색인 및 해석부;
    복수의 웹 서비스 서버로부터 수집된 웹 정보 자원에 대해 HTML 태그를 파싱하고 구분하여 데이터베이스에 저장하고, 웹 정보 자원에 대해 가중치 부여, 자동의미색인 및 자동 분류를 수행하여 웹 정보 자원을 구축하는 웹 정보 자원 수집 및 해석부;
    학술정보와 웹 정보 간의 유사도를 측정하여 관련 문헌을 자동 연계 처리하는 유사 문헌 연계 처리부; 및
    의미 기반 자동 연계 시스템과 관련된 정보를 저장하는 데이터베이스;
    를 포함하는 의미 기반 자동 연계 시스템.
  2. 제1항에 있어서,
    언어자원 자동 생성부는,
    학술정보의 키워드 필드로부터 주요 색인어를 추출하여 데이터베이스에 저장하는 주요 언어자원 구축수단;
    주요 색인어의 주제 분야별 가중치 벡터를 생성하여 색인어와 주제 가중치 벡터의 연계 정보(색인어-주제 가중치 벡터)를 생성하고 데이터베이스에 저장하는 가중치 벡터 구축수단; 및
    학술정보 내에서 주요 색인어가 동시에 발생하는 공기정보(Co-Occurrence Information)를 측정하여 색인어 연관성 정보를 생성하고 데이터베이스에 저장하는 연관 정보 구축수단;
    를 포함하는 것을 특징으로 하는 의미 기반 자동 연계 시스템.
  3. 제2항에 있어서,
    상기 주제 가중치 벡터는, 각각의 색인어에 대한 주제 코드와 가중치 값으로 구성된 것을 특징으로 하는 의미 기반 자동 연계 시스템.
  4. 제2항에 있어서,
    상기 주요 언어자원 구축수단은,
    신규 자원이 등록되어 학술정보자원이 갱신되면, 관련 언어자원을 자동으로 갱신하는 것을 특징으로 하는 의미 기반 자동 연계 시스템.
  5. 제2항에 있어서,
    상기 가중치 벡터 구축수단은,
    신규 자원이 등록되어 학술정보자원이 갱신되면, 해당 학술자원에 대한 색인어와 주제 가중치 벡터의 연계 정보(색인어-주제 가중치 벡터)를 생성하여 기존의 정보를 갱신하는 것을 특징으로 하는 의미 기반 자동 연계 시스템.
  6. 제1항 또는 제2항에 있어서,
    상기 의미 색인 및 해석부는,
    주요 색인어의 주제 분야별 가중치에 따라 동적으로 색인어 DB의 규모를 조절하는 색인어 선정수단; 및
    상기 색인어 선정수단에 의해서 선정된 해당 학술정보의 초록 또는 원문 데이터에서 단일어절이나 2개 이상의 어절로 구성된 복합명사를 색인하고, 어절 수와 색인어 길이에 따라 가중치를 부여하는 의미 색인수단;
    를 포함하는 것을 특징으로 하는 의미 기반 자동 연계 시스템.
  7. 제6항에 있어서,
    상기 의미 색인수단은, 이미 색인된 복합명사를 다시 단일어절 단위로 재색인 하지 않는 것을 특징으로 하는 의미 기반 자동 연계 시스템.
  8. 제6항에 있어서,
    상기 의미 색인 및 해석부는,
    학술정보 내에서 주요 색인어가 동시에 발생하는 것을 의미하는 기 생성된 색인어 연관성 정보를 이용하여, 학술정보 색인어의 연관 정도에 따라 의미 가중치를 추가 부여하는 의미 가중치 부여수단;
    을 더 포함하는 것을 특징으로 하는 의미 기반 자동 연계 시스템.
  9. 제2항에 있어서,
    상기 웹 정보 자원 수집 및 해석부는,
    복수의 웹 서비스 서버로부터 수집된 웹 정보 자원에 대해 HTML 태그를 파싱하고 구분하여 데이터베이스에 저장하는 웹 정보 자원 구축수단;
    주요 HTML 태그에서 추출된 색인어의 주제 가중치 벡터에 가중치 값을 추가로 부여하는 가중치 부여수단;
    웹 정보 자원의 주제 분야별 가중치에 따라 동적으로 색인어 DB의 규모를 조절하는 색인어 선정수단; 및
    상기 색인어 선정수단에 의해서 선정된 색인어 DB를 이용하여 해당 웹 정보 자원의 초록 또는 원문 데이터에서 단일어절이나 2개 이상의 어절로 구성된 복합명사를 색인하고, 어절 수와 색인어 길이에 따라 가중치를 부여하는 의미 색인수단;
    을 포함하는 것을 특징으로 하는 의미 기반 자동 연계 시스템.
  10. 제9항에 있어서,
    상기 웹 정보 자원 수집 및 해석부는,
    웹 정보 내에서 주요 색인어가 동시에 발생하는 것을 의미하는 상기 연관정보 구축수단에 의해서 기 생성된 색인어 연관성 정보를 이용하여, 웹 정보 색인어의 연관 정도에 따라 의미 가중치를 추가 부여하는 연관정보 가중치 부여수단;
    을 더 포함하는 것을 특징으로 하는 의미 기반 자동 연계 시스템.
  11. 제9항에 있어서,
    상기 의미 색인수단은,
    이미 색인된 복합명사를 다시 단일어절 단위로 재색인 하지 않는 것을 특징으로 하는 의미 기반 자동 연계 시스템.
  12. 제9항에 있어서,
    상기 웹 정보 자원 구축수단은,
    웹 정보 자원의 HTML(Hyper Text Markup Language) 태그를 식별하여, 본문 내용 만을 남기도록 하는 것을 특징으로 하는 의미 기반 자동 연계 시스템.
  13. 제1항에 있어서,
    유사 문헌 연계 처리부는,
    학술정보와 웹 정보 각각에 생성된 색인어, 색인어 출현빈도, 주제코드, 주제분야별 가중치 값 또는 이들의 조합 중 어느 하나를 이용하여 유사도를 측정하고, 측정된 유사도에 따라 순위를 설정하여 결과값을 데이터베이스에 저장하는 것 을 특징으로 하는 의미 기반 자동 연계 시스템.
  14. 제13항에 있어서,
    상기 유사 문헌 연계 처리부는,
    학술정보와 웹 정보 각각의 주요 색인어 추출 과정에서 생성된 색인어와 색인어 출현빈도를 이용하여 유사도를 측정하고 측정된 유사도에 따라 순위를 설정하는 것을 특징으로 하는 의미 기반 자동 연계 시스템.
  15. 제13항에 있어서,
    상기 유사 문헌 연계 처리부는,
    학술정보와 웹 정보 간 색인어와 색인어 출현빈도를 유사 계수(Similarity Measures) 또는 거리 계수(Distance Measures)에 적용하여 유사도를 측정하고 측정된 유사도에 따라 순위를 설정하는 것을 특징으로 하는 의미 기반 자동 연계 시스템.
  16. 제13항에 있어서,
    상기 유사 문헌 연계 처리부는,
    학술정보와 웹 정보 양측의 자동분류 결과를 이용해 후보 클러스터를 사전 정의하여 비교대상 규모를 축소한 후, 축소된 정보를 기초로 학술정보와 웹 정보 간의 유사도를 측정하고 측정된 유사도에 따라 순위를 결정하는 것을 특징으로 하 는 의미 기반 자동 연계 시스템.
  17. 제1항에 있어서,
    상기 의미 기반 자동 연계 시스템은,
    사용자에 의해서 특정 키워드가 입력되면, 해당 학술정보를 추출하여 제공하고, 상기 학술정보에 대한 상세 정보 열람이 요청되는 경우, 데이터베이스로부터 상기 학술정보와 연계된 웹 정보를 추출하여 유사도 순서로 제공하는 정보 검색 및 결과 제공부;
    를 더 포함하는 것을 특징으로 하는 의미 기반 자동 연계 시스템.
  18. 제17항에 있어서,
    상기 정보 검색 및 결과 제공부는,
    사용자에 의해서 특정 웹 정보가 선택되는 경우, 상기 특정 웹 정보를 제공하는 해당 사이트로 이동할 수 있도록 서비스를 제공하는 것을 특징으로 하는 의미 기반 자동 연계 시스템.
  19. 의미 기반 자동 연계 시스템에서 학술정보와 웹 정보를 의미 기반으로 자동 연계하는 방법으로서,
    a) 의미 기반 자동 연계 시스템이 기 저장된 학술정보와 신규로 등록되는 학술정보를 기 설정된 기준에 따라 가공 처리 및 저장하여 언어정보 자원을 생성하는 단계;
    b) 상기 a) 단계에서 생성된 언어정보 자원에 대해 필터링하고, 가중치를 부여하여 학술정보의 색인 및 자동 분류를 수행하는 단계;
    c) 복수의 웹 서비스 서버로부터 수집된 웹 정보 자원에 대해 HTML 태그를 파싱하고 구분하여 저장하는 단계;
    d) 상기 c) 단계에서 수집된 웹 정보 자원에 대해 가중치 부여, 자동의미색인 및 자동 분류를 수행하여 웹 정보 자원을 구축하는 단계;
    e) 학술정보와 웹 정보 간의 유사도를 측정하여 관련 문헌을 자동 연계 처리하는 단계; 및
    f) 사용자에 의해서 특정 키워드가 입력되면, 해당 학술정보를 추출하여 제공하고, 상기 학술정보에 대한 상세 정보 열람이 요청되는 경우, 기 저장된 정보로부터 상기 학술정보와 연계된 웹 정보를 추출하여 유사도 순서로 제공하는 단계;
    를 포함하는 의미 기반 자동 연계 방법.
  20. 제19항에 있어서,
    상기 a) 단계는,
    학술정보의 키워드 필드로부터 주요 색인어를 추출하여 저장하는 단계;
    주요 색인어의 주제 분야별 가중치 벡터를 생성하여 색인어와 주제 가중치 벡터의 연계 정보(색인어-주제 가중치 벡터)를 생성하여 저장하는 단계; 및
    학술정보 내에서 주요 색인어가 동시에 발생하는 공기정보(Co-Occurrence Information)를 측정하여 색인어 연관성 정보를 생성하여 저장하는 단계;
    를 포함하는 것을 특징으로 하는 의미 기반 자동 연계 방법.
  21. 제20항에 있어서,
    상기 b) 단계는,
    b-1) 주요 색인어의 주제 분야별 가중치에 따라 색인어 DB의 규모를 조절하는 단계;
    b-2) 상기 b-1) 단계에서 선정된 해당 학술정보의 초록 또는 원문 데이터에서 단일어절이나 2개 이상의 어절로 구성된 복합명사를 색인하고, 어절 수와 색인어 길이에 따라 가중치를 부여하는 단계; 및
    b-3) 학술정보 내에서 주요 색인어가 동시에 발생하는 것을 의미하는 기 생성된 색인어 연관성 정보를 이용하여, 학술정보 색인어의 연관 정도에 따라 의미 가중치를 부여하는 단계;
    를 포함하는 것을 특징으로 하는 의미 기반 자동 연계 방법.
  22. 제21항에 있어서,
    상기 b-2) 단계 이후에,
    상기 b-2) 단계에서 이미 색인된 복합명사를 다시 단일어절 단위로 재색인 하지 않는 것을 특징으로 하는 의미 기반 자동 연계 방법.
  23. 제20항에 있어서,
    상기 d) 단계는,
    d-1) 웹 정보 자원의 주요 HTML 태그에서 추출된 색인어의 주제 가중치 벡터에 대해 가중치 값을 추가로 부여하는 단계;
    d-2) 주요 색인어의 주제 분야별 가중치에 따라 색인어 DB의 규모를 조절하는 단계;
    d-3) 상기 d-2) 단계에서 선정된 색인어 DB를 이용하여 해당 웹 정보 자원의 초록 또는 원문 데이터에서 단일어절이나 2개 이상의 어절로 구성된 복합명사를 색인하고, 어절 수와 색인어 길이에 따라 가중치를 부여하는 단계; 및
    d-4) 웹 정보 내에서 주요 색인어가 동시에 발생하는 것을 의미하는 기 생성된 색인어 연관성 정보를 이용하여, 웹 정보 색인어의 연관 정도에 따라 의미 가중치를 추가 부여하는 단계;
    를 포함하는 것을 특징으로 하는 의미 기반 자동 연계 방법.
  24. 제23항에 있어서,
    상기 d-3) 단계 이후에,
    상기 d-3) 단계에서 이미 색인된 복합명사를 다시 단일어절 단위로 재색인 하지 않는 것을 특징으로 하는 의미 기반 자동 연계 방법.
KR1020080115039A 2008-11-19 2008-11-19 의미 기반 자동 연계 시스템 및 방법 KR100992887B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080115039A KR100992887B1 (ko) 2008-11-19 2008-11-19 의미 기반 자동 연계 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080115039A KR100992887B1 (ko) 2008-11-19 2008-11-19 의미 기반 자동 연계 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20100056065A true KR20100056065A (ko) 2010-05-27
KR100992887B1 KR100992887B1 (ko) 2010-11-08

Family

ID=42280289

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080115039A KR100992887B1 (ko) 2008-11-19 2008-11-19 의미 기반 자동 연계 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR100992887B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101033611B1 (ko) * 2010-07-09 2011-05-11 한국과학기술정보연구원 참고 문헌 적합성 판정 시스템 및 방법
CN111223026A (zh) * 2020-01-03 2020-06-02 武汉理工大学 垃圾危机转化智能管理方法
CN113343638A (zh) * 2021-05-10 2021-09-03 武汉大学 面向精细化内容重组的服务内容多重语义自动编码方法
CN113657113A (zh) * 2021-08-24 2021-11-16 北京字跳网络技术有限公司 文本处理方法、装置和电子设备
KR20220074466A (ko) * 2020-11-27 2022-06-03 건국대학교 산학협력단 사용자 생성 데이터 기반의 사용자 경험 분석 장치 및 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271669A (ja) 2002-03-15 2003-09-26 Fujitsu Ltd 話題抽出装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101033611B1 (ko) * 2010-07-09 2011-05-11 한국과학기술정보연구원 참고 문헌 적합성 판정 시스템 및 방법
WO2012005414A1 (ko) * 2010-07-09 2012-01-12 한국과학기술정보연구원 참고 문헌 적합성 판정 시스템 및 방법
CN111223026A (zh) * 2020-01-03 2020-06-02 武汉理工大学 垃圾危机转化智能管理方法
CN111223026B (zh) * 2020-01-03 2024-03-01 武汉理工大学 垃圾危机转化智能管理方法
KR20220074466A (ko) * 2020-11-27 2022-06-03 건국대학교 산학협력단 사용자 생성 데이터 기반의 사용자 경험 분석 장치 및 방법
CN113343638A (zh) * 2021-05-10 2021-09-03 武汉大学 面向精细化内容重组的服务内容多重语义自动编码方法
CN113343638B (zh) * 2021-05-10 2023-10-13 武汉大学 面向精细化内容重组的服务内容多重语义自动编码方法
CN113657113A (zh) * 2021-08-24 2021-11-16 北京字跳网络技术有限公司 文本处理方法、装置和电子设备

Also Published As

Publication number Publication date
KR100992887B1 (ko) 2010-11-08

Similar Documents

Publication Publication Date Title
Zhang et al. Ad hoc table retrieval using semantic similarity
US10725836B2 (en) Intent-based organisation of APIs
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
Bucur Using opinion mining techniques in tourism
JP5154832B2 (ja) 文書検索システム及び文書検索方法
Osiński et al. Conceptual clustering using lingo algorithm: Evaluation on open directory project data
CN104199833B (zh) 一种网络搜索词的聚类方法和聚类装置
WO2018189589A2 (en) Systems and methods for document processing using machine learning
KR20010105241A (ko) 정보검색 시스템
Shah et al. Sentimental Analysis Using Supervised Learning Algorithms
CN112559684A (zh) 一种关键词提取及信息检索方法
KR100992887B1 (ko) 의미 기반 자동 연계 시스템 및 방법
CN111986792A (zh) 医疗机构评分方法、装置、设备及存储介质
US20070156665A1 (en) Taxonomy discovery
Dorji et al. Extraction, selection and ranking of Field Association (FA) Terms from domain-specific corpora for building a comprehensive FA terms dictionary
Gong et al. Phrase-based hashtag recommendation for microblog posts.
CN115688760A (zh) 一种智能化导诊方法、装置、设备及存储介质
CN107066585B (zh) 一种概率主题计算与匹配的舆情监测方法及系统
CN109558887A (zh) 一种预测行为的方法和装置
US11308172B2 (en) Biological system information retrieval system and method thereof
CN109902152A (zh) 用于检索信息的方法和装置
CN113515699A (zh) 信息推荐方法及装置、计算机可读存储介质、处理器
Mishra et al. A comprehensive analysis of approaches for sentiment analysis using Twitter data on COVID-19 vaccines
KR101920683B1 (ko) 단일 클래스 기반의 데이터 수집 장치 및 방법
JP2013105207A (ja) 秘匿化データの検索のための情報処理方法及び装置

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20131004

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151102

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20161005

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee