KR101273372B1 - 전문용어 사전 검증 시스템 및 방법 - Google Patents

전문용어 사전 검증 시스템 및 방법 Download PDF

Info

Publication number
KR101273372B1
KR101273372B1 KR1020120135823A KR20120135823A KR101273372B1 KR 101273372 B1 KR101273372 B1 KR 101273372B1 KR 1020120135823 A KR1020120135823 A KR 1020120135823A KR 20120135823 A KR20120135823 A KR 20120135823A KR 101273372 B1 KR101273372 B1 KR 101273372B1
Authority
KR
South Korea
Prior art keywords
resource
terminology
subject field
similarity value
frequency
Prior art date
Application number
KR1020120135823A
Other languages
English (en)
Inventor
신성호
서동민
황미녕
조민희
최성필
정한민
성원경
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020120135823A priority Critical patent/KR101273372B1/ko
Application granted granted Critical
Publication of KR101273372B1 publication Critical patent/KR101273372B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 전문용어 사전 검증 시스템 및 방법에 관한 것으로, 복수의 리소스들로부터 수집된 문서들에 기 구축된 정답셋 데이터베이스의 전문용어들이 출현한 출현 빈도를 구하고, 상기 구해진 출현 빈도를 이용하여 각 리소스들의 주제분야를 결정하는 리소스 평가 장치, 복수의 외부 용어 리소스들로부터 전문용어들을 수집하여 전문용어사전 데이터베이스를 구축하고, 상기 전문용어 사전 데이터베이스에 저장된 전문용어들의 리소스별 유사도를 이용하여 각 전문용어의 주제분야를 판별하는 전문용어 판별 장치를 포함한다.

Description

전문용어 사전 검증 시스템 및 방법{System and Method for Verifying Terminology Dictionary}
본 발명은 전문용어 사전 검증 시스템 및 방법에 관한 것으로, 보다 상세하게는 복수의 리소스들로부터 수집된 문서들에 기 구축된 정답셋 데이터베이스의 전문용어들이 출현한 출현 빈도를 구하고, 구해진 출현 빈도를 이용하여 각 리소스들의 주제분야를 결정한 후, 복수의 외부 용어 리소스들로부터 전문용어들을 수집하여 전문용어사전 데이터베이스를 구축하고, 상기 전문용어 사전 데이터베이스에 저장된 전문용어들의 리소스별 유사도를 이용하여 각 전문용어의 주제분야를 판별하는 전문용어사전 검증 시스템 및 방법에 관한 것이다.
기술문헌이나 웹 기사 등 텍스트로부터 기술 개체를 식별하기 위한 방법 중 사전을 활용하는 사전 기반 추출 기법이 있다. 사전에 포함되는 전문 용어들이 엄밀성(망라성) 및 적합성이 높다면, 사전을 이용한 개체 식별의 정확도도 높아진다.
사전의 엄밀성(망라성)은 사전의 기본적인 자질이라 할 수 있다. 사전은 구축 목적에 맞는 용어들을 가능한 많이 포함하고 있어야 한다. 이 세상에 존재하는 목적에 맞는 대부분의 용어들을 담고 있을 때 엄밀성(망라성)이 높은 사전이라 할 수 있다. 사전의 적합성이란 사전이 포함하고 있는 용어들이 사전 구축의 목적에 얼마나 충실한지를 의미한다. 잘 정제된 용어들이라도 사전 구축의 목적에 맞지 않으면, 해당 사전에는 적합하지 않은 용어들이다.
엄밀성과 적합성은 서로 반대의 성질을 가진다. 엄밀성이 높은 전문 용어 사전을 구축할 때는 적합성을 보장하기 힘들고, 반대로 적합성이 높은 전문 용어 사전을 구축하기 위해서는 매뉴얼한 작업이 때때로 필요하기 때문에 엄밀성을 가지기가 쉽지 않다. 이러한 특성 때문에, 기존에는 초기 전문 용어 사전 구축을 자동화 하고, 사전 내 개별 전문 용어의 적합성을 높이기 위해서 추가적인 매뉴얼(기계) 작업이나 완전 수작업을 통해 후처리하는 반자동 전문 용어 사전 구축 방법이 사용되고 있다.
추가적인 매뉴얼 작업이나 완전 수작업은 일부분 또는 완전한 사람의 개입을 필요로 하기 때문에, 시간과 비용이 많이 드는 단점이 있었다.
한국공개특허 제10-2012-0068076호, 발명의 명칭 '기술문헌으로부터 전문 용어의 기술적 개념을 자동으로 탐지하는 방법 및 장치'
본 발명은 상기한 문제점을 해결하기 위하여 안출된 것으로, 본 발명의 목적은 외부 리소스의 주제 분류를 평가하고, 외부 리소스에 출현하는 전문 용어의 출현 빈도를 측정하여, 해당 전문 용어의 적합성을 판별하는 전문용어 사전 검증 시스템 및 방법을 제공하는데 있다.
본 발명의 또 다른 목적은 사전 등 웹상에 오픈되어 있는 용어 리소스들을 수집하여 구축한 전문 용어 사전을 검증하기 위해, 개별 전문 용어들이 특정 주제 분야에 속하는 전문 용어인지에 대한 적합성 여부를 판별할 수 있는 전문용어 사전 검증 시스템 및 방법을 제공하는데 있다.
본 발명의 다른 목적은 외부의 리소스들의 주제분야를 결정하고, 전문용어의 주제분야를 외부 리소스들의 주제분야를 이용하여 판별할 수 있는 전문용어 사전 검증 시스템 및 방법을 제공하는데 있다.
상술한 과제를 해결하기 위한 본 발명의 일 측면에 따르면, 복수의 리소스들로부터 수집된 문서들에 기 구축된 정답셋 데이터베이스의 전문용어들이 출현한 출현 빈도를 구하고, 상기 구해진 출현 빈도를 이용하여 각 리소스들의 주제분야를 결정하는 리소스 평가 장치, 복수의 외부 용어 리소스들로부터 전문용어들을 수집하여 전문용어사전 데이터베이스를 구축하고, 상기 전문용어 사전 데이터베이스에 저장된 전문용어들의 리소스별 유사도를 이용하여 각 전문용어의 주제분야를 판별하는 전문용어 판별 장치를 포함하는 전문용어 사전 검증 시스템이 제공된다.
상기 리소스 평가 장치는 리소스별로 문서들을 분석하여 각 문서에서 정답셋 데이터베이스에 등록된 전문용어들을 탐색하고, 정답셋 데이터베이스에 등록된 전문용어들의 리소스별 전체 문서에서의 출현빈도를 이용하여 각 리소스의 주제분야별 유사도 값을 구하고, 각 리소스의 주제분야별 유사도 값을 기 설정된 임계치와 비교하여, 임계치 이상의 유사도 값을 갖는 주제분야가 존재하는 경우, 해당 리소스에 해당 주제분야를 할당하고, 임계치 이상의 유사도 값을 갖는 주제분야가 존재하지 않은 경우, 정답셋 데이터베이스에 있는 각 용어의 리소스별 개별 문서에서의 출현빈도를 기초로 리소스 내 문서군집을 지정하고, 각 문서군집의 주제분야를 할당할 수 있다.
상기 전문용어 판별 장치는 복수의 외부 용어 리소스들로부터 전문용어를 수집하여 전문용어 사전 데이터베이스를 구축하고, 상기 전문용어 사전 데이터베이스내에 있는 전문용어에 대해 리소스별 유사도 값을 획득한 후, 상기 획득된 리소스별 유사도 값들 중에서 임계치 이상의 유사도 값을 갖는 주제분야가 존재하는 경우, 해당 전문용어를 해당 주제분야로 판별할 수 있다.
본 발명의 다른 측면에 따르면, 전문용어들에 대한 주제분야가 설정된 정답셋 데이터베이스, 복수의 리소스들로부터 수집된 문서들을 리소스별로 분석하여 각 문서에서 상기 정답셋 데이터베이스에 등록된 전문용어들을 탐색하는 용어 탐색부, 상기 정답셋 데이터베이스에 등록된 전문용어들의 출현 빈도를 리소스별로 구하고, 상기 리소스별로 구해진 출현빈도를 이용하여 각 리소스들의 주제분야를 결정하는 주제분야 결정부를 포함하는 리소스 평가 장치가 제공된다.
상기 주제분야 결정부는 상기 정답셋 데이터베이스에 등록된 전문용어들의 리소스별 전체 문서에 출현한 출현빈도를 구하고, 상기 구해진 출현빈도를 이용하여 각 리소스의 주제분야별 유사도 값을 구하는 제1 유사도 계산모듈, 상기 구해진 각 리소스의 주제분야별 유사도 값을 기 설정된 임계치와 비교하여, 임계치 이상의 유사도 값을 갖는 주제분야가 존재하는 경우, 해당 리소스에 해당 주제분야를 할당하는 제1 주제분야 결정 모듈을 포함할 수 있다.
상기 주제분야 결정부는 상기 임계치 이상의 유사도 값을 갖는 주제분야가 존재하지 않은 경우, 정답셋 데이터베이스에 등록된 전문용어의 리소스별 개별 문서에서의 출현빈도를 구하고, 그 출현빈도를 이용하여 각 리소스 내의 개별 문서들에 대한 주제분야별 유사도 값을 구하는 제2 유사도 계산 모듈, 상기 구해진 개별문서들에 대한 주제분야별 유사도 값을 근거로 리소스별로 개별 문서들을 문서 군집으로 생성하고, 각 문서 군집의 주제분야를 할당하는 제2 주제분야 할당 모듈을 포함할 수 있다.
본 발명의 또 다른 측면에 따르면, 복수의 외부 용어 리소스들로부터 전문용어를 수집하여 전문용어 사전 데이터베이스를 구축하는 전문용어사전 DB 구축부, 상기 구축된 전문용어 사전 데이터베이스내에 있는 전문용어에 대해 리소스별 유사도 값을 획득하는 유사도 값 획득부, 상기 획득된 리소스별 유사도 값들 중에서 임계치 이상의 유사도 값을 갖는 주제분야가 존재하는 경우, 해당 전문용어를 해당 주제분야로 판별하는 주제분야 판별부를 포함하는 전문용어 판별 장치가 제공된다.
상기 유사도 값 획득부는 리소스 평가 장치에서 구해진 리소스별 유사도 값을 획득하거나, 상기 전문용어 사전 데이터베이스에 등록된 전문 용어가 각각의 리소스에 출현하는 출현 빈도를 구하고, 그 구해진 출현빈도를 이용하여 리소스별 유사도 값을 구할 수 있다.
본 발명의 또 다른 측면에 따르면, 전문용어 검증 시스템이 전문용어사전을 검증하는 방법에 있어서, (a) 복수의 리소스들로부터 수집된 문서들에 기 구축된 정답셋 데이터베이스의 전문용어들이 출현한 출현 빈도를 구하고, 상기 구해진 출현 빈도를 이용하여 각 리소스들의 주제분야를 결정하는 단계, (b) 복수의 외부 용어 리소스들로부터 전문용어들을 수집하여 전문용어사전 데이터베이스를 구축하고, 상기 전문용어 사전 데이터베이스에 저장된 전문용어들의 리소스별 유사도를 이용하여 각 전문용어의 주제분야를 판별하는 단계를 포함하는 전문용어사전 검증 방법이 제공된다.
상기 (a) 단계는, 상기 복수의 리소스들로부터 문서들을 수집하고, 리소스별로 문서들을 분석하여 각 문서에서 정답셋 데이터베이스에 등록된 전문용어들을 탐색하는 단계, 상기 정답셋 데이터베이스에 등록된 전문용어들의 리소스별 전체 문서에서의 출현빈도를 이용하여 각 리소스의 주제분야별 유사도 값을 구하는 단계, 각 리소스의 주제분야별 유사도 값을 기 설정된 임계치와 비교하여, 임계치 이상의 유사도 값을 갖는 주제분야가 존재하는 경우, 해당 리소스에 해당 주제분야를 할당하고, 임계치 이상의 유사도 값을 갖는 주제분야가 존재하지 않은 경우, 정답셋 데이터베이스에 있는 각 용어의 리소스별 개별 문서에서의 출현빈도를 기초로 리소스 내 문서군집을 지정하고, 각 문서군집의 주제분야를 할당하는 단계를 포함할 수 있다.
상기 (b) 단계는 상기 복수의 외부 용어 리소스들로부터 전문용어를 수집하여 전문용어 사전 데이터베이스를 구축하는 단계, 상기 전문용어 사전 데이터베이스내에 있는 전문용어에 대해 리소스별 유사도 값을 획득하는 단계, 상기 획득된 리소스별 유사도 값들 중에서 임계치 이상의 유사도 값을 갖는 주제분야가 존재하는 경우, 해당 전문용어를 해당 주제분야로 판별하는 단계를 포함할 수 있다.
본 발명의 또 다른 측면에 따르면, 리소스 평가 장치가 전문용어 사전을 검증하기 위해 리소스들의 주제분야를 결정하는 방법에 있어서, (a) 복수의 리소스들로부터 수집된 문서들을 리소스별로 분석하여 각 문서에서 정답셋 데이터베이스에 등록된 전문용어들을 탐색하는 단계, (b) 상기 정답셋 데이터베이스에 등록된 전문용어들의 출현 빈도를 리소스별로 구하고, 상기 리소스별로 구해진 출현빈도를 이용하여 각 리소스들의 주제분야를 결정하는 단계를 포함하는 전문용어사전 검증 방법이 제공된다.
상기 (b) 단계는 상기 정답셋 데이터베이스에 등록된 전문용어들의 리소스별 전체 문서에 출현한 출현빈도를 구하고, 상기 구해진 출현빈도를 이용하여 각 리소스의 주제분야별 유사도 값을 구하는 단계, 상기 구해진 각 리소스의 주제분야별 유사도 값을 기 설정된 임계치와 비교하여, 임계치 이상의 유사도 값을 갖는 주제분야가 존재하는 경우, 해당 리소스에 해당 주제분야를 할당하는 단계를 포함할 수 있다.
상기 (b) 단계는 상기 임계치 이상의 유사도 값을 갖는 주제분야가 존재하지 않은 경우, 정답셋 데이터베이스에 등록된 전문용어의 리소스별 개별 문서에서의 출현빈도를 구하고, 그 출현빈도를 이용하여 각 리소스 내의 개별 문서들에 대한 주제분야별 유사도 값을 구하는 단계, 상기 구해진 개별문서들에 대한 주제분야별 유사도 값을 근거로 리소스별로 개별 문서들을 문서 군집으로 생성하고, 각 문서 군집의 주제분야를 할당하는 단계를 더 포함할 수 있다.
본 발명의 또 다른 측면에 따르면, 전문용어 판별 장치가 전문용어사전을 검증하는 방법에 있어서, (a) 복수의 외부 용어 리소스들로부터 전문용어를 수집하여 전문용어 사전 데이터베이스를 구축하는 단계, (b) 상기 구축된 전문용어 사전 데이터베이스내에 있는 전문용어에 대해 리소스별 유사도 값을 획득하는 단계, (c) 상기 획득된 리소스별 유사도 값들 중에서 임계치 이상의 유사도 값을 갖는 주제분야가 존재하는 경우, 해당 전문용어를 해당 주제분야로 판별하는 단계를 포함하는 전문용어사전 검증 방법이 제공된다.
상기 (b) 단계는, 상기 전문용어 사전 데이터베이스에 등록된 전문 용어가 각각의 리소스에 출현하는 출현 빈도를 구하고, 그 구해진 출현빈도를 이용하여 리소스별 유사도 값을 구하는 것을 특징으로 할 수 있다.
본 발명에 따르면, 외부 리소스의 주제 분류를 평가하고, 외부 리소스에 출현하는 전문 용어의 출현 빈도를 측정하여, 해당 전문 용어의 적합성을 판별할 수 있다.
또한, 사전 등 웹상에 오픈되어 있는 용어 리소스들을 수집하여 구축한 전문 용어 사전을 검증하기 위해, 개별 전문 용어들이 특정 주제 분야에 속하는 전문 용어인지에 대한 적합성 여부를 판별할 수 있다.
또한, 외부의 리소스들의 주제분야를 결정하고, 전문용어의 주제분야를 외부 리소스들의 주제분야를 이용하여 판별함으로써, 전문 용어의 엄밀성을 보장하면서, 소프트웨어에 의한 적합성을 높일 수 있다.
도 1은 본 발명의 실시예에 따른 전문용어 사전 검증 시스템을 나타낸 도면.
도 2는 본 발명의 실시예에 따른 리소스 평가 장치의 구성을 개략적으로 나타낸 블럭도.
도 3은 본 발명의 실시예에 따른 전문용어 판별 장치의 구성을 개략적으로 나타낸 블럭도.
도 4는 본 발명의 실시예에 따른 전문용어 사전 검증 방법을 나타낸 흐름도.
도 5는 본 발명의 실시예에 따른 리소스 평가 장치가 리소스들의 주제분야를 결정하는 방법을 나타낸 흐름도.
도 6은 본 발명의 실시예에 따른 전문용어 판별 장치가 전문용어의 주제분야를 판별하는 방법을 나타낸 흐름도.
본 발명의 전술한 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하 상세한 설명에 의해 보다 명확하게 이해될 것이다.
도 1은 본 발명의 실시예에 따른 전문용어 사전 검증 시스템을 나타낸 도면이다.
도 1을 참조하면, 전문용어 사전 검증 시스템은 복수의 리소스(100), 리소스들(100)의 주제분야를 결정하는 리소스 평가 장치(200), 복수의 용어 리소스(300), 용어 리소스들로부터 전문용어 사전을 구축하는 전문용어 판별 장치(400)를 포함한다.
복수의 리소스(100)는 잡지, 뉴스, 보고서 등의 웹 문서를 포함할 수 있다. 각 리소스들은 대분류, 중분류, 소분류 등의 형태로 카테고리가 설정되어 있을 수 있다. 예컨대, 뉴스의 경우, 부동산 뉴스, 정치 뉴스, 경제 뉴스 등의 형태로 카테고리가 설정되어 있을 수 있다.
또한, 복수의 리소스(100)는 대량의 문서를 포함하고 있고, 각각의 문서들은 용어들로 이루어진 많은 문장들로 구성된다. 따라서 개별 리소스에 사용되고 있는 용어들에 의해 해당 리소스의 주제 분야를 평가하고, 원시 전문 용어 사전의 개별 전문용어들이 어느 리소스에 많이 사용되었는지 분석함으로써 전문용어들의 주제 분야 전문성을 판별할 수 있다.
리소스 평가 장치(200)는 복수의 리소스들(100)로부터 수집된 문서들에 기 구축된 정답셋 데이터베이스의 전문용어들이 출현한 출현 빈도를 구하고, 구해진 출현 빈도를 이용하여 각 리소스들의 주제분야를 결정한다. 즉, 리소스 평가 장치(200)는 리소스별로 문서들을 분석하여 각 문서에서 정답셋 데이터베이스에 등록된 전문용어들을 탐색하고, 정답셋 데이터베이스에 등록된 전문용어들의 리소스별 전체 문서에서의 출현빈도를 이용하여 각 리소스의 주제분야별 유사도 값을 구한다. 그런 후, 리소스 평가 장치(200)는 각 리소스의 주제분야별 유사도 값을 기 설정된 임계치와 비교하여, 임계치 이상의 유사도 값을 갖는 주제분야가 존재하는 경우, 해당 리소스에 해당 주제분야를 할당한다. 만약, 임계치 이상의 유사도 값을 갖는 주제분야가 존재하지 않은 경우, 리소스 평가 장치(200)는 정답셋 데이터베이스에 있는 각 용어의 리소스별 개별 문서에서의 출현빈도를 기초로 리소스 내 문서군집을 지정하고, 각 문서군집의 주제분야를 할당한다.
리소스 평가 장치(200)에 대한 상세한 설명은 도 2를 참조하기로 한다.
복수의 용어 리소스(300)는 용어 사전, WiKi, 특허 제목, 논문 키워드, Gartner 기술 용어 등을 포함할 수 있다.
전문용어 판별 장치(400)는 복수의 용어 리소스들(300)로부터 전문용어들을 수집하여 전문용어사전 데이터베이스를 구축하고, 구축된 전문용어 사전 데이터베이스에 저장된 전문용어들의 리소스별 유사도를 이용하여 각 전문용어의 주제분야를 판별한다. 즉, 전문용어 판별 장치(400)는 복수의 외부 용어 리소스들로부터 전문용어를 수집하여 전문용어 사전 데이터베이스를 구축하고, 구축된 전문용어 사전 데이터베이스내에 있는 전문용어에 대해 리소스별 유사도 값을 획득한다. 그런 후, 전문용어 판별 장치(400)는 획득된 리소스별 유사도 값들 중에서 임계치 이상의 유사도 값을 갖는 주제분야가 존재하는 경우, 해당 전문용어를 해당 주제분야로 판별한다.
상기와 같이 전문용어 판별 장치(400)는 복수의 용어 리소스들(300)로부터 전문용어들을 수집하여 구축된 전문용어사전 데이터베이스에 저장된 전문용어들의 주제분야가 적합한 것인지를 판별하는 역할을 수행한다.
전문용어 판별 장치(400)에 대한 상세한 설명은 도 3을 참조하기로 한다.
도 2는 본 발명의 실시예에 따른 리소스 평가 장치의 구성을 개략적으로 나타낸 블럭도이다.
도 2를 참조하면, 리소스 평가 장치(200)는 정답셋 데이터베이스(210), 용어 탐색부(220), 주제분야 결정부(230), 리소스별 주제분야 데이터베이스(240)를 포함한다.
정답셋 데이터베이스(210)는 전문용어들에 대한 주제분야 설정되어 있다. 여기서, 전문용어는 IT 분야, 의학 분야, 전자부품 분야 등 각 분야들의 전문용어를 말한다.
용어 탐색부(220)는 복수의 리소스들로부터 수집된 문서들을 리소스별로 분석하여 각 문서에서 정답셋 데이터베이스(210)에 등록된 전문용어들을 탐색한다. 즉, 용어 탐색부(220)는 외부 리소스들로부터 수집한 웹 문서들을 문장 파싱, 품사 태깅 등을 통해 분석하여, 정답셋 데이터베이스(210)에 등록된 전문용어들을 찾는다.
주제분야 결정부(230)는 정답셋 데이터베이스(210)에 등록된 전문용어들의 출현 빈도를 리소스별로 구하고, 리소스별로 구해진 출현빈도를 이용하여 각 리소스들의 주제분야를 결정한다. 즉, 주제분야 결정부(230)는 정답셋 데이터베이스(210)에 등록된 전문용어들이 개별 문서와 리소스 전체 문서에 몇회 나오는지 출현빈도를 구하고, 그 구해진 출현빈도에 기초하여 각 리소스들의 주제분야를 결정한다.
상기와 같은 주제분야 결정부(210)는 제1 유사도 계산 모듈(232), 제1 주제분야 결정모듈(234), 제2 유사도 계산 모듈(236), 제2 주제분야 결정 모듈(238)을 포함한다.
제1 유사도 계산 모듈(232)은 정답셋 데이터베이스(210)에 등록된 전문용어들의 리소스별 전체 문서에 출현한 출현빈도를 구하고, 구해진 출현빈도를 이용하여 각 리소스의 주제분야별 유사도 값을 구한다. 즉, 제1 유사도 계산 모듈(232)은 정답셋 데이터베이스(210)에 등록된 전문용어들이 각 리소스의 전체 문서에 출현한 출현빈도를 구하고, 전문용어들의 리소스별 전체 문서에 출현한 출현빈도를 더하거나 또는 가중치를 적용하여 각 리소스의 주제분야별 유사도 값을 구한다. 여기서, 유사도 값은 예를 들면, %의 값일 수 있다.
제1 주제분야 결정모듈(234)은 제1 유사도 계산모듈(232)에서 구해진 각 리소스의 주제분야별 유사도 값을 기 설정된 임계치와 비교하여, 임계치 이상의 유사도 값을 갖는 주제분야가 존재하는 경우, 해당 리소스에 해당 주제분야를 할당한다. 여기서, 임계치는 변경 가능한 값일 수 있다.
제2유사도 계산 모듈(236)은 임계치 이상의 유사도 값을 갖는 주제분야가 존재하지 않은 경우, 정답셋 데이터베이스(210)에 등록된 전문용어의 리소스별 개별 문서에서의 출현빈도를 구하고, 그 출현빈도를 이용하여 각 리소스 내의 개별 문서들에 대한 주제분야별 유사도 값을 구한다.
제2 주제분야 할당 모듈(238)은 제2 유사도 계산 모듈에서 구해진 개별문서들에 대한 주제분야별 유사도 값을 근거로 리소스별로 개별 문서들을 문서 군집으로 생성하고, 각 문서 군집의 주제분야를 할당한다. 즉, 임계치 이상의 유사도 값을 갖는 주제분야가 존재하지 않으면, 이는 해당 리소스가 다양한 주제분야를 다루는 뉴스나 종합 매체일 가능성이 높다는 것을 의미한다. 따라서 이러한 경우에는 해당 리소스 내의 개별 문서들에 대한 주제분야별 유사도 값을 구하여, 유사한 주제분야를 가지는 개별 문서들을 문서군집으로 묶어준다. 해당 문서군집은 특정 리소스에 속해 있지만, 뉴스의 특정 섹션처럼 특정 주제분야를 나타내는 부분집합과 같은 리소스가 될 수 있다. 해당 문서군집에 있는 문서들은 동일한 주제분야를 가지기 때문에, 정답셋 데이터베이스(210)에 등록된 용어들의 주제분야 유사도 값을 이용해서 해당 문서군집의 주제분야를 쉽게 결정할 수 있다.
리소스별 주제분야 데이터베이스(240)에는 주제분야 결정부(230)에서 결정된 각 리소스들의 주제분야 저장되어 있다. 이때, 리소스별 주제분야 데이터베이스(240)에는 각 리소스의 주제분야별 유사도 값, 각 리소스 내의 개별문서들에 대한 주제분야별 유사도 값 등이 저장되어 있다.
도 3은 본 발명의 실시예에 따른 전문용어 판별 장치의 구성을 개략적으로 나타낸 블럭도이다.
도 3을 참조하면, 전문용어 판별 장치(400)는 전문용어 사전 데이터베이스 구축부(410), 전문용어 사전 데이터베이스(420), 유사도 값 획득부(430), 주제분야 판별부(440), 정제된 전문용어 사전 데이터베이스(450)를 포함한다.
전문용어 사전 데이터베이스 구축부(410)는 복수의 외부 용어 리소스들로부터 전문용어를 수집하여 전문용어 사전 데이터베이스(420)를 구축한다. 따라서, 전문용어 사전 데이터베이스(420)에는 복수의 용어 리소스들에 등록된 전문용어와 그 전문용어의 주제분야가 저장되어 있다.
즉, 전문용어 사전 데이터베이스 구축부(410)는 용어사전, Wiki, 특허제목, 논문 키워드, Gartner 기술용어 등 특정 목적으로 구축된 외부의 용어 리소스들로부터 전문 용어들을 수집하여, 전문 용어 사전 데이터베이스(420)를 구축한다.
유사도 값 획득부(430)는 전문용어 사전 데이터베이스 구축부(410)에서 구축된 전문용어 사전 데이터베이스(420)내에 있는 전문용어에 대해 리소스별 유사도 값을 획득한다. 즉, 유사도 값 획득부(430)는 리소스 평가 장치에서 구해진 리소스별 유사도 값을 획득하거나, 전문용어 사전 데이터베이스(420)에 등록된 전문 용어가 각각의 리소스에 출현하는 출현 빈도를 구하고, 그 구해진 출현빈도를 이용하여 리소스별 유사도 값을 구할 수 있다.
주제분야 판별부(440)는 유사도 값 획득부(430)에서 획득된 리소스별 유사도 값들 중에서 임계치 이상의 유사도 값을 갖는 주제분야가 존재하는 경우, 해당 전문용어를 해당 주제분야로 판별한다.
또한, 주제분야 판별부(440)는 임계치 이상의 유사도 값을 갖는 주제분야가 존재하지 않으면, 해당 전문용어를 별도로 관리한다. 즉, 주제분야 판별부(440)는 사전에 정한 임계치보다 높은 유사도를 가진 주제 분야가 있으면, 해당 전문 용어는 그 주제 분야로 분류하고, 분류된 주제 분야와 사용자가 원하는 주제 분야가 맞으면, 해당 전문 용어는 적합한 전문 용어로 분류하고 별도로 저장한다. 이때 향후 활용을 위해, 해당 전문 용어에 대한 주제 분야별 유사도(%)를 모두 저장한다.
만약, 임계치를 넘는 주제 분야가 있되, 사용자가 원하는 특정 주제 분야가 아니라면, 해당 전문 용어는 다른 분야의 전문 용어로 분류되기 때문에 삭제 처리를 한다. 임계치를 넘는 주제 분야가 없는 경우에도, 삭제 처리를 한다
정제된 전문용어 사전 데이터베이스(450)에는 주제분야 판별부(440)에 의해 판별된 전문용어들의 주제분야로 저장되어 있다.
도 4는 본 발명의 실시예에 따른 전문용어 사전 검증 방법을 나타낸 흐름도이다. 이하에서는 전문용어 사전 검증 시스템을 검증 시스템으로 칭하여 설명하기로 한다.
도 4를 참조하면, 검증 시스템은 복수의 외부 리소스들로부터 문서를 수집하고, 기 구축된 분야별 정답셋 DB의 전문용어들이 개별 외부 리소스에 얼마나 많이 출현하는지를 분석하여, 각 리소스들의 주제분야를 결정한다(S402).
검증 시스템이 리소스들의 주제분야를 결정하는 방법에 대한 상세한 설명은 도 5를 참조하기로 한다.
단계 S402가 수행되면, 검증 시스템은 복수의 외부 용어 리소스들로부터 전문용어들을 수집하여 전문용어 사전 데이터베이스를 구축하고(S404), 전문용어 사전 데이터베이스에 저장된 개별 전문용어의 리소스별 유사도를 이용하여 각 전문용어의 주제분야를 판별한다(S406).
즉, 검증 시스템은 전문용어 사전 DB 내의 개별 전문 용어를 호출하여 해당 전문 용어가 각각의 리소스에 얼마나 많이 출현했는지 출현 빈도를 계산하고, 출현빈도를 근거로 각 전문용어의 리소스별 유사도를 측정한다. 예컨대, a전문용어의 경우, A 리소스 1회, B 리소스 3회, C 리소스 15회, D 리소스 1회로 출현 빈도가 계산된 경우, 검증 시스템은 A 리소스 5%, B 리소스 15%, C 리소스 75%, D 리소스 5%와 같이 리소스별 유사도를 측정할 수 있다. 그런 후, 검증 시스템은 측정된 리소스별 유사도 값을 기 설정된 임계치와 비교하여, 전문용어들의 주제분야를 판별할 수 있다.
검증 시스템이 전문용어의 주제분야를 판별하는 방법에 대한 상세한 설명은 도 6을 참조하기로 한다.
도 5는 본 발명의 실시예에 따른 리소스 평가 장치가 리소스들의 주제분야를 결정하는 방법을 나타낸 흐름도이다.
도 5를 참조하면, 리소스 평가 장치는 복수의 외부 리소스들을 수집한다(S502). 즉, 리소스 평가 장치는 잡지, 뉴스, 보고서 등의 웹 문서를 외부 리소스로 수집할 수 있다.
단계 S502의 수행 후, 리소스 평가 장치는 리소스별로 문서들을 분석하여 각 문서에서 정답셋 DB에 등록된 용어들을 탐색하고(S504), 정답셋 DB에 있는 용어들에 대해 리소스별 전체 문서에 출현한 출현 빈도를 구한 후(S506), 구해진 리소스별 전체 문서에 출현한 출현 빈도를 이용하여 각 리소스의 주제분야별 유사도 값을 구한단(S506).
즉, 리소스 평가 장치는 외부 리소스들로부터 수집한 웹문서들을 문장 파싱, 품사 태깅 등을 통해 분석하여, 정답셋 DB에 등록된 용어들을 찾는다. 그런 후, 리소스 평가 장치는 정답셋 DB에 등록된 전문용어들이 각 리소스에서 몇회 나오는지 출현 빈도를 계산하고, 계산된 출현 빈도를 이용하여 각 리소스의 주제분야별 유사도 값을 구한다.
예컨대, 정답 셋 DB에 등록된 용어 중, 제1 리소스에 출현한 용어가 '용어1, 용어2, 용어3, 용어4, 용어5'인 경우, 리소스 평가 장치는 '용어1, 용어2, 용어3, 용어4, 용어5' 각각에 대해 제1 리소스 전체 문서에 출현한 출현 빈도를 확인한다.
그런 후, 리소스 평가 장치는 용어1이 정답셋 DB에 등록된 주제분야(A주제분야)를 확인하고, 용어2가 정답셋 DB에 등록된 주제분야(A 주제분야), 용어3이 정답셋 DB에 등록된 주제분야(B 주제분야), 용어4가 정답셋 DB에 등록된 주제분야(C주제분야), 용어5가 정답셋 DB(A 주제분야)에 등록된 주제분야를 각각 확인한다.
그런 후 리소스 평가 장치는 용어1, 용어2, 용어3, 용어4, 용어5 각각이 제1 리소스의 전체 문서에 출현한 출현 빈도를 이용하여 주제분야 유사도 값을 구하게 된다. 즉, 리소스 평가 장치는 제1 리소스에 대해 A 주제 분야 유사도(%)(예컨대, 용어1가 전체 문서에 출현한 출현빈도, 용어2가 전체 문서에 출현한 출현빈도, 용어5가 전체 문서에 출현한 출현빈도를 더하거나 또는 가중치를 적용하여 A주제분야 유사도를 구함), B 주제 분야 유사도(%), C 주제분야 유사도(%), ... , N 주제분야 유사도(%) 등의 유사도 값을 구한다.
단계 S508이 수행되면, 리소스 평가 장치는 각 리소스의 주제분야별 유사도 값을 기 설정된 임계치와 비교하여 임계치 이상의 유사도 값을 갖는 주제분야가 존재하는지를 리소스별로 판단한다(S510).
단계 S510의 판단결과, 임계치 이상의 유사도 값을 갖는 주제분야가 존재하면, 리소스 평가 장치는 해당 리소스에 해당 주제분야를 할당한다(S512).
예컨대, 제1 리소스에 대해 A 주제 분야 유사도가 95%, B 주제 분야 유사도가 30%, C 주제분야 유사도가 20%, D 주제분야 유사도가 10%이고, 임계치가 80%인 경우, 리소스 평가 장치는 제1 리소스에 A 주제분야를 할당할 수 있다.
만약, 단계 S510의 판단결과, 임계치 이상의 유사도 값을 갖는 주제분야가 존재하지 않으면, 리소스 평가 장치는 정답셋 DB를 활용하여, 각 용어의 리소스별 개별 문서에서의 출현빈도를 기초로, 리소스 내 문서군집을 지정하고(S514), 각 문서군집의 주제분야를 할당한다(S516).
즉, 임계치 이상의 유사도 값을 갖는 주제분야가 존재하지 않으면, 이는 해당 리소스가 다양한 주제분야를 다루는 뉴스나 종합 매체일 가능성이 높다는 것을 의미한다. 따라서 이러한 경우에는 해당 리소스 내의 개별 문서들에 대한 주제분야별 유사도 값을 구하여, 유사한 주제분야를 가지는 개별 문서들을 문서군집으로 묶어준다. 해당 문서군집은 특정 리소스에 속해 있지만, 뉴스의 특정 섹션처럼 특정 주제분야를 나타내는 부분집합과 같은 리소스가 될 수 있다. 해당 문서군집에 있는 문서들은 동일한 주제분야를 가지기 때문에, 정답셋 DB에 등록된 용어들의 주제분야 유사도 값을 이용해서 해당 문서군집의 주제분야를 쉽게 결정할 수 있다.
만약, 모든 문서에 대해서 고른 주제 분야 유사도가 나왔다면, 해당 리소스는 적합하지 않은 리소스로 판단하고, 대상에서 제외시킨다.
도 6은 본 발명의 실시예에 따른 전문용어 판별 장치가 전문용어의 주제분야를 판별하는 방법을 나타낸 흐름도이다.
도 6을 참조하면, 전문용어 판별 장치는 복수의 외부 용어 리소스들로부터 전문용어를 수집하여 전문용어 사전 데이터베이스를 구축한다(S602). 여기서, 외부 용어 리소스는 용어사전, Wiki, 특허제목, 논문 키워드, Gartner 기술용어 등이 저장된 데이터베이스일 수 있다. 그러므로, 전문용어 판별 장치는 용어사전, Wiki, 특허제목, 논문 키워드, Gartner 기술용어 등 특정 목적으로 구축된 외부의 용어 리소스들로부터 전문 용어들을 수집하여, 전문 용어 사전 DB를 구축한다.
단계 S602의 수행 후, 전문용어 판별 장치는 전문용어 사전 데이터베이스내에 있는 전문용어에 대해 리소스별 유사도 값을 획득한다(S604). 이때, 전문용어 판별 장치는 리소스 평가 장치에서 구해진 리소스별 유사도 값을 획득할 수 있다. 또한, 전문용어 판별 장치는 전문용어 사전 데이터베이스에 등록된 전문 용어가 각각의 외부 리소스에 출현하는 출현 빈도를 계산하여, 외부 리소스들에 대한 유사도 값을 구할 수도 있다. 전문용어가 각각의 외부 리소스에 출현하는 출현 빈도와 유사도 값을 구하는 방법은 도 5에 설명된 방법과 동일할 수 있다.
단계 S604의 수행 후, 전문용어 판별 장치는 각 전문용어의 리소스별 유사도 값들 중에서 임계치 이상의 유사도 값을 갖는 주제분야가 존재하는지의 여부를 판단한다(S606).
단계 S606의 판단결과 임계치 이상의 유사도 값을 갖는 주제분야가 존재하는 경우, 전문용어 판별 장치는 해당 전문용어를 해당 주제분야로 판별한다(S608).
만약, 단계 S606의 판단결과 임계치 이상의 유사도 값을 갖는 주제분야가 존재하지 않으면, 전문용어 판별 장치는 해당 전문용어를 별도로 관리한다(S610). 즉, 전문용어 판별 장치는 사전에 정한 임계치보다 높은 유사도를 가진 주제 분야가 있으면, 해당 전문 용어는 그 주제 분야로 분류하고, 분류된 주제 분야와 사용자가 원하는 주제 분야가 맞으면, 해당 전문 용어는 적합한 전문 용어로 분류하고 별도로 저장한다. 이때 향후 활용을 위해, 해당 전문 용어에 대한 주제 분야별 유사도(%)를 모두 저장한다.
만약, 임계치를 넘는 주제 분야가 있되, 사용자가 원하는 특정 주제 분야가 아니라면, 해당 전문 용어는 다른 분야의 전문 용어로 분류되기 때문에 삭제 처리를 한다. 임계치를 넘는 주제 분야가 없는 경우에도, 삭제 처리를 한다.
이러한 전문용어사전 검증 방법은 프로그램으로 작성 가능하며, 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 전문용어사전 검증 방법에 관한 프로그램은 전자장치가 읽을 수 있는 정보저장매체(Readable Media)에 저장되고, 전자장치에 의하여 읽혀지고 실행될 수 있다.
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100 : 외부 리소스 200 : 리소스 평가 장치
210 : 정답셋 DB 220 : 용어 탐색부
230 : 주제분야 결정부 240 : 리소스별 주제분야 DB
300 : 용어 리소스 400 : 전문용어 판별 장치
410 : 전문용어사전 DB 구축부 410 : 전문용어 사전 DB
420 : 유사도 값 획득부 430 : 정제된 전문용어 사전 DB
440 : 주제분야 판별부

Claims (16)

  1. 복수의 리소스들로부터 수집된 문서들에 기 구축된 정답셋 데이터베이스의 전문용어들이 출현한 출현 빈도를 구하고, 상기 구해진 출현 빈도를 이용하여 각 리소스들의 주제분야를 결정하는 리소스 평가 장치; 및
    복수의 외부 용어 리소스들로부터 전문용어들을 수집하여 전문용어사전 데이터베이스를 구축하고, 상기 전문용어 사전 데이터베이스에 저장된 전문용어들의 리소스별 유사도를 이용하여 각 전문용어의 주제분야를 판별하는 전문용어 판별 장치;를 포함하되,
    상기 리소스 평가 장치는 리소스별로 문서들을 분석하여 각 문서에서 정답셋 데이터베이스에 등록된 전문용어들을 탐색하고, 정답셋 데이터베이스에 등록된 전문용어들의 리소스별 전체 문서에서의 출현빈도를 이용하여 각 리소스의 주제분야별 유사도 값을 구하고, 각 리소스의 주제분야별 유사도 값을 기 설정된 임계치와 비교하여, 임계치 이상의 유사도 값을 갖는 주제분야가 존재하지 않은 경우, 정답셋 데이터베이스에 있는 각 용어의 리소스별 개별 문서에서의 출현빈도를 기초로 리소스 내 문서군집을 지정하고, 각 문서군집의 주제분야를 할당하는 전문용어 사전 검증 시스템.
  2. 제1항에 있어서,
    상기 리소스 평가 장치는 각 리소스의 주제분야별 유사도 값을 기 설정된 임계치와 비교한 결과, 임계치 이상의 유사도 값을 갖는 주제분야가 존재하는 경우, 해당 리소스에 해당 주제분야를 할당하는 것을 특징으로 하는 전문용어 사전 검증 시스템.
  3. 제1항에 있어서,
    상기 전문용어 판별 장치는 복수의 외부 용어 리소스들로부터 전문용어를 수집하여 전문용어 사전 데이터베이스를 구축하고, 상기 전문용어 사전 데이터베이스내에 있는 전문용어에 대해 리소스별 유사도 값을 획득한 후, 상기 획득된 리소스별 유사도 값들 중에서 임계치 이상의 유사도 값을 갖는 주제분야가 존재하는 경우, 해당 전문용어를 해당 주제분야로 판별하는 것을 특징으로 하는 전문용어 사전 검증 시스템.
  4. 전문용어들에 대한 주제분야가 설정된 정답셋 데이터베이스;
    복수의 리소스들로부터 수집된 문서들을 리소스별로 분석하여 각 문서에서 상기 정답셋 데이터베이스에 등록된 전문용어들을 탐색하는 용어 탐색부; 및
    상기 정답셋 데이터베이스에 등록된 전문용어들의 출현 빈도를 리소스별로 구하고, 상기 리소스별로 구해진 출현빈도를 이용하여 각 리소스들의 주제분야를 결정하는 주제분야 결정부;를 포함하되,
    상기 주제분야 결정부는 상기 정답셋 데이터베이스에 등록된 전문용어들의 리소스별 전체 문서에서의 출현빈도를 이용하여 각 리소스의 주제분야별 유사도 값을 구하고, 각 리소스의 주제분야별 유사도 값을 기 설정된 임계치와 비교하여, 임계치 이상의 유사도 값을 갖는 주제분야가 존재하지 않은 경우, 정답셋 데이터베이스에 있는 각 용어의 리소스별 개별 문서에서의 출현빈도를 기초로 리소스 내 문서군집을 지정하고, 각 문서군집의 주제분야를 할당하는 것을 특징으로 하는 리소스 평가 장치.
  5. 제4항에 있어서,
    상기 주제분야 결정부는,
    상기 정답셋 데이터베이스에 등록된 전문용어들의 리소스별 전체 문서에 출현한 출현빈도를 구하고, 상기 구해진 출현빈도를 이용하여 각 리소스의 주제분야별 유사도 값을 구하는 제1 유사도 계산모듈;
    상기 구해진 각 리소스의 주제분야별 유사도 값을 기 설정된 임계치와 비교하여, 임계치 이상의 유사도 값을 갖는 주제분야가 존재하지 않은 경우, 정답셋 데이터베이스에 등록된 전문용어의 리소스별 개별 문서에서의 출현빈도를 구하고, 그 출현빈도를 이용하여 각 리소스 내의 개별 문서들에 대한 주제분야별 유사도 값을 구하는 제2 유사도 계산 모듈; 및
    상기 구해진 개별문서들에 대한 주제분야별 유사도 값을 근거로 리소스별로 개별 문서들을 문서 군집으로 생성하고, 각 문서 군집의 주제분야를 할당하는 제2 주제분야 할당 모듈을 포함하는 것을 특징으로 하는 리소스 평가 장치.
  6. 제5항에 있어서,
    상기 임계치 이상의 유사도 값을 갖는 주제분야가 존재하는 경우, 해당 리소스에 해당 주제분야를 할당하는 제1 주제분야 결정 모듈을 포함하는 것을 특징으로 하는 리소스 평가 장치.

  7. 삭제
  8. 삭제
  9. 전문용어 검증 시스템이 전문용어사전을 검증하는 방법에 있어서,
    (a) 복수의 리소스들로부터 수집된 문서들을 리소스별로 분석하여 각 문서에서 정답셋 데이터베이스에 등록된 전문용어들을 탐색하고, 탐색된 전문용어들의 리소스별 전체 문서에서의 출현빈도를 이용하여 각 리소스의 주제분야별 유사도 값을 구한 후, 각 리소스의 주제분야별 유사도 값을 기 설정된 임계치와 비교하여, 임계치 이상의 유사도 값을 갖는 주제분야가 존재하지 않은 경우, 정답셋 데이터베이스에 있는 각 용어의 리소스별 개별 문서에서의 출현빈도를 기초로 리소스 내 문서군집을 지정하고, 각 문서군집의 주제분야를 할당하는 단계; 및
    (b) 복수의 외부 용어 리소스들로부터 전문용어들을 수집하여 전문용어사전 데이터베이스를 구축하고, 상기 전문용어 사전 데이터베이스에 저장된 전문용어들의 리소스별 유사도를 이용하여 각 전문용어의 주제분야를 판별하는 단계;
    를 포함하는 전문용어사전 검증 방법.
  10. 제9항에 있어서,
    상기 (a) 단계는,
    상기 복수의 리소스들로부터 문서들을 수집하고, 리소스별로 문서들을 분석하여 각 문서에서 정답셋 데이터베이스에 등록된 전문용어들을 탐색하는 단계;
    상기 정답셋 데이터베이스에 등록된 전문용어들의 리소스별 전체 문서에서의 출현빈도를 이용하여 각 리소스의 주제분야별 유사도 값을 구하는 단계; 및
    각 리소스의 주제분야별 유사도 값을 기 설정된 임계치와 비교하여, 임계치 이상의 유사도 값을 갖는 주제분야가 존재하는 경우, 해당 리소스에 해당 주제분야를 할당하고, 임계치 이상의 유사도 값을 갖는 주제분야가 존재하지 않은 경우, 정답셋 데이터베이스에 있는 각 용어의 리소스별 개별 문서에서의 출현빈도를 기초로 리소스 내 문서군집을 지정하고, 각 문서군집의 주제분야를 할당하는 단계를 포함하는 것을 특징으로 하는 전문용어사전 검증 방법.
  11. 제9항에 있어서,
    상기 (b) 단계는,
    상기 복수의 외부 용어 리소스들로부터 전문용어를 수집하여 전문용어 사전 데이터베이스를 구축하는 단계;
    상기 전문용어 사전 데이터베이스내에 있는 전문용어에 대해 리소스별 유사도 값을 획득하는 단계; 및
    상기 획득된 리소스별 유사도 값들 중에서 임계치 이상의 유사도 값을 갖는 주제분야가 존재하는 경우, 해당 전문용어를 해당 주제분야로 판별하는 단계를 포함하는 것을 특징으로 하는 전문용어사전 검증 방법.
  12. 리소스 평가 장치가 전문용어 사전을 검증하기 위해 리소스들의 주제분야를 결정하는 방법에 있어서,
    (a) 복수의 리소스들로부터 수집된 문서들을 리소스별로 분석하여 각 문서에서 정답셋 데이터베이스에 등록된 전문용어들을 탐색하는 단계;
    (b) 상기 정답셋 데이터베이스에 등록된 전문용어들의 리소스별 전체 문서에 출현한 출현빈도를 구하고, 상기 구해진 출현빈도를 이용하여 각 리소스의 주제분야별 유사도 값을 구하는 단계;
    (c) 상기 구해진 각 리소스의 주제분야별 유사도 값을 기 설정된 임계치와 비교하고, 그 비교결과 임계치 이상의 유사도 값을 갖는 주제분야가 존재하지 않은 경우, 정답셋 데이터베이스에 있는 각 용어의 리소스별 개별 문서에서의 출현빈도를 기초로 리소스 내 문서군집을 지정하고, 각 문서군집의 주제분야를 할당하는 단계;
    를 포함하는 전문용어사전 검증 방법.
  13. 제12항에 있어서,
    상기 (c) 단계는,
    상기 구해진 각 리소스의 주제분야별 유사도 값을 기 설정된 임계치와 비교하는 단계;
    상기 비교결과, 상기 임계치 이상의 유사도 값을 갖는 주제분야가 존재하지 않은 경우, 정답셋 데이터베이스에 등록된 전문용어의 리소스별 개별 문서에서의 출현빈도를 구하고, 그 출현빈도를 이용하여 각 리소스 내의 개별 문서들에 대한 주제분야별 유사도 값을 구하는 단계; 및
    상기 구해진 개별문서들에 대한 주제분야별 유사도 값을 근거로 리소스별로 개별 문서들을 문서 군집으로 생성하고, 각 문서 군집의 주제분야를 할당하는 단계를 포함하는 것을 특징으로 하는 전문용어사전 검증 방법.
  14. 제13항에 있어서,
    상기 비교결과, 임계치 이상의 유사도 값을 갖는 주제분야가 존재하는 경우, 해당 리소스에 해당 주제분야를 할당하는 것을 특징으로 하는 전문용어사전 검증 방법.

  15. 삭제
  16. 삭제
KR1020120135823A 2012-11-28 2012-11-28 전문용어 사전 검증 시스템 및 방법 KR101273372B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120135823A KR101273372B1 (ko) 2012-11-28 2012-11-28 전문용어 사전 검증 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120135823A KR101273372B1 (ko) 2012-11-28 2012-11-28 전문용어 사전 검증 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR101273372B1 true KR101273372B1 (ko) 2013-06-11

Family

ID=48866722

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120135823A KR101273372B1 (ko) 2012-11-28 2012-11-28 전문용어 사전 검증 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR101273372B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020064821A (ko) * 2001-02-03 2002-08-10 (주)엔퀘스트테크놀러지 문서 장르 학습 시스템 및 그 방법과 그를 이용한 문서장르 분류시스템 및 그 방법
JP2004094916A (ja) 2002-07-08 2004-03-25 Cannac:Kk 問題解決支援システム、問題解決支援方法、及びプログラム
KR20090090840A (ko) * 2008-02-22 2009-08-26 주식회사 솔트룩스 사용자 맞춤형 정보 제공 시스템 및 그 방법
KR20090119383A (ko) * 2008-05-16 2009-11-19 한국과학기술정보연구원 다국어 전문용어 자원 제공 시스템 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020064821A (ko) * 2001-02-03 2002-08-10 (주)엔퀘스트테크놀러지 문서 장르 학습 시스템 및 그 방법과 그를 이용한 문서장르 분류시스템 및 그 방법
JP2004094916A (ja) 2002-07-08 2004-03-25 Cannac:Kk 問題解決支援システム、問題解決支援方法、及びプログラム
KR20090090840A (ko) * 2008-02-22 2009-08-26 주식회사 솔트룩스 사용자 맞춤형 정보 제공 시스템 및 그 방법
KR20090119383A (ko) * 2008-05-16 2009-11-19 한국과학기술정보연구원 다국어 전문용어 자원 제공 시스템 및 방법

Similar Documents

Publication Publication Date Title
KR102092691B1 (ko) 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기
CN107657048B (zh) 用户识别方法及装置
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN105404699A (zh) 一种搜索财经文章的方法、装置及服务器
US10387805B2 (en) System and method for ranking news feeds
KR101565759B1 (ko) 토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 시스템, 탐지 방법 및 탐지 장치
CA2997986C (en) Scoring mechanism for discovery of extremist content
GB2583290A (en) Blockwise extraction of document metadata
TW201415264A (zh) 取證系統、取證方法及取證程式
KR102108683B1 (ko) 비관심사 컨텐츠를 포함하는 추천 컨텐츠를 제공하는 방법
CN110968712B (zh) Bim族模型获取的方法、装置及系统
CN103838754A (zh) 信息搜索装置及方法
JP7103496B2 (ja) 関連スコア算出システム、方法およびプログラム
CN104537341A (zh) 人脸图片信息获取方法和装置
CN104463177A (zh) 相似人脸图片获取方法和装置
CN109063171B (zh) 基于语义的资源匹配方法
CN103678710A (zh) 一种基于用户行为的信息推荐方法
KR102371505B1 (ko) 빅데이터를 활용하여 뉴스를 레이블링하는 프로그램
Nurhachita et al. A comparison between deep learning, naïve bayes and random forest for the application of data mining on the admission of new students
CN104462552A (zh) 问答页面核心词提取方法和装置
KR101273372B1 (ko) 전문용어 사전 검증 시스템 및 방법
JP2019515385A (ja) モバイル装置識別子を設定する方法及び装置
CN104317903A (zh) 章节式文本的章节完整性的识别方法和装置
CN110895703A (zh) 法律文书案由识别方法及装置
KR20160093489A (ko) 컨텐츠 수집, 추천 시스템 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160406

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170327

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee