KR101706300B1 - 기술용어 개념계층도 생성 장치 및 방법 - Google Patents

기술용어 개념계층도 생성 장치 및 방법 Download PDF

Info

Publication number
KR101706300B1
KR101706300B1 KR1020150142797A KR20150142797A KR101706300B1 KR 101706300 B1 KR101706300 B1 KR 101706300B1 KR 1020150142797 A KR1020150142797 A KR 1020150142797A KR 20150142797 A KR20150142797 A KR 20150142797A KR 101706300 B1 KR101706300 B1 KR 101706300B1
Authority
KR
South Korea
Prior art keywords
technical
term
technical term
meaning
specific technical
Prior art date
Application number
KR1020150142797A
Other languages
English (en)
Inventor
김광수
임주형
박현석
정준각
기완욱
남성현
제이슨리
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to KR1020150142797A priority Critical patent/KR101706300B1/ko
Application granted granted Critical
Publication of KR101706300B1 publication Critical patent/KR101706300B1/ko

Links

Images

Classifications

    • G06F17/277
    • G06F17/21
    • G06F17/274
    • G06N7/005

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

기술용어 개념계층도 생성 장치는 분석대상이 되는 기술문서를 수집하는 기술문서 수집부, 상기 기술문서에서 영역 특수적 기술용어를 추출하는 기술용어 추출부, 상기 영역 특수적 기술용어의 특징을 정의하고 상기 영역 특수적 기술용어의 특징으로부터 상기 영역 특수적 기술용어의 의미 및 상기 개념계층도에서의 위치를 태깅하는 기술용어 지도학습부, 그리고 태깅된 영역 특수적 기술용어를 개념계층도에 삽입하는 개념계층도 생성부를 포함한다.

Description

기술용어 개념계층도 생성 장치 및 방법{APPARATUS AND METHOD FOR GENERATING WORD HIERARCHY OF TECHNOLOGY TERMS}
본 발명은 기술용어 개념계층도 생성 장치 및 방법에 관한 것으로, 더욱 상세하게는 기술영역의 특수적 기술용어를 발견하고 특수적 기술용어의 의미를 명확히 하여 정확성 및 신뢰성을 향상시킬 수 있는 기술용어 개념계층도 생성 장치 및 방법에 관한 것이다.
기술정보 마이닝의 정확성 및 신뢰성을 향상시키기 위해서는 요약되는 특허 기술정보가 나타내는 정확한 의미를 파악하는 것이 필수적이다.
일반적으로 기술용어는 동일한 표현일지라도 기술도메인에 따라 서로 다른 의미로 사용되는 경우가 많다. 예를 들어 셀(Cell)이라는 기술용어는 생명 및 바이오 분야에서는 세포라는 의미로, 정보기술 및 네트워크 분야에서는 데이터 유닛의 의미로, 컴퓨터 반도체 분야에서는 마이크로프로세서 아키텍처라는 의미로, 화학 및 배터리 분야에서는 전지라는 의미로 사용된다.
또한 기술용어 중에는 일상용어에는 존재하지 않는 기술영역 특수적 복합명사들이 상당수 존재한다. 이러한 복합명사들은 해당 기술도메인에서 주요하게 사용되는 용어들이 대부분이므로 기술 분석 시 이들의 명확한 의미를 파악하는 것이 분석 결과의 신뢰도와 직결될 수 있다.
하지만 현재의 상업용 일반 용어 개념 계층도는 기술영역 특수적 복합명사들을 포함하고 있지 않다. 각 산업 또는 기술 분야별로 이러한 용어의 양이 방대하기 때문에 모든 기술영역의 복합명사들을 전문가의 정성적 노력에 의존하여 발견하고 정리하는 작업은 불가능에 가깝고, 이들을 구분할 수 있는 기준 또한 명확하지 않은 상황이기 때문에 현재까지 기술영역 특수적 복합명사를 발견하고 정의하고자 하는 실제적 노력도 거의 없이 그 필요성만 강조되고 있는 실정이다.
따라서 기술용어의 의미를 명확화 할 수 있는 기술용어 개념계층도의 개발이 필수적이며, 최근 빠른 기술변화로 인해 새롭게 등장하는 기술용어에 대한 확장성까지 고려하여 시스템적으로 기술용어 개념계층도의 확장 및 관리를 할 수 있는 형태가 되어야 한다.
한국공개특허공보 제10-2015-0057497호(2015.05.28.) 한국공개특허공보 제10-2003-0039576호(2003.05.22.) 한국공개특허공보 제10-2012-0068076호(2012.06.27.)
본 발명이 해결하려는 과제는 영역 특수적 기술용어를 발견하고 발견된 영역 특수적 기술용어의 의미를 명확히 하여 정확성 및 신뢰성을 향상시킬 수 있는 기술용어 개념계층도 생성 장치 및 방법을 제공하는 것이다.
본 발명의 한 실시 예에 따르면, 영역 특수적 기술용어에 대한 개념계층도를 생성하는 장치가 제공된다. 기술용어 개념계층도 생성 장치는 기술문서 수집부, 기술용어 추출부, 기술용어 지도학습부, 그리고 개념계층도 생성부를 포함한다. 상기 기술문서 수집부는 분석대상이 되는 기술문서를 수집한다. 상기 기술용어 추출부는 상기 기술문서에서 영역 특수적 기술용어를 추출한다. 상기 기술용어 지도학습부는 상기 영역 특수적 기술용어의 특징을 정의하고, 상기 영역 특수적 기술용어의 특징으로부터 상기 영역 특수적 기술용어의 의미 및 상기 개념계층도에서의 위치를 태깅한다. 그리고 상기 개념계층도 생성부는 태깅된 상기 영역 특수적 기술용어를 개념계층도에 삽입한다.
상기 기술용어 지도학습부는 상기 영역 특수적 기술용어의 특징에 대해 훈련 집합을 이용한 확률 기반 기계학습을 수행하여 상기 영역 특수적 기술용어의 의미를 예측하는 기술용어 의미 태깅부를 포함하며, 상기 훈련 집합은 상기 개념계층도에 있는 용어 및 용어의 의미를 포함할 수 있다.
상기 기술용어 지도학습부는 기술영역, 기술용어의 품사 및 기술용어의 컨텍스트를 상기 영역 특수적 기술용어의 특징으로 정의하는 기술용어 특징 정의부를 더 포함하며, 상기 기술용어의 컨텍스트는 상기 기술용어가 출현한 문장에서 상기 기술용어와 동시에 출현한 동사 및 형용사를 포함할 수 있다.
상기 기술용어 지도학습부는 상기 확률 기반 기계학습을 통해 예측된 상기 영역 특수적 기술용어의 의미가 불확실성을 나타내는 경우, 확률 기반 지도학습을 수행하여 상기 영역 특수적 기술용어의 의미를 보정하는 샘플 확인부를 더 포함할 수 있다.
상기 샘플 확인부는 상기 확률 기반 기계학습을 통해 예측된 상기 영역 특수적 기술용어의 의미에 대한 확률값이 설정된 임계값보다 낮은 경우 상기 예측된 영역 특수적 기술용어의 의미가 상기 불확실성을 나타내는 것으로 판단할 수 있다.
상기 기술용어 추출부는 상기 기술문서에서 관사와 동사 혹은 형용사 사이에 있는 명사 또는 명사구의 출현빈도를 설정된 임계 값과 비교하여 상기 영역 특수적 기술용어를 추출할 수 있다.
상기 기술용어 추출부는 기술영역에서의 해당 복합명사의 출현빈도와 핵어 명사간의 수치적 비율관계를 토대로 상기 기술문서에서 관사와 동사 혹은 형용사 사이에 있는 명사구로부터 상기 복합명사에 해당하는 상기 영역 특수적 기술용어를 추출할 수 있다.
상기 기술문서 수집부는 상기 기술문서의 기술적 정보 또는 서지적 정보를 추출하여 텍스트 파일 형식으로 변환할 수 있다.
본 발명의 다른 한 실시 예에 따르면, 기술용어 개념계층도 생성 장치에서 기술용어 개념계층도를 생성하는 방법이 제공된다. 기술용어 개념계층도 생성 방법은 분석대상이 되는 기술문서를 수집하는 단계, 상기 기술문서에서 영역 특수적 기술용어를 추출하는 단계, 상기 영역 특수적 기술용어로부터 상기 영역 특수적 기술용어의 특징을 정의하는 단계, 상기 영역 특수적 기술용어의 특징에 대해 훈련 집합을 이용한 확률 기반 기계학습을 수행하여 상기 영역 특수적 기술용어의 의미를 태깅하는 단계, 상기 태깅된 영역 특수적 기술용어의 의미가 불확실성을 나타내는 경우에, 확률 기반 지도학습을 수행하여 상기 태깅된 영역 특수적 기술용어의 의미를 보정하는 단계, 그리고 상기 태깅된 영역 특수적 기술용어를 상기 개념계층도에 삽입하는 단계를 포함한다.
상기 수집하는 단계는 수집된 상기 기술문서의 기술적 정보 또는 서지적 정보를 추출하여 텍스트 파일 형식으로 변환하는 단계를 포함할 수 있다.
상기 추출하는 단계는 상기 기술문서에서 관사와 동사 혹은 형용사 사이에 있는 명사 또는 명사구의 출현빈도가 설정된 임계값 이상인 명사 또는 명사구를 추출하는 단계를 포함할 수 있다.
상기 추출하는 단계는 기술영역에서의 해당 복합명사의 출현빈도와 핵어 명사(Head noun)간의 수치적 비율관계를 토대로 복합명사에 해당하는 영역 특수적 기술용어를 추출하는 단계를 포함할 수 있다.
상기 보정하는 단계는 상기 확률 기반 기계학습을 통한 상기 영역 특수적 기술용어의 의미에 대한 확률값이 설정된 임계값보다 낮은 경우 상기 영역 특수적 기술용어의 의미가 상기 불확실성을 나타내는 것으로 판단하는 단계를 포함할 수 있다.
상기 보정하는 단계는 상기 태깅된 영역 특수적 기술용어 중 일부를 샘플링하여 출력하는 단계, 상기 태깅된 영역 특수적 기술용어의 의미를 입력 받는 단계, 그리고 상기 영역 특수적 기술용어의 의미를 입력 받은 의미로 태깅하는 단계를 포함할 수 있다.
본 발명의 실시 예에 의하면, 기술문서에서 기술영역 특수적 명사 및 복합명사를 전문가의 정성적 노력에 의존하지 않고 발견할 수 있고, 그 의미를 명확히 하여 의미 번호를 태깅하고, 개념계층도에 새로운 기술영역 특수적 용어를 추가하여 기술정보 마이닝의 정확성 및 신뢰성을 향상시키고 기술용어 개념계층도의 확장 및 관리를 용이하게 할 수 있다.
도 1은 본 발명의 실시 예에 따른 기술용어의 개념계층도 구축 시스템을 나타낸 도면이다.
도 2는 도 1에 도시된 개념계층도 제어 서버에 대한 상세 구성도이다.
도 3은 도 2에 도시된 기술문서 수집부에 대한 상세 구성도이다.
도 4는 도 2에 도시된 기술용어 추출부에 대한 상세 구성도이다.
도 5는 도 2에 도시된 기술용어 지도학습부에 대한 상세 구성도이다.
도 6은 도 2에 도시된 개념계층도 생성부에 대한 상세 구성도이다.
도 7은 본 발명의 실시 예에 따른 기술용어 개념계층도 생성 방법을 나타낸 흐름도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 및 청구범위 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
이제 본 발명의 실시 예에 따른 기술용어 개념계층도 생성 장치 및 방법에 대하여 도면을 참고로 하여 상세하게 설명한다.
도 1은 본 발명의 실시 예에 따른 기술용어의 개념계층도 구축 시스템을 나타낸 도면이다.
도 1을 참고하면, 기술용어 개념계층도 구축 시스템은 기술용어 개념계층도 생성 장치(이하, "개념계층도 생성 서버"라 함)(100), 기술문서 데이터베이스(200) 및 개념계층도 데이터베이스(300)를 포함할 수 있다.
개념계층도 생성 서버(100)는 기술문서 데이터베이스(200)로부터 기술문서를 검색하여 수집한 후 기술문서로부터 기술영역 특수적 기술용어를 추출하고, 추출된 기술영역 특수적 기술용어의 의미를 파악하여 추출된 기술영역 특수적 기술용어를 개념계층도에 포함시킨다.
기술문서 데이터베이스(200)는 분석대상이 되는 기술문서의 서지정보와 내용을 저장한다.
개념계층도 데이터베이스(300)는 일반용어 및 기술영역의 특수적 기술용어가 포함된 개념계층도를 저장한다.
기술문서 데이터베이스(200) 및 개념계층도 데이터베이스(300)는 개념계층도 생성 서버(100)와 네트워크로 연결되어 있는 다른 시스템에 저장되어 있을 수 있다.
도 2는 도 1에 도시된 개념계층도 생성 서버에 대한 상세 구성도이다.
도 2를 참고하면, 개념계층도 생성 서버(100)는 기술문서 수집부(110), 기술용어 추출부(120), 기술용어 지도학습부(130) 및 개념계층도 생성부(140)을 포함할 수 있다. 개념계층도 생성 서버(100)는 데이터베이스(150)를 더 포함할 수 있다.
기술문서 수집부(110)는 기술문서 데이터베이스(200)로부터 최신 기술문서 혹은 사용자가 원하는 기술문서를 수집하고, 수집된 기술문서의 포맷을 변환한다. 기술문서 수집부(110)는 포맷 변환된 기술문서를 데이터베이스(150)에 저장한다.
기술용어 추출부(120)는 기술문서 수집부(110)로부터 수집되어 포맷 변환된 기술문서를 입력 받고, 포맷 변환된 기술문서에서 영역 특수적 기술용어를 추출한다. 기술용어 추출부(120)는 추출된 영역 특수적 기술용어를 데이터베이스(150)에 저장한다.
기술용어 지도학습부(130)는 영역 특수적 기술용어의 특징을 정의하고, 영역 특수적 기술용어의 의미를 태깅한다. 기술용어 지도학습부(130)는 영역 특수적 기술용어의 특징에 대해 확률 기반 기계학습(Semi-supervised machine learning)과 지도 학습(Supervised learning)을 수행하고, 학습 결과로부터 영역 특수적 기술용어의 특징 및 의미를 태깅할 수 있다. 기술용어 지도학습부(130)는 영역 특수적 기술용어의 특징 및 의미를 데이터베이스(150)에 저장한다.
개념계층도 생성부(140)는 개념계층도 데이터베이스(300)로부터 개념계층도를 로딩하고, 로딩된 개념계층도에 태깅된 영역 특수적 기술용어를 삽입한다.
데이터베이스(150)는 기술문서, 영역 특수적 기술용어, 기술용어의 의미를 저장한다.
이러한 개념계층도 생성 서버(100)의 기술문서 수집부(110), 기술용어 추출부(120), 기술용어 지도학습부(130) 및 개념계층도 생성부(140)의 기능은 컴퓨터 시스템의 중앙 처리 유닛(central processing unit, CPU)이나 기타 칩셋, 마이크로프로세서 등으로 구현되는 프로세서에 의해 수행될 수 있다. 그리고 프로세서에서 수행하기 위한 명령어가 메모리 또는 저장 장치에 로드 또는 저장될 수 있다. 또한 메모리 또는 저장 장치는 데이터베이스(150)의 기능을 포함할 수 있다. 프로세서는 메모리에 로드 또는 저장되어 있는 명령어를 실행하여 기술용어를 추출하여 개념계층도에 추가하는 동작을 수행할 수 있다. 프로세서와 메모리는 버스(도시하지 않음)를 통해 서로 연결되어 있으며, 버스에는 입출력 인터페이스(도시하지 않음)도 연결되어 있을 수 있다. 이때 입출력 인터페이스에 송수신기가 연결되며, 입력 장치, 디스플레이, 스피커, 저장 장치 등의 주변 장치가 연결되어 있을 수 있다.
도 3은 도 2에 도시된 기술문서 수집부에 대한 상세 구성도이다.
도 3을 참조하면, 기술문서 수집부(110)는 기술문서 검색부(111) 및 기술문서 포맷 변환부(112)를 포함할 수 있다.
기술문서 검색부(111)는 기술문서 데이터베이스(200)로부터 기술문서를 검색하고 기술문서를 다운로드한다.
기술문서 포맷 변환부(112)는 다운로드 된 기술문서를 포맷 변환한다. 기술문서 포맷 변환부(112)는 포맷을 변환할 때, 기술문서들의 기술적 정보 또는 서지적 정보를 추출하여 텍스트 파일 형식으로 변환할 수 있다.
도 4는 도 2에 도시된 기술용어 추출부에 대한 상세 구성도이다.
도 4를 참고하면, 기술용어 추출부(120)는 기술문서 로딩부(121) 및 추출부(122)를 포함할 수 있다.
기술문서 로딩부(121)는 포맷 변환된 기술문서를 데이터베이스(150)로부터 로딩한다.
추출부(122)는 로딩된 포맷 변환된 기술문서에서 영역 특수적 기술용어를 추출한다. 추출부(122)는 기술용어를 추출할 때, 관사와 동사 혹은 형용사 사이에 있는 모든 명사(단어) 또는 명사구를 사용자가 설정한 출현빈도 임계 값을 기준으로 추출한다. 여기서, 사용자가 설정한 출현빈도는 해당 영역에서의 출현빈도의 최소 임계값으로 설정될 수 있다. 즉 추출부(122)는 관사와 동사 혹은 형용사 사이에 있는 모든 명사 또는 명사구가 출현빈도 임계 값 이상일 때 해당 명사 또는 명사구를 기술용어로 추출할 수 있다. 또한 추출부(122)는 기술영역에서의 해당 복합명사의 출현빈도와 그 핵어 명사(Head noun)간의 수치적 비율관계를 기준으로 복합명사에 해당하는 기술용어를 추출할 수 있다.
도 5는 도 2에 도시된 기술용어 지도학습부에 대한 상세 구성도이다.
도 5를 참고하면, 기술용어 지도학습부(130)는 기술용어 특징 정의부(131), 기술용어 의미 태깅부(132) 및 샘플 확인부(133)를 포함할 수 있다.
기술용어 특징 정의부(131)는 추출된 영역 특수적 기술용어의 특징을 정의한다. 기술용어 특징 정의부(131)는 추출된 영역 특수적 기술용어의 특징으로 기술영역, 기술용어의 품사 및 기술용어의 컨텍스트를 사용할 수 있다. 기술용어의 컨텍스트는 기술용어가 출현한 문장에서 기술용어와 동시에 출현한 동사 및 형용사를 나타낸다. 추출된 영역 특수적 기술용어의 특징은 지도 학습을 위한 특징으로 사용된다.
기술용어 의미 태깅부(132)는 정의된 영역 특수적 기술용어의 특징을 입력 받아, 정확한 의미를 알고 있는 훈련 집합(training set)과 정확한 의미를 알지 못하는 훈련 집합을 모두 이용한 확률 기반 기계학습을 통해서 정의된 영역 특수적 기술용어의 의미와 개념계층도에서 정의된 영역 특수적 기술용어의 위치를 예측한다. 기술용어 의미 태깅부(132)는 해당 영역 특수적 기술용어의 의미와 위치를 태깅한다. 여기서 정확한 의미를 알고 있는 훈련 집합은 개념계층도에 있는 용어 및 용어의 의미들로 구성될 수 있다.
정의된 영역 특수적 기술용어에 해당하는 단어의 의미가 여러 가지일 경우, 이 단어의 의미가 예측되었다면, 개념계층도에 이미 존재하는 용어와 상의어/하의어/동의어의 관계가 파악되므로, 정의된 영역 특수적 기술용어의 위치가 자연스럽게 결정된다. 또한 정의된 영역 특수적 기술용어가 복합명사일 경우, 정의된 영역 특수적 기술용어는 완전히 새로운 의미를 가지지만 복합명사의 경우에는 핵어 명사의 하위어로 그 위치가 결정될 수 있다. 즉 기술용어 의미 태깅부(132)는 확률 기반 기계학습을 통해서 정의된 영역 특수적 기술용어의 의미를 예측하고 나면, 예측된 기술용어의 의미가 개념계층도의 어느 부분에 위치하는지 예측된 기술용어의 위치를 결정한다.
기술용어 의미 태깅부(132)는 확률 기반 기계학습을 통해서 정의된 영역 특수적 기술용어가 가질 수 있는 각 의미에 대한 확률값을 계산하고, 계산된 확률값 중에서 가장 높은 확률값을 가진 의미를 정의된 영역 특수적 기술용어의 의미로 예측할 수 있다.
정의된 영역 특수적 기술용어가 개념계층도에 이미 존재하는 용어일 경우, 기술용어 의미 태깅부(132)에 의해 계산된 확률값은 높게 나타나며, 정의된 영역 특수적 기술용어의 예측된 의미는 높은 정확성을 가진다. 반면, 정의된 영역 특수적 기술용어가 완전 새로운 의미의 복합명사일 경우, 기술용어 의미 태깅부(132)에 의해 계산된 확률값은 낮게 나타나며, 정의된 영역 특수적 기술용어의 예측된 의미는 높은 정확성을 가진다. 따라서 기술용어 의미 태깅부(132)에 의해 태깅된 영역 특수적 기술용어의 의미가 불확실성을 나타내는 경우에 샘플 확인부(133)에 의해 태깅된 영역 특수적 기술용어의 의미가 보완된다.
샘플 확인부(133)는 태깅된 영역 특수적 기술용어의 의미가 확실성을 나타내는 경우, 태깅된 영역 특수적 기술용어의 의미를 보정한다. 또한 샘플 확인부(133)는 태깅된 영역 특수적 기술용어의 의미가 불확실성을 나타내는 경우에, 태깅된 영역 특수적 기술용어에 대해 전문가에 의한 확률 기반 지도학습을 수행한다. 샘플 확인부(133)는 태깅된 영역 특수적 기술용어 중 일부를 샘플링하여 출력하고, 전문가의 정성적 분석을 거쳐 전문가로부터 태깅된 영역 특수적 기술용어의 의미를 입력 받을 수 있다. 샘플 확인부(133)는 기술용어 의미 태깅부(132)에 의해 태깅된 영역 특수적 기술용어의 의미가 전문가로부터 입력 받은 의미와 다르다면, 영역 특수적 기술용어를 전문가로부터 입력 받은 의미로 태깅할 수 있다. 샘플 확인부(133)는 전문가로부터 입력 받은 영역 특수적 기술용어의 의미를 훈련 집합에 반영한다.
이때 태깅된 영역 특수적 기술용어가 확실성 또는 불확실성을 나타내는지는 판단하는 방법으로는 다양한 방법이 있을 수 있다. 예를 들어, 샘플 확인부(133)는 태깅된 영역 특수적 기술용어에 대해 서로 다른 의미가 비슷한 확률로 나타나거나, 태깅된 영역 특수적 기술용어의 의미의 확률값이 설정된 임계값보다 낮을 때 태깅된 영역 특수적 기술용어가 불확실성을 나타낸다고 판단할 수 있다.
도 6은 도 2에 도시된 개념계층도 생성부에 대한 상세 구성도이다.
도 6을 참고하면, 개념계층도 생성부(140)는 개념계층도 로딩부(141) 및 기술용어 삽입부(142)를 포함할 수 있다.
개념계층도 로딩부(141)는 개념계층도 데이터베이스(300)로부터 개념계층도를 로딩한다.
기술용어 삽입부(142)는 태깅된 영역 특수적 기술용어를 로딩된 개념계층도에 삽입하고, 개념계층도를 개념계층도 데이터베이스(300)에 저장한다. 즉 기술용어 삽입부(142)는 태깅된 영역 특수적 기술용어가 개념계층도에 존재하지 않는 경우 태깅된 영역 특수적 기술용어를 개념계층도에 추가한다.
도 7은 본 발명의 실시 예에 따른 기술용어 개념계층도 생성 방법을 나타낸 흐름도이다.
도 7을 참고하면, 개념계층도 생성 서버(100)는 기술문서 데이터베이스(200)로부터 분석대상이 되는 기술문서를 수집하고(S702), 수집된 기술문서의 포맷을 변환한다(S704).
개념계층도 생성 서버(100)는 로딩된 포맷 변환된 기술문서에서 영역 특수적 기술용어를 추출한다(S706).
개념계층도 생성 서버(100)는 추출된 영역 특수적 기술용어로부터 지도 학습을 위한 추출된 영역 특수적 기술용어의 특징을 정의한다(S708).
개념계층도 생성 서버(100)는 정의된 영역 특수적 기술용어의 특징에 대해 확률 기반 기계학습을 수행하여 정의된 영역 특수적 기술용어의 의미와 개념계층도에서 정의된 영역 특수적 기술용어의 위치를 예측한다(S710).
개념계층도 생성 서버(100)는 영역 특수적 기술용어의 예측된 의미와 위치를 태깅한다(S712).
개념계층도 생성 서버(100)는 태깅된 영역 특수적 기술용어의 예측된 의미에 불확실성이 존재하는지 확인하고(S714), 영역 특수적 기술용어의 예측된 의미에 불확실성이 존재하는 경우에 전문가에 의한 확률 기반 지도학습을 수행하여 태깅된 영역 특수적 기술용어의 의미를 보정한다(S716).
다음, 개념계층도 생성 서버(100)는 태깅된 영역 특수적 기술용어가 개념계층도에 존재하는지 확인한다(S718).
개념계층도 생성 서버(100)는 태깅된 영역 특수적 기술용어가 개념계층도에 존재하지 않으면, 태깅된 영역 특수적 기술용어를 개념계층도에 삽입하고(S720), 개념계층도를 개념계층도 데이터베이스(300)에 저장한다(S722).
발명의 실시 예는 이상에서 설명한 장치 및/또는 방법을 통해서만 구현되는 것은 아니며, 본 발명의 실시 예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있으며, 이러한 구현은 앞서 설명한 실시 예의 기재로부터 본 발명이 속하는 기술 분야의 전문가라면 쉽게 구현할 수 있는 것이다.
이상에서 본 발명의 실시 예에 대하여 상세하게 설명하였지만 본 발명의 권리 범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리 범위에 속하는 것이다.

Claims (14)

  1. 영역 특수적 기술용어에 대한 개념계층도를 생성하는 장치로서,
    분석대상이 되는 기술문서를 수집하는 기술문서 수집부,
    상기 기술문서에서 영역 특수적 기술용어를 추출하는 기술용어 추출부,
    상기 영역 특수적 기술용어의 특징을 정의하고, 상기 영역 특수적 기술용어의 특징에 대해 훈련 집합을 이용한 확률 기반 기계학습을 수행하여 상기 영역 특수적 기술용어의 의미 및 상기 개념계층도에서의 위치를 태깅하는 기술용어 지도학습부, 그리고
    태깅된 상기 영역 특수적 기술용어를 상기 개념계층도에 삽입하는 개념계층도 생성부
    를 포함하며,
    상기 훈련 집합은 상기 개념계층도에 있는 용어 및 용어의 의미를 포함하는 기술용어 개념계층도 생성 장치.
  2. 삭제
  3. 제1항에서,
    상기 기술용어 지도학습부는 기술영역, 기술용어의 품사 및 기술용어의 컨텍스트를 상기 영역 특수적 기술용어의 특징으로 정의하는 기술용어 특징 정의부를 포함하며,
    상기 기술용어의 컨텍스트는 상기 기술용어가 출현한 문장에서 상기 기술용어와 동시에 출현한 동사 및 형용사를 포함하는 기술용어 개념계층도 생성 장치.
  4. 제1항에서,
    상기 기술용어 지도학습부는 상기 확률 기반 기계학습을 통해 예측된 상기 영역 특수적 기술용어의 의미가 불확실성을 나타내는 경우, 확률 기반 지도학습을 수행하여 상기 영역 특수적 기술용어의 의미를 보정하는 샘플 확인부를 포함하는 기술용어 개념계층도 생성 장치.
  5. 제4항에서,
    상기 샘플 확인부는 상기 확률 기반 기계학습을 통해 예측된 상기 영역 특수적 기술용어의 의미에 대한 확률값이 설정된 임계값보다 낮은 경우 상기 예측된 영역 특수적 기술용어의 의미가 상기 불확실성을 나타내는 것으로 판단하는 기술용어 개념계층도 생성 장치.
  6. 제1항에서,
    상기 기술용어 추출부는 상기 기술문서에서 관사와 동사 혹은 형용사 사이에 있는 명사 또는 명사구의 출현빈도를 설정된 임계 값과 비교하여 상기 영역 특수적 기술용어를 추출하는 기술용어 개념계층도 생성 장치.
  7. 제1항에서,
    상기 기술용어 추출부는 기술영역에서의 해당 복합명사의 출현빈도와 핵어 명사간의 수치적 비율관계를 토대로 상기 기술문서에서 관사와 동사 혹은 형용사 사이에 있는 명사구로부터 상기 복합명사에 해당하는 상기 영역 특수적 기술용어를 추출하는 기술용어 개념계층도 생성 장치.
  8. 제1항에서,
    상기 기술문서 수집부는 상기 기술문서의 기술적 정보 또는 서지적 정보를 추출하여 텍스트 파일 형식으로 변환하는 기술용어 개념계층도 생성 장치.
  9. 기술용어 개념계층도 생성 장치에서 기술용어 개념계층도를 생성하는 방법으로서,
    분석대상이 되는 기술문서를 수집하는 단계,
    상기 기술문서에서 영역 특수적 기술용어를 추출하는 단계,
    상기 영역 특수적 기술용어로부터 상기 영역 특수적 기술용어의 특징을 정의하는 단계,
    상기 영역 특수적 기술용어의 특징에 대해 훈련 집합을 이용한 확률 기반 기계학습을 수행하여 상기 영역 특수적 기술용어의 의미를 태깅하는 단계,
    상기 태깅된 영역 특수적 기술용어의 의미가 불확실성을 나타내는 경우에, 확률 기반 지도학습을 수행하여 상기 태깅된 영역 특수적 기술용어의 의미를 보정하는 단계, 그리고
    상기 태깅된 영역 특수적 기술용어를 상기 개념계층도에 삽입하는 단계
    를 포함하는 기술용어 개념계층도 생성 방법.
  10. 제9항에서,
    상기 수집하는 단계는 수집된 상기 기술문서의 기술적 정보 또는 서지적 정보를 추출하여 텍스트 파일 형식으로 변환하는 단계를 포함하는 기술용어 개념계층도 생성 방법.
  11. 제9항에서,
    상기 추출하는 단계는 상기 기술문서에서 관사와 동사 혹은 형용사 사이에 있는 명사 또는 명사구의 출현빈도가 설정된 임계값 이상인 명사 또는 명사구를 추출하는 단계를 포함하는 기술용어 개념계층도 생성 방법.
  12. 제9항에서,
    상기 추출하는 단계는 기술영역에서의 해당 복합명사의 출현빈도와 핵어 명사(Head noun)간의 수치적 비율관계를 토대로 복합명사에 해당하는 영역 특수적 기술용어를 추출하는 단계를 포함하는 기술용어 개념계층도 생성 방법.
  13. 제9항에서,
    상기 보정하는 단계는 상기 확률 기반 기계학습을 통한 상기 영역 특수적 기술용어의 의미에 대한 확률값이 설정된 임계값보다 낮은 경우 상기 영역 특수적 기술용어의 의미가 상기 불확실성을 나타내는 것으로 판단하는 단계를 포함하는 기술용어 개념계층도 생성 방법.
  14. 제9항에서,
    상기 보정하는 단계는
    상기 태깅된 영역 특수적 기술용어 중 일부를 샘플링하여 출력하는 단계,
    상기 태깅된 영역 특수적 기술용어의 의미를 입력 받는 단계, 그리고
    상기 영역 특수적 기술용어의 의미를 입력 받은 의미로 태깅하는 단계를 포함하는 기술용어 개념계층도 생성 방법.
KR1020150142797A 2015-10-13 2015-10-13 기술용어 개념계층도 생성 장치 및 방법 KR101706300B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150142797A KR101706300B1 (ko) 2015-10-13 2015-10-13 기술용어 개념계층도 생성 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150142797A KR101706300B1 (ko) 2015-10-13 2015-10-13 기술용어 개념계층도 생성 장치 및 방법

Publications (1)

Publication Number Publication Date
KR101706300B1 true KR101706300B1 (ko) 2017-02-14

Family

ID=58121101

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150142797A KR101706300B1 (ko) 2015-10-13 2015-10-13 기술용어 개념계층도 생성 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101706300B1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102085214B1 (ko) * 2019-10-02 2020-03-04 (주)디앤아이파비스 특허문서의 단어 세트 획득 방법 및 시스템
KR20200067341A (ko) * 2018-12-04 2020-06-12 고려대학교 산학협력단 컴퓨터과학 교육과정 상의 전문용어 추출 방법
KR20210039902A (ko) * 2019-10-02 2021-04-12 (주)디앤아이파비스 특허문서의 단어 세트 의미 정보 획득 방법 및 시스템
KR20210039903A (ko) * 2019-10-02 2021-04-12 (주)디앤아이파비스 템플릿 정보를 이용한 특허문서의 단어 세트 획득 방법 및 시스템
KR20210039900A (ko) * 2019-10-02 2021-04-12 (주)디앤아이파비스 오류 단어 수정을 통한 특허문서의 단어 세트 획득 방법 및 시스템
KR20210039904A (ko) * 2019-10-02 2021-04-12 (주)디앤아이파비스 이미지 정보를 이용한 특허문서의 단어 세트 획득 방법 및 시스템
KR20210039901A (ko) * 2019-10-02 2021-04-12 (주)디앤아이파비스 복합 명사구를 포함하는 특허문서의 단어 세트 획득 방법 및 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030039576A (ko) 2001-11-13 2003-05-22 주식회사 포스코 유사성 판단을 위한 예제기반 검색 방법 및 검색 시스템
KR20120068076A (ko) 2010-10-26 2012-06-27 한국과학기술정보연구원 기술문헌으로부터 전문 용어의 기술적 개념을 자동으로 탐지하는 방법 및 장치
KR20150057497A (ko) 2013-11-19 2015-05-28 서울시립대학교 산학협력단 온라인 텍스트 문서의 계층적 트리 기반 주제탐색 방법 및 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030039576A (ko) 2001-11-13 2003-05-22 주식회사 포스코 유사성 판단을 위한 예제기반 검색 방법 및 검색 시스템
KR20120068076A (ko) 2010-10-26 2012-06-27 한국과학기술정보연구원 기술문헌으로부터 전문 용어의 기술적 개념을 자동으로 탐지하는 방법 및 장치
KR20150057497A (ko) 2013-11-19 2015-05-28 서울시립대학교 산학협력단 온라인 텍스트 문서의 계층적 트리 기반 주제탐색 방법 및 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
특허정보를 활용한 IT 유망기술 도출에 관한 연구(한국통신학회논문지, 김방룡 외1인, 페이지1021-1030, 2009.10월 발행) *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102144001B1 (ko) * 2018-12-04 2020-08-12 고려대학교 산학협력단 컴퓨터과학 교육과정 상의 전문용어 추출 방법
KR20200067341A (ko) * 2018-12-04 2020-06-12 고려대학교 산학협력단 컴퓨터과학 교육과정 상의 전문용어 추출 방법
KR20210039904A (ko) * 2019-10-02 2021-04-12 (주)디앤아이파비스 이미지 정보를 이용한 특허문서의 단어 세트 획득 방법 및 시스템
KR20210039902A (ko) * 2019-10-02 2021-04-12 (주)디앤아이파비스 특허문서의 단어 세트 의미 정보 획득 방법 및 시스템
KR20210039903A (ko) * 2019-10-02 2021-04-12 (주)디앤아이파비스 템플릿 정보를 이용한 특허문서의 단어 세트 획득 방법 및 시스템
KR20210039900A (ko) * 2019-10-02 2021-04-12 (주)디앤아이파비스 오류 단어 수정을 통한 특허문서의 단어 세트 획득 방법 및 시스템
KR102085214B1 (ko) * 2019-10-02 2020-03-04 (주)디앤아이파비스 특허문서의 단어 세트 획득 방법 및 시스템
KR20210039901A (ko) * 2019-10-02 2021-04-12 (주)디앤아이파비스 복합 명사구를 포함하는 특허문서의 단어 세트 획득 방법 및 시스템
KR102255962B1 (ko) * 2019-10-02 2021-05-25 (주)디앤아이파비스 템플릿 정보를 이용한 특허문서의 단어 세트 획득 방법 및 시스템
KR102255961B1 (ko) * 2019-10-02 2021-05-25 (주)디앤아이파비스 오류 단어 수정을 통한 특허문서의 단어 세트 획득 방법 및 시스템
KR102263309B1 (ko) * 2019-10-02 2021-06-10 (주)디앤아이파비스 이미지 정보를 이용한 특허문서의 단어 세트 획득 방법 및 시스템
KR102291930B1 (ko) * 2019-10-02 2021-08-23 (주)디앤아이파비스 복합 명사구를 포함하는 특허문서의 단어 세트 획득 방법 및 시스템
KR102297962B1 (ko) * 2019-10-02 2021-09-03 (주)디앤아이파비스 특허문서의 단어 세트 의미 정보 획득 방법 및 시스템

Similar Documents

Publication Publication Date Title
KR101706300B1 (ko) 기술용어 개념계층도 생성 장치 및 방법
CN107798136B (zh) 基于深度学习的实体关系抽取方法、装置及服务器
CN109933785B (zh) 用于实体关联的方法、装置、设备和介质
US11531818B2 (en) Device and method for machine reading comprehension question and answer
CN107102981B (zh) 词向量生成方法和装置
US20160239500A1 (en) System and methods for extracting facts from unstructured text
CN109325201A (zh) 实体关系数据的生成方法、装置、设备及存储介质
CN110008474B (zh) 一种关键短语确定方法、装置、设备及存储介质
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
CN110609952B (zh) 数据采集方法、系统和计算机设备
CN115186050B (zh) 基于自然语言处理的选题推荐方法、系统及相关设备
US20180293215A1 (en) Method and Computer Program for Sharing Memo between Electronic Documents
US11947910B2 (en) Device and method for determining at least one part of a knowledge graph
KR20170134191A (ko) 페이지랭크와 토픽 모델링을 이용한 소프트웨어 도메인 토픽 추출 시스템
US8533150B2 (en) Search index generation apparatus
CN110825840A (zh) 词库扩充方法、装置、设备及存储介质
CN114117038A (zh) 一种文档分类方法、装置、系统及电子设备
JP7434125B2 (ja) 文書検索装置、文書検索方法、及びプログラム
EP2096585A1 (en) Active studying system, active studying method and active studying program
CN115587163A (zh) 一种文本分类方法、装置、电子设备及存储介质
US20180260476A1 (en) Expert stance classification using computerized text analytics
US11341188B2 (en) Expert stance classification using computerized text analytics
AU2019290658B2 (en) Systems and methods for identifying and linking events in structured proceedings
US20110172991A1 (en) Sentence extracting method, sentence extracting apparatus, and non-transitory computer readable record medium storing sentence extracting program
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant