KR20160040083A - 용어 추출 및 관리 방법과 이를 실행하는 장치 - Google Patents

용어 추출 및 관리 방법과 이를 실행하는 장치 Download PDF

Info

Publication number
KR20160040083A
KR20160040083A KR1020150108985A KR20150108985A KR20160040083A KR 20160040083 A KR20160040083 A KR 20160040083A KR 1020150108985 A KR1020150108985 A KR 1020150108985A KR 20150108985 A KR20150108985 A KR 20150108985A KR 20160040083 A KR20160040083 A KR 20160040083A
Authority
KR
South Korea
Prior art keywords
term
terms
extracted
extracting
definition
Prior art date
Application number
KR1020150108985A
Other languages
English (en)
Inventor
황인환
Original Assignee
황인환
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 황인환 filed Critical 황인환
Priority to KR1020150108985A priority Critical patent/KR20160040083A/ko
Publication of KR20160040083A publication Critical patent/KR20160040083A/ko

Links

Images

Classifications

    • G06F17/30648
    • G06F17/21
    • G06F17/277
    • G06F17/30666

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 게시판 URL, 게시판 명칭, 첨부파일 URL을 포함하는 인터넷 주소가 등록된 웹 수집기를 이용하여 인터넷으로부터 상기 문서를 예약된 지정된 시간에 자동으로 수집하고, 상기 문서로부터 텍스트 데이터를 추출하는 문서 수집 단계; 상기 텍스트 데이터로부터 구분 문자를 이용하여 용어를 추출하고, 상기 용어의 중심어, 속성어 및 연관어를 추출하는 용어 추출 단계; 상기 텍스트 데이터로부터 문자열 패턴을 이용하여 용어의 정의를 추출하는 용어 정의 추출 단계; 상기 추출된 용어와 상기 추출된 용어의 정의를 연관시켜 등록하는 용어 등록 단계; 상기 등록된 용어를 카테고리별로 분류하는 용어 분류 단계; 및 상기 등록된 용어 및 용어에 대한 정보를 사용자의 요구에 따라 제공하는 용어 서비스 단계를 포함하는 용어 추출 및 관리 방법과, 이를 실행하는 장치를 제공하는 것을 특징으로 한다.

Description

용어 추출 및 관리 방법과 이를 실행하는 장치{Method for extracting and managing terms and apparatus for performing the same}
본 발명은 용어를 자동으로 추출하고 관리하는 것으로서, 특히 인터넷 공간에서 용어 및 용어의 정의를 수집하고 이를 가공하여 사용자에게 제공할 수 있도록 하는 용어 추출 및 관리 방법과 이를 실행하는 장치에 관한 것이다.
최근 정보 기술의 발달로 기존에는 사용되지 않던 새로운 용어의 등장이 급속히 증가하고 있으며, 이에 따라 새로운 용어를 추출하고 정의해서 많은 사람들에게 제공하는 서비스 등이 활성화되고 있다.
종래에는 인력을 투입하여 수작업으로 용어 추출을 수행하였으나, 인건비가 많이 들고, 새로운 용어에 대한 정의나 기존 용어의 갱신 주기가 늦어져서, 효과적인 용어 서비스가 곤란하였다.
최근에는 인터넷 등에 전자문서로 존재하는 용어들을 자동으로 수집하고 추출하는 방법들이 많이 제시되고 있다.
일례로서, 한국등록특허 제10-1243054호에 의하면, 입력문서를 분석하여 용어 후보를 추출하고, 그 용어 후보들의 기본자질과 웹 자질을 획득한 후, 그 기본자질과 웹 자질에 기계 학습을 적용하여 가중치를 할당하고, 용어 후보들 중에서 가중치가 할당된 값이 가장 높은 용어 후보를 용어로 인식하는 웹 검색 기반 용어 인식 방법을 제시하고 있으며, 또한 한국공개특허 제10-2011-0081194호(특허문헌 2)에 의하면, 기술 문서의 언어적 및 구조적인 특징을 살려 용어의 추출을 수행하고, 상기 추출한 용어를 문서의 개요 이해 또는 내용 이해를 위해서 유용한 시점에서 자동적으로 분류하고, 상기 분류한 용어를 이용자에게 제시하는 방법을 제시하고 있다.
그러나 이러한 종래의 용어 추출 방법들은 텍스트의 특징을 이용하여 용어를 자동으로 추출하고만 있을 뿐, 신규로 등록되거나 수정된 용어들을 자동으로 추출함과 동시에 용어의 정의까지 함께 제공할 수는 없으며, 용어의 추출 방법도 복잡하여 용어의 갱신 주기가 길어질 수 있다는 문제점이 있었다.
특허문헌 1: 한국 등록특허공보 제10-1243054호
특허문헌 2: 한국 공개특허공보 제10-2011-0081194호
본 발명은 상기한 종래의 용어 추출 방법에서의 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 인터넷 등으로부터 수집한 텍스트로부터 용어와 용어의 정의를 자동으로 추출하고, 이를 가공하여 등록할 수 있는 용어 추출 및 관리 방법과 이러한 방법을 실행하는 장치를 제공하여, 사용자가 신속하고 편리하게 용어에 대한 여러 정보를 이용할 수 있도록 하는 것이다.
상기한 기술적 과제를 해결하기 위한 본 발명에 따른 용어 추출 및 관리 방법은, 게시판 URL, 게시판 명칭, 첨부파일 URL을 포함하는 인터넷 주소가 등록된 웹 수집기를 이용하여 인터넷으로부터 상기 문서를 예약된 지정된 시간에 자동으로 수집하고, 상기 문서로부터 텍스트 데이터를 추출하는 문서 수집 단계; 상기 텍스트 데이터로부터 구분 문자를 이용하여 용어를 추출하고, 상기 용어의 중심어, 속성어 및 연관어를 추출하여 추출된 용어가 가지는 다양한 의미에 따라 상위 개념과 하위 개념으로 계층화하고, 각각의 개념들에 대한 관계의 계층구조를 도표화하는 용어 추출 단계; 상기 텍스트 데이터로부터 문자열 패턴을 이용하여 용어의 정의를 추출하는 용어 정의 추출 단계; 상기 추출된 용어와 상기 추출된 용어의 정의를 연관시켜 등록하는 용어 등록 단계; 상기 등록된 용어를 카테고리별로 분류하는 용어 분류 단계; 및 상기 등록된 용어 및 용어에 대한 정보를 사용자의 요구에 따라 제공하는 용어 서비스 단계를 포함하여 구성된다.
또한, 본 발명에 따른 용어 추출 및 관리 방법은, 상기 용어 추출 단계에서 사용하는 구분 문자는큰따옴표(" "), 작은따옴표(''), 낫표(「 」), 겹낫표(『 』) 중 적어도 하나를 포함하여 구성된다.
또한, 본 발명에 따른 용어 추출 및 관리 방법은, 상기 용어 정의 추출 단계에서 사용하는 문자열 패턴은"이라 함은", "라 함은", "란", "이란", "아래와 같다", "다음과 같다"의 문자열 패턴 중 적어도 하나를 포함하여 구성된다.
또한, 본 발명에 따른 용어 추출 및 관리 방법은, 상기 용어 등록 단계에서는 상기 추출된 용어 및 용어의 정의와 함께, 용어의 제정 및 개정 정보, 용의 출처 정보, 용어의 분류 정보 중 적어도 하나의 정보를 저장하여 등록할 수 있다.
또한, 본 발명에 따른 용어 추출 및 관리 방법은, 상기 용어 등록 단계에서는 상기 추출된 용어와 이미 등록된 용어를 비교하여, 상기 추출된 용어가 이미 존재하는 경우에는 등록하지 않도록 할 수 있다.
또한, 본 발명에 따른 용어 추출 및 관리 방법은, 상기 용어 분류 단계에서는, 용어 사이의 관계성을 카테고리화 해서 분류화할 수 있다.
또한, 본 발명에 따른 용어 추출 및 관리 방법은, 상기 용어 분류 단계에서의 용어 사이의 관계성은, 용어에 대한 상위어, 하위어, 동의어, 반의어, 연관어, 동음이의어 중 적어도 하나로 구성된다.
또한, 본 발명에 따른 용어 추출 및 관리 방법은, 상기 용어 서비스 단계에서는 용어 사전 형태로 서비스를 제공할 수 있다.
또한, 본 발명에 따른 용어 추출 및 관리 방법은, 용어 추출 및 관리 방법을 실행하기 위한 장치로서, 문서를 수집하는 웹 수집기; 수집된 문서로부터 텍스트 데이터를 추출하는 문서 필터; 상기 텍스트 데이터로부터 용어를 추출하고, 상기 용어의 중심어, 속성어 및 연관어를 추출하는 용어 추출기; 상기 텍스트 데이터로부터 용어의 정의를 추출하는 용어 정의 추출기; 상기 추출된 용어와 상기 추출된 용어의 정의를 연관시켜 저장 및 분류하여 출력하는 용어 관리기; 및 상기 용어 관리기를 통해 등록되고 분류된 용어 및 용어에 대한 정보를 사용자의 요구에 따라 제공하는 표시 또는 인쇄장치를 포함하여 구성된다.
또한, 본 발명에 따른 용어 추출 및 관리 방법은, 상기 용어 추출기는 추출된 용어가 가지는 다양한 의미에 따라 상위 개념과 하위 개념으로 계층화하고, 각각의 개념들에 대한 관계의 계층구조를 도표화하여 제공할 수 있다.
또한, 본 발명에 따른 용어 추출 및 관리 방법은, 상기 표시 또는 인쇄장치는 추출될 용어를 입력하는 검색단어부와, 입력된 용어의 카테고리를 설정하는 검색대상메뉴와, 상기 추출될 용어의 속성어, 연관어, 용어를 중심어로 하는 계층화 구조의 단계 수를 트리의 형태로 표시될 수 있도록 하는 트리수 메뉴와, 상기 트리수 메뉴에 따른 용어의 중심어, 속성어, 연관어 및 추출된 용어의 출처를 제공하고, 용어의 정의를 제공하고, 이와 동시에 용어가 가지는 다른 정의들을 함께 제공하는 출력부를 포함하여 구성된다.
본 발명의 용어 추출 및 관리 방법과 이를 실행하는 장치에 의하면 다음과 같은 효과를 기대할 수 있다.
첫째, 용어와 용어의 정의를 함께 추출하고 연관시켜 제공할 수 있으므로, 신규 용어나 개정 용어를 용이하게 습득하고 이해할 수 있다.
둘째, 구분 문자와 문자열 패턴을 이용하여 용어 및 용어의 정의를 추출하므로, 간단한 구조로 빠르고 정확하게 용어를 추출할 수 있다.
셋째, 용어와 관련된 부가 정보를 함께 등록하므로, 용어에 대한 다양한 정보를 동시에 제공할 수 있다.
넷째, 용어 사이의 관계성을 카테고리화 하여 분류하므로, 하나의 용어와 관련된 여러 용어들을 동시에 검색하고 확인할 수 있다.
상기한 본 발명에 따른 효과들은 법령이나 규칙 등과 같은 문서로부터 용어 및 용어의 정의를 추출하고 관리하는 경우에 특히 우수한 효과를 나타낸다.
도 1은 본 발명의 실시예에 따른 용어 추출 및 관리 방법을 개략적으로 나타내는 흐름도.
도 2는 본 발명의 실시예에 따른 용어 추출 및 관리 방법에서 구분 문자와 문자열 패턴이 설정되는 화면의 일례를 나타내는 도면.
도 3은 본 발명의 실시예에 따른 용어 추출 및 관리 방법에서 상위어와 하위어의 계층적 구조를 나타내는 도면.
도 4는 본 발명의 실시예에 따른 용어 추출 및 관리 방법을 실행하는 장치를 개략적으로 나타내는 블록도.
도 1에 나타낸 바와 같이, 본 발명의 실시예에 따른 용어 추출 및 관리 방법은 문서 수집 단계(100), 용어 추출 단계(200), 용어 정의 추출 단계(300), 용어 등록 단계(400), 용어 분류 단계(500), 용어 서비스 단계(600)를 포함하여 이루어질 수 있다.
먼저, 문서 수집 단계(100)에서는 웹 수집기(210)를 통해 용어를 추출하고자 하는 법령집, 규정집, 전문 분야 별 해설집, 편람 등과 같은 문서를 수집하고 문서로부터 텍스트 데이터를 추출하는 단계로서, 웹 수집기(210) 등을 이용하여 인터넷 등과 같은 네트워크를 통해 문서를 수집한다.
구체적으로, 게시판 URL, 게시판 명칭, 첨부파일 URL 등을 포함하는 인터넷 주소를 웹 수집기에 등록하여, 자동으로 문서 자료를 수집한다. 이때 웹 수집기(210)는 지정된 시간에 자동으로 문서를 수집하도록, 예약 작업으로 실행할 수도 있다.
수집된 자료는 텍스트 포맷일 수도 있으나, PDF, JPG, HWP, DOC 등과 같은 다른 포맷일 수도 있으므로, 문서 필터(220)를 이용하여 이러한 포맷의 파일로부터 텍스트 포맷의 데이터를 추출한다.
다음으로, 용어 추출 단계(200)에서는 용어 추출기(230)를 통해 문서 수집 단계(100)에서 수집된 텍스트 데이터로부터 구분 문자(delimiter)를 이용하여 용어를 추출한다. 이 단계(200)는 비정형의 텍스트 데이터로부터 구분 문자를 이용하여 정형 데이터를 추출하는 것이다.
용어 추출 단계(200)에서 사용되는 구분 문자는 문서 내에서 용어를 구분하여 한정하는 것으로서, 예를 들어, 문서에 기재된 큰따옴표(" "), 작은따옴표(''), 낫표(「 」), 겹낫표(『 』) 등이 구분 문자로서 사용될 수 있다.
이러한 구분 문자는 문서의 특성에 따라 선택적으로 등록되어 용어를 추출하기 위해 사용될 수 있으며, 예시한 구분 문자 이외의 다른 구분 문자도 추가적으로 사용될 수 있다.
또한, 용어 추출 단계(200)에서는 추출된 용어의 속성어 및 연관어를 함께 추출할 수 있다.
속성어는 용어 추출기(230)에 의해 추출된 용어가 가지는 다양한 의미에 따라 상위 개념과 하위 개념으로 계층화하고, 각각의 개념들에 대한 관계의 계층구조를 도표화하여 제공한다.
일예로, 도 5a에 도시된 바와 같이, 연금이라는 용어를 추출하는 경우, 이 연금이라는 용어가 가지는 의미는 보험, 저축, 국민연금 등 다양하게 적용될 수 있으며, 상기 다양하게 적용되는 분야들과, 이 분야들에서 활용되는 장소, 공간, 위치에 따라 하위 개념의 연관어들을 가지게 되는데, 속성어는 용어 추출기(230)를 통해 용어가 가지는 정의, 또는 적용되는 분야에 따라 상위 개념으로 계층화하고, 각각의 분야에 대하여 활용되는 장소, 공간, 위치에 따라 하위 개념으로 계층화시켜 이를 도표화를 이루도록 하는 것이다.
또한, 용어 추출 단계(200)에서는 추출된 용어를 중심으로 하는 중심어를 통해 상위 개념 및 하위 개념들을 카테고리별로 계층화시키고 이를 도표화하여 제공할 수 있다.
예를 들어, 도 5b에 도시된 바와 같이, 중심어를 기반으로 상위 개념 및 하위 개념들을 계층화하는 경우, 연금이 중심어에 해당하고, 이 연금의 정의에 따라 상기 상위 개념 및 상기 하위 개념들을 계층화하여 도표화를 이루도록 하는 것이다.
다음으로, 용어 정의 추출 단계(300)에서는 용어 정의 추출기(240)를 통해 문서 수집 단계(100)에서 수집된 텍스트 데이터로부터 문자열 패턴을 이용하여 용어의 정의를 추출하고, 수집된 문서의 정보에 해당하는 용어 출처 정보, 수집된 문서 및 추출된 용어의 제정 및 개정 정보, 용어의 분류 정보를 함께 추출한다.
용어의 제정 및 개정 정보, 용어의 출처 정보, 용어의 분류 정보는 웹 상에 공개된 전문 정보 즉, 법령집, 규정집, 전문 분야 별 해설집, 편람 등을 통해 상기 문서 수집 단계(100)를 통해 수집된 문서로부터 추출이 이루어질 수 있다.
용어 정의 추출 단계(300)에서 사용되는 문자열 패턴은 문서 내에서 용어의 정의로서 구분될 수 있는 문자열로서, 예를 들어, "이라 함은", "라 함은", "란", "이란", "아래와 같다", "다음과 같다" 등이 문자열 패턴으로서 사용될 수 있다.
이러한 문자열 패턴도, 상기한 구분 문자와 마찬가지로, 문서의 특성에 따라 선택적으로 등록되어 용어의 정의를 추출하기 위해 사용될 수 있으며, 예시한 문자열 이외의 다른 문자열 패턴도 추가적으로 사용될 수 있다.
도 2에 상기한 용어 추출 단계(200)에서의 구분 문자와, 용어 정의 추출 단계(300)에서의 문자열 패턴이 설정되는 일례를 나타내었다(도 2에서 '구분 문자'는 '추출 구분자'로, '문자열 패턴'은 '추출 텍스트'로 표기하였다). 도 2에 나타낸 바와 같이, 구분 문자와 문자열 패턴은 선택적으로 등록되어 사용될 수 있음을 알 수 있다.
다음으로, 용어 등록 단계(400)에서는 상기 추출된 용어와 용어의 정의를 연관시켜 등록한다.
용어 등록 단계(400)는 상기 추출된 용어와 용어에 대한 정의를 연관시켜 저장 장치 등에 저장하는 것으로서, 이때 용어의 제정 및 개정 정보, 용어의 출처 정보, 용어의 분류 정보가 함께 저장 등록 및 저장된다.
용어 등록 단계(400)에서는 추출된 용어와 이미 등록된 용어를 비교하여, 추출된 용어가 이미 존재하는 경우에는 저장하지 않도록 할 수 있다. 또한, 관리 프로그램을 통해 용어의 조회, 수정 및 삭제가 가능하도록 할 수 있다.
다음으로, 용어 분류 단계(500)에서는 등록된 용어를 카테고리별로 분류한다.
구체적으로, 용어 분류 단계(500)에서는 상기 용어 추출 단계(200)를 통해 추출된 속성어 및 중심어를 바탕으로 금융, 건설, 환경, 의학 등과 같은 전문 분야에 따라 용어를 분류하고, 이후 용어 사이의 관계성을 카테고리화해서 분류한다. 용어 사이의 관계성은 용어에 대한 상위어, 하위어, 동의어, 반의어, 연관어, 동음이의어 등을 의미하는 것으로서, 도 3에 상위어와 하위어에 대한 계층적 구조를 일례로서 나타내었다.
용어 사이의 관계성을 카테고리화하기 위해서, 형태소 분석을 이용하여 용어를 추출한 후 이를 연관어로 등록할 수도 있으며, 중요 용어의 경우 수작업을 통해 카테고리 구조를 생성할 수도 있다.
상기 용어 분류 단계(500)에서는 등록된 용어를 신규 용어와 개정 용어로 더 분류하여, 후술하는 용어 서비스 단계(600)에서 이러한 분류 정보가 사용자에게 제공되도록 할 수도 있다.
용어 서비스 단계(600)에서는 상기와 같이 등록되고 분류된 용어 및 용어에 대한 정보를 사용자의 요구에 따라 제공한다.
상기 용어 서비스 단계(600)에서는 도 6에 도시된 바와 같이, 다양한 형태로 사용자에게 용어 관련 정보를 제공한다. 예를 들어 가나다순으로 용어의 목록을 표시하거나, 그래프나 트리 구조로 시각화해서 용어를 제공할 수 있다.
특히, 검색단어를 통해 추출될 용어를 입력하고, 입력된 용어의 카테고리를 설정하는 검색대상메뉴와, 상기 추출될 용어의 속성어, 연관어, 용어를 중심어로 하는 계층화 구조의 단계 수를 트리의 형태로 표시될 수 있도록 하는 트리수 메뉴를 사용자에게 제공할 수 있다.
이때, 트리수 메뉴에 따른 용어의 중심어, 속성어, 연관어를 출력하는 출력부를 통해 제공함이 바람직하다.
또한, 사용자가 선택한 용어의 검색이 이루어지게 되면, 추출된 용어의 출처를 제공할 수 있다. 예를 들어, 연금으로 검색을 하는 경우, 이 연금의 추출 출처로 금융루키를 표시하여 용어의 출처를 파악할 수 있도록 한다.
또한, 용어의 정의를 제공하고, 이와 동시에 용어가 가지는 다른 정의들을 함께 제공하여 북마크가 이루어지도록 할 수 있다.
아울러, 용어 사전 형태로 정보를 제공할 수 있는데, 용어 사전은 인터넷이나 모바일 통신을 이용한 온라인으로 제공할 수도 있고, 인쇄물 또는 출판물의 형태로 제공할 수도 있다.
상기한 본 발명의 실시예에 따른 문서 수집 단계(100), 용어 추출 단계(200), 용어 정의 추출 단계(300), 용어 등록 단계(400), 용어 분류 단계(500) 및 용어 서비스 단계(600)는 반드시 모든 단계가 함께 실행되어야 하는 것은 아니며, 원하는 목적에 따라 상기 단계들을 선택적으로 실행할 수도 있다.
예를 들어, 데이터베이스 등에 저장된 텍스트 데이터를 읽어서 용어만을 추출하고자 할 경우에는, 상기 단계 중 용어 추출 단계(200)와 용어 등록 단계(400)만을 실행하여 목적을 달성할 수가 있다.
한편, 상기 설명한 본 발명에 따른 용어 추출 및 관리 방법을 실행하기 위한 장치는, 웹 수집기(210), 문서 필터(220), 용어 추출기(230), 용어 정의 추출기(240) 및 용어 관리기(250)를 포함하여 구성될 수 있으며, 이러한 장치를 도 4에 블록도로 나타내었다.
웹 수집기(210)는 인터넷이나 데이터베이스 등을 통해 문서를 수집하고, 문서 필터(220)는 수집된 문서로부터 텍스트 데이터를 추출한다. 용어 추출기(230)는 텍스트 데이터로부터 용어를 추출하고, 추출된 용어의 중심어, 속성어, 연관어를 추출한다. 용어 정의 추출기(240)는 텍스트 데이터로부터 용어의 정의를 추출한다. 또한, 용어 관리기(250)는 추출된 용어와 용어의 정의를 연관시켜 저장 및 분류하여 표시 장치나 인쇄 장치로 출력한다.
이러한 웹 수집기, 문서 필터, 용어 추출기, 용어 정의 추출기 및 용어 관리기는 네트워크나 데이터베이스에 연결되고 입출력 장치를 구비한 하나의 서버로서 구현할 수도 있고, 각각의 구성요소를 다수의 컴퓨터에 분산시켜 구현할 수도 있다.
상기한 본 발명에 따른 용어 추출 및 관리 방법과 장치는 법령이나 규칙 등과 같은 문서로부터 용어 및 용어의 정의를 추출하고 관리하는 데에 특히 우수한 효과를 나타낼 수 있다.
즉, 법령이나 규칙 등이 제정되거나 개정되었을 때, 이러한 제개정 문서를 자동으로 수집하여 용어 및 용어의 정의를 추출하여 사용자에게 제공할 수 있으며, 용어뿐만 아니라 제개정 날짜와 같은 용어 관련 부가 정보도 함께 제공함으로써, 사용자가 용어에 대한 다양한 정보를 편리하게 습득하여 용어에 대한 이해도를 높일 수 있다.
본 발명은 상기한 바람직한 실시예와 첨부한 도면을 참조하여 설명되었지만, 본 발명의 사상 및 범위 내에서 상이한 실시예를 구성할 수도 있다. 따라서 본 발명의 범위는 첨부된 청구범위에 의해 정해지며, 본 명세서에 기재된 특정 실시예에 의해 한정되지 않는 것으로 해석되어야 한다.
100: 문서 수집 단계
200: 용어 추출 단계
300: 용어 정의 추출 단계
400: 용어 등록 단계
500: 용어 분류 단계
600: 용어 서비스 단계

Claims (12)

  1. 문서로부터 용어를 추출하고 관리하는 용어 추출 및 관리 방법에 있어서,
    게시판 URL, 게시판 명칭, 첨부파일 URL을 포함하는 인터넷 주소가 등록된 웹 수집기를 이용하여 인터넷으로부터 상기 문서를 예약된 지정된 시간에 자동으로 수집하고, 상기 문서로부터 텍스트 데이터를 추출하는 문서 수집 단계;
    상기 텍스트 데이터로부터 구분 문자를 이용하여 용어를 추출하고, 상기 용어의 중심어, 속성어 및 연관어를 추출하는 용어 추출 단계;
    상기 텍스트 데이터로부터 문자열 패턴을 이용하여 용어의 정의를 추출하는 용어 정의 추출 단계;
    상기 추출된 용어와 상기 추출된 용어의 정의를 연관시켜 등록하는 용어 등록 단계;
    상기 등록된 용어를 카테고리별로 분류하는 용어 분류 단계; 및
    상기 등록된 용어 및 용어에 대한 정보를 사용자의 요구에 따라 제공하는 용어 서비스 단계
    를 포함하는 것을 특징으로 하는 용어 추출 및 관리 방법.
  2. 청구항 1에 있어서,
    상기 용어 추출 단계는 추출된 용어가 가지는 다양한 의미에 따라 상위 개념과 하위 개념으로 계층화하고, 각각의 개념들에 대한 관계의 계층구조를 도표화하는 것을 더 포함함을 특징으로 하는 용어 추출 및 관리 방법.
  3. 청구항 1에 있어서,
    상기 용어 추출 단계에서 사용하는 구분 문자는
    큰따옴표(" "), 작은따옴표(''), 낫표(「 」), 겹낫표(『 』) 중 적어도 하나를 포함하는 것을 특징으로 하는 용어 추출 및 관리 방법.
  4. 청구항 1에 있어서,
    상기 용어 정의 추출 단계에서 사용하는 문자열 패턴은
    "이라 함은", "라 함은", "란", "이란", "아래와 같다", "다음과 같다"의 문자열 패턴 중 적어도 하나를 포함하는 것을 특징으로 하는 용어 추출 및 관리 방법.
  5. 청구항 1에 있어서,
    상기 용어 등록 단계에서는
    상기 추출된 용어 및 용어의 정의와 함께, 용어의 제정 및 개정 정보, 용의 출처 정보, 용어의 분류 정보 중 적어도 하나의 정보를 저장하여 등록하는 것을 특징으로 하는 용어 추출 및 관리 방법.
  6. 청구항 1에 있어서,
    상기 용어 등록 단계에서는
    상기 추출된 용어와 이미 등록된 용어를 비교하여, 상기 추출된 용어가 이미 존재하는 경우에는 등록하지 않도록 하는 것을 특징으로 하는 용어 추출 및 관리 방법.
  7. 청구항 1에 있어서,
    상기 용어 분류 단계에서는, 용어 사이의 관계성을 카테고리화 해서 분류하는 것을 특징으로 하는 용어 추출 및 관리 방법.
  8. 청구항 7에 있어서,
    상기 용어 분류 단계에서의 용어 사이의 관계성은, 용어에 대한 상위어, 하위어, 동의어, 반의어, 연관어, 동음이의어 중 적어도 하나인 것을 특징으로 하는 용어 추출 및 관리 방법.
  9. 청구항 1에 있어서,
    상기 용어 서비스 단계에서는 용어 사전 형태로 서비스를 제공하는 것을 특징으로 하는 용어 추출 및 관리 방법.
  10. 청구항 1 내지 청구항 9 중 어느 한 항에 기재된 용어 추출 및 관리 방법을 실행하기 위한 장치로서,
    문서를 수집하는 웹 수집기;
    수집된 문서로부터 텍스트 데이터를 추출하는 문서 필터;
    상기 텍스트 데이터로부터 용어를 추출하고, 상기 용어의 중심어, 속성어 및 연관어를 추출하는 용어 추출기;
    상기 텍스트 데이터로부터 용어의 정의를 추출하는 용어 정의 추출기;
    상기 추출된 용어와 상기 추출된 용어의 정의를 연관시켜 저장 및 분류하여 출력하는 용어 관리기; 및
    상기 용어 관리기를 통해 등록되고 분류된 용어 및 용어에 대한 정보를 사용자의 요구에 따라 제공하는 표시 또는 인쇄장치
    를 포함하는 것을 특징으로 하는 용어 추출 및 관리 장치.
  11. 청구항 10에 있어서,
    상기 용어 추출기는 추출된 용어가 가지는 다양한 의미에 따라 상위 개념과 하위 개념으로 계층화하고, 각각의 개념들에 대한 관계의 계층구조를 도표화하는 것을 특징으로 하는 용어 추출 및 관리 장치.
  12. 청구항 10에 있어서,
    상기 표시 또는 인쇄장치는
    추출될 용어를 입력하는 검색단어부와,
    입력된 용어의 카테고리를 설정하는 검색대상메뉴와,
    상기 추출될 용어의 속성어, 연관어, 용어를 중심어로 하는 계층화 구조의 단계 수를 트리의 형태로 표시될 수 있도록 하는 트리수 메뉴와,
    상기 트리수 메뉴에 따른 용어의 중심어, 속성어, 연관어 및 추출된 용어의 출처를 제공하고, 용어의 정의를 제공하고, 이와 동시에 용어가 가지는 다른 정의들을 함께 제공하는 출력부
    를 포함하는 것을 특징으로 하는 용어 추출 및 관리 장치.

KR1020150108985A 2015-07-31 2015-07-31 용어 추출 및 관리 방법과 이를 실행하는 장치 KR20160040083A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150108985A KR20160040083A (ko) 2015-07-31 2015-07-31 용어 추출 및 관리 방법과 이를 실행하는 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150108985A KR20160040083A (ko) 2015-07-31 2015-07-31 용어 추출 및 관리 방법과 이를 실행하는 장치

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020140133362 Division 2014-10-02

Publications (1)

Publication Number Publication Date
KR20160040083A true KR20160040083A (ko) 2016-04-12

Family

ID=55801153

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150108985A KR20160040083A (ko) 2015-07-31 2015-07-31 용어 추출 및 관리 방법과 이를 실행하는 장치

Country Status (1)

Country Link
KR (1) KR20160040083A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200067341A (ko) 2018-12-04 2020-06-12 고려대학교 산학협력단 컴퓨터과학 교육과정 상의 전문용어 추출 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200067341A (ko) 2018-12-04 2020-06-12 고려대학교 산학협력단 컴퓨터과학 교육과정 상의 전문용어 추출 방법

Similar Documents

Publication Publication Date Title
US11222310B2 (en) Automatic tagging for online job listings
CN111125343B (zh) 适用于人岗匹配推荐系统的文本解析方法及装置
US10176261B2 (en) Keyword presenting system and method based on semantic depth structure
JP5827208B2 (ja) 文書管理システムおよび文書管理方法並びに文書管理プログラム
US20150331847A1 (en) Apparatus and method for classifying and analyzing documents including text
JP2009151760A (ja) オブジェクト間競合指標計算方法およびシステム
WO2015017166A1 (en) Method for systematic mass normalization of titles
CN111192176B (zh) 一种支持教育信息化评估的在线数据采集方法及装置
US11544306B2 (en) System and method for concept-based search summaries
CN110188165A (zh) 合同模板获取方法、装置、存储介质和计算机设备
Kochtchi et al. Networks of Names: Visual Exploration and Semi‐Automatic Tagging of Social Networks from Newspaper Articles
CN115757689A (zh) 一种信息查询系统、方法及设备
CN111708774A (zh) 一种基于大数据的产业分析系统
KR101850853B1 (ko) 빅데이터를 이용한 검색 방법 및 장치
CN109213830B (zh) 专业性技术文档的文档检索系统
CN116467291A (zh) 一种知识图谱存储与搜索方法及系统
Raça et al. Real-time monitoring and assessing open government data: A case study of the western Balkan countries
KR20160040083A (ko) 용어 추출 및 관리 방법과 이를 실행하는 장치
KR20180137394A (ko) 문서로부터 용어를 추출하고 관리하는 장치를 이용한 용어 추출 및 관리 방법
CN113407678B (zh) 知识图谱构建方法、装置和设备
JP2020091539A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
KR20200000208A (ko) 소셜 데이터 수집 분석 시스템
KR101667918B1 (ko) 질의 반응형 스마트 검색 서비스 제공 방법 및 이를 구현하기 위한 검색 서비스 장치
KR20190052980A (ko) 인재 정보 처리 방법 및 장치
Chen et al. Research on Data Analysis and Visualization of Recruitment Positions Based on Text Mining

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
E801 Decision on dismissal of amendment
E601 Decision to refuse application