KR20140081721A - 텍스트마이닝을 이용한 중요 키워드 도출 시스템, 방법, 및 상기 방법을 실행시키기 위한 컴퓨터 판독 가능한 프로그램을 기록한 매체 - Google Patents
텍스트마이닝을 이용한 중요 키워드 도출 시스템, 방법, 및 상기 방법을 실행시키기 위한 컴퓨터 판독 가능한 프로그램을 기록한 매체 Download PDFInfo
- Publication number
- KR20140081721A KR20140081721A KR1020130159955A KR20130159955A KR20140081721A KR 20140081721 A KR20140081721 A KR 20140081721A KR 1020130159955 A KR1020130159955 A KR 1020130159955A KR 20130159955 A KR20130159955 A KR 20130159955A KR 20140081721 A KR20140081721 A KR 20140081721A
- Authority
- KR
- South Korea
- Prior art keywords
- keyword
- year
- frequency
- importance
- keywords
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
텍스트마이닝을 이용한 중요 키워드 도출 시스템, 방법, 및 상기 방법을 실행시키기 위한 컴퓨터 판독 가능한 프로그램을 기록한 매체가 개시된다. 중요 키워드 도출 시스템은, 키워드 검색부, 중요도 지수 산출부, 및 중요 키워드 도출부를 포함한다. 키워드 검색부는 검색 엔진을 이용하여 미리 설정된 키워드들 각각에 대해 미리 설정된 연도 구간 내에서 연도별 빈도수를 산출한다. 중요도 지수 산출부는 모든 키워드들의 연도별 빈도수 합에 대한 목적하는 키워드의 연도별 빈도수의 비율을 산출하고, 산출된 비율에 미리 설정된 연도별 가중치를 곱한 연도별 중요도 지수를 산출하며, 연도 구간에 대해 연도별 중요도 지수를 합하여 목적하는 키워드의 중요도 지수를 산출한다. 중요 키워드 도출부는 산출된 키워드 중요도 지수 크기에 따라 키워드의 중요도 순위를 결정한다. 이와 같은 구성에 의하면, 정보 처리 시스템에서 미래 상황에 대한 중요 키워드를 자동으로 도출함으로써, 전문가의 정성적인 의견과 주관적인 평가에 의하지 않고, 객관적으로 미래 예측을 수행할 수 있게 된다.
Description
본 발명은 정보 처리 시스템, 및 방법에 관한 것으로서 더욱 상세하게는 발생가능한 미래 상황에 대비할 수 있도록 미래 예측 정보를 제공해 주는 시스템, 및 방법에 관한 것이다.
최근 국가 경쟁력을 강화하기 위하여 국가과학기술의 미래를 전망하거나 기술을 예측하는 것이 중요한 이슈로 떠오르고 있으며, 이러한 미래 전망을 통해 국가의 다양한 전략과 정책을 수립하고 있다. 특히, 미래를 예측하여 중요 과학기술들을 선별 및 발굴하는 작업은 중요한 이슈가 되고 있으며, 이와 관련된 정부부처의 역할과 연구들이 중요한 테마가 되고 있다. 또한, 정부 및 연구주체들은 한정된 자원과 인력을 어떻게 투자 및 관리할 것인가에 대해서 미래 예측과 관련하여 많은 관심을 갖고 있다.
이러한 미래를 예측하는 방법들은 대부분 전문가의 정성적인 의견과 주관적인 평가에 의해 이루어지고 있으며, 객관적인 방법론들에 대한 연구와 시도는 아직까지 미흡한 실정이다.
그러나 전문가에 의한 정성적인 미래예측방법은 매우 중요한 요소로 인정되어 왔으나, 전문가들의 경향, 정치적 요소, 인맥 관계 등의 다양한 요소에 의해 일부 편향적인 의견이나 주장이 반영될 가능성이 있고, 또한, 전문가들의 평가도 객관적인 자료가 부족하여 미래를 예측할 경우 많은 오류와 어려움을 겪고 있다.
본 발명은 상술한 종래의 문제점을 해결하기 위해 안출된 것으로서, 전문가의 정성적인 의견과 주관적인 평가에 의하지 않고, 객관적으로 미래 예측을 수행할 수 있는 시스템, 및 방법을 제공하는 것을 목적으로 한다.
상기 목적을 달성하기 위해, 본 발명에 따른 중요 키워드 도출 시스템은, 키워드 검색부, 중요도 지수 산출부, 및 중요 키워드 도출부를 포함한다.
키워드 검색부는 검색 엔진을 이용하여 미리 설정된 키워드들 각각에 대해 미리 설정된 연도 구간 내에서 연도별 빈도수를 산출한다. 중요도 지수 산출부는 모든 키워드들의 연도별 빈도수 합에 대한 목적하는 키워드의 연도별 빈도수의 비율을 산출하고, 산출된 비율에 미리 설정된 연도별 가중치를 곱한 연도별 중요도 지수를 산출하며, 연도 구간에 대해 연도별 중요도 지수를 합하여 목적하는 키워드의 중요도 지수를 산출한다. 중요 키워드 도출부는 산출된 키워드 중요도 지수 크기에 따라 키워드의 중요도 순위를 결정한다.
이와 같은 구성에 의하면, 정보 처리 시스템에서 미래 상황에 대한 중요 키워드를 자동으로 도출함으로써, 전문가의 정성적인 의견과 주관적인 평가에 의하지 않고, 객관적으로 미래 예측을 수행할 수 있게 된다.
이때, 키워드의 빈도수는 인터넷 검색 엔진을 이용해 검색된 키워드의 검색 결과수일 수 있다. 이러한 구성에 의하면, 검색 결과를 임의로 조작하기 어려워 검색 결과에 대한 신뢰성이 높아진다.
또한, 본 발명에서의 키워드(i)의 중요도 지수(TF-DI)i는 다음의 수학식에 의해 산출되고,
여기서, 연도 구간 중 j번째 연도의 연도별 중요도 지수(TFj)는 이고, 연도별 가중치(DIj)는 이며, i-frequency는 키워드 i의 빈도수, (total frequency)j는 j번째 연도에서의 모든 키워드들의 빈도수합, n은 연도 구간 전체 연도 수일 수 있다.
아울러, 상기 시스템을 방법의 형태로 구현한 발명과 상기 방법을 실행시키기 위한 컴퓨터 판독 가능한 프로그램이 함께 개시된다.
본 발명에 의하면, 정보 처리 시스템에서 미래 상황에 대한 중요 키워드를 자동으로 도출함으로써, 전문가의 정성적인 의견과 주관적인 평가에 의하지 않고, 객관적으로 미래 예측을 수행할 수 있게 된다.
또한, 인터넷 검색 엔진을 이용해 검색된 키워드의 검색 결과수를 이용하기 때문에, 검색 결과를 임의로 조작하기 어려워 검색 결과에 대한 신뢰성이 높아진다.
도 1은 본 발명에 따른 중요 키워드 도출 시스템의 일 실시예의 개략적인 블록도.
도 2는 텍스트마이닝 프로세스를 도시한 도면.
도 3은 구글 검색 결과값이 도시된 도면.
도 4는 TF-IDF와 TF-DI의 비교 분석표.
도 5는 한글 및 영문 주요 키워드 표.
도 6은 TF-DI에 따른 기술의 우선 순위 표.
도 7은 미래 주요 기술들의 표.
도 2는 텍스트마이닝 프로세스를 도시한 도면.
도 3은 구글 검색 결과값이 도시된 도면.
도 4는 TF-IDF와 TF-DI의 비교 분석표.
도 5는 한글 및 영문 주요 키워드 표.
도 6은 TF-DI에 따른 기술의 우선 순위 표.
도 7은 미래 주요 기술들의 표.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 설명한다.
도 1은 본 발명에 따른 중요 키워드 도출 시스템의 일 실시예의 개략적인 블록도이다.
도 1에서, 텍스트마이닝을 이용한 중요 키워드 도출 시스템(100)은, 키워드 검색부(110), 중요도 지수 산출부(120), 및 중요 키워드 도출부(130)를 포함한다. 중요 키워드 도출 시스템(100)의 각 구성 요소는 하드웨어 또는 하드웨어상에서 동작하는 소프트웨어로 구현될 수 있다.
키워드 검색부(110)는 검색 엔진을 이용하여 미리 설정된 키워드들 각각에 대해 미리 설정된 연도 구간 내에서 연도별 빈도수를 산출한다.
이때, 키워드의 빈도수는 인터넷 검색 엔진을 이용해 검색된 키워드의 검색 결과수일 수 있으며, 이러한 구성에 의하면, 검색 결과를 임의로 조작하기 어려워 검색 결과에 대한 신뢰성이 높아진다.
중요도 지수 산출부(120)는 모든 키워드들의 연도별 빈도수 합에 대한 목적하는 키워드의 연도별 빈도수의 비율을 산출하고, 산출된 비율에 미리 설정된 연도별 가중치를 곱한 연도별 중요도 지수를 산출하며, 연도 구간에 대해 연도별 중요도 지수를 합하여 목적하는 키워드의 중요도 지수를 산출한다.
보다 구체적으로, 본 발명에서의 키워드(i)의 중요도 지수(TF-DI)i는 다음의 수학식에 의해 산출될 수 있으며,
여기서, 연도 구간 중 j번째 연도의 연도별 중요도 지수(TFj)는 이고, 연도별 가중치(DIj)는 이며, i-frequency는 키워드 i의 빈도수, (total frequency)j는 j번째 연도에서의 모든 키워드들의 빈도수합, n은 연도 구간 전체 연도 수이다.
마지막으로, 중요 키워드 도출부(130)는 산출된 키워드 중요도 지수 크기에 따라 키워드의 중요도 순위를 결정한다.
이와 같은 구성에 의하면, 정보 처리 시스템에서 미래 상황에 대한 중요 키워드를 자동으로 도출함으로써, 전문가의 정성적인 의견과 주관적인 평가에 의하지 않고, 객관적으로 미래 예측을 수행할 수 있게 된다.
이하, 본 발명을 보다 구체적인 예와 함께 더욱 상세히 설명한다.
과학 기술 분야의 미래 예측 시 전문가의 객관적인 의견과 평가가 이루어지도록 좀 더 구체적이고 객관적인 데이터(data)와 자료를 제공하는 방법이 중요한 이슈(issues)로 떠오르고 있다. 특히, 일본과학기술정책연구소(NISTEP)에서는 논문을 이용한 논문 맵(2009)을 활용하여 미래 기술에 대한 예측을 국가 연구 개발에 접목하고 있으며, 국내외 많은 업체들이 특허 맵(patent map) 등을 활용해 특허 분석을 하고 있다. 이러한 연구들은 객관적인 자료와 방법 등을 활용한 정량적 분석으로 미래 예측을 시도한 것들이다.
본 발명에서는 미래예측 시 전문가들의 정성적인 의견과 평가를 보조할 수 있는 정량적이고 객관적인 자료를 도출하기 위하여, 기존의 논문이나 특허의 자료를 이용하는 방법보다 인터넷(internet)의 데이터를 활용하는 방안을 모색하였다. 또한, 기존에 단순히 논문 및 특허를 검색하여 노이즈(noise)를 제거하는 방법들을 이용하여 논문 및 특허 맵을 활용하는 방법보다는 인터넷을 활용한 중요빈도, 시간과 공간의 정보를 활용한 트랜드(trend) 분석을 포함한 텍스트 마이닝(text mining) 기법에 의해 중요한 키워드를 도출하였다. 이러한 연구방법을 통해 '제3회 과학기술예측조사 수정·보완' (2008)(이하 '제3회 과학기술예측조사'라 함)의 건설분야 기술에 대해 정량적인 분석을 시도하고 미래과 관련된 주요 키워드를 도출하였다.
1. 선행 연구
일반적으로 수많은 정보들을 크게 2가지의 형태로 구분하면 정형화된 데이터와 비정형화된 데이터로 구분할 수 있다. 정형화된 데이터의 내용은 기존의 데이터를 활용하기 위하여 일정한 형식과 조건을 만족하는 자료로 가공하여 DB(data base)화한 정보이다. 이러한 정보는 전체의 약 20%정도가 자료의 생성, 저장, 재사용하는 정보로 구성되어 있다. 정형화데이터의 정보를 추출하고 가공하는 방법을 데이터 마이닝(data mining)이라고 불리며, 현재 우리가 가장 많이 활용하는 데이터베이스 시스템과 정보분류 체계에 응용되고 있다.
텍스트 마이닝)은 80%를 차지하는 비정형 정보를 어떻게 활용하는 가에 대한 방법을 말하며, 현재 다양한 분야에서 활용되고는 있으나 아직까지는 많은 연구가 필요하다. 텍스트 마이닝은 대용량의 데이터에서 사용자가 관심을 가지는 정보를 키워드의 수준이 아니라 문맥(context) 수준의 의미를 찾아내는 프로세스를 의미한다. 즉, 정보의 폭발적인 증가로 많은 부분을 자동적으로 처리할 수 있는 방법이 필요하게 되었으며, 대용량의 데이터 속에서 숨겨진 패턴을 발견하고 특정 주제와 연관된 데이터를 검색하는 방법으로 발전하고 있다.
텍스트 마이닝으로 인해 과거에 생각할 수 없었던 기술실현 방법들을 예상할 수 있다. 예를 들면, 다양한 자료와 시간 등으로 구성된 범죄 기록들 속에 현재 발생한 유사한 형태의 범죄유형을 찾아냄으로써 범죄자나 테러범을 색출, 웹 게시판에 올라오는 다양하고 비정형화 되어 있는 수천만건의 고객 불만 사항을 특정 카테고리별로 분류하거나 특정문제를 찾아내는 방법, 수많은 환자의 처방 내역서에서 당뇨병에 효과적인 치료 패턴을 자동으로 찾아내는 등 다양한 방향으로 응용이 가능하다.
현재까지 텍스트 마이닝은 크게 인터넷분야와 일반적인 데이터를 마이닝하는 분야로 응용되고 있다. 인터넷을 활용한 데이터 마이닝 기법은 인터넷 검색엔진 등에 활용되고 있다.
텍스트 마이닝의 일반적인 프로세스(process)는 여러 가지로 알려져 있으나 일반적으로 4단계의 프로세스를 거친다. 텍스트 마이닝 과정은 [비정형 정보수집 -> 정보처리 -> 정보추출 -> 정보분석] 등의 일반적인 절차를 따르고 있으며, 정보추출과정에서 수학적 모델이나 알고리즘을 통해 유용한 정보를 도출하는 방법이다. 이를 어떻게 활용할 것인가에 대해 검색엔진에 활용하거나 다른 중요한 키워들을 도출하는 등에 활용하고 있다. 텍스트 마이닝을 위한 정보추출 방법에는 다양한 목적, 조건, 환경 등으로 정보의 추출방법이 다양하며, 정보추출방법은 텍스트 마이닝에서 가장 중요한 부분 중에 하나이다.
특히, 정보추출 방법에는 수많은 수학적 알고리즘과 방법들이 존재하며, 그중 간단하면서 가장 강력한 방법으로는 TF-IDF(Term Frequency - Inverse Document Frequency) 방식을 많이 사용하고 있다. Spark(1972)는 TF-IDF가 여러 문서에 동시에 출현하는 단어는 범용적인 확률이 높다는 전제아래 역문헌 빈도수(IDF : Invert Document Frequency)를 제시하였다. Salton(1976)에 의해 한 문서내에 자주 출현하는 단어는 그 문서를 대표할 수 있다는 명제를 통해 문헌내의 단어빈도수(TF : Term Frequency)를 계산하는 방식이 제시되었다. Wu & Salton(1981)은 이러한 두가지 방식의 가중치 중요도(term weight)를 발표하였다. 즉 TF-IDF에 대해 좀더 자세히 살펴보면, TF-IDF정보 검색과 텍스트 마이닝에서 이용하는 키워드의 가중치를 구하는 방법으로 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치이다.
이와 같이 TF-IDF는 빈도를 이용하는 방법으로 오랜 기간 동안 검증되어 왔으나, 복잡한 계산방식과 데이터 추출하는 방법과 범위에 따라 오차율이 크게 발생하는 등 많은 보완이 필요하다. 이에 따라, 현재의 트랜드나 현황을 분석하는데 어려움이 따르며, 이러한 현재의 트랜드를 분석하기 위하여 기존의 중요도를 보완하여 새로운 알고리즘이 필요하게 되었다.
2. 발명 범위 및 방법
2.1 발명 개요 및 프로세스
본 발명에서는 인터넷의 정보와 텍스트마이닝 방법을 활용하여 건설분야의 미래 주요 키워드를 분석하였다. 발명 범위는 건설분야를 대상으로 분석하였다.
2.2 발명 수행
(1) 인터넷의 활용
인터넷이 급속히 증가하면서 인터넷에는 수많은 데이터들이 넘쳐나고 있으며, 1999년에는 약 3천만개의 웹사이트가 있는 것으로 조사되었으며, 2007년도에는 약 1억개, 현재에도 기하급수적으로 증가하고 있다. 이렇게 기하급수적으로 증가한 인터넷의 실시간 데이터나 중요한 정보를 찾기 위하여 우리는 많은 시간과 노력을 필요로 하게 되었다. 이로 인해 인터넷 데이터를 활용하여 우리가 필요로 하는 정보를 어떻게 도출할 것인가에 대한 많은 연구가 진행되고 있으며, 텍스트 마이닝, 검색엔진, 로봇 등의 다양한 기법들이 도입되고 있으며 현재 많은 연구가 진행되고 있다.
네트워크분야에서도 IT(information technology)기술과 인터넷을 활용한 새로운 방법들이 도입되기 시작하였으며, 일부 연구에서는 인터넷의 방대한 데이터를 활용하여 데이터 마이닝, 텍스트 마이닝, 검색엔진을 이용한 방법 등이 연구되고 있다. 예를 들면, 2008년 구글에서는 미국의 109대 상원선거에서 기존의 출구조사를 한 결과와 구글의 검색결과로 분석한 결과가 유사한 것으로 알려지므로 인터넷의 유용성에 대한 연구가 활발하게 진행되고 있다.
본 발명에서도 인터넷의 다양한 정보(웹페이지, 논문검색, 특허검색, 블로그 등)를 검색결과값을 빈도수로 산정하였다. 특히, 여기에 사용되어진 구글 검색엔진은 페이지랭크(page rank)라는 알고리즘(algorithm)을 통해 구현되었으며, 웹페이지에 연결된 하이퍼링크를 수에 따른 가중치를 분석하여 검색 결과값으로 표현한 일종의 네트워크 알고리즘으로 만들어진 검색엔진이다. 이렇게 구현된 검색엔진은 기존의 검색엔진과 달리 임의로 검색결과를 조작하기 어려워 검색결과에 대한 신뢰성이 높은 것이 특징이다. 최근 구글에서는 Open API(application programming interface)를 제공하여 논문검색사이트, 특허검색사이트, 구글 사전 등을 제공하여 다양한 목적을 위해 사용하게끔 공개되어 있다. 일반적으로 API는 운영체계나 언어가 어떤 기능을 제어할 수 있도록 제공되는 인터페이스였으나, 웹 2.0에서는 웹의 특정한 서비스를 이용하도록 제공되는 인터페이스로 개념이 확장되고 있는 개념이다.
(2) 텍스트마이닝의 수학적 알고리즘
본 발명의 텍스트마이닝에서 정보추출단계에서 사용되어지는 수학적 알고리즘은 TF-IDF는 빈도를 이용하는 방법으로 오랜 기간 동안 검증되어 왔으나, 복잡한 계산방식과 데이터 추출하는 방법과 범위에 따라 오차율이 크게 발생하는 등 많은 보완이 필요하다. 또한, 시간의 변화에 따른 트랜드를 분석할 수 없는 한계점을 가지고 있다.
본 발명의 TF-DI(Term Frequency - Data Index)는 미래의 트랜드를 분석하기 위한 텍스트 마이닝의 알고리즘으로, 특정 키워드가 연도별로 얼마나 중요한지를 나타내는 가중치를 분석하여 TF-IDF를 변형하여 단점들을 보강하고 특정목적(트랜드 분석)을 위하여 개발되었다.
TF-DI의 가장 중요한 원리는 문서내의 중요한 키워드들을 도출하여 인터넷의 정보량에 따라 단어의 빈도수를 분석하는 방식을 사용한다. 또한, 문서군내의 특정단어의 문서 간 빈도수를 사용하는 것이 아니라 연도별 가중치를 사용함으로써 트랜드 분석이 가능하도록 설계되었다. 즉 TF-IDF의 빈도수가 중요하다는 원리를 이용하지만, 트랜드를 분석하기 위하여 문서의 중요도는 인터넷을 활용한 연도별 가중치 분석으로 중요도를 분석하고 있다. 이러한 분석은 현재의 인터넷의 정보를 가중치로 이용하는 방법으로 현재의 데이터나 자료가 잘 반영되어 있다는 장점이 있다.
TF-IDF와 TF-DI의 가장 큰 차이점은 첫째, TF-IDF 빈도수분석은 문서군들에 속해진 문서들의 빈도수를 이용하는 것이고, TF-DI은 중요하다고 생각되는 보고서, 논문 등의 중요문서들의 키워드들을 인터넷의 최근 검색 결과값을 들을 빈도수로 이용하는 것이다. 이 빈도수는 특정한 문서군에 국한되지 않으며, 최근의 트랜드를 반영하는 지표가 된다. 둘째, TF-IDF는 문서간 특정단어의 속한 문서들의 수에 따라 중요도를 판별하였으나, TF-DI에서는 시간의 개념을 변수로 사용하여 중요도를 산정하였다. 이는 시간개념을 도입함으로써, 최근까지의 트랜드를 분석할 수 있는 유용한 방법으르 제시하고 있다. 셋째, TF-IDF의 중요도는 어떤 문서군을 선택하는냐에 따라 편차가 심하게 발생하나, TF-DI는 인터넷을 이용한 결과값들을 사용하기 때문에 오차도 적을뿐더러 다양한 조건하에 값들을 중요도를 추출하고 트랜드를 분석할 수 있다.
이러한 접근방식의 차이에 의해 TF-IDF와 TF-DI는 중요도를 판별하는 유사한 스타일로 볼수 있으나, 시간의 개념이 포함되면서 완전히 다른 중요도를 도출하는 방법으로 인식된다.
이러한 TF-DI의 세부적인 알고리즘을 살펴보면 2가지의 명제를 중심으로 개발되었다.
<명제>
1. 문서나 프로세스에 의해 도출된 키워드는 빈도수가 높은 것이 중요하다.
2. 연도별 키워드 빈도가 높다는 것은 중요한 키워드이다.
첫 번째 명제는 특정 키워드의 빈도수가 높다는 것은 특정 키워드가 중요하다는 것을 의미하므로, 인터넷의 노출 빈도가 높은 키워드를 빈도수로 선정하였다. 즉, 인터넷 검색엔진에 의한 검색결과 값을 빈도수로 선정하였다.
두 번째 명제는 특정키워들의 빈도수가 최근으로 올수록 중요한 요소라고 예상하여, DI(data index)에서는 키워드의 연도별 빈도수와 연도별 가중치르 부여하여 산정하였다(최근년도로 갈수록 가중치가 높음)
이러한 두가지 명제를 중심으로 TF-DI에서는 키워드의 상대적 빈도수와 연도별 가중치의 곱으로 표현하여 아래와 같은 수식을 도출하였다.
3. 발명 내용
3.1 정보 수집 단계
미래과련 키워드를 수집하기 위하여, 2010.2월에 발표된 과학기술 미래비전의 내용중 건설분야와 관련된 기술들을 추출하였다.
* 과학기술 미래비전 4대 미래모습
-자연과 함께하는 세상
-풍요로운 세상
-건강한 세상
-편리한 세상(6대 트랜드 중 건설관련 2개 분야)
복합공간과 생태도시 개발 기술은 육상 공간의 과밀화와 생활 패턴 변화 등에 대응하기 위해서 점차 그 중요성이 높아질 것이다.
새로운 물류·운송 수단의 등장으로 교통수단의 효율성이 증대되어 이동 시간이 단축되고 생활권이 확대될 것이다.
2개의 트랜드의 내용에 언급된 건설 및 교통분야의 29개 기술들을 도출하였다.
3.2 정보 처리 단계
건설분야 13개의 기술과 교통분야 16개의 기술들로 분류하였으며, 분류된 기술들은 영문 키워드로 재가공되었다.
정보처리 과정에서는 도출된 대상 자료와 기술리스트를 중심으로 각 기술에 해당되는 정보를 추출할 수 있는 데이터 소스를 가공하는 단계로 수집된 자료(문서)를 기본으로 관련 키워드의 추출과 추출된 키워드의 수정 및 검토를 통한 영문화하였다.
3.3 정보 처리 단계
정보처리 단계에서 도출된 영문 키워드를 중심으로 TF-DI(Term Frequency - Data Index)를 활용하여 키워드의 가중치 도출하였다. 가중치는 구글 검색엔진을 활용하여 연도별 검색 결과 커리값을 가중치로 도출하였다. 검색기간은 2000.1.1. ~ 2009.12.31.(10년간)로 설정하여 TF-DI에 의해 주요 키워드를 선정하였다. 특히, 범위가 크거나 대표성이 있는 기술은 제외하고 같은 기술의 여러 가지 세부기술들은 우선순위가 높은 기술로 선정하였다(예, 초고층 빌딩 설비 및 환경, 초고층 빌딩 설계, 초고층 빌딩 계획 등은 중요도 지수가 높은 것을 선정). 또한, 다른 기술에 비해 TF-DI 너무 낮은 것은 제외하였다(예, ubiquitous 물류, 공간정보 기반 인프라 기술, 친환경 주거, U-Transportation 기술, 중소형항공기)
3.4 정보 분석 단계
정보분석 단계에서는 최종적으로 29개의 기술들을 도출하였다. 특히, 1~10위까지의 기술을 분석할 결과 표4와 같다.
건설분야에서는 초고층빌딩과 대규모 구조물의 초고층화, 지하공간, 해양도시를 개발하는 기술들은 현재의 공간을 좀 더 효율적으로 활용하기 위한 중요한 미래기술로 도출되었다. 또한, IT기술을 활용한 국토공간정보의 활용한 기술들도 IT와 결합되어 중요한 기술로 도출되었다. 특히, 구글, 마이크로소트프 등의 회사에서는 원천 공간정보를 확보하는데 주력하고 있으며, 대부분의 상용화된 지도서비스는 가장 큰 포털에서 중요한 서비스로 자리잡고 있다.
교통분야에서는 첨단 IT를 활용하여 교통의 안정성과 관련기술의 고도화를 주력하는데 필요한 기술이 미래의 주요 기술들로 도출되었다. 특히, 우주 수송기와 같이 먼 우주를 여행할 수 있는 관련기술과 이에 따른 운전의 안정성을 극대화하는 기술들이 미래의 기술들로 도출되었다.
4. 결론
본 발명에서는 트랜드를 분석하기 위하여 새로운 텍스트마이닝기법과 수학적 알고리즘을 발명하였다. 또한, 인터넷 검색엔진을 이용하여 검색결과값을 주요 키워드의 빈도로 사용하였다. 이러한 원리로 주요 키워드의 미래 트랜드를 분석할 수 있었다. 특히, 본 연구에서 개발된 TF-DI는 인터넷을 활용하여 시간별 추이를 분석하는데 용이할 것으로 예상된다. 이러한 발명 결과로 다음과 같은 결론은 낼 수 있었다.
첫째, 인터넷을 활용한 트랜드 분석은 향후 아주 중요한 리소스를 제공하는 역할을 할 것으로 예상되며, 본 연구는 인터넷 데이터를 어떻게 활용하는 것에 대한 하나의 방법을 제시하고 있다.
둘째, 텍스트마이닝을 이용한 트랜드 분석은 미래 키워드 분석하는 하나의 방법으로 향 후 중용한 연구테마가 될 것으로 예상된다.
셋째, 본 정량적인 연구방법은 전문가를 활용한 정성적인 미래예측을 보조하거나 예측의 일부를 대처하는 하나의 방법으로 활용될 것으로 예상된다.
Claims (7)
- 검색 엔진을 이용하여 미리 설정된 키워드들 각각에 대해 미리 설정된 연도 구간 내에서 연도별 빈도수를 산출하는 키워드 검색부;
상기 모든 키워드들의 연도별 빈도수 합에 대한 목적하는 키워드의 연도별 빈도수의 비율을 산출하고, 상기 산출된 비율에 미리 설정된 연도별 가중치를 곱한 연도별 중요도 지수를 산출하AI, 상기 연도 구간에 대해 상기 연도별 중요도 지수를 합하여 상기 목적하는 키워드의 중요도 지수를 산출하는 중요도 지수 산출부; 및
상기 산출된 키워드 중요도 지수 크기에 따라 상기 키워드의 중요도 순위를 결정하는 중요 키워드 도출부를 포함하는 것을 특징으로 하는 텍스트마이닝을 이용한 중요 키워드 도출 시스템. - 제 1항에 있어서,
상기 키워드의 빈도수는 인터넷 검색 엔진을 이용해 검색된 키워드의 검색 결과수인 것을 특징으로 하는 텍스트마이닝을 이용한 중요 키워드 도출 시스템. - 중요 키워드 도출 시스템이,
검색 엔진을 이용하여 미리 설정된 키워드들 각각에 대해 미리 설정된 연도 구간 내에서 연도별 빈도수를 산출하는 단계;
상기 모든 키워드들의 연도별 빈도수 합에 대한 목적하는 키워드의 연도별 빈도수의 비율을 산출하는 단계;
상기 산출된 비율에 미리 설정된 연도별 가중치를 곱한 연도별 중요도 지수를 산출하는 단계;
상기 연도 구간에 대해 상기 연도별 중요도 지수를 합하여 상기 목적하는 키워드의 중요도 지수를 산출하는 단계; 및
상기 산출된 키워드 중요도 지수 크기에 따라 상기 키워드의 중요도 순위를 결정하는 단계를 포함하는 것을 특징으로 하는 텍스트마이닝을 이용한 중요 키워드 도출 방법. - 제 4항에 있어서,
상기 키워드의 빈도수는 인터넷 검색 엔진을 이용해 검색된 키워드의 검색 결과수인 것을 특징으로 하는 텍스트마이닝을 이용한 중요 키워드 도출 방법. - 제 4 내지 6항 중 어느 한 항의 방법을 실행시키기 위한 컴퓨터 판독 가능한 프로그램을 기록한 매체.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120150676 | 2012-12-21 | ||
KR20120150676 | 2012-12-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20140081721A true KR20140081721A (ko) | 2014-07-01 |
Family
ID=51732920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130159955A KR20140081721A (ko) | 2012-12-21 | 2013-12-20 | 텍스트마이닝을 이용한 중요 키워드 도출 시스템, 방법, 및 상기 방법을 실행시키기 위한 컴퓨터 판독 가능한 프로그램을 기록한 매체 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20140081721A (ko) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2962771A1 (en) | 2014-07-01 | 2016-01-06 | LG Electronics Inc. | Method of controlling a garbage disposer |
KR101638739B1 (ko) * | 2015-04-24 | 2016-07-11 | (주) 더아이엠씨 | 비정형 텍스트 데이터 처리방법 |
KR101866790B1 (ko) | 2016-12-09 | 2018-06-18 | 아주대학교 산학협력단 | 기술 문서를 이용한 기술관계 네트워크 생성 방법 및 장치 |
KR20230166332A (ko) | 2022-05-30 | 2023-12-07 | 국민대학교산학협력단 | 딥러닝 기반 고객 관점 중요 키워드 도출 장치 및 방법 |
US11907278B2 (en) | 2021-10-21 | 2024-02-20 | Samsung Electronics Co., Ltd. | Method and apparatus for deriving keywords based on technical document database |
CN109669970B (zh) * | 2018-12-17 | 2024-04-12 | 南京东大智能化系统有限公司 | 一种基于关键词的数据挖掘方法 |
WO2024143616A1 (ko) * | 2022-12-29 | 2024-07-04 | 엘지전자 주식회사 | 영상표시장치 및 그 동작방법 |
-
2013
- 2013-12-20 KR KR1020130159955A patent/KR20140081721A/ko not_active Application Discontinuation
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2962771A1 (en) | 2014-07-01 | 2016-01-06 | LG Electronics Inc. | Method of controlling a garbage disposer |
KR101638739B1 (ko) * | 2015-04-24 | 2016-07-11 | (주) 더아이엠씨 | 비정형 텍스트 데이터 처리방법 |
KR101866790B1 (ko) | 2016-12-09 | 2018-06-18 | 아주대학교 산학협력단 | 기술 문서를 이용한 기술관계 네트워크 생성 방법 및 장치 |
CN109669970B (zh) * | 2018-12-17 | 2024-04-12 | 南京东大智能化系统有限公司 | 一种基于关键词的数据挖掘方法 |
US11907278B2 (en) | 2021-10-21 | 2024-02-20 | Samsung Electronics Co., Ltd. | Method and apparatus for deriving keywords based on technical document database |
KR20230166332A (ko) | 2022-05-30 | 2023-12-07 | 국민대학교산학협력단 | 딥러닝 기반 고객 관점 중요 키워드 도출 장치 및 방법 |
WO2024143616A1 (ko) * | 2022-12-29 | 2024-07-04 | 엘지전자 주식회사 | 영상표시장치 및 그 동작방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11663254B2 (en) | System and engine for seeded clustering of news events | |
Kühl et al. | Supporting customer-oriented marketing with artificial intelligence: automatically quantifying customer needs from social media | |
KR20140081721A (ko) | 텍스트마이닝을 이용한 중요 키워드 도출 시스템, 방법, 및 상기 방법을 실행시키기 위한 컴퓨터 판독 가능한 프로그램을 기록한 매체 | |
JP5391633B2 (ja) | オントロジー空間を規定するタームの推奨 | |
JP4920023B2 (ja) | オブジェクト間競合指標計算方法およびシステム | |
JP2021504789A (ja) | Esg基盤の企業評価遂行装置及びその作動方法 | |
KR20180072167A (ko) | 유사특허 추출 시스템 및 그 방법 | |
JP5373870B2 (ja) | 予測装置、予測方法、及び、プログラム | |
Yao | Financial accounting intelligence management of internet of things enterprises based on data mining algorithm | |
Ezzeldin et al. | Metaresearching structural engineering using text mining: Trend identifications and knowledge gap discoveries | |
Deiva Ganesh et al. | Supply chain risk identification: a real-time data-mining approach | |
CA2956627A1 (en) | System and engine for seeded clustering of news events | |
US20190340517A2 (en) | A method for detection and characterization of technical emergence and associated methods | |
Patra | Google Scholar-based citation analysis ofIndian library and information science journals | |
CN116848490A (zh) | 使用模型相交进行文档分析 | |
CN117743564B (zh) | 一种科技政策信息自动抽取与推荐方法及系统 | |
KR20190076038A (ko) | 기술적 출현 스코어링 및 분석 플랫폼 | |
Srikanth et al. | Dynamic social media monitoring for fast-evolving online discussions | |
JP5827206B2 (ja) | 文書管理システムおよび文書管理方法並びに文書管理プログラム | |
KR101710010B1 (ko) | 문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템 | |
Wlodarczyk et al. | Current trends in predictive analytics of big data | |
CN112069314B (zh) | 一种基于科技文献数据的特定领域态势分析系统 | |
KR102096328B1 (ko) | 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법 | |
Hassan et al. | Sampling technique selection framework for knowledge discovery | |
WO2022271431A1 (en) | System and method that rank businesses in environmental, social and governance (esg) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |