KR101526312B1 - 현안 키워드 대응 연구개발 정보 서비스 시스템 및 방법 - Google Patents

현안 키워드 대응 연구개발 정보 서비스 시스템 및 방법 Download PDF

Info

Publication number
KR101526312B1
KR101526312B1 KR1020130145688A KR20130145688A KR101526312B1 KR 101526312 B1 KR101526312 B1 KR 101526312B1 KR 1020130145688 A KR1020130145688 A KR 1020130145688A KR 20130145688 A KR20130145688 A KR 20130145688A KR 101526312 B1 KR101526312 B1 KR 101526312B1
Authority
KR
South Korea
Prior art keywords
keyword
current
issue
network
data
Prior art date
Application number
KR1020130145688A
Other languages
English (en)
Other versions
KR20150061486A (ko
Inventor
한희준
김남규
최희석
김윤정
김재수
곽기영
최병구
홍진성
현윤진
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020130145688A priority Critical patent/KR101526312B1/ko
Publication of KR20150061486A publication Critical patent/KR20150061486A/ko
Application granted granted Critical
Publication of KR101526312B1 publication Critical patent/KR101526312B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Abstract

본 발명은 현안 키워드 대응 R&D 정보 서비스 시스템 및 방법에 관한 것으로, 국가 현안 자료 또는 웹 미디어 데이터의 분석을 통해 현안 키워드를 추출하는 현안 키워드 추출 장치, 상기 현안 키워드 추출 장치에서 추출된 현안 키워드와 R&D 키워드가 동시에 출현하는 문서들을 대상으로 기 정의된 현안 사전과 R&D 사전을 이용하여 분석 대상이 되는 현안 키워드와 R&D 키워드를 도출하고, 상기 도출된 현안 키워드와 R&D 키워드 간의 네트워크를 구축하는 네트워크 구축 장치, 상기 현안 키워드 추출 장치에서 추출된 현안 키워드와 상기 네트워크 구축장치에서 구축된 네트워크를 이용하여 현안 키워드 또는 R&D 키워드에 대응하는 R&D 정보를 패키징하는 패키징 장치를 포함한다.

Description

현안 키워드 대응 연구개발 정보 서비스 시스템 및 방법{SYSTEM AND METHOD FOR PACKAGING RESEARCH AND DEVELOPMENT INFORMATION SERVICES ON PENDING NATIONAL ISSUES}
본 발명은 현안 키워드 대응 연구개발(R&D, research and development) 정보 서비스 시스템 및 방법에 관한 것으로, 보다 상세하게는 국가 현안 자료 또는 웹 미디어 데이터의 분석을 통해 현안 키워드를 추출하고, 추출된 현안 키워드와 R&D 키워드가 동시에 출현하는 문서들을 대상으로 기 정의된 현안 사전과 R&D 사전을 이용하여 분석 대상이 되는 현안 키워드와 R&D 키워드를 도출하며, 도출된 현안 키워드와 R&D 키워드 간의 네트워크를 구축하고, 구축된 네트워크를 이용하여 현안 키워드 또는 R&D 키워드에 대응하는 R&D 정보를 패키징하는 현안 키워드 대응 R&D 정보 서비스 시스템 및 방법에 관한 것이다.
최근 모바일 기술을 포함한 ICT 기술의 발전으로 인해 정보 환경이 많은 변화를 겪고 있으며, 그에 따라 사용자의 규모뿐 아니라 이러한 사용자들에 의해 생성, 공유, 저장되는 데이터의 양이 기하급수적으로 증가하고 있다. 이러한 현상은 데이터의 양 자체가 해결해야 할 문제의 일부분이 되는 빅데이터(Big Data) 분석 기술에 대한 수요와 관심을 증대시키고 있다. 빅데이터는 기존의 전통적인 방법이나 도구로는 수집, 저장, 검색, 분석, 시각화가 어려운 정형 또는 비정형의 대규모 데이터를 의미하며, 빅데이터 관련 기술은 향후 2~5년 내에 IT분야에서 자리 잡을 주요 기술로 예상되고 있다.
이처럼 빅데이터 기술에 대한 관심이 급증한 원인 중 하나는 스마트폰, 테블릿 PC 등의 스마트 모바일 기기가 대중화됨에 따라 다양한 소셜 미디어를 통해 유통되는 비정형 데이터의 양이 급증한 것에서 찾을 수 있다. 특히 트위터(Twitter)와 페이스북(Facebook) 등을 통해 유통되는 텍스트 데이터는, 풍부한 정보나 의견을 거의 실시간으로 표현하고 있다는 특징으로 인해 연구자들의 많은 관심을 받고 있다. 이에 따라서 텍스트 형태의 비정형 빅데이터에 대한 분석이 텍스트 마이닝(Text Mining)이라는 이름으로 활발하게 이루어지고 있다. 텍스트 마이닝은 데이터 마이닝(Data Mining), 자연어 처리, 정보 검색, 전산 언어학, 토픽 추적(Topic Tracking) 등의 분야의 기술을 종합적으로 활용하여 대용량의 텍스트로부터 유용한 정보를 추출하는 과정이라고 말할 수 있다.
텍스트 마이닝을 통해 새로운 지식을 발굴하고자 하는 노력은 비즈니스 영역뿐 아니라 정치, 문화 등 다양한 영역에서 매우 활발하게 나타나고 있다. 특히 최근에는 정치·경제·사회문화 등 여러 현안 및 이슈들을 발굴하여 이를 의사결정에 활용하고자 하는 시도가 활발하게 이루어지고 있다.
이처럼 빅데이터 분석을 통해 다양한 사회 이슈를 발굴하고자 하는 시도가 꾸준히 이루어져왔음에도 불구하고, 빅데이터 분석을 활용하여 국가현안 주제를 선정하고 이를 관련 R&D 정보와 효과적으로 패키징하여 확산시키기 위한 시도는 충분히 이루어지지 않고 있다. 국가적 차원의 현안에 대한 주제 선정은 선정된 주제로부터 유관 부서의 어젠다(Agenda)가 도출될 뿐 아니라, 가까운 미래와 먼 미래의 국가 경쟁력을 좌우할 수 있는 R&D 투자의 초석을 마련한다는 측면에서 그 중요성이 인정된다. 기존의 국가현안 주제 선정은, 소수의 기관과 소수의 전문가들에 의해 Top-Down 방식으로 초안을 마련한 뒤, 설문 조사 등을 통해 초안을 수정 및 보완하는 방식으로 수행되었다. 하지만 이러한 방식은 수시로 변화하는 R&D 현장의 이슈를 충분히 반영하지 못하기 때문에, 실제 R&D 사업 추진 과정에서 예상못한 어려움에 직면하거나 기대 이하의 성과를 거두는 경우가 비일비재하게 발생하고 있다. 이러한 기존 방식의 한계를 극복하기 위해서는, 국가현안 주제 선정이 창의적 문제 해결 방법론을 갖고 있는 다양한 현장 전문가들의 수요와 필요에 기반을 두고 이루어져야 한다.
선행기술 1 : 한국등록특허 제10-0836877호(2008.06.11 공고)
본 발명은 상기한 문제점을 해결하기 위하여 안출된 것으로, 국가 현안 자료 또는 웹 미디어 데이터 분석을 통해 발굴한 추가 이슈를 통합하여 통합 국가현안 키워드를 도출하는 현안 키워드 대응 R&D 정보 서비스 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적은 현안 키워드와 R&D 키워드의 대응 관계를 파악할 수 있는 현안 키워드 대응 R&D 정보 서비스 시스템 및 방법을 제공하는데 있다.
본 발명의 또 다른 목적은 현안 키워드에 대응하는 패키지 대상 정보를 식별하고, 패키지 대상 범위를 확대·제공할 수 있는 현안 키워드 대응 R&D 정보 서비스 시스템 및 방법을 제공하는데 있다.
본 발명의 또 다른 목적은 국가현안 주제를 효과적이고 체계적으로 선정하기 위한 현안관련 키워드 도출 방법론을 수립하고, 이렇게 도출된 국가현안 키워드를 기반으로 국가현안에 대응되는 R&D 정보를 패키징할 수 있는 현안 키워드 대응 R&D 정보 서비스 시스템 및 방법을 제공하는데 있다.
상기 목적들을 달성하기 위하여 본 발명의 일 측면에 따르면, 국가 현안 자료 또는 웹 미디어 데이터의 분석을 통해 현안 키워드를 추출하는 현안 키워드 추출 장치, 상기 현안 키워드 추출 장치에서 추출된 현안 키워드와 R&D 키워드가 동시에 출현하는 문서들을 대상으로 기 정의된 현안 사전과 R&D 사전을 이용하여 분석 대상이 되는 현안 키워드와 R&D 키워드를 도출하고, 상기 도출된 현안 키워드와 R&D 키워드 간의 네트워크를 구축하는 네트워크 구축 장치, 상기 현안 키워드 추출 장치에서 추출된 현안 키워드와 상기 네트워크 구축장치에서 구축된 네트워크를 이용하여 현안 키워드 또는 R&D 키워드에 대응하는 R&D 정보를 패키징하는 패키징 장치를 포함하는 현안 키워드 대응 R&D 정보 서비스 시스템이 제공된다.
상기 현안 키워드 추출 장치는 국가 현안 자료를 대상으로 토픽 분석을 수행하여 시드 키워드를 추출하고, 웹 미디어 데이터를 Data-Driven 방식으로 분석하여 추가 이슈 키워드를 발굴하며, Ad-hoc 현안 키워드를 보강한 후, 상기 시드 키워드, 추가 이슈 키워드, Ad-hoc 현안 키워드 중 적어도 하나의 토픽간 유사도 비교를 통해 현안 키워드를 도출할 수 있다.
상기 토픽 분석은 각 문서에 출현하는 용어들의 TF-IDF 값에 근거하여 이루어질 수 있다.
상기 토픽간 유사도 비교는 각 용어의 가중치를 유사도 분석에 반영한 WF-Score 척도를 이용할 수 있다.
상기 네트워크 구축 장치는 상기 추출된 현안 키워드와 R&D 키워드가 동시에 출현하는 문서들을 대상으로 기 정의된 현안 사전과 R&D 사전을 이용하여 분석 대상이 되는 현안 키워드와 R&D 키워드를 도출하고, 상기 도출된 현안 키워드 또는 R&D 키워드간의 연관규칙을 도출하며, 상기 도출된 연관규칙을 소셜 네트워크로 구축한 후, 상기 구축된 네트워크 내의 노드간 최단경로 거리 또는 최대경로 수를 기반으로 현안-R&D 키워드 대응 테이블을 도출할 수 있다.
상기 연관규칙은 현안 키워드 또는 R&D 키워드로 구성된 연관관계가 지지도 또는 신뢰도로 표현될 수 있다.
상기 패키징 장치는 표준 정보를 대상으로 현안 키워드에 대응하는 R&D 정보를 패키징, 가공 정보를 포함한 현안 키워드에 대응하는 R&D 정보를 패키징, 시장 정보를 활용한 연관 현안 키워드에 대응하는 R&D 정보를 패키징 중 적어도 하나의 방법으로 현안 키워드에 대응하는 R&D 정보를 패키징할 수 있다.
본 발명의 다른 측면에 따르면, 국가 현안 자료 또는 웹 미디어 데이터를 수집하는 수집부, 상기 수집된 국가 현안 자료를 대상으로 토픽 분석을 수행하여 시드 키워드를 추출하는 시드 키워드 선정부, 상기 웹 미디어 데이터를 Data-Driven 방식으로 분석하여 추가 이슈 키워드를 발굴하는 추가 이슈 키워드 발굴부, 특정 키워드를 임의의 위치에 삽입하는 Ad-hoc 현안 키워드 보강부, 상기 시드 키워드, 추가 이슈 키워드, Ad-hoc 현안 키워드 중 적어도 하나의 토픽간 유사도 비교를 통해 현안 키워드를 도출하는 현안 키워드 도출부를 포함하는 현안 키워드 추출 장치가 제공된다.
상기 토픽 분석은 각 문서에 출현하는 용어들의 TF-IDF 값에 근거하여 이루어질 수 있다.
상기 추가 이슈 키워드 발굴부는 웹 미디어 데이터를 대상으로 토픽 분석을 수행하여 키워드를 도출하고, 상기 도출된 키워드에 불용어 사전을 stop list로 적용하여 토픽 분석을 재수행하며, 토픽 분석 재수행을 통해 도출된 키워드를 추가 이슈 키워드로 발굴할 수 있다.
상기 현안 키워드 도출부는 각 키워드의 가중치를 유사도 분석에 반영한 WF-Score 척도를 이용하여 현안 키워드를 도출할 수 있다.
본 발명의 또 다른 측면에 따르면, 현안 키워드와 R&D 키워드가 동시에 출현하는 문서들을 대상으로 기 정의된 현안 사전과 R&D 사전을 이용하여 분석 대상이 되는 현안 키워드와 R&D 키워드를 추출하는 분석 대상 키워드 추출부, 상기 분석 대상 키워드 추출부에서 추출된 현안 키워드 또는 R&D 키워드로 구성된 연관관계가 지지도 또는 신뢰도로 표현되는 연관규칙을 도출하는 연관규칙 도출부, 상기 연관규칙 도출부에서 도출된 현안 키워드 및 R&D 키워드 간의 연관규칙을 소셜 네트워크로 구축하여 분석하는 네트워크 구축부, 상기 네트워크 구축부에서 구축된 네트워크 내의 노드간 최단경로 거리 또는 최대경로 수를 기반으로 현안-R&D 키워드 대응 테이블을 도출하여 현안 키워드와 R&D 키워드를 매핑하는 매핑부를 포함하는 네트워크 구축 장치가 제공된다.
상기 네트워크 구축부는 상기 네트워크 상에서 각 노드에 속성을 부여할 수 있다.
상기 매핑부는 상기 네트워크에서 주어진 조건을 만족시키는 현안 키워드와 R&D 키워드 간 대응 관계를 현안 키워드 중심으로 테이블로 도출하고, 상기 도출된 테이블로부터 각 현안별 주요 R&D 키워드를 선정할 수 있다.
본 발명의 또 다른 측면에 따르면, (a) 현안 키워드 추출 장치가 국가 현안 자료 또는 웹 미디어 데이터의 분석을 통해 현안 키워드를 추출하는 단계, (b) 네트워크 구축 장치가 상기 현안 키워드 추출 장치에서 추출된 현안 키워드와 R&D 키워드가 동시에 출현하는 문서들을 대상으로 기 정의된 현안 사전과 R&D 사전을 이용하여 분석 대상이 되는 현안 키워드와 R&D 키워드를 도출하고, 상기 도출된 현안 키워드와 R&D 키워드 간의 네트워크를 구축하는 단계, (c) 패키징 장치가 상기 현안 키워드 추출 장치에서 추출된 현안 키워드와 상기 네트워크 구축장치에서 구축된 네트워크를 이용하여 현안 키워드 또는 R&D 키워드에 대응하는 R&D 정보를 패키징하는 단계를 포함하는 현안 키워드 대응 R&D 정보 서비스 방법이 제공된다.
상기 (a) 단계는, 상기 국가 현안 자료를 대상으로 토픽 분석을 수행하여 시드 키워드를 추출하는 단계, 상기 웹 미디어 데이터를 Data-Driven 방식으로 분석하여 추가 이슈 키워드를 발굴하고, Ad-hoc 현안 키워드를 보강하는 단계, 상기 시드 키워드, 추가 이슈 키워드, Ad-hoc 현안 키워드 중 적어도 하나의 토픽간 유사도 비교를 통해 현안 키워드를 도출하는 단계를 포함할 수 있다.
상기 (b) 단계는, 상기 추출된 현안 키워드와 R&D 키워드가 동시에 출현하는 문서들을 대상으로 기 정의된 현안 사전과 R&D 사전을 이용하여 분석 대상이 되는 현안 키워드와 R&D 키워드를 도출하는 단계, 상기 도출된 현안 키워드 또는 R&D 키워드간의 연관규칙을 도출하는 단계, 상기 도출된 연관규칙을 소셜 네트워크로 구축하는 단계, 상기 구축된 네트워크 내의 노드간 최단경로 거리 또는 최대경로 수를 기반으로 현안-R&D 키워드 대응 테이블을 도출하는 단계를 포함할 수 있다.
상기 패키징 장치는 표준 정보를 대상으로 현안 키워드에 대응하는 R&D 정보를 패키징, 가공 정보를 포함한 현안 키워드에 대응하는 R&D 정보를 패키징, 시장 정보를 활용한 연관 현안 키워드에 대응하는 R&D 정보를 패키징 중 적어도 하나의 방법으로 현안 키워드에 대응하는 R&D 정보를 패키징할 수 있다.
본 발명의 또 다른 측면에 따르면, 현안 키워드 추출 장치가 현안 키워드 대응 R&D 정보 서비스를 위한 방법에 있어서, 국가 현안 자료 또는 웹 미디어 데이터를 수집하는 단계, 상기 수집된 국가 현안 자료를 대상으로 토픽 분석을 수행하여 시드 키워드를 추출하는 단계, 상기 웹 미디어 데이터를 Data-Driven 방식으로 분석하여 추가 이슈 키워드를 발굴하는 단계, 특정 키워드를 임의의 위치에 삽입하는 Ad-hoc 현안 키워드를 보강하는 단계, 상기 시드 키워드, 추가 이슈 키워드, Ad-hoc 현안 키워드 중 적어도 하나의 토픽간 유사도 비교를 통해 현안 키워드를 도출하는 단계를 포함하는 현안 키워드 대응 R&D 정보 서비스 방법이 제공된다.
상기 토픽 분석은 각 문서에 출현하는 용어들의 TF-IDF 값에 근거하여 이루어질 수 있다.
상기 웹 미디어 데이터를 Data-Driven 방식으로 분석하여 추가 이슈 키워드를 발굴하는 단계는, 상기 웹 미디어 데이터를 대상으로 토픽 분석을 수행하여 키워드를 도출하는 단계, 상기 도출된 키워드에 불용어 사전을 stop list로 적용하여 토픽 분석을 재수행하는 단계, 토픽 분석 재수행을 통해 도출된 키워드를 추가 이슈 키워드로 발굴하는 단계를 포함할 수 있다.
상기 현안 키워드는 각 키워드의 가중치를 유사도 분석에 반영한 WF-Score 척도를 이용하여 도출될 수 있다.
본 발명의 또 다른 측면에 따르면, 현안 키워드 추출 장치에 의해 실행될 때, 국가 현안 자료 또는 웹 미디어 데이터를 수집하는 단계, 상기 수집된 국가 현안 자료를 대상으로 토픽 분석을 수행하여 시드 키워드를 추출하는 단계, 상기 웹 미디어 데이터를 Data-Driven 방식으로 분석하여 추가 이슈 키워드를 발굴하는 단계, 특정 키워드를 임의의 위치에 삽입하는 Ad-hoc 현안 키워드를 보강하는 단계, 상기 시드 키워드, 추가 이슈 키워드, Ad-hoc 현안 키워드 중 적어도 하나의 토픽간 유사도 비교를 통해 현안 키워드를 도출하는 단계를 포함하는 현안 키워드 대응 R&D 정보 서비스 방법이 프로그램으로 기록된 전자장치에서 판독 가능한 기록매체가 제공된다.
본 발명의 또 다른 측면에 따르면, 네트워크 구축 장치가 현안 키워드 대응 R&D 정보 서비스를 위한 방법에 있어서, 현안 키워드와 R&D 키워드가 동시에 출현하는 문서들을 대상으로 기 정의된 현안 사전과 R&D 사전을 이용하여 분석 대상이 되는 현안 키워드와 R&D 키워드를 추출하는 단계, 상기 추출된 현안 키워드 또는 R&D 키워드로 구성된 연관관계가 지지도 또는 신뢰도로 표현되는 연관규칙을 도출하는 단계, 상기 도출된 현안 키워드 및 R&D 키워드 간의 연관규칙을 소셜 네트워크로 구축하여 분석하는 단계, 상기 구축된 네트워크 내의 노드간 최단경로 거리 또는 최대경로 수를 기반으로 현안-R&D 키워드 대응 테이블을 도출하여 현안 키워드와 R&D 키워드를 매핑하는 단계를 포함하는 현안 키워드 대응 R&D 정보 서비스 방법이 제공된다.
네트워크 구축 장치에 의해 실행될 때, 현안 키워드와 R&D 키워드가 동시에 출현하는 문서들을 대상으로 기 정의된 현안 사전과 R&D 사전을 이용하여 분석 대상이 되는 현안 키워드와 R&D 키워드를 추출하는 단계, 상기 추출된 현안 키워드 또는 R&D 키워드로 구성된 연관관계가 지지도 또는 신뢰도로 표현되는 연관규칙을 도출하는 단계, 상기 도출된 현안 키워드 및 R&D 키워드 간의 연관규칙을 소셜 네트워크로 구축하여 분석하는 단계, 상기 구축된 네트워크 내의 노드간 최단경로 거리 또는 최대경로 수를 기반으로 현안-R&D 키워드 대응 테이블을 도출하여 현안 키워드와 R&D 키워드를 매핑하는 단계를 포함하는 현안 키워드 대응 R&D 정보 서비스 방법이 프로그램으로 기록된 전자장치에서 판독 가능한 기록매체가 제공된다.
본 발명에 따르면, 국가 현안 자료 또는 웹 미디어 데이터 분석을 통해 발굴한 추가 이슈를 통합하여 통합 국가현안 키워드를 도출할 수 있다.
또한, 현안 키워드와 R&D 키워드의 대응 관계를 파악할 수 있으므로, 현안과 R&D키워드 관계뿐 아니라, 서로 이질적인 키워드 풀간의 대응관계 파악을 위한 유사 연구에서도 활용할 수 있다.
또한, 현안 키워드에 대응하는 패키지 대상 정보를 식별하고, 패키지 대상 범위를 확대·제공함으로써, 특정 현안과 관련하여 익숙하지 않은 R&D 문서를 검색하고자 하는 사용자에게 다양한 R&D 자료를 효과적으로 패키징하여 제공해 줄 수 있다.
또한, 국가현안 주제를 효과적이고 체계적으로 선정하기 위한 현안관련 키워드 도출 방법론을 수립하고, 이렇게 도출된 국가현안 키워드를 기반으로 국가현안에 대응되는 R&D 정보를 패키징할 수 있다.
또한, 서로 다른 용어를 사용하는 현안 키워드 풀과 R&D 키워드 풀의 이질성을 극복할 수 있고, 현재 제공되는 각종 R&D 서비스를 통해 원하는 자료를 획득할 수 있다.
또한, 특정 현안과 직/간접적으로 관련이 있는 R&D 자료를 제공하는 서비스의 품질을 획기적으로 개선시킬 수 있다. 즉, R&D 정보 서비스 기관의 시스템에 적용함으로써, 특정 분야의 전문가가 아닌 일반 사용자도 관심 현안에 대한 R&D 정보를 쉽게 획득할 수 있다.
또한, 텍스트 마이닝, 연관관계 분석, 소셜 네트워크 분석 기법에 대한 긍정적 인식을 확산시킴으로써 해당 방법론을 통해 다양한 문제를 해결하기 위한 관심과 투자를 더욱 증대시킬 수 있다.
도 1은 본 발명의 실시예에 따른 현안 키워드 대응 R&D 정보 서비스 시스템을 나타낸 도면.
도 2는 본 발명의 실시예에 따른 현안 키워드 추출 장치의 구성을 개략적으로 나타낸 블럭도.
도 3은 본 발명의 실시예에 따른 네트워크 구축 장치의 구성을 개략적으로 나타낸 블럭도.
도 4는 본 발명의 실시예에 따른 현안 키워드 대응 R&D 정보 서비스 방법을 나타낸 도면.
도 5는 본 발명의 실시예에 따른 현안 키워드 추출 장치가 현안 키워드를 추출하는 방법을 나타낸 흐름도.
도 6은 본 발명의 실시예에 따른 네트워크 구축 장치가 키워드간의 네트워크를 구축하는 방법을 나타낸 흐름도.
본 발명의 전술한 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하 상세한 설명에 의해 보다 명확하게 이해될 것이다.
이하에 기재된 '현안'은 정책입안자가 정한 정책 및 각종 연구소의 정책보고서, 그리고 언론, 소셜 미디어 등에서 거론되는 정치, 경제, 사회문화적 이슈까지 포함한 광범위한 내용을 의미한다. '현안 키워드'는 하나의 현안 주제를 구성하고 있는 핵심 용어들을 의미한다. 'R&D(Research and Development)'정보는 국가연구기관 및 민간연구소에서 이루어지는 연구개발 활동과 관련된 모든 자료를 의미하며, 'R&D 키워드'는 R&D 자료에 명시된 핵심어 항목을 의미하는 좁은 의미로 사용된다.
도 1은 본 발명의 실시예에 따른 현안 키워드 대응 R&D 정보 서비스 시스템을 나타낸 도면이다.
도 1을 참조하면, 현안 키워드 대응 R&D 정보 서비스 시스템은 문서 서비스 장치(100), 현안 키워드 추출 장치(200), 네트워크 구축 장치(300), 패키징 장치(400)를 포함한다.
문서 서비스 장치(100)는 국가 현안 자료, 웹 미디어 데이터 등이 저장되어 있다. 여기서, 국가 현안 자료는 정책 홍보를 위한 간행물, 연구논문, 보고서, 국정 관련 문서 등 문서로 기록되는 산출물일 수 있다. 웹 미디어 데이터는 실시간으로 대량의 정보가 생산되는 포털 사이트의 뉴스, 다수의 사람들의 의견이 오고 가는 인터넷 토론방, 학계 및 업계 전문가의 연구보고서, 풍부한 정보와 의견이 실시간으로 업데이트 되는 소셜 데이터 등을 포함할 수 있다.
현안 키워드 추출 장치(200)는 문서 서비스 장치(100)에 저장된 국가 현안 자료 또는 웹 미디어 데이터의 분석을 통해 현안 키워드를 추출한다.
즉, 현안 키워드 추출 장치(200)는 공신력 있는 국가현안 기준 자료를 기반으로 국가 현안 주제를 선정하고, 각 주제와 관련된 Seed 현안 키워드를 추출한다. 그러나, 국가 현안 기준 자료는 문서의 특성상 수시로 발간되기 어렵기 때문에 시의성이 다소 떨어지며, 현안 주제의 설명이 너무 광범위하고 포괄적인 단어 위주로 이루어진다는 점에서 구체적인 현안 키워드를 모두 포함하지 못하고 있다는 한계가 있다. 따라서 이러한 한계를 극복하기 위해 현안 키워드 추출 장치(200)는 국가 현안 기준 자료를 기본으로 하되, 각종 뉴스, 부처별 어젠다, 소셜 데이터 등 대량의 텍스트 문서를 활용한 Data-Driven 방식으로 현안 키워드를 추가 보강한다. 즉, 현안 키워드 추출 장치(200)는 뉴스, 컬럼, 토론, 정책 자료 등 다양한 시장 정보에 대한 분석을 통해 현안 키워드를 추가 발굴하여 이미 추출된 Seed 키워드와 통합한다.
현안 키워드 추출 장치(200)는 추가 키워드를 발굴하기 위해 실시간으로 대량의 정보가 생산되는 포털 사이트의 뉴스, 다수의 사람들의 의견이 오고 가는 인터넷 토론방, 학계 및 업계 전문가의 연구보고서, 풍부한 정보와 의견이 실시간으로 업데이트 되는 소셜 데이터 등을 대상으로 추가 키워드를 발굴한다. 이때, 현안 키워드 추출 장치(200)는 추가 이슈 키워드 발굴을 위한 대상 자료의 활용성 분석을 위해 수집 대상이 되는 자료들을 출처와 형식에 따라 구분하고, 대상 자료는 그 출처에 따라 정책 자료, 뉴스, 토론, 컬럼으로 구분되며, 형식에 따라 HTML, PDF, HWP/DOC, TEXT의 각각 4가지 경우로 구분된다. 현안 키워드 추출 장치(200)는 HTML자료의 경우 웹 크롤러를 활용하여 엑셀 파일 형태로 수집하고, PDF자료의 경우 NPDF 툴을 활용하여 텍스트 파일 형태로 수집한다. 현안 키워드 추출 장치(200)는 이렇게 수집된 HTML, PDF자료와 함께 HWP/DOC, TEXT자료는 모두 엑셀 VBA를 활용하여 텍스트 분석에 용이한 데이터로 변환하여 취합하고, 취합된 데이터를 분석하여 추가 이슈 키워드를 발굴한다.
이러한 현안 키워드 추출 장치(200)에 대한 상세한 설명은 도 2를 참조하기로 한다.
네트워크 구축 장치(300)는 현안 키워드 추출 장치(200)에서 추출된 현안 키워드와 R&D 키워드가 동시에 출현하는 문서들을 대상으로 기 정의된 현안 사전과 R&D 사전을 이용하여 분석 대상이 되는 현안 키워드와 R&D 키워드를 도출하고, 도출된 현안 키워드와 R&D 키워드 간의 네트워크를 구축한다.
네트워크 구축 장치(300)에 대한 상세한 설명은 도 3을 참조하기로 한다.
패키징 장치(400)는 현안 키워드 추출 장치(200)에서 추출된 현안 키워드와 네트워크 구축장치(300)에서 구축된 네트워크를 이용하여 현안 키워드 또는 R&D 키워드에 대응하는 R&D 정보를 패키징한다. 이때, 패키징 장치(400)는 표준 정보를 대상으로 현안 키워드에 대응하는 R&D 정보를 패키징, 가공 정보를 포함한 현안 키워드에 대응하는 R&D 정보를 패키징, 시장 정보를 활용한 연관 현안 키워드에 대응하는 R&D 정보를 패키징 등을 수행한다.
패키징 장치(400)는 현재 상태 그대로 적용할 수 있는 R&D 자료를 1단계 정보로, 간단한 가공 후 확장 적용할 수 있는 R&D 자료를 2단계 정보로, SNS, 뉴스, 인터넷 게시물 등 다양한 시장 정보를 3단계 정보로 패키지에 포함시킨다. 이 과정에서는 검색어로 주어진 현안 키워드를 확장하여 연관 현안 키워드를 발굴하게 되며, 최초 키워드뿐 아니라 연관 현안 키워드를 함께 검색함으로써 더욱 폭넓은 시장정보를 획득할 수 있게 된다. 여기서 연관 현안 키워드라 함은 R&D 관점에서의 연관 키워드를 의미한다.
현안 키워드에 대응하는 R&D 정보를 패키징하기 위한 로드맵은 총 3단계로 구성된다. 1단계는 표준정보 대상의 현안 대응 R&D 패키지 식별, 2단계는 가공정보를 포함한 현안 대응 R&D 패키지 확대, 3단계는 시장정보를 활용한 유관 현안 패키지 제공으로 이루어진다.
1단계에서는 키워드가 명시적으로 관리되어 즉시 적용 가능한 자료를 표준 정보로 하여 분석한다. 예컨대, 연구 보고서는 키워드와 초록에 대한 체계적 관리가 이루어지고 있으므로, 즉시 적용이 가능하다.
2단계에서는 자료의 유형별로 키워드, 제목, 요약 정보의 도출이 가능한 자료와 이의 도출이 불가능한 자료로 분류 작업을 수행하고, 현재 상태로 즉시 활용할 수 있는 속성, 관련 자료와의 연결 및 가공을 통해 생성할 수 있는 속성을 가진 자료를 분석한다. 여기에는 논문, 특허, 과제정보 등을 포함할 수 있다.
3단계에서, 현재 제공되고 있는 대부분의 연관 키워드 제공 서비스는 특정 키워드와 한 문서에서 동시 출현하는 빈도수가 높은 키워드를 연관 키워드로 제시하는 방식으로 이루어지고 있다. 즉 두 용어의 연관성은 두 용어가 동시에 출현한 빈도수에 기반을 두고 측정되는 것이다. 예를 들어 다양한 뉴스 기사 중 '실버'라는 용어와 '위생'이라는 용어가 동시에 자주 출현했다면, 이 두 현안은 서로 연관 키워드로 파악된다. 하지만 현안 키워드만으로 구성된 네트워크가 아닌, 현안과 R&D 키워드로 구성된 네트워크에 대한 분석 결과는 이와 다르게 나타날 수 있다.
따라서, 패키징 장치(400)는 구조적 등위성을 활용함으로써, 사용자가 입력한 특정 현안 키워드와 유사한 R&D 정보를 공유하는 연관 현안을 발굴할 수 있다. 사용자가 입력한 현안 키워드 외에 연관 키워드를 추가하여 시장정보를 검색함으로써, 타 현안 분야에 축적된 R&D 정보를 보다 효율적으로 공유하고 재사용할 수 있다.
여기에서는 현안 키워드 추출 장치(200), 네트워크 구축 장치(300), 패키징 장치(400)를 별개의 장치로 하여 설명하였으나, 현안 키워드 추출 장치(200), 네트워크 구축 장치(300), 패키징 장치(400)는 하나의 장치로 구성될 수 있다.
도 2는 본 발명의 실시예에 따른 현안 키워드 추출 장치의 구성을 개략적으로 나타낸 블럭도이다.
도 2를 참조하면, 현안 키워드 추출 장치(200)는 수집부(210), 시드 키워드 선정부(220), 추가 이슈 키워드 발굴부(230), Ad-hoc 현안 키워드 보강부(240), 현안 키워드 도출부(250)를 포함한다.
수집부(210)는 국가 현안 자료 또는 웹 미디어 데이터를 수집한다. 이때, 수집부(210)는 HTML자료의 경우 웹 크롤러를 활용하여 엑셀 파일 형태로 수집하고, PDF자료의 경우 NPDF 툴을 활용하여 텍스트 파일 형태로 수집한다. 그런 후, 수집부(210)는 수집된 HTML, PDF자료와 함께 HWP/DOC, TEXT자료는 모두 엑셀 VBA를 활용하여 텍스트 분석에 용이한 데이터로 변환하여 취합한다.
시드 키워드 선정부(220)는 수집부(210)에서 수집된 자료중에서 국가 현안 자료를 대상으로 토픽 분석을 수행하여 시드 키워드를 추출한다. 여기서, 토픽 분석은 각 문서에 출현한 용어들의 TF-IDF 값에 근거하여 이루어진다. 각 토픽은 문서의 주제 형성에 기여도가 높은 키워드들의 집합으로 구성되는데, 하나의 토픽은 여러 키워드로 구성되고, 하나의 토픽에 대응되는 문서는 여러 개 존재할 수 있다. 또한 각 문서는 여러 토픽에 연관될 수 있다. 하나의 현안이 복수의 토픽과 연관될 경우, 해당 현안 주제의 키워드는 연관된 복수 토픽을 구성하는 모든 키워드의 합집합으로 구성된다.
시드 키워드 선정부(220)는 국가 현안 자료를 대상으로 토픽 분석을 수행하여 Seed 키워드를 추출하고, 그 결과를 전문가가 검토하여 수정 및 보완하는 Semi-Automatic 접근법을 사용하여 최종 시드 키워드를 추출할 수 있다. 여기서, 키워드의 수정 및 보완은 불용어 사전에 미포함된 어휘의 추가 적용, 추후 키워드 매핑을 위한 복합명사 분리, 분명한 현안 키워드임에도 불구하고 통계적으로 유의하지 못해 누락된 키워드들을 직접 삽입하는 등의 형식으로 이루어진다.
추가 이슈 키워드 발굴부(230)는 웹 미디어 데이터를 Data-Driven 방식으로 분석하여 추가 이슈 키워드를 발굴한다. 추가 이슈 키워드 발굴을 위한 대상 자료는 출처별로 활용도가 높은 정책 자료, 뉴스, 토론, 컬럼의 자료 등 다양할 수 있다.
추가 이슈 키워드 발굴부(230)는 수집부(210)에서 수집된 자료 중에서 웹 미디어 데이터를 대상으로 토픽 분석을 수행하여 추가 이슈 키워드를 발굴한다.
토픽 분석은 총 4단계의 과정으로 진행된다. 우선 1단계에서 분석이 가능한 형태로 전처리된 텍스트 데이터를 입력으로 받고, 2단계에서 텍스트 데이터를 각각의 토큰(Token)으로 분리하는 파싱을 수행한다. 3단계에서는 파싱된 키워드를 특정 조건에 따라 필터링하며, 마지막 4단계에서 각 키워드의 출현 패턴에 따라 주요 토픽을 구성하고 토픽 구성 어휘를 발굴한다. 토픽 분석은 주로 TF-IDF 가중치에 근거하여 수행된다. TF-IDF는 한 문서 안에 출현하는 단어의 중요도를 산술적인 수치로 계량화하여 나타내는 방법이다. 여기서 TF란 문서 내 특정 단어가 얼마나 출현했는지를 나타내는 수치이며, IDF는 문서 내 추출된 용어의 중요도를 나타내는 수치이다. 이들 각각은 수학식 1에 의해 계산되며, 수학식1에서 d와 t는 각각 특정 문서와 용어를, |d|는 전체 문서의 수를 |dt|는 용어 t를 포함하는 문서의 수를 나타낸다.
Figure 112013108582530-pat00001
여기서,
Figure 112013108582530-pat00002
,
Figure 112013108582530-pat00003
를 이용하여 구할 수 있다.
토픽 분석을 통해 키워드가 도출되면, 추가 이슈 키워드 발굴부(230)는 토픽 분석을 통해 도출된 키워드에 불용어 사전을 stop list로 적용하여 토픽 분석을 재수행한다. 즉, 토픽 분석을 통해 도출된 키워드에는 접두사, 접미사, 단일 음절 등이 많이 포함되어 있으므로, 추가 이슈 키워드 발굴부(230)는 불용어 사전을 Stop List로 적용하여 토픽 분석을 재수행하고, 토픽 분석 재수행을 통해 도출된 키워드를 최종 추가 이슈 키워드로 도출한다.
Ad-hoc 현안 키워드 보강부(240)는 특정 키워드를 임의의 위치에 삽입한다.
현안 주제 및 Seed 키워드를 선정하고, 추가로 Data-Driven 방식을 통해 추가 이슈 키워드를 발굴했다고 해도 여전히 한계가 존재한다. 이는 중요한 키워드임에도 불구하고 분석 대상 자료에 노출된 빈도가 높지 않아서 결과에 누락된 주요 현안 키워드가 존재할 수 있기 때문이다. 또한 Data-Driven 방식의 추가 이슈 키워드 발굴의 경우 분석 과정에서 일정 시간이 소요될 것으로 예상되기 때문에, 사회적 이슈에 대한 실시간 반영이 어렵다는 한계가 있다. 이러한 한계를 극복하기 위한 장치가 Ad-hoc 현안 키워드 보강이다.
예를 들면 매우 중요한 현안이지만 이슈가 된 지 충분한 시간이 지나지 않아서 관련 뉴스가 많지 않은 경우, 그리고 다양한 과정을 통해 발견한 미래 현안 키워드 등을 분석에 활용하고 싶을 경우 이는 Ad-hoc 현안 키워드 보강을 통해 이루어진다. 이 과정은 데이터 분석이 아닌 사람의 개입으로 이루어지며, 특정 키워드를 임의의 위치에 삽입하는 방식으로 수행된다. 이 과정은 Data-Driven 분석을 통한 추가 이슈 키워드 보강이 실시간으로 이루어지지 않는 한계를 보완하기 위한 과정이다. 즉 Ad-hoc 현안 키워드 보강은 다분히 임시적인 보완의 성격을 가지며, 궁극적으로는 Data-Driven 방식의 추가 이슈 키워드 발굴의 분석 주기를 매우 짧게 가져감으로써 본 과정을 축소할 수 있다.
현안 키워드 도출부(250)는 시드 키워드, 추가 이슈 키워드, Ad-hoc 현안 키워드 중 적어도 하나의 토픽간 유사도 비교를 통해 현안 키워드를 도출한다.
현안 키워드 도출부(250)는 시드 키워드, 추가 이슈 키워드, Ad-hoc 현안 키워드들을 통합하여 최종적으로 현안 키워드를 도출한다. 현안 키워드 통합을 위해서는 특정 이슈가 어떤 현안과 유사한지에 대한 판단이 이루어져야 하며, 이는 이슈와 현안 간의 유사도 계산의 문제로 귀결된다.
따라서, 현안 키워드 도출부(250)는 각 키워드가 해당 이슈에서 차지하는 기여도를 감안한 WF-Score (Weighted F-Score) 척도를 이용하여 현안 키워드를 도출한다. WF-Score의 산출식은 수학식 2와 같다.
Figure 112013108582530-pat00004
여기서, C는 일치한 키워드의 수를 나타내며, mi는 각 키워드가 해당 이슈 내에서 갖는 기여도, 즉 용어가중치 값을 의미한다. 용어가중치는 기본적으로 TF-IDF에 의해 계산된다. WF-Score는 각 용어의 가중치를 유사도 분석에 반영함으로써, 기존의 척도가 갖는 단순한 일치 키워드 수 기반 통합의 한계를 극복할 수 있다.
도 3은 본 발명의 실시예에 따른 네트워크 구축 장치의 구성을 개략적으로 나타낸 블럭도이다.
도 3을 참조하면, 네트워크 구축 장치(300)는 분석 대상 키워드 추출부(310), 연관규칙 도출부(320), 네트워크 구축부(330), 매핑부(340)를 포함한다.
분석 대상 키워드 추출부(310)는 현안 키워드와 R&D 키워드가 동시에 출현하는 문서들을 대상으로 기 정의된 현안 사전과 R&D 사전을 이용하여 분석 대상이 되는 현안 키워드와 R&D 키워드를 도출한다. 즉, 현안 키워드와 R&D 키워드 간 연관관계를 분석하기 위해서는 한 문서 내에 현안 키워드와 R&D 키워드가 동시에 출현하는 문서의 수집이 선행되어야 한다. 현안 사전은 통합 국가현안 키워드의 집합을 목록화하여 구축한 사전이고, R&D 사전은 전문학술지 또는 과학기술 특허 등의 자료에 명시된 R&D 키워드를 식별하여 R&D 키워드 집합을 추출한 후 목록화하여 구축한 사전일 수 있다.
분석 대상 키워드 추출부(310)는 현안 사전과 R&D 사전을 이용하여 분석대상이 되는 현안 키워드 및 R&D 키워드만을 남기고 문서 내의 다른 용어들을 제거함으로써 이후 수행할 연관관계 분석에 적합한 키워드 집합을 도출한다. 분석 대상 키워드 추출부(310)는 현안 사전과 R&D 사전에 등록된 어휘의 합집합을 키워드 추출 과정에서 Start List로 적용함으로써, 현안 키워드 및 R&D 키워드만으로 구성된 파싱 결과를 얻을 수 있다.
연관규칙 도출부(320)는 분석 대상 키워드 추출부(310)에서 추출된 현안 키워드 또는 R&D 키워드로 구성된 연관관계가 지지도 또는 신뢰도로 표현되는 연관규칙을 도출한다. 여기서 연관규칙은 현안 키워드-현안 키워드, 현안 키워드-R&D 키워드, R&D 키워드-R&D 키워드 등의 유형, 지지도 또는 신뢰도를 포함할 수 있다.
문서에 대한 연관관계 분석을 통해 도출된 연관규칙은 지지도와 신뢰도로 표현될 수 있다. 키워드 사이의 연관관계는 지지도와 신뢰도로 표현되며, 지지도에 기반을 둔 연관규칙은 '전체 문서 중에서 키워드 A와 키워드 B가 발생할 확률은 xx%이다'와 같은 형태, 신뢰도에 기반을 둔 연관규칙은 '키워드 A가 발생했을 때 키워드 B가 발생할 확률이 xx%이다'와 같은 형태로 기술된다.
연관규칙의 각 항목은 현안 키워드 또는 R&D 키워드로 구성되고, 모든 유형의 연관관계는 소셜 네트워크 분석의 입력 값으로 사용된다. 연관규칙에 포함된 현안 키워드 및 R&D 키워드는 노드로, 연관규칙의 지지도 값은 노드간 라인 가중치로 사용된다.
네트워크 구축부(330)는 현안 키워드 및 R&D 키워드 간의 연관규칙을 소셜 네트워크로 구축하여 분석한다.
연관규칙 도출부(320)에서 도출한 현안 키워드 및 R&D 키워드 간 연관규칙 집합을 통해 각 현안 키워드에 대응되는 R&D 키워드를 식별할 수 있으나, 이는 현안 키워드와 R&D 키워드 간의 직접적인 연관성을 갖는 대응 관계만을 식별한 것으로, 다른 매개 키워드를 통한 간접적이지만 강한 연관성을 갖는 대응 관계를 파악하지 못한다는 한계를 갖는다. 이러한 한계를 극복하고 보다 확장된 대응관계를 파악하기 위해, 네트워크 구축부(330)는 파악된 연관규칙을 소셜 네트워크로 구축하여 보다 다층적인 분석을 실시한다.
네트워크 구축부(330)는 특정 현안과 관련된 R&D 키워드 간의 연결성을 분석하기 위해 지지도를 기반으로 한 무방향 키워드 네트워크를 구축하고, 네트워크 상에서 각 노드가 현안 키워드를 의미하는지, 아니면 R&D 키워드를 의미하는지 속성을 부여한다. 현안 키워드 대응 R&D 키워드를 식별하기 위해서는 각 노드의 속성을 '현안', 'R&D', 또는 '현안 + R&D'로 부여하는 작업이 필요하다.
매핑부(340)는 네트워크 구축부(330)에서 구축된 네트워크 내의 노드간 최단경로 거리또는 최대경로 수를 기반으로 현안-R&D 키워드 대응 테이블을 도출하여 현안 키워드와 R&D 키워드를 매핑한다.
네트워크 내의 두 노드 사이에는 무수히 많은 연결 경로가 존재할 수 있으며, 어떠한 관점에서 접근하느냐에 따라 노드간의 연결 강도를 상이하게 해석할 수 있다. 거리에 기반을 둔 분석인 경우, 두 노드 사이의 최단경로가 짧을수록 해당 노드들이 서로 강한 연결 관계를 갖는 것으로 해석되며, 최대경로 수 기반의 분석인 경우 두 노드를 연결해주는 경로의 수가 많을수록 해당 노드들이 더욱 신뢰성 있는 연결 관계를 갖는 것으로 해석된다. 매핑부(340)는 이러한 두 가지 관점을 모두 반영하여, 각 현안과 밀접한 연관성을 갖는 R&D 키워드 매핑 테이블을 도출한다.
매핑부(340)는 네트워크에서 주어진 조건을 만족시키는 현안 키워드와 R&D 키워드 간 대응 관계를 현안 키워드 중심으로 테이블로 도출한다. 여기서, 조건은 최대 경로 수에 대한 임계치 또는 최단 경로 거리에 대한 임계치일 수 있다. 테이블이 도출되면, 매핑부(340)는 그 테이블로부터 각 현안별 주요 R&D 키워드를 선정한다. 이 과정은 임계치 이상의 최대경로 수를 갖는 두 노드 쌍을 최단경로 거리가 짧은 순으로 선택함으로써 이루어진다.
도 4는 본 발명의 실시예에 따른 현안 키워드 대응 R&D 정보 서비스 방법을 나타낸 도면이다.
도 4를 참조하면, 현안 키워드 추출 장치는 국가 현안 자료 또는 웹 미디어 데이터의 분석을 통해 현안 키워드를 추출한다(S402). 현안 키워드 추출 장치가 현안 키워드를 추출하는 방법에 대한 상세한 설명은 도 5를 참조하기로 한다.
그러면, 네트워크 구축 장치는 현안 키워드 추출 장치에서 추출된 현안 키워드와 R&D 키워드가 동시에 출현하는 문서들을 대상으로 기 정의된 현안 사전과 R&D 사전을 이용하여 분석 대상이 되는 현안 키워드와 R&D 키워드를 도출하고, 상기 도출된 현안 키워드와 R&D 키워드 간의 네트워크를 구축한다(S404). 네트워크 구축 장치가 네트워크를 구축하는 방법에 대한 상세한 설명은 도 6을 참조하기로 한다.
네트워크가 구축되면, 패키징 장치는 현안 키워드 또는 R&D 키워드에 대응하는 R&D 정보를 패키징한다(S406). 이때, 패키징 장치는 표준 정보를 대상으로 현안 키워드에 대응하는 R&D 정보를 패키징, 가공 정보를 포함한 현안 키워드에 대응하는 R&D 정보를 패키징, 시장 정보를 활용한 연관 현안 키워드에 대응하는 R&D 정보를 패키징 중 적어도 하나의 방법으로 현안 키워드에 대응하는 R&D 정보를 패키징할 수 있다.
도 5는 본 발명의 실시예에 따른 현안 키워드 추출 장치가 현안 키워드를 추출하는 방법을 나타낸 흐름도이다.
도 5를 참조하면, 현안 키워드 추출 장치는 국가 현안 자료 또는 웹 미디어 데이터를 수집하고(S502), 수집된 국가 현안 자료를 대상으로 토픽 분석을 수행하여 시드 키워드를 추출한다(S504).
현안 키워드 추출 장치는 웹 미디어 데이터를 Data-Driven 방식으로 분석하여 추가 이슈 키워드를 발굴하고(S506), 특정 키워드를 임의의 위치에 삽입하는 Ad-hoc 현안 키워드를 보강한다(S508). 이때, 현안 키워드 추출 장치는 웹 미디어 데이터를 대상으로 토픽 분석을 수행하여 키워드를 도출하고, 도출된 키워드에 불용어 사전을 stop list로 적용하여 토픽 분석을 재수행하며, 토픽 분석 재수행을 통해 도출된 키워드를 추가 이슈 키워드로 발굴할 수 있다.
그런 후, 현안 키워드 추출 장치는 시드 키워드, 추가 이슈 키워드, Ad-hoc 현안 키워드 중 적어도 하나의 토픽간 유사도 비교를 통해 현안 키워드를 도출한다(S510).
도 6은 본 발명의 실시예에 따른 네트워크 구축 장치가 키워드간의 네트워크를 구축하는 방법을 나타낸 흐름도이다.
도 6을 참조하면, 네트워크 구축 장치는 현안 키워드와 R&D 키워드가 동시에 출현하는 문서들을 대상으로 기 정의된 현안 사전과 R&D 사전을 이용하여 분석 대상이 되는 현안 키워드와 R&D 키워드를 추출한다(S602).
그런 후, 네트워크 구축 장치는 추출된 현안 키워드 또는 R&D 키워드로 구성된 연관관계가 지지도 또는 신뢰도로 표현되는 연관규칙을 도출한다(S604).
네트워크 구축 장치는 현안 키워드 및 R&D 키워드 간의 연관규칙을 소셜 네트워크로 구축하여 분석한다(S606).
네트워크 구축 장치는 상기 구축된 네트워크 내의 노드간 최단경로 거리 또는 최대경로 수를 기반으로 현안-R&D 키워드 대응 테이블을 도출하여 현안 키워드와 R&D 키워드를 매핑한다(S608).
한편, 본 발명의 다른 측면에 따르면, 현안 키워드 추출 장치에 의해 실행될 때, 국가 현안 자료 또는 웹 미디어 데이터를 수집하는 단계, 상기 수집된 국가 현안 자료를 대상으로 토픽 분석을 수행하여 시드 키워드를 추출하는 단계, 상기 웹 미디어 데이터를 Data-Driven 방식으로 분석하여 추가 이슈 키워드를 발굴하는 단계, 특정 키워드를 임의의 위치에 삽입하는 Ad-hoc 현안 키워드를 보강하는 단계, 상기 시드 키워드, 추가 이슈 키워드, Ad-hoc 현안 키워드 중 적어도 하나의 토픽간 유사도 비교를 통해 현안 키워드를 도출하는 단계를 포함하는 현안 키워드 대응 R&D 정보 서비스 방법이 프로그램으로 기록된 전자장치에서 판독 가능한 기록매체가 제공된다.
본 발명의 또 다른 측면에 따르면, 네트워크 구축 장치에 의해 실행될 때, 현안 키워드와 R&D 키워드가 동시에 출현하는 문서들을 대상으로 기 정의된 현안 사전과 R&D 사전을 이용하여 분석 대상이 되는 현안 키워드와 R&D 키워드를 추출하는 단계, 상기 추출된 현안 키워드 또는 R&D 키워드로 구성된 연관관계가 지지도 또는 신뢰도로 표현되는 연관규칙을 도출하는 단계, 상기 도출된 현안 키워드 및 R&D 키워드 간의 연관규칙을 소셜 네트워크로 구축하여 분석하는 단계, 상기 구축된 네트워크 내의 노드간 최단경로 거리 또는 최대경로 수를 기반으로 현안-R&D 키워드 대응 테이블을 도출하여 현안 키워드와 R&D 키워드를 매핑하는 단계를 포함하는 현안 키워드 대응 R&D 정보 서비스 방법이 프로그램으로 기록된 전자장치에서 판독 가능한 기록매체가 제공된다.
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100 : 문서 서비스 장치 200 : 현안 키워드 추출 장치
210 : 수집부 220 : 시드 키워드 선정부
230 : 추가 이슈 키워드 발굴부 240 : Ad-hoc 현안 키워드 보강부
250 : 현안 키워드 도출부 300 : 네트워크 구축 장치
310 : 분석 대상 키워드 추출부 320 : 연관규칙 도출부
330 : 네트워크 구축부 340 : 매핑부
400 : 패키징 장치

Claims (25)

  1. 국가 현안 자료 또는 웹 미디어 데이터의 분석을 통해 현안 키워드를 추출하는 현안 키워드 추출 장치;
    상기 현안 키워드 추출 장치에서 추출된 현안 키워드를 포함하는 문서와 R&D(Research and Development) 정보를 분석하여 기 정의된 현안 사전에 등록된 현안 키워드와 기 정의된 R&D 사전에 등록된 R&D 키워드가 동시에 출현하는 문서를 선별하고, 상기 선별된 각 문서에서 동시에 출현하는 현안 키워드와 R&D 키워드를 분석 대상 키워드로 도출하며, 상기 분석 대상 키워드로 도출된 현안 키워드와 R&D 키워드 간의 네트워크를 구축하고, 상기 구축된 네트워크 내의 노드간 최단경로 거리 또는 최대경로 수를 기반으로 현안-R&D 키워드 대응 테이블을 도출하는 네트워크 구축 장치; 및
    상기 현안-R&D 키워드 대응 테이블에서 각 현안 키워드에 대응하는 R&D 키워드를 각각 확인하고, 상기 확인된 R&D 키워드를 포함하는 R&D 정보를 해당 현안 키워드에 대응하는 R&D 정보로 패키징하는 패키징 장치;
    를 포함하는 현안 키워드 대응 R&D 정보 서비스 시스템.
  2. 제1항에 있어서,
    상기 현안 키워드 추출 장치는 국가 현안 자료를 대상으로 토픽 분석을 수행하여 시드 키워드를 추출하고, 웹 미디어 데이터를 데이터-드라이브(Data-Driven) 방식으로 분석하여 추가 이슈 키워드를 발굴하며, 애드 혹(Ad-hoc) 현안 키워드를 보강한 후, 상기 시드 키워드, 추가 이슈 키워드, 애드 혹 현안 키워드 중 적어도 하나의 토픽간 유사도 비교를 통해 현안 키워드를 도출하는 것을 특징으로 하는 현안 키워드 대응 R&D 정보 서비스 시스템.
  3. 제2항에 있어서,
    상기 토픽 분석은 각 문서에 출현하는 용어들의 단어 빈도-역문서 빈도(TF-IDF, Term Frequency-Inverse Document Frequency)값에 근거하여 이루어지는 것을 특징으로 하는 현안 키워드 대응 R&D 정보 서비스 시스템.
  4. 제2항에 있어서,
    상기 토픽간 유사도 비교는 각 용어의 가중치를 유사도 분석에 반영한 가중치반영 F점수(WF-Score) 척도를 이용하는 것을 특징으로 하는 현안 키워드 대응 R&D 정보 서비스 시스템.
  5. 제1항에 있어서,
    상기 네트워크 구축 장치는 상기 분석 대상 키워드로 도출된 현안 키워드 간, 현안 키워드와 R&D 키워드 간, R&D 키워드 간 중 적어도 하나에 대한 연관규칙을 도출하며, 상기 도출된 연관규칙을 소셜 네트워크로 구축한 후, 상기 구축된 네트워크 내의 노드간 최단경로 거리 또는 최대경로 수를 기반으로 현안-R&D 키워드 대응 테이블을 도출하는 것을 특징으로 하는 현안 키워드 대응 R&D 정보 서비스 시스템.
  6. 제5항에 있어서,
    상기 연관규칙은 현안 키워드 간, 현안 키워드와 R&D 키워드 간, R&D 키워드 간 중 적어도 하나에 대한 지지도 또는 신뢰도로 표현되는 것을 특징으로 하는 현안 키워드 대응 R&D 정보 서비스 시스템.
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 국가 현안 자료, 웹 미디어 데이터, R&D 정보 중 적어도 하나의 문서를 분석하여 기 정의된 현안 사전에 등록된 현안 키워드와 기 정의된 R&D 사전에 등록된 R&D 키워드가 동시에 출현하는 문서를 선별하고, 상기 선별된 각 문서에서 동시에 출현하는 현안 키워드와 R&D 키워드를 분석 대상 키워드로 추출하는 분석 대상 키워드 추출부;
    상기 분석 대상 키워드 추출부에서 분석 대상 키워드로 추출된 현안 키워드 간, 현안 키워드와 R&D 키워드 간, R&D 키워드 간 중 적어도 하나에 대한 지지도 또는 신뢰도로 표현되는 연관규칙을 도출하는 연관규칙 도출부;
    상기 연관규칙 도출부에서 도출된 연관규칙을 소셜 네트워크로 구축하여 분석하는 네트워크 구축부; 및
    상기 네트워크 구축부에서 구축된 네트워크 내의 노드간 최단경로 거리 또는 최대경로 수를 기반으로 현안-R&D 키워드 대응 테이블을 도출하여 현안 키워드와 R&D 키워드를 매핑하는 매핑부;
    를 포함하는 네트워크 구축 장치.
  13. 제12항에 있어서,
    상기 네트워크 구축부는 상기 네트워크 상에서 각 노드에 속성을 부여하는 것을 특징으로 하는 네트워크 구축 장치.
  14. 제12항에 있어서,
    상기 매핑부는 상기 네트워크에서 주어진 조건을 만족시키는 현안 키워드와 R&D 키워드 간 대응 관계를 현안 키워드 중심으로 테이블로 도출하고, 상기 도출된 테이블로부터 각 현안별 주요 R&D 키워드를 선정하는 것을 특징으로 하는 네트워크 구축 장치.
  15. (a) 현안 키워드 추출 장치가 국가 현안 자료 또는 웹 미디어 데이터의 분석을 통해 현안 키워드를 추출하는 단계;
    (b) 네트워크 구축 장치가 상기 현안 키워드 추출 장치에서 추출된 현안 키워드를 포함하는 문서와 R&D 정보를 분석하여 기 정의된 현안 사전에 등록된 현안 키워드와 기 정의된 R&D 사전에 등록된 R&D 키워드가 동시에 출현하는 문서를 선별하고, 상기 선별된 각 문서에서 동시에 출현하는 현안 키워드와 R&D 키워드를 분석 대상 키워드로 도출하며, 상기 분석 대상 키워드로 도출된 현안 키워드와 R&D 키워드 간의 네트워크를 구축하고, 상기 구축된 네트워크 내의 노드간 최단경로 거리 또는 최대경로 수를 기반으로 현안-R&D 키워드 대응 테이블을 도출하는 단계;
    (c) 패키징 장치가 상기 현안-R&D 키워드 대응 테이블에서 각 현안 키워드에 대응하는 R&D 키워드를 각각 확인하고, 상기 확인된 R&D 키워드를 포함하는 R&D 정보를 해당 현안 키워드에 대응하는 R&D 정보로 패키징하는 단계;
    를 포함하는 현안 키워드 대응 R&D 정보 서비스 방법.
  16. 삭제
  17. 제15항에 있어서,
    상기 (b) 단계는,
    상기 현안 키워드 추출 장치에서 추출된 현안 키워드를 포함하는 문서와 R&D 정보를 분석하여 기 정의된 현안 사전에 등록된 현안 키워드와 기 정의된 R&D 사전에 등록된 R&D 키워드가 동시에 출현하는 문서를 선별하고, 상기 선별된 각 문서에서 동시에 출현하는 현안 키워드와 R&D 키워드를 분석 대상 키워드로 도출하는 단계;
    상기 도출된 현안 키워드 간, 현안 키워드와 R&D 키워드 간, R&D 키워드 간 중 적어도 하나에 대한 지지도 또는 신뢰도로 표현되는 연관규칙을 도출하는 단계;
    상기 도출된 연관규칙을 소셜 네트워크로 구축하는 단계; 및
    상기 구축된 네트워크 내의 노드간 최단경로 거리 또는 최대경로 수를 기반으로 현안-R&D 키워드 대응 테이블을 도출하는 단계를 포함하는 것을 특징으로 하는 현안 키워드 대응 R&D 정보 서비스 방법.
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 네트워크 구축 장치가 현안 키워드 대응 R&D 정보 서비스를 위한 방법에 있어서,
    국가 현안 자료, 웹 미디어 데이터, R&D 정보 중 적어도 하나의 문서를 분석하여 기 정의된 현안 사전에 등록된 현안 키워드와 기 정의된 R&D 사전에 등록된 R&D 키워드가 동시에 출현하는 문서를 선별하고, 상기 선별된 각 문서에서 동시에 출현하는 현안 키워드와 R&D 키워드를 분석 대상 키워드로 추출하는 단계;
    상기 추출된 현안 키워드 간, 현안 키워드와 R&D 키워드 간, R&D 키워드 간 중 적어도 하나에 대한 지지도 또는 신뢰도로 표현되는 연관규칙을 도출하는 단계;
    상기 도출된 연관규칙을 소셜 네트워크로 구축하여 분석하는 단계; 및
    상기 구축된 네트워크 내의 노드간 최단경로 거리 또는 최대경로 수를 기반으로 현안-R&D 키워드 대응 테이블을 도출하여 현안 키워드와 R&D 키워드를 매핑하는 단계;
    를 포함하는 현안 키워드 대응 R&D 정보 서비스 방법.
  25. 네트워크 구축 장치에 의해 실행될 때,
    국가 현안 자료, 웹 미디어 데이터, R&D 정보 중 적어도 하나의 문서를 분석하여 기 정의된 현안 사전에 등록된 현안 키워드와 기 정의된 R&D 사전에 등록된 R&D 키워드가 동시에 출현하는 문서를 선별하고, 상기 선별된 각 문서에서 동시에 출현하는 현안 키워드와 R&D 키워드를 분석 대상 키워드로 추출하는 단계;
    상기 추출된 현안 키워드 간, 현안 키워드와 R&D 키워드 간, R&D 키워드 간 중 적어도 하나에 대한 지지도 또는 신뢰도로 표현되는 연관규칙을 도출하는 단계;
    상기 도출된 연관규칙을 소셜 네트워크로 구축하여 분석하는 단계; 및
    상기 구축된 네트워크 내의 노드간 최단경로 거리 또는 최대경로 수를 기반으로 현안-R&D 키워드 대응 테이블을 도출하여 현안 키워드와 R&D 키워드를 매핑하는 단계를 포함하는 현안 키워드 대응 R&D 정보 서비스 방법이 프로그램으로 기록된 전자장치에서 판독 가능한 기록매체.
KR1020130145688A 2013-11-27 2013-11-27 현안 키워드 대응 연구개발 정보 서비스 시스템 및 방법 KR101526312B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130145688A KR101526312B1 (ko) 2013-11-27 2013-11-27 현안 키워드 대응 연구개발 정보 서비스 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130145688A KR101526312B1 (ko) 2013-11-27 2013-11-27 현안 키워드 대응 연구개발 정보 서비스 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20150061486A KR20150061486A (ko) 2015-06-04
KR101526312B1 true KR101526312B1 (ko) 2015-06-10

Family

ID=53499451

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130145688A KR101526312B1 (ko) 2013-11-27 2013-11-27 현안 키워드 대응 연구개발 정보 서비스 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR101526312B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102041915B1 (ko) * 2018-02-09 2019-11-07 (주)다음소프트 인공지능을 활용한 데이터베이스 모듈 및 이를 이용하는 경제데이터 제공 시스템 및 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080040355A (ko) * 2006-11-03 2008-05-08 한국과학기술정보연구원 연구개발 환경정보를 이용한 미래 시그널 및 이슈 도출시스템 및 그 방법
KR20090011146A (ko) * 2007-07-25 2009-02-02 삼성에스디에스 주식회사 정보화 사업에서의 위험 관리 및 평가 시스템과 그 방법
KR20120002158A (ko) * 2010-06-30 2012-01-05 한국항공대학교산학협력단 국가 연구개발 과제 도출 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080040355A (ko) * 2006-11-03 2008-05-08 한국과학기술정보연구원 연구개발 환경정보를 이용한 미래 시그널 및 이슈 도출시스템 및 그 방법
KR20090011146A (ko) * 2007-07-25 2009-02-02 삼성에스디에스 주식회사 정보화 사업에서의 위험 관리 및 평가 시스템과 그 방법
KR20120002158A (ko) * 2010-06-30 2012-01-05 한국항공대학교산학협력단 국가 연구개발 과제 도출 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
홍진성외 6인, "국가 현안 주제 선정 및 키워드 추출 방법론", 한국정보과학회 추계학술논문집, 2013.11.15.-16. *
홍진성외 6인, "국가 현안 주제 선정 및 키워드 추출 방법론", 한국정보과학회 추계학술논문집, 2013.11.15.-16.*

Also Published As

Publication number Publication date
KR20150061486A (ko) 2015-06-04

Similar Documents

Publication Publication Date Title
CN104899273B (zh) 一种基于话题和相对熵的网页个性化推荐方法
Szomszor et al. Semantic modelling of user interests based on cross-folksonomy analysis
KR101646754B1 (ko) 모바일 시멘틱 검색 장치 및 그 방법
US8577834B2 (en) Methodologies and analytics tools for locating experts with specific sets of expertise
CN105468605A (zh) 一种实体信息图谱生成方法及装置
JP2009099124A (ja) データ構築方法とシステム
CN106815307A (zh) 公共文化知识图谱平台及其使用办法
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN105095433A (zh) 实体推荐方法及装置
CN103020302A (zh) 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和系统
CN104978332B (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
CN105912656A (zh) 一种商品知识图谱的构建方法
Van de Camp et al. The socialist network
JP7103496B2 (ja) 関連スコア算出システム、方法およびプログラム
CN104298683B (zh) 主题挖掘方法和设备、以及查询扩展方法和设备
CN104484431A (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
Markou et al. Predicting taxi demand hotspots using automated internet search queries
CN104133916A (zh) 搜索结果信息组织方法和装置
CN103838857A (zh) 一种基于语义的自动服务组合系统及方法
KR100954842B1 (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
CN108038133A (zh) 个性化推荐方法
CN103262079B (zh) 检索装置及检索方法
KR20110019131A (ko) 소셜 관계를 이용한 정보 검색 장치 및 방법
WO2015084757A1 (en) Systems and methods for processing data stored in a database
KR101301077B1 (ko) 온톨로지 정렬 방법 및 이를 적용한 온톨로지 정렬 시스템

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant