KR20160129548A - 맞춤형 국가 연구개발 정보 제공을 위한 시스템 및 방법 - Google Patents

맞춤형 국가 연구개발 정보 제공을 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20160129548A
KR20160129548A KR1020150061856A KR20150061856A KR20160129548A KR 20160129548 A KR20160129548 A KR 20160129548A KR 1020150061856 A KR1020150061856 A KR 1020150061856A KR 20150061856 A KR20150061856 A KR 20150061856A KR 20160129548 A KR20160129548 A KR 20160129548A
Authority
KR
South Korea
Prior art keywords
information
subject
keyword
keywords
issue
Prior art date
Application number
KR1020150061856A
Other languages
English (en)
Inventor
김태현
양명석
강남규
최광남
김재수
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020150061856A priority Critical patent/KR20160129548A/ko
Publication of KR20160129548A publication Critical patent/KR20160129548A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • G06F17/21

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 맞춤형 국가 연구개발 정보 제공을 위한 시스템 및 방법에 관한 것으로서, 문서를 수집하는 문서 수집부, 상기 수집된 문서를 분석하여 키워드를 추출하고, 상기 추출된 키워드들을 클러스터링하여, 이슈 주제 후보 정보를 구성하는 문서 분석부, 상기 이슈 주제 후보 정보 중에서 서비스 대상 이슈주제를 선별하고, 상기 선별된 서비스 대상 이슈 주제별로 관련 R&D정보와 동향정보를 추출 및 패키징하는 패키지 구성 관리부를 포함한다.

Description

맞춤형 국가 연구개발 정보 제공을 위한 시스템 및 방법{SYSTEM AND METHOD FOR PROVIDING CUSTOMIZED RESEARCH AND DEVELOPMENT}
본 발명은 맞춤형 국가 연구개발 정보 제공을 위한 시스템 및 방법에 관한 것으로서, 더욱 상세하게는 국가현안 문서 및 사회적 이슈 문서를 분석하여 키워드를 추출하고 이를 클러스터링하여 이슈주제 후보정보를 구성한 후, 이슈 주제 후보 정보 중에서 서비스 대상 이슈주제를 선별하고, 선별된 서비스 대상 이슈 주제별로 관련 R&D정보와 동향정보를 추출하여 패키징하는 맞춤형 국가 연구개발 정보 제공을 위한 시스템 및 방법에 관한 것이다.
전통적인 검색서비스는 키워드를 활용한 검색 기능을 제공하고, 검색결과를 정보유형별 목록으로 제공하는 방식의 서비스를 주로 제공한다. 이 방식은 사용자가 원하는 정보를 얻기 위해서 검색결과 목록을 전체적으로 네비게이션하거나 검색 키워드를 다양하게 변경 또는 추가하는 방식으로 검색결과 목록을 줄여나가는 노력을 필요로 한다. 또한 원하는 검색결과 목록을 선별해내더라도 그 결과를 종합적으로 검토하기 위해서는 별도의 분석 작업을 추가로 수행해야 한다.
최근에는 이러한 단순 검색서비스의 한계를 극복하기 위해 콘텐츠 큐레이션에 관한 다양한 연구가 진행되고 있다. 콘텐츠 큐레이션은 제공정보에 대한 질적인 판단을 추가해 정보의 가치를 높이는 활동을 의미한다.
고도화되는 사용자의 요구를 만족시키기 위해 단순한 검색서비스 제공방식을 벗어나 사용자가 원하는 최적의 정보를 제공하기 위해 다양한 국가R&D정보 큐레이션 서비스 방안이 요구되고 있다.
선행기술1: 한국공개특허 제2013-0037975호: 이슈 템플릿 추출 기반의 웹 동향 분석 방법 및 장치
본 발명은 상기한 문제점을 해결하기 위하여 안출된 것으로, 국가현안 및 사회적 이슈와 연관된 국가R&D정보를 하나의 주제로 묶어 서비스할 수 있는 맞춤형 국가 연구개발 정보 제공을 위한 시스템 및 방법을 제공함에 목적이 있다.
한편, 본 발명이 이루고자 하는 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 이하에서 설명할 내용으로부터 통상의 기술자에게 자명한 범위 내에서 다양한 기술적 과제가 포함될 수 있다.
상술한 과제를 해결하기 위한 본 발명의 일 측면에 따르면, 문서를 수집하는 문서 수집부, 상기 수집된 문서를 분석하여 키워드를 추출하고, 상기 추출된 키워드들을 클러스터링하여, 이슈 주제 후보 정보를 구성하는 문서 분석부, 상기 이슈 주제 후보 정보 중에서 서비스 대상 이슈주제를 선별하고, 상기 선별된 서비스 대상 이슈 주제별로 관련 R&D정보와 동향정보를 추출 및 패키징하는 패키지 구성 관리부를 포함하는 이슈 연관 국가 R&D정보 패키징 시스템이 제공된다.
상기 문서 수집부는, 문서를 수집하기 위한 출처정보를 등록하는 출처관리모듈, 상기 등록된 출처정보로부터 문서를 수집하는 문서수집모듈, 상기 수집된 문서를 등록일자별로 정렬하여 관리하는 문서관리모듈을 포함할 수 있다.
상기 문서 분석부는, 상기 수집된 문서들을 형태소 분석하여 주요 키워드를 추출하고, 상기 추출된 주요 키워드들의 문서별 출현빈도를 근거로 키워드들을 추출하는 키워드 추출모듈, 상기 추출된 키워드들을 클러스터링하여 연관관계가 높은 키워드 그룹을 추출하고, 해당 키워드가 기 설정된 기준 건수 이상 포함된 문서를 해당 키워드 그룹에 할당하는 클러스터링 모듈, 각 키워드 그룹에 할당된 문서에 포함된 키워드 중 주제 키워드가 아닌 다른 키워드들을 일반 키워드로 정의하고, 주제 키워드와 일반 키워드에 대해 문서 내에서의 빈도를 계산하여 이슈 주제 후보 정보를 구성하는 이슈주제후보정보 구성모듈을 포함할 수 있다.
상기 패키지 구성 관리부는, 상기 이슈주제 후보 정보 중에서 서비스 대상 이슈주제를 선별하고, 이슈주제별로 주제키워드 중 가장 빈도가 높은 키워드를 핵심 주제어로 설정하는 이슈 주제 관리모듈, 상기 서비스 대상 이슈 주제별로 연구분야, 관련 R&D 키워드, 관련 이전주제, 기술동향정보, 정책동향정보, 국가 R&D 과제정보, 국가 R&D 성과정보 중 적어도 하나를 추출하는 정보추출모듈, 상기 추출된 정보들을 서비스 대상 이슈 주제와 패키징하는 패키징 모듈을 포함할 수 있다.
상기 정보추출모듈은 서비스 대상 이슈 주제별로 주제 키워드와 R&D용어사전을 활용하여 연구분야 정보를 추출할 수 있다.
또한, 상기 정보추출모듈은 각 서비스 대상 이슈 주제의 주제 키워드가 R&D 용어사전에 존재하는 경우, 해당 주제 키워드에 대응하는 관련 R&D 키워드 후보에, 기 설정된 구분별 가중치를 적용 및 연산하여 관련 R&D 키워드 후보에 대한 점수를 계산하고, 상기 계산된 점수를 근거로 관련 R&D 키워드를 추출할 수 있다.
또한, 상기 정보추출모듈은 서비스 대상 이슈주제가 포함하고 있는 키워드들 중 일부를 포함하고 있는 이전주제들이 존재하는 경우, 키워드 가중치와 분류 가중치를 적용하여 유사도 점수를 계산하고, 상기 유사도 점수를 근거로 관련 이전주제를 추출할 수 있다.
또한, 상기 정보추출모듈은 서비스 대상 이슈주제가 포함하고 있는 키워드들 중 일부를 포함하고 있는 정책동향문서 또는 기술동향문서가 존재하는 경우, 기 설정된 키워드 가중치를 적용하여 유사도 점수를 계산하고, 상기 유사도 점수를 근거로 정책동향정보 또는 기술동향정보를 추출할 수 있다.
또한, 상기 정보추출모듈은 서비스 대상 이슈 주제의 연구분야, 주제키워드, 관련R&D키워드 정보를 이용한 검색엔진을 활용하여 국가 R&D 과제 정보 또는 국가 R&D 성과 정보를 추출할 수 있다.
본 발명의 다른 측면에 따르면, 이슈 연관 국가 R&D정보 패키징 시스템이 맞춤형 국가 R&D 정보 제공을 위한 방법에 있어서, (a) 문서를 분석하여 키워드를 추출하고, 상기 추출된 키워드들을 클러스터링하여, 이슈 주제 후보 정보를 구성하는 단계, (b) 상기 이슈 주제 후보 정보 중에서 서비스 대상 이슈주제를 선별하고, 상기 선별된 서비스 대상 이슈 주제별로 관련 R&D정보와 동향정보를 추출 및 패키징하는 단계를 포함하는 맞춤형 국가 연구개발 정보 제공을 위한 방법이 제공된다.
상기 (b) 단계 이후, 특정 이슈 주제에 대한 검색이 요청된 경우, 해당 이슈 주제와 패키징된 관련 R&D정보 및 동향정보를 제공하는 단계를 더 포함할 수 있다.
상기 (a) 단계는, 상기 문서들을 형태소 분석하여 주요 키워드를 추출하고, 상기 추출된 주요 키워드들의 문서별 출현빈도를 근거로 키워드들을 추출하는 단계, 상기 추출된 키워드들을 클러스터링하여 연관관계가 높은 키워드 그룹을 추출하고, 해당 키워드가 기 설정된 기준 건수 이상 포함된 문서를 해당 키워드 그룹에 할당하는 단계, 각 키워드 그룹에 할당된 문서에 포함된 키워드 중 주제 키워드가 아닌 다른 키워드들을 일반 키워드로 정의하고, 주제 키워드와 일반 키워드에 대해 문서 내에서의 빈도를 계산하여 이슈 주제 후보 정보를 구성하는 단계를 포함할 수 있다.
상기 (b) 단계는, 상기 이슈주제 후보 정보 중에서 서비스 대상 이슈주제를 선별하고, 이슈주제별로 주제키워드 중 가장 빈도가 높은 키워드를 핵심 주제어로 설정하는 단계, 상기 서비스 대상 이슈 주제별로 연구분야, 관련 R&D 키워드, 관련 이전주제, 기술동향정보, 정책동향정보, 국가 R&D 과제정보, 국가 R&D 성과정보 중 적어도 하나를 추출하는 단계, 상기 추출된 정보들을 서비스 대상 이슈 주제와 패키징하는 단계를 포함할 수 있다.
상기 관련 R&D 키워드는, 각 서비스 대상 이슈 주제의 주제 키워드가 R&D 용어사전에 존재하는 경우, 해당 주제 키워드에 대응하는 관련 R&D 키워드 후보에, 기 설정된 구분별 가중치를 적용 및 연산하여 관련 R&D 키워드 후보에 대한 점수를 계산하고, 상기 계산된 점수를 근거로 추출된 것일 수 있다.
상기 관련 이전주제는, 서비스 대상 이슈주제가 포함하고 있는 키워드들 중 일부를 포함하고 있는 이전주제들이 존재하는 경우, 키워드 가중치와 분류 가중치를 적용하여 유사도 점수를 계산하고, 상기 유사도 점수를 근거로 추출된 것일 수 있다.
상기 정책동향정보 또는 기술동향정보는, 서비스 대상 이슈주제가 포함하고 있는 키워드들 중 일부를 포함하고 있는 정책동향문서 또는 기술동향문서가 존재하는 경우, 기 설정된 키워드 가중치를 적용하여 유사도 점수를 계산하고, 상기 유사도 점수를 근거로 추출된 것일 수 있다.
상기 국가 R&D 과제 정보 또는 국가 R&D 성과 정보는, 서비스 대상 이슈 주제의 연구분야, 주제키워드, 관련R&D키워드 정보를 이용한 검색엔진을 활용하여 추출된 것일 수 있다.
한편, 이상에 살핀 상기 '맞춤형 국가 연구개발 정보 제공을 위한 시스템 및 방법'은, 프로그램의 형태로 구현된 뒤에 전자 장치에서 판독 가능한 기록 매체에 기록되거나, 프로그램 다운로드 관리 장치(서버 등)를 통해 배포될 수 있다.
본 발명에 따르면, 국가 R&D 정보 패키지라는 개념을 도입함으로써, 사회적 이슈와 연관된 국가 R&D 정보를 하나의 주제로 묶어 서비스할 수 있다.
또한, 뉴스 및 정책브리핑 사이트 등으로부터 수집된 국가현안 및 사회적 이슈 문서를 분석하여 키워드를 추출하고 이를 클러스터링하여 이슈주제 후보 추출한 후, 관리자가 이슈주제 후보들을 검토하고 주제키워드를 정제할 수 있는 기능을 제공함으로써, 이슈와 관련하여 큐레이션된 국가 R&D 정보 패키지를 제공할 수 있는 기반을 마련하였다.
또한, 뉴스 또는 정책동향 등의 정보에서 사회적 이슈를 추출하여 서비스하는 경우 트랜드가 반영된 형태의 주제 키워드 집합을 추출할 수 있어서 유사 주제라 할지라도 시기에 따라 달라지는 관점을 반영한 국가 R&D 정보 패키지를 구성할 수 있다.
또한, 패키지 형태로 국가 R&D 정보를 제공하는 경우 주제에 적합하게 노이즈를 제거할 수 있어 최적화된 정보들만으로 이루어진 국가 R&D 정보 집합을 구성하여 제공할 수 있다.
또한, 구성된 패키지정보를 통해 특정 분야의 전문가가 아닌 일반 사용자도 관심 이슈에 대한 R&D정보를 쉽게 획득할 수 있고, 국가 R&D에 대한 관심과 투자를 더욱 증대시킬 수 있다.
한편, 본 발명의 효과는 이상에서 언급한 효과들로 제한되지 않으며, 이하에서 설명할 내용으로부터 통상의 기술자에게 자명한 범위 내에서 다양한 효과들이 포함될 수 있다.
도 1은 본 발명의 실시예에 따른 맞춤형 국가 연구개발 정보 제공을 위한 시스템을 나타낸 도면이다.
도 2는 본 발명의 실시예에 따른 이슈 연관 국가 R&D 정보 패키징 시스템을 나타낸 도면이다.
도 3은 도 2에 도시된 문서 수집부의 구성을 나타낸 도면이다.
도 4는 도 2에 도시된 문서 분석부의 구성을 나타낸 도면이다.
도 5는 본 발명에 따른 키워드 클러스터링을 설명하기 위한 도면이다.
도 6은 본 발명에 따른 이슈 주제후보정보를 구성하는 방법을 설명하기 위한 도면이다.
도 7은 도 2에 도시된 패키지 구성 관리부의 구성을 나타낸 도면이다.
도 8은 본 발명에 따른 이슈 주제 관리 화면을 나타낸 예시도이다.
도 9는 본 발명에 따른 관련 이전주제 설정 기능을 설명하기 위한 화면 예시도이다.
도 10은 본 발명에 따른 관련 R&D 과제정보 설정 기능을 설명하기 위한 화면 예시도이다.
도 11은 본 발명에 따른 맞춤형 국가 연구개발 정보 제공을 위한 방법을 나타낸 순서도이다.
도 12는 본 발명에 따른 시스템이 이슈 주제 후보 정보를 구성하는 방법을 나타낸 순서도이다.
도 13은 본 발명에 따른 서비스 대상 이슈 주제별로 관련 R&D정보와 동향정보를 패키징하는 방법을 나타낸 순서도이다.
이하, 첨부된 도면들을 참조하여 본 발명에 따른 '맞춤형 국가 연구개발 정보 제공을 위한 시스템 및 방법'을 상세하게 설명한다. 설명하는 실시 예들은 본 발명의 기술 사상을 당업자가 용이하게 이해할 수 있도록 제공되는 것으로 이에 의해 본 발명이 한정되지 않는다. 또한, 첨부된 도면에 표현된 사항들은 본 발명의 실시 예들을 쉽게 설명하기 위해 도식화된 도면으로 실제로 구현되는 형태와 상이할 수 있다.
한편, 이하에서 표현되는 각 구성부는 본 발명을 구현하기 위한 예일 뿐이다. 따라서, 본 발명의 다른 구현에서는 본 발명의 사상 및 범위를 벗어나지 않는 범위에서 다른 구성부가 사용될 수 있다. 또한, 각 구성부는 순전히 하드웨어 또는 소프트웨어의 구성만으로 구현될 수도 있지만, 동일 기능을 수행하는 다양한 하드웨어 및 소프트웨어 구성들의 조합으로 구현될 수도 있다. 또한, 하나의 하드웨어 또는 소프트웨어에 의해 둘 이상의 구성부들이 함께 구현될 수도 있다.
또한, 어떤 구성요소들을 '포함'한다는 표현은, '개방형'의 표현으로서 해당 구성요소들이 존재하는 것을 단순히 지칭할 뿐이며, 추가적인 구성요소들을 배제하는 것으로 이해되어서는 안 된다.
도 1은 본 발명의 실시예에 따른 맞춤형 국가 연구개발 정보 제공을 위한 시스템을 나타낸 도면이다.
도 1을 참조하면, 맞춤형 국가 연구개발 정보 제공을 위한 시스템은 문서 서비스 서버(100), 이슈 연관 국가 R&D 정보 패키징 시스템(200)을 포함한다.
문서 서비스 서버(100)는 국가 현안 자료, 사회적 이슈 자료, 웹 미디어 데이터 등이 저장되어 있다. 여기서, 국가 현안 자료는 정책 홍보를 위한 간행물, 연구논문, 보고서, 국정 관련 문서 등 문서로 기록되는 산출물일 수 있다. 웹 미디어 데이터는 실시간으로 대량의 정보가 생산되는 포털 사이트의 뉴스, 다수의 사람들의 의견이 오고 가는 인터넷 토론방, 학계 및 업계 전문가의 연구보고서, 풍부한 정보와 의견이 실시간으로 업데이트 되는 소셜 데이터 등을 포함할 수 있다.
이슈 연관 국가 R&D 정보 패키징 시스템(200)은 문서 서비스 서버(100)로부터 수집된 국가현안 문서 및 사회적 이슈 문서를 분석하여 키워드를 추출하고 이를 클러스터링하여 이슈주제 후보정보를 구성한 후, 이슈 주제 후보 정보 중에서 서비스 대상 이슈주제를 선별하고, 선별된 서비스 대상 이슈 주제별로 관련 R&D정보와 동향정보를 추출하여 패키징한다. 국가현안문서는 문서의 특성상 수시로 발간되기 어렵기 때문에 시의성이 다소 떨어지고, 현안 주제의 설명이 너무 광범위하고 포괄적인 단어 위주로 이루어진다는 점에서 구체적인 현안 키워드를 모두 포함하지 못하고 있다는 한계가 있다. 따라서 이러한 한계를 극복하기 위해 이슈 연관 국가 R&D 정보 패키징 시스템(200)은 국가현안문서를 기본으로 하되, 각종 뉴스, 부처별 어젠다, 소셜 데이터 등 대량의 문서를 활용한 Data-Driven 방식으로 키워드를 추가 보강한다. 또한, 이슈 연관 국가 R&D 정보 패키징 시스템(200)은 추가 키워드를 발굴하기 위해 실시간으로 대량의 정보가 생산되는 포털 사이트의 뉴스, 다수의 사람들의 의견이 오고 가는 인터넷 토론방, 학계 및 업계 전문가의 연구보고서, 풍부한 정보와 의견이 실시간으로 업데이트 되는 소셜 데이터 등을 대상으로 추가 키워드를 발굴한다.
이슈 연관 국가 R&D 정보 패키지는 국가현안 또는 사회적 이슈와 밀접한 연관이 있는 국가 R&D 정보들을 포함하고 있는 일종의 정보 꾸러미를 의미한다. 정보를 꾸러미 형태로 제공하는 경우 선별·가공된 컴팩트한 정보집합을 제공할 수 있고, 새로운 유형의 정보를 추가하거나 꾸러미 내에 있는 정보를 원하는 형태로 가공·포장하여 제공할 수 있어 정보 이용자의 만족도를 제고할 수 있다.
한편, 이슈 연관 국가 R&D 정보 패키징 시스템(200)은 단일의 연산 장치로 구현되거나 둘 이상의 연산 장치가 서로 연결된 집합 장치의 형태로 구현될 수도 있다. 예를 들어, 이슈 연관 국가 R&D 정보 패키징 시스템(200)은 단일의 서버로 구현되거나 둘 이상의 서버가 연결된 형태로 구현될 수 있다.
도 2는 본 발명의 실시예에 따른 이슈 연관 국가 R&D 정보 패키징 시스템을 나타낸 도면, 도 3은 도 2에 도시된 문서 수집부의 구성을 나타낸 도면, 도 4는 도 2에 도시된 문서 분석부의 구성을 나타낸 도면, 도 5는 본 발명에 따른 키워드 클러스터링을 설명하기 위한 도면, 도 6은 본 발명에 따른 이슈 주제후보정보를 구성하는 방법을 설명하기 위한 도면, 도 7은 도 2에 도시된 패키지 구성 관리부의 구성을 나타낸 도면, 도 8은 본 발명에 따른 이슈 주제 관리 화면을 나타낸 예시도, 도 9는 본 발명에 따른 관련 이전주제 설정 기능을 설명하기 위한 화면 예시도, 도 10은 본 발명에 따른 관련 R&D 과제정보 설정 기능을 설명하기 위한 화면 예시도이다.
도 2를 참조하면, 이슈 연관 국가 R&D 정보 패키징 시스템(200)은 문서 수집부(210), 문서 분석부(220), 패키지 구성 관리부(230)를 포함한다.
문서 수집부(210)는 기 등록된 출처로부터 문서를 수집한다. 즉, 문서 수집부(210)는 국가현안 및 사회적 이슈 추출을 위해 뉴스, 정책브리핑, 국가정책문서 등으로부터 문서를 수집한다.
이러한 문서 수집부(210)에 대해 도 3을 참조하면, 문서 수집부(210)는 출처관리모듈(212), 문서수집모듈(214), 문서관리모듈(216)을 포함한다.
출처관리모듈(212)은 문서를 수집하기 위한 출처정보를 등록 및 관리한다. 즉, 출처관리모듈(212)은 이슈주제 추출대상 문서나 정책기술동향 문서를 수집하기 위해 필요한 출처정보(예컨대, URL, 문서 등)를 등록 관리한다. 이때, 출처정보는 뉴스, 정책브리핑, 국가정책문서 등 국가현안 및 사회적 이슈 추출이 가능한 문서에 대한 출처로, 기 설정된 출처선별기준을 만족하는 정보일 수 있다. 출처 선별 기준은 정보의 최신성, 접근의 용이성, 정보의 객관성, 정보의 중복성을 포함한다. 정보의 최신성은 예컨대, 최근 1년 자료만 수집대상으로 선정하는 것을 의미하고, 접근의 용이성은 유료 사이트나 RSS 제공방식이 자동수집에 적합하지 않은 경우 제외, 정보의 객관성은 주관적 의견이 많이 포함된 논설이나 토론마당 성격의 사이트 제외, 정보의 중복성은 동일 뉴스를 제목만 달리하여 중복제공하는 사이트나 타 사이트에서 제공하는 정보를 요약하여 제공하는 성격의 사이트 제외 등을 말한다.
문서수집모듈(214)은 출처관리모듈(212)에 등록된 출처정보로부터 문서를 수집한다. 이때, 문서수집모듈(214)은 주기적 또는 실시간으로 문서를 수집할 수 있다.
또한, 문서수집모듈(214)은 수동으로 등록된 문서를 수집할 수도 있다. 여기서, 수동으로 등록된 문서는 예컨대, 현안문서일 수 있다. 현안문서는 정책이 수립되는 시기에 일괄 작성되어 제공되는 특성이 있어, 원문발생 시 별도로 등록한다.
문서관리모듈(216)은 문서수집모듈(214)에서 수집된 문서를 등록일자별로 정렬하여 관리한다. 즉, 문서관리모듈(216)은 자동으로 수집된 문서 또는 수동으로 등록된 문서를 등록일자별로 관리한다.
문서 분석부(220)는 문서 수집부(210)에서 수집된 문서를 분석하여 키워드를 추출하고, 추출된 키워드들을 클러스터링하여, 이슈 주제 후보 정보를 구성한다.
이러한 문서 분석부(220)에 대해 도 4를 참조하면, 문서 분석부(220)는 키워드 추출모듈(222), 클러스터링 모듈(224), 이슈주제 후보정보 구성모듈(226)을 포함한다.
키워드 추출모듈(222)은 수집된 문서들을 형태소 분석, 자연어 처리 등을 수행하여 주요 키워드를 추출한다. 그런 후, 키워드 추출모듈(222)은 추출된 주요 키워드들의 문서별 출현빈도를 계산하고, 출현빈도가 높은 순으로 주요 키워드들을 정렬한다. 그런 후, 키워드 추출모듈(222)은 상위에 정렬된 일정 개수의 주요 키워드를 키워드로 추출하거나, 또는 출현빈도가 기 설정된 일정 기준보다 낮은 주요 키워드를 제외한 주요 키워드들을 키워드로 추출한다. 이때, 키워드 추출모듈(222)은 불용어 사전을 이용하여 분석대상 키워드가 아닌 키워드를 제외한다. 불용어 사전에는 분석 대상 용어가 아닌 예컨대, 국가현안관련 용어가 아닌 일반적인 용어가 저장되어 있다.
클러스터링 모듈(224)은 키워드 추출모듈(222)에서 추출된 키워드들을 클러스터링하여 연관관계가 높은 키워드 그룹을 추출하고, 해당 키워드가 기 설정된 기준 건수 이상 포함된 문서를 해당 키워드 그룹에 할당한다. 여기서, 각 키워드 그룹은 이슈 주제 후보가 된다.
즉, 클러스터링 모듈(224)은 통계분석용 프로그래밍 언어인 R을 활용하여 키워드 클러스터링을 수행한다. 이때, 클러스터링 모듈(224)은 예컨대, K-means 로직을 적용하여 키워드 클러스터링을 수행할 수 있다.
클러스터링을 수행하면, 연관관계가 높은 키워드 그룹이 추출되고, 클러스터링 모듈(224)은 각 키워드 그룹에 포함된 키워드를 기준 건수 이상 포함하고 있는 문서를 해당 키워드 그룹에 할당한다.
키워드 클러스터링에 대해 도 5를 참조하여 설명하기로 한다.
도 5를 참조하면, 키워드 a,b,c,d를 포함하는 A문서, 키워드 a,d,e,f를 포함하는 B문서, 키워드 b,c,g,h를 포함하는 C문서, 키워드 a,b,d,f를 포함하는 D문서를 클러스터링한다.
그러면, 키워드 a,b,c를 포함하는 키워드 그룹1과 키워드 d,f를 포함하는 키워드 그룹2가 생성된다. 각 키워드 그룹에 포함된 키워드를 2개 이상 포함하는 문서를 해당 키워드 그룹에 할당하므로, 키워드 그룹1에는 A, C, D 문서가 할당되고, 키워드 그룹2에는 B, D문서가 할당된다.
이슈 주제후보정보 구성모듈(226)은 각 키워드 그룹에 할당된 문서에 포함된 키워드 중 주제 키워드가 아닌 다른 키워드들을 일반 키워드로 정의하고, 주제 키워드와 일반 키워드에 대해 문서 내에서의 빈도를 계산하여 이슈 주제 후보 정보를 구성한다.
이슈 주제후보정보를 구성하는 방법에 대해 도 6을 참조하여 설명하기로 한다. 도 6을 참조하면, 키워드 a,b,c를 포함하는 키워드 그룹1과 키워드 d,f를 포함하는 키워드 그룹2로 분리되어 있고, 키워드 그룹1에는 A, C, D 문서가 할당되고, 키워드 그룹2에는 B, D문서가 할당된다.
키워드 그룹1의 A, C, D 문서에 포함된 키워드 중 주제 키워드가 아닌 다른 키워드 d, f, g, h를 일반 키워드로 정의하고, 주제 키워드와 일반 키워드 모두에 대해 빈도를 계산하면, a는 2, b는 3, c는 2, d는 2, f는 1, g는 1, h는 1임을 알 수 있다. 이슈 주제후보정보 구성모듈(226)은 계산된 빈도를 이용하여 이슈 주제후보 정보를 보강한다. 예를 들면, 일반 키워드에서 빈도수가 2인 d를 주제 키워드에 추가하여, a,b,c,d를 이슈 주제후보정보로 할 수 있다.
또한, 키워드 그룹2의 B, D 문서에 포함된 키워드 중 주제 키워드가 아닌 다른 키워드 a, b, e를 일반 키워드로 정의하고, 주제 키워드와 일반 키워드 모두에 대해 빈도를 계산하면, d는 2, f는 2, a는 2, b는 1, e는 1임을 알 수 있다. 이슈 주제후보정보 구성모듈(226)은 계산된 빈도를 이용하여 이슈 주제후보 정보를 보강한다. 예를 들면, 일반 키워드에서 빈도수가 2인 a를 주제 키워드에 추가하여, a,d,f를 이슈 주제후보정보로 할 수 있다.
이 과정을 통해 향후 이슈 주제후보 중에서 서비스 대상 정보를 선별하고 가공하는데 있어 참고가 될 수 있을만한 정보를 보다 풍부하게 제공할 수 있다.
패키지 구성 관리부(230)는 문서 분석부(220)에서 추출된 이슈 주제 후보 정보 중에서 서비스 대상 이슈 주제를 선별하고, 선별된 서비스 대상 이슈 주제별로 관련 R&D정보와 동향정보를 추출 및 패키징한다.
이러한 패키지 구성 관리부(230)에 대해 도 7을 참조하면, 패키지 구성 관리부(230)는 이슈 주제 관리모듈(232), 정보추출모듈(234), 패키징 모듈(236)을 포함한다.
이슈주제 관리모듈(232)은 이슈주제 후보 정보 중에서 서비스 대상 이슈주제를 선별하고, 이슈주제별로 주제키워드 중 가장 빈도가 높은 키워드를 핵심 주제어로 설정한다.
이슈주제 관리모듈(232)은 이슈 주제 후보정보 중에서 실제로 사용자에게 서비스될 대상 정보를 선별하고, 이와 더불어 서비스 대상 이슈 주제를 대표하는 핵심주제어 편집기능과 주제 키워드 조정기능을 제공한다.
이때, 이슈주제 관리모듈(232)는 이슈 주제 후보정보 중에서 관리자에 의해 선택된 이슈 주제를 서비스 대상 이슈주제로 선별, 이슈 주제 후보들을 빈도수가 높은 순으로 정렬하여 상위 일정 개수에 해당하는 이슈주제 후보를 서비스 대상 이슈주제로 선별 등 다양한 방법을 이용하여 서비스 대상 이슈주제를 선별할 수 있다.
이슈주제 관리모듈(232)은 해당 이슈 주제의 주제 키워드 중에서 가장 빈도가 높은 키워드를 핵심주제어로 설정한다. 그러나 이슈 주제가 서비스될 때 사용자의 이해를 높이기 위해서는 단순한 단일 키워드보다는 복합어로 구성된 보다 구체화된 명칭이 제시되는 것이 좋기 때문에, 관리자가 이를 편집할 수 있는 기능을 제공한다. 이슈주제를 서비스할 때 핵심 주제어와 함께 제시되어 사용자의 이해를 높일 수 있는 것이 주제 키워드이다. 그러나 문서분석을 통해 자동으로 추출된 주제 키워드들에는 노이즈가 포함되는 경우가 많다. 따라서 관리자가 주제 키워드와 일반 키워드를 모두 확인하여 해당 이슈 주제를 보다 잘 표출할 수 있는 키워드들로 주제키워드를 구성할 수 있도록 하기 위해, 키워드를 주제 키워드 또는 일반 키워드로 상호간에 변경할 수 있도록 구성한다. 이 외에도 해당 이슈주제의 출처 문서목록에 불필요한 문서가 포함된 경우 이를 제외시키는 기능과 이슈주제에 대한 설명을 덧붙일 수 있도록 외부 사이트(예컨대, 네이버 지식백과, 위키피디아)를 참조하여 설명을 작성하는 기능을 함께 제공함으로써 이슈주제 관리기능을 최적화할 수 있다.
이러한 이슈 주제를 관리하는 방법에 대해 도 8에 도시된 이슈 주제 관리 화면을 이용하여 설명하기로 한다. 이슈 주제 관리 화면에는 핵심 주제어 영역, 주제 키워드 영역, 일반 키워드 영역, 명령어 영역 등을 포함한다. 핵심 주제어 영역에는 '간편결제'가 핵심 주제어로 설정되어 있고, 주제 키워드 영역에는 FDS, 보안, 액티브, 온라인, 보안모듈, 부정 사용방지 시스템의 주제 키워드가 빈도와 함께 표시되고, 일반 키워드 영역에는 카드사, 사고, 필요, 인증의 일반 키워드가 빈도와 함께 표시된다. 명령어 영역에는 용어사전등록, 불용어사전등록, 키워드 삭제, 주제정보 저장, 주제정보 제외, 서비스 대상등록, 서비스대상 제외, 주서비스 등록, 주서비스 제외, 주제정보 삭제 등의 명령이 표시되고, 관리자가 특정 명령을 선택하면, 이슈주제 관리모듈은 특정명령에 해당하는 동작을 수행한다.
예를 들면, 관리자는 주제 키워드 영역에 표시된 주제 키워드들 중에서 용어사전등록, 키워드 삭제 등을 수행할 수 있고, 일반 키워드 영역에 표시된 일반 키워드들 중에서 키워드 삭제, 불용어사전등록 등을 수행할 수 있다.
정보추출모듈(234)은 서비스 대상 이슈 주제별로 연구분야, 관련 R&D 키워드, 관련 이전주제, 기술동향정보, 정책동향정보, 국가 R&D 과제정보, 국가 R&D 성과정보 중 적어도 하나를 추출한다.
이러한 정보추출모듈(234)은 연구분야 추출모듈(234a), 관련 R&D 키워드 추출모듈(234b), 관련 이전주제 추출모듈(234c), 동향정보 추출모듈(234d), 국가 R&D 과제 성과 정보 추출모듈(234e)을 포함한다.
연구분야 추출모듈(234a)은 서비스 대상 이슈 주제별로 주제 키워드와 R&D용어사전을 활용하여 연구분야 정보를 추출한다. R&D 용어사전은 국가R&D과제의 키워드를 이용하여 구축된 용어사전으로, 각 용어별로 과학기술표준분류, 6T분류와 같은 연구분야 정보와 대역어, 동의어, 관련어 등을 포함하고 있다. 연구분야는 과학기술표준분류, 6T분류 등을 말한다.
관련 R&D 키워드 추출모듈(234b)은 서비스 대상 이슈 주제별로 주제 키워드와 R&D 용어사전을 이용하여 관련 R&D 키워드를 추출한다. 이때, 관련 R&D 키워드 추출모듈(234b)은 R&D 용어사전에 존재하는 주제 키워드에 대응하는 관련 R&D 키워드 후보에 대한 구분별 가중치를 적용 및 연산하여 관련 R&D 키워드 후보에 대한 점수를 계산하고, 계산된 점수를 근거로 관련 R&D 키워드를 추출한다.
즉, 주제 키워드가 R&D용어사전에 있는 경우, 관련 R&D 키워드 추출모듈(234b)은 해당 용어의 대역어, 동의어, 관련어 및 과학기술표준분류와 6T분류를 활용하여 표 1과 같은 구분별 가중치를 적용해 관련R&D키워드 후보 용어의 점수를 계산한다.
구분 대역어 동의어 관련어 과학기술표준분류 6T
대분류 중분류
가중치값 10 9 7 2 2 1
예를 들어, 제1 주제 키워드가 R&D용어사전에 대역어로 존재하고, 과학기술표준분류의 중분류에 해당하는 경우, 관련 R&D 키워드 추출모듈은 제1 주제 키워드에 대해 '10(대역어 가중치) + 2(중분류 가중치)=12'의 점수를 계산한다.
관련 R&D 키워드 추출모듈(234b)은 서비스 대상 이슈주제 내의 주제키워드 전체에 대해 관련R&D키워드 후보목록을 추출하고, 이중 상위 일정개수(예컨대, 30개)의 목록을 관련 R&D 키워드로 추출한다.
정보추출모듈(234)은 서비스 대상 이슈 주제의 연구분야, 주제키워드, 관련R&D키워드, 일반 키워드를 전체적으로 활용하여 관련 이전주제, 정책동향, 기술동향 정보를 설정하기 위한 후보 목록을 구성한다.
관련 이전주제 추출모듈(234c)은 서비스 대상 이슈주제가 포함하고 있는 키워드들 중 일부를 포함하고 있는 이전주제들이 존재하는 경우, 키워드 가중치와 분류 가중치를 적용하여 유사도 점수를 계산하고, 상기 유사도 점수를 근거로 관련 이전주제를 추출한다.
즉. 관련 이전주제 추출모듈(234c)은 서비스 대상 이슈주제가 포함하고 있는 키워드들(주제 키워드, 관련 R&D 키워드, 일반 키워드)을 기준으로 해당 키워드들 중 일부를 포함하고 있는 이전주제들(기준일자 이전의 이슈주제정보)이 있는 경우 표 2와 같은 키워드 가중치와 표 3과 같은 분류가중치를 적용하여 유사도점수를 계산하고, 유사도 점수가 높은 이전주제가 상위에 나타나도록 하여 관련 이전주제 후보목록을 제시한다. 이때, 유사도 점수는 (키워드가중치×분류가중치)를 이용하여 구할 수 있다.
  비교대상 주제
주제키워드 관련R&D키워드 일반키워드
선택한 이슈
주제
주제키워드 5 5 3
관련R&D키워드 4 4 2
일반키워드 2 2 1
비교대상 주제 적용
가중치
과기분류 6T
대분류 중분류
선택한 이슈
주제
과기분류 대분류 30     30
중분류 30 30   60
6T     40 40
30   40 70
30 30 40 100
동향정보 추출모듈(234d)은 서비스 대상 이슈주제가 포함하고 있는 키워드들(주제 키워드, 관련 R&D 키워드, 일반 키워드)을 기준으로 해당 키워드들 중 일부를 포함하고 있는 정책동향과 기술동향이 있는 경우, 기 설정된 키워드 가중치를 적용하여 유사도점수를 계산하고, 유사도 점수가 높은 정책동향과 기술동향이 상위에 나타나도록 하여 관련 정책동향과 기술동향 후보목록을 각각 제시한다.
국가 R&D 과제성과정보 추출모듈(234e)은 서비스 대상 이슈 주제의 연구분야, 주제키워드, 관련R&D키워드 정보를 이용한 검색엔진을 활용하여 국가 R&D 과제성과정보를 추출한다.
예를 들면, 국가 R&D 과제성과정보 추출모듈(234e)은 서비스 대상 이슈 주제의 연구분야, 주제키워드, 관련R&D키워드정보를 활용한 하기와 같은 검색조건식을 구성하여 검색을 수행한다.
검색조건식: (키워드1 or ... or 키워드N) AND (분류1 or ... or 분류M)
패키징 모듈(236)은 정보추출모듈(234)에서 추출된 정보들을 서비스 대상 이슈 주제와 패키징한다. 즉, 패키징 모듈(236)은 서비스 대상 이슈 주제별로 추출된 연구분야, 관련 R&D 키워드, 관련 이전주제, 기술동향정보, 정책동향정보, 국가 R&D 과제정보, 국가 R&D 성과정보를 해당 서비스 대상 이슈 주제와 패키징하여 등록한다.
또한, 패키징 모듈(236)은 자동 추출된 관련 R&D키워드, 이전주제, 기술동향, 정책동향, 국가R&D 과제·성과정보를 관리자로부터 순차적으로 검토·정제받아, 최종 패키지 정보를 구성할 수 있다. 관련 R&D키워드는 과학기술표준분류와 6T분류를 기준으로 제시되는 키워드 목록 중에서 현재 주제에 적합한 키워드가 있는 경우 선택하고 적합한 키워드가 없는 경우 용어사전에서 직접 검색하여 추가할 수 있다. 이슈주제정보는 동일 또는 유사한 주제가 재언급되는 경우가 있기 때문에 관련 이전주제를 활용하여 현재 이슈주제에 대한 관련R&D정보(과제, 성과), 기술동향, 정책동향 정보를 이전주제와 동일하게 설정하여 사용하면 새로운 이슈주제에 대한 초기데이터목록을 보다 효율적으로 구성할 수 있다. 이를 위해 도 9와 같이 원하는 이전주제의 패키지에 포함된 정보들 중 원하는 유형의 정보를 선택하여 현재 이슈주제정보에 자동으로 승계할 수 있도록 하는 편의 기능이 제공된다.
국가R&D 과제·성과정보는 최근 일정 기간(예컨대 최근 5년간)의 정보를 대상으로 정보를 추출·정제해야 하기 때문에, 정보 검토의 편의성을 높이기 위해 도 10과 같이 년도별로 정보건수 및 목록을 확인하여 필요한 정보를 선택할 수 있도록 한다. 기술동향 및 정책동향 정보는 최근 일정기간(예컨대, 최근 1년간)의 정보를 대상으로 정보를 추출·정제할 수 있다.
한편, 문서 인식부(210), 문서 분석부(220), 패키지 구성 관리부(230) 각각은 컴퓨팅 장치상에서 프로그램을 실행하기 위해 필요한 프로세서 등에 의해 각각 구현될 수 있다. 이처럼 문서 인식부(210), 문서 분석부(220), 패키지 구성 관리부(230)는 물리적으로 독립된 각각의 구성에 의해 구현될 수도 있고, 하나의 프로세서 내에서 기능적으로 구분되는 형태로 구현될 수도 있다.
이러한 구성을 갖는 이슈 연관 국가 R&D 정보 패키징 시스템(200)은 다양한 전자장치들과 데이터를 송수신하기 위한 통신부, 시스템의 동작과 관련된 데이터들을 저장하는 저장부를 포함하는 것은 자명할 수 있다.
또한, 시스템(200)은 문서 인식부(210), 문서 분석부(220), 패키지 구성 관리부(230)를 포함하는 시스템의 다양한 구성부들의 동작을 제어하는 제어부를 포함할 수 있다. 이러한 제어부는 적어도 하나의 연산 장치를 포함할 수 있는데, 여기서 상기 연산 장치는 범용적인 중앙연산장치(CPU), 특정 목적에 적합하게 구현된 프로그래머블 디바이스 소자(CPLD, FPGA), 주문형 반도체 연산장치(ASIC) 또는 마이크로 컨트롤러 칩일 수 있다.
도 11은 본 발명에 따른 맞춤형 국가 연구개발 정보 제공을 위한 방법을 나타낸 순서도이다.
도 11을 참조하면, 이슈 연관 국가 R&D정보 패키징 시스템(이하 시스템이라 칭함)은 기 등록된 출처정보로부터 문서를 수집한다(S1102).
그런 후, 시스템은 수집된 문서를 분석하여 키워드를 추출하고, 상기 추출된 키워드들을 클러스터링하여, 이슈 주제 후보 정보를 구성한다(S1104). 이슈 주제 후보 정보를 구성하는 방법에 대한 설명은 도 12를 참조하기로 한다.
시스템은 이슈 주제 후보 정보 중에서 서비스 대상 이슈주제를 선별하고, 상기 선별된 서비스 대상 이슈 주제별로 관련 R&D정보와 동향정보를 추출 및 패키징한다(S1106). S1106이 수행되면, 이슈 주제별로, 핵심 키워드, 주제 키워드, 연구분야, 관련 R&D 키워드, 관련 이전주제, 기술동향정보, 정책동향정보, 국가 R&D 과제정보, 국가 R&D 성과정보가 패키징된다. 패키징하는 방법에 대한 상세한 설명은 도 13을 참조하기로 한다.
상기와 같이 이슈 주제별로 관련 R&D정보와 동향정보가 패키징된 후, 특정 이슈 주제에 대한 검색이 요청된 경우, 시스템은 해당 이슈 주제와 패키징된 관련 R&D정보 및 동향정보를 제공할 수 있다.
한편, 상기와 같이 과정을 통해 구성된 패키지정보를 통해 특정 분야의 전문가가 아닌 일반 사용자도 관심 이슈에 대한 R&D정보를 쉽게 획득할 수 있고, 국가R&D에 대한 관심과 투자를 더욱 증대시킬 수 있다.
도 12는 본 발명에 따른 시스템이 이슈 주제 후보 정보를 구성하는 방법을 나타낸 순서도이다.
도 12를 참조하면, 시스템은 문서들을 형태소 분석하여 주요 키워드를 추출하고(S1202), 추출된 주요 키워드들의 문서별 출현빈도를 근거로 키워드들을 추출한다(S1204).
그런 후, 시스템은 추출된 키워드들을 클러스터링하여 연관관계가 높은 키워드 그룹을 추출하고(S1206), 해당 키워드가 기 설정된 기준 건수 이상 포함된 문서를 해당 키워드 그룹에 할당한다(S1208).
그런 후, 시스템은 각 키워드 그룹에 할당된 문서에 포함된 키워드 중 주제키워드가 아닌 다른 키워드들을 일반 키워드로 정의하고, 주제 키워드와 일반 키워드에 대해 문서 내에서의 빈도를 계산하여 이슈 주제 후보 정보를 구성한다(S1210).
도 13은 본 발명에 따른 서비스 대상 이슈 주제별로 관련 R&D정보와 동향정보를 패키징하는 방법을 나타낸 순서도이다.
도 13을 참조하면, 시스템은 이슈 주제 후보 정보 중에서 서비스 대상 이슈 주제를 선별하고, 가장 빈도가 높은 키워드를 핵심 주제어로 설정한다(S1302).
그런 후, 시스템은 서비스 대상 이슈 주제별로 연구분야, 관련 R&D 키워드, 관련 이전주제, 기술동향정보, 정책동향정보, 국가 R&D 과제정보, 국가 R&D 성과정보 중 적어도 하나를 추출한다(S1304).
그런 후, 시스템은 추출된 정보들을 서비스 대상 이슈 주제와 패키징한다(S1306).
이러한 맞춤형 국가 연구개발 정보 제공을 위한 방법은 프로그램으로 작성 가능하며, 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 맞춤형 국가 연구개발 정보 제공을 위한 방법에 관한 프로그램은 전자장치가 읽을 수 있는 정보저장매체(Readable Media)에 저장되고, 전자장치에 의하여 읽혀지고 실행될 수 있다.
이와 같이, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 실시 형태로 실시될 수 있다는 것을 인지할 수 있을 것이다. 따라서 이상에서 기술한 실시 예들은 예시적인 것일 뿐이며, 그 범위를 제한해놓은 한정적인 것이 아닌 것으로 이해해야만 한다. 또한, 도면에 도시된 순서도들은 본 발명을 실시함에 있어서 가장 바람직한 결과를 달성하기 위해 예시적으로 도시된 순차적인 순서에 불과하며, 다른 추가적인 단계들이 제공되거나, 일부 단계가 삭제될 수 있음은 물론이다.
본 명세서에서 기술한 기술적 특징과 이를 실행하는 구현물은 디지털 전자 회로로 구현되거나, 본 명세서에서 기술하는 구조 및 그 구조적인 등가물 등을 포함하는 컴퓨터 소프트웨어, 펌웨어 또는 하드웨어로 구현되거나, 이들 중 하나 이상의 조합으로 구현 가능하다. 또한 본 명세서에서 기술한 기술적 특징을 실행하는 구현물은 컴퓨터 프로그램 제품, 다시 말해 처리 시스템의 동작을 제어하기 위하여 또는 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령어에 관한 모듈로서 구현될 수도 있다.
한편, 본 명세서에서 "장치"나 "시스템"이라 함은 예를 들어, 프로세서, 컴퓨터 또는 다중 프로세서나 컴퓨터를 포함하여 데이터를 처리하기 위한 모든 기구, 장치 및 기계를 모두 포함한다. 처리 시스템은, 하드웨어에 부가하여 예를 들어, 프로세서 펌웨어를 구성하는 코드, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 제체 또는 이들 중 하나 이상의 조합 등 요청 시 컴퓨터 프로그램에 대한 실행 환경을 형성하는 모든 코드를 포함할 수 있다.
이하, 상기 기술한 내용과 더불어 본 명세서에 기술한 시스템과 MO 서비스 기반 혜택 제공 방법이 포함하는 구성들을 구현할 수 있는 보다 구체적인 실시 예에 대하여 자세히 기술하도록 한다.
본 명세서에서 기술한 시스템과 맞춤형 국가 연구개발 정보 제공을 위한 방법은 클라이언트 디바이스 또는 웹 기반의 스토리지 시스템과 관련된 서버 또는 서버에 포함된 하나 이상의 프로세서(Processor) 상에서 컴퓨터 소프트웨어, 프로그램 코드 또는 명령어를 실행하는 수단을 통해 부분적 또는 전체적으로 사용될 수 있다. 여기서 프로세서는 서버, 클라이언트, 네트워크 인프라 구조, 모바일 컴퓨팅 플랫폼, 고정 컴퓨팅 플랫폼 등과 같은 컴퓨팅 플랫폼 중 일부일 수 있으며, 구체적으로 프로그램 명령어, 코드 등을 실행할 수 있는 컴퓨터 또는 프로세싱 디바이스의 한 종류일 수 있다. 또한, 프로세서는 맞춤형 국가 연구개발 정보 제공을 위한 방법, 명령어, 코드 및 프로그램을 저장하는 메모리를 더 포함할 수 있으며, 메모리를 포함하지 않는 경우 별도의 인터페이스를 통해 MO 서비스 기반 혜택 제공 방법, 명령어, 코드 및 프로그램이 저장된 CD-ROM, DVD, 메모리, 하드 디스크, 플래시 드라이브, RAM, ROM, 캐시 등과 같은 스토리지 디바이스에 접근(Access)할 수도 있다.
또한, 본 명세서에서 기술한 시스템과 맞춤형 국가 연구개발 정보 제공을 위한 방법은 하드웨어 또는 특정 애플리케이션(Application)에 적합한 하드웨어와 소프트웨어의 조합으로 구현될 수 있다. 여기서 하드웨어는 개인용 컴퓨터, 이동통신 단말기 등과 같은 범용 컴퓨터 디바이스와 기업형 특정 컴퓨터 디바이스를 모두 포함하며, 컴퓨터 디바이스는 메모리, 마이크로프로세서, 마이크로콘트롤러, 디지털 신호 프로세서, 애플리케이션 집적 회로, 프로그래머블 게이트 어레이, 프로그래머블 어레이 조직 등을 포함하는 디바이스 또는 이들의 조합으로 구현될 수 있다.
이상에서 기술한 컴퓨터 소프트웨어, 명령어, 코드 등은 판독 가능한 디바이스에 의해 저장 또는 접근될 수 있으며, 여기서 판독 가능한 디바이스는 일정 시간 간격 동안 컴퓨팅하는데 사용되는 디지털 데이터를 구비하는 컴퓨터 컴포넌트, RAM 또는 ROM과 같은 반도체 스토리지, 광디스크와 같은 영구적인 스토리지, 하드 디스크, 테이프, 드럼 등과 같은 대용량 스토리지, CD 또는 DVD와 같은 광 스토리지, 플래시 메모리, 플로피 디스크, 자기 테이프, 페이퍼 테이프, 독립형 RAM 디스크, 컴퓨터로부터 착탈 가능한 대용량 스토리지와 동적 메모리, 정적 메모리, 가변 스토리지, 클라우드와 같은 네트워크 접속형 스토리지 등과 같은 메모리를 포함할 수 있다. 한편, 여기서 명령어와 코드 등은 SQL, dBase 등과 같은 데이터 지향 언어, C, Objective C, C++, 어셈블리 등과 같은 시스템 언어, Java, NET 등과 같은 아키텍처 언어, PHP, Ruby, Perl, Python 등과 같은 애플리케이션 언어 등과 같은 언어들을 모두 포함하지만, 이에 한정되지는 않고 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 널리 알려진 언어들을 모두 포함할 수 있다.
또한, 본 명세서에서 기술한 "컴퓨터에서 판독 가능한 매체"는 프로그램 실행을 위해 명령어를 프로세서로 제공하는데 기여하는 모든 매체를 포함한다. 구체적으로 데이터 스토리지 디바이스, 광디스크, 자기 디스크 등과 같은 비휘발성 매체, 동적 메모리 등과 같은 휘발성 매체와 데이터를 전송하는 동축 케이블, 구리 와이어, 광섬유 등과 같은 전송 매체를 포함하지만 이에 한정되지는 않는다.
한편, 본 명세서에 첨부된 도면에 도시된 블록도와 순서도에 포함된 본 발명의 기술적 특징을 실행하는 구성들은 상기 구성들 사이의 논리적인 경계를 의미한다. 그러나 소프트웨어나 하드웨어의 실시 예에 따르면, 도시된 구성들과 그 기능들은 독립형 소프트웨어 모듈, 모놀리식 소프트웨어 구조, 코드, 서비스 및 이들을 조합한 형태로 실행되며, 저장된 프로그램 코드, 명령어 등을 실행할 수 있는 프로세서를 구비한 컴퓨터에서 실행 가능한 매체에 저장되어 그 기능들이 구현될 수 있으므로 이러한 모든 실시 예 역시 본 발명의 권리범위 내에 속하는 것으로 보아야 할 것이다.
따라서, 첨부된 도면과 그에 대한 기술은 본 발명의 기술적 특징을 설명하기는 하나, 이러한 기술적 특징을 구현하기 위한 소프트웨어의 특정 배열이 분명하게 언급되지 않는 한, 단순히 추론되어서는 안된다. 즉, 이상에서 기술한 다양한 실시 예들이 존재할 수 있으며, 그러한 실시 예들이 본 발명과 동일한 기술적 특징을 보유하면서 일부 변형될 수 있으므로, 이 역시 본 발명의 권리범위 내에 속하는 것으로 보아야 할 것이다.
또한, 순서도의 경우 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 가장 바람직한 결과를 얻기 위하여 도시된 것으로서, 도시된 특정한 순서나 순차적인 순서대로 그러한 동작들을 반드시 실행되어야 한다거나 모든 도시된 동작들이 반드시 실행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티 태스킹과 병렬 프로세싱이 유리할 수 있다. 아울러, 이상에서 기술한 실시형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징될 수 있다는 점을 이해하여야 한다.
이와 같이, 본 명세서는 그 제시된 구체적인 용어에 의해 본 발명을 제한하려는 의도가 아니다. 따라서, 이상에서 기술한 실시 예를 참조하여 본 발명을 상세하게 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 범위를 벗어나지 않으면서도 본 실시 예들에 대한 개조, 변경 및 변형을 가할 수 있다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 권리범위에 포함되는 것으로 해석되어야 한다.
100 : 문서 서비스 서버
200 : 이슈 연관 국가 R&D 정보 패키징 시스템
210 : 문서 수집부
220 : 문서 분석부
230 : 패키지 구성 관리부

Claims (18)

  1. 문서를 수집하는 문서 수집부;
    상기 수집된 문서를 분석하여 키워드를 추출하고, 상기 추출된 키워드들을 클러스터링하여, 이슈 주제 후보 정보를 구성하는 문서 분석부; 및
    상기 이슈 주제 후보 정보 중에서 서비스 대상 이슈주제를 선별하고, 상기 선별된 서비스 대상 이슈 주제별로 관련 R&D정보와 동향정보를 추출 및 패키징하는 패키지 구성 관리부;
    를 포함하는 이슈 연관 국가 R&D정보 패키징 시스템.
  2. 제1항에 있어서,
    상기 문서 수집부는,
    문서를 수집하기 위한 출처정보를 등록하는 출처관리모듈;
    상기 등록된 출처정보로부터 문서를 수집하는 문서수집모듈; 및
    상기 수집된 문서를 등록일자별로 정렬하여 관리하는 문서관리모듈을 포함하는 것을 특징으로 하는 이슈 연관 국가 R&D정보 패키징 시스템.
  3. 제1항에 있어서,
    상기 문서 분석부는,
    상기 수집된 문서들을 형태소 분석하여 주요 키워드를 추출하고, 상기 추출된 주요 키워드들의 문서별 출현빈도를 근거로 키워드들을 추출하는 키워드 추출모듈;
    상기 추출된 키워드들을 클러스터링하여 연관관계가 높은 키워드 그룹을 추출하고, 해당 키워드가 기 설정된 기준 건수 이상 포함된 문서를 해당 키워드 그룹에 할당하는 클러스터링 모듈; 및
    각 키워드 그룹에 할당된 문서에 포함된 키워드 중 주제 키워드가 아닌 다른 키워드들을 일반 키워드로 정의하고, 주제 키워드와 일반 키워드에 대해 문서 내에서의 빈도를 계산하여 이슈 주제 후보 정보를 구성하는 이슈주제후보정보 구성모듈을 포함하는 것을 특징으로 하는 이슈 연관 국가 R&D정보 패키징 시스템.
  4. 제1항에 있어서,
    상기 패키지 구성 관리부는,
    상기 이슈 주제 후보 정보 중에서 서비스 대상 이슈 주제를 선별하고, 가장 빈도가 높은 키워드를 핵심 주제어로 설정하는 이슈 주제 관리모듈;
    상기 서비스 대상 이슈 주제별로 연구분야, 관련 R&D 키워드, 관련 이전주제, 기술동향정보, 정책동향정보, 국가 R&D 과제정보, 국가 R&D 성과정보 중 적어도 하나를 추출하는 정보추출모듈; 및
    상기 추출된 정보들을 서비스 대상 이슈 주제와 패키징하는 패키징 모듈을 포함하는 것을 특징으로 하는 이슈 연관 국가 R&D정보 패키징 시스템.
  5. 제4항에 있어서,
    상기 정보추출모듈은 서비스 대상 이슈 주제별로 주제 키워드와 R&D용어사전을 활용하여 연구분야 정보를 추출하는 것을 특징으로 하는 이슈 연관 국가 R&D정보 패키징 시스템.
  6. 제4항에 있어서,
    상기 정보추출모듈은 각 서비스 대상 이슈 주제의 주제 키워드가 R&D 용어사전에 존재하는 경우, 해당 주제 키워드에 대응하는 관련 R&D 키워드 후보에, 기 설정된 구분별 가중치를 적용 및 연산하여 관련 R&D 키워드 후보에 대한 점수를 계산하고, 상기 계산된 점수를 근거로 관련 R&D 키워드를 추출하는 것을 특징으로 하는 이슈 연관 국가 R&D정보 패키징 시스템.
  7. 제4항에 있어서,
    상기 정보추출모듈은 서비스 대상 이슈주제가 포함하고 있는 키워드들 중 일부를 포함하고 있는 이전주제들이 존재하는 경우, 키워드 가중치와 분류 가중치를 적용하여 유사도 점수를 계산하고, 상기 유사도 점수를 근거로 관련 이전주제를 추출하는 것을 특징으로 하는 이슈 연관 국가 R&D정보 패키징 시스템.
  8. 제4항에 있어서,
    상기 정보추출모듈은 서비스 대상 이슈주제가 포함하고 있는 키워드들 중 일부를 포함하고 있는 정책동향문서 또는 기술동향문서가 존재하는 경우, 기 설정된 키워드 가중치를 적용하여 유사도 점수를 계산하고, 상기 유사도 점수를 근거로 정책동향정보 또는 기술동향정보를 추출하는 것을 특징으로 하는 이슈 연관 국가 R&D정보 패키징 시스템.
  9. 제4항에 있어서,
    상기 정보추출모듈은 서비스 대상 이슈 주제의 연구분야, 주제키워드, 관련R&D키워드 정보를 이용한 검색엔진을 활용하여 국가 R&D 과제 정보 또는 국가 R&D 성과 정보를 추출하는 것을 특징으로 하는 이슈 연관 국가 R&D정보 패키징 시스템.
  10. 이슈 연관 국가 R&D정보 패키징 시스템이 맞춤형 국가 R&D 정보 제공을 위한 방법에 있어서,
    (a) 문서를 분석하여 키워드를 추출하고, 상기 추출된 키워드들을 클러스터링하여, 이슈 주제 후보 정보를 구성하는 단계; 및
    (b) 상기 이슈 주제 후보 정보 중에서 서비스 대상 이슈주제를 선별하고, 상기 선별된 서비스 대상 이슈 주제별로 관련 R&D정보와 동향정보를 추출 및 패키징하는 단계;
    를 포함하는 맞춤형 국가 연구개발 정보 제공을 위한 방법.
  11. 제10항에 있어서,
    상기 (b) 단계 이후,
    특정 이슈 주제에 대한 검색이 요청된 경우, 해당 이슈 주제와 패키징된 관련 R&D정보 및 동향정보를 제공하는 단계를 더 포함하는 맞춤형 국가 연구개발 정보 제공을 위한 방법.
  12. 제10항에 있어서,
    상기 (a) 단계는,
    상기 문서들을 형태소 분석하여 주요 키워드를 추출하고, 상기 추출된 주요 키워드들의 문서별 출현빈도를 근거로 키워드들을 추출하는 단계;
    상기 추출된 키워드들을 클러스터링하여 연관관계가 높은 키워드 그룹을 추출하고, 해당 키워드가 기 설정된 기준 건수 이상 포함된 문서를 해당 키워드 그룹에 할당하는 단계;
    각 키워드 그룹에 할당된 문서에 포함된 키워드 중 주제 키워드가 아닌 다른 키워드들을 일반 키워드로 정의하고, 주제 키워드와 일반 키워드에 대해 문서 내에서의 빈도를 계산하여 이슈 주제 후보 정보를 구성하는 단계를 포함하는 것을 특징으로 하는 맞춤형 국가 연구개발 정보 제공을 위한 방법.
  13. 제10항에 있어서,
    상기 (b) 단계는,
    상기 이슈 주제 후보 정보 중에서 서비스 대상 이슈 주제를 선별하고, 가장 빈도가 높은 키워드를 핵심 주제어로 설정하는 단계;
    상기 서비스 대상 이슈 주제별로 연구분야, 관련 R&D 키워드, 관련 이전주제, 기술동향정보, 정책동향정보, 국가 R&D 과제정보, 국가 R&D 성과정보 중 적어도 하나를 추출하는 단계;
    상기 추출된 정보들을 서비스 대상 이슈 주제와 패키징하는 단계를 포함하는 것을 특징으로 하는 맞춤형 국가 연구개발 정보 제공을 위한 방법.
  14. 제13항에 있어서,
    상기 관련 R&D 키워드는, 각 서비스 대상 이슈 주제의 주제 키워드가 R&D 용어사전에 존재하는 경우, 해당 주제 키워드에 대응하는 관련 R&D 키워드 후보에, 기 설정된 구분별 가중치를 적용 및 연산하여 관련 R&D 키워드 후보에 대한 점수를 계산하고, 상기 계산된 점수를 근거로 추출된 것을 특징으로 하는 맞춤형 국가 연구개발 정보 제공을 위한 방법.
  15. 제13항에 있어서,
    상기 관련 이전주제는, 서비스 대상 이슈주제가 포함하고 있는 키워드들 중 일부를 포함하고 있는 이전주제들이 존재하는 경우, 키워드 가중치와 분류 가중치를 적용하여 유사도 점수를 계산하고, 상기 유사도 점수를 근거로 추출된 것을 특징으로 하는 맞춤형 국가 연구개발 정보 제공을 위한 방법.
  16. 제13항에 있어서,
    상기 정책동향정보 또는 기술동향정보는, 서비스 대상 이슈주제가 포함하고 있는 키워드들 중 일부를 포함하고 있는 정책동향문서 또는 기술동향문서가 존재하는 경우, 기 설정된 키워드 가중치를 적용하여 유사도 점수를 계산하고, 상기 유사도 점수를 근거로 추출된 것을 특징으로 하는 맞춤형 국가 연구개발 정보 제공을 위한 방법.
  17. 제13항에 있어서,
    상기 국가 R&D 과제 정보 또는 국가 R&D 성과 정보는, 서비스 대상 이슈 주제의 연구분야, 주제키워드, 관련 R&D 키워드 정보를 이용한 검색엔진을 활용하여 추출된 것을 특징으로 하는 맞춤형 국가 연구개발 정보 제공을 위한 방법.
  18. 이슈 연관 국가 R&D정보 패키징 시스템에 의해 실행될 때,
    (a) 문서를 분석하여 키워드를 추출하고, 상기 추출된 키워드들을 클러스터링하여, 이슈 주제 후보 정보를 구성하는 단계; 및
    (b) 상기 이슈 주제 후보 정보 중에서 서비스 대상 이슈주제를 선별하고, 상기 선별된 서비스 대상 이슈 주제별로 관련 R&D정보와 동향정보를 추출 및 패키징하는 단계를 포함하는 맞춤형 국가 연구개발 정보 제공을 위한 방법을 구현하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체.
KR1020150061856A 2015-04-30 2015-04-30 맞춤형 국가 연구개발 정보 제공을 위한 시스템 및 방법 KR20160129548A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150061856A KR20160129548A (ko) 2015-04-30 2015-04-30 맞춤형 국가 연구개발 정보 제공을 위한 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150061856A KR20160129548A (ko) 2015-04-30 2015-04-30 맞춤형 국가 연구개발 정보 제공을 위한 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20160129548A true KR20160129548A (ko) 2016-11-09

Family

ID=57529243

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150061856A KR20160129548A (ko) 2015-04-30 2015-04-30 맞춤형 국가 연구개발 정보 제공을 위한 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR20160129548A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200003695A (ko) * 2018-07-02 2020-01-10 주식회사 비즈모델라인 기업 환경 마일리지 제공 추천 방법
KR20200122657A (ko) * 2019-04-18 2020-10-28 아주대학교산학협력단 표준 기반 연구개발 가이드라인 자동 생성 및 평가 시스템 및 그 방법
CN113222668A (zh) * 2021-05-24 2021-08-06 中国平安财产保险股份有限公司 增值服务推送方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130037975A (ko) 2011-10-07 2013-04-17 한국전자통신연구원 이슈 템플릿 추출 기반의 웹 동향 분석 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130037975A (ko) 2011-10-07 2013-04-17 한국전자통신연구원 이슈 템플릿 추출 기반의 웹 동향 분석 방법 및 장치

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200003695A (ko) * 2018-07-02 2020-01-10 주식회사 비즈모델라인 기업 환경 마일리지 제공 추천 방법
KR20200122657A (ko) * 2019-04-18 2020-10-28 아주대학교산학협력단 표준 기반 연구개발 가이드라인 자동 생성 및 평가 시스템 및 그 방법
CN113222668A (zh) * 2021-05-24 2021-08-06 中国平安财产保险股份有限公司 增值服务推送方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
JP6714024B2 (ja) 言語入力データからnグラムおよび概念関係の自動生成
US10970314B2 (en) Content discovery systems and methods
US10146878B2 (en) Method and system for creating filters for social data topic creation
KR20210040891A (ko) 정보 추천 방법과 장치, 전자 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램
US10078843B2 (en) Systems and methods for analyzing consumer sentiment with social perspective insight
US20150356174A1 (en) System and methods for capturing and analyzing documents to identify ideas in the documents
CN109804364A (zh) 知识图谱构建系统及方法
KR102064292B1 (ko) 개인화된 소셜네트워크서비스 컨텐츠 추천 방법 및 장치
US9940355B2 (en) Providing answers to questions having both rankable and probabilistic components
KR20070062408A (ko) 의미적 그리고 기능적 관계에 따라 포털 페이지상의포틀릿의 자동적 배치를 위한 시스템
US9910922B2 (en) Analysis of user's data to recommend connections
US11734360B2 (en) Methods and systems for facilitating classification of documents
KR20160129548A (ko) 맞춤형 국가 연구개발 정보 제공을 위한 시스템 및 방법
US20210192125A1 (en) Methods and systems for facilitating summarization of a document
US20210264480A1 (en) Text processing based interface accelerating
US20210157770A1 (en) Assisted updating of electronic documents
US11120204B2 (en) Comment-based article augmentation
CN114841155A (zh) 主题内容智能聚合方法、装置、电子设备及存储介质
CN116940937A (zh) 生成多模态话语树的技术
Ma et al. Api prober–a tool for analyzing web api features and clustering web apis
Acker et al. The Neil deGrasse Tyson Problem: Methods for Exploring Base Memes in Web Archives
US20220067539A1 (en) Knowledge induction using corpus expansion
KR102682244B1 (ko) Esg 보조 툴을 이용하여 정형화된 esg 데이터로 기계학습 모델을 학습하는 방법 및 기계학습 모델로 자동완성된 esg 문서를 생성하는 서비스 서버
US20210192813A1 (en) Methods and systems for facilitating generation of navigable visualizations of documents
Backfried12 et al. Open Source Intelligence for Traditional-and Social Media Sources

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application