KR20210143431A - 과학기술 지식정보의 추천을 위한 운영컴퓨터, 과학기술 지식정보 추천 시스템 및 그 방법 - Google Patents

과학기술 지식정보의 추천을 위한 운영컴퓨터, 과학기술 지식정보 추천 시스템 및 그 방법 Download PDF

Info

Publication number
KR20210143431A
KR20210143431A KR1020200060170A KR20200060170A KR20210143431A KR 20210143431 A KR20210143431 A KR 20210143431A KR 1020200060170 A KR1020200060170 A KR 1020200060170A KR 20200060170 A KR20200060170 A KR 20200060170A KR 20210143431 A KR20210143431 A KR 20210143431A
Authority
KR
South Korea
Prior art keywords
science
technology
knowledge information
information
similarity
Prior art date
Application number
KR1020200060170A
Other languages
English (en)
Other versions
KR102371329B1 (ko
Inventor
김인수
Original Assignee
위인터랙트(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 위인터랙트(주) filed Critical 위인터랙트(주)
Priority to KR1020200060170A priority Critical patent/KR102371329B1/ko
Priority to PCT/KR2020/014373 priority patent/WO2021235617A1/ko
Publication of KR20210143431A publication Critical patent/KR20210143431A/ko
Application granted granted Critical
Publication of KR102371329B1 publication Critical patent/KR102371329B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 과학기술 지식정보 추천 시스템 및 그 방법에 관한 것으로서, 본 발명에서는, 대량의 과학기술문서에서 텍스트 데이터 전처리 및 인공신경망 학습을 통해 과학기술 정보의 단어 유사도 모델을 구축하는 단어유사도모델구축수단과; 국제 또는 국내 과학기술분류체계를 기초로 최상위 과학기술 R&D 분류체계를 구축하는 최상위과학기술R&D구축수단과; 구축된 상기 최상위 과학기술 R&D 분류체계 간의 유사도를 토대로 기준 유사도 네트워크를 구축하는 기준유사도네트워크구축수단과; 구축된 기준 유사도 네트워크를 이용하여 특허 및 논문 정보를 포함하는 과학기술 지식정보를 추가한 과학기술 지식정보 유사도 네트워크를 구축하는 과학기술 지식정보유사도네트워크구축수단과; 구축된 과학기술 지식정보 유사도 네트워크 내 회원 주변의 특허와 논문을 포함하는 과학기술 지식정보를 추천하는 과학기술 지식정보추천수단을 포함하는 과학기술 지식정보 추천 시스템 및 그 방법이 제시된다.

Description

과학기술 지식정보 추천 시스템 및 그 방법{Scientific and technological information recommendation system and method thereof}
본 발명은 과학기술 지식정보 추천 시스템 및 그 방법에 관한 것이다. 더 상세하게는 사용자정보 기반으로 사용자 맞춤형 과학기술 지식정보 추천으로서, 각 다양한 분야의 과학기술 지식정보의 효율적인 추천을 위해 특허정보, 논문정보 및 사용자정보들 간의 과학기술 지식정보를 연결할 수 있는 최상위 과학기술 연구개발 분류체계를 구축하고, 구축된 최상위 과학기술 연구개발 분류체계를 기준으로 과학기술 메타데이터(과학기술 지식정보) 유사도 네트워크를 구축하고, 구축된 과학기술 지식정보 유사도 네트워크 내 사용자 주변의 특허와 논문을 사용자에게 맞춤형으로 추천할 수 있는 과학기술 지식정보 추천 시스템 및 그 방법에 관한 것이다.
연구자 또는 기업 등은 지속적인 과학기술의 연구개발을 하고 있고, 그 성과를 내고 있다. 연구자의 경우 주로 본인이 연구해 온 과학기술분야에 관한 연구를 주로 관련 기술분야의 논문 등을 참조하면서 연구를 지속하고 있다. 기업들의 경우는 기술개발 분야의 부서별 개발자들이 회사의 후속 아이템 또는 신사업 아이템에 관하여 논의를 통하여 협업으로 개발을 지속하고 있다.
그러나 현재의 연구자들 또는 기업들은 연구개발을 하기 위한 관련 기술분야의 특허정보나 논문정보 등을 사용자 중심의 체계적이고 맞춤형으로 제공받거나 접할 수 없어서, 연구자 들의 시간과 노력을 투입하여 필요한 과학기술 지식정보를 확보하고 있는 상황이다.
이와 같은 문제점을 해결하기 위한 연구가 계속되어 왔다. 관련된 발명을 살펴보면, 대한민국 공개특허번호 제10-2019-0115505호(공개일: 2019년10월14일)의 기업 맞춤형 후속 개발 아이템 발굴 방법의 발명이 공개되어 있다.
상기 공개발명은, 기업 맞춤형 후속 개발 아이템 발굴 방법으로서, (a) 특허 출원인이 대기업, 대학교 또는 공공연구기관인 특허를 제외하고 특허 데이터베이스를 구축하는 단계; (b) 특허 데이터베이스에서, 각 출원인별로 IPC에 대한 특허 빈도수를 이용하여 IPC별 선호도를 계산하여 구축하는 단계; (c) 상기 데이터베이스를 구축한 후, 사용자 시스템에서 기준 출원인을 설정하고, 설정된 기준 출원인과 임의 출원인 간의 IPC별 선호도를 이용하여 기준 출원인과 임의 출원인 간의 유사도를 계산하여 유사기업을 추출하는 단계; (d) 상기 기준 출원인과 유사기업 간의 유사도와 특정 IPC에 대한 유사기업의 특허 빈도수를 이용하여 각 IPC별 연관지수를 산출하는 단계; 및 (e) 상기에서 연관지수가 높은 IPC를 추출하고, 추출된 IPC에 대응되는 기술분야를 후속 아이템으로 추천하는 단계를 포함하는 발명이다.
상기에서 선호도는 특허 빈도수 또는 상기 특허 빈도수에 퍼지를 적용하여 일정범위 내로 조정된 퍼지 적용값이며, 상기 퍼지 적용값은 특허 빈도수에 퍼지를 적용하여 일정 척도로 변환된 값인 것을 특징으로 하고, 또한, 유사도는 기준 출원인의 특정 IPC의 선호도값과 임의 출원인의 특정 IPC의 선호도값을 이용하여 산출될 수 있으며, 연관지수는 임의 출원인이 해당 특허분류코드에 특허를 출원한 빈도수와 기준 출원인과 상기 임의 출원인의 유사도를 곱한 값의 합을 정규화시킨 값이고, 상기 (d)단계를 수행한 후, 상기 후속 아이템으로 추천된 특허분류코드의 기술 특성을 분석하여, 기준 출원인이 보유한 기술영역과의 이종성, 해당 특허분류코드의 경쟁도, 및 해당 특허분류코드의 자체 성장정도를 나타내는 성장성 중 적어도 하나 이상을 산출한 후 특허분류코드별로 R&D방향을 제시하는 단계를 더 포함하는 발명이다.
상기 이종성은 연관지수가 높은 특정 특허분류코드와 기준 출원인이 보유하고 있는 특허분류코드 간의 유사도에 대한 역수로 표현되고, 상기 경쟁도는 연관지수가 높은 특정 특허분류코드에 출원된 특허 총량을 의미하며, 상기 성장성은 연관지수가 높은 특정 특허분류코드에 출원된 특허의 평균 증가율을 의미하는 발명이다.
상기 공개발명은 특허 출원인이 대기업, 대학교 또는 공공연구기관인 특허를 제외하고 특허 데이터베이스를 구축하고, 특허 데이터베이스에서, 각 출원인별로 IPC에 대한 특허 빈도수를 이용하여 IPC별 선호도를 계산하여 구축하고, 상기 데이터베이스를 구축한 후, 사용자 시스템에서 기준 출원인을 설정하고, 설정된 기준 출원인과 임의 출원인 간의 IPC별 선호도를 이용하여 기준 출원인과 임의 출원인 간의 유사도를 계산하여 산출된 IPC별로 연구개발 방향을 추천하는 발명이다.
그러나, 상기 공개발명은 특허 데이터베이스의 국제특허분류(IPC)를 기준으로 기준 출원인과 인의 출원인의 IPC별 선호도 및 이를 기초로 유사도를 산출하여 추천하는 구성으로, 연구개발에 관한 다양한 과학기술 지식정보의 각 요소들을 포함할 수 없으므로 다양한 과학기술 지식정보를 기반으로 체계적이고 맞춤형 과학기술 지식정보를 제공할 수 없는 문제가 있다.
따라서, 사용자정보 기반으로 사용자 맞춤형 과학기술 지식정보 추천으로서, 각 다양한 분야의 과학기술 지식정보의 효율적인 추천을 위해 특허정보, 논문정보 및 사용자정보들 간의 과학기술 지식정보를 연결할 수 있는 최상위 과학기술 연구개발 분류체계를 구축하고, 구축된 최상위 과학기술 연구개발 분류체계를 기준으로 과학기술 메타데이터(과학기술 지식정보) 유사도 네트워크를 구축하고, 구축된 과학기술 지식정보 유사도 네트워크 내 사용자 주변의 특허와 논문을 사용자에게 맞춤형으로 추천할 수 있는 발명이 요망된다.
대한민국 공개특허번호 제10-2019-0115505호(공개일: 2019년10월14일)
본 발명은 상기 종래기술의 문제점을 해결하기 위한 것으로, 본 발명의 목적은 사용자 정보 기반으로 사용자 맞춤형 과학기술 지식정보 추천으로서, 각 다양한 분야의 과학기술 지식정보의 효율적인 추천을 위해 특허정보, 논문정보 및 사용자 정보들 간의 과학기술 지식정보를 연결할 수 있는 최상위 과학기술 연구개발 분류체계를 구축하고, 구축된 최상위 과학기술 연구개발 분류체계를 기준으로 과학기술 메타데이터(과학기술 지식정보)의 유사도 네트워크를 구축하고, 구축된 과학기술 지식정보 유사도 네트워크 내 사용자 주변의 특허와 논문 정보를 사용자에게 맞춤형으로 추천할 수 있는 과학기술 지식정보 추천 시스템 및 그 방법을 제공함에 있다.
상기 본 발명의 목적을 달성하기 위한 기술적 해결 수단으로서, 본 발명의 제1 관점으로, 과학기술 지식정보를 수집하여 관리하고 수집된 과학기술 지식정보를 기초로 과학기술 지식정보 유사도 네트워크를 구축하여 사용자들에게 맞춤형으로 과학기술 지식정보를 제공하는 운영컴퓨터와; 상기 운영컴퓨터에 통신 접속되어 상기 운영컴퓨터에 회원 가입한 회원정보, 회원들의 과학기술 관련 정보 및 회원들의 과학기술 지식정보 이용 정보 등을 저장하고 관리하는 회원정보데이터저장부와; 상기 운영컴퓨터에 통신 접속되어 상기 운영컴퓨터가 수집하는 특허정보, 논문정보 및 사회관계망에서 수집한 수집정보 등을 저장하고 관리하는 과학기술 지식정보데이터저장부와; 상기 운영컴퓨터에 통신 접속되어 과학기술 단어기반 유사도모델 정보, 과학기술 관련 연구개발 분류 정보, 과학기술 지식정보의 유사도 네트워크 정보 및 상기 운영컴퓨터가 구축한 과학기술 지식정보의 이용 정보를 저장하고 관리하는 구축과학기술 지식정보데이터저장부와; 상기 운영컴퓨터에 통신 접속되어 회원 가입, 사용자 과학기술 관련 정보 등을 제공하고 상기 운영컴퓨터로부터 맞춤형 과학기술 지식정보를 제공받는 적어도 하나의 사용자단말기와; 상기 운영컴퓨터와 통신 접속되어 상기 운영컴퓨터의 정보 제공 요청에 따라서 과학기술문서정보를 제공하는 과학기술정보제공컴퓨터와; 상기 운영컴퓨터와 통신 접속되어 상기 운영컴퓨터의 정보 제공 요청에 따라서 특허정보를 제공하는 특허정보제공컴퓨터와; 상기 운영컴퓨터와 통신 접속되어 상기 운영컴퓨터의 정보 제공 요청에 따라서 논문정보를 제공하는 논문정보제공컴퓨터와; 상기 운영컴퓨터가 통신 접속하여 과학기술 관련 각종 정보를 수집하는 인터넷, 소셜네트워크 등의 사회관계망매체를 포함하고;
상기 운영컴퓨터가 대량의 과학기술문서에서 텍스트 데이터 전처리 및 인공신경망 학습을 통해 과학기술 정보의 단어 유사도 모델을 구축하고, 국제 또는 국내 과학기술분류체계를 기초로 최상위 과학기술 R&D 분류체계를 구축하여 저장시키고, 구축된 상기 최상위 과학기술 R&D 분류체계 간의 유사도를 토대로 기준 유사도 네트워크를 구축하여 저장시키고, 구축된 기준 유사도 네트워크를 이용하여 특허 및 논문 정보를 포함하는 과학기술 지식정보를 추가한 과학기술 지식정보 유사도 네트워크를 구축하여 저장시키고, 구축된 과학기술 지식정보 유사도 네트워크 내 회원 주변의 특허와 논문을 사용자에게 추천하는 것을 특징으로 하는 과학기술 지식정보 추천시스템이 제시된다.
또한, 본 발명의 제2 관점으로, 운영컴퓨터가 대량의 과학기술문서에서 텍스트 데이터 전처리 및 인공신경망 학습을 통해 과학기술 정보의 단어 유사도 모델을 구축하는 단계와; 상기 운영컴퓨터가 이질적인 과학기술 지식정보를 연결할 수 있는 최상위 과학기술 연구개발(R&D) 분류 체계를 구축하는 단계와; 상기 운영컴퓨터가 상기 단어 유사도 모델을 이용하여 최상위 과학기술 R&D 분류체계 간 유사도 계산을 수행하여 기준 과학기술 지식정보 유사도 네트워크를 구축하는 단계와; 상기 운영컴퓨터가 구축된 상기 기준 과학기술 지식정보 유사도 네트워크를 이용하여 과학기술 지식정보를 추가한 과학기술 지식정보 유사도 네트워크를 구축하는 단계와; 상기 운영컴퓨터가 사용자의 회원 가입시 입력한 산업분류, 관심분야, 전문분야 및 대학전공을 포함하는 회원 정보를 이용하여 구축된 상기 과학기술 지식정보 유사도 네트워크 내 회원의 초기 유사도를 산출하는 단계(S140)와; 상기 운영컴퓨터가 상기 과학기술 지식정보 유사도 네트워크 내 회원 주변의 과학기술 지식정보를 추천하는 단계를 포함하는 과학기술 지식정보 추천 방법이 제시된다.
본 발명에 의하면, 각 다양한 분야의 과학기술 지식정보의 효율적인 추천을 위해 특허정보, 논문정보 및 사용자 정보들 간의 과학기술 지식정보를 연결할 수 있는 최상위 과학기술 연구개발 분류체계를 구축하고, 구축된 최상위 과학기술 연구개발 분류체계를 기준으로 과학기술 메타데이터(과학기술 지식정보)의 유사도 네트워크를 구축하고, 구축된 과학기술 지식정보 유사도 네트워크 내 사용자 주변의 특허와 논문을 포함하는 과학기술 지식정보를 사용자에게 맞춤형으로 추천할 수 있는 효과가 있다.
도 1`은 본 발명의 과학기술 지식정보 추천 시스템의 실시예에 관한 개략적인 구성도이다.
도 2는 본 발명의 과학기술 지식정보 추천 시스템의 주요부인 운영컴퓨터의 실시예에 관한 개략적인 구성도이다.
도 3은 본 발명의 과학기술 지식정보 추천 방법의 실시예를 설명하기 위한 흐름도이다.
도 4는 본 발명의 과학기술 지식정보 추천 방법의 주요부를 설명하기 위한 흐름도이다.
도 5는 본 발명의 과학기술 지식정보 추천 방법의 주요부를 설명하기 위한 흐름도이다.
이하에서 본 발명의 실시예를 첨부한 도면을 참조하면서 상세히 설명하기로 한다.
본 발명의 실시예의 설명에 사용되는 용어에 관해 정의하기로 한다. 본 발명에서 사용하는 각종 컴퓨터 및 단말기는 하드웨어 자체 구성일 수 있고, 그 하드웨어 자원을 활용하는 컴퓨터 프로그램, 웹프로그램의 구성일 수 있다. 예를 들면 본 발명의 운영컴퓨터는 컴퓨터에 포함된 하드웨어의 각 구성으로 이루어질 수 있고, 그 컴퓨터의 하드웨어 자원을 활용하여 실행되는 컴퓨터 프로그램 또는 웹프로그램으로 이루어질 수 있다.
또한, 본 발명의 실시예에 설명되는 '사용자인터페이스'는 사용자단말기에 출력되거나 설치되어 실행되는 웹프로그램 또는 어플리케이션프로그램일 수 있다.
또한, 본 발명의 실시예에서 설명되는 '~부'는 '~수단'으로도 대체하여 사용할 수 있다. 여기에서 '~부' 또는 '~수단'은 하드웨어 자체의 구성요소일 수 있고 바람직하게는 소프트웨어 또는 프로그램의 구성요소로 구성될 수 있다.
도 1은 본 발명의 과학기술 지식정보 추천 시스템의 실시예에 관한 개략적인 구성도이다.
도 1에 도시한 바와 같이 본 발명의 과학기술 지식정보 추천 시스템은, 과학기술 지식정보를 수집하여 관리하고 수집된 과학기술 지식정보를 기초로 과학기술 지식정보 유사도 네트워크를 구축하여 사용자들에게 맞춤형으로 과학기술 지식정보를 제공하는 운영컴퓨터(100)와; 상기 운영컴퓨터(100)에 통신 접속되어 상기 운영컴퓨터(100)에 회원 가입한 회원정보, 회원들의 과학기술 관련 정보 및 회원들의 과학기술 지식정보 이용 정보 등을 저장하고 관리하는 회원정보데이터저장부(200)와; 상기 운영컴퓨터(100)에 통신 접속되어 상기 운영컴퓨터(100)가 수집하는 특허정보, 논문정보 및 사회관계망에서 수집한 수집정보 등을 저장하고 관리하는 과학기술 지식정보데이터저장부(300)와; 상기 운영컴퓨터(100)에 통신 접속되어 구축한 과학기술 정보 단어의 유사도 모델 정보, 과학기술 관련 연구개발 분류 정보, 과학기술 지식정보의 유사도 네트워크 정보 및 상기 운영컴퓨터(100)가 구축한 과학기술 지식정보의 이용 정보를 저장하고 관리하는 과학기술 지식정보활용데이터저장부(400)와; 상기 운영컴퓨터(100)에 통신 접속되어 회원 가입, 사용자 과학기술 관련 정보 등을 제공하고 상기 운영컴퓨터(100)로부터 맞춤형 과학기술 지식정보를 제공받는 적어도 하나의 사용자단말기(500)와; 상기 운영컴퓨터(100)와 통신 접속되어 상기 운영컴퓨터의 정보 제공 요청에 따라서 과학기술문서 정보를 제공하는 과학기술정보제공컴퓨터(600)와; 상기 운영컴퓨터(100)와 통신 접속되어 상기 운영컴퓨터의 정보 제공 요청에 따라서 특허정보를 제공하는 특허정보제공컴퓨터(700)와; 상기 운영컴퓨터(100)와 통신 접속되어 상기 운영컴퓨터(100)의 정보 제공 요청에 따라서 논문정보를 제공하는 논문정보제공컴퓨터(800)와; 상기 운영컴퓨터(100)가 통신 접속하여 과학기술 관련 각종 정보를 수집할 수 있는 인터넷 웹사이트, 블로그, 소셜네트워크 등의 사회관계망매체(900)를 포함하는 구성이다.
상기 운영컴퓨터(100), 과학기술정보제공컴퓨터(600), 특허정보제공컴퓨터(700) 및 논문정보제공컴퓨터(800)는 자체 데이터저장수단을 구비하거나 외부 데이터저장수단과 통신 접속되고, 본 발명의 과학기술 지식정보 추천 시스템의 운용 및 이용을 위한 수단을 구비한 적어도 하나의 서버 컴퓨터로 구성될 수 있다.
상기 과학기술정보제공컴퓨터(600)는 대량의 과학기술문서 파일을 구비하고 있는 국가별 과학기술문서 데이터베이스 또는 세계 각국의 통합 과학기술문서 데이터베이스를 제공하는 서버로 구성될 수 있다. 상기 특허정보제공컴퓨터(700)는 각국의 특허청 특허정보 데이터베이스 서버 또는 세계 각국의 통합 특허정보 데이터베이스를 제공하는 서버로 구성될 수 있다. 각국의 특허정보 데이터베이스는 예를 들면, 대한민국의 경우 국내 특허정보를 포함한 지식재산권 정보를 구비하여 사용자에게 제공하는 웹사이트 'www.kipris.or.kr'가 구비한 데이터베이스를 들 수 있고, 세계 각국의 통합 특허정보 데이터베이스는 세계 각국의 특허정보를 구비하여 사용자에게 제공하는 웹사이트 'www.escape.net'이 구비한 데이터베이스를 들 수 있다.
상기 논문정보제공컴퓨터(800)는 각국의 논문정보 데이터베이스 서버 또는 세계 각국의 통합 논문정보 데이터베이스를 제공하는 서버로 구성될 수 있다. 각국의 특허정보 데이터베이스 및 는 예를 들면, 대한민국의 경우 국내 논문정보 및 세계 각국의 통합 논문정보를 포함한 논문정보를 구비하여 사용자에게 제공하는 웹사이트 'www.ndsl.kr'가 구비한 데이터베이스를 들 수 있다.
상기 회원정보데이터저장부(200), 과학기술 지식정보데이터저장부(300) 및 과학기술 지식정보활용데이터저장부(400)는 상기 운영컴퓨터(100)가 구비한 데이터저장수단으로 구성될 수 있고, 바람직하게는 데이터베이스관리서버시스템(DBMS)으로 구성될 수 있다. 또한, 하나의 서버시스템으로 구성될 수 있고 각각 분리된 서버시스템으로 구성될 수 있다.
상기 회원정보데이터저장부(200)는, 본 발명의 과학기술 지식정보 추천 시스템을 이용하기 위해 회원으로 가입한 사용자들의 기본적인 회원정보 및 회원 노드별 점수 정보를 저장하고 관리하는 회원정보저장부(210)와; 사용자가 회원 가입시 사용자인터페이스에서 선택 또는 입력한 산업분류 정보를 저장하고 관리하는 산업분류정보저장부(220)와; 사용자가 회원 가입시 사용자인터페이스에서 선택 또는 입력한 사용자의 관심사(분야) 정보를 저장하고 관리하는 관심분야정보저장부(230)와; 사용자가 회원 가입시 사용자인터페이스에서 선택 또는 입력한 사용자의 현재 전문분야 정보를 저장하고 관리하는 전문분야정보저장부(240)와; 사용자가 회원 가입시 사용자인터페이스에서 선택 또는 입력한 사용자의 대학전공 정보를 저장하고 관리하는 대학전공정보저장부(250)와; 회원이 본 발명의 과학기술 지식정보 추천 시스템에 사용자인터페이스를 통해 과학기술 지식정보 추천을 이용한 정보를 저장하고 관리하는 회원이용정보저장부(260)를 포함하는 구성이다.
상기 과학기술 지식정보데이터저장부(300)는, 수집된 세계 각국의 특허정보(등록특허 및 공개특허)를 저장하고 관리하는 특허정보데이터저장부(310)와; 수집된 세계 각국의 논문정보를 저장하고 관리하는 논문정보데이터저장부(320)와; 상기 운영컴퓨터(100)가 상기 사회관계망매체(900)를 통하여 수집된 과학기술 관련 정보를 저장하고 관리하는 수집정보데이터저장부(330)를 포함하는 구성이다.
상기 과학기술 지식정보활용데이터저장부(400)는, 대량의 과학기술 문서에서 분석 및 학습을 통하여 수행한 과학기술 단어 유사도 모델을 저장하고 관리하는 과학기술단어유사도모델저장부(410)와; 과학기술 지식정보를 연결할 수 있도록 국제적인 과학기술분류체계 및 국내 과학기술분류체계를 정리하여 구축한 최상위 과학기술 R&D 분류체계를 저장하고 관리하는 최상위과학기술R&D분류정보저장부(420)와; 과학기술 단어 유사도 모델을 이용하여 최상위 과학기술 R&D 분류체계 간의 유사도를 계산하여 구축한 기준 과학기술 지식정보 유사도 네트워크 정보를 저장하고 관리하는 기준과학기술 지식정보네트워크정보저장부(430)와; 기준 과학기술 지식정보 유사도 네트워크에 과학기술 지식정보를 추가하여 구축한 과학기술 지식정보 유사도 네트워크 정보를 저장하는 과학기술 지식정보유사도네트워크정보저장부(440)와; 구축된 과학기술 지식정보 유사도 네트워크에서 추천된 과학기술 지식정보의 이용 정보를 저장하고 관리하는 과학기술 지식정보이용정보저장부(450)를 포함하는 구성이다.
상기 회원정보데이터저장부(200), 과학기술 지식정보데이터저장부(300) 및 과학기술 지식정보활용데이터저장부(400)를 각각 분리해서 설명했으나, 이에 한정되는 것은 아니다. 통합된 저장 및 관리수단을 이용하여 구성할 수 있고, 상기 회원정보데이터저장부(200), 과학기술 지식정보데이터저장부(300) 및 과학기술 지식정보활용데이터저장부(400)에 포함된 것으로 설명한 각각의 저장부도 이용 및 기능면에서 필요에 따라 그 배치를 변경하여 구성될 수 있음은 물론이다.
상기 사용자단말기(500)는 상기 운영컴퓨터(100)가 제공하는 웹사이트 또는 웹프로그램으로 이루어진 사용자인터페이스를 출력시키거나, 상기 운영컴퓨터(100) 또는 애플리케이션 프로그램 다운로드 컴퓨터에서 제공하는 사용자인터페이스를 다운로드하여 실행시키거나, 또는 클라우드컴퓨팅시스템에 접속하여 사용자인터페이스를 출력시킬 수 있는 수단을 구비한, 휴대전화, 스마트폰, 태블릿컴퓨터, 노트북 또는 개인용컴퓨터(PC) 등으로 구성될 수 있다.
도 2는 본 발명의 과학기술 지식정보 추천 시스템의 주요부인 운영컴퓨터의 실시예에 관한 개략적인 구성도이다.
도 2에 도시한 바와 같이 본 발명의 운영컴퓨터(100)는, 사용자단말기에 제공할 사용자인터페이스의 식별정보 및 업데이트 정보 등을 관리하는 사용자인터페이스관리부(101)와; 세계 각국의 과학기술 정보, 특허정보, 논문정보 등을 수집하는 과학기술정보수집관리부(102)와; 본 발명의 과학기술 지식정보 추천 시스템을 이용하는 사용자들이 회원으로 가입한 기본적인 회원정보 및 회원 노드별 점수 정보를 저장시키고 관리하는 회원정보관리부(103)와; 상기 사용자들이 회원 가입시 선택 또는 입력한 산업분류, 관심분야, 전문분야 및 대학전공 정보를 저장시키고 관리하는 회원과학기술 지식정보관리부(104)와; 상기 과학기술정보수집관리부(102)에서 수집한 세계 각국의 특허정보를 저장 및 추출 등의 관리를 수행하는 특허정보관리부(105)와; 상기 과학기술정보수집관리부(102)에서 수집한 세계 각국의 과학기술 관련 논문정보를 저장 및 추출 등의 관리를 수행하는 논문정보관리부(106)와; 상기 과학기술정보수집관리부(102)에서 인터넷, SNS 등의 사회관계망을 통해 수집한 세계 각국의 과학기술 정보를 저장시키고 관리를 수행하는 수집과학기술정보관리부(107)와; 대량의 과학기술 문서에서 분석과 학습을 통하여 단어의 유사도 모델을 구축하고 관리하는 과학기술단어유사도모델정보관리부(108)와; 과학기술 지식정보를 연결할 수 있도록 국제적인 과학기술분류체계 및 국내 과학기술분류체계를 정리하여 구축한 최상위 과학기술 R&D 분류체계를 구축하고 관리하는 최상위과학기술R&D분류정보관리부(109)와; 과학기술 단어 유사도 모델을 이용하여 최상위 과학기술 R&D 분류체계 간의 유사도를 계산하여 구축한 기준 과학기술 지식정보 유사도 네트워크를 구축하고 관리하는 기준과학기술 지식정보유사도네트워크정보관리부(110)와; 상기 기준 과학기술 지식정보 유사도 네트워크에 과학기술 지식정보를 추가하여 과학기술 지식정보 유사도 네트워크를 구축하고 관리하는 과학기술 지식정보유사도네트워크정보관리부(111)와; 상기 과학기술 지식정보 유사도 네트워크 내 사용자의 유사도를 산출하여 관리하는 사용자과학기술 지식정보유사도산출정보관리부(112)와; 사용자에게 추천할 과학기술 지식정보의 목록을 생성시켜 관리하는 과학기술 지식정보추천정보관리부(113)와; 구축된 과학기술 지식정보 유사도 네트워크 내에서 생성된 추천 과학기술 지식정보의 이용 정보를 관리하는 과학기술 지식정보이용정보관리부(114)와; 회원의 과학기술 지식정보 이용 현황 정보를 관리하는 사용자과학기술 지식정보이용정보관리부(115)를 포함하는 구성이다.
상기 도 1 및 도 2를 참조하여 본 발명의 과학기술 지식정보 추천 시스템의 작용에 관해 상세히 설명하기로 한다.
상기 운영컴퓨터(100)는 본 발명의 과학기술 지식정보 추천 시스템을 이용하고자 하는 사용자들로부터 회원가입을 받고, 사용자들이 회원 가입시 제공한 기본적인 회원정보 및 산업분류, 관심분야, 전문분야 및 대학전공과 같은 사용자 과학기술 지식정보를 수신하여 관리한다.
또한, 상기 운영컴퓨터(100)는 자체 수집하거나 외부에서 전송한 대량의 과학기술 문서 파일을 기초로 각 과학기술 문서에서 불필요한 문단을 제외한 주요 본문을 추출하고, 추출된 과학기술 문서의 본문에서 형태소 분석 알고리즘을 이용하여 본문 중의 명사 단어만을 추출한 후, 전치사, 관사 등 많이 등장하는 단어 등 문장이나 문서의 특징을 표현하는데 불필요한 단어를 삭제하는 불용어 처리를 수행한다.
여기서, 형태소 분석 알고리즘에서의 형태소란 언어에 있어서 "최소 의미 단위"를 말한다. 이 때 의미는 어휘적 의미와 문법적 의미를 모두 포함한다. 형태소 분석이란 형태소 보다 단위가 큰 언어 단위인 어절, 혹은 문장을 최소 의미 단위인 형태소로 분절하는 과정을 의미한다.
대량의 과학기술 문서 파일에서 추출하여 불용어 처리된 명사 단어 간의 의미를 특정 벡터 값으로 계산을 하고 인공신경망 학습 또는 머신러닝의 일종인 비지도 학습(unsupervised learning) 알고리즘을 적용하여 추출된 단어간의 유사도 모델을 구축한다.
여기서, 비지도 학습 알고리즘은, 입력 데이터에 대한 목표값이 없이 데이터가 어떻게 구성되었는지를 알아내는 것으로서, 비정제 데이터를 입력하여 훈련 데이터가 없이 데이터의 특징 요약과 군집(clustering)을 수행함으로써, 목표값을 정해주지 않아도 되고 사전 학습이 필요 없으므로 속도가 빠른 머신러닝 방법이다.
상기 대량의 과학기술 문서에서의 단어 유사도 모델의 구축을 정리하면, 대량의 과학기술문서 데이터베이스에서 각 과학기술문서에서 본문을 추출하고, 이 과정에서 본문 중 불필요한 문단은 제외시킴, 추출된 주요 본문에서 명사로 이루어진 단어를 추출하고, 추출된 단에에서 불용어 처리를 수행하고, 그 단어를 기반으로 인공신경망 또는 머신러닝 학습을 통하여 과학기술 관련 단어 유사도 모델을 구축한다. 즉, 대량의 과학기술 문서 파일에서 텍스트 데이터의 전처리를 수행하고, 인공신경망(neural network) 또는 머신러닝(machine learning)을 통한 학습을 통해 과학기술 관련 단어 유사도 모델을 구축할 수 있다.
다시 정리하면, 자체 수집하거나 외부에서 전송한 대량의 과학기술 문서 파일을 기초로 각 과학기술 문서 내 문장과 단어의 유사도를 계산하고,유사도 비교를 통해 문장과 단어에 가중치를 매겨 불필요한 문단을 제외한 주요 본문을 추출하고,추출된 과학기술 문서의 본문에서 형태소 분석 기법을 이용하여 명사 단어만을 추출하고, 등장 빈도가 적은 단어, 길이가 짧은 단어 등 문장이나 문서의 특징을 표현하는데 불필요한 단어를 삭제하는 불용어 처리를 수행하고, 불용어 처리된 단어 간의 의미를 특정 벡터 값으로 계산하여 모델 학습을 위한 트레이닝 데이터를 구축하고, 인공신경망 또는 머신러닝의 일종인 비지도 학습(unsupervised learning) 알고리즘을 적용한 모델을 학습하여 추출된 단어간의 유사도 모델을 구축하도록 구성될 수 있다.
또한, 상기 운영컴퓨터(100)는 각각 이질적인 과학기술 분야 과학기술 지식정보들, 예를 들면 과학기술관련 논문, 특허 및 과학기술 전문가인 사용자 정보, 간의 효과적인 과학기술 지식정보 추천 시스템을 구축하기 위한 과학기술 지식정보를 연결할 수 있는 최상위 과학기술 R&D 분류체계를 구축한다. 상기 최상위 과학기술 R&D 분류체계의 구축은 국내는 물론 국제적인 정보를 활용할 수 있다. 예를 들면, OECD의 FORD 체계와 대한민국의 국가과학기술분류체계를 정리 및 통합하여 구축할 수 있다. 그 구축 형태의 예로서, 수학분야를, 대분류로 수학, 중분류를 대수학, 소분류를 선형대수와 같이 분류체계를 구축할 수 있다.
상기 운영컴퓨터(100)는 구축된 상기 과학기술 관련 단어 유사도 모델을 이용하여 구축된 상기 최상위 과학기술 R&D 분류체계 간의 유사도를 산출하여 기준 과학기술 지식정보 유사도 네트워크를 구축한다. 그 방법으로 1차적으로, 과학기술 관련 단어 유사도 모델을 개입시켜 최상위 과학기술 R&D 분류체계의 소분류 간의 유사도를 산출하고, 최상위 과학기술 R&D 분류체계의 대분류 및 중분류를 이용해 유사도를 세부 조정하여 과학기술 지식정보 유사도 네트워크를 구축한다. 여기서, 최상위 과학기술 R&D 분류체계의 소분류는 노드가 되고, 유사도는 관계가 될 수 있다.
정리하면, 과학기술 관련 단어 유사도 모델을 개입시켜 최상위 과학기술 R&D 분류체계의 단계별 유사도를 계산한 뒤, 가중치에 따라 유사도를 재산출하여 지식정보 유사도 네트워크를 구축할 수 있다.
구축된 기준 과학기술 지식정보 유사도 네트워크의 형태는 아래 표 1과 같이 관리될 수 있다.
A분류 B분류 C분류 D분류
A분류 1 0.2 0.7 0.5
B분류 0.2 1 0.4 0.1
C분류 0.7 0.4 1 0.9
D분류 0.5 0.1 0.9 1
상기 운영컴퓨터(100)는 구축된 상기 기준 과학기술 지식정보 유사도 네트워크에 다양한 과학기술분야의 과학기술 지식정보를 추가하여 과학기술 지식정보 유사도 네트워크를 구축한다.
상기 과학기술 지식정보 유사도 네트워크의 구축의 실시예로서, 활용할 과학기술 지식정보는 특허정보, 논문정보, 회원들의 산업분류, 관심분야, 전문분야 및 대학전공 등의 과학기술 분야의 과학기술 지식정보를 들 수 있다.
상기 과학기술 지식정보 유사도 네트워크의 구축에 활용되는 특허정보와 관련해서는, 국제특허분류(IPC: International Patent Classification)와 발명의 키워드를 이용하여 기준 과학기술 지식정보 유사도 네트워크에 추가하고, 과학기술 단어 유사도 모델을 이용하여 국제특허분류(IPC) 정보를 설명하는 문장 또는 단어 집합과 노드 간의 유사도를 산출함으로써 특정 특허발명이 어떤 노드에 속하는지를 결정할 수 있다. 이 경우 하나의 특허발명은 복수의 노드를 가질 수 있음은 당연하다.
구체적으로는, TF-IDF(Term Frequency - Inverse Document Frequency)를 이용하여 너무 잦은 의미 없는 단어를 정제하고 불용어를 처리한 후, 자체적으로 발전시킨 Text-Rank 기법을 통해 키워드를 추출하고, 과학기술 단어 유사도 모델을 이용하여 키워드와 노드간의 유사도를 계산하여 산출하고, 산출된 유사도를 정규화시킴으로써, 키워드가 노드 내부에서의 깊이를 결정하도록 작용을 한다.
상기 TF-IDF는 정보 검색과 텍스트 마이닝에서 이용하는 가중치로, 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치이다
상기 Text-Rank 기법(알고리즘)은 페이지 랭크 알고리즘에 착안하여 나온 것으로서 유사도를 비교하여 문장과 단어에 가중치를 매겨 하나의 문서를 요약해주는 기법으로 알려져 있지만, 빈도가 높은 단어와 문장들을 추출해내는 성격이 강한 알고리즘이다.
상기 과학기술 지식정보 유사도 네트워크의 구축에 활용되는 논문정보와 관련해서는, 논문 주제 분류와 키워드를 이용하여 기준 과학기술 지식정보 유사도 네트워크에 추가하고, 과학기술 단어 유사도 모델을 이용하여 논문 주제 분류와 노드 간의 유사도를 산출함으로써 특정 논문이 어떤 노드에 속하는지를 결정할 수 있다. 이 경우 하나의 논문은 복수의 노드를 가질 수 있음은 당연하다.
구체적으로는, TF-IDF(Term Frequency - Inverse Document Frequency)를 이용하여 너무 잦은 의미 없는 단어를 정제하고 불용어를 처리한 후, 자체적으로 발전시킨 Text-Rank 기법을 통해 키워드를 추출하고, 과학기술 단어 유사도 모델을 이용하여 키워드와 노드간의 유사도를 계산하여 산출하고, 산출된 유사도를 정규화시킴으로써, 키워드가 노드 내부에서의 깊이를 결정하도록 작용을 한다.
상기 과학기술 지식정보 유사도 네트워크의 구축에 활용되는 사용자의 대학전공 정보와 관련해서는, 대학전공을 대표 분류로 간소화 및 재분류 하는 과정과 학과 분류 자료를 이용하여 기준 과학기술 지식정보 유사도 네트워크에 추가함으로써 이루어질 수 있다.
상기 대학전공을 대표 분류로 간소화 및 재분류 하는 과정은 같은 전공 내용이지만 대학 별 표현법의 차이로 이름이 다른 경우가 존재하는 것을 감안하여, 대표 분류로 간소화 및 재분류하여 통일성 획득하고, 교육부에서 제공하는 학과(전공) 분류 자료집을 이용해 어떤 노드에 속하는지 결정할 수 있다.
상기 과학기술 지식정보 유사도 네트워크의 구축에 활용되는 사용자가 선택한 산업분류 정보와 관련해서는, 산업분류코드를 이용하여 기준 과학기술 지식정보 유사도 네트워크에 추가하고, 과학기술 단어 유사도 모델을 이용하여 산업분류코드를 설명하는 문장 또는 단어 집합과 노드 간의 유사도를 산출할 수 있다. 이 경우 하나의 산업분류는 복수의 노드를 가질 수 있음은 당연하다.
상기 과학기술 지식정보 유사도 네트워크의 구축에 활용되는 사용자의 관심분야 및 전문분야 정보와 관련해서는, 관심사 및 전문분야는 명사의 형태를 가진 대량의 데이터로서, 이를 과학기술 단어 유사도 모델을 이용해 기준 과학기술 지식정보 유사도 네트워크에 추가하고, 과학기술 단어 유사도 모델을 이용해 관심사 및 전문분야 관련 단어와 노드 간의 유사도를 산출할 수 있다. 이 경우, 하나의 관심사 및 전문분야는 복수의 노드를 가질 수 있음은 당연하다.
또한, 상기 운영컴퓨터(100)는 구축된 과학기술 지식정보 유사도 네트워크 내 회원의 노드 관리를 수행한다. 회원은 노드 별로 점수를 가지고 가장 높은 점수를 갖는 노드에 속할 수 있다. 상기 회원의 노드별 점수 관리는, 사용자가 본 발명의 과학기술 지식정보 추천 시스템에 회원 가입할 때 입력한 회원 기본정보를 기초로 초기 노드를 설정하고, 사용자가 선택한 대학전공, 산업분류, 관심분야 및 전문분야에 해당하는 노드에 점수를 추가하고, 본 발명의 지식재산 추천 시스템에서의 조회, 검색 및 스크랩 등의 회원의 활동에 가중치를 부여하고, 추가적으로 쿠키를 이용하여 조회 시간 등의 데이터를 수집하여, 회원이 본 발명의 과학기술 지식정보 추천 시스템의 서비스를 이용하면 가중치와 쿠키를 이용해 수집한 데이터를 토대로 점수를 계산하고, 이용 내역에 해당하는 노드에 점수 추가하도록 구성될 수 있다.
또한, 회원의 회원정보(대학 전공, 산업, 관심사 및 전문분야)에 대한 수정이 있을 때 해당하는 노드의 점수를 가감하는 것을 통해 회원의 노드 점수 계산하도록 구성될 수 있다.
상기 운영컴퓨터는 구축된 상기 과학기술 지식정보 유사도 네트워크 및 관리하고 있는 회원의 노드 점수를 기초로 과학기술 지식정보를 추천한다.
과학기술 지식정보의 추천 과정은 회원이 속한 노드와 타 노드들의 점수 차이를 계산하여, 점수 차이에 따라 사용할 타 노드의 개수와 깊이를 결정한다. 이 경우 점수 차이가 클수록 적은 노드의 개수로 결정되고, 차이가 클수록 깊은 것으로 결정될 수 있다. 상기 과학기술 지식정보 유사도 네트워크 및 회원의 노드 점수에 따라 추출된 과학기술 지식정보들에서 연도, 인용된 횟수 및 회원의 조회 유무 등의 조건을 이용하여 필터링을 수행하여 필터링된 과학기술 지식정보를 추천하도록 구성될 수 있다.
정리하면, 과학기술 지식정보의 추천은, 회원의 노드별 점수 정보가 저장된 회원정보저장부에서 회원 노드와 타 노드들 간의 점수 차이를 계산하고, 계산된 점수차이에 따라 추출할 노드 개수를 결정함과 동시에 계산된 점수차이에 따라 사용할 노드 깊이를 결정하여 추출된 과학기술 지식정보들을 다양한 조건을 이용하여 필터링하여 필터링된 과학기술 지식정보를 추천할 수 있다. 여기서 추천되는 과학기술 지식정보는 특허정보 및 논문정보를 포함할 수 있다.
도 3은 본 발명의 과학기술 지식정보 추천 방법의 실시예를 설명하기 위한 흐름도이다. 도 3에 도시한 바와 같이 본 발명의 과학기술 지식정보 추천 방법은, 운영컴퓨터가 대량의 과학기술문서에서 텍스트 데이터 전처리 및 인공신경망 학습을 통해 과학기술 정보의 단어 유사도 모델을 구축하는 단계(S100)와; 상기 운영컴퓨터가 이질적인 과학기술분야의 과학기술 지식정보를 연결할 수 있는 최상위 과학기술 연구개발(R&D) 분류 체계를 구축하는 단계(S110)와; 상기 운영컴퓨터가 상기 단어 유사도 모델을 이용하여 최상위 과학기술 R&D 분류체계 간 유사도 계산을 수행하여 기준 과학기술 지식정보 유사도 네트워크를 구축하는 단계(S120)와; 상기 운영컴퓨터가 구축된 상기 기준 과학기술 지식정보 유사도 네트워크를 이용하여 과학기술 지식정보를 추가한 과학기술 지식정보 유사도 네트워크를 구축하는 단계(S130)와; 상기 운영컴퓨터가 사용자의 회원 가입시 입력한 산업분류, 관심분야, 전문분야 및 대학전공을 포함하는 회원 정보를 이용하여 구축된 상기 과학기술 지식정보 유사도 네트워크 내 회원의 초기 유사도를 산출하는 단계(S140)와; 상기 운영컴퓨터가 상기 과학기술 지식정보 유사도 네트워크 내 회원 주변의 과학기술 지식정보를 추천하는 단계(S150)를 포함하는 구성이다.
또한, 상기 운영컴퓨터가 회원의 과학기술 지식정보 이용정보를 이용하여 과학기술 지식정보 유사도 네트워크 내 회원의 유사도를 재설정하는 단계를 더 포함할 수 있다.
도 4는 본 발명의 과학기술 지식정보 추천 방법의 주요부를 설명하기 위한 흐름도이다. 도 4에 도시한 바와 같이 본 발명의 상기 단어 유사도 모델을 구축하는 단계(S100)는, 대량의 과학기술 문서에서 불필요한 문단을 제외한 주요 본문을 추출하는 단계(S101)와: 추출한 주요 본문에서 형태소 분석 기법을 이용하여 명사인 단어만을 추출하는 단계(S102)와; 추출된 단어에서 불용어 처리를 수행하는 단계(S103)와; 불용어 처리된 단어를 기반으로 인공신경망 또는 머신러닝 학습을 통하여 과학기술 관련 단어 유사도 모델을 구축하는 단계(S104)를 포함하는 구성이다.
도 5는 본 발명의 과학기술 지식정보 추천 방법의 주요부를 설명하기 위한 흐름도이다. 도 5에 도시한 바와 같이 본 발명의 상기 과학기술 지식정보를 추천하는 단계(S150)는, 회원의 노드별 점수 정보가 저장된 회원정보저장부에서 회원 노드와 타 노드들 간의 점수 차이를 계산하는 단계(S151)와; 계산된 점수차이에 따라 추출할 노드 개수를 결정하는 단계(S152)와; 계산된 점수차이에 따라 사용할 노드 깊이를 결정하는 단계(S153)와; 추출된 과학기술 지식정보들을 다양한 조건을 이용하여 필터링하는 단계(S154)와; 필터링된 특허 및 논문 정보를 포함하는 과학기술 지식정보를 추천하는 단계(S155)를 포함하는 구성이다.
이상에서 설명한 본 발명의 실시예는 다양한 실시예 중 일부에 불과하다. 본 발명의 운영컴퓨터가 대량의 과학기술문서에서 텍스트 데이터 전처리 및 인공신경망 학습을 통해 과학기술 정보의 단어 유사도 모델을 구축하고, 국제 또는 국내 과학기술분류체계를 기초로 최상위 과학기술 R&D 분류체계를 구축하고, 구축된 상기 최상위 과학기술 R&D 분류체계 간의 유사도를 토대로 기준 유사도 네트워크를 구축하고, 구축된 기준 유사도 네트워크를 이용하여 특허 및 논문 정보를 포함하는 과학기술 지식정보를 추가한 과학기술 지식정보 유사도 네트워크를 구축하고, 구축된 과학기술 지식정보 유사도 네트워크 내 회원 주변의 특허와 논문을 포함하는 과학기술 지식정보를 사용자에게 추천하는 기술적 사상에 포함하는 다양한 실시예가 본 발명의 보호범위에 포함되는 것은 당연하다.
100: 운영컴퓨터
200: 회원정보데이터저장부
300: 과학기술 지식정보데이터저장부
400: 과학기술 지식정보활용데이터저장부
500: 사용자단말기
600: 과학기술정보제공컴퓨터
700: 특허정보제공컴퓨터
800: 논문정보제공컴퓨터
900: 사회관계망매체

Claims (10)

  1. 대량의 과학기술문서에서 텍스트 데이터 전처리 및 인공신경망 학습을 통해 과학기술 정보의 단어 유사도 모델을 구축하는 단어유사도모델구축수단과; 국제 또는 국내 과학기술분류체계를 기초로 최상위 과학기술 R&D 분류체계를 구축하는 최상위과학기술R&D구축수단과; 구축된 상기 최상위 과학기술 R&D 분류체계 간의 유사도를 토대로 기준 유사도 네트워크를 구축하는 기준유사도네트워크구축수단과; 구축된 기준 유사도 네트워크를 이용하여 특허 및 논문 정보를 포함하는 과학기술 지식정보를 추가한 과학기술 지식정보 유사도 네트워크를 구축하는 과학기술 지식정보유사도네트워크구축수단과; 구축된 과학기술 지식정보 유사도 네트워크 내 회원 주변의 특허와 논문을 포함하는 과학기술 지식정보를 추천하는 과학기술 지식정보추천수단을 포함하는 과학기술 지식정보 추천 시스템.
  2. 청구항 1에 있어서,
    상기 단어유사도모델구축수단은,
    자체 수집하거나 외부에서 전송한 대량의 과학기술 문서 파일을 기초로 각 과학기술 문서 내 문장과 단어의 유사도를 계산하고,유사도 비교를 통해 문장과 단어에 가중치를 매겨 불필요한 문단을 제외한 주요 본문을 추출하고,추출된 과학기술 문서의 본문에서 형태소 분석 기법을 이용하여 명사 단어만을 추출하고, 등장 빈도가 적은 단어, 길이가 짧은 단어 등 문장이나 문서의 특징을 표현하는데 불필요한 단어를 삭제하는 불용어 처리를 수행하고, 불용어 처리된 단어 간의 의미를 특정 벡터 값으로 계산하여 모델 학습을 위한 트레이닝 데이터를 구축하고, 인공신경망 또는 머신러닝의 일종인 비지도 학습(unsupervised learning) 알고리즘을 적용한 모델을 학습하여 추출된 단어간의 유사도 모델을 구축하는 것을 특징으로 하는 과학기술 지식정보 추천 시스템.
  3. 청구항 1에 있어서,
    상기 최상위과학기술R&D구축수단,
    국제 및 국내 과학기술 관련 논문, 특허 및 과학기술 전문가인 사용자 정보 간의 과학기술 지식정보 추천 시스템을 구축하기 위한 과학기술 지식정보를 연결할 수 있는 최상위 과학기술 R&D 분류체계를 구축하는 것을 특징으로 하는 과학기술 지식정보 추천 시스템.
  4. 청구항 1에 있어서,
    상기 기준유사도네트워크구축수단은,
    과학기술 관련 단어 유사도 모델을 개입시켜 최상위 과학기술 R&D 분류체계의 단계별 유사도를 계산한 뒤, 가중치에 따라 유사도를 재산출하여 지식정보 유사도 네트워크를 구축하는 것을 특징으로 하는 과학기술 지식정보 추천 시스템.
  5. 청구항 1에 있어서,
    상기 과학기술 지식정보유사도네트워크구축수단은,
    특허정보, 논문정보, 회원들의 산업분류, 관심분야, 전문분야 및 대학전공 등의 과학기술 분야의 과학기술 지식정보를 활용하는 것을 특징으로 하는 과학기술 지식정보 추천 시스템.
  6. 청구항 1에 있어서,
    상기 과학기술 지식정보추천수단은,
    회원의 노드별 점수 정보가 저장된 회원정보저장부에서 회원 노드와 타 노드들 간의 점수 차이를 계산하고, 계산된 점수차이에 따라 추출할 노드 개수를 결정하고, 계산된 점수차이에 따라 사용할 노드 깊이를 결정하고, 추출된 과학기술 지식정보들을 다양한 조건을 이용하여 필터링하여, 필터링된 특허 및 논문 정보를 포함하는 과학기술 지식정보를 추천하는 것을 특징으로 하는 과학기술 지식정보 추천시스템.
  7. 운영컴퓨터가 대량의 과학기술문서에서 텍스트 데이터 전처리 및 인공신경망 학습을 통해 과학기술 정보의 단어 유사도 모델을 구축하는 단계와; 상기 운영컴퓨터가 이질적인 과학기술분야의 과학기술 지식정보를 연결할 수 있는 최상위 과학기술 연구개발(R&D) 분류 체계를 구축하는 단계와; 상기 운영컴퓨터가 상기 단어 유사도 모델을 이용하여 최상위 과학기술 R&D 분류체계 간 유사도 계산을 수행하여 기준 과학기술 지식정보 유사도 네트워크를 구축하는 단계와; 상기 운영컴퓨터가 구축된 상기 기준 과학기술 지식정보 유사도 네트워크를 이용하여 과학기술 지식정보를 추가한 과학기술 지식정보 유사도 네트워크를 구축하는 단계와; 상기 운영컴퓨터가 사용자의 회원 가입시 입력한 산업분류, 관심분야, 전문분야 및 대학전공을 포함하는 회원 정보를 이용하여 구축된 상기 과학기술 지식정보 유사도 네트워크 내 회원의 초기 유사도를 산출하는 단계(S140)와; 상기 운영컴퓨터가 상기 과학기술 지식정보 유사도 네트워크 내 회원 주변의 과학기술 지식정보를 추천하는 단계를 포함하는 과학기술 지식정보 추천 방법.
  8. 청구항 7에 있어서,
    상기 운영컴퓨터가 회원의 과학기술 지식정보 이용정보를 이용하여 과학기술 지식정보 유사도 네트워크 내 회원의 유사도를 재설정하는 단계를 더 포함하는 것을 특징으로 하는 과학기술 지식정보 추천 방법.
  9. 청구항 7에 있어서,
    상기 단어 유사도 모델을 구축하는 단계는,
    대량의 과학기술 문서에서 불필요한 문단을 제외한 주요 본문을 추출하는 단계와: 추출한 주요 본문에서 형태소 분석 기법을 이용하여 명사인 단어만을 추출하는 단계와; 추출된 단어에서 불용어 처리를 수행하는 단계와; 불용어 처리된 단어를 기반으로 인공신경망 또는 머신러닝 학습을 통하여 과학기술 관련 단어 유사도 모델을 구축하는 단계를 포함하는 것을 특징으로 하는 과학기술 지식정보 추천 방법.
  10. 청구항 7에 있어서,
    상기 과학기술 지식정보를 추천하는 단계는,
    회원의 노드별 점수 정보가 저장된 회원정보저장부에서 회원 노드와 타 노드들 간의 점수 차이를 계산하는 단계와; 계산된 점수차이에 따라 추출할 노드 개수를 결정하는 단계와; 계산된 점수차이에 따라 사용할 노드 깊이를 결정하는 단계와; 추출된 과학기술 지식정보들을 다양한 조건을 이용하여 필터링하는 단계와; 필터링된 특허 및 논문 정보를 포함하는 과학기술 지식정보를 추천하는 단계를 포함하는 것을 특징으로 하는 과학기술 지식정보 추천 방법.
KR1020200060170A 2020-05-20 2020-05-20 과학기술 지식정보의 추천을 위한 운영컴퓨터, 과학기술 지식정보 추천 시스템 및 그 방법 KR102371329B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200060170A KR102371329B1 (ko) 2020-05-20 2020-05-20 과학기술 지식정보의 추천을 위한 운영컴퓨터, 과학기술 지식정보 추천 시스템 및 그 방법
PCT/KR2020/014373 WO2021235617A1 (ko) 2020-05-20 2020-10-21 과학기술 지식정보 추천 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200060170A KR102371329B1 (ko) 2020-05-20 2020-05-20 과학기술 지식정보의 추천을 위한 운영컴퓨터, 과학기술 지식정보 추천 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20210143431A true KR20210143431A (ko) 2021-11-29
KR102371329B1 KR102371329B1 (ko) 2022-03-07

Family

ID=78697943

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200060170A KR102371329B1 (ko) 2020-05-20 2020-05-20 과학기술 지식정보의 추천을 위한 운영컴퓨터, 과학기술 지식정보 추천 시스템 및 그 방법

Country Status (2)

Country Link
KR (1) KR102371329B1 (ko)
WO (1) WO2021235617A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102540417B1 (ko) * 2022-03-02 2023-06-05 고려대학교 산학협력단 학문영역 임베딩을 이용한 관심 키워드 기반 학습활동 통합 추천 시스템 및 그 방법, 이를 수행하기 위한 기록매체
KR102543343B1 (ko) * 2023-03-07 2023-06-16 주식회사 로이드케이 인공신경망 기반의 검색어 사전 생성 및 검색 방법 및 장치

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186002A (zh) * 2021-12-14 2022-03-15 智博天宫(苏州)人工智能产业研究院有限公司 科技成果数据处理分析方法及系统
CN117114105B (zh) * 2023-10-25 2024-01-30 中国科学技术信息研究所 基于科研大数据信息的目标对象推荐方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100125682A (ko) * 2009-05-21 2010-12-01 주식회사 아이네크 다수 분류 체계를 연동한 시멘틱 검색 방법 및 시스템
KR101122436B1 (ko) * 2010-09-30 2012-03-09 엔에이치엔(주) 단어의 문서 관련도 점수 및 그래프 구조에 기반한 문서의 키워드 추출 방법 및 장치
KR20190115505A (ko) 2018-03-15 2019-10-14 특허법인 해담 기업 맞춤형 후속 개발 아이템 발굴 방법
KR102059309B1 (ko) * 2019-11-04 2020-02-11 윤선희 머신러닝을 이용한 적응형 논문검색 방법 및 서버
KR20200017575A (ko) * 2018-07-24 2020-02-19 배재대학교 산학협력단 유사 특허 검색 서비스 시스템 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100125682A (ko) * 2009-05-21 2010-12-01 주식회사 아이네크 다수 분류 체계를 연동한 시멘틱 검색 방법 및 시스템
KR101122436B1 (ko) * 2010-09-30 2012-03-09 엔에이치엔(주) 단어의 문서 관련도 점수 및 그래프 구조에 기반한 문서의 키워드 추출 방법 및 장치
KR20190115505A (ko) 2018-03-15 2019-10-14 특허법인 해담 기업 맞춤형 후속 개발 아이템 발굴 방법
KR20200017575A (ko) * 2018-07-24 2020-02-19 배재대학교 산학협력단 유사 특허 검색 서비스 시스템 및 방법
KR102059309B1 (ko) * 2019-11-04 2020-02-11 윤선희 머신러닝을 이용한 적응형 논문검색 방법 및 서버

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
이동훈 외 1, Word2Vec 기반의 의미적 유사도를 고려한 웹사이트 키워드 선택 기법, The Journal of Society for e-Business Studies, 페이지 83-96, (2018.05.29.) 1부* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102540417B1 (ko) * 2022-03-02 2023-06-05 고려대학교 산학협력단 학문영역 임베딩을 이용한 관심 키워드 기반 학습활동 통합 추천 시스템 및 그 방법, 이를 수행하기 위한 기록매체
KR102543343B1 (ko) * 2023-03-07 2023-06-16 주식회사 로이드케이 인공신경망 기반의 검색어 사전 생성 및 검색 방법 및 장치

Also Published As

Publication number Publication date
KR102371329B1 (ko) 2022-03-07
WO2021235617A1 (ko) 2021-11-25

Similar Documents

Publication Publication Date Title
KR102371329B1 (ko) 과학기술 지식정보의 추천을 위한 운영컴퓨터, 과학기술 지식정보 추천 시스템 및 그 방법
Tran et al. Hashtag recommendation approach based on content and user characteristics
Zhuohao et al. Keyword Extraction from Scientific Research Projects Based on SRP‐TF‐IDF
CN109214454B (zh) 一种面向微博的情感社区分类方法
CN101436191A (zh) 用于计算对象之间竞争性度量的方法与系统
CN110532480B (zh) 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法
CN108595525A (zh) 一种律师信息处理方法和系统
Das et al. A CV parser model using entity extraction process and big data tools
EP2613275B1 (en) Search device, search method, search program, and computer-readable memory medium for recording search program
Sulthana et al. Context based classification of Reviews using association rule mining, fuzzy logics and ontology
CN108681977A (zh) 一种律师信息处理方法和系统
Du et al. An iterative reinforcement approach for fine-grained opinion mining
KR102454261B1 (ko) 사용자 정보 기반 협업 파트너 추천 시스템 및 그 방법
KR20210071501A (ko) 상호연관성 기반 우선순위로 정렬된 전문분야 인터넷 검색 서비스 제공 방법
Liao et al. TIRR: A code reviewer recommendation algorithm with topic model and reviewer influence
Wang et al. Rom: A requirement opinions mining method preliminary try based on software review data
US11822609B2 (en) Prediction of future prominence attributes in data set
Dokoohaki et al. Mining divergent opinion trust networks through latent dirichlet allocation
Chaudhary et al. The case analysis on sentiment based ranking of nodes in social media space
Guha Exploring the Field of Text Mining
ElGindy et al. Capturing place semantics on the geosocial web
Beck-Fernández et al. Identification and extraction of memes represented as semantic networks from free text online forums
Li et al. Deep Learning for Psychometric NLP
Choumane A semantic similarity-based social information retrieval model
Kollu et al. Social and Movie Video Data Analysis for Representing Sentiments based on ML Approaches

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant