KR102096328B1 - 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법 - Google Patents
처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법 Download PDFInfo
- Publication number
- KR102096328B1 KR102096328B1 KR1020190098244A KR20190098244A KR102096328B1 KR 102096328 B1 KR102096328 B1 KR 102096328B1 KR 1020190098244 A KR1020190098244 A KR 1020190098244A KR 20190098244 A KR20190098244 A KR 20190098244A KR 102096328 B1 KR102096328 B1 KR 102096328B1
- Authority
- KR
- South Korea
- Prior art keywords
- unit
- analysis
- data
- information
- research information
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 대용량의 연구정보에 대하여 입수, 가공 및 관리하되, 필요로 하는 연구정보의 검색이 용이하도록 처방적 분석 기반 대용량 자동 분류 기술을 적용하여 빠르게 데이터들을 연계, 분석 및 학습하고, 정보의 주제 범주 간 특성을 파악하기 위하여 네트워크 척도 알고리즘(network scaling algorithm)을 이용해 학문의 전역적 지식 구조를 분석하고, 데이터의 가치(완전성, 정확성 편의성, 독립성, 활용성, 재사용성, 및 상호운용성을)를 확장하고, 의사결정을 위한 연구정보의 재구조화 작업을 효과적으로 수행함으로써, 지능형 연구정보 큐레이션 서비스를 제공할 수 있도록 하는 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법을 제공한다.
Description
본 발명은 대용량의 연구정보에 대하여 입수, 가공 및 관리하되, 필요로 하는 연구정보의 검색이 용이하도록 처방적 분석 기반 대용량 자동 분류 기술을 적용하여 빠르게 데이터들을 연계, 분석 및 학습하고, 정보의 주제 범주 간 특성을 파악하기 위하여 네트워크 척도 알고리즘(network scaling algorithm)을 이용해 학문의 전역적 지식 구조를 분석하고, 데이터의 가치(완전성, 정확성 편의성, 독립성, 활용성, 재사용성, 및 상호운용성을)를 확장하고, 의사결정을 위한 연구정보의 재구조화 작업을 효과적으로 수행함으로써, 지능형 연구정보 큐레이션 서비스를 제공할 수 있도록 하는 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법에 관한 것이다.
새로운 유형의 멀티미디어 콘텐츠, SNS(social network service)의 광범위한 확장, 그리고 스마트 기기들의 보급과 이용으로 인해 웹상에서 발생 및 유통되는 데이터의 규모가 기하 급수적으로 늘어나고 있다. 웹상에서 존재하고 지금도 늘어나고 있는 엄청난 양의 데이터는 세상을 해석하기 위해 사용될 수 있다. 이것이 바로 '빅 데이터'이다.
빅 데이터란 쉽게 말해 디지털화된 방대한 양의 정보를 뜻한다. 빅 데이터에서 불필요한 데이터들을 걸러내고 유용한 정보만을 추출 및 분석하여 사람들의 생각과 의견, 트랜드를 읽어내고 더 나아가 그들의 행동을 미리 예측할 수 있다. 빅 데이터는 이러한 유용성으로 인해 현재 우리나라에서뿐만 아니라 전세계적으로 각광받고 있는 차세대 IT(information technology) 기술 중 하나이다.
최근 Google Scholar, Elsevier Scival, MS Academic Search, MS Business Intelligence, Academic Analytics Portal 등과 같이 연구자의 역량을 분석하기 위한 다양한 서비스 및 도구들이 출시되고 있으며, 많은 연구자들이 연구 협력자 및 공동 연구자 검색 및 특정 분야의 전문가 검색을 위해 해당 서비스 및 도구들을 활발히 활용하고 있다.
Google Scholar는 학문적 문헌, 즉 논문과 특허에 기반한 검색 엔진으로 문헌들에 대한 검색과 함께 특정 연구자에 대한 인용정보, h-index 정보를 포함하는 연구자 분석 결과를 제공한다.
Elsevier의 SciVal 서비스는 글로벌 연구 동향 분석, 전문가 및 협력 가능자 파악 등의 기능을 제공한다.
Microsoft가 개발한 Academic Search는 연구자들의 학술 문헌 및 관련 정보 등에 대한 용이한 검색을 지원하는 서비스로 학술 문헌뿐 아니라 관련 연구자, 관련 기관, 관련 주제 및 관련 액티비티에 대한 정보를 포괄적으로 제공한다.
Academic analytics portal은 미국과 영국의 학술 데이터를 기반으로 한 서비스로 다양한 평가 및 분석 기준에 따라 'Flower chart'를 제공한다.
위의 기술한 바와 같이 연구자 역량 분석과 관련된 다양한 서비스 및 도구가 활용되고 있지만, 기존의 서비스 및 도구들은 모두 학술 정보를 단순히 검색하고 보여주는 데 집중하고 있으며, 여전히 서술적 분석 또는 예측적 분석 수준에 머무르고 있다는 한계점이 있다.
한편, 미국 IBM에 따르면 "비즈니스 분석"이란 주어진 데이터를 기반으로 현상을 파악하고, 앞으로 일을 예측하여 이에 적절한 조치를 결정하기 위해 정보를 활용하는 방법이다. 이러한 비즈니스 분석은 이의 대안 도출 프로세스 상에서 어떤 종류의 분석 결과를 제공하는가에 따라 Descriptive Analytics, Diagnostic Analytics, Predictive Analytics, 그리고 Prescriptive Analytics 총 4가지로 구분할 수 있다.
Descriptive Analytics(묘사적 분석)는 과거나 현재에 어떤 일이 발생했는지에 대한 분석을 의미한다. 이는 과거의 비즈니스 활동 수행 결과를 이해하고, 추세를 발견하며, 활동의 성과를 모니터링하는 데에 쓰인다.
Diagnostic Analytics(진단적 분석)는 과거나 현재에 발생한 사건의 원인에 대해 분석한다. 이는 데이터 간의 관계를 발견하고, 왜 특정 결과가 발생하였는지를 설명할 수 있다.
Predictive Analytics(예측 분석)는 미래에 어떤 일이 발생할 것인가에 대해 분석한다. 이는 미래의 상황에 대해 예측하거나, 알려지지 않은 결과의 기능성을 파악하기 위해 활용된다.
마지막으로 Prescriptive Analytics(처방적 분석)는 앞으로 무엇을 해야지만 비즈니스에 도움이 될 것인가에 대해 분석한다. 이는 제한된 자원을 효율적으로 할당하여 최상의 대안을 찾기 위해 활용된다. 예측 분석을 통해 도출된 예측 결과를 바탕으로, 자동으로 최적의 의사결정을 도출해준다. 따라서 인간의 개입이 최소화되거나 완전히 불필요해진다. 인간의 개입 없이 대안이 도출된다면, 인간의 능력으로만 처리하기 힘든 복잡한 조건을 반영할 수 있고, 또한 다수의 목적을 동시에 달성하기 위해 최적의 대안을 자동으로 제시할 수 있게 된다.
대다수 비즈니스 인텔리전스 솔루션들이 과거를 분석하거나 현재에 대한 통계 정보를 제공하는 서술적 분석(Descriptive Analytics)에 초점을 맞추고 있어 전략적 예측력을 뒷받침하기에는 부족함이 많은 상황이다. 처방적 분석(Prescriptive Analytics)은 전략적 분석을 지원하기 위해 새롭게 등장한 방법으로 비즈니스 역량 강화라는 목표와 함께 목적들, 요구 사항들, 제약 조건들의 복잡한 집합 하에서 높은 가치의 대체 가능한 행위들과 판단들을 계산적으로 결정하는 수학적 기술들의 집합이라 할 수 있다.
특정한 기술 분야에 대한 연구자 분석, 예측 및 추천은 미래 연구 계획 및 전략 수립에 있어 매우 중요한 부분이다. 하지만 기존의 서비스 및 도구들은 단순한 평가 기준에 근거한 연구자들의 단편적인 분석에 그치고 있으며, 예측 및 추천보다는 분석 중심의 서비스를 제공하고 있기 때문에 분석 결과에 대한 판단 및 향후 계획 수립은 여전히 연구자의 몫으로 남게 된다.
따라서 평가 요인들을 내부적 평가 요소와 외부적 평가 요소로 구분하고 다양한 평가 요소를 기반으로 연구자의 역량을 평가하고 이에 기반하여 가장 적합한 지능형 연구정보를 큐레이션 서비스로 제공하기 위한 고부가가치화 플랫폼의 요소기술들의 개발이 필요하다.
일예로, 대다수의 학술연구, 과학기술 정보서비스 등에서는 저자 정보, 기관 정보, 인용문헌 정보, 출처 정보 등을 하나의 독립된 개체로 정의하고 관리하지 않아 연계된 저자 네트워크 분석, 전문가 탐색과 같은 서비스 제공에 어려움이 많은 문제점이 있다. 예를 들어, 동명이인이 많은 저자를 검색할 경우 의도하지 않은 검색 결과가 많아질 수 있는 등의 문제가 있다.
한국등록특허 [10-1381689]에서는 콘텐츠 이용 특성에 기초하여 콘텐츠를 관리하는 콘텐츠 제공 장치가 개시되어 있다.
Mengle, S.S.R. and Goharian, N. 2009. "Ambiguity measure feature-selection algorithm." Journal of The American Society for Information Science and Technology. 60(5):1037-1050.
Ko, Y., and J. Seo. 2004. "Using the feature projection technique based on a normalized voting method for text classification." Information Processing and Management. 40(2): 191-208.
따라서, 본 발명은 상기한 바와 같은 문제점을 해결하기 위하여 고안된 것으로, 본 발명의 목적은 대용량의 연구정보에 대하여 입수, 가공 및 관리하되, 필요로 하는 연구정보의 검색이 용이하도록 처방적 분석 기반 대용량 자동 분류 기술을 적용하여 빠르게 데이터들을 연계, 분석 및 학습하고, 정보의 주제 범주 간 특성을 파악하기 위하여 네트워크 척도 알고리즘(network scaling algorithm)을 이용해 학문의 전역적 지식 구조를 분석하고, 데이터의 가치(완전성, 정확성 편의성, 독립성, 활용성, 재사용성, 및 상호운용성을)를 확장하고, 의사결정을 위한 연구정보의 재구조화 작업을 효과적으로 수행함으로써, 지능형 연구정보 큐레이션 서비스를 제공할 수 있도록 하는 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법을 제공하는 것이다.
본 발명의 실시예들의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기한 바와 같은 목적을 달성하기 위한 본 발명의 일 실시예에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에 있어서, 대용량의 연구정보 데이터를 수집하고 저장하기 위한 데이터수집부(210); 상기 수집된 대용량의 연구정보를 자동 분류기를 통해 학습 및 분류하기 위한 학습및자동분류부(220); 상기 학습및자동분류부에서 생성된 오류로그를 이용하여 학문 분야의 전역적 네트워크를 생성하고 시각화하기 위한 분석및시각화부(230); 분석 결과에 처방적 분석 개념을 적용하여 의사결정 시나리오를 도출하기 위한 처방시나리오생성부(240); 및 처방시나리오에 근거하여 지능형 연구정보 관련 큐레이션 서비스를 제공하기 위한 큐레이션서비스제공부(250)를 포함한다.
상기 데이터수집부(210)는, 대상 콘텐츠를 로드하는 콘텐츠로드부(211); 상기 콘텐츠로드부(211)에 로드된 대상 콘텐츠를 파싱하여 마크업 언어(Markup Language) 형식으로 변환하며 고유식별자를 부여하는 문서변환부(212); 상기 문서변환부(212)에 의해 변환된 대상 콘텐츠의 키워드를 추출하는 키워드추출부(213); 상기 키워드추출부(213)로부터 추출된 키워드를 기반으로 핵심키워드, 저자, 기관, 지역, 및 인용문헌 중 선택되는 어느 하나 또는 복수의 개체를 식별하고, 개체를 식별할 수 있도록 각각의 개체에 고유식별자를 부여하는 개체식별부(214); 상기 개체식별부(214)로부터 식별된 개체에 관련도 점수를 부가하는 관련도책정부(215); 상기 문서변환부(212)로부터 변환된 대상 콘텐츠에 상기 개체식별부(214)로부터 고유식별자가 부여된 개체 정보 및 상기 관련도책정부(215)에서 부가된 관련도 점수 정보를 저장 및 관리하는 콘텐츠관리부(216); 및 외부로부터의 검색 요청을 분석하여 검색에 이용할 개체를 선택하고, 선택된 개체를 기반으로 상기 콘텐츠관리부(216)로부터 관련도점수가 가장 높은 콘텐츠 순으로 검색 결과를 제공받아 검색 결과를 제공하는 검색제공부(217)를 포함하는 것을 특징으로 한다.
상기 학습및자동분류부(220)는, 데이터를 입력받는 데이터 입력부(221); 상기 입력되는 데이터를 저장하는 데이터 저장부(데이터베이스)(222); 상기 입력되는 데이터의 전처리 및 언어처리를 위한 데이터 전처리부(223); 입력되는 대용량 데이터에서 부분적 변경요소만을 추가 반영하는 증분 학습 모델에 기반하여 데이터를 처리하는 대용량 분류기(224); 상기 대용량 분류기의 작업을 분산 처리하는 멀티프로세싱 병렬 처리부(225); 및 상기 대용량 분류기의 작업 성능을 측정하는 성능 측정부(226)를 포함하는 것을 특징으로 한다.
상기 대용량 분류기(224)는, 다수의 단위 분류기(510-1, 510-2, 510-n)를 포함하고, 상기 다수의 단위 분류기의 결합을 통해 생성되는 것을 특징으로 하며, 각 단위 분류기(510-1, 510-2, 510-n)는, 자질을 추출하기 위한 자질 추출부(511-1, 511-2, 511-n); 문헌별 자질정보를 추출하기 위한 문헌별 자질정보 추출부(512-1, 512-2, 512-n); 자질 특성 매트릭스를 생성하기 위한 자질 특성 매트릭스 생성부(513-1, 513-2, 513-n); 를 포함하며, 상기 대용량 분류기(224)는, 결합 대상이 되는 다수의 자질 특성 매트릭스의 정보를 통합하여 결합하기 위한 매트릭스 동적 결합부(521); 상기 통합된 자질 특성 매트릭스로부터 유사척도를 이용하여 주제-가중치 벡터를 생성하기 위한 주제-가중치 백터 생성부(522); 상기 생성된 주제-가중치 백터를 이용하여 투표형 분류기법에 따라 분류하기 위한 다원 분류부(523)를 더 포함하는 것을 특징으로 한다.
상기 분석및시각화부(230)는, 전역 데이터의 지적 구조 생성 방법을 이용하여 패스파인더 네트워크 (PFNet) 척도 알고리즘을 이용하여 전역 데이터의 지적 구조를 생성하는 것을 특징으로 하고, 상기 패스파인더 네트워크 척도 알고리즘은, q는 노드 간 경로거리를 측정하기 위한 최대 링크의 수이고, r은 민코프스키 거리(Minkowski metric) 공식의 제곱수로서 경로 구성 링크의 가중치를 거리에 반영하는 방법인 경우, 패스파인더 네트워크는 두 개의 매트릭스(와 )가 필요하며, 는 i개의 링크를 따라 노드 j가 노드 k로 가는 최소비용 값을 저장하며 초기가중치 값()으로 을 재귀적으로 계산하여 산출하고, 는 i개 이하의 링크로 구성되는 경로들을 따라 노드 j에서 k로 가는 최소비용 값을 저장하며, 상기 매트릭스는 모든 에 대해 재귀적으로 계산하여 산출되며, 최종단계에서 와 의 두 매트릭스를 비교하여 같은 값을 갖는 모든 링크를 추출하여 PFNet을 생성하는 것을 특징으로 한다.
상기 처방시나리오생성부(240)는. 기계 학습과 계량정보 분석 방법론을 융합하여 최적화 기법을 통해 선택 가능한 여러 시나리오를 도출하는 것을 특징으로 한다.
상기 큐레이션서비스제공부(250)는, 연구자가 보유한 전문성과 연구 성향 등의 사실 정보를 바탕으로 연구 역량 강화를 위한 전략을 제시하는 연구자 큐레이션 서비스(Researcher Curation Service); 소속기관 연구자들의 전자저널 이용 실태와 새로운 요구사항을 종합적으로 분석하여 연구자가 요구하는 양질의 학술 저널을 추천해주는 저널 큐레이션 서비스(Jornal Curation Service); 및 해외출판사와 구독 가치가 있는 전자저널 이용을 위한 라이선스를 체결할 때, 협상에서 활용할 수 있는 데이터 기반 팩트 정보 제공하는 정보 가용성 큐레이션 서비스(Information Value-up Curation Service)를 포함하고, 큐레이션서비스 시스템은, 상기 큐레이션서비스 시스템의 유용성, 신뢰성 및 적응성을 평가하기 위한 서비스 평가부; 및 상기 큐레이션서비스 시스템의 웹 접근성, 웹 호환성, 및 웹 개발성을 평가하기 위한 웹성능 측정부를 포함하는 것을 특징으로 한다.
한편, 상기한 바와 같은 목적을 달성하기 위한 본 발명의 일 실시예에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 방법에 있어서, 대용량의 연구정보 데이터를 수집하고 저장하는 데이터수집단계(S1510); 상기 수집된 대용량의 연구정보를 자동 분류기를 통해 학습 및 분류하는 학습및자동분류단계(S1520); 상기 학습및자동분류단계에서 생성된 오류로그를 이용하여 학문 분야의 전역적 네트워크를 생성하여 시각화하는 분석및시각화단계(S1530); 분석 결과에 처방적 분석 개념을 적용하여 의사결정 시나리오를 도출하는 처방시나리오생성단계(S1540); 의사결정 시나리오에 근거하여 지능형 연구정보 관련 큐레이션 서비스를 제공하기 위한 큐레이션서비스제공단계(S1550)를 포함한다.
또한, 본 발명의 일 실시예에 따르면, 상기 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 방법을 구현하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 기록매체가 제공되는 것을 특징으로 한다.
아울러, 본 발명의 일 실시예에 따르면, 상기 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 방법을 구현하기 위해, 컴퓨터 판독 가능한 기록매체에 저장된 프로그램이 제공되는 것을 특징으로 한다.
본 발명의 일 실시예에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법에 의하면, 대용량의 연구정보에 대하여 입수, 가공 및 관리하되, 필요로 하는 연구정보의 검색이 용이하도록 처방적 분석 기반 대용량 자동 분류 기술을 적용하여 빠르게 데이터들을 연계, 분석 및 학습하고, 정보의 주제 범주 간 특성을 파악하기 위하여 네트워크 척도 알고리즘(network scaling algorithm)을 이용해 학문의 전역적 지식 구조를 분석하고, 데이터의 가치(완전성, 정확성 편의성, 독립성, 활용성, 재사용성, 및 상호운용성을)를 확장하고, 의사결정을 위한 연구정보의 재구조화 작업을 효과적으로 수행함으로써, 지능형 연구정보 큐레이션 서비스를 제공할 수 있는 효과가 있다.
한편, 본 발명의 일 실시예에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법에 의하면, 인공지능 및 기계학습을 활용하여 분석, 가설, 실행 및 학습 과정을 반복함으로써 최상의 대안을 도출하도록 한다.
한편, 본 발명의 일 실시예에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법에 의하면, 기존의 자질축소 기법에 의존하지 않고 단위 분류기 생성 및 동적 결합에 따라 생성되는 대용량 분류기를 이용하여 대량의 문서를 자유롭게 학습하고 부분적인 자질추가 변경 시에 변경요소만을 추가 반영함으로써 실시간/준실시간 처리가 가능하며, 모듈화 알고리즘을 이용함으로써 분산 병렬 프레임워크에 적재 가능하고, 사용자 편의를 고려한 인터페이스를 제공할 수 있는 효과가 있다
한편, 본 발명의 일 실시예에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법에 의하면, 고유식별자를 포함하는 마크업 언어 형식으로 변환된 대상 콘텐츠, 대상 콘텐츠와 관련된 고유식별자가 부여된 개체 정보 및 관련도 점수를 통합 저장 및 관리함으로써, 콘텐츠를 입수, 가공 및 관리하되, 필요로 하는 콘텐츠의 검색이 용이하도록 대용량 데이터를 분석하여 중요한 정보를 개체화 하고, 콘텐츠에 포함된 개체를 식별할 수 있도록 고부가 가치화 한 고부가 가치화 콘텐츠를 제공할 수 있는 효과가 있다.
또한, 형태소를 문맥 상 의미를 파악하여 추출하고 형태소 단위로 객체화 하여 고유식별자가 부여된 개체로 관리할 수 있음으로써, 다양한 유사어, 파생어, 변형어 등으로 표현된 정보들도 관련도 높은 정보를 용이하게 관리할 수 있는 효과가 있다.
또한, 개체식별부가 내재적 접근 방식과 외재적 접근방식으로 콘텐츠 개체를 식별함으로써, 보다 정확하게 콘텐츠 개체를 식별하여 관리할 수 있는 효과가 있다.
또한, 이용자관리부가 이용자의 로그데이터를 관리하여 콘텐츠의 사용에 대한 통계 및 이용자의 이용 로그를 수집하고 관리함으로써, 서비스 개선 정책을 수립할 수 있고, 맞춤형 서비스를 위한 기반 데이터를 생성할 수 있는 효과가 있다.
또한, 논문의 제목, 저자, 기관, 초록, 표, 그림, 키워드 등과 같이 학술연구/과학기술 콘텐츠의 개체 속성으로 존재하는 유의미한 객체를 정확히 추출하고 정확히 처리할 수 있는 효과가 있다.
아울러, 학술연구/과학기술 콘텐츠의 유의미한 객체를 정확하게 추출하여 DB 스키마를 구성함으로써, 콘텐츠의 효율적인 관리와 높은 품질의 고부가가치 서비스의 제공이 가능한 효과가 있다.
한편, 본 발명의 일 실시예에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법에 의하면, 폭증하는 빅데이터를 처리할 수 있는 상용 수준의 중분 학습 모델로 비정형 데이터 뿐만 아니라 IoT 기술이 활용된 다양한 정형 센서 데이터의 분류가 가능함으로써, 거의 모든 유형의 데이터 처리가 가능하기 때문에 산업 전반에 효과가 상당할 것으로 예측된다.
또한, 증분 학습 모델 기술을 통해 신속하고 정확한 빅데이터 분석을 수행할 수 있으며, 데이터 저장 효율을 증대시켜, 거대 매트릭스 (Large-scale sparse matrix)를 PC급의 클러스터 환경에서도 계산 처리할 수 있어 초고성능 컴퓨팅 환경에서 더욱 큰 효율을 기대할 수 있다.
또한, 마이닝 과정과 결과를 효과적으로 관리하는 웹기반의 통합 데이터 관리 시스템을 기반으로, 사용자간의 데이터 공유가 가능하고 기존 데이터 처리 결과를 손쉽게 재활용함으로서 대용량 데이터 분석에 있어 중요한 이슈인 학습 결과의 재활용성을 개선할 수 있다.
또한, 실시간으로 대량 생산되는 데이터의 효과적인 분석을 위해 시계열 빅데이터 마이닝 기술을 구현함으로써 빅데이터 마이닝의 고급 분석에 활용될 수 있다.
또한, 연구개발된 사용자 도구는 핵심 분류 모델과 구동 모듈, 사용자 인터페이스로 모듈화되어 구성되어있기 때문에 NoSQL과 같은 대용량 데이터베이스에 쉽게 적용할 수 있기 때문에 다양한 분산병렬 프레임워크에 탑재하여 기능적 확장이 용이한 효과가 있다.
한편, 본 발명의 일 실시예에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법에 의하면, 인공지능 기법을 이용하는 추천 시스템의 결과가 만족스럽지 않을 때, 처방적 분석 개념이 도입된 시스템은 그렇지 않은 경우보다 훨씬 효과적으로 시스템의 데이터 프로세싱 전 과정을 점검할 수 있다.
도 1은 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼의 일 실시예 개념도.
도 2는 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼의 일 실시예 구성도.
도 3은 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에서 데이터 수집부의 일 실시예 상세 구성도.
도 4는 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에서 학습및자동분류부의 일 실시예 상세 구성도.
도 5a 및 5b는 도 4의 대용량 분류기의 설명도.
도 6은 본 발명에 따른 대용량 분류기의 구성도.
도 7은 본 발명에 따른 대용량 분류기에 대한 설명도.
도 8은 기존의 SciVal 시스템에서의 시각화 방법에 대한 설명도.
도 9는 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에서 사용되는 패스파인더 네트워크 척도 알고리즘에 대한 설명도.
도 10은 패스파인더 네트워크 척도 알고리즘으로 구현한 동시인용 기반 네트워크에 대한 도면.
도 11은 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에서 이용되는 데이터 분류를 위한 42개 주제코드 표.
도 12는 PFNet 알고리즘을 통해 그려진 주제 범주 간 지적 구조 샘플,
도 13은 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에서 시나리오를 설명하기 위한 일실시예 설명도.
도 14는 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에서 큐레이션서비스를 설명하기 위한 도면.
도 15는 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 방법에 대한 일 실시예 흐름도.
도 2는 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼의 일 실시예 구성도.
도 3은 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에서 데이터 수집부의 일 실시예 상세 구성도.
도 4는 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에서 학습및자동분류부의 일 실시예 상세 구성도.
도 5a 및 5b는 도 4의 대용량 분류기의 설명도.
도 6은 본 발명에 따른 대용량 분류기의 구성도.
도 7은 본 발명에 따른 대용량 분류기에 대한 설명도.
도 8은 기존의 SciVal 시스템에서의 시각화 방법에 대한 설명도.
도 9는 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에서 사용되는 패스파인더 네트워크 척도 알고리즘에 대한 설명도.
도 10은 패스파인더 네트워크 척도 알고리즘으로 구현한 동시인용 기반 네트워크에 대한 도면.
도 11은 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에서 이용되는 데이터 분류를 위한 42개 주제코드 표.
도 12는 PFNet 알고리즘을 통해 그려진 주제 범주 간 지적 구조 샘플,
도 13은 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에서 시나리오를 설명하기 위한 일실시예 설명도.
도 14는 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에서 큐레이션서비스를 설명하기 위한 도면.
도 15는 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 방법에 대한 일 실시예 흐름도.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 명세서에서 사용되는 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 공정, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 공정, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미가 있는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부된 도면을 참조하여 본 발명을 더욱 상세하게 설명한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정하여 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여, 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 또한, 사용되는 기술 용어 및 과학 용어에 있어서 다른 정의가 없다면, 이 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 통상적으로 이해하고 있는 의미를 가지며, 하기의 설명 및 첨부 도면에서 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 설명은 생략한다. 다음에 소개되는 도면들은 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 예로서 제공되는 것이다. 따라서, 본 발명은 이하 제시되는 도면들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 또한, 명세서 전반에 걸쳐서 동일한 참조번호들은 동일한 구성요소들을 나타낸다. 도면들 중 동일한 구성요소들은 가능한 한 어느 곳에서든지 동일한 부호들로 나타내고 있음에 유의해야 한다.
설명에 앞서, 본 명세서( 및 특허청구범위)에서 사용되는 용어에 대해 간단히 설명하도록 한다.
'개체(Entity)'는 하나의 독립된 형태로서 존재할 수 있는 단위로서, 독립적인 기능/속성을 가지고 있는 학술연구, 과학기술 등의 콘텐츠와 관련된 개체(예: 저자, 기관, 인용문헌, 출처 등)를 의미한다.
또한, '객체 또는 오브젝트(Object)'는 의사나 행위가 미치는 작용의 대상으로, 개체의 속성으로 존재하며 한 개체가 다른 개체를 객체로서 가지고 있을 수 있는 학술연구/과학기술 콘텐츠와 관련된 객체(예: 논문의 제목, 저자, 기관, 초록, 표, 그림, 키워드 등)를 의미한다.
'객체화'는 관리나 서비스를 위해 유의미한 객체 중심으로 DB 스키마를 구성하는 것을 의미하는 것으로, 하나의 개체를 유일하게 구별하는 것(유일한 식별자를 부여할 수 있음)을 의미한다. 예를 들어, 저자 "홍길동"과 "Gildong Hong"이 하나의 개체임을 구별하고, 유일한 식별자를 부여할 수 있다.
'유의미한 객체'는 콘텐츠 저자, 기관, 주제 등 정보의 검색이나 관리에 빈번하게 사용되는 객체를 의미한다.
'DB 스키마'는 데이터를 특성에 의하여 체계적으로 저장하도록 설계한 구조를 의미한다.
본 발명의 일 실시예에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법은, 다양한 평가요소를 기반으로 연구자의 역량을 다각적인 관점에서 포괄적으로 분석하고 이를 기반으로 연구자가 어떤 연구자를 롤모델으로 삼아야 하는지를 처방적 분석 관점에서 제공하는 새로운 연구자 역량 평가 및 멘토링 모델을 제시한다. 처방적 분석이란 단순히 정보의 분석이나 예측 결과를 제시하는 수준이 아니라 이러한 결과를 토대로 어떠한 행동을 해야 하는지 최적화된 지시 및 지침을 제시하여 주는 분석의 최상위 단계를 지칭한다.
도 1은 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼의 일 실시예 개념도이다.
도 1에 도시된 바와 같이, 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼을 구성하기 위해 소스(110), 연구정보 데이터베이스(120), 데이터 처리부(130), 처방적 분석부(140), 및 의사결정부(150)를 포함한다.
상기 소스(110)는 논문, 보고서, 특허, Web of Science(WOS), 및 다양한 구조화된 정보 등을 포함한다.
상기 연구정보 데이터베이스(120)는 상기 소스로부터 전달받은 데이터를 저장하고 있다.
상기 데이터 처리부(130)는 데이터 수집, 데이터 병합, 데이터 처리, 및 데이터 발견을 수행한다.
상기 처방적 분석부(140)는, 실행 시점의 상황 예측(141)을 위해 시계열 분석, 처방적 분석 자동 분류, 회귀분석, 논문 구문 구조 분석, 참고문헌 인용정보 분석을 수행하고, 실행 가능한 대안 도출(142)을 위해, 연구개발(R&D)진단, 연구개발처방, 저널구독 비즈니스 룰, 최적화 이론을 적용하고, 상황 변동에 따른 대안의 유효성 검토(영향 검토)(143)를 위해 저널구독 영향도 평가, 우선순위에 따른 저널 추천, 연구개발 민감도 분석, 우선순위에 따른 대안 평가를 수행한다.
상기 의사결정부(150)는 전략적 의사결정, 전술적 의사결정, 및 기능적 의사결정을 수행한다.
도 2는 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼의 일 실시예 구성도이다.
도 2에 도시된 바와 같이, 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼은 데이터수집부(210), 학습및자동분류부(220), 분석및시각화부(230), 처방시나리오생성부(240) 및 큐레이션서비스제공부(250)를 포함한다.
상기 데이터수집부(210)는 대용량의 연구정보 데이터를 수집하고 저장한다.
상기 학습및자동분류부(220)는 상기 수집된 대용량의 연구정보를 자동 분류기를 통해 학습 및 분류한다.
상기 분석및시각화부(230)는 상기 학습및자동분류부에서 생성된 오류로그를 이용하여 학문 분야의 전역적 네트워크를 생성하고 시각화한다.
상기 처방시나리오생성부(240)는 분석 결과에 처방적 분석 개념을 적용하여 의사결정 시나리오를 도출한다.
상기 큐레이션서비스제공부(250)는 처방시나리오에 근거하여 지능형 연구정보 관련 큐레이션 서비스를 제공한다.
도 3은 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에서 데이터 수집부의 일 실시예 상세 구성도이다.
도 3에 도시된 바와 같이, 본 발명의 일 실시예에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에서 데이터 수집부(210)는 콘텐츠로드부(211), 문서변환부(212), 키워드추출부(213), 개체식별부(214), 관련도책정부(215), 콘텐츠관리부(216) 및 검색제공부(700)를 포함한다.
상기 콘텐츠로드부(211), 문서변환부(212), 키워드추출부(213), 개체식별부(214), 관련도책정부(215), 콘텐츠관리부(216) 및 검색제공부(217)는 하나의 서버에 구성될 수도 있으나 다수의 서버로 분산되어 구비되는 것도 가능함은 물론이다.
콘텐츠로드부(211)는 대상 콘텐츠를 로드한다.
여기서, 상기 콘텐츠는 문서의 형태로 존재하며, 학술자료(논문), 동향보고서, 연구보고서, 특허, 표준, 리포트 및 국가기록물 등 학술연구, 과학기술과 관련된 내용을 담고 있는 학술자료를 의미한다.
문서변환부(212)는 상기 콘텐츠로드부(211)에 로드된 대상 콘텐츠를 파싱하여 마크업 언어(Markup Language)(XML 또는 HTML 등)형식으로 변환하며 고유식별자를 부여한다.
상기 문서변환부(212)에서 부여하는 고유식별자는 해당 콘텐츠를 불러오는데 이용하는 것으로, 통합 자원 식별자(Uniform Resource Identifier, URI)를 사용할 수 있다. 통합 자원 식별자는 인터넷에 있는 자원을 나타내는 유일한 주소로, URI의 존재는 인터넷에서 요구되는 기본조건으로서 인터넷 프로토콜에 항상 붙어 다닌다.
즉, 상기 문서변환부(212)는 대상 콘텐츠를 마크업 언어 형식으로 변환하며 고유식별자를 부여하여, 추후 고유식별자를 이용한 대상 콘텐츠를 불러올 수 있도록 할 수 있다.
이때, 상기 문서변환부(212)는 학술자료(논문), 동향보고서, 연구보고서, 특허, 표준, 리포트 및 국가기록물 등 학술연구, 과학기술과 관련된 내용 분석하여 미리 정의된 분류 체계에 따라서 문서를 자동으로 분류하고, 분류체계에 따른 분류를 확인할 수 있는 고유식별자를 부가하는 것을 특징으로 할 수 있다.
문서의 자동분류는 컴퓨터가 문서의 내용에 기반하여 미리 정의되어 있는 분류 목록 체계에 자동으로 문서를 할당하는 것을 의미하고, 주제 전문가가 구축한 학습 데이터로 훈련된 컴퓨터가 문서를 자동으로 분류하거나, 지식베이스가 충분하게 축적된 경우, 주제 전거 데이터에 의하여 분류할 수 있다.
문서의 자동분류는 학습기반 기법의 정확도가 높으므로 기관별 기존에 보유하고 있는 문서 분류를 활용하여 학습하고, 이를 바탕으로 신규 문서를 분류하는 방향으로 문서 자동 분류 기술을 적용하는 것이 바람직하다. 또한, 문서 분류의 정확도를 높이고 신규 카테고리의 문서를 분류하기 위해 SVM과 KNN 기법을 동시에 적용할 수 있다.
이때, 문서의 자동 분류는 베이지언 기법, Support Vector Machine, 인공신경망 기법, K-Nearest Neighbor 등의 학습기반 기법을 이용하거나, 휴리스틱 기법, 시그니처 분석 기법, 블랙리스팅 기법, 해쉬기반 기법, 트래픽 분석 기법 등의 비학습기반 기법을 이용할 수 있다.
키워드추출부(213)는 상기 문서변환부(212)에 의해 변환된 대상 콘텐츠의 키워드를 추출한다.
키워드는 데이터를 검색할 때에, 특정한 내용이 들어 있는 정보를 찾기 위하여 사용하는 단어나 기호를 의미하는 것으로, 상기 키워드추출부(213)는 상기 대상 콘텐츠를 검색하는데 이용할 수 있는 키워드를 상기 대상 콘텐츠에서 추출한다.
학술연구/과학기술 등의 콘텐츠에서 키워드를 정의하고 추출, 관리하는 키워드 분석 기술은 콘텐츠 분류의 정확도를 높여줄 뿐만 아니라 이와 연관된 관심 연구 분야 탐색, 전문가 검색등과 같은 고부가 가치 서비스에 있어 매우 핵심적인 기술로, 콘텐츠를 관리함에 있어 이러한 키워드를 정확하고 자동적으로 정의, 관리할 수 있다면 관련 서비스의 품질 제고가 가능하다.
상기 키워드추출부(213)는 객체화를 통해 단어 객체, 특히 본문의 단어들을 파싱하고 정지어 처리(관사 등 필터링) 및 토큰 생성(시제, 복수형통일 등) 처리 등을 거친 이후, 출현 빈도에 기반하여 연관도 높은 키워드를 추출하고 이를 독립개체(고유식별자가 부여된 개체)로 저장 및 관리함으로써, 개체 연관 서비스와 같은 고부가 가치 서비스에 활용할 수 있다.
이때, 상기 키워드추출부(213)는 문서변환부(212)에 의해 변환된 대상 콘텐츠에서 형태소를 추출하고 해당 형태소가 문맥 상 어떤 의미로 사용되었는지를 파악하며, 출현 빈도에 기반하여 연관도 높은 형태소를 키워드로 추출하는 것을 특징으로 할 수 있다.
즉, 상기 키워드추출부(213)는 문자 자체를 키워드로 추출하는 것이 아니고, 문자가 가진 본연의 의미를 확인할 수 있는 형태소 단위로 키워드를 추출하고, 문맥상 키워드에 해당되는 의미를 파악하여 해당 키워드에 해당되는 의미를 부가할 수 있다. 다시 말해, 형태소 단위로 추출된 키워드는 해당 형태소의 의미가 같이 저장되어 관리된다.
개체식별부(214)는 상기 키워드추출부(213)로부터 추출된 키워드를 기반으로 핵심키워드, 저자(공저자 포함), 기관, 지역, 표, 그림 및 인용문헌 중 선택되는 어느 하나 또는 복수의 개체를 식별할 수 있도록 각각의 개체에 고유식별자를 부여한다.
즉, 상기 키워드추출부(213)로부터 추출된 키워드 각각을 구별할 수 있도록 고유식별자를 부여하여 관리하되, 해당 키워드가 핵심키워드, 저자(공저자 포함), 기관, 지역, 표, 그림 및 인용문헌 중 어떤 분류에 해당되는 키워드인지 확인이 가능하도록 고유식별자를 부여하여 관리할 수 있다.
'스마트 그리드'를 핵심키워드로 선택하였을 경우를 예를 들면, 스마트 그리드(Smart Grid)는 기존의 전력망에 정보기술(IT)을 접목하여 전력 공급자와 소비자가 양방향으로 실시간 정보를 교환함으로써 에너지 효율을 최적화하는 차세대 지능형 전력망을 말하는 것으로, '지능형 전력망' 또는 '전력 전산망'이라고도 한다.
따라서, '스마트 그리드', '지능형 전력망' 및 '전력 전산망'이라는 키워드를 '스마트 그리드'라는 개체로 정의하고 이를 핵심키워드로 분류하고자 한다면, 정의된 개체가 핵심키워드 라는 것을 확인할 수 있는 고유식별자를 부여하여 관리할 수 있다.
이는 추후, "핵심키워드로 'A', 저자로 'B', 기관으로 'C', 인용문헌으로 'D'"과 같이 모든 조건을 만족하는 검색결과를 추출하여 정보의 노이즈를 최소화 시킬 수 있도록 하기 위함이다.
예를 들어, '스마트 그리드'로 전산망과 관련된 내용을 검색하고자 할 경우, 본문에서 추출한 핵심키워드로 '스마트 그리드'를 검색하는 명령을 내리면, '스마트 그리드'라는 인물이나 단체 등의 정보의 노이즈가 검색되지 않고, '스마트 그리드', '지능형 전력망' 및 '전력 전산망'이 본문의 핵심키워드인 정보만 검색되도록 할 수 있다.
논문, 보고서, 특허 등의 콘텐츠를, 속성정보를 확인할 수 있는 고유식별자를 부여한 개체로 저장(객체화 기술을 통해 저장)한 이후, 식별된 저자 정보, 인용/피인용 콘텐츠 정보를 이용하여 개체들 간의 관계 그래프를 생성하여 저장하였다가 서비스 요청 시 이때 구축하였던 데이터베이스의 정보를 활용하여 저자 네트워크 분석, 전문가 탐색, 인용/피인용 그래프 시각화 등 고부가가치 서비스에 제공할 수 있다.
이때, 상기 개체식별부(214)는 대상 콘텐츠의 제목, 초록 및 메타 데이터 중 선택되는 어느 하나 또는 복수의 정보를 이용하는 내재적 접근 방식과 외부의 데이터 또는 API(application programming interface)를 이용하는 외재적 접근 방식으로 콘텐츠 개체를 식별하는 것을 특징으로 할 수 있다.
여기서, 메타 데이터로는 문헌 종류, 저자명, 연구책임자, 참여연구원, 기관명, 후원기관(주관부처), 지역, 연구기간키워드, 목차, 본문, 참고문헌, 학회명, 학술지명, 발행연도, 권호, 출판사, 심사위원, 심사완료일자, 학위, 학과, 부록, 발행일, 출원인, 발명자, 청구항, IPC, 명세서, 출원일, 공개일, 등록일 등이 될 수 있다.
즉, 전자 문서, 웹문서 형태의 논문, 보고서, 특허 등 콘텐츠를 메타데이터의 활용, 언어적 분석, XML 및 HTML 테그를 통한 내재적 접근 방식으로 콘텐츠 개체를 식별하는 것도 가능하고, 외부 API를 이용하여 객체화하고 구조 정보를 추출하여 데이터베이스 스키마를 구성하는 외재적 접근 방식으로 콘텐츠 개체를 식별하는 것도 가능하다.
XML, HTML 태그 등의 메타 데이터를 활용하여 구조 정보를 축출하고 이에 대응 되는 데이터를 분리하는 예로는, HTML 테이블 Tag의 경우 처음 대응 데이터를 테이블의 속성(attribute)으로, 이후 데이터를 값(value)으로 분리할 수 있고, 저자 개체 정보의 경우 저자 개체를 의미하는 'Person', 'Name', 'Author' 등의 태그에 대응되는 데이터를 추출하고, 저자 정보가 저장되어 있는 데이터베이스를 참고하여 저자 개체를 식별할 수 있다.
이때, 저자 정보를 나타내는 메타 데이터를 바탕으로 Knowledge Base를 구축하여 'Person', 'Name', 'Author' 등의 XML 태그나 주석을 가지고 있는 데이터를 수합하여 저장할 수 있다.
또한, 저자명으로 판별되지 않는 데이터 셋을 찾아 검증하고 정정할 수 있다. 예를 들어, 'author' TAG에 해당하는 데이터가 연락처 정보 '02-555-1234'라면 해당 데이터 셋을 삭제할 수 있다.
논문, 특허, 보고서와 같은 콘텐츠들을 관리함에 있어서 각 콘텐츠의 저자 정보를 자동적으로, 정확하게 식별, 추출하여, 저자 개체간 네트워크 분석, 사용자 프로파일 관리, 개인화 서비스등에 요구되는 많은 비용을 절감할 수 있으며 연계된 서비스의 품질 또한 제고할 수 있다.
외재적 접근 방식으로 콘텐츠 개체를 식별하는 것은, 사용자가 저자 개체 식별 과정에서 부분적으로 개입하거나, 식별에 필요한 데이터 셋을 제공하는 등의 외부 API를 이용, 콘텐츠 개체를 식별하는 외재적 접근 방식으로 전체적인 동작 구조를, 저자 등과 같은 개체 정보의 추출을 위하여 외부의 데이터나 API를 통하여 저자를 식별하는 기법의 예를 들어 설명하면, 내재적 방법과 마찬가지로 크롤러 등을 통해 수집한 웹문서나 특정 인터페이스를 통해 로드한 전자 문서를 텍스트, 이미지, 테이블 등으로 객체화를 시키고, 텍스트 데이터와 함께 주석 등 가용 가능한 메타 데이터를 활용하여 구조 정보를 추출하여, 외부 데이터와 추출한 객체 데이터를 연계하거나 개체 식별 API를 활용하여 저자 개체를 식별할 수 있다.
예를 들어, 개체 후보를 identifiers.org, sameAs.org, OKKAM과 같은 외부 API에서 검색하여 저자 개체 식별할 수 있다.
외재적 접근 방식으로 콘텐츠 개체를 구별하는 방법은
논문, 보고서 등, 비교적 정형화 되어 있는 콘텐츠로부터 추출한 객체들을 이용해 저자 속성을 정의하고, 이를 이용하여 해당 속성에 가장 부합하는 저자 개체를 외부의 Look-up API 등을 통해 찾을 수 있고, 해당 문서를 사전 입력된 데이터 정보나 문서에 태그 등의 형태로 기술된 메타 데이터를 로드 해 저자 객체를 추출할 수 있다. 이후, 주요 객체들을 선택하여 개체에 고유식별자를 부여할 수 있고(속성화), 외부 API 등을 통하여 개체 속성을 매개로 저자 개체를 검색할 수 있다.
관련도책정부(215)는 상기 개체식별부(214)로부터 식별된 개체에 관련도 점수를 부가한다.
즉, 해당 개체가 해당 콘텐츠를 잘 표현하는 개체라면 관련도 점수를 높게 부가하고, 해당 개체가 해당 콘텐츠를 표현하기는 하지만 관련도가 낮은 개체라면 관련도 점수를 낮게 부가할 수 있다.
예를 들어, 스마트그리드 보안체계 구축과 관련된 콘텐츠를 검색하고자 할 경우, '스마트그리드', '보안', '구축'의 3 가지 키워드를 이용하여 검색할 수 있다.
이때, '스마트그리드'와 '보안'은 중요한 키워드로 작용될 수 있고, '구축'은 보조 키워드로 작용될 수 있다.
따라서, 해당 콘텐츠에서 개체를 '스마트그리드', '보안', '구축' 3 개로 추출하였다면, '스마트그리드', '보안'에는 100점을 부가하고 '구축'에는 30점을 부가할 수 있다.
여기서, 관련도 점수는 특정 검색엔진으로 검색된 수가 많을수록 적게 책정하는 것을 특징으로 할 수 있다.
이는, 검색된 수가 많을수록 식별력이 떨어지는 것이 일반적이기 때문이다.
예를 들어, '네이버' 검색엔진의 전문정보 전체에서 검색할 경우(2016년 7월 27일 기준), '스마트그리드'로 검색된 수는 1779건이고, '보안'으로 검색된 수는 22726건이며, '구축'으로 검색된 수는 61814건이 확인 되는 것으로도 검색된 수가 많을수록 식별력이 떨어짐을 확인할 수 있다.
콘텐츠관리부(216)는 상기 문서변환부(212)로부터 변환된 대상 콘텐츠에 상기 개체식별부(214)로부터 식별된 개체 정보 및 상기 관련도책정부(215)에서 부가된 관련도 점수 정보를 저장 및 관리한다.
즉, 상기 콘텐츠관리부(216)가 상기 문서변환부(212)로부터 부여된 고유식별자를 포함하는 변환된 대상 콘텐츠, 상기 개체식별부(214)로부터 상기 변환된 대상 콘텐츠와 관련된 고유식별자가 부여된 개체 정보 및 상기 관련도책정부(215)로부터 부가된 관련도 점수를 통합 저장 및 관리한다.
상기 콘텐츠관리부(216)는 시멘틱 웹(semantic web) 기술이 적용된 것을 특징으로 할 수 있다.
시멘틱 웹(semantic web)은 컴퓨터가 정보자원의 뜻을 이해하고, 논리적 추론까지 할 수 있는 차세대 지능형 웹을 말하는 것으로, 현재의 컴퓨터처럼 사람이 마우스나 키보드를 이용해 원하는 정보를 찾아 눈으로 보고 이해하는 웹이 아니라, 컴퓨터가 이해할 수 있는 웹을 말한다. 즉 사람이 읽고 해석하기에 편리하게 설계되어 있는 현재의 웹 대신에 컴퓨터가 이해할 수 있는 형태의 새로운 언어로 표현(본 발명에서는 고유식별자를 이용한 표현)해 기계들끼리 서로 의사소통을 할 수 있는 지능형 웹이다.
원리는 사람들이 이해할 수 있도록 자연어 위주로 되어 있는 현재의 웹 문서와 달리, 정보자원들 사이에 연결되어 있는 의미를 컴퓨터가 이해할 수 있는 형태의 언어로 바꾸는 것이다. 이렇게 되면 컴퓨터가 정보자원의 뜻을 해석하고, 기계들끼리 서로 정보를 주고받으면서 자체적으로 필요한 일을 처리하는 것이 가능해진다.
2004년 현재 시멘틱 웹과 관련된 연구는 RDF(Resource Description Framework)를 기반으로 한 온톨로지 기술과 국제표준화기구(ISO) 중심의 토픽 맵(Topic Map) 기술이 주류를 이루고 있다.
온톨로지 기술은 현재의 웹에 자원(주어)ㅇ속성(술어)ㅇ속성값(목적어) 등 자원을 기술하는 언어인 메타데이터를 부여해 정보의 의미를 이해하고 처리할 수 있게 하는 기술이다. 토픽 맵(Topic Map) 기술은 ISO의 XML 기반 표준 기술언어인 XTM 언어를 이용해 정보와 지식의 분산 관리를 지원하는 기술로, 지식층과 정보층의 이중 구조를 띤다.
시멘틱 웹이 실현되면 컴퓨터가 자동으로 정보를 처리할 수 있어 정보시스템의 생산성과 효율성이 극대화된다. 컴퓨터 혼자 전자상거래를 할 수 있고, 기업의 시스템 통합(SI), 지능형 로봇 시스템, 의료 정보화 등 다양한 분야에 응용할 수 있다.
도 4는 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에서 학습및자동분류부의 일 실시예 상세 구성도이다.
도 4에 도시된 바와 같이, 본 발명의 일 실시예에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에서 학습및자동분류부(220)는 데이터 입력부(221), 데이터 저장부(DB)(222), 데이터 전처리부(223), 대용량 분류기(224), 멀티프로세싱 병렬 처리부(225), 및 성능 측정부(226)를 포함한다.
상기 데이터 입력부(221)는 데이터를 입력받는다.
상기 데이터 저장부(DB)(222)는 상기 데이터 입력부(101)를 통해 입력되는 데이터를 저장한다.
상기 데이터 전처리부(223)는 상기 입력되는 데이터의 전처리 및 언어처리를 수행한다.
상기 대용량 분류기(224)는 입력되는 대용량 데이터에서 부분적 변경요소만을 추가 반영하는 대용량 학습 모델에 기반하여 데이터를 처리한다.
상기 멀티프로세싱 병렬 처리부(225)는 상기 대용량 분류기의 작업을 분산 처리한다.
상기 성능 측정부(226)는 상기 대용량 분류기의 작업 성능을 측정한다.
도 5a 및 5b는 도 4의 대용량 분류기의 설명도이고, 도 6은 본 발명에 따른 대용량 분류기의 구성도이다.
이하, 도 5a, 5b 및 도 6을 참고하여 대용량 분류기 생성 방법에 대하여 설명하기로 한다.
1. 단위 분류기 생성과 동적 결합방법
자동 범주화 기술을 실제 서비스에 응용하고자 할 때, 경우에 따라서는 수백만 건 이상의 정보자원을 학습하고 해석해야 하는 경우가 있다. 일반적으로 효율적인 문서처리를 위해 자질 선정 기법을 사용하는데, 이는 정보량의 축소 뿐만 아니라 성능의 향상을 위해서도 필요한 과정으로 알려져 있다. 그러나, 실시간 (또는 준실시간)으로 대용량의 데이터가 쏟아지는 빅데이터 환경에서 대용량의 문서학습을 하는 과업에서는, 자질 특성을 분석하고 이를 제거하는 과정에 소요되는 시간과 컴퓨팅 자원 문제에서 자유로울 수 없으며, 자질선택 및 축소기법의 적용 역시 한계가 존재하게 된다.
본 발명에 따른 대용량 학습 기술에서 사용하는 기법은 작은 용량의 매트릭스를 다수 생성하여 정보 손실 없이 동적으로 결합하는 것이다. 도 6는 데이터베이스별로 여러 개의 작은 단위의 학습 결과(분류기)(510-1, 510-2, 510-n)를 조합하는 예시이다. 여러 개의 분할된 복수의 단위 분류기(510-1, 510-2, 510-n)로 구성하여 동적으로 결합하여 최종 대용량 학습모델(대용량 분류기)(224)를 생성할 수 있다.
2. 단위 분류기의 생성과정
단위 분류기의 생성을 위해 아래와 같은 전처리 과정을 포함한 일련의 과정을 거친다.
(1) 자질 추출부(511-1, 211-2, 211-n)
자질을 추출하기 위해 아래의 두 가지 타입을 고려할 수 있다. 타이틀, 초록 등으로부터 정보를 추출하는 경우에는 스테밍(영문) 또는 형태소분석(한글)을 거쳐 자질집합을 생성한다. 이때, 저빈도 자질 제거 과정을 고려하는 것이 좋다. 보통 전체문서 집합에서 1회 출현 저빈도 (collection frequency = 1) 자질은 전체 중 약 40- 60% 정도를 차지한다.
① 키워드, 디스크립터
논문 저자의 키워드 필드나 통제어휘인 디스크립터 필드를 이용한다.
② 용어 추출(Info Extraction)
타이틀, 초록 등의 비구조적인 정보로부터 명사구를 포함한 주요 정보를 추출한다.
(2) 문헌별 자질정보 추출부(212-1, 212-2, 212-n)
문헌를 구성하는 개별 자질에 범주코드를 부여한다.
주요 생성필드는 문헌고유ID, 자질, 및 범주코드를 포함한다.
(3) 자질 특성 매트릭스 생성부(213-1, 213-2, 213-n)
본 발명에서는 개별 단위분류기를 생성하기 위한 핵심정보 매트릭스를'자질 특성 매트릭스'라 칭한다. 최종 자질 벡터를 연산하기 위한 매트릭스 정보를 생성하여 데이터베이스(DB)나 바이너리 파일로 적재한다.
주요 생성필드는 자질고유ID, 자질, 범주코드, TP, TN, FP, FN, CF, IDF 등을 포함한다. <표 1>은 자질-범주간 출현관계 분할표에 관한 것으로, 상기 자질 특성 매트릭스의 생성필드 중 일부가 나타나 있다.
범주 cj 소속 | 범주 cj 미소속 | |
자질 fi 출현 | TP (True??Positive) | FN (False??Negative) |
자질 fi 미출현 | FP (False??Positive) | TN (True??Negative) |
3. 단위 분류기 결합을 통한 대용량 분류기 생성
본 발명에 따른 대용량 분류기 생성의 핵심은 단위 분류기 생성과정 중 (3)단계에서 생성된 자질 특성 매트릭스를 결합하는 방법을 이용해 분류기의 동적결합의 수행하는 것이다. 단위 분류기는 학습할 대상 문헌이 많을 경우 자동 분할 후 동적으로 결합해 거대한 매트릭스를 재생산할 수 있다.
(1) 매트릭스 동적결합부(221)
① 우선 복수개의 결합 대상 '자질특성 매트릭스'를 메모리에 상주하여, 모든 매트릭스에 출현한 자질 값의 고유한(distinct) 전체 셋을 만든다.
② 개별 자질에 결합 대상 매트릭스들을 참조하여 정보를 가져온다. 이때, 자질이 모든 자질특성 매트릭스에서 출현하지 않으므로 자질의 개수, 전체 문헌의 수 등 각 매트릭스의 통합정보를 동적으로 산출하여 TP, TN, FP, FN과 IDF, CF 등 주요 정보를 재계산한다. 이 과정은 10만 건씩 학습된 10개의 분류기를 결합한 통합매트릭스 생성결과와 100만 건 전체를 한번에 학습한 분류기 매트릭스 내의 개별 파라미터요소의 수치가 정확히 일치함을 의미한다.
(2) 주제-가중치 벡터 생성부(222)
통합된 자질 특성 매트릭스로부터 거리계수 및 Cosine, LOR (log odds ration) 등 유사척도를 이용해 최종 투표분류기에 적합한 자질 벡터형태를 생성하여 DB나 바이너리 파일로 적재한다.
LogTF*IDF*Cosine 계수를 이용한 자질벡터는 하기 <수학식 1>과 같이 표현이 가능하다. 또한 본 발명에 따른 증분 학습 모델에서는 자질 가중치를 부여하기 위해 승산비(OR)와 의미모호성 해소(AM) 모델을 추가로 적용하였다.
<수학식 1>
(3) 다원 분류부(223)
통합 매트릭스에서 생성된 자질벡터를 이용해 하기 <수학식 2>와 같이 투표형 분류기법으로 분류를 수행한다. 자질값 투표형 분류기(Feature Voting Classifier, FVC)는 좋은 분류 성능과 빠른 속도를 나타내는 확률기반 모델이다. 생성된 자질 벡터를 메모리에 상주한 후, 대량의 입력문헌에 대해 고속의 다원분류를 수행하여 입력문서를 분류한다.
<수학식 2>
최종 생성된 분류기는 최종 계산된 벡터의 데이터량이 상대적으로 많지 않아 메모리 상주용량이 적기 때문에 자질 종수의 제한이 없으며 각 가중치의 선형결합을 실시하므로 자질 종수의 증가에 따른 속도저하도 거의 없는 고속의 분류기이다.
이질적인 분류체계를 사용하는 학술정보 간의 관계를 확률적인 강도로 표현하여 그 관계를 추론하고, 분류체계 간 자동 매핑하는 방안에 대한 개발 방법을 기술하고자 한다. 이와 유사하게 메타데이터에 기반하여 정보시스템간의 의미 유사도를 측정하려는 시도가 있었으며, 또한 단일 분류체계 내의 각 분류 간에 의미적인 유사성을 산출하여 유사주제 분류의 상호 의미관계를 확률강도로 표현하려는 확률적 온톨로지 기법에 관한 연구도 최근 수행되었다.
분류체계명(자질)의 주제분야(범주)간 유사도를 측정하기 위하여, 고빈도어 선호경향을 갖는 연관성 척도인 코사인 유사계수를 사용하였다. <수학식 3>에서 유사계수 결과 값은 모두 가중치 부여방식으로 산출된 것으로 0과 1사 이의 값을 갖는다.
<수학식 3>
하기 <표 2>는 자질(분류체계명)와 범주(주제분야)간 출현관계 분할표를 나타내고, 자질 f는 분류체계명에 해당하며, 범주 c는 분류체계명이 속한 주제 분류를 의미한다.
범주 cj 소속 | 범주 cj 미소속 | |
자질 fi 출현 | a | b |
자질 fi 미출현 | c | d |
자동분류 시, 자질값(자질과 범주의 연관도) 투표방식을 사용하는데 분류대상 문서에 나타난 n개의 단어 자질집합과 후보범주 m개의 집합을 각각 F={f1, f2, …, fn}와 C={c1, c2, …, cm}로 표현하고, 자질 fi가 범주 cj에 대해서 가지는 자질값을 V(fi, cj)라고 하면 자질값 투표 분류기는 다음 <수학식 4>을 만족하는 범주 cj를 문서에 할당한다.
<수학식 4>
이러한 투표형 퍼셉트론(VPT: Voted Perceptron) 방식은 기본적인 신경망 모형 중 하나인 퍼셉트론의 결과를 다수결 투표 방식으로 출력하는 분류방법으로서, 성능이 좋은 분류기로 알려져 있는 SVM와 비교하여 거의 대등하거나 약간 떨어지는 성능을 보이면서도 계산상의 복잡성이 상대적으로 낮고 처리속도가 빠르다는 장점을 가지고 있다. 본 발명에서 제안한 방식에 대한 증명을 위해 실제 대용량 데이터 처리를 위한 VPT 방식의 분류기를 개발한다.
대용량 데이터에 기반한 지능형 서비스를 위해서는 고성능의 분류 기술 도입이 요구되고 있으며, 더욱이 학제 간 연구가 활발해지고 문헌이 많이 구축되면 자동 분류 성능이 현재보다 더욱 저하될 수 있다. 실제 현업에서 분류 기반 서비스의 이용자 만족도가 낮은 경우, 기존 분류체계를 조정할 당위적 근거 마련이 어려운 점 또한 해결해야 할 과제이다. 데이터를 효과적으로 재구성하기 위해서는 전체 데이터의 분야별 분포를 시각적으로 해석할 수 있는 방법론이 필요하며, 서비스를 개선하기 위해 자동 또는 반자동으로 시스템이 제공하는 진단 정보가 필요할 것으로 보인다.
본 발명에서는 처방적 분석 기법에 기반한 연구정보 고부가가치화 플랫폼의 설계 및 구현을 목표로 한다. 처방적 분석 개념을 적용하기 위해, 우선 대용량의 문헌을 빠르게 학습하는 데 특화된 동적 분류기술을 도입하고자 한다. 또한 구축된 학술정보의 주제 범주 간 특성을 파악하기 위하여 네트워크 척도 알고리즘(network scaling algorithm)을 이용해 학문의 전역적 지식 구조를 분석한다.
한편, 처방적 분석에 기반한 분류 시스템을 구축하기 위해서는 처방적 분석 개념을 지원할 수 있는, 적절한 기계학습 기법을 선정하는 것이 중요하다. 처방적 분석은 여러 가지 선택지를 제공하는 다양한 시나리오 생성을 해야 하기 때문에 대량의 데이터에 대해 학습 셋을 다양하게 변화시키면서 반복적인 학습 작업을 빠르게 수행할 수 있는 기법이 필요하다. 즉, 대용량 문헌의 학습에 제약이 없어야 할 뿐 아니라, 최적의 옵션을 찾기 위해 반복적으로 데이터 셋을 나누고 결합하는 방식에 적합한 분류기를 구비하는 것이 필수적이다.
본 발명에서는 대용량 문서에 적합한 동적 문헌 분류 기법으로 자질값 투표형 분류기(Feature Value Voting Classifier: FVC)를 사용한다. FVC는 데이터 집합을 최소 단위로 나누어 학습하고 필요시 작은 단위로 학습된 결과를 즉시 재결합하는 방식으로 대량의 데이터를 빠르게 학습한다. 문서로부터 추출한 개별 자질에 대한 주제 범주와의 유사도 벡터정보를 생성한 후 문서의 색인어에 다수결 방식으로 투표하여 다 득표한 주제범주를 선택하는 투표방식 분류기이다.
자질의 주제-가중치 벡터 생성을 위한 유사계수는 다양하게 사용할 수 있으며, Cosine 유사계수와 logTF*IDF 자질 가중치 요소를 포함하여 <수학식 5>와 같이 표현할 수 있다. 이때 문헌 벡터 d는 n개의 자질에 대해 자질 fi가 범주 cj에 대해서 가지는 자질 값인 vs(fi, cj)로 구성되며 <수학식 6>과 같이 표현할 수 있다. 마지막으로 자질값 투표형 분류기는 다수결 투표를 통해 <수학식 7>을 만족하는 최다득표 범주 cj를 최종 분류 결과로 할당한다. 구조적으로 매우 간결하므로 메모리를 적게 차지하고 고속으로 문헌을 분류하는 장점을 지닌 분류 기법이다.
<수학식 5>
<수학식 6>
<수학식 7>
도 7은 본 발명에 따른 대용량 분류기에 대한 설명도이다.
도 7에 도시된 바와 같이, 본 발명에 따른 대용량 분류기는 대용량의 문헌을 고속으로 학습하기 위해 계층적으로 쌓아하는 증분 학습이 가능하다.
작은 단위의 학습용 문헌 집단을 각각 학습한 후 마치 블록으로 쌓듯이 대용량의 학습 결과를 빠르게 재생성하는 증분 학습(incremental learning) 알고리즘은 최적의 옵션을 찾아가는 과정에서 수많은 시뮬레이션을 시도해야 하는 처방적 분석 시스템의 필수적 기반 모델이 된다. 이러한 결합 방식을 이용하면 학습 셋을 순차적으로 쌓거나 또는 원하는 학습 셋만 선별적으로 결합하는 등 학습 결과를 원하는 방식으로 무제한 생성할 수 있다는 장점이 있다. 또한 학습 데이터가 증가해도 학습 소요 시간이 일정하게 선형 증가하는 장점이 있기 때문에 대용량 문헌의 학습에 매우 효과적인 모델이라 할 수 있다.
도 8은 기존의 SciVal 시스템에서의 시각화 방법에 대한 설명도이다.
그에 반해, 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에서는 시각화를 위해 패스파인더 네트워크 척도 알고리즘을 사용한다.
도 9는 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에서 사용되는 패스파인더 네트워크 척도 알고리즘에 대한 설명도이고, 도 10은 패스파인더 네트워크 척도 알고리즘으로 구현한 동시인용 기반 네트워크에 대한 도면이다.
지능형 연구정보 큐레이션 서비스 플랫폼을 구성하는 중요한 기술 요소 중 하나는 시각화이다. 시각적으로 제공되는 각종 자료는 분석의 결과가 도출되기까지의 시스템 처리과정을 사용자가 인지적으로 확인하고 판단의 근거로 삼기 위한 유용한 도구가 될 수 있다. 특히 서로 긴밀하게 연결되어 있는 학문 분야의 분류 정보를 해석하기 위해서는 상호 관계를 보다 구조적으로 시각화할 수 있는 방안인 전역 데이터의 지적 구조 생성 방법이 효과적일 수 있다.
본 발명에서는 처방적 분석 기법을 지원하기 위한 시각화 기법으로 패스파인더 네트워크(PathFinder Network: 이하 PFNet) 척도 알고리즘을 제안한다. PFNet 기법은 기존의 다차원 척도법(Multidimensional Scaling: MDS)이 지적 구조를 세부적으로 표현하는 데 어려움이 있어 이를 보완하는 네트워크 기반의 알고리즘이 주목받으면서 최근 계량학적 분석 연구에서 활발하게 사용되는 네트워크 척도 알고리즘 중 하나이다.
도 9에 도시된 바와 같이, PFNet은 두 개의 파라미터를 사용하는데, q는 노드 간 경로거리를 측정하기 위한 최대 링크의 수를 뜻하며, r은 민코프스키 거리(Minkowski metric) 공식의 제곱수로서 경로 구성 링크의 가중치를 거리에 반영하는 방법을 의미한다. PFNet을 구현하기 위해서는 두 개의 매트릭스(와 )가 필요하다. 는 i개의 링크를 따라 노드 j가 노드 k로 가는 최소비용 값을 저장하며 초기가중치 값()으로 을 재귀적으로 계산하여 산출할 수 있다. 는 i개 이하의 링크로 구성되는 경로들을 따라 노드 j에서 k로 가는 최소비용 값을 저장하며, 이 매트릭스는 모든 에 대해 재귀적으로 계산하여 산출된다. 최종단계에서 와 의 두 매트릭스를 비교하여 같은 값을 갖는 모든 링크를 추출함으로써 PFNet을 생성한다.
도 11은 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에서 이용되는 데이터 분류를 위한 42개 주제코드 표이고, 도 12는 PFNet 알고리즘을 통해 그려진 주제 범주 간 지적 구조 샘플이고, 도 13은 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에서 시나리오를 설명하기 위한 일실시예 설명도이다.
도 12는 PFNet을 이용하여 도 11에 도시된 42개 주제 분야의 지식 맵을 통해 학문의 전역적인 위상 구조와 함께 데이터의 의미적인 관점에서 연관성이 높은 인접주제 분야를 쉽게 식별할 수 있다.
분석 기술의 발전은 축적된 데이터를 일목요연하게 보여줌으로써 현상을 파악하는 기술적 분석론(descriptive analytics)과 진단적 분석론(diagnostic analytics), 추세를 통해 미래를 추정하는 예측적 분석론(predictive analytics)을 거쳐 최근에는 최적화 기법을 통해 선택 가능한 여러 시나리오를 시스템이 제시할 수 있다는 처방적 분석 방법론(prescriptive analytics)에까지 이르렀다. 처방적 분석 방법의 개념은 점차 다양한 학문과 서비스, 응용 시스템에 활용되며 지속적으로 발전하고 있다.
앞서 자동 분류의 오류로그를 이용하는 계량 정보 분석적 방법이 주요 학문 영역의 전체적인 구조 파악에 유용하며, 학문분야 간의 연관정도를 나타내는 지적 구조를 고려하여 분류체계를 재설정하는 근거가 될 수 있음을 알 수 있다. 기계 학습과 계량정보 분석 방법론을 융합하여 시나리오를 도출함으로써 처방적 분석 시스템으로 발전시키는 방안에 대해 살펴본다.
처방적 분석 개념을 적용함으로써 기존의 분류 서비스 시스템을 의사결정 지원 시스템(decision support system: DSS)으로 재설계하여 활용할 수 있다. 도 11과 같이 표준분류 체계를 선정하고 서비스하는 과정에서 서비스 개선점을 도출하는 기능을 탑재할 수 있다. 정보 검색 및 분석 서비스를 고려하여 범주를 재설정하는 과정에서 변경의 근거를 토대로 분류 체계를 효과적으로 재설정함으로써 최종 서비스의 지속적인 성능 향상을 꾀할 수 있다.
도 13에는, 처방적 분석 시스템을 통해 도출된 특정 패턴들을 기반으로, 시스템 분석가는 시스템에 적용가능한 몇 가지 후보 시나리오를 생성할 수 있다. 분석 결과를 기반으로 42개의 분류체계를 최종 29개의 주제 분류 체계로 재조정한 단계별 시나리오는 다음과 같다.
첫 번째 생성 규칙(production rule)은 클러스터링 기법을 이용해 시뮬레이션한 바와 같이 지식 맵 상에서 범주 간 유사도가 높은 학문 분야를 그룹핑하는 것이다.
두 번째 생성 규칙은 상호관계의 명시적 설명이 가능한 주제 분야를 고려해 그룹핑하는 것이다.
세 번째 규칙은 문서수가 적고 분류 성능이 낮으며, 인접한 유사 주제 분야를 그룹핑 하는 단계이다.
세가지 규칙에 따라, 시나리오 1, 2 및 3이 도출되었다.
도 14는 본 발명에 따른 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에서 큐레이션서비스를 설명하기 위한 도면이다.
특정한 기술 분야에 대한 연구자 분석, 예측 및 추천은 미래 연구 계획 및 전략 수립에 있어 매우 중요한 부분이다. 하지만 기존의 서비스 및 도구들은 단순한 평가 기준에 근거한 연구자들의 단편적인 분석에 그치고 있으며, 예측 및 추천보다는 분석 중심의 서비스를 제공하고 있기 때문에 분석 결과에 대한 판단 및 향후 계획 수립은 여전히 연구자의 몫으로 남게 된다. 본 발명에서는, 다양한 평가 요소를 기반으로 연구자의 역량을 평가하고 이에 기반하여 가장 적합한 지능형 연구정보 큐레이션 서비스 제공한다.
처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에서 큐레이션서비스는 연구자가 보유한 전문성과 연구 성향 등의 사실 정보를 바탕으로 연구 역량 강화를 위한 전략을 제시하는 연구자 큐레이션 서비스(Researcher Curation Service), 소속기관 연구자들의 전자저널 이용 실태와 새로운 요구사항을 종합적으로 분석하여 연구자가 요구하는 양질의 학술 저널을 추천해주는 저널 큐레이션 서비스(Jornal Curation Service), 및 해외출판사와 구독 가치가 있는 전자저널 이용을 위한 라이선스를 체결할 때, 협상에서 활용할 수 있는 데이터 기반 팩트 정보 제공하는 정보 가용성 큐레이션 서비스(Information Value-up Curation Service)를 포함한다.
또한, 큐레이션 서비스 시스템에서의 유용성, 신뢰성 및 적응성을 평가하기 위한 서비스 평가부(미도시됨), 및 상기 큐레이션 서비스 시스템의 웹 접근성, 웹 호환성, 및 웹 개발성을 평가하기 위한 웹성능 측정부(미도시됨)를 더 포함할 수 있다.
본 발명에서는 지능형 연구정보 큐레이션 서비스를 위한 문헌의 자동 분류 과정에서 발생한 오분류의 빈도 정보를 이용하여 학문의 주요범주 간 연관성을 측정한다는 특징이 있다. 동시 발생 요소 간의 연관 빈도행렬에 대해 상관 정도를 측정하는 과정을 자동 분류의 실패로 판정된 오류 빈도 정보를 이용하여 주제 간의 유사도를 측정하는 과정으로 대체하여 이를 직접 학문분야의 지적 구조 분석용 데이터로 활용한다. 이러한 방식으로 데이터를 분류하고 그 결과를 시각화 하여 구조를 검증하는 과정을 이음새 없이 연결함으로써 효율적으로 동작하는 처방적 분석 자동 분류 기술을 개발한다.
확률 모델을 기반으로 하는 FVC 기반 분류 기법은 산출 값을 모든 주제 범주에 대한 유사도의 벡터 형태로 갖고 있게 된다. 따라서 벡터 정보로부터 분야별 가중치를 측정하고 정규화한 후 이를 순위화하여 학문 주제 분야 간 최종 연관 정보를 산출할 수 있다.
먼저, 대용량의 연구정보 데이터를 수집하고 저장한다(S1510).
상기 데이터수집단계(S1510)에서는 대량의 학술 논문을 수집하고 저장한다. 자동 분류 성능 평가를 위해 모든 논문에는 분류정보가 입력되어 있으며 일부는 학습용 데이터 집합으로 사용하고 나머지는 성능 평가용 테스트 데이터 집합으로 사용한다.
이후, 상기 수집된 대용량의 연구정보를 자동 분류기를 통해 학습 및 분류한다(S1520).
상기 학습및자동분류단계(S1520)에서는, 수집된 대용량 문헌을 자동 분류기를 통해 학습 및 분류를 실시한다. 본 발명에서 활용하는 FVC는 확률적 분류기 유형으로, 이 단계의 결과로 나타나는 분류 결과 정보는 주제 범주 간의 확률적인 유사도 형태로 나타난다. 따라서 이 확률 데이터를 활용하면 시스템이 가장 모호하게 분류한 문헌 데이터들을 수집할 수 있다. 이는 능동적 학습을 통한 문헌 데이터의 품질 개선 시스템으로 쉽게 확장 발전시킬 수 있다.
이후, 상기 학습및자동분류단계(S1520)에서 생성된 오류로그를 이용하여 학문 분야의 전역적 네트워크를 생성하여 시각화한다(S1530).
상기 분석및시각화단계(S1530)에서는. 자동 분류 시 생성된 오류 로그를 이용하면 유사계수(similarity coefficient)를 사용하여 학문 분야 간 유사도를 측정하는 방법과 동일하게 학문 분야의 전역적 네트워크를 생성할 수 있다. 자동 분류의 결과를 이용해 네트워크 구조 분석을 수행하기 때문에 전체 시스템은 각 컴포넌트들이 유기적으로 연동되도록 설계될 수 있다.
이후, 분석 결과에 처방적 분석 개념을 적용하여 의사결정 시나리오를 도출한다(S1540).
처방시나리오생성단계(S1540)에서는, 실험 결과를 해석함으로써 처방적 분석 시스템에서 제공할 수 있는 몇 가지 분류 체계 조정 시나리오를 도출하는 단계이다. 특히 2단계와 3단계인 자동 분류와 시각화는 빠르게 상호 작용을 하며 최적화를 위한 반복 계산을 수행한다. 특히 시스템을 생명력 있게 지속적으로 운영하기 위해서는 최종 단계에서 첫 단계로 자연스럽게 순환되도록 피드백 과정을 두는 것이 바람직하다.
현재 사용하는 주제 분류 체계가 일관성이 낮고 실제 데이터의 특성을 잘 반영하지 못하는 상태라면, 데이터 현황을 점검하여 기존의 주제 분류 체계를 재설정할 필요가 있을 것이다. 이러한 개선 프로세스가 없이는 낮은 서비스 품질이 지속될 가능성이 높기 때문에 기계 학습을 통한 분석 결과가 데이터의 품질 보정에 활용되도록 하는 것이 매우 중요하다. 따라서, 처방적 분석 개념을 도입함으로써 데이터의 품질 개선을 위한 피드백 과정을 실행할 수 있으며, 분류 체계를 합리적으로 재설정하기 위하여 주제 범주간의 연관성을 측정하고 지적 구조를 파악하여 의사결정에 필요한 분석 데이터를 산출하는 과정을 제시한다.
이후, 의사결정 시나리오에 근거하여 지능형 연구정보 관련 큐레이션 서비스를 제공한다(S1550).
이상에서 본 발명의 일 실시예에 처방적 분석 기반 지능형 연구정보 고부가 가치화 방법에 대하여 설명하였지만, 처방적 분석 기반 지능형 연구정보 고부가 가치화 방법을 구현하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 기록매체 및 처방적 분석 기반 지능형 연구정보 고부가 가치화 방법을 구현하기 위한 컴퓨터 판독 가능한 기록매체에 저장된 프로그램 역시 구현 가능함은 물론이다.
즉, 상술한 처방적 분석 기반 지능형 연구정보 고부가 가치화 방법은 이를 구현하기 위한 명령어들의 프로그램이 유형적으로 구현됨으로써, 컴퓨터를 통해 판독될 수 있는 기록매체에 포함되어 제공될 수도 있음을 당업자들이 쉽게 이해할 수 있을 것이다. 다시 말해, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어, 컴퓨터 판독 가능한 기록매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 상기 컴퓨터 판독 가능한 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리, USB 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
본 발명은 상기한 실시예에 한정되지 아니하며, 적용범위가 다양함은 물론이고, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 다양한 변형 실시가 가능한 것은 물론이다.
210: 데이터 수집부 220: 학습및자동분류부
230: 분석및시각화부 240: 처방시나리오생성부
250: 큐레이션서비스제공부 211: 콘텐츠로드부
212: 문서변환부 213: 키워드추출부
214: 개체식별부 215: 관련도책정부
216: 콘텐츠관리부 217: 검색제공부
221: 데이터 입력부 222: 데이터 저장부(DB)
223: 데이터 전처리부 224: 대용량 분류기
225: 멀티프로세싱 병렬 처리부 226: 성능 측정부
510: 단위 학습모델(단위 분류기)
520: 대용량 학습모델(대용량 분류기)
511-1, 511-2, 511-n : 자질 추출부
512-1, 512-2, 512-n : 문헌별 자질정보 추출부
513-1, 513-2, 513-n : 자질 특성 매트릭스 생성부
521: 매트릭스 동적 결합부
522: 주제-가중치 벡터 생성부
523: 다원 분류부
230: 분석및시각화부 240: 처방시나리오생성부
250: 큐레이션서비스제공부 211: 콘텐츠로드부
212: 문서변환부 213: 키워드추출부
214: 개체식별부 215: 관련도책정부
216: 콘텐츠관리부 217: 검색제공부
221: 데이터 입력부 222: 데이터 저장부(DB)
223: 데이터 전처리부 224: 대용량 분류기
225: 멀티프로세싱 병렬 처리부 226: 성능 측정부
510: 단위 학습모델(단위 분류기)
520: 대용량 학습모델(대용량 분류기)
511-1, 511-2, 511-n : 자질 추출부
512-1, 512-2, 512-n : 문헌별 자질정보 추출부
513-1, 513-2, 513-n : 자질 특성 매트릭스 생성부
521: 매트릭스 동적 결합부
522: 주제-가중치 벡터 생성부
523: 다원 분류부
Claims (10)
- 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에 있어서,
대용량의 연구정보 데이터를 수집하고 저장하기 위한 데이터수집부(210);
상기 수집된 대용량의 연구정보를 자동 분류기를 통해 학습 및 분류하기 위한 학습및자동분류부(220);
상기 학습및자동분류부에서 생성된 오류로그를 이용하여 학문 분야의 전역적 네트워크를 생성하고 시각화하기 위한 분석및시각화부(230);
분석 결과에 처방적 분석 개념을 적용하여 의사결정 시나리오를 도출하기 위한 처방시나리오생성부(240); 및
처방시나리오에 근거하여 지능형 연구정보 관련 큐레이션 서비스를 제공하기 위한 큐레이션서비스제공부(250)
를 포함하고,
상기 데이터수집부(210)는,
대상 콘텐츠를 로드하는 콘텐츠로드부(211);
상기 콘텐츠로드부(211)에 로드된 대상 콘텐츠를 파싱하여 마크업 언어(Markup Language) 형식으로 변환하며 고유식별자를 부여하는 문서변환부(212);
상기 문서변환부(212)에 의해 변환된 대상 콘텐츠의 키워드를 추출하는 키워드추출부(213);
상기 키워드추출부(213)로부터 추출된 키워드를 기반으로 핵심키워드, 저자, 기관, 지역, 및 인용문헌 중 선택되는 어느 하나 또는 복수의 개체를 식별하고, 개체를 식별할 수 있도록 각각의 개체에 고유식별자를 부여하는 개체식별부(214);
상기 개체식별부(214)로부터 식별된 개체에 관련도 점수를 부가하는 관련도책정부(215);
상기 문서변환부(212)로부터 변환된 대상 콘텐츠에 상기 개체식별부(214)로부터 고유식별자가 부여된 개체 정보 및 상기 관련도책정부(215)에서 부가된 관련도 점수 정보를 저장 및 관리하는 콘텐츠관리부(216); 및
외부로부터의 검색 요청을 분석하여 검색에 이용할 개체를 선택하고, 선택된 개체를 기반으로 상기 콘텐츠관리부(216)로부터 관련도점수가 가장 높은 콘텐츠 순으로 검색 결과를 제공받아 검색 결과를 제공하는 검색제공부(217)
를 포함하는 것을 특징으로 하는 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼.
- 삭제
- 제 1항에 있어서,
상기 학습및자동분류부(220)는,
데이터를 입력받는 데이터 입력부(221);
상기 입력되는 데이터를 저장하는 데이터 저장부(데이터베이스)(222);
상기 입력되는 데이터의 전처리 및 언어처리를 위한 데이터 전처리부(223);
입력되는 대용량 데이터에서 부분적 변경요소만을 추가 반영하는 증분 학습 모델에 기반하여 데이터를 처리하는 대용량 분류기(224);
상기 대용량 분류기의 작업을 분산 처리하는 멀티프로세싱 병렬 처리부(225); 및
상기 대용량 분류기의 작업 성능을 측정하는 성능 측정부(226)
를 포함하는 것을 특징으로 하는 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼.
- 제3항에 있어서,
상기 대용량 분류기(224)는,
다수의 단위 분류기(510-1, 510-2, 510-n)를 포함하고, 상기 다수의 단위 분류기의 결합을 통해 생성되는 것을 특징으로 하며,
각 단위 분류기(510-1, 510-2, 510-n)는,
자질을 추출하기 위한 자질 추출부(511-1, 511-2, 511-n);
문헌별 자질정보를 추출하기 위한 문헌별 자질정보 추출부(512-1, 512-2, 512-n);
자질 특성 매트릭스를 생성하기 위한 자질 특성 매트릭스 생성부(513-1, 513-2, 513-n);
를 포함하며,
상기 대용량 분류기(224)는,
결합 대상이 되는 다수의 자질 특성 매트릭스의 정보를 통합하여 결합하기 위한 매트릭스 동적 결합부(521);
상기 통합된 자질 특성 매트릭스로부터 유사척도를 이용하여 주제-가중치 벡터를 생성하기 위한 주제-가중치 백터 생성부(522);
상기 생성된 주제-가중치 백터를 이용하여 투표형 분류기법에 따라 분류하기 위한 다원 분류부(523)
를 더 포함하는 것을 특징으로 하는 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼.
- 제 1항에 있어서,
상기 분석및시각화부(230)는,
전역 데이터의 지적 구조 생성 방법을 이용하여
패스파인더 네트워크 (PFNet) 척도 알고리즘을 이용하여 전역 데이터의 지적 구조를 생성하는 것을 특징으로 하고,
상기 패스파인더 네트워크 척도 알고리즘은,
q는 노드 간 경로거리를 측정하기 위한 최대 링크의 수이고, r은 민코프스키 거리(Minkowski metric) 공식의 제곱수로서 경로 구성 링크의 가중치를 거리에 반영하는 방법인 경우,
패스파인더 네트워크는 두 개의 매트릭스(와 )가 필요하며, 는 i개의 링크를 따라 노드 j가 노드 k로 가는 최소비용 값을 저장하며 초기가중치 값()으로 을 재귀적으로 계산하여 산출하고, 는 i개 이하의 링크로 구성되는 경로들을 따라 노드 j에서 k로 가는 최소비용 값을 저장하며, 상기 매트릭스는 모든 에 대해 재귀적으로 계산하여 산출되며, 최종단계에서 와 의 두 매트릭스를 비교하여 같은 값을 갖는 모든 링크를 추출하여 PFNet을 생성하는 것을 특징으로 하는 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼.
- 제 1항에 있어서,
상기 처방시나리오생성부(240)는
기계 학습과 계량정보 분석 방법론을 융합하여 최적화 기법을 통해 선택 가능한 여러 시나리오를 도출하는 것을 특징으로 하는 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼.
- 제 1항에 있어서,
상기 큐레이션서비스제공부(250)는,
연구자가 보유한 전문성과 연구 성향 등의 사실 정보를 바탕으로 연구 역량 강화를 위한 전략을 제시하는 연구자 큐레이션 서비스(Researcher Curation Service);
소속기관 연구자들의 전자저널 이용 실태와 새로운 요구사항을 종합적으로 분석하여 연구자가 요구하는 양질의 학술 저널을 추천해주는 저널 큐레이션 서비스(Jornal Curation Service); 및
해외출판사와 구독 가치가 있는 전자저널 이용을 위한 라이선스를 체결할 때, 협상에서 활용할 수 있는 데이터 기반 팩트 정보 제공하는 정보 가용성 큐레이션 서비스(Information Value-up Curation Service)
를 포함하고,
큐레이션서비스 시스템은,
상기 큐레이션서비스 시스템의 유용성, 신뢰성 및 적응성을 평가하기 위한 서비스 평가부; 및
상기 큐레이션서비스 시스템의 웹 접근성, 웹 호환성, 및 웹 개발성을 평가하기 위한 웹성능 측정부
를 포함하는 것을 특징으로 하는 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼.
- 제 1항에 기재된 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에서의 처방적 분석 기반 지능형 연구정보 고부가 가치화 방법에 있어서,
데이터수집부(210)가 대용량의 연구정보 데이터를 수집하고 저장하는 데이터수집단계(S1510);
학습및자동분류부(220)가 상기 수집된 대용량의 연구정보를 자동 분류기를 통해 학습 및 분류하는 학습및자동분류단계(S1520);
분석및시각화부(230)가 상기 학습및자동분류단계에서 생성된 오류로그를 이용하여 학문 분야의 전역적 네트워크를 생성하여 시각화하는 분석및시각화단계(S1530);
처방시나리오생성부(240)가 분석 결과에 처방적 분석 개념을 적용하여 의사결정 시나리오를 도출하는 처방시나리오생성단계(S1540)
큐레이션서비스제공부(250)가 의사결정 시나리오에 근거하여 지능형 연구정보 관련 큐레이션 서비스를 제공하기 위한 큐레이션서비스제공단계(S1550)
를 포함하는 처방적 분석 기반 지능형 연구정보 고부가 가치화 방법.
- 제 8항에 기재된 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에서의 처방적 분석 기반 지능형 연구정보 고부가 가치화 방법을 구현하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 기록매체.
- 제 8항에 기재된 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼에서의 처방적 분석 기반 지능형 연구정보 고부가 가치화 방법을 구현하기 위한 컴퓨터 판독 가능한 기록매체에 저장된 프로그램.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190098244A KR102096328B1 (ko) | 2019-08-12 | 2019-08-12 | 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190098244A KR102096328B1 (ko) | 2019-08-12 | 2019-08-12 | 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102096328B1 true KR102096328B1 (ko) | 2020-04-02 |
Family
ID=70281649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190098244A KR102096328B1 (ko) | 2019-08-12 | 2019-08-12 | 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102096328B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626417A (zh) * | 2020-05-08 | 2021-11-09 | 台达电子工业股份有限公司 | 数据齐备度分析系统和数据齐备度分析方法 |
KR102437098B1 (ko) | 2022-04-15 | 2022-08-25 | 이찬영 | 인공 지능 기반의 오류 데이터 판정 방법 및 그 장치 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050051953A (ko) * | 2003-11-28 | 2005-06-02 | 대한민국(경북대학교 총장) | 의료 정보 통합 관리 시스템 및 방법 |
US20060136259A1 (en) * | 2004-12-17 | 2006-06-22 | General Electric Company | Multi-dimensional analysis of medical data |
US20080228040A1 (en) * | 2007-03-16 | 2008-09-18 | Arthur Solomon Thompson | International medical expert diagnosis |
US20090204439A1 (en) * | 2008-02-11 | 2009-08-13 | Emergent Health Technologies, Llc | Apparatus and method for managing electronic medical records embedded with decision support tools |
US20140046696A1 (en) * | 2012-08-10 | 2014-02-13 | Assurerx Health, Inc. | Systems and Methods for Pharmacogenomic Decision Support in Psychiatry |
KR101381689B1 (ko) | 2012-08-03 | 2014-04-22 | 기초과학연구원 | 콘텐츠 이용 특성에 기초하여 콘텐츠를 관리하는 콘텐츠 제공 장치 |
KR20160075971A (ko) | 2014-12-19 | 2016-06-30 | 케이웨어 (주) | 공공민원 데이터 서비스를 위한 빅 데이터 관리시스템 |
-
2019
- 2019-08-12 KR KR1020190098244A patent/KR102096328B1/ko active IP Right Grant
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050051953A (ko) * | 2003-11-28 | 2005-06-02 | 대한민국(경북대학교 총장) | 의료 정보 통합 관리 시스템 및 방법 |
US20060136259A1 (en) * | 2004-12-17 | 2006-06-22 | General Electric Company | Multi-dimensional analysis of medical data |
US20080228040A1 (en) * | 2007-03-16 | 2008-09-18 | Arthur Solomon Thompson | International medical expert diagnosis |
US20090204439A1 (en) * | 2008-02-11 | 2009-08-13 | Emergent Health Technologies, Llc | Apparatus and method for managing electronic medical records embedded with decision support tools |
KR101381689B1 (ko) | 2012-08-03 | 2014-04-22 | 기초과학연구원 | 콘텐츠 이용 특성에 기초하여 콘텐츠를 관리하는 콘텐츠 제공 장치 |
US20140046696A1 (en) * | 2012-08-10 | 2014-02-13 | Assurerx Health, Inc. | Systems and Methods for Pharmacogenomic Decision Support in Psychiatry |
KR20160075971A (ko) | 2014-12-19 | 2016-06-30 | 케이웨어 (주) | 공공민원 데이터 서비스를 위한 빅 데이터 관리시스템 |
Non-Patent Citations (2)
Title |
---|
Ko, Y., and J. Seo. 2004. "Using the feature projection technique based on a normalized voting method for text classification." Information Processing and Management. 40(2): 191-208. |
Mengle, S.S.R. and Goharian, N. 2009. "Ambiguity measure feature-selection algorithm." Journal of The American Society for Information Science and Technology. 60(5):1037-1050. |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626417A (zh) * | 2020-05-08 | 2021-11-09 | 台达电子工业股份有限公司 | 数据齐备度分析系统和数据齐备度分析方法 |
KR102437098B1 (ko) | 2022-04-15 | 2022-08-25 | 이찬영 | 인공 지능 기반의 오류 데이터 판정 방법 및 그 장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kühl et al. | Supporting customer-oriented marketing with artificial intelligence: automatically quantifying customer needs from social media | |
US11663254B2 (en) | System and engine for seeded clustering of news events | |
Abbas et al. | A literature review on the state-of-the-art in patent analysis | |
Das et al. | Towards methods for systematic research on big data | |
KR102156287B1 (ko) | 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법 | |
Del Alamo et al. | A systematic mapping study on automated analysis of privacy policies | |
Zhang et al. | A coarse-to-fine framework to efficiently thwart plagiarism | |
Hajikhani et al. | Mapping the sustainable development goals (SDGs) in science, technology and innovation: application of machine learning in SDG-oriented artefact detection | |
Al-Hawari et al. | Classification of application reviews into software maintenance tasks using data mining techniques | |
Deiva Ganesh et al. | Supply chain risk identification: a real-time data-mining approach | |
KR100800460B1 (ko) | 웹 온톨로지 검색/분류 시스템 및 방법 | |
Agarwal et al. | A systematic literature review on web service clustering approaches to enhance service discovery, selection and recommendation | |
Bouakkaz et al. | Textual aggregation approaches in OLAP context: A survey | |
KR102096328B1 (ko) | 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법 | |
Ji et al. | A multitask context-aware approach for design lesson-learned knowledge recommendation in collaborative product design | |
KR102156289B1 (ko) | 처방적 분석 기반 지능형 연구정보 고부가 가치화 플랫폼을 이용한 큐레이션 시스템 및 그 방법 | |
Nashipudimath et al. | An efficient integration and indexing method based on feature patterns and semantic analysis for big data | |
Sandhiya et al. | A review of topic modeling and its application | |
Moalla et al. | Data warehouse building to support opinion analysis in social media | |
Ghasemi-Gol et al. | Learning cell embeddings for understanding table layouts | |
Dong et al. | Using hybrid algorithmic-crowdsourcing methods for academic knowledge acquisition | |
Xiong et al. | Mining semantic information of co-word network to improve link prediction performance | |
Das et al. | A review on text analytics process with a CV parser model | |
Rybak et al. | Machine learning-enhanced text mining as a support tool for research on climate change: theoretical and technical considerations | |
Jain et al. | Ontology-Based Natural Language Processing for Sentimental Knowledge Analysis Using Deep Learning Architectures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |