KR20220066737A - 과학 기술 논문을 위한 지식 추출 시스템 - Google Patents

과학 기술 논문을 위한 지식 추출 시스템 Download PDF

Info

Publication number
KR20220066737A
KR20220066737A KR1020200153089A KR20200153089A KR20220066737A KR 20220066737 A KR20220066737 A KR 20220066737A KR 1020200153089 A KR1020200153089 A KR 1020200153089A KR 20200153089 A KR20200153089 A KR 20200153089A KR 20220066737 A KR20220066737 A KR 20220066737A
Authority
KR
South Korea
Prior art keywords
knowledge
scientific
knowledge extraction
structured
technological
Prior art date
Application number
KR1020200153089A
Other languages
English (en)
Other versions
KR102543703B1 (ko
Inventor
홍동균
이경일
Original Assignee
주식회사 솔트룩스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 솔트룩스 filed Critical 주식회사 솔트룩스
Priority to KR1020200153089A priority Critical patent/KR102543703B1/ko
Publication of KR20220066737A publication Critical patent/KR20220066737A/ko
Application granted granted Critical
Publication of KR102543703B1 publication Critical patent/KR102543703B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명에 따른 과학 기술 논문을 위한 지식 추출 시스템은, 네트워크를 통하여 복수의 과학 기술 논문을 수집하여, 데이터를 추출하고 기술 분류 체계에 따라 분류하여 분류 문헌 저장소에 저장하는 문헌 관리부; 반정형 지식 추출 모델을 참조하여, 분류 문헌 저장소에 저장된 상기 복수의 과학 기술 논문으로부터 추출된 데이터 중에서 반정형 데이터를 지식으로 추출하는 반정형 지식 추출 모델; 비정형 지식 추출 모델을 참조하여, 분류 문헌 저장소에 저장된 상기 복수의 과학 기술 논문으로부터 추출된 데이터 중에서 비정형 데이터를 지식으로 추출하는 비정형 지식 추출 모델; 정형 지식 추출 모델을 참조하여, 분류 문헌 저장소에 저장된 상기 복수의 과학 기술 논문으로부터 추출된 데이터 중에서 정형 데이터를 지식으로 추출하는 정형 지식 추출 모델; 및 상기 반정형 지식 추출부, 상기 비정형 지식 추출부, 및 상기 정형 지식 추출부 각각에서 추출된 지식들을 통합하여 지식 베이스에 저장하는 지식 관리부;를 포함한다.

Description

과학 기술 논문을 위한 지식 추출 시스템{Knowledge extraction system for scientific technology papers}
본 발명은 지식 추출 시스템에 관한 것으로, 자세하게는 과학 기술 논문으로부터 지식을 추출하기 위한 지식 추출 시스템에 관한 것이다.
본 발명은 과학기술정보통신부 SW컴퓨팅산업원천기술개발사업(SW)의 일환으로 (주)솔트룩스에서 주관하고 연구하여 수행된 연구로부터 도출된 것이다. [연구기간: 2020.01.01.~2020.13.31., 연구관리 전문기관: 정보통신기술진흥센터, 연구과제명: WiseKB: 빅데이터 이해 기반 자가학습형 지식베이스 및 추론 기술 개발, 과제고유번호 1711103335, 세부과제번호 2013-2-00109-008]
과학 기술 논문은 과학 기술 분야의 학술 성과를 담고 있으며, 과학 기술 분야 연구원의 노력과 지혜가 응집되어 있으며, 지식전파 및 학술교류의 중요 수단으로, 모든 과학 기술 분야의 연구 성과는 이전에 이루어진 연구에 기초하여 이루어진다.
과학 기술 논문 발간량이 꾸준히 증가하고 인터넷을 통해 입수할 수 있는 정보가 과잉상태에 도달함에 따라, 개인의 지식과 경험을 토대로 과학 기술 논문으로부터 정보를 입수하고 분석하는 전통적인 정보분석 방법은 시간 과다 소요, 분석하는 개인의 관점에 따라 편향된 정보수집과 분석 진행 등의 단점을 내포하고 있다.
본 발명의 기술적 과제는, 과학 기술 논문으로부터 효율적으로 지식을 추출할 수 있는, 과학 기술 논문을 위한 지식 추출 시스템에 관한 것이다.
상기 기술적 과제를 달성하기 위한 본 발명의 기술적 사상의 일측면에 따른 과학 기술 논문을 위한 지식 추출 시스템은, 네트워크를 통하여 복수의 과학 기술 논문을 수집하여, 데이터를 추출하고 기술 분류 체계에 따라 분류하여 분류 문헌 저장소에 저장하는 문헌 관리부; 반정형 지식 추출 모델을 참조하여, 분류 문헌 저장소에 저장된 상기 복수의 과학 기술 논문으로부터 추출된 데이터 중에서 반정형 데이터를 지식으로 추출하는 반정형 지식 추출 모델; 비정형 지식 추출 모델을 참조하여, 분류 문헌 저장소에 저장된 상기 복수의 과학 기술 논문으로부터 추출된 데이터 중에서 비정형 데이터를 지식으로 추출하는 비정형 지식 추출 모델; 정형 지식 추출 모델을 참조하여, 분류 문헌 저장소에 저장된 상기 복수의 과학 기술 논문으로부터 추출된 데이터 중에서 정형 데이터를 지식으로 추출하는 정형 지식 추출 모델; 및 상기 반정형 지식 추출부, 상기 비정형 지식 추출부, 및 상기 정형 지식 추출부 각각에서 추출된 지식들을 통합하여 지식 베이스에 저장하는 지식 관리부;를 포함한다.
상기 문헌 관리부는, 상기 복수의 과학 기술 논문을 수집하는 문헌 수집 모듈; 상기 문헌 수집 모듈에서 수집한 상기 복수의 과학 기술 논문이 PDF(Portable Document Format) 또는 이미지 파일로 이루어진 경우, 상기 복수의 과학 기술 논문으로부터 텍스트 데이터를 추출하는 OCR(Optical Character Recognition) 모듈; 상기 복수의 과학 기술 논문으로부터 추출된 텍스트 정보를 이용하여, 상기 복수의 과학 기술 논문을 분류하는 문헌 분류 모델; 및 상기 문헌 분류 모델에서 분류된 상기 복수의 과학 기술 논문을 저장하는 분류 문헌 저장소;를 포함할 수 있다.
상기 OCR 모듈은, 수집된 상기 복수의 과학 기술 논문의 반정형 데이터와 비정형 데이터인 상기 텍스트 정보를 추출하는 본문 추출기; 및 수집된 상기 복수의 과학 기술 논문의 정형 데이터인 표 정보를 인식하여 추출하는 표 인식기;를 포함할 수 있다.
상기 정형 지식 추출부는, 상기 분류 문헌 저장소에 저장된 데이터 중에서, 상기 표 인식기에서 추출된 반정형 데이터인 상기 표 정보를 지식으로 추출할 수 있다.
상기 정형 지식 추출부는, 상기 표 정보에서 헤더 셀과 값 셀을 구분하는 헤더/값 분별 모듈; 상기 헤더 셀이 지식과 연결될 수 있도록 의미 분석을 수행하는 의미 분석 모듈; 및 상기 값 셀의 값을 지식과 연결될 수 있도록 정제하는 값 정제 모듈;을 포함할 수 있다.
상기 문헌 분류 모델은, 기설정된 키워드를 사용하여 수집된 상기 복수의 과학 기술 논문에 대한 검색을 수행하여, 상기 복수의 과학 기술 논문 중 상기 기설정된 키워드에 상응하는 과학 기술 논문을 분류하여 상기 분류 문헌 저장소에 저장하거나, 기술 분류에 따라서 수집된 상기 복수의 과학 기술 논문을 분류하여, 상기 복수의 과학 기술 논문 중 특정 기술 분류로 분류된 과학 기술 논문을 상기 분류 문헌 저장소에 저장할 수 있다.
상기 반정형 지식 추출부는, 상기 분류 문헌 저장소에 저장된 데이터 중에서 반정형 데이터인 서지 정보와 식별 번호를 지식으로 추출하며, 상기 서지 정보는, 문헌의 제목, 저자, 요약, 또는 키워드이고, 상기 식별 번호는 국제 표준 연속 간행물 번호(International Standard Serial Number, ISSN), 디지털 객체 식별자(digital object identifier, DOI), 또는 국제 표준 도서 번호(International Standard Book Number, ISBN)일 수 있다.
상기 비정형 지식 추출부는, 상기 분류 문헌 저장소에 저장된 데이터 중에서 비정형 데이터로부터 개체명 정보를 인식하는 개체명 인식 모듈; 상기 개체명 인식 모듈에서 인식된 개체명 정보 사이의 관계를 추출하는 관계 추출 모듈; 및 상기 관계 추출 모듈에서 개체명 정보 사이의 관계가 추출된 문장들을 기설정된 문장 분류 체계에 따라 분류하는 문장 분류 모듈;을 포함할 수 있다.
상기 지식 관리부는, 상기 반정형 지식 추출부, 상기 비정형 지식 추출부, 및 상기 정형 지식 추출부 각각에서 추출된 지식들을 서로 연결하여 통합하는 지식 통합 모듈; 및 상기 서로 연결하여 통합된 지식들을 상기 지식 베이스에 지식 그래프로 저장하는 지식 변환 모듈;을 포함할 수 있다.
수집된 상기 복수의 과학 기술 논문을 저장하는 수집 문헌 저장소; 및 상기 반정형 지식 추출 모델, 상기 비정형 지식 추출 모델 및 상기 정형 지식 추출 모델 각각에 대한 학습을 수행하는 추출 모델 학습부;를 더 포함할 수 있으며, 상기 반정형 지식 추출 모델은 상기 수집 문헌 저장소에 저장된 반정형 데이터를 사용하여, 상기 추출 모델 학습부에서 학습이 수행될 수 있고, 상기 비정형 지식 추출 모델 및 상기 정형 지식 추출 모델 각각은 상기 분류 문헌 저장소에 저장된 비정형 데이터 및 정형 데이터 각각을 사용하여, 상기 추출 모델 학습부에서 학습이 수행될 수 있다.
본 발명에 따른 과학 기술 논문을 위한 지식 추출 시스템은, 특정 키워드에 대하여 검색된 과학 기술 논문 또는 특정 기술 분야로 분류된 과학 기술 논문에 대하여 효율성 및 정확성을 함께 가지며 학습된 지식 추출 모델들을 통하여 지식을 추출하므로, 과학 기술 논문이 가지는 지식을 빠르고 정확하게 찾을 수 있도록 할 수 있다.
도 1은 본 발명의 예시적 실시 예에 따른 과학 기술 논문을 위한 지식 추출 시스템의 개략적인 블록도이다.
도 2는 본 발명의 예시적 실시 예에 따른 과학 기술 논문을 위한 지식 추출 시스템에서 반정형 지식 추출 모델을 학습하는 방법을 설명하기 위한 개략적인 블록도이다.
도 3은 본 발명의 예시적 실시 예에 따른 과학 기술 논문을 위한 지식 추출 시스템에서 비정형 지식 추출 모델 및 정형 지식 추출 모델을 학습하는 방법을 설명하기 위한 개략적인 블록도이다.
도 4는 본 발명의 예시적 실시 예에 따른 과학 기술 논문을 위한 지식 추출 시스템에서 구축한 지식 베이스를 이용하여, 지식을 검색하는 방법을 설명하기 위한 개략적인 블록도이다.
도 5는 본 발명의 예시적 실시 예에 따른 과학 기술 논문을 위한 지식 추출 시스템이 포함하는 자연어 이해부의 개략적인 블록도이다.
도 6은 본 발명의 예시적 실시 예에 따른 과학 기술 논문을 위한 지식 추출 시스템에서, 반정형 지식을 추출하는 과정을 설명하기 위한 개념도이다.
도 7은 본 발명의 예시적 실시 예에 따른 과학 기술 논문을 위한 지식 추출 시스템에서, 정형 지식을 추출하는 과정을 설명하기 위한 개념도이다.
도 8은 본 발명의 예시적 실시 예에 따른 과학 기술 논문을 위한 지식 추출 시스템에서 추출하여 구축된 지식 베이스를 나타내는 개념도이다.
이하, 첨부한 도면을 참조하여 본 발명의 실시 예에 대해 상세히 설명한다. 본 발명의 실시 예는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공되는 것이다. 본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용한다. 첨부된 도면에 있어서, 구조물들의 치수는 본 발명의 명확성을 기하기 위하여 실제보다 확대하거나 축소하여 도시한 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수개의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하 도면 및 설명에서, 하나의 블록, 예를 들면, '~부' 또는 '~모듈'로 표시 또는 설명되는 구성요소는 하드웨어 블록 또는 소프트웨어 블록일 수 있다. 예를 들면, 구성요소들 각각은 서로 신호를 주고 받는 독립적인 하드웨어 블록일 수도 있고, 또는 하나의 프로세서에서 실행되는 소프트웨어 블록일 수도 있다.
본 발명의 구성 및 효과를 충분히 이해하기 위하여, 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예들을 설명한다.
도 1은 본 발명의 예시적 실시 예에 따른 과학 기술 논문을 위한 지식 추출 시스템의 개략적인 블록도이다.
도 1을 참조하면, 과학 기술 논문을 위한 지식 추출 시스템(1, 이하 지식 추출 시스템)은 문헌 관리부(100), 반정형 지식 추출부(200), 비정형 지식 추출부(300), 정형 지식 추출부(400), 지식 관리부(500), 및 지식 베이스(600)를 포함한다.
문헌 관리부(100)는 문헌 수집 모듈(110), OCR 모듈(120), 수집 문헌 저장소(130), 문헌 분류 모듈(140), 및 분류 문헌 저장소(150)를 포함할 수 있다. 문헌 수집 모듈(110)은 복수의 과학 기술 논문(문헌, 40)을 수집할 수 있다. OCR 모듈(120)은 수집된 복수의 과학 기술 논문(40)으로부터 데이터를 추출할 수 있다. 문헌 분류 모듈(140)은 수집된 복수의 과학 기술 논문(40)을 기저장된 기술 분류 체계에 따라 분류하여, 분류 문헌 저장소(150)에 저장할 수 있다.
문헌 수집 모듈(110)은 네트워크(20)를 통하여 복수의 과학 기술 논문(40)을 수집할 수 있다. 네트워크(20)는 유선 인터넷 서비스, 근거리 통신망(LAN), 광대역 통신망(WAN), 인트라넷, 무선 인터넷 서비스, 이동 컴퓨팅 서비스, 무선 데이터 통신 서비스, 무선 인터넷 접속 서비스, 위성 통신 서비스, 무선 랜, 블루투스 등 유/무선을 통하여 데이터를 주고 받을 수 있는 것을 모두 포함할 수 있다. 네트워크(20)가 스마트폰 또는 태블릿 등과 연결되는 경우, 네트워크(20)는 3G, 4G, 5G 등의 무선 데이터 통신 서비스, 와이파이(Wi-Fi) 등의 무선 랜, 블루투스 등일 수 있다. 과학 기술 논문(40)은 과학 기술 분야의 학위 논문, 학회 논문, 또는 학술지 논문일 수 있으나, 소논문과 보고서와 같은 과학 기술 분야의 문헌일 수도 있다. 본 명세서에서는 지식 추출 시스템(1)에서 수집한 과학 기술 논문(40)을 '문헌'이라고 언급할 수 있다. 과학 기술 논문(40)은 텍스트 정보, 표 정보, 및 이미지 정보를 포함할 수 있다. 상기 이미지 정보는 사진, 그림, 또는 그래프와 그에 대한 캡션을 포함할 수 있다.
OCR(Optical Character Recognition) 모듈(120)은 본문 추출기(122)와 표 인식기(124)를 포함할 수 있다. OCR 모듈(120)은 수집된 과학 기술 논문(40)이 PDF(Portable Document Format) 또는 이미지 파일로 이루어진 경우, 이를 텍스트 정보로 치환하여 추출할 수 있다.
본문 추출기(122)는 과학 기술 논문(40)의 상기 텍스트 정보를 추출할 수 있다. 표 인식기(124)는 과학 기술 논문(40)의 상기 표 정보를 인식하여 추출할 수 있다. 일부 실시 예에서, 본문 추출기(122)는 과학 기술 논문(40)의 이미지 정보에 대한 캡션이 가지는 텍스트들 및 이미지가 저장되는 링크 정보를 더 추출할 수 있다. 본문 추출기(122)는 과학 기술 논문(40)으로부터 반정형 데이터와 비정형 데이터를 추출할 수 있다. 반정형 데이터는 서지 정보와 식별 번호일 수 있고, 비정형 데이터는 본문 내용일 수 있다. 표 인식기(124)는 과학 기술 논문(40)의 상기 표 정보로부터 정형 데이터를 추출할 수 있다.
표 인식기(124)는 과학 기술 논문(40)의 상기 표 정보 내에 포함되는 텍스트들 및 각 텍스트의 표 내의 셀 위치 등의 표 정보를 인식할 수 있다. OCR 모듈(120)은 수집된 과학 기술 논문(40)이 인식 가능한 텍스트로 이루어지는 경우, OCR 인식을 수행하지 않고, 본문 추출기(122)와 표 인식기(124)를 통하여 상기 텍스트 정보와 상기 표 정보를 추출 및 인식할 수 있다.
OCR 모듈(120)은 수집된 과학 기술 논문(40)으로부터 추출한 상기 텍스트 정보와 인식된 표 정보를 수집 문헌 저장소(130)에 저장할 수 있다. 수집 문헌 저장소(130)에는 수집된 과학 기술 논문(40)에 포함되는 상기 이미지 정보의 이미지가 저장될 수 있다.
문헌 분류 모듈(140)은, 수집된 과학 기술 논문(40)으로부터 OCR 모듈(120)에서 추출한 상기 텍스트 정보를 이용하여 수집된 과학 기술 논문(40)을 분류할 수 있다.
일부 실시 예에서, 문헌 분류 모듈(140)은 기설정된 키워드를 사용하여, 수집된 과학 기술 논문(40)에 대한 검색을 수행하여, 기설정된 키워드에 상응하는 과학 기술 논문(40)을 분류하여 분류 문헌 저장소(150)에 저장할 수 있다.
다른 일부 실시 예에서, 문헌 분류 모듈(140)은 국가과학기술표준분류체계와 같은 기술 분류에 따라서 수집된 과학 기술 논문(40)을 분류하여, 분류별로 분류 문헌 저장소(150)에 저장할 수 있다. 예를 들면, 문헌 분류 모듈(140)은 수집된 과학 기술 논문(40)을 대분류, 중분류, 소분류로 분류할 수 있다. 대분류는 자연, 생명, 인공물, 인간과학과 기술, 및 비 과학기술일 수 있다. 중분류는 대분류가 자연의 경우 수학, 물리학, 화학, 및 지구과학(지구/대기/해양/천문)일 수 있고, 대분류가 생명인 경우, 생명과학, 농림수산식품, 및 보건의료일 수 있고, 대분류가 인공물인 경우, 기계, 재료, 화공, 전기/전자, 정보/통신, 에너지/자원, 원자력, 환경, 및 건설/교통일 수 있고, 대분류가 인간과학과 기술인 경우, 뇌과학 및 인지/감성과학일 수 있다. 소분류는 대분류가 생명이고 중분류가 생명과학인 경우, 분자세포생물학, 유전학/유전공학, 발생생물학|발생/신경생물학, 면역학/생리학, 분류/생태/환경생물학, 생화학/구조생물학, 융합바이오, 생물공학, 산업바이오, 바이오공정/기기, 생물위해성 및 기타생명과학일 수 있다. 문헌 분류 모듈(140)은 대분류가 비 과학기술로 분류된 과학 기술 논문(40)에 대해서는 중분류와 소분류로는 분류하지 않을 수 있다.
분류 문헌 저장소(150)는 수집된 과학 기술 논문(40)을 분류별로 각각 저장할 수 있으나, 본 명세서에서는 특별히 언급되지 않는 한, 분류 문헌 저장소(150)는 수집된 과학 기술 논문(40) 중 키워드를 사용하여 검색된 과학 기술 논문(40) 또는 특정 기술 분류로 분류된 과학 기술 논문(40)만을 저장하고 있는 것을 의미할 수 있고, 수집 문헌 저장소(130)는 수집된 과학 기술 논문(40)을 모두 저장하고 있는 것을 의미할 수 있다.
반정형 지식 추출부(200)는 분류 문헌 저장소(150)에 저장된 데이터 중에서 반정형 데이터인 서지 정보와 식별 번호를 지식으로 추출할 수 있다. 반정형 지식 추출부(200)는 반정형 지식 추출 모델(250)을 참조하여, 분류 문헌 저장소(150)에 저장된 데이터 중에서 서지 정보와 식별 번호를 추출할 수 있다. 반정형 지식 추출부(200)는 서지 정보 추출 모듈(210)과 식별 번호 추출 모듈(220)을 포함할 수 있다. 서지 정보 추출 모듈(210)은 본문 추출기(122)가 추출한 구조화된 반정형 데이터로부터 문헌의 제목, 저자, 요약, 키워드 등을 추출할 수 있다. 식별 번호 추출 모듈(220)은 식별 번호 등을 추출할 수 있다. 식별 번호는 예를 들면, 국제 표준 연속 간행물 번호(International Standard Serial Number, ISSN), 디지털 객체 식별자(digital object identifier, DOI), 및 국제 표준 도서 번호(International Standard Book Number, ISBN)일 수 있다.
비정형 지식 추출부(300)는 분류 문헌 저장소(150)에 저장된 데이터 중에서 비정형 데이터를 지식으로 추출할 수 있다. 비정형 지식 추출부(300)는 비정형 지식 추출 모델(350)을 참조하여, 분류 문헌 저장소(150)에 저장된 데이터 중에서 비정형 데이터를 지식으로 추출할 수 있다. 비정형 지식 추출부(300)는 개체명 인식 모듈(310), 관계 추출 모듈(320), 및 문장 분류 모듈(330)을 포함할 수 있다. 개체명 인식 모듈(310)은 분류 문헌 저장소(150)에 저장된 데이터로부터 지식 추출 대상 후보 문장을 판단할 수 있도록 개체명 정보를 인식하여 얻을 수 있다. 관계 추출 모듈(320)과 개체명 인식 모듈(310)에서 인식된 개체명 정보 사이의 관계를 추출할 수 있고, 문장 분류 모듈(330)은 개체명 정보 사이의 관계가 추출되는 문장들을 기설정된 문장 분류 체계에 따라 분류할 수 있다. 예를 들면, 문장 분류 모듈(330)은 개체명 정보 사이의 관계가 추출되는 문장들을, 실험 방법, 실험 결과 등으로 기설정된 문장 분류 체계에 따라 분류될 수 있다.
정형 지식 추출부(400)는 OCR 모듈(120)의 표 인식기(124)가 인식한 분류 문헌 저장소(150)에 저장한 표 정보인 정형 데이터를 지식으로 추출할 수 있다. 정형 지식 추출부(400)는 정형 지식 추출 모듈(450)을 참조하여, 표 정보를 지식으로 추출할 수 있다. 정형 지식 추출부(400)는 헤더/값 분별 모듈(410), 의미 분석 모듈(420), 및 값 정제 모듈(430)을 포함할 수 있다. 헤더/값 분별 모듈(410)은 표 정보에서 헤더 셀과 값 셀을 구분할 수 있다. 의미 분석 모듈(420)은 헤더 셀이 지식과 연결될 수 있도록 의미 분석을 수행할 수 있다. 값 정제 모듈(430)은 값 셀의 값을 지식과 연결될 수 있도록 정제할 수 있다.
비정형 지식 추출부(300), 정형 지식 추출부(400), 및 지식 관리부(500) 각각에서 추출한 지식들은 테이블(table) 구조 또는 트리(tree) 구조를 가지는 정형 데이터일 수 있다. 반정형 지식 추출부(200), 비정형 지식 추출부(300), 및 정형 지식 추출부(400) 각각에 의하여 제공될 수 있는 정형 데이터는 예를 들면, RDB(Relation DateBase), CSV(Comma-Seperated Variables), XML(eXtensible Markup Language), JSON(JavaScript Object Notation) 등일 수 있으나, 이에 한정되지 않는다.
지식 관리부(500)는 반정형 지식 추출부(200), 비정형 지식 추출부(300), 및 정형 지식 추출부(400) 각각에서 추출한 지식들을 통합할 수 있다. 지식 관리부(500)는 지식 통합 모듈(510)과 지식 변환 모듈(520)을 포함할 수 있다. 지식 통합 모듈(510)은 반정형 지식 추출부(200), 비정형 지식 추출부(300), 및 정형 지식 추출부(400) 각각에서 추출한 지식들을 서로 연결할 수 있다. 지식 변환 모듈(520)은 지식 통합 모듈(510)에서 서로 연결하여 통합한 지식들을 지식 베이스(600)에 저장할 수 있도록 변환할 수 있다. 일부 실시 예에서 지식 변환 모듈(520)은 지식들을 지식 베이스(600)에 지식 그래프로 저장할 수 있다.
지식 그래프는 다양한 소스로부터 시맨틱 정보를 축적하여, 검색 결과를 향상시킬 수 있도록, 개체들 사이의 의미적 그래프를 나타내는 그래프인 시맨틱 그래프를 의미한다. 시맨틱 정보란 자원과 자원 사이의 관계를 어떠한 정보로 표현한 것을 의미한다. 즉 지식 그래프는, 시맨틱 정보들을 모아 그래프 형태로서 데이터를 저장한 것을 의미한다.
지식 그래프는 예를 들면, RDF(Resource Description Framework)를 사용하여 구축될 수 있다. RDF는 URI(Uniform Resource Identifier)를 갖는 모든 리소스(웹 페이지, 이미지, 동영상 등)들의 속성, 특성, 관계 등을 기술(설명)하기 위한 모델, 언어, 문법으로, 그래프 방식의 데이터 모델이다. RDF는 주어와 목적어의 두 자원간의 관계를 표현한 것으로, 프로퍼티(property) 또는 술어(predicate)는 이 관계의 특성, 특징을 설명한다. 주어(subject)-프로퍼티(property)-목적어(object) 구조의 문장을 트리플(triple)이라고 부르며, 관계는 방향성을 가질 수 있다.
지식 그래프는 예를 들면, 하나의 개체를 주어(subject)로, 다른 개체를 목적어(object)로 사용하여 하나의 개체와 다른 개체의 관계를 주어(subject)-프로퍼티(property)-목적어(object) 구조의 트리플로 나타내고, 다른 개체를 주어(subject), 또 다른 개체를 목적어(object)로 사용하여 다른 개체와 또 다른 개체의 관계를 주어(subject)-프로퍼티(property)-목적어(object) 구조의 트리플로 나타내는 것이 반복되는 다차 관계 트리플로 이루어질 수 있다.
지식 추출 시스템(1)은 질의 응답 관리부(700) 및 사용자 인터페이스(UI, 900)를 더 포함할 수 있다. 지식 추출 시스템(1)이 질의 응답 관리부(700) 및 사용자 인터페이스(UI, 900)를 더 포함하는 경우, 과학 기술 논문을 위한 지식 추출 시스템(1)은 과학 기술 질의 응답 시스템으로 기능할 수 있다.
사용자 인터페이스(900)는 네트워크(20)를 통하여 사용자(10)로부터 자연어 형태의 질의를 사용자 인터페이스(900)로 수신하고, 응답을 송신할 수 있다. 사용자 인터페이스(900)는 사용자(10)가 사용하는 단말기 등을 통하여 지식 추출 시스템(1), 즉 과학 기술 질의 응답 시스템에 엑세스하기 위한 인터페이스를 제공할 수 있다. 사용자(10)는 사용자 인터페이스(900)를 통하여 지식 추출 시스템(1), 즉 과학 기술 질의 응답 시스템에 질의를 전송할 수 있고, 사용자 인터페이스(900)를 통하여 지식 추출 시스템(1), 즉 과학 기술 질의 응답 시스템이 제공하는 질의에 대한 응답을 수신할 수 있다.
질의 응답 관리부(700)는 사용자(10)가 사용자 인터페이스(900)를 통하여 한 질의를 자연어 이해부(750)를 참조하여 해석하고, 지식 베이스(600)를 통하여 구한 질의에 대한 응답을 자연어로 생성하여 사용자 인터페이스(900)를 통하여 사용자(10)에게 제공할 수 있다.
지식 추출 시스템(1)은 추출 모델 학습부(800)를 더 포함할 수 있다. 추출 모델 학습부(800)는 반정형 지식 추출 모델(250), 비정형 지식 추출 모델(350) 및 정형 지식 추출 모델(450)에 대한 학습을 수행할 수 있다. 추출 모델 학습부(800)는 입력 모듈(810)과 출력 모듈(820)을 포함할 수 있다. 입력 모듈(810)은 수집 문헌 저장소(130) 또는 분류 문헌 저장소(150)에 저장된 데이터를 입력받을 수 있고, 출력 모듈(820)은 입력 모듈(810)에서 입력받은 데이터를 사용하여 딥 러닝을 수행한 결과를 이용하여, 반정형 지식 추출 모델(250), 비정형 지식 추출 모델(350) 또는 정형 지식 추출 모델(450)에 대한 학습을 수행하고, 기학습된 반정형 지식 추출 모델(250), 비정형 지식 추출 모델(350) 또는 정형 지식 추출 모델(450)을 업데이트할 수 있다.
추출 모델 학습부(800)는 수집 문헌 저장소(130)에 저장된 데이터를 입력 모듈(810)이 입력받아 딥 러닝을 수행하고, 그 결과를 이용하여 출력 모듈(820)이 반정형 지식 추출 모델(250)에 대한 학습을 수행하고 업데이트할 수 있다. 반정형 지식 추출 모델(250)은 수집 문헌 저장소(130)에 저장된 반정형 데이터를 사용하여, 추출 모델 학습부(800)에서 수행한 딥 러닝에 의하여 학습 및 업데이트될 수 있다.
추출 모델 학습부(800)는 분류 문헌 저장소(150)에 저장된 데이터를 입력 모듈(810)이 입력받아 딥 러닝을 수행하고, 그 결과를 이용하여 출력 모듈(820)이 비정형 지식 추출 모델(350)에 대한 학습을 수행하고 업데이트할 수 있다. 비정형 지식 추출 모델(350)은 분류 문헌 저장소(150)에 저장된 비정형 데이터를 사용하여, 추출 모델 학습부(800)에서 수행한 딥 러닝에 의하여 학습 및 업데이트될 수 있다.
추출 모델 학습부(800)는 분류 문헌 저장소(150)에 저장된 데이터를 입력 모듈(810)이 입력받아 딥 러닝을 수행하고, 그 결과를 이용하여 출력 모듈(820)이 정형 지식 추출 모델(450)에 대한 학습을 수행하고 업데이트할 수 있다. 정형 지식 추출 모델(450)은 분류 문헌 저장소(150)에 저장된 과학 기술 논문(40)의 상기 표 정보로부터 추출된 정형 데이터를 사용하여, 추출 모델 학습부(800)에서 수행한 딥 러닝에 의하여 학습 및 업데이트될 수 있다.
과학 기술 논문(40)은 기술 분류에 따라서, 사용되는 용어, 즉 개체명이 다를 수 있다. 따라서 과학 기술 논문(40)이 가지는 본문 내용 및 표 정보는 기술 분류에 따라서 많은 차이를 가질 수 있다. 그러나 과학 기술 논문(40)이 가지는 반정형 데이터인 서지 정보와 식별 번호는 기술 분류와 무관하게 대체로 유사할 형식을 가질 수 있다.
따라서 본 발명에 따른 지식 추출 시스템(1)의 추출 모델 학습부(800)는, 서지 정보와 식별 번호와 같은 반정형 데이터로부터 지식을 추출하기 위한 반정형 지식 추출 모델(250)에 대한 학습을 수행하기 위한 입력 데이터와, 본문 내용 및 표 정보와 같은 비정형 데이터 및 정형 데이터로 지식을 추출하기 위한 비정형 지식 추출 모델(350) 및 정형 지식 추출 모델(450)에 대한 학습을 수행하기 위한 입력 데이터를 다르게 선정할 수 있다.
즉, 추출 모델 학습부(800)는, 과학 기술 논문(40)에서 상대적으로 적은 양을 차지하며 기술 분류와 무관하게 대체로 유사한 형식을 가지는 서지 정보와 식별 번호와 같은 반정형 데이터는 기술 분류와 무관하게 수집된 모든 과학 기술 논문(40)이 저장된 수집 문헌 저장소(130)로부터 입력받아 반정형 지식 추출 모델(250)을 학습할 수 있고, 과학 기술 논문(40)에서 상대적으로 많은 양을 차지하고 기술 분류에 따라서 많은 차이를 가지고 있는 본문 내용 및 표 정보와 같은 비정형 데이터 및 정형 데이터는 수집된 과학 기술 논문(40) 중 키워드를 사용하여 검색된 과학 기술 논문(40) 또는 한가지 기술 분류로 분류된 과학 기술 논문(40)만을 저장된 분류 문헌 저장소(150)로부터 입력받아 비정형 지식 추출 모델(350) 및 정형 지식 추출 모델(450)을 학습할 수 있다.
따라서, 추출 모델 학습부(800)는 효율성 및 정확성을 함께 가지며 반정형 지식 추출 모델(250), 비정형 지식 추출 모델(350) 및 정형 지식 추출 모델(450)에 대한 학습을 수행할 수 있다.
본 발명에 따른 과학 기술 논문을 위한 지식 추출 시스템(1)은 특정 키워드에 대하여 검색된 과학 기술 논문(40) 또는 특정 기술 분야로 분류된 과학 기술 논문(40)에 대하여 효율성 및 정확성을 함께 가지며 학습된 지식 추출 모델들을 통하여 지식을 추출하므로, 과학 기술 논문(40)이 가지는 지식을 빠르고 정확하게 찾을 수 있도록 할 수 있다.
도 2는 본 발명의 예시적 실시 예에 따른 과학 기술 논문을 위한 지식 추출 시스템에서 반정형 지식 추출 모델을 학습하는 방법을 설명하기 위한 개략적인 블록도이다.
도 2를 참조하면, 지식 추출 시스템(1)은 문헌 관리부(100), 반정형 지식 추출부(200), 반정형 지식 추출 모델(250), 및 추출 모델 학습부(800)를 포함할 수 있다.
추출 모델 학습부(800)는 수집 문헌 저장소(130)에 저장된 데이터를 입력 모듈(810)이 입력받아 딥 러닝을 수행하고, 그 결과를 이용하여 출력 모듈(820)이 반정형 지식 추출 모델(250)에 대한 학습을 수행하고 업데이트할 수 있다. 반정형 지식 추출 모델(250)은 수집 문헌 저장소(130)에 저장된 반정형 데이터를 사용하여, 추출 모델 학습부(800)에서 수행한 딥 러닝에 의하여 학습 및 업데이트될 수 있고, 반정형 지식 추출부(200)는 반정형 지식 추출 모델(250)을 참조하여 분류 문헌 저장소(150)에 저장된 데이터 중에서 반정형 데이터인 서지 정보와 식별 번호를 지식으로 추출할 수 있다.
도 3은 본 발명의 예시적 실시 예에 따른 과학 기술 논문을 위한 지식 추출 시스템에서 비정형 지식 추출 모델 및 정형 지식 추출 모델을 학습하는 방법을 설명하기 위한 개략적인 블록도이다.
도 3을 참조하면, 지식 추출 시스템(1)은 문헌 관리부(100), 비정형 지식 추출부(300), 비정형 지식 추출 모델(350), 정형 지식 추출부(400), 정형 지식 추출 모델(450), 및 추출 모델 학습부(800)를 포함할 수 있다.
추출 모델 학습부(800)는 분류 문헌 저장소(150)에 저장된 데이터를 입력 모듈(810)이 입력받아 딥 러닝을 수행하고, 그 결과를 이용하여 출력 모듈(820)이 비정형 지식 추출 모델(350)에 대한 학습을 수행하고 업데이트할 수 있다. 비정형 지식 추출 모델(350)은 분류 문헌 저장소(150)에 저장된 비정형 데이터를 사용하여, 추출 모델 학습부(800)에서 수행한 딥 러닝에 의하여 학습 및 업데이트될 수 있고, 비정형 지식 추출부(300)는 비정형 지식 추출 모델(350)을 참조하여 분류 문헌 저장소(150)에 저장된 데이터 중에서 비정형 데이터를 지식으로 추출할 수 있다.
또한, 추출 모델 학습부(800)는 분류 문헌 저장소(150)에 저장된 데이터를 입력 모듈(810)이 입력받아 딥 러닝을 수행하고, 그 결과를 이용하여 출력 모듈(820)이 정형 지식 추출 모델(450)에 대한 학습을 수행하고 업데이트할 수 있다. 정형 지식 추출 모델(450)은 분류 문헌 저장소(150)에 저장된 비정형 데이터를 사용하여, 추출 모델 학습부(800)에서 수행한 딥 러닝에 의하여 학습 및 업데이트될 수 있고, 정형 지식 추출부(400)는 비정형 지식 추출 모델(450)을 참조하여 분류 문헌 저장소(150)에 저장된 데이터 중에서 정형 데이터인 표 정보를 지식으로 추출할 수 있다.
도 4는 본 발명의 예시적 실시 예에 따른 과학 기술 논문을 위한 지식 추출 시스템에서 구축한 지식 베이스를 이용하여, 지식을 검색하는 방법을 설명하기 위한 개략적인 블록도이다.
도 4를 참조하면, 과학 기술 질의 응답 시스템으로 기능하는 지식 추출 시스템(1)은 사용자 인터페이스(900), 질의 응답 관리부(700), 자연어 이해부(750), 및 지식 베이스(600)를 포함할 수 있다.
사용자 인터페이스(900)는 네트워크(20)를 통하여 사용자(10)로부터 자연어 형태의 질의를 사용자 인터페이스(900)로 수신하고, 응답을 송신할 수 있다. 사용자 인터페이스(900)는 사용자(10)가 사용하는 단말기 등을 통하여 지식 추출 시스템(1), 즉 과학 기술 질의 응답 시스템에 엑세스하기 위한 인터페이스를 제공할 수 있다. 사용자(10)는 사용자 인터페이스(900)를 통하여 지식 추출 시스템(1), 즉 과학 기술 질의 응답 시스템에 질의를 전송할 수 있고, 사용자 인터페이스(900)를 통하여 지식 추출 시스템(1), 즉 과학 기술 질의 응답 시스템이 제공하는 질의에 대한 응답을 수신할 수 있다.
질의 응답 관리부(700)는 사용자(10)가 사용자 인터페이스(900)를 통하여 한 질의를 자연어 이해부(750)를 참조하여 해석하고, 지식 베이스(600)를 통하여 구한 질의에 대한 응답을 자연어로 생성하여 사용자 인터페이스(900)를 통하여 사용자(10)에게 제공할 수 있다. 질의 응답 관리부(700)는 질의 수신 모듈(710), 지식 검색 모듈(720), 및 응답 생성 모듈(730)을 포함할 수 있다. 질의 수신 모듈(710)은 사용자(10)가 사용자 인터페이스(900)를 통하여 한 질의를 수신하고, 자연어 이해부(750)를 참조하여 해석할 수 있다. 지식 검색 모듈(720)은 질의 수신 모듈(710)에서 해석된 질의를 지식 베이스(600)에 하여 그 결과를 수신할 수 있다. 응답 생성 모듈(730)은 질의 검색 모듈(720)에서 수신한 결과를 자연어인 질의에 대한 응답으로 생성하여, 사용자 인터페이스(900)를 통하여 사용자(10)에게 제공할 수 있다.
도 5는 본 발명의 예시적 실시 예에 따른 과학 기술 논문을 위한 지식 추출 시스템이 포함하는 자연어 이해부의 개략적인 블록도이다.
도 4 및 도 5를 함께 참조하면, 자연어 이해부(750)는 형태소 분석부(751), 구문 분석부(752), 개체명 분석부(753), 필터링 분석부(754), 의도 분류부(755), 도메인 분석부(756), 및 시맨틱 롤 라벨링부(SRL, 757)를 포함할 수 있다. 형태소 분석부(751)는 사용자(10)의 자연어 형태의 질의가 가지는 문장을 형태소 단위로 분리할 수 있다. 구문 분석부(752) 및 개체명 분석부(753)는 각각 형태소 단위로 분리된 문장 개체에 구문 분석 및 개체명 분석을 할 수 있다. 필터링 분석부(754)는 문장 개체 중 불필요한 피쳐(feature)를 제거하여 간결화된 문장을 생성할 수 있다. 의도 분류부(755) 및 도메인 분석부(756)는 필터링 분석부(754)에서 생성한 간결화된 문장을 기초로 의미 역할이 부여된 질의의 의도(intention) 분류 및 도메인 분석을 할 수 있다. 시맨틱 롤 라벨링부(757)는 문장 개체에 대한 의미 역할(Semantic Role)을 부여(Labeling)할 수 있다.
도 6은 본 발명의 예시적 실시 예에 따른 과학 기술 논문을 위한 지식 추출 시스템에서, 반정형 지식을 추출하는 과정을 설명하기 위한 개념도이다.
도 1 및 도 6을 함께 참조하면, 지식 추출 시스템(1)은 과학 기술 논문(40)인 문헌으로부터 반정형 지식을 추출할 수 있다. 반정형 지식은 예를 들면, 반정형 데이터인 서지 정보 및 식별 번호로부터 추출된 지식일 수 있다. 도 6에는 도시의 편의를 위하여 식별 정보인 DOI와 ISSN도 서지 정보의 일부분으로 도시하였다.
구체적으로, 문헌 수집 모듈(110)이 수집한 과학 기술 논문(40)이 PDF 또는 이미지 파일로 이루어진 경우, OCR 모듈(120)의 본문 추출기(122)는 문헌이 가지는 서지 정보인 반정형 데이터를 추출할 수 있으며, 반정형 지식 추출부(200)는 반정형 지식 추출 모델(250)을 참조하여, 반정형 지식을 추출할 수 있다. 반정형 지식은 발행 연도(Year), 제목(Title), 요약 설명(Description), 저자(Creator.), 키워드(Keyword), 출간(Publicated) 등의 서지 정보와 디지털 객체 식별자(DOI), 국제 표준 연속 간행물 번호(ISSN) 등의 식별 번호에 대한 특성(Property)과 그 각각에 대한 값(Value)을 가질 수 있다.
도 7은 본 발명의 예시적 실시 예에 따른 과학 기술 논문을 위한 지식 추출 시스템에서, 정형 지식을 추출하는 과정을 설명하기 위한 개념도이다.
도 1 및 도 7을 함께 참조하면, 지식 추출 시스템(1)은 과학 기술 논문(40)인 문헌으로부터 정형 지식을 추출할 수 있다. 정형 지식은 예를 들면, 정형 데이터인 표 정보일 수 있다.
구체적으로, 문헌 수집 모듈(110)이 수집한 과학 기술 논문(40)이 표를 포함하는 경우, OCR 모듈(120)의 표 인식기(124)는 문헌이 가지는 표를 인식하여 표 정보를 추출할 수 있으며, 정형 지식 추출부(300)는 정형 지식 추출 모델(350)을 참조하여 표 정보를 정형 지식으로 추출할 수 있다.
하나의 표에는 다양한 정보를 담고 있을 수 있으며, 정형 지식 추출부(400)의 헤더/값 분별 모듈(410)은 표 정보에서 헤더 셀과 값 셀을 구분할 수 있고, 의미 분석 모듈(420)은 헤더 셀이 지식과 연결될 수 있도록 의미 분석을 수행할 수 있고, 값 정제 모듈(430)은 값 셀의 값을 지식과 연결될 수 있도록 정제할 수 있다.
이를 통하여, 지식 추출 시스템(1)은 예를 들면, 하나의 표로부터 그룹 정보, 처장, 증상 정보, 실험 정보 등을 의미가 부여된 정형 지식으로 추출할 수 있다.
도 8은 본 발명의 예시적 실시 예에 따른 과학 기술 논문을 위한 지식 추출 시스템에서 추출하여 구축된 지식 베이스를 나타내는 개념도이다.
도 1 및 도 8을 함께 참조하면, 지식 추출 시스템(1)은 수집된 과학 기술 논문(40)으로부터 반정형 지식 추출부(200), 비정형 지식 추출부(300), 및 정형 지식 추출부(400)를 통하여 추출한 반정형 지식, 비정형 지식, 및 정형 지식을 지식 관리부(500)의 지식 통합 모듈(510)에서 서로 연결하여 통합하고, 지식 변환 모듈(520)에서 서로 연결하여 통합된 지식들을 지식 베이스(600)에 저장할 수 있다. 지식 변환 모듈(520)은 지식들을 지식 베이스(600)에 지식 그래프(602)로 저장할 수 있다.
지식 그래프(602)는 예를 들면, 논문 제목(Research paper)을 주어(subject)로 논문 ID(paper ID) 및 논문 제목(paper title)을 목적어(object)로 사용하고, 그 각각의 값은 프로퍼티로 사용한 주어(subject)-프로퍼티(property)-목적어(object) 구조의 트리플로 나타낼 수 있다. 또한, 논문 제목(Research paper)을 주어(subject)로 실험(Experiment)을 목적어(object)로 사용할 수 있고, 실험(Experiment)을 주어로 실험 결과(Experiment Result), 처리(Treatment), 실험군(Experiment Group), 대조군(Control Group)을 목적어(object)로 사용할 수 있다.
이와 같이, 특정 키워드에 대하여 검색된 과학 기술 논문(40) 또는 특정 기술 분야로 분류된 과학 기술 논문(40)에 대하여 구축된 지식 그래프(602)를 저장하는 지식 베이스(600)를 참조하여, 사용자(10)의 질의에 대하여 질의 응답 관리부(700)는 응답을 생성하여 사용자(10)에게 제공할 수 있다.
이상, 본 발명을 바람직한 실시예를 들어 상세하게 설명하였으나, 본 발명은 상기 실시예에 한정되지 않고, 본 발명의 기술적 사상 및 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러가지 변형 및 변경이 가능하다.
1 : 지식 추출 시스템, 10 : 사용자, 20 : 네트워크, 40 : 문헌, 과학 기술 논문, 100 : 문헌 관리부, 200 : 반정형 지식 추출부, 250 : 반정형 지식 추출 모델, 300 : 비정형 지식 추출부, 350 : 비정형 지식 추출 모델, 400 : 정형 지식 추출부, 450 : 정형 지식 추출 모델, 500 : 지식 관리부, 600 : 지식 베이스, 700 : 질의 응답 관리부, 800 : 추출 모델 학습부, 900 : 사용자 인터페이스

Claims (10)

  1. 네트워크를 통하여 복수의 과학 기술 논문을 수집하여, 데이터를 추출하고 기술 분류 체계에 따라 분류하여 분류 문헌 저장소에 저장하는 문헌 관리부;
    반정형 지식 추출 모델을 참조하여, 분류 문헌 저장소에 저장된 상기 복수의 과학 기술 논문으로부터 추출된 데이터 중에서 반정형 데이터를 지식으로 추출하는 반정형 지식 추출 모델;
    비정형 지식 추출 모델을 참조하여, 분류 문헌 저장소에 저장된 상기 복수의 과학 기술 논문으로부터 추출된 데이터 중에서 비정형 데이터를 지식으로 추출하는 비정형 지식 추출 모델;
    정형 지식 추출 모델을 참조하여, 분류 문헌 저장소에 저장된 상기 복수의 과학 기술 논문으로부터 추출된 데이터 중에서 정형 데이터를 지식으로 추출하는 정형 지식 추출 모델; 및
    상기 반정형 지식 추출부, 상기 비정형 지식 추출부, 및 상기 정형 지식 추출부 각각에서 추출된 지식들을 통합하여 지식 베이스에 저장하는 지식 관리부;를 포함하는 지식 추출 시스템.
  2. 제1 항에 있어서,
    상기 문헌 관리부는,
    상기 복수의 과학 기술 논문을 수집하는 문헌 수집 모듈;
    상기 문헌 수집 모듈에서 수집한 상기 복수의 과학 기술 논문이 PDF(Portable Document Format) 또는 이미지 파일로 이루어진 경우, 상기 복수의 과학 기술 논문으로부터 텍스트 데이터를 추출하는 OCR(Optical Character Recognition) 모듈;
    상기 복수의 과학 기술 논문으로부터 추출된 텍스트 정보를 이용하여, 상기 복수의 과학 기술 논문을 분류하는 문헌 분류 모델; 및
    상기 문헌 분류 모델에서 분류된 상기 복수의 과학 기술 논문을 저장하는 분류 문헌 저장소;를 포함하는 것을 특징으로 하는 지식 추출 시스템.
  3. 제2 항에 있어서,
    상기 OCR 모듈은,
    수집된 상기 복수의 과학 기술 논문의 반정형 데이터와 비정형 데이터인 상기 텍스트 정보를 추출하는 본문 추출기; 및
    수집된 상기 복수의 과학 기술 논문의 정형 데이터인 표 정보를 인식하여 추출하는 표 인식기;를 포함하는 것을 특징으로 하는 지식 추출 시스템.
  4. 제3 항에 있어서,
    상기 정형 지식 추출부는,
    상기 분류 문헌 저장소에 저장된 데이터 중에서, 상기 표 인식기에서 추출된 반정형 데이터인 상기 표 정보를 지식으로 추출하는 것을 특징으로 하는 지식 추출 시스템.
  5. 제4 항에 있어서,
    상기 정형 지식 추출부는,
    상기 표 정보에서 헤더 셀과 값 셀을 구분하는 헤더/값 분별 모듈;
    상기 헤더 셀이 지식과 연결될 수 있도록 의미 분석을 수행하는 의미 분석 모듈; 및
    상기 값 셀의 값을 지식과 연결될 수 있도록 정제하는 값 정제 모듈;을 포함하는 것을 특징으로 하는 지식 추출 시스템.
  6. 제2 항에 있어서,
    상기 문헌 분류 모델은,
    기설정된 키워드를 사용하여 수집된 상기 복수의 과학 기술 논문에 대한 검색을 수행하여, 상기 복수의 과학 기술 논문 중 상기 기설정된 키워드에 상응하는 과학 기술 논문을 분류하여 상기 분류 문헌 저장소에 저장하거나,
    기술 분류에 따라서 수집된 상기 복수의 과학 기술 논문을 분류하여, 상기 복수의 과학 기술 논문 중 특정 기술 분류로 분류된 과학 기술 논문을 상기 분류 문헌 저장소에 저장하는 것을 특징으로 하는 지식 추출 시스템.
  7. 제1 항에 있어서,
    상기 반정형 지식 추출부는,
    상기 분류 문헌 저장소에 저장된 데이터 중에서 반정형 데이터인 서지 정보와 식별 번호를 지식으로 추출하며,
    상기 서지 정보는, 문헌의 제목, 저자, 요약, 또는 키워드이고, 상기 식별 번호는 국제 표준 연속 간행물 번호(International Standard Serial Number, ISSN), 디지털 객체 식별자(digital object identifier, DOI), 또는 국제 표준 도서 번호(International Standard Book Number, ISBN)인 것을 특징으로 하는 지식 추출 시스템.
  8. 제1 항에 있어서,
    상기 비정형 지식 추출부는,
    상기 분류 문헌 저장소에 저장된 데이터 중에서 비정형 데이터로부터 개체명 정보를 인식하는 개체명 인식 모듈;
    상기 개체명 인식 모듈에서 인식된 개체명 정보 사이의 관계를 추출하는 관계 추출 모듈; 및
    상기 관계 추출 모듈에서 개체명 정보 사이의 관계가 추출된 문장들을 기설정된 문장 분류 체계에 따라 분류하는 문장 분류 모듈;을 포함하는 것을 특징으로 하는 지식 추출 시스템.
  9. 제1 항에 있어서,
    상기 지식 관리부는,
    상기 반정형 지식 추출부, 상기 비정형 지식 추출부, 및 상기 정형 지식 추출부 각각에서 추출된 지식들을 서로 연결하여 통합하는 지식 통합 모듈; 및
    상기 서로 연결하여 통합된 지식들을 상기 지식 베이스에 지식 그래프로 저장하는 지식 변환 모듈;을 포함하는 것을 특징으로 하는 지식 추출 시스템.
  10. 제1 항에 있어서,
    수집된 상기 복수의 과학 기술 논문을 저장하는 수집 문헌 저장소; 및
    상기 반정형 지식 추출 모델, 상기 비정형 지식 추출 모델 및 상기 정형 지식 추출 모델 각각에 대한 학습을 수행하는 추출 모델 학습부;를 더 포함하며,
    상기 반정형 지식 추출 모델은 상기 수집 문헌 저장소에 저장된 반정형 데이터를 사용하여, 상기 추출 모델 학습부에서 학습이 수행되고,
    상기 비정형 지식 추출 모델 및 상기 정형 지식 추출 모델 각각은 상기 분류 문헌 저장소에 저장된 비정형 데이터 및 정형 데이터 각각을 사용하여, 상기 추출 모델 학습부에서 학습이 수행되는 것을 특징으로 하는 지식 추출 시스템.
KR1020200153089A 2020-11-16 2020-11-16 과학 기술 논문을 위한 지식 추출 시스템 KR102543703B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200153089A KR102543703B1 (ko) 2020-11-16 2020-11-16 과학 기술 논문을 위한 지식 추출 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200153089A KR102543703B1 (ko) 2020-11-16 2020-11-16 과학 기술 논문을 위한 지식 추출 시스템

Publications (2)

Publication Number Publication Date
KR20220066737A true KR20220066737A (ko) 2022-05-24
KR102543703B1 KR102543703B1 (ko) 2023-06-16

Family

ID=81806047

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200153089A KR102543703B1 (ko) 2020-11-16 2020-11-16 과학 기술 논문을 위한 지식 추출 시스템

Country Status (1)

Country Link
KR (1) KR102543703B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116090560A (zh) * 2023-04-06 2023-05-09 北京大学深圳研究生院 基于教材的知识图谱建立方法、装置及系统
CN116304114A (zh) * 2023-05-11 2023-06-23 青岛市黄岛区中心医院 基于外科护理的智能数据处理方法及系统
CN116341531A (zh) * 2023-02-28 2023-06-27 人民网股份有限公司 基于知识驱动的人物信息抽取和检查方法及装置
CN117743568A (zh) * 2024-02-19 2024-03-22 中国电子科技集团公司第十五研究所 基于资源流量和置信度融合的内容生成方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050070955A (ko) * 2003-12-31 2005-07-07 한국과학기술정보연구원 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
KR20080059713A (ko) * 2006-12-26 2008-07-01 한국과학기술정보연구원 과학기술 정보에 대한 융합 정보 검색 시스템 및 그 방법
KR20110027729A (ko) * 2008-06-24 2011-03-16 샤론 벨렌손 특허 문헌에 적용 가능한 검색 엔진 및 그 방법
US20150066895A1 (en) * 2004-06-18 2015-03-05 Glenbrook Networks System and method for automatic fact extraction from images of domain-specific documents with further web verification
KR101987915B1 (ko) * 2017-12-22 2019-06-12 주식회사 솔트룩스 자연어 질의로부터 지식 베이스에 대한 쿼리의 생성에 사용되는 템플릿을 생성하는 시스템 및 이를 포함하는 질의 응답 시스템
KR20190079805A (ko) * 2017-12-28 2019-07-08 주식회사 솔트룩스 복수의 데이터 소스들 기반 지식 베이스 구축 시스템 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050070955A (ko) * 2003-12-31 2005-07-07 한국과학기술정보연구원 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
US20150066895A1 (en) * 2004-06-18 2015-03-05 Glenbrook Networks System and method for automatic fact extraction from images of domain-specific documents with further web verification
KR20080059713A (ko) * 2006-12-26 2008-07-01 한국과학기술정보연구원 과학기술 정보에 대한 융합 정보 검색 시스템 및 그 방법
KR20110027729A (ko) * 2008-06-24 2011-03-16 샤론 벨렌손 특허 문헌에 적용 가능한 검색 엔진 및 그 방법
KR101987915B1 (ko) * 2017-12-22 2019-06-12 주식회사 솔트룩스 자연어 질의로부터 지식 베이스에 대한 쿼리의 생성에 사용되는 템플릿을 생성하는 시스템 및 이를 포함하는 질의 응답 시스템
KR20190079805A (ko) * 2017-12-28 2019-07-08 주식회사 솔트룩스 복수의 데이터 소스들 기반 지식 베이스 구축 시스템 및 방법

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116341531A (zh) * 2023-02-28 2023-06-27 人民网股份有限公司 基于知识驱动的人物信息抽取和检查方法及装置
CN116341531B (zh) * 2023-02-28 2023-10-10 人民网股份有限公司 基于知识驱动的人物信息抽取和检查方法及装置
CN116090560A (zh) * 2023-04-06 2023-05-09 北京大学深圳研究生院 基于教材的知识图谱建立方法、装置及系统
CN116304114A (zh) * 2023-05-11 2023-06-23 青岛市黄岛区中心医院 基于外科护理的智能数据处理方法及系统
CN117743568A (zh) * 2024-02-19 2024-03-22 中国电子科技集团公司第十五研究所 基于资源流量和置信度融合的内容生成方法和系统
CN117743568B (zh) * 2024-02-19 2024-04-26 中国电子科技集团公司第十五研究所 基于资源流量和置信度融合的内容生成方法和系统

Also Published As

Publication number Publication date
KR102543703B1 (ko) 2023-06-16

Similar Documents

Publication Publication Date Title
KR102543703B1 (ko) 과학 기술 논문을 위한 지식 추출 시스템
Safder et al. Deep learning-based extraction of algorithmic metadata in full-text scholarly documents
Ma et al. Label embedding for zero-shot fine-grained named entity typing
Radovanović et al. Text mining: Approaches and applications
CN100594495C (zh) 使用文本分析从源文档中识别相关文档集合的系统和方法
EP2639749B1 (en) Methods, apparatus and products for semantic processing of text
CN110597999A (zh) 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法
CN111897968A (zh) 一种工业信息安全知识图谱构建方法和系统
CN103440287A (zh) 一种基于产品信息结构化的Web问答检索系统
CN117290489B (zh) 一种行业问答知识库快速构建方法与系统
US20230030086A1 (en) System and method for generating ontologies and retrieving information using the same
CN106874397B (zh) 一种面向物联网设备的自动语义标注方法
CN116010564A (zh) 一种基于多模态知识图谱的水稻病虫害问答系统的构建方法
CN116244412A (zh) 多意图识别方法及装置
Sánchez et al. Automatic Generation of Taxonomies from the WWW
Rahman et al. Assessment of Information Extraction Techniques, Models and Systems.
Samih et al. Enhanced sentiment analysis based on improved word embeddings and XGboost.
WO2022102827A1 (ko) 과학 기술 논문을 위한 지식 추출 시스템
Liu et al. Designing discovery experience for big data interaction: a case of web-based knowledge mining and interactive visualization platform
JP2015011723A (ja) 情報処理方法及び装置並びに組織名規範化方法及び装置
Lamparter et al. Knowledge extraction from classification schemas
Valerio et al. Associating documents to concept maps in context
CN112749278B (zh) 一种建筑工程变更指令的分类方法
Nugumanova et al. Qurma: A table extraction pipeline for knowledge base population
CN114791812A (zh) Plsql代码的java转换方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right