KR20240003239A - 문헌 정보를 분석하기 위한 장치 및 그 방법 - Google Patents

문헌 정보를 분석하기 위한 장치 및 그 방법 Download PDF

Info

Publication number
KR20240003239A
KR20240003239A KR1020220080454A KR20220080454A KR20240003239A KR 20240003239 A KR20240003239 A KR 20240003239A KR 1020220080454 A KR1020220080454 A KR 1020220080454A KR 20220080454 A KR20220080454 A KR 20220080454A KR 20240003239 A KR20240003239 A KR 20240003239A
Authority
KR
South Korea
Prior art keywords
document
information
words
abstract
analysis
Prior art date
Application number
KR1020220080454A
Other languages
English (en)
Inventor
이제현
김현구
김창기
유시현
Original Assignee
한국에너지기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국에너지기술연구원 filed Critical 한국에너지기술연구원
Priority to KR1020220080454A priority Critical patent/KR20240003239A/ko
Publication of KR20240003239A publication Critical patent/KR20240003239A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

실시예에 의한 문헌 정보를 분석하기 위한 장치 및 그 방법이 개시된다. 상기 문헌 정보 분석 장치는 사용자로부터 검색어를 입력받는 입력부; 상기 입력받은 검색어를 기초로 서비스 서버에 문헌 정보를 요청하고, 이에 대한 응답으로 상기 서비스 서버로부터 수신된 문헌 정보를 기초로 각 문서마다 문서 요약 정보를 추출하고, 문서들에 대한 문서 분석 정보를 추출하는 처리부; 및 상기 문서 요약 정보와 문서 분석 정보를 출력하는 출력부를 포함하고, 상기 문헌 정보는 제목, 저자, 소속, 키워드, 초록을 포함한다.

Description

문헌 정보를 분석하기 위한 장치 및 그 방법{APPARATUS FOR ANALYZING DOCUMENT INFORMATION AND METHOD THEREOF}
실시예는 문헌 정보를 분석하기 위한 장치 및 그 방법에 관한 것이다.
기술에 대한 정보는 일반적으로 신문기사, 기술 문헌 또는 학회 논문 등을 통해서 기술의 연구 동향에 대한 가능성을 파악하여 연구하는 것이 가장 일반적이지만, 현재 이를 용어의 계층관계를 포함하여 정량적으로 평가하고 요약하는 기술은 존재하지 않는다.
따라서 연구자들은 인터넷 상에서 가능한 모든 신문기사, 기술 문헌 또는 학회 논문 등을 모두 읽고 기술의 연구 동향을 스스로 판단할 수 밖에 없는 문제점이 있다.
실시예는, 문헌 정보를 분석하기 위한 장치 및 그 방법을 제공할 수 있다.
실시예에서 해결하고자 하는 과제는 이에 한정되는 것은 아니며, 아래에서 설명하는 과제의 해결수단이나 실시 형태로부터 파악될 수 있는 목적이나 효과도 포함된다고 할 것이다.
실시예에 따른 문헌 정보 분석 장치는 사용자로부터 검색어를 입력받는 입력부; 상기 입력받은 검색어를 기초로 서비스 서버에 문헌 정보를 요청하고, 이에 대한 응답으로 상기 서비스 서버로부터 수신된 문헌 정보를 기초로 각 문서마다 문서 요약 정보를 추출하고, 문서들에 대한 문서 분석 정보를 추출하는 처리부; 및 상기 문서 요약 정보와 문서 분석 정보를 출력하는 출력부를 포함하고, 상기 문헌 정보는 제목, 저자, 소속, 키워드, 초록을 포함할 수 있다.
상기 처리부는 상기 문헌 정보로부터 각 문서의 초록을 수집하고, 상기 수집된 문서의 초록을 기초로 적어도 하나의 요약 대상 문헌을 선별하고, 상기 선별된 적어도 하나의 요약 대상 문헌의 초록으로부터 상기 미리 정해진 길이의 문장으로 축약된 문서 요약 정보를 추출할 수 있다.
상기 처리부는 미리 정해진 선별 항목을 기초로 상기 요약 대상 문헌을 선별하고, 상기 선별 항목은 피인용 수, 미리 정해진 학술지의 게재 여부를 포함할 수 있다.
상기 처리부는 문헌 정보를 기초로 미리 학습된 머신러닝 모델을 이용하거나, 또는 미리 정해진 규칙에 따라 해당 문헌의 초록을 미리 정해진 길이로 축약된 문서 요약 정보를 추출할 수 있다.
상기 처리부는 상기 머신러닝 모델을 이용하여 추출된 문서 요약 정보를 다른 언어로 번역하여 출력할 수 있다.
상기 처리부는 상기 문헌 정보로부터 각 문서의 초록을 수집하고, 상기 수집된 초록을 기초로 미리 정해진 품사의 단어를 포함하는 정제 단어 집합을 추출하고, 상기 추출된 정제 단어 집합을 분석하여 상기 분석한 결과에 따라 연구 동향을 문서, 그래프 및 데이터로 나타낸 상기 문서 분석 정보를 생성할 수 있다.
상기 처리부는 상기 수집된 초록으로부터 단어를 분리하고, 상기 분리된 단어를 기초로 명사, 동사를 추출하여 상기 명사를 단수 처리하고, 상기 동사를 원형 처리하며, 상기 분리된 단어에 대한 유의어와 이음동의어를 표준화 처리하고, 상기 분리된 단어를 기초로 단어간 포함관계를 지식 그래프로 처리하고, 상기 처리된 단어를 포함하는 상기 정제 단어 집합을 추출할 수 있다.
상기 처리부는 상기 분리된 단어로부터 분석에 적합하지 않은 단어를 제거할 수 있다.
상기 처리부는 단어간 포함 관계의 일부를 입력 받아 이들을 결합하여 지식 그래프를 구성할 수 있다.
실시예에 따른 문헌 정보 분석 방법은 사용자로부터 검색어를 입력받는 단계; 상기 입력받은 검색어를 기초로 서비스 서버에 문헌 정보를 요청하고, 이에 대한 응답으로 상기 서비스 서버로부터 수신된 문헌 정보를 기초로 각 문서마다 문서 요약 정보를 추출하고, 문서들에 대한 문서 분석 정보를 추출하는 단계; 및 상기 문서 요약 정보와 문서 분석 정보를 출력하는 단계를 포함하고, 상기 문헌 정보는 제목, 저자, 소속, 키워드, 초록을 포함할 수 있다.
상기 처리하는 단계는 상기 문헌 정보로부터 각 문서의 초록을 수집하고, 상기 수집된 문서의 초록을 기초로 적어도 하나의 요약 대상 문헌을 선별하고, 상기 선별된 적어도 하나의 요약 대상 문헌의 초록으로부터 상기 미리 정해진 길이의 문장으로 축약된 문서 요약 정보를 추출할 수 있다.
상기 처리하는 단계는 미리 정해진 선별 항목을 기초로 상기 요약 대상 문헌을 선별하고, 상기 선별 항목은 피인용 수, 미리 정해진 학술지의 게재 여부를 포함할 수 있다.
상기 처리하는 단계는 문헌 정보를 기초로 미리 학습된 머신러닝 모델을 이용하여, 또는 미리 정해진 규칙에 따라 해당 문헌의 초록을 미리 정해진 길이로 축약된 문서 요약 정보를 추출할 수 있다.
상기 처리하는 단계는 상기 머신러닝 모델을 이용하여 추출된 문서 요약 정보를 다른 언어로 번역하여 출력할 수 있다.
상기 처리하는 단계는 상기 문헌 정보로부터 각 문서의 초록을 수집하고, 상기 수집된 초록을 기초로 미리 정해진 품사의 단어를 포함하는 정제 단어 집합을 추출하고, 상기 추출된 정제 단어 집합을 분석하여 상기 분석한 결과에 따라 연구 동향을 문서, 그래프 및 데이터로 나타낸 상기 문서 분석 정보를 생성할 수 있다.
상기 처리하는 단계는 상기 수집된 초록으로부터 단어를 분리하고, 상기 분리된 단어를 기초로 명사, 동사를 추출하여 상기 명사를 단수 처리하고, 상기 동사를 원형 처리하며, 상기 분리된 단어에 대한 유의어와 이음동의어를 표준화 처리하고, 상기 분리된 단어를 기초로 단어간 포함관계를 지식 그래프로 처리하고, 상기 처리된 단어를 포함하는 상기 정제 단어 집합을 추출할 수 있다.
상기 처리하는 단계는 상기 분리된 단어로부터 분석에 적합하지 않은 단어를 제거할 수 있다.
상기 처리하는 단계는 단어간 포함 관계의 일부를 입력 받아 이들을 결합하여 지식 그래프를 구성할 수 있다.
실시예에 따르면, 사용자가 입력한 키워드나 검색식을 바탕으로 해당 분야의 연구 동향을 파악할 수 있고, 특정 논문의 내용을 요약하여 연구자들의 연구 효율성을 제공할 수 있다.
실시예에 따르면, 기계 분석을 통해 대량의 자료를 일차 분석하고 취합함으로써 연구원과 경영진을 비롯한 의사 결정자의 부담을 경감할 수 있다.
본 발명의 다양하면서도 유익한 장점과 효과는 상술한 내용에 한정되지 않으며, 본 발명의 구체적인 실시형태를 설명하는 과정에서 보다 쉽게 이해될 수 있을 것이다.
도 1은 실시예에 따른 문헌 정보를 분석하기 위한 시스템을 나타내는 도면이다.
도 2는 도 1에 도시된 문헌정보 분석장치의 상세한 구성을 나타내는 도면이다.
도 3은 실시예에 따른 문헌 정보를 분석하기 위한 방법을 나타내는 도면이다.
도 4는 도 3에 도시된 쿼리 전송 과정을 설명하기 위한 도면이다.
도 5는 도 3에 도시된 문헌 정보 추출 과정을 설명하기 위한 도면이다.
도 6은 도 3에 도시된 문서 요약 정보 추출 과정을 상세히 나타내는 도면이다.
도 7은 도 6에 도시된 문서 요약 정보를 추출한 예시를 보여주는 도면이다.
도 8 은 미리 정해진 규칙에 의한 주요 문장 추출 과정을 상세히 나타내는 도면이다.
도 9 는 요약 또는 추출 정보의 번역 과정을 상세히 나타내는 도면이다.
도 10은 도 3에 도시된 문서 분석 정보 추출 과정을 상세히 나타내는 도면이다.
도 11은 도 7에 도시된 정제 단어 집합 추출 과정을 상세히 나타내는 도면이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다.
다만, 본 발명의 기술 사상은 설명되는 일부 실시 예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있고, 본 발명의 기술 사상 범위 내에서라면, 실시 예들간 그 구성 요소들 중 하나 이상을 선택적으로 결합, 치환하여 사용할 수 있다.
또한, 본 발명의 실시예에서 사용되는 용어(기술 및 과학적 용어를 포함)는, 명백하게 특별히 정의되어 기술되지 않는 한, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 일반적으로 이해될 수 있는 의미로 해석될 수 있으며, 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미를 고려하여 그 의미를 해석할 수 있을 것이다.
또한, 본 발명의 실시예에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다.
본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함할 수 있고, “A 및(와) B, C 중 적어도 하나(또는 한 개 이상)”로 기재되는 경우 A, B, C로 조합할 수 있는 모든 조합 중 하나 이상을 포함할 수 있다.
또한, 본 발명의 실시 예의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다.
이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등으로 한정되지 않는다.
그리고, 어떤 구성 요소가 다른 구성요소에 ‘연결’, ‘결합’ 또는 ‘접속’된다고 기재된 경우, 그 구성 요소는 그 다른 구성 요소에 직접적으로 연결, 결합 또는 접속되는 경우뿐만 아니라, 그 구성 요소와 그 다른 구성 요소 사이에 있는 또 다른 구성 요소로 인해 ‘연결’, ‘결합’ 또는 ‘접속’ 되는 경우도 포함할 수 있다.
또한, 각 구성 요소의 “상(위) 또는 하(아래)”에 형성 또는 배치되는 것으로 기재되는 경우, 상(위) 또는 하(아래)는 두 개의 구성 요소들이 서로 직접 접촉되는 경우뿐만 아니라 하나 이상의 또 다른 구성 요소가 두 개의 구성 요소들 사이에 형성 또는 배치되는 경우도 포함한다. 또한, “상(위) 또는 하(아래)”으로 표현되는 경우 하나의 구성 요소를 기준으로 위쪽 방향뿐만 아니라 아래쪽 방향의 의미도 포함할 수 있다.
도 1은 실시예에 따른 문헌 정보를 분석하기 위한 시스템을 나타내는 도면이다.
도 1을 참조하면, 본 발명의 실시예에 따른 문헌 정보를 분석하기 위한 시스템은 문헌정보 분석장치(100), 서비스 서버(200) 및 데이터베이스(300)를 포함할 수 있다.
문헌정보 분석장치(100)는 사용자로부터 입력된 검색어를 기초로 문헌 정보를 수집하고, 수집한 문헌 정보를 기초로 문서 요약 정보와 문서 분석 정보를 추출할 수 있다.
문서 요약 정보는 문서의 초록을 미리 정해진 길이로 축약한 정보를 포함할 수 있다. 이러한 문서 요약 정보는 각 문서마다 추출된 요약 정보일 수 있다.
문서 분석 정보는 문서를 분석한 정보 예를 들면, 연구 동향 정보를 포함할 수 있다. 이러한 문서 분석 정보는 다수의 문서를 통해 추출된 정보일 수 있다.
서비스 서버(200)는 문헌정보 분석장치(100)와 연동하고, 문헌정보 분석장치(100)로부터 검색어를 기초로 관련 문헌을 검색하고, 검색된 관련 문헌에 해당하는 문헌 정보를 추출하여 문헌정보 분석장치(100)에 제공할 수 있다.
서비스 서버(200)는 수집된 문헌을 바탕으로 관련 문헌을 검색할 뿐 아니라, 문헌 등을 제공하는 웹 사이트 또는 웹 사이트를 운영하는 다른 서버들과 연동하여 관련 문헌을 검색할 수도 있다.
데이터베이스(300)는 문헌들과 문헌들에 해당하는 문헌 정보를 저장할 수 있다. 데이터베이스(300)는 물리적으로 결합된 하나의 데이터베이스로 구현될 수 있지만 반드시 이에 한정되지 않고 물리적으로 분리된 다수의 데이터베이스로 구현될 수 있다.
도 2는 도 1에 도시된 문헌정보 분석장치의 상세한 구성을 나타내는 도면이다.
도 2를 참조하면, 실시예에 따른 문헌 정보를 분석하기 위한 장치는 통신부(110), 입력부(120), 처리부(130), 저장부(140), 출력부(150)를 포함할 수 있다.
통신부(110)는 서비스 서버와 연동하여 각종 정보를 송신 또는 수신할 수 있다. 통신부(110)는 서비스 서버에 쿼리를 송신하여 문헌 정보를 수신할 수 있다.
입력부(120)는 사용자의 메뉴 또는 키 조작에 따른 입력 정보를 입력받을 수 있다. 입력부(120)는 사용자로부터 입력된 검색어를 입력 정보로 입력받을 수 있다.
처리부(130)는 입력받은 검색어를 기초로 서비스 서버에 문헌 정보를 요청하고, 이에 대한 응답으로 서비스 서버로부터 수신된 문헌 정보를 기초로 각 문서마다 문서 요약 정보를 추출하고, 문서들에 대한 문서 분석 정보를 추출할 수 있다.
저장부(140)는 문헌 정보, 문서 요약 정보, 문서 분석 정보를 저장할 수 있다.
출력부(150)는 문서 요약 정보, 문서 분석 정보를 화면 상에 출력할 수 있다.
도 3은 실시예에 따른 문헌 정보를 분석하기 위한 방법을 나타내는 도면이고, 도 4는 도 3에 도시된 쿼리 전송 과정을 설명하기 위한 도면이고, 도 5는 도 3에 도시된 문헌 정보 추출 과정을 설명하기 위한 도면이다.
도 3을 참조하면, 실시예에 따른 문헌 정보를 분석하기 위한 장치(이하, 문헌정보 분석장치라고 한다)는 사용자로부터 검색어를 입력 받을 수 있다(S410). 여기서, 검색어는 검색하고자 하는 기술에 대한 단어, 단어의 나열, 문장, 문헌 등을 포함할 수 있다. 이때, 문헌은 사용자에 의해 지정된 특정 문헌을 포함할 수 있다.
문헌정보 분석장치는 도 4와 같이 입력된 검색어를 기초로 쿼리를 생성하고, 생성된 쿼리를 서비스 서버에 전송할 수 있다(S420).
이때, 서비스 서버는 쿼리를 기초로 관련 문헌을 검색하고 도 5와 같이 검색된 문헌으로부터 미리 정해진 항목을 포함하는 문헌 정보를 추출할 수 있다. 여기서 문헌은 신문 기사, 논문, 기고문, 특허 문서 등의 기술 문헌을 포함할 수 있고, 문헌 정보는 제목(title), 저자(authors), 소속(affiliations), 키워드(keywords), 초록(abstract) 등의 항목을 포함할 수 있다.
문헌정보 분석장치는 서비스 서버로부터 문헌 정보를 수신할 수 있다(S430).
문헌정보 분석장치는 수신된 문헌 정보를 기초로 각 문서마다 문서 요약 정보를 추출하고(S440), 각 문서마다 추출된 문서 요약 정보를 출력할 수 있다(S450). 여기서 문서 요약 정보는 문서의 초록을 미리 정해진 길이의 문장으로 축약한 정보일 수 있다.
이때, 문헌정보 분석장치는 미리 학습된 머신러닝 모델을 이용하여 각 문서로부터 문서 요약 정보를 추출할 수 있다. 머신러닝 모델은 미리 구축된 문서와 그 문서로부터 추출된 문서 요약 정보를 학습용 데이터 셋으로 학습될 수 있다.
또한 사용자가 입력하는 문서 및 문서 요약 정보는 학습용 데이터 셋으로 추가 구축되어, 추후 머신러닝 모델을 학습하는데 사용될 수 있다.
문헌정보 분석장치는 수신된 문헌 정보를 기초로 문서들에 대한 문서 분석 정보를 추출하고(S460), 문서들로부터 추출된 문서 분석 정보를 출력할 수 있다(S470). 여기서 문서 분석 정보는 문서 분석 결과를 나타내는 문서, 그래프 및 데이터일 수 있다.
도 6은 도 3에 도시된 문서 요약 정보 추출 과정을 상세히 나타내는 도면이고, 도 7은 도 6에 도시된 문서 요약 정보를 추출한 예시를 보여주는 도면이고, 도 8 은 미리 정해진 규칙에 의한 주요 문장 추출 과정을 상세히 나타내는 도면이다.
도 6을 참조하면, 실시예에 따른 문헌정보 분석장치는 문헌 정보로부터 각 문서의 초록을 수집하고(S441), 수집된 문서의 초록을 기초로 요약 대상 문헌을 선별할 수 있다(S442).
이때, 요약 대상 문헌은 자동으로 선별하거나 수동으로 선별할 수 있다. 요약 대상 문헌은 미리 정해진 선별 항목을 기초로 자동 또는 수동으로 선별될 수 있다.
여기서 미리 정해진 선별 항목은 선별 기준으로서, 예를 들면, 최근 3년간 최다 피인용 논문, 미리 정해진 주요 학술지에 게재된 논문 등을 포함할 수 있다.
문헌정보 분석장치는 도 7과 같이 선별된 요약 대상 문헌의 초록을 기초로 미리 정해진 길이의 문장으로 축약된 문서 요약 정보를 추출할 수 있다(S443).
이때, 도 8 과 같이 미리 정해진 규칙을 사용해 일부 문장을 추출할 수 있다.
도 9 는 도 6 에 도시된 문서 번역 과정을 상세히 나타내는 도면이다.
도 9 를 참조하면, 실시예에 따른 문헌정보 분석장치는 미리 학습된 머신러닝 모델을 이용하여 각 문서 또는 문장을 미리 지정된 언어로 번역할 수 있다.
도 10은 도 3에 도시된 문서 분석 정보 추출 과정을 상세히 나타내는 도면이다.
도 10을 참조하면, 실시예에 따른 문헌정보 분석장치는 문헌 정보로부터 각 문서의 초록을 수집하고(S461), 수집된 초록을 기초로 정제 단어 집합을 추출할 수 있다(S462).
정제 단어 집합은 미리 정해진 품사의 단어를 포함할 수 있다. 이때, 미리 정해진 품사의 단어는 원래의 단어이거나 기본형으로 변형한 단어일 수 있다.
문헌정보 분석장치는 정제 단어 집합을 분석하여 문서 분석 결과를 추출할 수 있다(S463). 문서 분석 결과는 추세를 분석할 수 있는 정보들로 출현 빈도, 주력 주제 비율 변화, 기술 간 연관성, 연구 동향, 인용 관계 등을 포함할 수 있다.
그 일예로, 단어별, 분야별로 분석하여 특정 단어의 시간대별 출현빈도, 분야별 출현 빈도, 저널별 주력 주제 비율 변화를 문서 분석 결과로 추출할 수 있다.
다른 예로, 단어별, 연구주체별로 분석하여 기술 간 연관성, 연구 주체(국가, 연구소, 대학, 연구자)별 연구 동향 및 인용 관계를 문서 분석 결과로 추출할 수 있다.
문헌정보 분석장치는 추출한 문서 분석 결과를 기초로 문서 분석 정보를 생성할 수 있다(S464).
도 11은 도 7에 도시된 정제 단어 집합 추출 과정을 상세히 나타내는 도면이다.
도 11을 참조하면, 실시예에 따른 문헌정보 분석장치는 수집된 초록으로부터 단어를 분리하고, 분리된 단어를 기초로 명사, 동사를 추출하여 명사를 단수 처리하고, 동사를 원형 처리할 수 있다(S462-1).
문헌정보 분석장치는 분리된 단어에 대한 유의어와 이음동의어를 표준화할 수 있다(S462-2). 예를 들면, 문헌정보 분석장치는 단어 통일을 위하여 위키피디아(Wikipedia)로부터 유의어와 이음동의어를 추출하고 추출한 유의어와 이음동의어와의 유사도를 분석하여 유사도를 기초로 표준화할 수 있다.
이때, 문헌정보 분석 장치는 위키피디아에 없는 단어는 업데이트하여 사용할 수 있다.
문헌정보 분석장치는 분리된 단어를 기초로 단어간 포함관계를 정의할 수 있다(S462-3). 예를 들면, 문헌정보 분석장치는 지식 그래프(knowledge graph)를 이용하여 단어간 포함관계를 처리할 수 있다. 이러한 지식 그래프는 연구자들의 지식을 그래프 형태로 탑재되고, 조각(segment)을 입력받아 전체에 반영시킬 수 있다.
문헌정보 분석장치는 분리된 단어로부터 분석에 적합하지 않은 형용사 등의 불용 단어를 제거할 수 있다(S462-4).
문헌정보 분석장치는 이러한 처리 과정을 통해 정제 단어 집합을 추출할 수 있다(S462-5). 여기서 설명하는 정제 단어 집합을 추출하는 일련의 과정은 하나의 예시일 뿐이며 반드시 이에 한정되지 않고 다양한 단어 처리 과정이 적용될 수 있다.
본 실시예에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field-programmable gate array) 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100: 문헌정보 분석장치
110: 통신부
120: 입력부
130: 처리부
140: 저장부
150: 출력부
200: 서비스 서버
300: 데이터베이스

Claims (15)

  1. 사용자로부터 검색어를 입력받는 입력부;
    상기 입력받은 검색어를 기초로 서비스 서버에 문헌 정보를 요청하고, 이에 대한 응답으로 상기 서비스 서버로부터 수신된 문헌 정보를 기초로 각 문서마다 문서 요약 정보를 추출하고, 문서들에 대한 문서 분석 정보를 추출하는 처리부; 및
    상기 문서 요약 정보와 문서 분석 정보를 출력하는 출력부를 포함하고,
    상기 문헌 정보는 제목, 저자, 소속, 키워드, 초록을 포함하는, 문헌 정보 분석 장치.
  2. 제1항에 있어서,
    상기 처리부는,
    상기 문헌 정보로부터 각 문서의 초록을 수집하고, 상기 수집된 문서의 초록을 기초로 적어도 하나의 요약 대상 문헌을 선별하고,
    상기 선별된 적어도 하나의 요약 대상 문헌의 초록으로부터 상기 미리 정해진 길이의 문장으로 축약된 문서 요약 정보를 추출하는, 문헌 정보 분석 장치.
  3. 제2항에 있어서,
    상기 처리부는,
    미리 정해진 선별 항목을 기초로 상기 요약 대상 문헌을 선별하고, 상기 선별 항목은 피인용 수, 미리 정해진 학술지의 게재 여부를 포함하는, 문헌 정보 분석 장치.
  4. 제2항에 있어서,
    상기 처리부는,
    문헌 정보를 기초로 미리 학습된 머신러닝 모델을 이용하거나, 또는 미리 정해진 규칙에 따라 해당 문헌의 초록을 미리 정해진 길이로 축약된 문서 요약 정보를 추출하는, 문헌 정보 분석 장치.
  5. 제4항에 있어서,
    상기 처리부는,
    상기 머신러닝 모델을 이용하여 추출된 문서 요약 정보를 다른 언어로 번역하여 출력하는, 문헌 정보 분석 장치.
  6. 제1항에 있어서,
    상기 처리부는,
    상기 문헌 정보로부터 각 문서의 초록을 수집하고, 상기 수집된 초록을 기초로 미리 정해진 품사의 단어를 포함하는 정제 단어 집합을 추출하고,
    상기 추출된 정제 단어 집합을 분석하여 상기 분석한 결과에 따라 연구 동향을 문서, 그래프 및 데이터로 나타낸 상기 문서 분석 정보를 생성하는, 문헌 정보 분석 장치.
  7. 제6항에 있어서,
    상기 처리부는,
    상기 수집된 초록으로부터 단어를 분리하고, 상기 분리된 단어를 기초로 명사, 동사를 추출하여 상기 명사를 단수 처리하고, 상기 동사를 원형 처리하며,
    상기 분리된 단어에 대한 유의어와 이음동의어를 표준화 처리하고,
    상기 분리된 단어를 기초로 단어간 포함관계를 지식 그래프로 처리하고,
    상기 처리된 단어를 포함하는 상기 정제 단어 집합을 추출하는, 문헌 정보 분석 장치.
  8. 제7항에 있어서,
    상기 처리부는,
    상기 분리된 단어로부터 분석에 적합하지 않은 단어를 제거하는, 문헌 정보 분석 장치.
  9. 제7항에 있어서,
    상기 처리부는,
    단어간 포함 관계의 일부를 입력 받아 이들을 결합하여 지식 그래프를 구성하는, 문헌 정보 분석 장치.
  10. 사용자로부터 검색어를 입력받는 단계;
    상기 입력받은 검색어를 기초로 서비스 서버에 문헌 정보를 요청하고, 이에 대한 응답으로 상기 서비스 서버로부터 수신된 문헌 정보를 기초로 각 문서마다 문서 요약 정보를 추출하고, 문서들에 대한 문서 분석 정보를 추출하는 단계; 및
    상기 문서 요약 정보와 문서 분석 정보를 출력하는 단계를 포함하고,
    상기 문헌 정보는 제목, 저자, 소속, 키워드, 초록을 포함하는, 문헌 정보 분석 방법.
  11. 제10항에 있어서,
    상기 처리하는 단계는,
    상기 문헌 정보로부터 각 문서의 초록을 수집하고, 상기 수집된 문서의 초록을 기초로 적어도 하나의 요약 대상 문헌을 선별하고,
    상기 선별된 적어도 하나의 요약 대상 문헌의 초록으로부터 상기 미리 정해진 길이의 문장으로 축약된 문서 요약 정보를 추출하는, 문헌 정보 분석 방법.
  12. 제11항에 있어서,
    상기 처리하는 단계는,
    문헌 정보를 기초로 미리 학습된 머신러닝 모델을 이용하거나, 또는 미리 정해진 규칙에 따라 해당 문헌의 초록을 미리 정해진 길이로 축약된 문서 요약 정보를 추출하는, 문헌 정보 분석 방법.
  13. 제10항에 있어서,
    상기 처리하는 단계는,
    상기 문헌 정보로부터 각 문서의 초록을 수집하고, 상기 수집된 초록을 기초로 미리 정해진 품사의 단어를 포함하는 정제 단어 집합을 추출하고,
    상기 추출된 정제 단어 집합을 분석하여 상기 분석한 결과에 따라 연구 동향을 문서, 그래프 및 데이터로 나타낸 상기 문서 분석 정보를 생성하는, 문헌 정보 분석 방법.
  14. 제13항에 있어서,
    상기 처리하는 단계는,
    상기 수집된 초록으로부터 단어를 분리하고, 상기 분리된 단어를 기초로 명사, 동사를 추출하여 상기 명사를 단수 처리하고, 상기 동사를 원형 처리하며,
    상기 분리된 단어에 대한 유의어와 이음동의어를 표준화 처리하고,
    상기 분리된 단어를 기초로 단어간 포함관계를 지식 그래프로 처리하고,
    상기 처리된 단어를 포함하는 상기 정제 단어 집합을 추출하는, 문헌 정보 분석 방법.
  15. 제14항에 있어서,
    상기 처리하는 단계는,
    상기 분리된 단어로부터 분석에 적합하지 않은 단어를 제거하는, 문헌 정보 분석 방법.
KR1020220080454A 2022-06-30 2022-06-30 문헌 정보를 분석하기 위한 장치 및 그 방법 KR20240003239A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220080454A KR20240003239A (ko) 2022-06-30 2022-06-30 문헌 정보를 분석하기 위한 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220080454A KR20240003239A (ko) 2022-06-30 2022-06-30 문헌 정보를 분석하기 위한 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR20240003239A true KR20240003239A (ko) 2024-01-08

Family

ID=89533249

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220080454A KR20240003239A (ko) 2022-06-30 2022-06-30 문헌 정보를 분석하기 위한 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR20240003239A (ko)

Similar Documents

Publication Publication Date Title
Al-Radaideh et al. A hybrid approach for arabic text summarization using domain knowledge and genetic algorithms
US9715493B2 (en) Method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model
Asim et al. The use of ontology in retrieval: a study on textual, multilingual, and multimedia retrieval
Alzubi et al. COBERT: COVID-19 question answering system using BERT
Medelyan et al. Domain‐independent automatic keyphrase indexing with small training sets
US20180300315A1 (en) Systems and methods for document processing using machine learning
US9280535B2 (en) Natural language querying with cascaded conditional random fields
US20170262412A1 (en) Nlp-based entity recognition and disambiguation
US20070094285A1 (en) Question answering over structured content on the web
Liao et al. Unsupervised approaches for textual semantic annotation, a survey
Maree et al. Analysis and shortcomings of e-recruitment systems: Towards a semantics-based approach addressing knowledge incompleteness and limited domain coverage
WO2010014082A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
US11699034B2 (en) Hybrid artificial intelligence system for semi-automatic patent infringement analysis
Armentano et al. NLP-based faceted search: Experience in the development of a science and technology search engine
Hinze et al. Improving access to large-scale digital libraries throughsemantic-enhanced search and disambiguation
Das et al. A novel approach for automatic Bengali question answering system using semantic similarity analysis
Mahalleh et al. An automatic text summarization based on valuable sentences selection
Baazaoui Zghal et al. A system for information retrieval in a medical digital library based on modular ontologies and query reformulation
Elabd et al. Semantic boolean arabic information retrieval
Barwary et al. An Intelligent and Advance Kurdish Information Retrieval Approach with Ontologies: A Critical Analysis
Venkatachalam et al. An ontology-based information extraction and summarization of multiple news articles
KR101037091B1 (ko) 자동 언어 번역을 통한 다국어의 전거 표목에 대한 온톨로지 기반 의미 검색 시스템 및 방법
KR20240003239A (ko) 문헌 정보를 분석하기 위한 장치 및 그 방법
Murfi et al. A two-level learning hierarchy of concept based keyword extraction for tag recommendations
KR20010097802A (ko) 다국어 검색과 검색정보 자동번역/분류 시스템과 그를이용한 다국어 검색방법