KR102535417B1 - 중요 문서 파일 판별 학습 장치, 중요 문서 파일 판별 학습 방법, 중요 문서 파일 판별 장치 및 중요 문서 파일 판별 방법 - Google Patents

중요 문서 파일 판별 학습 장치, 중요 문서 파일 판별 학습 방법, 중요 문서 파일 판별 장치 및 중요 문서 파일 판별 방법 Download PDF

Info

Publication number
KR102535417B1
KR102535417B1 KR1020200086707A KR20200086707A KR102535417B1 KR 102535417 B1 KR102535417 B1 KR 102535417B1 KR 1020200086707 A KR1020200086707 A KR 1020200086707A KR 20200086707 A KR20200086707 A KR 20200086707A KR 102535417 B1 KR102535417 B1 KR 102535417B1
Authority
KR
South Korea
Prior art keywords
document file
learning
importance
neural network
deep neural
Prior art date
Application number
KR1020200086707A
Other languages
English (en)
Other versions
KR20220008520A (ko
Inventor
허옥
Original Assignee
주식회사 엔씨소프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엔씨소프트 filed Critical 주식회사 엔씨소프트
Priority to KR1020200086707A priority Critical patent/KR102535417B1/ko
Publication of KR20220008520A publication Critical patent/KR20220008520A/ko
Application granted granted Critical
Publication of KR102535417B1 publication Critical patent/KR102535417B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 발명의 일실시예에 따르면, 중요 문서 파일 판별 학습 장치에 있어서, 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 문서 파일의 컨텐츠를 전처리 하고, 상기 문서 파일에 포함된 메타데이터를 획득하고, 상기 전처리한 문서 파일의 컨텐츠를 기초로 상기 문서 파일의 제1 중요도를 결정하도록 제1 딥 뉴럴 네트워크(Deep Neural Network)를 학습시키고, 상기 획득한 메타데이터를 기초로 상기 문서 파일의 제2 중요도를 결정하도록 제2 딥 뉴럴 네트워크(Deep Neural Network)를 학습시킨다.

Description

중요 문서 파일 판별 학습 장치, 중요 문서 파일 판별 학습 방법, 중요 문서 파일 판별 장치 및 중요 문서 파일 판별 방법{LEARNING DEVICE, LEARNING METHOD, DEVICE AND METHOD FOR IMPORTANT DOCUMENT FILE DISCRIMINATION}
아래의 실시예들은 중요 문서 파일 판별 학습 장치, 중요 문서 파일 판별 학습 방법, 중요 문서 파일 판별 장치 및 중요 문서 파일 판별 방법에 관한 것이다.
머신 러닝(machine learning)은 인공 지능의 한 분야로, 패턴인식과 컴퓨터 학습 이론의 연구로부터 진화한 분야이며, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야를 말한다. 머신 러닝의 핵심은 표현(representation)과 일반화(generalization)에 있다. 표현이란 데이터의 평가이며, 일반화란 아직 알 수 없는 데이터에 대한 처리이다. 이는 전산 학습 이론 분야이기도 하다.
딥 러닝(deep learning)은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계학습(machine learning) 알고리즘의 집합으로 정의되며, 큰 틀에서 사람의 사고방식을 컴퓨터에게 가르치는 기계학습의 한 분야라고 이야기할 수 있다.
결정 트리 학습법(decision tree learning)은 어떤 항목에 대한 관측 값과 목표 값을 연결시켜주는 예측 모델로서 결정 트리를 사용한다. 이는 통계학과 데이터 마이닝, 기계 학습에서 사용하는 예측 모델링 방법 중 하나이다. 트리 모델 중 목표 변수가 유한한 수의 값을 가지는 것을 분류 트리라 한다. 이 트리 구조에서 잎(리프 노드)은 클래스 라벨을 나타내고 가지는 클래스 라벨과 관련 있는 특징들의 논리곱을 나타낸다. 결정 트리 중 목표 변수가 연속하는 값, 일반적으로 실수를 가지는 것은 회귀 트리라 한다.
본 발명의 실시예에 따르면, 복수의 기준을 기초로 중요 문서 파일을 판별할 수 있도록 적어도 하나의 딥 뉴럴 네트워크(Deep Neural Network)를 학습시킬 수 있는 중요 문서 파일 판별 학습 장치 및 중요 문서 파일 판별 학습 방법 제공을 할 수 있다.
또한, 본 발명의 다른 실시예에 따르면, 문서 파일에 포함된 메타데이터를 기초로 중요 문서 파일을 판별할 수 있도록 딥 뉴럴 네트워크(Deep Neural Network)를 학습시킬 수 있는 중요 문서 파일 판별 학습 장치 및 중요 문서 파일 판별 학습 방법 제공을 할 수 있다.
또한, 본 발명의 또 다른 실시예에 따르면, 복수의 기준을 결합하여 중요 문서 파일을 판별할 수 있는 중요 문서 파일 판별 장치 및 중요 문서 파일 판별 방법 제공을 할 수 있다.
또한, 본 발명의 다른 실시예에 따르면, 문서 파일에 포함된 메타데이터를 기초로 중요 문서 파일을 판별할 수 있는 중요 문서 파일 판별 장치 및 중요 문서 파일 판별 방법 제공을 할 수 있다.
본 발명의 일실시예에 따르면, 중요 문서 파일 판별 학습 장치에 있어서, 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 문서 파일의 컨텐츠를 전처리 하고, 상기 문서 파일에 포함된 메타데이터를 획득하고, 상기 전처리한 문서 파일의 컨텐츠를 기초로 상기 문서 파일의 제1 중요도를 결정하도록 제1 딥 뉴럴 네트워크(Deep Neural Network)를 학습시키고, 상기 획득한 메타데이터를 기초로 상기 문서 파일의 제2 중요도를 결정하도록 제2 딥 뉴럴 네트워크(Deep Neural Network)를 학습시킨다.
또한, 상기 적어도 하나의 프로세서는, 상기 제1 중요도를 기초로 상기 제1 딥 뉴럴 네트워크(Deep Neural Network)의 학습을 평가하고, 상기 제2 중요도를 기초로 상기 제2 딥 뉴럴 네트워크(Deep Neural Network)의 학습을 평가하고, 상기 각각의 평가를 기초로 상기 제1 딥 뉴럴 네트워크(Deep Neural Network) 또는 상기 제2 딥 뉴럴 네트워크(Deep Neural Network)를 업데이트 할 수 있다.
또한, 상기 적어도 하나의 프로세서는, 상기 문서 파일에 포함된 상기 컨텐츠를 토큰화 하고, 상기 토큰화 한 상기 콘텐츠에 포스 태깅(Part Of Speech Tagging, POS Tagging)하고, 상기 포스 태깅(Part Of Speech Tagging, POS Tagging)한 상기 콘텐츠의 불용어를 제거할 수 있다.
또한, 상기 적어도 하나의 프로세서는, 상기 전처리 한 상기 문서 파일의 컨텐츠를 벡터화 할 수 있다.
또한, 상기 적어도 하나의 프로세서는, 나이브 베이지안(Naive Bayesian), 로지스틱 회귀(Logistic Regression), 서포트 벡터 머신(Support Vector Machine) 및 결정 트리 중 적어도 어느 하나를 기초로 상기 메타데이터를 분류할 수 있다.
본 발명의 다른 실시예에 따르면, 문서 파일의 컨텐츠를 전처리 하는 동작, 상기 문서 파일에 포함된 메타데이터를 획득하는 동작, 상기 전처리한 문서 파일의 컨텐츠를 기초로 상기 문서 파일의 제1 중요도를 결정하도록 제1 딥 뉴럴 네트워크(Deep Neural Network)를 학습시키는 동작 및 상기 획득한 메타데이터를 기초로 상기 문서 파일의 제2 중요도를 결정하도록 제2 딥 뉴럴 네트워크(Deep Neural Network)를 학습시키는 동작을 포함한다.
또한, 상기 중요 문서 파일 판별 학습 방법은, 상기 제1 중요도를 기초로 상기 제1 딥 뉴럴 네트워크(Deep Neural Network)의 학습을 평가하는 동작, 상기 제2 중요도를 기초로 상기 제2 딥 뉴럴 네트워크(Deep Neural Network)의 학습을 평가하는 동작 및 상기 각각의 평가를 기초로 상기 제1 딥 뉴럴 네트워크(Deep Neural Network) 또는 상기 제2 딥 뉴럴 네트워크(Deep Neural Network)를 업데이트 하는 동작을 더 포함할 수 있다.
또한, 상기 문서 파일의 컨텐츠를 전처리 하는 동작은, 상기 문서 파일에 포함된 상기 컨텐츠를 토큰화 하는 동작, 상기 토큰화 한 상기 콘텐츠에 포스 태깅(Part Of Speech Tagging, POS Tagging)하는 동작 및 상기 포스 태깅(Part Of Speech Tagging, POS Tagging)한 상기 콘텐츠의 불용어를 제거하는 동작을 포함할 수 있다.
또한, 상기 제1 딥 뉴럴 네트워크(Deep Neural Network)를 학습시키는 동작은, 상기 전처리 한 상기 문서 파일의 컨텐츠를 벡터화 하는 동작을 포함할 수 있다.
또한, 상기 제2 딥 뉴럴 네트워크(Deep Neural Network)를 학습시키는 동작은, 나이브 베이지안(Naive Bayesian), 로지스틱 회귀(Logistic Regression), 서포트 벡터 머신(Support Vector Machine) 및 결정 트리 중 적어도 어느 하나를 기초로 상기 메타데이터를 분류하는 동작을 포함할 수 있다.
본 발명의 또 다른 실시예에 따르면, 중요 문서 파일 판별 장치에 있어서, 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 문서 파일의 컨텐츠를 전처리 하고, 상기 문서 파일에 포함된 메타데이터를 획득하고, 학습이 완료된 제1 딥 뉴럴 네트워크(Deep Neural Network)를 기초로 상기 전처리한 문서 파일의 컨텐츠의 제1 중요도를 결정하고, 학습이 완료된 제2 딥 뉴럴 네트워크(Deep Neural Network)를 기초로 상기 획득한 메타데이터의 제2 중요도를 결정한다.
또한, 상기 적어도 하나의 프로세서는, 상기 제1 중요도와 상기 제2 중요도를 결합하여 제3 중요도를 결정하고, 상기 결정한 제3 중요도를 기초로 상기 문서 파일의 중요도를 판별할 수 있다.
또한, 상기 적어도 하나의 프로세서는, 상기 문서 파일에 포함된 상기 컨텐츠를 토큰화 하고, 상기 토큰화 한 상기 콘텐츠에 포스 태깅(Part Of Speech Tagging, POS Tagging)하고, 상기 포스 태깅(Part Of Speech Tagging, POS Tagging)한 상기 콘텐츠의 불용어를 제거할 수 있다.
또한, 상기 적어도 하나의 프로세서는, 상기 전처리 한 상기 문서 파일의 컨텐츠를 벡터화 할 수 있다.
또한, 상기 적어도 하나의 프로세서는, 나이브 베이지안(Naive Bayesian), 로지스틱 회귀(Logistic Regression), 서포트 벡터 머신(Support Vector Machine) 및 결정 트리 중 적어도 어느 하나를 기초로 상기 메타데이터를 분류할 수 있다.
본 발명의 또 다른 실시예에 따르면, 문서 파일의 컨텐츠를 전처리 하는 동작, 상기 문서 파일에 포함된 메타데이터를 획득하는 동작, 학습이 완료된 제1 딥 뉴럴 네트워크(Deep Neural Network)를 기초로 상기 전처리한 문서 파일의 컨텐츠의 제1 중요도를 결정하는 동작 및 학습이 완료된 제2 딥 뉴럴 네트워크(Deep Neural Network)를 기초로 상기 획득한 메타데이터의 제2 중요도를 결정하는 동작을 포함한다.
또한, 상기 중요 문서 파일 판별 방법은, 상기 제1 중요도와 상기 제2 중요도를 결합하여 제3 중요도를 결정하는 동작 및 상기 결정한 제3 중요도를 기초로 상기 문서 파일의 중요도를 판별하는 동작을 더 포함할 수 있다.
또한, 상기 문서 파일의 컨텐츠를 전처리 하는 동작은, 상기 문서 파일에 포함된 상기 컨텐츠를 토큰화 하는 동작, 상기 토큰화 한 상기 콘텐츠에 포스 태깅(Part Of Speech Tagging, POS Tagging)하는 동작 및 상기 포스 태깅(Part Of Speech Tagging, POS Tagging)한 상기 콘텐츠의 불용어를 제거하는 동작을 포함할 수 있다.
또한, 상기 제1 중요도를 결정하는 동작은, 상기 전처리 한 상기 문서 파일의 컨텐츠를 벡터화 하는 동작을 포함할 수 있다.
또한, 상기 제2 중요도를 결정하는 동작은, 나이브 베이지안(Naive Bayesian), 로지스틱 회귀(Logistic Regression), 서포트 벡터 머신(Support Vector Machine) 및 결정 트리 중 적어도 어느 하나를 기초로 상기 메타데이터를 분류하는 동작을 포함할 수 있다.
본 발명의 일실시예에 따르면, 복수의 기준을 기초로 중요 문서 파일을 판별할 수 있도록 적어도 하나의 딥 뉴럴 네트워크(Deep Neural Network)를 학습시킬 수 있는 효과가 있다.
또한, 문서 파일에 포함된 메타데이터를 기초로 중요 문서 파일을 판별할 수 있도록 딥 뉴럴 네트워크(Deep Neural Network)를 학습시킬 수 있는 효과가 있다.
또한, 복수의 기준을 결합하여 중요 문서 파일을 판별할 수 있는 효과가 있다.
또한, 문서 파일에 포함된 메타데이터를 기초로 중요 문서 파일을 판별할 수 있는 효과가 있다.
도 1은 일실시예에 따른 중요 문서 파일 판별 학습 장치의 구성을 나타내는 도면이다.
도 2는 일실시예에 따른 중요 문서 파일 판별 학습 방법을 나타내는 플로우 차트이다.
도 3은 일실시예에 따른 중요 문서 파일 판별 장치의 구성을 나타내는 도면이다.
도 4는 일실시예에 따른 중요 문서 파일 판별 방법을 나타내는 플로우 차트이다.
도 5는 본 발명의 일실시예를 구현하기 위한 예시적인 컴퓨터 시스템의 블록도이다.
본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시 예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시 예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시 예들은 다양한 형태들로 실시될 수 있으며 본 명세서에 설명된 실시 예들에 한정되지 않는다.
본 발명의 개념에 따른 실시 예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시 예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시 예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1구성요소는 제2구성요소로 명명될 수 있고, 유사하게 제2구성요소는 제1구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다.
일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하의 설명에서 동일한 식별 기호는 동일한 구성을 의미하며, 불필요한 중복적인 설명 및 공지 기술에 대한 설명은 생략하기로 한다.
본 발명의 실시 예에서 '통신', '통신망' 및 '네트워크'는 동일한 의미로 사용될 수 있다. 상기 세 용어들은, 파일을 사용자 단말, 다른 사용자들의 단말 및 다운로드 서버 사이에서 송수신할 수 있는 유무선의 근거리 및 광역 데이터 송수신망을 의미한다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예를 설명함으로써, 본 발명을 상세히 설명한다.
도 1은 일실시예에 따른 중요 문서 파일 판별 학습 장치의 구성을 나타내는 도면이다.
도 1을 참조하면, 중요 문서 파일 판별 학습 장치(100)는 전처리 모듈(120), 학습 모듈(130) 및 평가 모듈(140)을 포함한다.
중요 문서 파일 판별 학습 장치(100)에 포함된 전처리 모듈(120), 학습 모듈(130) 및 평가 모듈(140)은 상호 연결되어 있으며, 상호 데이터를 전송하는 것이 가능하다.
중요 문서 파일 판별 학습 장치(100)는 문서 파일(110)을 획득할 수 있다.
일실시예에 따라, 전처리 모듈(120)은 문서 파일(110)의 컨텐츠를 전처리 할 수 있다.
일실시예에 따라, 전처리 모듈(120)은 문서 파일(110)의 컨텐츠를 토큰화 할 수 있다.
일실시예에 따라, 전처리 모듈(120)은 형태소(morpheme) 분석을 기초로 문서 파일(110)의 컨텐츠를 토큰화 할 수 있으나, 전처리 모듈(120)이 문서 파일(110)의 컨텐츠를 토큰화하기 위하여 사용하는 방법이 이에 한정되는 것은 아니다.
일실시예에 따라, 전처리 모듈(120)은 문서 파일(110)의 컨텐츠(예컨대, 문장)를 토큰화 해 문서 파일(110)의 컨텐츠(예컨대, 문장)를 1차적으로 정제할 수 있다.
일실시예에 따라, 전처리 모듈(120)은 1차적으로 정제한 문서 파일(110)의 컨텐츠(예컨대, 문장에 포함된 단어)를 토큰화(예컨대, 단어 토큰화(word tokenization)) 할 수 있다.
일실시예에 따라, 전처리 모듈(120)은 형태소(morpheme)의 뜻과 문맥을 고려하여 결정한 상기 토큰화 한 문서 파일(110)의 컨텐츠(예컨대, 문장에 포함된 단어)의 품사를 상기 인식한 상기 토큰화 한 문서 파일(110)의 컨텐츠(예컨대, 문장에 포함된 단어)에 포스 태깅(Part Of Speech Tagging, POS Tagging)할 수 있다.
일실시예에 따라, 전처리 모듈(120)은 상기 포스 태깅(Part Of Speech Tagging, POS Tagging)한 상기 토큰화 한 문서 파일(110)의 컨텐츠(예컨대, 문장에 포함된 단어)에서 큰 의미가 없는 단어 토큰에 해당하는 불용어(stop word)를 제거할 수 있다. 이때, 상기 불용어(stop word)는 미리 설정된 단어 일 수 있으나, 학습 목적에 따라 상기 불용어(stop word)의 변경 또는 추가가 가능하다.
일실시예에 따라, 전처리 모듈(120)은 문서 파일(110)에 포함된 메타데이터를 획득할 수 있다. 이때, 상기 메타데이터는 작성자, 수정 횟수, 출력 여부, 문서 제목, 이미지 및 폰트 중 적어도 어느 하나일 수 있으나, 상기 메타데이터가 이에 한정되는 것은 아니다.
일실시예에 따라, 학습 모듈(130)은 상기 전처리한 문서 파일(110)의 컨텐츠 및 문서 파일(110)에 포함된 메타데이터를 획득할 수 있다.
일실시예에 따라, 학습 모듈(130)은 상기 전처리한 문서 파일(110)의 컨텐츠를 기초로 상기 문서 파일의 제1 중요도를 결정하도록 제1 딥 뉴럴 네트워크(Deep Neural Network)를 학습시킬 수 있다.
일실시예에 따라, 학습 모듈(130)은 상기 전처리한 문서 파일(110)의 컨텐츠를 벡터화 할 수 있다.
일실시예에 따라, 학습 모듈(130)은 단어 가방(bag of words), 워드투벡터(Word2Vec), 독투벡터(doc2vec) 및 TF-IDF(Term Frequency - Inverse Document Frequency) 중 적어도 어느 하나를 이용하여 상기 전처리한 문서 파일(110)의 컨텐츠를 벡터화 할 수 있으나, 학습 모듈(130)이 상기 전처리한 문서 파일(110)의 컨텐츠를 벡터화 하기 위하여 이용하는 방법이 이에 한정되는 것은 아니다.
일실시예에 따라, 학습 모듈(130)은 상기 벡터화 한 상기 전처리한 문서 파일(110)의 컨텐츠를 기초로 문서 파일(110)의 제1 중요도를 결정하도록 제1 딥 뉴럴 네트워크(Deep Neural Network)를 학습시킬 수 있다.
일실시예에 따라, 학습 모듈(130)은 문서 파일(110)에 포함된 메타데이터를 나이브 베이지안(Naive Bayesian), 로지스틱 회귀(Logistic Regression), 서포트 벡터 머신(Support Vector Machine) 및 결정 트리 중 적어도 어느 하나를 기초로 분류할 수 있다.
일실시예에 따라, 학습 모듈(130)은 상기 분류한 문서 파일(110)에 포함된 메타데이터를 기초로 문서 파일(110)의 제2 중요도를 결정하도록 제2 딥 뉴럴 네트워크(Deep Neural Network)를 학습시킬 수 있다.
일실시예에 따라, 평가 모듈(140)은 정답 데이터(Ground Truth)를 획득할 수 있다.
일실시예에 따라, 평가 모듈(140)은 제1 딥 뉴럴 네트워크(Deep Neural Network)의 학습 결과에 해당하는 상기 제1 딥 뉴럴 네트워크(Deep Neural Network)가 결정한 제1 중요도를 획득할 수 있다.
일실시예에 따라, 평가 모듈(140)은 정답 데이터(Ground Truth)와 상기 제1 중요도를 비교하고, 비교 결과에 따라 상기 제1 딥 뉴럴 네트워크(Deep Neural Network)의 학습을 평가할 수 있다.
일실시예에 따라, 평가 모듈(140)은 제2 딥 뉴럴 네트워크(Deep Neural Network)의 학습 결과에 해당하는 상기 제2 딥 뉴럴 네트워크(Deep Neural Network)가 결정한 제2 중요도를 획득할 수 있다.
일실시예에 따라, 평가 모듈(140)은 정답 데이터(Ground Truth)와 상기 제2 중요도를 비교하고, 비교 결과에 따라 상기 제2 딥 뉴럴 네트워크(Deep Neural Network)의 학습을 평가할 수 있다.
일실시예에 따라, 평가 모듈(140)은 정답 데이터(Ground Truth)와 상기 제1 중요도를 비교한 결과와 정답 데이터(Ground Truth)와 상기 제2 중요도를 비교한 결과를 기초로 상기 제1 딥 뉴럴 네트워크(Deep Neural Network) 또는 상기 제2 딥 뉴럴 네트워크(Deep Neural Network)를 업데이트하기 위한 적어도 하나의 업데이트 팩터(update factor)(예컨대, 로스(loss))를 생성할 수 있다.
일실시예에 따라, 평가 모듈(140)은 정답 데이터(Ground Truth)와 상기 제1 중요도를 비교한 결과와 정답 데이터(Ground Truth)와 상기 제2 중요도를 비교한 결과를 가중합하여 상기 제1 딥 뉴럴 네트워크(Deep Neural Network) 또는 상기 제2 딥 뉴럴 네트워크(Deep Neural Network)를 업데이트하기 위한 적어도 하나의 업데이트 팩터(update factor)(예컨대, 로스(loss))를 생성할 수 있다.
일실시예에 따라, 중요 문서 파일 판별 학습 장치(100)는 상기 생성한 적어도 하나의 업데이트 팩터(update factor)(예컨대, 로스(loss))를 기초로 상기 제1 딥 뉴럴 네트워크(Deep Neural Network) 또는 상기 제2 딥 뉴럴 네트워크(Deep Neural Network)를 업데이트 할 수 있다.
일실시예에 따라, 중요 문서 파일 판별 학습 장치(100)는 상기 제1 딥 뉴럴 네트워크(Deep Neural Network) 또는 상기 제2 딥 뉴럴 네트워크(Deep Neural Network)를 업데이트하기 위하여 역전파(Backpropagation)를 이용할 수 있으나, 상기 제1 딥 뉴럴 네트워크(Deep Neural Network) 또는 상기 제2 딥 뉴럴 네트워크(Deep Neural Network)를 업데이트하기 위한 방법이 이에 한정되는 것은 아니다.
여기서 사용된 '장치 또는 모듈'이라는 용어는 논리적인 구성 단위를 나타내는 것으로서, 반드시 물리적으로 구분되는 구성 요소가 아니라는 점은 본 발명이 속하는 기술분야의 당업자에게 자명한 사항이다.
도 2는 일실시예에 따른 중요 문서 파일 판별 학습 방법을 나타내는 플로우 차트이다.
도 2를 참조하면, 중요 문서 파일 판별 학습 장치가 문서 파일의 컨텐츠를 전처리한다(200).
이때, 상기 중요 문서 파일 판별 학습 장치는 형태소(morpheme) 분석을 기초로 문서 파일의 컨텐츠를 토큰화 할 수 있으나, 상기 중요 문서 파일 판별 학습 장치가 문서 파일의 컨텐츠를 토큰화하기 위하여 사용하는 방법이 이에 한정되는 것은 아니다.
또한, 상기 중요 문서 파일 판별 학습 장치는 형태소(morpheme)의 뜻과 문맥을 고려하여 결정한 상기 토큰화 한 문서 파일의 컨텐츠(예컨대, 문장에 포함된 단어)의 품사를 상기 인식한 상기 토큰화 한 문서 파일의 컨텐츠(예컨대, 문장에 포함된 단어)에 포스 태깅(Part Of Speech Tagging, POS Tagging)할 수 있다.
또한, 상기 중요 문서 파일 판별 학습 장치는 상기 포스 태깅(Part Of Speech Tagging, POS Tagging)한 상기 토큰화 한 문서 파일의 컨텐츠(예컨대, 문장에 포함된 단어)에서 큰 의미가 없는 단어 토큰에 해당하는 불용어(stop word)를 제거할 수 있다. 이때, 상기 불용어(stop word)는 미리 설정된 단어 일 수 있으나, 학습 목적에 따라 상기 불용어(stop word)의 변경 또는 추가가 가능하다.
중요 문서 파일 판별 학습 장치가 상기 문서 파일에 포함된 메타데이터를 획득한다(210).
이때, 상기 메타데이터는 작성자, 수정 횟수, 출력 여부, 문서 제목, 이미지 및 폰트 중 적어도 어느 하나일 수 있으나, 상기 메타데이터가 이에 한정되는 것은 아니다.
중요 문서 파일 판별 학습 장치가 상기 전처리한 문서 파일의 컨텐츠를 기초로 상기 문서 파일의 제1 중요도를 결정하도록 제1 딥 뉴럴 네트워크(Deep Neural Network)를 학습시킨다(220).
이때, 상기 중요 문서 파일 판별 학습 장치는 단어 가방(bag of words), 워드투벡터(Word2Vec), 독투벡터(doc2vec) 및 TF-IDF(Term Frequency - Inverse Document Frequency) 중 적어도 어느 하나를 이용하여 상기 전처리한 문서 파일의 컨텐츠를 벡터화 할 수 있으나, 상기 중요 문서 파일 판별 학습 장치가 상기 전처리한 문서 파일의 컨텐츠를 벡터화 하기 위하여 이용하는 방법이 이에 한정되는 것은 아니다.
또한, 상기 중요 문서 파일 판별 학습 장치는 상기 벡터화 한 상기 전처리한 문서 파일의 컨텐츠를 기초로 문서 파일의 제1 중요도를 결정하도록 제1 딥 뉴럴 네트워크(Deep Neural Network)를 학습시킬 수 있다.
중요 문서 파일 판별 학습 장치가 상기 획득한 메타데이터를 기초로 상기 문서 파일의 제2 중요도를 결정하도록 제2 딥 뉴럴 네트워크(Deep Neural Network)를 학습시킨다(230).
이때, 상기 중요 문서 파일 판별 학습 장치는 문서 파일에 포함된 메타데이터를 나이브 베이지안(Naive Bayesian), 로지스틱 회귀(Logistic Regression), 서포트 벡터 머신(Support Vector Machine) 및 결정 트리 중 적어도 어느 하나를 기초로 분류할 수 있다.
또한, 상기 중요 문서 파일 판별 학습 장치는 상기 분류한 문서 파일에 포함된 메타데이터를 기초로 문서 파일(110)의 제2 중요도를 결정하도록 제2 딥 뉴럴 네트워크(Deep Neural Network)를 학습시킬 수 있다.
중요 문서 파일 판별 학습 장치가 학습을 평가한다(240).
이때, 상기 중요 문서 파일 판별 학습 장치는 정답 데이터(Ground Truth)와 상기 제1 중요도를 비교하고, 비교 결과에 따라 상기 제1 딥 뉴럴 네트워크(Deep Neural Network)의 학습을 평가할 수 있다.
또한, 상기 중요 문서 파일 판별 학습 장치는 정답 데이터(Ground Truth)와 상기 제2 중요도를 비교하고, 비교 결과에 따라 상기 제2 딥 뉴럴 네트워크(Deep Neural Network)의 학습을 평가할 수 있다.
또한, 상기 중요 문서 파일 판별 학습 장치는 정답 데이터(Ground Truth)와 상기 제1 중요도를 비교한 결과와 정답 데이터(Ground Truth)와 상기 제2 중요도를 비교한 결과를 기초로 상기 제1 딥 뉴럴 네트워크(Deep Neural Network) 또는 상기 제2 딥 뉴럴 네트워크(Deep Neural Network)를 업데이트하기 위한 적어도 하나의 업데이트 팩터(update factor)(예컨대, 로스(loss))를 생성할 수 있다.
중요 문서 파일 판별 학습 장치가 상기 각각의 평가를 기초로 상기 제1 딥 뉴럴 네트워크(Deep Neural Network) 또는 상기 제2 딥 뉴럴 네트워크(Deep Neural Network)를 업데이트한다(250).
이때, 상기 중요 문서 파일 판별 학습 장치는 정답 상기 생성한 적어도 하나의 업데이트 팩터(update factor)(예컨대, 로스(loss))를 기초로 상기 제1 딥 뉴럴 네트워크(Deep Neural Network) 또는 상기 제2 딥 뉴럴 네트워크(Deep Neural Network)를 업데이트 할 수 있다.
또한, 상기 중요 문서 파일 판별 학습 장치는 상기 제1 딥 뉴럴 네트워크(Deep Neural Network) 또는 상기 제2 딥 뉴럴 네트워크(Deep Neural Network)를 업데이트하기 위하여 역전파(Backpropagation)를 이용할 수 있으나, 상기 제1 딥 뉴럴 네트워크(Deep Neural Network) 또는 상기 제2 딥 뉴럴 네트워크(Deep Neural Network)를 업데이트하기 위한 방법이 이에 한정되는 것은 아니다.
도 3은 일실시예에 따른 중요 문서 파일 판별 장치의 구성을 나타내는 도면이다.
도 3을 참조하면, 중요 문서 파일 판별 장치(300)는 전처리 모듈(320), 중요도 결정 모듈(330) 및 중요도 판별 모듈(340)을 포함한다.
중요 문서 파일 판별 장치(300)에 포함된 전처리 모듈(320), 중요도 결정 모듈(330) 및 중요도 판별 모듈(340)은 상호 연결되어 있으며, 상호 데이터를 전송하는 것이 가능하다.
중요 문서 파일 판별 장치(300)는 문서 파일(310)을 획득할 수 있다.
일실시예에 따라, 전처리 모듈(320)은 문서 파일(310)의 컨텐츠를 전처리 할 수 있다.
일실시예에 따라, 전처리 모듈(320)은 문서 파일(310)의 컨텐츠를 토큰화 할 수 있다.
일실시예에 따라, 전처리 모듈(320)은 형태소(morpheme) 분석을 기초로 문서 파일(310)의 컨텐츠를 토큰화 할 수 있으나, 전처리 모듈(320)이 문서 파일(310)의 컨텐츠를 토큰화하기 위하여 사용하는 방법이 이에 한정되는 것은 아니다.
일실시예에 따라, 전처리 모듈(320)은 문서 파일(310)의 컨텐츠(예컨대, 문장)를 토큰화 해 문서 파일(310)의 컨텐츠(예컨대, 문장)를 1차적으로 정제할 수 있다.
일실시예에 따라, 전처리 모듈(320)은 1차적으로 정제한 문서 파일(310)의 컨텐츠(예컨대, 문장에 포함된 단어)를 토큰화(예컨대, 단어 토큰화(word tokenization)) 할 수 있다.
일실시예에 따라, 전처리 모듈(320)은 형태소(morpheme)의 뜻과 문맥을 고려하여 결정한 상기 토큰화 한 문서 파일(310)의 컨텐츠(예컨대, 문장에 포함된 단어)의 품사를 상기 인식한 상기 토큰화 한 문서 파일(110)의 컨텐츠(예컨대, 문장에 포함된 단어)에 포스 태깅(Part Of Speech Tagging, POS Tagging)할 수 있다.
일실시예에 따라, 전처리 모듈(320)은 상기 포스 태깅(Part Of Speech Tagging, POS Tagging)한 상기 토큰화 한 문서 파일(310)의 컨텐츠(예컨대, 문장에 포함된 단어)에서 큰 의미가 없는 단어 토큰에 해당하는 불용어(stop word)를 제거할 수 있다. 이때, 상기 불용어(stop word)는 미리 설정된 단어 일 수 있으나, 중요 문서 판별 목적에 따라 상기 불용어(stop word)의 변경 또는 추가가 가능하다.
일실시예에 따라, 전처리 모듈(320)은 문서 파일(310)에 포함된 메타데이터를 획득할 수 있다. 이때, 상기 메타데이터는 작성자, 수정 횟수, 출력 여부, 문서 제목, 이미지 및 폰트 중 적어도 어느 하나일 수 있으나, 상기 메타데이터가 이에 한정되는 것은 아니다.
일실시예에 따라, 중요도 결정 모듈(330)은 상기 전처리한 문서 파일(310)의 컨텐츠 및 문서 파일(310)에 포함된 메타데이터를 획득할 수 있다.
일실시예에 따라, 중요도 결정 모듈(330)은 학습이 완료된 제1 딥 뉴럴 네트워크(Deep Neural Network)를 기초로 상기 전처리한 문서 파일의 컨텐츠의 제1 중요도를 결정할 수 있다.
일실시예에 따라, 중요도 결정 모듈(330)은 상기 전처리한 문서 파일(310)의 컨텐츠를 벡터화 할 수 있다.
일실시예에 따라, 중요도 결정 모듈(330)은 단어 가방(bag of words), 워드투벡터(Word2Vec), 독투벡터(doc2vec) 및 TF-IDF(Term Frequency - Inverse Document Frequency) 중 적어도 어느 하나를 이용하여 상기 전처리한 문서 파일(310)의 컨텐츠를 벡터화 할 수 있으나, 중요도 결정 모듈(330)이 상기 전처리한 문서 파일(310)의 컨텐츠를 벡터화 하기 위하여 이용하는 방법이 이에 한정되는 것은 아니다.
일실시예에 따라, 중요도 결정 모듈(330)은 문서 파일(310)에 포함된 메타데이터를 나이브 베이지안(Naive Bayesian), 로지스틱 회귀(Logistic Regression), 서포트 벡터 머신(Support Vector Machine) 및 결정 트리 중 적어도 어느 하나를 기초로 분류할 수 있다.
일실시예에 따라, 중요도 결정 모듈(330)은 학습이 완료된 제2 딥 뉴럴 네트워크(Deep Neural Network)를 기초로 상기 분류한 메타데이터의 제2 중요도를 결정할 수 있다.
일실시예에 따라, 중요도 판별 모듈(340)은 중요도 결정 모듈(330)이 결정한 제1 중요도 및 제2 중요도를 결합하여 제3 중요도를 결정할 수 있다.
일실시예에 따라, 중요도 판별 모듈(340)은 중요도 결정 모듈(330)이 결정한 제1 중요도 및 제2 중요도를 가중합하여 제3 중요도를 결정할 수 있다.
일실시예에 따라, 중요도 판별 모듈(340)은 중요도 결정 모듈(330)이 결정한 제1 중요도 및 제2 중요도의 중요도 평균(예컨대, 산술 평균, 기하 평균 또는 조화 평균)을 계산하고, 상기 계산한 중요도 평균을 제3 중요도로 결정할 수 있다.
일실시예에 따라, 중요도 판별 모듈(340)은 상기 결정한 제3 중요도를 수치화 할 수 있다.
일실시예에 따라, 중요도 판별 모듈(340)은 상기 결정한 제3 중요도를 기초로 문서 파일(310)의 중요도를 판별할 수 있다.
일실시예에 따라, 중요도 판별 모듈(340)은 상기 결정한 제3 중요도가 미리 설정된 중요도 수치(예컨대, 70)를 초과하는 경우 문서 파일(310)이 중요 문서 파일이라고 판별할 수 있다.
일실시예에 따라, 중요 문서 파일 판별 장치(300)는 문서 파일(310)의 판별 결과(350)를 출력할 수 있다.
여기서 사용된 '장치 또는 모듈'이라는 용어는 논리적인 구성 단위를 나타내는 것으로서, 반드시 물리적으로 구분되는 구성 요소가 아니라는 점은 본 발명이 속하는 기술분야의 당업자에게 자명한 사항이다.
도 4는 일실시예에 따른 중요 문서 파일 판별 방법을 나타내는 플로우 차트이다.
도 4를 참조하면, 중요 문서 파일 판별 장치가 문서 파일의 컨텐츠를 전처리한다(400).
이때, 상기 중요 문서 파일 판별 장치는 형태소(morpheme) 분석을 기초로 문서 파일의 컨텐츠를 토큰화 할 수 있으나, 상기 중요 문서 파일 판별 장치가 문서 파일의 컨텐츠를 토큰화하기 위하여 사용하는 방법이 이에 한정되는 것은 아니다.
또한, 상기 중요 문서 파일 판별 장치는 형태소(morpheme)의 뜻과 문맥을 고려하여 결정한 상기 토큰화 한 문서 파일의 컨텐츠(예컨대, 문장에 포함된 단어)의 품사를 상기 인식한 상기 토큰화 한 문서 파일의 컨텐츠(예컨대, 문장에 포함된 단어)에 포스 태깅(Part Of Speech Tagging, POS Tagging)할 수 있다.
또한, 상기 중요 문서 파일 판별 장치는 상기 포스 태깅(Part Of Speech Tagging, POS Tagging)한 상기 토큰화 한 문서 파일의 컨텐츠(예컨대, 문장에 포함된 단어)에서 큰 의미가 없는 단어 토큰에 해당하는 불용어(stop word)를 제거할 수 있다. 이때, 상기 불용어(stop word)는 미리 설정된 단어 일 수 있으나, 중요 문서 판별 목적에 따라 상기 불용어(stop word)의 변경 또는 추가가 가능하다.
중요 문서 파일 판별 장치가 상기 문서 파일에 포함된 메타데이터를 획득한다(410).
이때, 상기 메타데이터는 작성자, 수정 횟수, 출력 여부, 문서 제목, 이미지 및 폰트 중 적어도 어느 하나일 수 있으나, 상기 메타데이터가 이에 한정되는 것은 아니다.
중요 문서 파일 판별 장치가 학습이 완료된 제1 딥 뉴럴 네트워크(Deep Neural Network)를 기초로 상기 전처리한 문서 파일의 컨텐츠의 제1 중요도를 결정한다(420).
이때, 상기 중요 문서 파일 판별 장치는 전처리한 문서 파일의 컨텐츠를 벡터화 할 수 있다.
또한, 상기 중요 문서 파일 판별 장치는 단어 가방(bag of words), 워드투벡터(Word2Vec), 독투벡터(doc2vec) 및 TF-IDF(Term Frequency - Inverse Document Frequency) 중 적어도 어느 하나를 이용하여 상기 전처리한 문서 파일의 컨텐츠를 벡터화 할 수 있으나, 중요 문서 파일 판별 장치가 상기 전처리한 문서 파일의 컨텐츠를 벡터화 하기 위하여 이용하는 방법이 이에 한정되는 것은 아니다.
중요 문서 파일 판별 장치가 학습이 완료된 제2 딥 뉴럴 네트워크(Deep Neural Network)를 기초로 상기 획득한 메타데이터의 제2 중요도를 결정한다(430).
이때, 상기 중요 문서 파일 판별 장치는 문서 파일에 포함된 메타데이터를 나이브 베이지안(Naive Bayesian), 로지스틱 회귀(Logistic Regression), 서포트 벡터 머신(Support Vector Machine) 및 결정 트리 중 적어도 어느 하나를 기초로 분류할 수 있다.
중요 문서 파일 판별 장치가 상기 제1 중요도와 상기 제2 중요도를 결합하여 제3 중요도를 결정한다(440).
이때, 상기 중요 문서 파일 판별 장치는 상기 제1 중요도 및 상기 제2 중요도를 결합하여 상기 제3 중요도를 결정할 수 있다.
또한, 상기 중요 문서 파일 판별 장치는 상기 제1 중요도 및 상기 제2 중요도를 가중합하여 상기 제3 중요도를 결정할 수 있다.
또한, 상기 중요 문서 파일 판별 장치는 상기 제1 중요도 및 상기 제2 중요도의 중요도 평균(예컨대, 산술 평균, 기하 평균 또는 조화 평균)을 계산하고, 상기 계산한 중요도 평균을 상기 제3 중요도로 결정할 수 있다.
또한, 상기 중요 문서 파일 판별 장치는 상기 결정한 제3 중요도를 수치화 할 수 있다.
중요 문서 파일 판별 장치가 상기 결정한 제3 중요도를 기초로 상기 문서 파일의 중요도를 판별한다(450).
이때, 상기 중요 문서 파일 판별 장치는 상기 결정한 제3 중요도가 미리 설정된 중요도 수치(예컨대, 70)를 초과하는 경우 문서 파일이 중요 문서 파일이라고 판별할 수 있다.
또한, 상기 중요 문서 파일 판별 장치는 문서 파일의 판별 결과를 출력할 수 있다.
도 5는 본 발명의 일실시예를 구현하기 위한 예시적인 컴퓨터 시스템의 블록도이다.
도 5를 참조하면, 본 발명의 일실시예를 구현하기 위한 예시적인 컴퓨터 시스템은 정보를 교환하기 위한 버스 또는 다른 커뮤니케이션 채널(501)을 포함하고, 프로세서(502)는 정보를 처리하기 위하여 버스(501)와 연결된다.
컴퓨터 시스템(500)은 정보 및 프로세서(502)에 의해 처리되는 명령들을 저장하기 위하여 버스(501)와 연결된 RAM(Random Access Memory) 또는 다른 동적 저장 장치인 메인 메모리(503)를 포함한다.
또한, 메인 메모리(503)는 프로세서(502)에 의한 명령들의 실행동안 임시변수들 또는 다른 중간 정보를 저장하기 위해 사용될 수 있다.
컴퓨터 시스템(500)은 프로세서(502)에 대한 정적인 정보 또는 명령들을 저장하기 위하여 버스(501)에 결합된 ROM(Read Only Memory) 및 다른 정적 저장장치(504)를 포함할 수 있다.
마그네틱 디스크, 집(zip) 또는 광 디스크 같은 대량 저장장치(505) 및 그것과 대응하는 드라이브 또한 정보 및 명령들을 저장하기 위하여 컴퓨터 시스템(500)에 연결될 수 있다.
컴퓨터 시스템(500)은 엔드 유저(end user)에게 정보를 디스플레이 하기 위하여 버스(501)를 통해 음극선관 또는 엘씨디 같은 디스플레이 장치(510)와 연결될 수 있다.
키보드(520)와 같은 문자 입력 장치는 프로세서(502)에 정보 및 명령을 전달하기 위하여 버스(501)에 연결될 수 있다.
다른 유형의 사용자 입력 장치는 방향 정보 및 명령 선택을 프로세서(502)에 전달하고, 디스플레이(510) 상의 커서의 움직임을 제어하기 위한 마우스, 트랙볼 또는 커서 방향 키들과 같은 커서 컨트롤 장치(530)이다.
통신 장치(540) 역시 버스(501)와 연결된다.
통신 장치(540)는 지역 네트워크 또는 광역망에 접속되는 것을 서포트 하기 위하여 모뎀, 네트워크 인터페이스 카드, 이더넷, 토큰 링 또는 다른 유형의 물리적 결합물과 연결하기 위해 사용되는 인터페이스 장치를 포함할 수 있다. 이러한 방식으로 컴퓨터 시스템(500)은 인터넷 같은 종래의 네트워크 인프라 스트럭쳐를 통하여 다수의 클라이언트 및 서버와 연결될 수 있다.
여기서 사용된 '장치'라는 용어는 논리적인 구성 단위를 나타내는 것으로서, 반드시 물리적으로 구분되는 구성 요소가 아니라는 점은 본 발명이 속하는 기술분야의 당업자에게 자명한 사항이다.
이상에서, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 적어도 하나로 선택적으로 결합하여 동작할 수도 있다.
또한, 그 모든 구성 요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다.
이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 저장매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 저장매체로서는 자기 기록매체, 광 기록매체, 등이 포함될 수 있다.
또한, 이상에서 기재된 "포함하다", "구성하다" 또는 "가지다" 등의 용어는, 특별히 반대되는 기재가 없는 한, 해당 구성 요소가 내재될 수 있음을 의미하는 것이므로, 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것으로 해석되어야 한다.
기술적이거나 과학적인 용어를 포함한 모든 용어들은, 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥 상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
본 발명에서 개시된 방법들은 상술된 방법을 달성하기 위한 하나 이상의 동작들 또는 단계들을 포함한다. 방법 동작들 및/또는 단계들은 청구항들의 범위를 벗어나지 않으면서 서로 상호 교환될 수도 있다. 다시 말해, 동작들 또는 단계들에 대한 특정 순서가 명시되지 않는 한, 특정 동작들 및/또는 단계들의 순서 및/또는 이용은 청구항들의 범위로부터 벗어남이 없이 수정될 수도 있다.
본 발명에서 이용되는 바와 같이, 아이템들의 리스트 중 "그 중 적어도 하나" 를 지칭하는 구절은 단일 멤버들을 포함하여, 이들 아이템들의 임의의 조합을 지칭한다. 일 예로서, "a, b, 또는 c: 중의 적어도 하나" 는 a, b, c, a-b, a-c, b-c, 및 a-b-c 뿐만 아니라 동일한 엘리먼트의 다수의 것들과의 임의의 조합 (예를 들어, a-a, a-a-a, a-a-b, a-a-c, a-b-b, a-c-c, b-b, b-b-b, b-b-c, c-c, 및 c-c-c 또는 a, b, 및 c 의 다른 임의의 순서 화한 것) 을 포함하도록 의도된다.
본 발명에서 이용되는 바와 같이, 용어 "결정하는"는 매우 다양한 동작들을 망라한다. 예를 들어, "결정하는"는 계산하는, 컴퓨팅, 프로세싱, 도출하는, 조사하는, 룩업하는 (예를 들어, 테이블, 데이터베이스, 또는 다른 데이터 구조에서 룩업하는), 확인하는 등을 포함할 수도 있다. 또한, "결정하는"은 수신하는 (예를 들면, 정보를 수신하는), 액세스하는 (메모리의 데이터에 액세스하는) 등을 포함할 수 있다. 또한, "결정하는"은 해결하는, 선택하는, 고르는, 확립하는 등을 포함할 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.
따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100... 중요 문서 파일 판별 학습 장치
300... 중요 문서 파일 판별 장치

Claims (20)

  1. 중요 문서 파일 판별 학습 장치에 있어서,
    적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 프로세서는,
    문서 파일의 컨텐츠를 전처리 하고,
    상기 문서 파일에 포함된 메타데이터를 획득하고,
    상기 전처리한 문서 파일의 컨텐츠를 기초로 상기 문서 파일의 컨텐츠의 품사와 관련된 제1 중요도를 결정하도록 제1 딥 뉴럴 네트워크(Deep Neural Network)를 학습시키고,
    상기 획득한 메타데이터를 기초로 상기 문서 파일에 포함된 상기 메타데이터의 내용과 관련된 제2 중요도를 결정하도록 제2 딥 뉴럴 네트워크(Deep Neural Network)를 학습시키되,
    상기 중요 문서는 상기 제1 딥 뉴럴 네트워크 및 상기 제2 딥 뉴럴 네트워크의 학습에 이용되는 정답 데이터를 기초로 결정되는 중요 문서 파일 판별 학습 장치.
  2. 제1항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 제1 중요도를 기초로 상기 제1 딥 뉴럴 네트워크(Deep Neural Network)의 학습을 평가하고,
    상기 제2 중요도를 기초로 상기 제2 딥 뉴럴 네트워크(Deep Neural Network)의 학습을 평가하고,
    상기 각각의 평가를 기초로 상기 제1 딥 뉴럴 네트워크(Deep Neural Network) 또는 상기 제2 딥 뉴럴 네트워크(Deep Neural Network)를 업데이트 하는 중요 문서 파일 판별 학습 장치.
  3. 제1항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 문서 파일에 포함된 상기 컨텐츠를 토큰화 하고,
    상기 토큰화 한 상기 컨텐츠에 포스 태깅(Part Of Speech Tagging, POS Tagging)하고,
    상기 포스 태깅(Part Of Speech Tagging, POS Tagging)한 상기 컨텐츠의 불용어를 제거하는 중요 문서 파일 판별 학습 장치.
  4. 제1항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 전처리 한 상기 문서 파일의 컨텐츠를 벡터화 하는 중요 문서 파일 판별 학습 장치.
  5. 제1항에 있어서,
    상기 적어도 하나의 프로세서는,
    나이브 베이지안(Naive Bayesian), 로지스틱 회귀(Logistic Regression), 서포트 벡터 머신(Support Vector Machine) 및 결정 트리 중 적어도 어느 하나를 기초로 상기 메타데이터를 분류하는 중요 문서 파일 판별 학습 장치.
  6. 중요 문서 파일 판별 학습 장치에서 수행되는 중요 문서 파일 판별 학습 방법에 있어서,
    문서 파일의 컨텐츠를 전처리 하는 동작;
    상기 문서 파일에 포함된 메타데이터를 획득하는 동작;
    상기 전처리한 문서 파일의 컨텐츠를 기초로 상기 문서 파일의 컨텐츠의 품사와 관련된 제1 중요도를 결정하도록 제1 딥 뉴럴 네트워크(Deep Neural Network)를 학습시키는 동작; 및
    상기 획득한 메타데이터를 기초로 상기 문서 파일에 포함된 상기 메타데이터의 내용과 관련된 제2 중요도를 결정하도록 제2 딥 뉴럴 네트워크(Deep Neural Network)를 학습시키는 동작
    을 포함하되,
    상기 중요 문서는 상기 제1 딥 뉴럴 네트워크 및 상기 제2 딥 뉴럴 네트워크의 학습에 이용되는 정답 데이터를 기초로 결정되는 중요 문서 파일 판별 학습 방법.
  7. 제6항에 있어서,
    상기 중요 문서 파일 판별 학습 방법은,
    상기 제1 중요도를 기초로 상기 제1 딥 뉴럴 네트워크(Deep Neural Network)의 학습을 평가하는 동작;
    상기 제2 중요도를 기초로 상기 제2 딥 뉴럴 네트워크(Deep Neural Network)의 학습을 평가하는 동작; 및
    상기 각각의 평가를 기초로 상기 제1 딥 뉴럴 네트워크(Deep Neural Network) 또는 상기 제2 딥 뉴럴 네트워크(Deep Neural Network)를 업데이트 하는 동작
    을 더 포함하는 중요 문서 파일 판별 학습 방법.
  8. 제6항에 있어서,
    상기 문서 파일의 컨텐츠를 전처리 하는 동작은,
    상기 문서 파일에 포함된 상기 컨텐츠를 토큰화 하는 동작;
    상기 토큰화 한 상기 컨텐츠에 포스 태깅(Part Of Speech Tagging, POS Tagging)하는 동작; 및
    상기 포스 태깅(Part Of Speech Tagging, POS Tagging)한 상기 컨텐츠의 불용어를 제거하는 동작
    을 포함하는 중요 문서 파일 판별 학습 방법.
  9. 제6항에 있어서,
    상기 제1 딥 뉴럴 네트워크(Deep Neural Network)를 학습시키는 동작은,
    상기 전처리 한 상기 문서 파일의 컨텐츠를 벡터화 하는 동작
    을 포함하는 중요 문서 파일 판별 학습 방법.
  10. 제6항에 있어서,
    상기 제2 딥 뉴럴 네트워크(Deep Neural Network)를 학습시키는 동작은,
    나이브 베이지안(Naive Bayesian), 로지스틱 회귀(Logistic Regression), 서포트 벡터 머신(Support Vector Machine) 및 결정 트리 중 적어도 어느 하나를 기초로 상기 메타데이터를 분류하는 동작
    을 포함하는 중요 문서 파일 판별 학습 방법.
  11. 중요 문서 파일 판별 장치에 있어서,
    적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 프로세서는,
    문서 파일의 컨텐츠를 전처리 하고,
    상기 문서 파일에 포함된 메타데이터를 획득하고,
    학습이 완료된 제1 딥 뉴럴 네트워크(Deep Neural Network)를 기초로 상기 전처리한 문서 파일의 컨텐츠의 품사와 관련된 제1 중요도를 결정하고,
    학습이 완료된 제2 딥 뉴럴 네트워크(Deep Neural Network)를 기초로 상기 획득한 문서 파일에 포함된 상기 메타데이터의 내용과 관련된 제2 중요도를 결정하되
    상기 중요 문서는 상기 제1 딥 뉴럴 네트워크 및 상기 제2 딥 뉴럴 네트워크의 학습에 이용되는 정답 데이터를 기초로 결정되는 중요 문서 파일 판별 장치.
  12. 제11항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 제1 중요도와 상기 제2 중요도를 결합하여 제3 중요도를 결정하고,
    상기 결정한 제3 중요도를 기초로 상기 문서 파일의 중요도를 판별하는 중요 문서 파일 판별 장치.
  13. 제11항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 문서 파일에 포함된 상기 컨텐츠를 토큰화 하고,
    상기 토큰화 한 상기 컨텐츠에 포스 태깅(Part Of Speech Tagging, POS Tagging)하고,
    상기 포스 태깅(Part Of Speech Tagging, POS Tagging)한 상기 컨텐츠의 불용어를 제거하는 중요 문서 파일 판별 장치.
  14. 제11항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 전처리 한 상기 문서 파일의 컨텐츠를 벡터화 하는 중요 문서 파일 판별 장치.
  15. 제11항에 있어서,
    상기 적어도 하나의 프로세서는,
    나이브 베이지안(Naive Bayesian), 로지스틱 회귀(Logistic Regression), 서포트 벡터 머신(Support Vector Machine) 및 결정 트리 중 적어도 어느 하나를 기초로 상기 메타데이터를 분류하는 중요 문서 파일 판별 장치.
  16. 중요 문서 파일 판별 장치에서 수행되는 중요 문서 파일 판별 방법에 있어서,
    문서 파일의 컨텐츠를 전처리 하는 동작;
    상기 문서 파일에 포함된 메타데이터를 획득하는 동작;
    학습이 완료된 제1 딥 뉴럴 네트워크(Deep Neural Network)를 기초로 상기 전처리한 문서 파일의 컨텐츠의 품사와 관련된 제1 중요도를 결정하는 동작; 및
    학습이 완료된 제2 딥 뉴럴 네트워크(Deep Neural Network)를 기초로 상기 획득한 문서 파일에 포함된 상기 메타데이터의 내용과 관련된 제2 중요도를 결정하는 동작
    을 포함하되,
    상기 중요 문서는 상기 제1 딥 뉴럴 네트워크 및 상기 제2 딥 뉴럴 네트워크의 학습에 이용되는 정답 데이터를 기초로 결정되는 중요 문서 파일 판별 방법.
  17. 제16항에 있어서,
    상기 중요 문서 파일 판별 방법은,
    상기 제1 중요도와 상기 제2 중요도를 결합하여 제3 중요도를 결정하는 동작; 및
    상기 결정한 제3 중요도를 기초로 상기 문서 파일의 중요도를 판별하는 동작
    을 더 포함하는 중요 문서 파일 판별 방법.
  18. 제16항에 있어서,
    상기 문서 파일의 컨텐츠를 전처리 하는 동작은,
    상기 문서 파일에 포함된 상기 컨텐츠를 토큰화 하는 동작;
    상기 토큰화 한 상기 컨텐츠에 포스 태깅(Part Of Speech Tagging, POS Tagging)하는 동작; 및
    상기 포스 태깅(Part Of Speech Tagging, POS Tagging)한 상기 컨텐츠의 불용어를 제거하는 동작
    을 포함하는 중요 문서 파일 판별 방법.
  19. 제16항에 있어서,
    상기 제1 중요도를 결정하는 동작은,
    상기 전처리 한 상기 문서 파일의 컨텐츠를 벡터화 하는 동작
    을 포함하는 중요 문서 파일 판별 방법.
  20. 제16항에 있어서,
    상기 제2 중요도를 결정하는 동작은,
    나이브 베이지안(Naive Bayesian), 로지스틱 회귀(Logistic Regression), 서포트 벡터 머신(Support Vector Machine) 및 결정 트리 중 적어도 어느 하나를 기초로 상기 메타데이터를 분류하는 동작
    을 포함하는 중요 문서 파일 판별 방법.
KR1020200086707A 2020-07-14 2020-07-14 중요 문서 파일 판별 학습 장치, 중요 문서 파일 판별 학습 방법, 중요 문서 파일 판별 장치 및 중요 문서 파일 판별 방법 KR102535417B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200086707A KR102535417B1 (ko) 2020-07-14 2020-07-14 중요 문서 파일 판별 학습 장치, 중요 문서 파일 판별 학습 방법, 중요 문서 파일 판별 장치 및 중요 문서 파일 판별 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200086707A KR102535417B1 (ko) 2020-07-14 2020-07-14 중요 문서 파일 판별 학습 장치, 중요 문서 파일 판별 학습 방법, 중요 문서 파일 판별 장치 및 중요 문서 파일 판별 방법

Publications (2)

Publication Number Publication Date
KR20220008520A KR20220008520A (ko) 2022-01-21
KR102535417B1 true KR102535417B1 (ko) 2023-05-22

Family

ID=80050250

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200086707A KR102535417B1 (ko) 2020-07-14 2020-07-14 중요 문서 파일 판별 학습 장치, 중요 문서 파일 판별 학습 방법, 중요 문서 파일 판별 장치 및 중요 문서 파일 판별 방법

Country Status (1)

Country Link
KR (1) KR102535417B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101778679B1 (ko) * 2015-10-02 2017-09-14 네이버 주식회사 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101778679B1 (ko) * 2015-10-02 2017-09-14 네이버 주식회사 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템

Also Published As

Publication number Publication date
KR20220008520A (ko) 2022-01-21

Similar Documents

Publication Publication Date Title
KR102222451B1 (ko) 텍스트 기반 사용자심리상태예측 및 콘텐츠추천 장치 및 그 방법
US11321671B2 (en) Job skill taxonomy
Onan SRL-ACO: A text augmentation framework based on semantic role labeling and ant colony optimization
US11003950B2 (en) System and method to identify entity of data
Garreta et al. Scikit-learn: machine learning simplified: implement scikit-learn into every step of the data science pipeline
Schofield et al. Identifying hate speech in social media
Shah et al. Simple App Review Classification with Only Lexical Features.
Chemmengath et al. Let the CAT out of the bag: Contrastive attributed explanations for text
Suresh Kumar et al. Local search five‐element cycle optimized reLU‐BiLSTM for multilingual aspect‐based text classification
Korade et al. Strengthening Sentence Similarity Identification Through OpenAI Embeddings and Deep Learning.
AbdElminaam et al. DeepCorrect: Building an efficient framework for auto correction for subjective questions using GRU_LSTM deep learning
Aslam et al. Improving the review classification of Google apps using combined feature embedding and deep convolutional neural network model
Baldominos et al. OpinAIS: an artificial immune system-based framework for opinion mining
Viswanathan et al. Detection of duplicates in Quora and Twitter corpus
Yu et al. Leveraging auxiliary tasks for document-level cross-domain sentiment classification
Vielma et al. Sentiment analysis with novel GRU based deep learning networks
KR102535417B1 (ko) 중요 문서 파일 판별 학습 장치, 중요 문서 파일 판별 학습 방법, 중요 문서 파일 판별 장치 및 중요 문서 파일 판별 방법
Lai et al. Cross-domain sentiment classification using topic attention and dual-task adversarial training
Roisenzvit From euclidean distance to spatial classification: unraveling the technology behind GPT models
Amora et al. An analysis of machine learning techniques to prioritize customer service through social networks
Leteno et al. An investigation of structures responsible for gender bias in BERT and DistilBERT
Testas Natural Language Processing with Pandas, Scikit-Learn, and PySpark
Baruah et al. Detection of Hate Speech in Assamese Text
US11544460B1 (en) Adversarial anonymization and preservation of content
Jayaraman et al. Offensive Text Prediction using Machine Learning and Deep Learning Approaches.

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant