KR20210153912A - 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템 및 방법 - Google Patents

키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템 및 방법 Download PDF

Info

Publication number
KR20210153912A
KR20210153912A KR1020200070842A KR20200070842A KR20210153912A KR 20210153912 A KR20210153912 A KR 20210153912A KR 1020200070842 A KR1020200070842 A KR 1020200070842A KR 20200070842 A KR20200070842 A KR 20200070842A KR 20210153912 A KR20210153912 A KR 20210153912A
Authority
KR
South Korea
Prior art keywords
paragraphs
area
deep learning
document
importance
Prior art date
Application number
KR1020200070842A
Other languages
English (en)
Other versions
KR102520305B1 (ko
Inventor
정회경
이종원
Original Assignee
배재대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 배재대학교 산학협력단 filed Critical 배재대학교 산학협력단
Priority to KR1020200070842A priority Critical patent/KR102520305B1/ko
Publication of KR20210153912A publication Critical patent/KR20210153912A/ko
Application granted granted Critical
Publication of KR102520305B1 publication Critical patent/KR102520305B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 일 실시예에 따른 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템은 문서 및 검색 키워드를 입력받는 인터페이스부; 상기 문서로부터 복수의 문단을 구분하여 상기 복수의 문단이 배치된 순서대로 번호를 부여하고, 상기 복수의 문단 중에서 상기 검색 키워드가 포함된 문단들을 추출하는 추출부; 상기 추출된 문단들을 정제하고, 상기 정제된 문단들을 N(상기 N은 자연수)개의 영역으로 나눈 후, 각 영역별 문단들의 중요도에 따라, 주요 요소를 포함하는 영역을 나타내는 주요 영역을 선정하고, 상기 선정된 주요 영역에 포함된 문단들을 상기 부여된 번호 순서대로 정렬하여 출력하는 프로세서; 및 상기 추출된 문단들의 개수 및 상기 주요 영역에 포함된 문단들의 개수를 딥러닝 알고리즘으로 학습하여 딥러닝 모델을 생성하는 학습부를 포함한다.

Description

키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템 및 방법{DEEP LEARNING DOCUMENT ANALYSIS SYSTEM AND METHOD BASED ON KEYWORD FREQUENCY AND SECTION CENTRALITY ANALYSIS}
본 발명의 실시예들은 XML 형태의 논문이나 보고서로 작성된 문서를 분석하는 기술에 관한 것으로, 더욱 상세하게는 키워드 빈도수와 영역 중요도 분석을 기반으로 문서를 분석하고 딥러닝 모델을 통해 그 분석 결과를 예측할 수 있는 시스템 및 방법에 관한 것이다.
다양한 종류의 문서 중에서도 보고서나 논문들은 일반적으로 XML 문서 형태로 보관한다. 해당 문서들을 분석하기 위해 형태소 분석기를 기반으로 개발된 문서 분석 시스템들이 사용되어 왔다.
상기 문서 분석 시스템들은 문서의 내용을 분석하여 문서 작성에 사용된 단어들과 단어들의 빈도수를 정렬하고 해당 결과를 사용자에게 보여준다. 이로 인해 형태소 분석기 기반의 문서 분석 시스템들은 사용자가 분석된 문서 작성에 사용된 단어들을 알 수 있다.
그러나 사용자는 문서의 내용을 모두 읽어야 이해를 하는 경우가 대부분이기 때문에 형태소 분석기 기반의 문서 분석 시스템들이 사용자의 문서 이해에 큰 도움을 주었다고는 할 수 없다. 즉, 사용자가 문서 작성에 사용된 주요한 단어들에 대해 시스템들을 통해 알 수 있다고 해서 해당 문서를 분석하는 시간이 문서 내용 전체를 읽는 것에 비해 단축되는 것은 아니다.
이와 다른 방식의 문서 분석 시스템들은 해당 문서에 사용자가 입력한 검색어가 포함되어 있는지 여부를 판단한다. 그리고 검색어가 포함되어 있는 문서를 검색하여 정렬한 뒤 사용자에게 이를 보여주는 기능을 수행한다. 그러나 이러한 시스템의 기능이 사용자의 문서 이해에 대한 시간을 줄여주거나 문서 이해의 효율성을 높이지는 못한다.
관련 선행기술로는 대한민국 등록특허공보 제10-1060594호(발명의 명칭: 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법, 등록일자: 2011.08.24)가 있다.
본 발명의 일 실시예는 딥러닝 모델을 이용한 학습을 통해 특정 문서에 대한 예측을 진행함으로써 문단의 개수 변화에 따라 중요도가 높은 문단의 개수가 어떻게 변화하는지를 알 수 있으며, 이러한 데이터들을 사용자에게 알려줌으로써 사용자가 문서 간의 관계를 정리하거나 군집화를 진행할 수 있도록 하는 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템 및 방법을 제공한다.
본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제(들)로 제한되지 않으며, 언급되지 않은 또 다른 과제(들)은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 따른 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템은 문서 및 검색 키워드를 입력받는 인터페이스부; 상기 문서로부터 복수의 문단을 구분하여 상기 복수의 문단이 배치된 순서대로 번호를 부여하고, 상기 복수의 문단 중에서 상기 검색 키워드가 포함된 문단들을 추출하는 추출부; 상기 추출된 문단들을 정제하고, 상기 정제된 문단들을 N(상기 N은 자연수)개의 영역으로 나눈 후, 각 영역별 문단들의 중요도에 따라, 주요 요소를 포함하는 영역을 나타내는 주요 영역을 선정하고, 상기 선정된 주요 영역에 포함된 문단들을 상기 부여된 번호 순서대로 정렬하여 출력하는 프로세서; 및 상기 추출된 문단들의 개수 및 상기 주요 영역에 포함된 문단들의 개수를 딥러닝 알고리즘으로 학습하여 딥러닝 모델을 생성하는 학습부를 포함한다.
상기 학습부는 상기 추출된 문단들의 개수 및 상기 주요 영역에 포함된 문단들의 개수를 딥러닝 알고리즘으로 학습하여, 상기 추출된 문단들의 개수 및 상기 주요 영역에 포함된 문단들의 개수 간의 상관 관계를 분석하고, 상기 분석의 결과에 기초하여 상기 딥러닝 모델을 생성할 수 있다.
상기 학습부는 상기 딥러닝 모델을 이용하여, 특정 문서에서 추출한 문단들의 개수에 따라 상기 주요 영역에 포함된 문단들의 개수를 예측할 수 있다.
상기 프로세서는 상기 추출된 문단들 내 상기 검색 키워드의 빈도수에 기초하여 상기 검색 키워드에 대한 가중치를 계산하고, 상기 추출된 문단들 중에서 상기 가중치가 가장 낮은 검색 키워드만을 포함한 문단을 제거하여 상기 추출된 문단들을 정제할 수 있다.
상기 프로세서는 하나의 문단 내에 상기 가중치가 가장 낮은 검색 키워드 이외의 다른 검색 키워드가 존재하는 경우에는 예외 처리하여 해당 문단의 제거 기능을 수행하지 않는 것이 바람직하다.
상기 프로세서는 상기 N개의 각 영역별 문단들의 중요도를 계산하고, 상기 각 영역별 문단들의 중요도를 비교하여 가장 높은 중요도를 갖는 영역을 상기 주요 영역으로 선정할 수 있다.
상기 프로세서는 상기 각 영역별 문단들에 포함된 상기 검색 키워드의 빈도수를 상기 각 영역별 문단들의 개수로 나누어, 각 영역별로 상기 검색 키워드의 평균 빈도수를 계산하고, 상기 계산된 평균 빈도수에 기초하여 상기 각 영역별 문단들의 중요도를 계산할 수 있다.
상기 프로세서는 상기 정제된 문단들의 개수를 상기 N으로 나눈 값으로 상기 각 영역별 문단들의 개수를 정하되, 나머지 값이 발생하는 경우 상기 나머지 값을 맨 뒤에 배치된 영역에서부터 상기 나머지 값이 소진될 때가지 각 영역에 균등하게 순차적으로 가산하여 상기 각 영역별 문단들의 개수를 정할 수 있다.
상기 인터페이스부는 상기 문서의 키워드 태그의 태그 값에 해당하는 키워드들을 불러온 뒤 해당 키워드들을 출력하여 사용자에게 보여주고, 상기 출력된 키워드들 중 상기 사용자에 의해 입력된 키워드를 상기 검색 키워드로서 입력받을 수 있다.
상기 추출부는 상기 검색 키워드가 복수 개일 경우, 상기 추출된 문단들 중 동일한 번호가 부여된 문단이 복수 개 존재하면 상기 복수의 문단 중 하나의 문단 이외의 나머지 문단을 상기 추출된 문단들에서 제거할 수 있다.
본 발명의 일 실시예에 따른 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 방법은 문서 분석 기반 주요 요소 추출 시스템의 인터페이스부가 문서 및 검색 키워드를 입력받는 단계; 상기 문서 분석 기반 주요 요소 추출 시스템의 추출부가 상기 문서로부터 복수의 문단을 구분하여 상기 복수의 문단이 배치된 순서대로 번호를 부여하고, 상기 복수의 문단 중에서 상기 검색 키워드가 포함된 문단들을 추출하는 단계; 상기 문서 분석 기반 주요 요소 추출 시스템의 프로세서가 상기 추출된 문단들을 정제하는 단계; 상기 프로세서가 상기 정제된 문단들을 N(상기 N은 자연수)개의 영역으로 나눈 후, 각 영역별 문단들의 중요도에 따라, 주요 요소를 포함하는 영역을 나타내는 주요 영역을 선정하는 단계; 상기 프로세서가 상기 선정된 주요 영역에 포함된 문단들을 상기 부여된 번호 순서대로 정렬하여 출력하는 단계; 및 상기 문서 분석 기반 주요 요소 추출 시스템의 학습부가 상기 추출된 문단들의 개수 및 상기 주요 영역에 포함된 문단들의 개수를 딥러닝 알고리즘으로 학습하여 딥러닝 모델을 생성하는 단계를 포함한다.
상기 딥러닝 모델을 생성하는 단계는 상기 추출된 문단들의 개수 및 상기 주요 영역에 포함된 문단들의 개수를 딥러닝 알고리즘으로 학습하여, 상기 추출된 문단들의 개수 및 상기 주요 영역에 포함된 문단들의 개수 간의 상관 관계를 분석하는 단계; 및 상기 분석의 결과에 기초하여 상기 딥러닝 모델을 생성하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따른 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 방법은 상기 학습부가 상기 딥러닝 모델을 이용하여, 특정 문서에서 추출한 문단들의 개수에 따라 상기 주요 영역에 포함된 문단들의 개수를 예측하는 단계를 더 포함할 수 있다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 첨부 도면들에 포함되어 있다.
본 발명의 일 실시예에 따르면, 딥러닝 모델을 이용한 학습을 통해 특정 문서에 대한 예측을 진행함으로써 문단의 개수 변화에 따라 중요도가 높은 문단의 개수가 어떻게 변화하는지를 알 수 있으며, 이러한 데이터들을 사용자에게 알려줌으로써 사용자가 문서 간의 관계를 정리하거나 군집화를 진행할 수 있도록 한다.
본 발명의 일 실시예에 따르면, 문서의 주요 문단들을 추출하여 압축률을 향상시킴과 동시에, 추출된 문단들을 복수의 영역으로 분할하고 각 영역의 중요도를 계산하여 주요 영역을 알려줌으로써 문서의 이해도를 향상시켜 문서를 이해하는 데 필요한 시간을 줄일 수 있다.
도 1은 본 발명의 일 실시예에 따른 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템의 네트워크 구성을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템의 상세 구성을 설명하기 위해 도시한 블록도이다.
도 3 내지 도 5는 본 발명의 일 실시예에 따른 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 방법을 설명하기 위해 도시한 흐름도이다.
도 6 내지 도 15는 본 발명의 일 실시예에 따른 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템을 구현하고 검증하는 일례를 설명하기 위해 도시한 도면이다.
본 발명의 이점 및/또는 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다.
또한, 이하 실시되는 본 발명의 바람직한 실시예는 본 발명을 이루는 기술적 구성요소를 효율적으로 설명하기 위해 각각의 시스템 기능구성에 기 구비되어 있거나, 또는 본 발명이 속하는 기술분야에서 통상적으로 구비되는 시스템 기능 구성은 가능한 생략하고, 본 발명을 위해 추가적으로 구비되어야 하는 기능 구성을 위주로 설명한다. 만약 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면, 하기에 도시하지 않고 생략된 기능 구성 중에서 종래에 기 사용되고 있는 구성요소의 기능을 용이하게 이해할 수 있을 것이며, 또한 상기와 같이 생략된 구성 요소와 본 발명을 위해 추가된 구성 요소 사이의 관계도 명백하게 이해할 수 있을 것이다.
또한, 이하의 설명에 있어서, 신호 또는 정보의 "전송", "통신", "송신", "수신" 기타 이와 유사한 의미의 용어는 일 구성요소에서 다른 구성요소로 신호 또는 정보가 직접 전달되는 것뿐만이 아니라 다른 구성요소를 거쳐 전달되는 것도 포함한다. 특히 신호 또는 정보를 일 구성요소로 "전송" 또는 "송신"한다는 것은 그 신호 또는 정보의 최종 목적지를 지시하는 것이고 직접적인 목적지를 의미하는 것이 아니다. 이는 신호 또는 정보의 "수신"에 있어서도 동일하다.
이하에서는 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템의 네트워크 구성을 도시한 도면이다.
도 1을 참조하면, 단말(101)은 예컨대, 스마트폰, 태블릿 PC일 수 있으며, 유무선 통신을 통해 문서(예컨대, XML 문서)에 대한 분석 요청을 딥러닝 문서 분석 시스템(100)으로 전송할 수 있다.
상기 단말(101)은 상기 분석 요청에 대한 응답으로서, 상기 딥러닝 문서 분석 시스템(100)으로부터 원래 문서의 압축본, 즉 압축된 문서를 수신하여 출력할 수 있다.
상기 딥러닝 문서 분석 시스템(100)은 상기 단말(101)로부터의 문서에 대한 분석 요청에 연동하여, 상기 문서를 압축한 후 압축된 문서를 상기 단말(101)로 제공할 수 있다.
이때, 상기 딥러닝 문서 분석 시스템(100)은 상기 분석 요청으로부터 검색 키워드를 추출하고, 상기 추출된 검색 키워드를 이용하여 상기 문서를 압축할 수 있다.
구체적으로, 상기 딥러닝 문서 분석 시스템(100)은 상기 문서로부터 복수의 문단을 구분하고, 상기 복수의 문단 중에서 상기 검색 키워드가 포함되는 문단을 추출할 수 있다. 이어서, 상기 딥러닝 문서 분석 시스템(100)은 상기 추출된 문단들을 정제하고, 상기 정제된 문단들을 N(상기 N은 자연수)개의 영역으로 나눈 후, 각 영역별 문단들의 중요도에 따라, 주요 요소를 포함하는 영역을 나타내는 주요 영역을 선정하고, 상기 선정된 주요 영역에 포함된 문단들을 상기 부여된 번호 순서대로 정렬함으로써, 상기 문서를 압축할 수 있다.
한편, 상기 딥러닝 문서 분석 시스템(100)은 상기 단말(101)로부터 수신된 문서에 대한 분석 요청에 대해, 압축된 문서를 상기 단말(101)로 제공할 수 있으나, 이에 한정되지 않고, 사용자로부터 직접 문서를 입력받을 수 있으며, 입력된 문서에 대해, 압축된 문서를 출력할 수 있다.
도 2는 본 발명의 일 실시예에 따른 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템의 상세 구성을 설명하기 위해 도시한 블록도이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템(100)은 인터페이스부(210), 추출부(220), 프로세서(230), 데이터베이스(240), 및 학습부(250)를 포함할 수 있다.
상기 인터페이스부(210)는 문서(예: XML 문서, PDF 문서 등) 및 검색 키워드를 입력받을 수 있다. 이때, 상기 인터페이스부(210)는 상기 문서의 키워드 태그(keyword tag)의 태그 값에 해당하는 키워드들을 불러온 뒤 해당 키워드들을 출력하여 사용자에게 보여주고, 상기 출력된 키워드들 중 상기 사용자에 의해 입력된 키워드를 상기 검색 키워드로서 입력받을 수 있다.
상기 인터페이스부(210)는 상기 검색 키워드의 개수를 더 입력받거나, 또는 상기 사용자에 의해 입력된 키워드를 카운트하여, 상기 검색 키워드의 개수를 확인할 수 있다.
상기 인터페이스부(210)는 상기 검색 키워드와 같은 의미를 갖는 유사 키워드(즉, 동의어)가 외부 서버(도시하지 않음)로부터 획득되는 경우, 상기 유사 키워드를 제공할 수 있다. 이로써, 사용자가 검색하고자 하는 내용이, 최종적으로 출력되는 문단에서 제거되는 것을 방지할 수 있다.
예컨대, 상기 인터페이스부(210)는 '사람'이라는 검색 키워드가 입력된 경우, '사람'과 같은 의미를 갖는 유사 키워드로서, '인간'을 외부 서버로부터 획득하여 제공할 수 있다.
상기 추출부(220)는 상기 문서로부터 복수의 문단을 구분하여 상기 복수의 문단이 배치된 순서대로 번호를 부여하고, 상기 복수의 문단 중에서 상기 검색 키워드가 포함된 문단들을 추출할 수 있다.
이때, 상기 추출부(220)는 상기 인터페이스부(210)를 통해 제공된 상기 유사 키워드에 대해 추가 검색 요청이 입력되면, 상기 복수의 문단 중에서 상기 유사 키워드가 포함되는 문단을 더 추출할 수 있다.
상기 추출부(220)는 상기 검색 키워드가 복수 개일 경우, 상기 추출된 문단들 중 동일한 번호가 부여된 문단이 복수 개 존재하면 상기 복수의 문단 중 하나의 문단 이외의 나머지 문단을 상기 추출된 문단들에서 제거할 수 있다.
예를 들어, 제1 검색 키워드가 포함되어 추출된 문단이, 제1 문단(번호 1이 부여된 문단), 제3 문단, 제4 문단이고, 제2 검색 키워드가 포함되어 추출된 문단이, 제3 문단, 제5 문단일 경우, 상기 추출부(220)는 중복하여 추출된 2개의 제3 문단 중 하나의 문단을 제거할 수 있다.
상기 프로세서(230)는 상기 추출된 문단들을 정제할 수 있다. 이를 위해, 상기 프로세서(230)는 상기 추출된 문단들 내 상기 검색 키워드의 빈도수에 기초하여 상기 검색 키워드에 대한 가중치를 계산하고, 상기 추출된 문단들 중에서 상기 가중치가 가장 낮은 검색 키워드만을 포함한 문단을 제거할 수 있다.
이때, 상기 프로세서(230)는 각각의 검색 키워드가 포함된 문단의 개수를 합하여, 총 개수(총 빈도수)를 산출하고, 총 개수 대비 특정 검색 키워드가 포함된 문단의 개수(특정 검색 키워드의 빈도수)에 대한 비율을, 상기 특정 검색 키워드에 대한 가중치로서 산출할 수 있다.
구체적으로, 상기 검색 키워드가, 제1 검색 키워드 및 제2 검색 키워드를 포함하는 경우, 상기 프로세서(230)는 상기 제1 검색 키워드를 포함하여 추출된 문단의 제1 개수와 상기 제2 검색 키워드를 포함하여 추출된 문단의 제2 개수를 합하여, 총 개수를 산출할 수 있다. 이후, 상기 프로세서(230)는 상기 총 개수 대비 상기 제1 개수의 비율을, 상기 제1 검색 키워드에 대한 가중치로서 산출하고, 상기 총 개수 대비 상기 제2 개수의 비율을, 상기 제2 검색 키워드에 대한 가중치로서 산출할 수 있다.
한편, 상기 프로세서(230)는 하나의 문단 내에 상기 가중치가 가장 낮은 검색 키워드 이외의 다른 검색 키워드가 존재하는 경우에는 예외 처리하여 해당 문단의 제거 기능을 수행하지 않는 것이 바람직하다.
상기 프로세서(230)는 상기 정제된 문단들을 N(상기 N은 자연수, 예컨대 10)개의 영역으로 나눈 후, 각 영역별 문단들의 중요도에 따라, 주요 요소를 포함하는 영역을 나타내는 주요 영역을 선정할 수 있다.
이를 위해, 상기 프로세서(230)는 상기 N개의 각 영역별 문단들의 중요도를 계산하고, 상기 각 영역별 문단들의 중요도를 비교하여 가장 높은 중요도를 갖는 영역을 상기 주요 영역으로 선정할 수 있다.
이때, 상기 프로세서(230)는 상기 각 영역별 문단들에 포함된 상기 검색 키워드의 빈도수를 상기 각 영역별 문단들의 개수로 나누어, 각 영역별로 상기 검색 키워드의 평균 빈도수를 계산하고, 상기 계산된 평균 빈도수에 기초하여 상기 각 영역별 문단들의 중요도를 계산할 수 있다.
여기서, 상기 프로세서(230)는 상기 정제된 문단들의 개수를 상기 N으로 나눈 값으로 상기 각 영역별 문단들의 개수를 정할 수 있다. 다만, 나머지 값이 발생하는 경우, 상기 프로세서(230)는 상기 나머지 값을 맨 뒤에 배치된 영역에서부터 상기 나머지 값이 소진될 때가지 각 영역에 균등하게 순차적으로 가산하여 상기 각 영역별 문단들의 개수를 정할 수 있다.
예를 들면, 상기 정제된 문단들의 개수가 83개이고 상기 N이 10이라고 가정한다. 이러한 경우, 상기 프로세서(230)는 83을 10으로 나눈 결과 값에서 몫에 해당하는 8을 제1 영역부터 제10 영역까지 각 영역별 문단들의 개수로 정한 후, 나머지 값에 해당하는 3에 대해서 맨 뒤에 배치된 제10 영역에서부터 제8 영역까지 1씩 더해줌으로써, 제1 내지 제7 영역까지는 8, 제8 내지 제10 영역까지는 9로 각 영역별 문단들의 개수를 정할 수 있다.
상기의 예와 같은 경우, 상기 프로세서(230)는 상기 제1 내지 제7 영역까지는 각 영역별 검색 키워드의 빈도수를 8로 나누어 상기 각 영역별 검색 키워드의 평균 빈도수를 계산함으로써 상기 각 영역별 문단들의 중요도를 계산할 수 있다. 그리고, 상기 프로세서(230)는 상기 제8 내지 제10 영역까지는 각 영역별 검색 키워드의 빈도수를 9로 나누어 상기 각 영역별 검색 키워드의 평균 빈도수를 계산함으로써 상기 각 영역별 문단들의 중요도를 계산할 수 있다.
상기 프로세서(230)는 상기 선정된 주요 영역에 포함된 문단들을 상기 추출부(220)에 의해 부여된 번호 순서대로 정렬하여 출력할 수 있다. 이처럼 상기 프로세서(230)는 상기 문서의 주요 영역에 해당하는 문단들을 추출하여 압축시켜 제공할 수 있으며, 이때 상기 추출된 문단을, 상기 추출된 문단에 각각 부여된 번호에 따라, 정렬하여 출력함(예컨대, 부여된 번호가 작은 순서대로 문단을 정렬함)으로써, 상기 문서 상에서의 문단 간 순서가 뒤바뀌지 않고, 배치 순서를 유지할 수 있게 한다.
예컨대, 제1 검색 키워드가 포함되어 추출된 문단이, 제1 문단, 제3 문단, 제4 문단이고, 제2 검색 키워드가 포함되어 추출된 문단이, 제3 문단, 제5 문단일 경우, 상기 프로세서(230)는 각 문단에 부여된 번호에 따라, 제1 문단, 제3 문단, 제4 문단, 제5 문단 순서대로 정렬하여 출력할 수 있다.
한편, 상기 프로세서(230)는 상기 추출된 문단 내 검색 키워드를, 상기 추출된 문단 내 다른 문자와 구별하여 출력할 수 있다. 이때, 상기 프로세서(230)는 상기 검색 키워드가 복수일 경우, 각각의 검색 키워드별로 상이한 형태, 예컨대 상이한 색상, 글꼴, 크기 등으로 구별하여 출력함으로써, 문단 내 복수의 검색 키워드를 쉽게 인식할 수 있게 한다.
또한, 상기 프로세서(230)는 연속적인 번호가 부여된 문단이, 설정된 개수 이상 추출되는 경우, 해당 문단에 연속 식별표시를 출력할 수 있다. 예컨대, 추출된 문단이, 제1 문단, 제3 문단, 제4 문단, 제5 문단이고, 설정된 개수가 '3'일 경우, 상기 프로세서(230)는 3개의 연속적인 번호가 부여된 문단 즉, 제3 문단, 제4 문단, 제5 문단 각각에 대해, 연속 식별표시를 출력할 수 있다.
다른 일례로서, 상기 프로세서(230)는 상기 검색 키워드가 복수일 경우, 상기 복수의 검색 키워드를 모두 포함하는 문단에 중요 식별표시를 출력할 수 있다. 예컨대, 검색 키워드가 제1 검색 키워드, 제2 검색 키워드 및 제3 검색 키워드를 포함하고, 제3 문단에 3개의 검색 키워드가 모두 포함될 경우, 상기 프로세서(230)는 제3 문단에, 중요 식별표시를 출력함으로써, 사용자로 하여금 중요한 문단을 쉽게 인지할 수 있게 한다.
상기 데이터베이스(240)는 문서로부터 추출된 키워드를 저장할 수 있다.
상기 학습부(250)는 상기 추출된 문단들의 개수 및 상기 주요 영역에 포함된 문단들의 개수를 딥러닝 알고리즘으로 학습하여, 상기 추출된 문단들의 개수 및 상기 주요 영역에 포함된 문단들의 개수 간의 상관 관계를 분석하고, 상기 분석의 결과에 기초하여 딥러닝 모델을 생성할 수 있다.
상기 학습부(250)는 상기 딥러닝 모델을 이용하여 특정 문서에 대한 예측을 진행할 수 있다. 즉, 상기 학습부(250)는 상기 딥러닝 모델을 이용하여 특정 문서에서 추출한 문단들의 개수에 따라 중요도가 높은 영역 안에 있는 문단들의 개수를 예측할 수 있다.
이상에서 설명된 장치는 하드웨어 구성 요소, 소프트웨어 구성 요소, 및/또는 하드웨어 구성 요소 및 소프트웨어 구성 요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성 요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
도 3 내지 도 5는 본 발명의 일 실시예에 따른 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 방법을 설명하기 위해 도시한 흐름도이다.
여기서 설명하는 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 방법은 본 발명의 하나의 실시예에 불과하며, 그 이외에 필요에 따라 다양한 단계들이 부가될 수 있고, 하기의 단계들도 순서를 변경하여 실시될 수 있으므로, 본 발명이 하기에 설명하는 각 단계 및 그 순서에 한정되는 것은 아니다.
먼저 도 3을 참조하면, 단계(310)에서 상기 딥러닝 문서 분석 시스템(100)의 인터페이스부(210)는 문서 및 검색 키워드를 입력받을 수 있다.
다음으로, 단계(320)에서 상기 딥러닝 문서 분석 시스템(100)의 추출부(220)는 상기 문서로부터 복수의 문단을 구분하여 상기 복수의 문단이 배치된 순서대로 번호를 부여할 수 있다.
다음으로, 단계(330)에서 상기 딥러닝 문서 분석 시스템(100)의 추출부(220)는 상기 복수의 문단 중에서 상기 검색 키워드가 포함된 문단들을 추출할 수 있다.
다음으로, 단계(340)에서 상기 딥러닝 문서 분석 시스템(100)의 프로세서(230)는 상기 추출된 문단들을 정제할 수 있다. 이에 대해 도 4를 참조하여 구체적으로 설명하면 다음과 같다.
즉, 도 4를 참조하면, 단계(410)에서 상기 프로세서(230)는 상기 추출된 문단들 내 상기 검색 키워드의 빈도수를 산출할 수 있다. 이후, 단계(420)에서 상기 프로세서(230)는 상기 산출된 빈도수에 기초하여 상기 검색 키워드에 대한 가중치를 계산할 수 있다. 이후, 단계(430)에서 상기 프로세서(230)는 상기 추출된 문단들 중에서 상기 가중치가 가장 낮은 검색 키워드만을 포함한 문단을 제거할 수 있다.
다시 도 3을 참조하면, 단계(350)에서 상기 딥러닝 문서 분석 시스템(100)의 프로세서(230)는 상기 정제된 문단들을 N개의 영역으로 분할할 수 있다.
다음으로, 단계(360)에서 상기 딥러닝 문서 분석 시스템(100)의 프로세서(230)는 각 영역별 문단들의 중요도에 따라, 주요 요소를 포함하는 영역을 나타내는 주요 영역을 선정할 수 있다. 이에 대해 도 5를 참조하여 구체적으로 설명하면 다음과 같다.
즉, 도 5를 참조하면, 단계(510)에서 상기 프로세서(230)는 상기 N개의 각 영역별 문단들에 포함된 상기 검색 키워드의 빈도수를 상기 각 영역별 문단들의 개수로 나누어, 각 영역별로 상기 검색 키워드의 평균 빈도수를 계산할 수 있다. 이후, 단계(520)에서 상기 프로세서(230)는 상기 계산된 평균 빈도수에 기초하여 상기 각 영역별 문단들의 중요도를 계산할 수 있다. 이후, 단계(530)에서 상기 프로세서(230)는 상기 각 영역별 문단들의 중요도를 비교하여 가장 높은 중요도를 갖는 영역을 상기 주요 영역으로 선정할 수 있다.
다시 도 3을 참조하면, 단계(370)에서 상기 딥러닝 문서 분석 시스템(100)의 프로세서(230)는 상기 선정된 주요 영역에 포함된 문단들을 상기 부여된 번호 순서대로 정렬하여 출력할 수 있다.
다음으로, 단계(380)에서 상기 딥러닝 문서 분석 시스템(100)의 학습부(250)는 상기 추출된 문단들의 개수 및 상기 주요 영역에 포함된 문단들의 개수를 딥러닝 알고리즘으로 학습하여 딥러닝 모델을 생성할 수 있다.
즉, 상기 학습부(250)는 상기 추출된 문단들의 개수 및 상기 주요 영역에 포함된 문단들의 개수를 딥러닝 알고리즘으로 학습하여, 상기 추출된 문단들의 개수 및 상기 주요 영역에 포함된 문단들의 개수 간의 상관 관계를 분석하고, 상기 분석의 결과에 기초하여 상기 딥러닝 모델을 생성할 수 있다.
다음으로, 단계(390)에서 상기 딥러닝 문서 분석 시스템(100)의 학습부(250)는 상기 딥러닝 모델을 이용하여, 특정 문서에서 추출한 문단들의 개수에 따라 상기 주요 영역에 포함된 문단들의 개수를 예측할 수 있다.
이하에서는 도 6 내지 도 15를 참조하여 본 발명의 일 실시예에 따른 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템을 구현하고 그 효율성을 검증하는 일례를 상세히 설명하기로 한다.
시스템 구현
본 실시예에서는 Windows 운영체제 기반의 CPU - Intel i5-4690, RAM - 8의 PC 1대를 사용하였다.
시스템이 시작되면 사용자는 분석을 원하는 XML 형식의 파일을 입력한다. 그리고 해당 파일을 시스템이 불러오는 작업을 수행하게 된다. 또한 문서를 불러오는 작업을 수행할 때 시스템은 키워드 태그를 찾고 해당 태그의 값들을 찾고 이를 추출한다. 추출된 키워드들을 사용자에게 보여주고 빈도수를 계산하여 상위 3개의 키워드를 사용자에게 보여준다. 그리고 상위 3개의 키워드를 기반으로 문서 분석을 시작한다. 도 6은 시스템이 특정 문서를 분석하여 추출한 키워드들을 출력하는 화면이다.
시스템은 문단의 순서를 유지하는 기능과 중복을 제거하는 기능을 진행한다. 그리고 상위 3개의 키워드들이 포함되어 있는 문단들의 수와 키워드들의 가중치를 보여준다. 도 7은 해당 기능을 수행한 시스템의 결과 화면이다.
상위 3개 키워드들의 빈도수와 비율을 확인하는 작업이 완료되면 추출된 문단들을 10개의 영역으로 분할한다. 영역의 중요도는 해당 영역 안에서 키워드의 빈도수를 계산하는 것이다. 그리고 중요도들을 비교하여 가장 높은 중요도의 영역과 10개 중요도의 평균보다 높은 중요도를 보인 영역들을 사용자에게 알려준다. 또한 중요도가 높은 영역이 연속으로 나타날 경우 이를 사용자에게 알려주어 반드시 읽도록 한다. 도 8 내지 도 12는 중요도 계산 및 비교 작업을 수행한 뒤 결과를 출력하는 화면을 나타낸 것이다.
도 13은 총 20회 진행한 실험 결과를 평균값으로 나타낸 그래프이다. 기존의 문서 분석 시스템(Conventional System)은 평균 391.48개의 문단을 추출하였고, 제안하는 시스템(Proposed System)은 평균 76.8개의 문단을 추출하였다. 이는 5 : 1 비율이며 제안하는 시스템이 사용자에게 추천하는 문단의 양이 기존 시스템에 비해 적은 것을 알 수 있다. 또한 제안하는 시스템이 추천하는 문단들을 읽고 문서에 대한 이해도가 낮다면 중요도는 낮지만 상위 3개의 키워드가 포함되어 있는 다른 영역의 문단들을 읽으면 된다. 이러한 경우에도 제안하는 시스템이 추천하는 문단의 양이 기존의 문서 분석 시스템에 비해 현저히 적기 때문에 제안하는 시스템의 효율성이 높다고 할 수 있다.
도 14는 20회 실험의 결과를 딥러닝 모델에 적용한 결과이다. 5 : 1 비율로 문단들과 중요도가 높은 문단들이 추출되었기 때문에 예측을 진행하기 전에 분석한 문서의 데이터를 5개 삽입하고 후에 분석을 진행할 문서에 대한 분석 결과를 예측한 결과이다. 76번째의 학습부터 딥러닝 모델이 예측값과 실제 분석 결과가 100퍼센트 일치하기 시작한다. Y축의 'loss'는 손실값이고 X축의 'epoch'는 학습의 반복 횟수를 나타낸다.
문서 분석을 위해 사용되고 있는 형태소 분석기 기반의 문서 분석 시스템들은 사용자가 입력한 키워드의 사용 여부와 횟수를 확인하는 것이 주목적이었기 때문에 구조적인 한계가 발생하였다. 이로 인해 문서를 분석하는데 필요한 다양한 정보들을 제공하지 못하였다. 사용자가 문서의 모든 내용을 읽지 않더라도 중요한 부분을 시스템이 알려줄 수 있다면 기존의 문서 분석 시스템들에 비해 도움을 줄 수 있게 된다.
이를 위해 제안하는 시스템은 사용자가 분석을 원하는 문서를 시스템에 입력하면 해당 문서를 불러오고 키워드를 찾아낸다. 그리고 키워드들의 빈도수를 비교하여 상위 3개의 키워드를 선정하고 해당 키워드들을 포함하고 있는 문단들을 추출한다. 시스템은 추출된 문단들을 중복 제거 작업과 순서 유지 작업을 수행하여 내용이 변질되지 않도록 한다. 그리고 추출된 문단들을 분석하여 상위 3개 키워드들의 빈도수와 비율을 확인하고 사용자에게 알려준다. 해당 작업까지 완료되면 사용자는 가장 중요한 키워드들과 해당 키워드들이 포함되어 있는 문단들을 알 수 있다. 마지막으로 시스템은 추출된 문단들을 10개의 영역으로 분할하고 영역들의 중요도를 계산한다.
중요도는 10개의 영역에서 상위 3개 키워드들의 총 빈도수를 10으로 나누어 평균값을 도출하고 특정 영역에서 상위 3개 키워드들의 빈도수와 비교하는 것이다. 평균값보다 높은 빈도수를 보이면 해당 영역은 다른 영역들에 중요도가 높은 것이다. 시스템은 해당 작업을 수행하며 가장 중요도가 높은 영역과 평균값보다 높은 중요도의 영역들, 중요도가 높은 영역들이 연속으로 나타날 경우 이를 사용자에게 알려준다. 분석이 완료되면 시스템이 도출한 데이터를 기반으로 딥 러닝 모델이 학습을 진행하고 특정 문서의 분석 결과를 예측한다.
도 15는 기존 시스템과 제안하는 시스템을 비교 분석한 것이다. 총 20차례 실험 데이터를 분석한 결과, 제안하는 시스템의 압축률이 기존 시스템에 비해 높고 사용자에게 보여주는 문단의 개수는 약 5 : 1 비율이다.
형태소 분석기를 기반으로 개발된 기존의 문서 분석 시스템들은 사용자가 입력한 키워드를 포함하고 있는 문단들을 모두 추출하였다. 중복 제거 작업을 수행하더라도 많은 내용을 사용자가 읽어야 하기 때문에 문서 분석을 위해 필요한 시간을 줄이기 힘든 문제점이 있었다.
이에 반해 문서 내에 기재되어 있는 키워드를 추출하고 키워드들의 빈도수를 비교하여 상위 3개의 키워드를 확인한다. 그리고 해당 키워드들이 포함되어 있는 문단들을 추출하고 10개의 영역으로 분할한다. 분할된 영역 내에 키워드 빈도수를 확인하고 이를 중요도로 표기한다. 중요도가 높은 영역을 사용자에게 알려주는 것으로 시스템이 종료된다.
제안하는 시스템은 기존의 문서 분석 시스템에 비해 적은 수의 문단을 읽도록 권유하고 키워드의 빈도수나 가중치 등을 사용자에게 알려준다. 이를 통해 사용자가 문서를 이해하는데 필요한 시간을 기존 시스템에 비해 줄일 수 있다. 또한 제안하는 시스템은 문단들의 중복 제거 작업과 순서 유지 작업을 진행함으로써 문서의 내용이 변질될 위험이 없다.
이러한 기능들을 기반으로 사용자는 기존 시스템에 비해 보다 높은 압축률과 다양한 정보들을 제안하는 시스템으로부터 제공받을 수 있고, 이로 인해 제안하는 시스템이 기존 시스템에 비해 사용자의 효율적인 문서 이해를 위한 도움을 줄 수 있을 것으로 기대된다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CDROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.
100: 딥러닝 문서 분석 시스템
101: 단말
210: 인터페이스부
220: 추출부
230: 프로세서
240: 데이터베이스
250: 학습부

Claims (13)

  1. 문서 및 검색 키워드를 입력받는 인터페이스부;
    상기 문서로부터 복수의 문단을 구분하여 상기 복수의 문단이 배치된 순서대로 번호를 부여하고, 상기 복수의 문단 중에서 상기 검색 키워드가 포함된 문단들을 추출하는 추출부;
    상기 추출된 문단들을 정제하고, 상기 정제된 문단들을 N(상기 N은 자연수)개의 영역으로 나눈 후, 각 영역별 문단들의 중요도에 따라, 주요 요소를 포함하는 영역을 나타내는 주요 영역을 선정하고, 상기 선정된 주요 영역에 포함된 문단들을 상기 부여된 번호 순서대로 정렬하여 출력하는 프로세서; 및
    상기 추출된 문단들의 개수 및 상기 주요 영역에 포함된 문단들의 개수를 딥러닝 알고리즘으로 학습하여 딥러닝 모델을 생성하는 학습부
    를 포함하는 것을 특징으로 하는 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템.
  2. 제1항에 있어서,
    상기 학습부는
    상기 추출된 문단들의 개수 및 상기 주요 영역에 포함된 문단들의 개수를 딥러닝 알고리즘으로 학습하여, 상기 추출된 문단들의 개수 및 상기 주요 영역에 포함된 문단들의 개수 간의 상관 관계를 분석하고, 상기 분석의 결과에 기초하여 상기 딥러닝 모델을 생성하는 것을 특징으로 하는 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템.
  3. 제2항에 있어서,
    상기 학습부는
    상기 딥러닝 모델을 이용하여, 특정 문서에서 추출한 문단들의 개수에 따라 상기 주요 영역에 포함된 문단들의 개수를 예측하는 것을 특징으로 하는 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템.
  4. 제1항에 있어서,
    상기 프로세서는
    상기 추출된 문단들 내 상기 검색 키워드의 빈도수에 기초하여 상기 검색 키워드에 대한 가중치를 계산하고, 상기 추출된 문단들 중에서 상기 가중치가 가장 낮은 검색 키워드만을 포함한 문단을 제거하여 상기 추출된 문단들을 정제하는 것을 특징으로 하는 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템.
  5. 제1항에 있어서,
    상기 프로세서는
    하나의 문단 내에 상기 가중치가 가장 낮은 검색 키워드 이외의 다른 검색 키워드가 존재하는 경우에는 예외 처리하여 해당 문단의 제거 기능을 수행하지 않는 것을 특징으로 하는 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템.
  6. 제1항에 있어서,
    상기 프로세서는
    상기 N개의 각 영역별 문단들의 중요도를 계산하고, 상기 각 영역별 문단들의 중요도를 비교하여 가장 높은 중요도를 갖는 영역을 상기 주요 영역으로 선정하는 것을 특징으로 하는 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템.
  7. 제6항에 있어서,
    상기 프로세서는
    상기 각 영역별 문단들에 포함된 상기 검색 키워드의 빈도수를 상기 각 영역별 문단들의 개수로 나누어, 각 영역별로 상기 검색 키워드의 평균 빈도수를 계산하고, 상기 계산된 평균 빈도수에 기초하여 상기 각 영역별 문단들의 중요도를 계산하는 것을 특징으로 하는 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템.
  8. 제7항에 있어서,
    상기 프로세서는
    상기 정제된 문단들의 개수를 상기 N으로 나눈 값으로 상기 각 영역별 문단들의 개수를 정하되, 나머지 값이 발생하는 경우 상기 나머지 값을 맨 뒤에 배치된 영역에서부터 상기 나머지 값이 소진될 때가지 각 영역에 균등하게 순차적으로 가산하여 상기 각 영역별 문단들의 개수를 정하는 것을 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템.
  9. 제1항에 있어서,
    상기 인터페이스부는
    상기 문서의 키워드 태그의 태그 값에 해당하는 키워드들을 불러온 뒤 해당 키워드들을 출력하여 사용자에게 보여주고, 상기 출력된 키워드들 중 상기 사용자에 의해 입력된 키워드를 상기 검색 키워드로서 입력받는 것을 특징으로 하는 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템.
  10. 제1항에 있어서,
    상기 추출부는
    상기 검색 키워드가 복수 개일 경우, 상기 추출된 문단들 중 동일한 번호가 부여된 문단이 복수 개 존재하면 상기 복수의 문단 중 하나의 문단 이외의 나머지 문단을 상기 추출된 문단들에서 제거하는 것을 특징으로 하는 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템.
  11. 문서 분석 기반 주요 요소 추출 시스템의 인터페이스부가 문서 및 검색 키워드를 입력받는 단계;
    상기 문서 분석 기반 주요 요소 추출 시스템의 추출부가 상기 문서로부터 복수의 문단을 구분하여 상기 복수의 문단이 배치된 순서대로 번호를 부여하고, 상기 복수의 문단 중에서 상기 검색 키워드가 포함된 문단들을 추출하는 단계;
    상기 문서 분석 기반 주요 요소 추출 시스템의 프로세서가 상기 추출된 문단들을 정제하는 단계;
    상기 프로세서가 상기 정제된 문단들을 N(상기 N은 자연수)개의 영역으로 나눈 후, 각 영역별 문단들의 중요도에 따라, 주요 요소를 포함하는 영역을 나타내는 주요 영역을 선정하는 단계;
    상기 프로세서가 상기 선정된 주요 영역에 포함된 문단들을 상기 부여된 번호 순서대로 정렬하여 출력하는 단계; 및
    상기 문서 분석 기반 주요 요소 추출 시스템의 학습부가 상기 추출된 문단들의 개수 및 상기 주요 영역에 포함된 문단들의 개수를 딥러닝 알고리즘으로 학습하여 딥러닝 모델을 생성하는 단계
    를 포함하는 것을 특징으로 하는 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 방법.
  12. 제11항에 있어서,
    상기 딥러닝 모델을 생성하는 단계는
    상기 추출된 문단들의 개수 및 상기 주요 영역에 포함된 문단들의 개수를 딥러닝 알고리즘으로 학습하여, 상기 추출된 문단들의 개수 및 상기 주요 영역에 포함된 문단들의 개수 간의 상관 관계를 분석하는 단계; 및
    상기 분석의 결과에 기초하여 상기 딥러닝 모델을 생성하는 단계
    를 포함하는 것을 특징으로 하는 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 방법.
  13. 제12항에 있어서,
    상기 학습부가 상기 딥러닝 모델을 이용하여, 특정 문서에서 추출한 문단들의 개수에 따라 상기 주요 영역에 포함된 문단들의 개수를 예측하는 단계
    를 더 포함하는 것을 특징으로 하는 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 방법.
KR1020200070842A 2020-06-11 2020-06-11 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템 및 방법 KR102520305B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200070842A KR102520305B1 (ko) 2020-06-11 2020-06-11 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200070842A KR102520305B1 (ko) 2020-06-11 2020-06-11 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20210153912A true KR20210153912A (ko) 2021-12-20
KR102520305B1 KR102520305B1 (ko) 2023-04-10

Family

ID=79033931

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200070842A KR102520305B1 (ko) 2020-06-11 2020-06-11 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102520305B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102564470B1 (ko) * 2023-02-16 2023-08-07 (주)유알피 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템 및 그 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190043857A (ko) * 2017-10-19 2019-04-29 배재대학교 산학협력단 문서 내 문단 추출 장치 및 방법
KR20190110174A (ko) * 2018-03-20 2019-09-30 (주)에어사운드 딥러닝 알고리즘 기반의 핵심문장 추출 방법
KR20200036333A (ko) * 2018-09-28 2020-04-07 배재대학교 산학협력단 문서 분석 기반 주요 요소 추출 시스템 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190043857A (ko) * 2017-10-19 2019-04-29 배재대학교 산학협력단 문서 내 문단 추출 장치 및 방법
KR20190110174A (ko) * 2018-03-20 2019-09-30 (주)에어사운드 딥러닝 알고리즘 기반의 핵심문장 추출 방법
KR20200036333A (ko) * 2018-09-28 2020-04-07 배재대학교 산학협력단 문서 분석 기반 주요 요소 추출 시스템 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
김은희, "딥러닝 기반 문장 중요도를 고려한 중심 문장 추출 방법," 조선대학교 산업기술창업대학원, 2020. *
이종원 et al. "문서 분석 기반 주요 요소 추출 시스템." 한국정보통신학회논문지 23.4 (2019): 401-406. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102564470B1 (ko) * 2023-02-16 2023-08-07 (주)유알피 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템 및 그 방법

Also Published As

Publication number Publication date
KR102520305B1 (ko) 2023-04-10

Similar Documents

Publication Publication Date Title
CN110716852B (zh) 用于生成自动化测试脚本的系统、方法和介质
US11243993B2 (en) Document relationship analysis system
CN104239300B (zh) 从文本中挖掘语义关键词的方法和设备
US9251469B2 (en) Dynamic load balancing based on question difficulty
CN104471552A (zh) 用于处置状态机引擎所接收的数据的方法及系统
KR20180077690A (ko) 문서의 내러티브 학습 장치 및 방법, 문서의 내러티브 생성 장치 및 방법
KR20190043857A (ko) 문서 내 문단 추출 장치 및 방법
CN112860855B (zh) 一种信息抽取方法、装置及电子设备
CN111930805A (zh) 一种信息挖掘方法及计算机设备
CN110796171A (zh) 机器学习模型的未分类样本处理方法、装置及电子设备
JP5194818B2 (ja) データ分類方法およびデータ処理装置
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN113986950A (zh) 一种sql语句处理方法、装置、设备及存储介质
KR102110523B1 (ko) 문서 분석 기반 주요 요소 추출 시스템 및 방법
KR102520305B1 (ko) 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템 및 방법
JP2016218512A (ja) 情報処理装置及び情報処理プログラム
KR102299525B1 (ko) 제품 평가 마이닝 방법 및 이를 수행하는 장치
CN112434009A (zh) 端到端的数据探查方法、装置、计算机设备和存储介质
CN116402166A (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
KR20220041336A (ko) 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법
Bhawna et al. Natural Language Processing Based Two-Stage Machine Learning Model for Automatic Mapping of Activity Codes Using Drilling Descriptions
KR20210023453A (ko) 리뷰 광고 매칭 장치 및 방법
JP6496078B2 (ja) 分析支援装置、分析支援方法、および分析支援プログラム
CN111538898A (zh) 基于组合特征提取的Web服务包推荐方法及系统
JP6413597B2 (ja) 分析プログラム、分析方法及び分析装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant