KR102118603B1 - 딥러닝 알고리즘 기반의 핵심문장 추출 방법 - Google Patents

딥러닝 알고리즘 기반의 핵심문장 추출 방법 Download PDF

Info

Publication number
KR102118603B1
KR102118603B1 KR1020180031774A KR20180031774A KR102118603B1 KR 102118603 B1 KR102118603 B1 KR 102118603B1 KR 1020180031774 A KR1020180031774 A KR 1020180031774A KR 20180031774 A KR20180031774 A KR 20180031774A KR 102118603 B1 KR102118603 B1 KR 102118603B1
Authority
KR
South Korea
Prior art keywords
sentence
sampling
sentences
data
core
Prior art date
Application number
KR1020180031774A
Other languages
English (en)
Other versions
KR20190110174A (ko
Inventor
허국호
박진규
경민영
이현빈
백민호
Original Assignee
(주)에어사운드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)에어사운드 filed Critical (주)에어사운드
Priority to KR1020180031774A priority Critical patent/KR102118603B1/ko
Priority to PCT/KR2018/010398 priority patent/WO2019164078A1/ko
Publication of KR20190110174A publication Critical patent/KR20190110174A/ko
Application granted granted Critical
Publication of KR102118603B1 publication Critical patent/KR102118603B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Audiology, Speech & Language Pathology (AREA)

Abstract

딥러닝 알고리즘 기반의 핵심문장 추출 방법이 개시된다. 문서의 문장을 구분하는 단계; 문장을 샘플링하는 단계; 샘플링 데이터로 지도 학습 데이터를 생성하는 단계; 문장에 대해 룩업 테이블을 생성하는 단계; 룩업 테이블을 이용하여 문장별 핵심문장 확률을 추출하고, 지도 학습된 뉴럴 네트워크 모델을 입력하는 단계; 및 뉴럴 네트워크 모델의 문장별 확률값으로 상위 문장을 추출하는 단계를 포함한다. 따라서 문서로부터 핵심 문장을 추출할 수 있고, 구두점 예외사항을 보안하는 장점이 있고, 다수의 문장을 샘플링하여 핵심 문장을 추출할 수 있는 전처리 단계를 수행할 수 있고, 학습 데이터 세트를 마련하여 딥러닝 알고리즘을 수행할 수 있고, 문장으로부터 룩업 테이블을 생성하여 딥러닝 알고리즘에 입력할 수 있고, 핵심문장 가능성을 추론하여 문서로부터 핵심 문장을 추출할 수 있다.

Description

딥러닝 알고리즘 기반의 핵심문장 추출 방법{A CORE SENTENCE EXTRACTION METHOD BASED ON A DEEP LEARNING ALGORITHM}
본 발명은 딥러닝 알고리즘 기반의 핵심문장 추출 방법에 관한 것으로, 더욱 상세하게는 딥러닝을 이용하여 문서에서 핵심 문장을 추출하는 딥러닝 알고리즘 기반의 핵심문장 추출 방법에 관한 것이다.
정보화 사회에서 인터넷 검색은 필수적이 된지 오래이다. 하지만 인터넷 검색으로 대표되는 문서 검색은 방대한 데이터에 기반해서 사용자가 찾고자 하는 문서를 올바로 검색하지 못하고 있는 실정이다. 이러한 문서 검색에 있어 정확한 문서를 검색하지 못하고 있는 것은 도 1에 제시한 종래 핵심 문장 추출 방법의 한계로 볼 수 있다.
도 1은 종래 핵심 문장을 추출하는 방법을 보인 예시도이다.
현재 인터넷에서 무분별한 자료의 증가로 인해 자신이 원하는 자료를 찾는 것이 어려워졌다. 예를 들어, 미리 정리해놓은 자료가 없다면, 방대한 양의 문서를 하나씩 읽어가며 자신에게 필요한 자료인지 판단해야하는데, 방대한 양의 문서를 읽는다는 것은 비효율적이며 많은 시간을 필요로 한다. 따라서 현시대의 무분별한 자료 중에서 자신이 필요한 문서를 신속하고 효율적으로 자신이 원하는 자료인지 판단하기 위해 문서의 핵심 문장을 추출하는 방법이 필요하다.
종래에 사용하던 주된 방법은 도 1과 같이 단어의 빈도수를 파악하여 빈도수가 가장 높은 단어의 가중치를 높여 핵심문장을 추출하는 방식인 TF-IDF(Term Frequency - Inverse Document Frequency)가 있다. 다른 방법으로는 문서를 세분화 하여 트리구조로 표현한 후 핵심문장을 추출하는 방식, 문서의 패턴을 데이터베이스에 입력하여 패턴인식방식으로 핵심문장을 추출하는 방식이 있다.
그러나 종래의 기술들은 장단점이 뚜렷하다. TF-IDF 방식은 범용성을 가지고 있으나 정확도가 다소 떨어지는 단점이 있고, 트리구조와 패턴인식방식은 정확도는 향상되었으나 패턴을 정의하는 작업은 상당한 시간과 노력을 필요로 하며, 사전에 정의하지 않은 패턴의 경우 핵심문장을 제대로 추출할 수 없는 문제가 발생한다. 따라서 인터넷에서 특정한 주제를 검색하여 나온 모든 문서들의 핵심문장을 추출할 때 정확성이 떨어지거나, 범용성이 낮아 추출이 안 될 수도 있다.
따라서 기존의 핵심문장 추출 방식은 패턴이 정의된 주제의 정확도는 높지만, 정의하지 못한 주제의 정확도는 TF-IDF방식을 사용해도 낮다는 문제점이 나타난다.
공개번호 제10-2018-0008247호, 딥러닝 인공신경망 기반의 타스크 제공 플랫폼 등록번호 제10-1646461호, 딥 러닝을 이용한 한국어 의존 구문 분석 방법 등록번호 제10-1627428호, 딥 러닝을 이용하는 구문 분석 모델 구축 방법 및 이를 수행하는 장치
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 문서로부터 핵심 문장을 추출하는 딥러닝 알고리즘 기반의 핵심문장 추출 방법을 제공하는데 있다.
또한, 구두점 예외사항을 보안하는 딥러닝 알고리즘 기반의 핵심문장 추출 방법을 제공하는데 있다.
또한, 다수의 문장을 샘플링하는 딥러닝 알고리즘 기반의 핵심문장 추출 방법을 제공하는데 있다.
또한, 학습 데이터 세트를 마련하는 딥러닝 알고리즘 기반의 핵심문장 추출 방법을 제공하는데 있다.
또한, 문장으로부터 룩업 테이블을 생성하는 딥러닝 알고리즘 기반의 핵심문장 추출 방법을 제공하는데 있다.
또한, 핵심문장 가능성을 추론하는 딥러닝 알고리즘 기반의 핵심문장 추출 방법을 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명은, 문서의 문장을 구분하는 단계; 문장을 샘플링하는 단계; 샘플링 데이터로 지도 학습 데이터를 생성하는 단계; 문장에 대해 룩업 테이블을 생성하는 단계; 룩업 테이블을 이용하여 문장별 핵심문장 확률을 추출하고, 지도 학습된 뉴럴 네트워크 모델을 입력하는 단계; 및 뉴럴 네트워크 모델의 문장별 확률값으로 상위 문장을 추출하는 단계를 포함한다.
또한, 구분하는 단계는 구두점을 이용한 문장을 구분하는 단계; 마침표 뒤 따옴표를 판별하여 소수점 예외사항을 보안하는 단계; 마침표 전, 두번째 뒤칸의 알파벳을 판별하여 구분점 예외사항을 보안하는 단계를 포함한다.
또한, 샘플링하는 단계는 해당 문장을 포함한 전, 후 다수의 문장을 한 문장으로 묶어 데이터를 샘플링하는 단계를 포함한다.
또한, 생성하는 단계는 샘플링 데이터를 입력데이터로 설정하고, 핵심문장을 0, 비 핵심문장을 1로 두어 정답데이터를 이진 분류하는 단계를 포함한다.
또한, 룩업 테이블을 생성하는 단계는 문장을 형태소 분석기를 이용하여 어근단위로 나눈 후 어근에 -1~1사이의 임의의 실수를 N차원만큼 생성하고, 학습을 진행하여 룩업 테이블 값을 업데이트하는 단계를 포함한다.
또한, 입력하는 단계는 룩업 테이블을 입력받아 딥러닝 알고리즘을 이용하여 핵심문장 가능성을 추론하는 단계를 포함한다.
또한, 추론하는 단계는 룩업 테이블을 CNN(Convolution Neural Nerwork) 모델에 입력하여 멀티플 필터를 사용한 컨벌루션 레이어를 생성하고, 맥스 풀링드 알고리즘을 이용하여 멀티플 필터의 가장 높은 확률을 선택해 풀링 레이어를 구성하고, 풀리 커넥티드 레이어를 이용하여 풀링 레이어를 1*1행렬로 치환하여 가능성을 추론하는 단계를 포함한다.
또한, 추출하는 단계는 문장별 확률값을 토대로 내림차순으로 정렬시킨 후 상위 N개의 문장을 출력하는 단계를 포함한다.
상기와 같은 본 발명에 따른 딥러닝 알고리즘 기반의 핵심문장 추출 방법을 이용할 경우에는 문서로부터 핵심 문장을 추출할 수 있다.
또한, 구두점 예외사항을 보안하는 장점이 있다.
또한, 다수의 문장을 샘플링하여 핵심 문장을 추출할 수 있는 전처리 단계를 수행할 수 있다.
또한, 학습 데이터 세트를 마련하여 딥러닝 알고리즘을 수행할 수 있다.
또한, 문장으로부터 룩업 테이블을 생성하여 딥러닝 알고리즘에 입력할 수 있다.
또한, 핵심문장 가능성을 추론하여 문서로부터 핵심 문장을 추출할 수 있다.
도 1은 종래 핵심 문장을 추출하는 방법을 보인 예시도이다.
도 2는 본 발명 핵심문장 추출 방법의 예시도이다.
도 3은 마침표의 예외 사항을 보인 예시도이다.
도 4는 구두점 구분 방법을 보인 예시도이다.
도 5는 샘플링 방법을 보인 예시도이다.
도 6은 학습 데이터 세트를 보인 예시도이다.
도 7은 룩업 테이블을 보인 예시도이다.
도 8은 추론 방법을 보인 예시도이다.
도 9는 딥러닝 알고리즘 학습 모델을 보인 예시도이다.
도 10은 추출 방법을 보인 예시도이다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 2는 본 발명 핵심문장 추출 방법의 예시도이다.
핵심문장 추출 방법은 문서의 문장을 구분하는 단계; 문장을 샘플링하는 단계; 샘플링 데이터로 지도 학습 데이터를 생성하는 단계; 문장에 대해 룩업 테이블을 생성하는 단계; 룩업 테이블을 이용하여 문장별 핵심문장 확률을 추출하고, 지도 학습된 뉴럴 네트워크 모델을 입력하는 단계; 및 뉴럴 네트워크 모델의 문장별 확률값으로 상위 문장을 추출하는 단계를 포함한다.
핵심문장 추출 장치는 구분하는 단계, 샘플링하는 단계, 생성하는 단계, 룩업 테이블을 생성하는 단계, 입력하는 단계, 및 추출하는 단계를 수행한다.
구분하는 단계는 구두점인 마침표, 물음표, 느낌표를 이용하여 문서의 문장을 구분한다. 샘플링하는 단계는 해당 문장을 포함한 전, 후 다수의 문장을 한 문장으로 묶어 데이터를 샘플링한다. 생성하는 단계는 샘플링 데이터로 지도 학습 데이터를 생성한다. 룩업 테이블을 생성하는 단계는 문장을 형태소 분석기를 이용하여 어근단위로 나눈 후 어근에 임의의 실수를 N차원만큼 생성한다. 입력하는 단계는 룩업 테이블을 이용하여 문장별 핵심문장 확률을 추출하고, 지도 학습된 뉴럴 네트워크 모델을 입력한다. 추출하는 단계는 뉴럴 네트워크 모델의 문장별 확률값으로 상위 문장을 추출한다.
도 3은 마침표의 예외 사항을 보인 예시도이다.
마침표의 예외 사항에서 구분하는 단계는 마침표의 예외 사항을 처리한다. 구분하는 단계는 마침표의 예외사항으로서 소수점 여부를 판별하고, 성과 이름의 구분점을 판별한다.
핵심문장 추출 장치는 소수점을 마침표의 예외 사항으로 처리하고, 성과 이름의 구분점을 마침표의 예외 사항으로 처리한다. 즉, 소수점과 성과 이름에는 마침표가 포함되는데 핵심문장 추출 장치는 소수점, 성과 이름에 포함된 구분점을 마침표의 예외 사항으로 처리한다. 소수점, 성과 이름은 문장이 아니므로 핵심문장 추출 장치는 이를 예외 사항으로 처리할 수 있다.
도 4는 구두점 구분 방법을 보인 예시도이다.
구두점 구분 방법에서 구분하는 단계는 구두점을 이용한 문장을 구분하는 단계; 마침표 뒤 문자를 판별하여 마침표가 아닌 소수점인지 판별하는 단계; 마침표 전, 두번째 칸에 알파벳이 기재되었는지 판별하여 마침표가 아닌 구분점인지 판별하는 단계;를 포함한다.
핵심문장 추출 장치는 구두점을 이용하여 문장을 구분하고, 마침표 뒤 문자를 판별하여 마침표의 예외사항으로서 소수점을 판별하고, 마침표 전, 두번째 칸에 알파벳이 기재되었는지 판별하여 마침표의 예외사항으로서 구분점을 판별한다. 구두점 구분 알고리즘은 문장에 포함된 구두점에 대해 소수점과 구분점을 마침표의 예외사항으로 처리하여 문장을 구분한다.
도 5는 샘플링 방법을 보인 예시도이다.
샘플링하는 단계는 해당 문장을 포함한 전, 후 다수의 문장을 한 문장으로 묶어 데이터를 샘플링하는 단계를 포함한다.
핵심문장 추출 장치는 해당 문장을 포함한 전, 후 다수의 문장을 한 문장으로 묶어 데이터를 샘플링한다. 핵심문장 추출 장치는 단일 문장을 사용하지 않고 해당 문장을 포함하는 전, 후 다수의 문장을 한 문장으로 묶어 샘플링한다. 핵심문장 추출 장치는 다수의 문장에 핵심문장이 포함되어 있음을 추론할 수 있도록 다수의 문장을 샘플링한다. 핵심문장은 단일 문장으로 구성될 수도 있으나 다수의 문장을 이룰 수 있으므로 이를 고려해서 다수의 문장이 한 문장으로 묶여 샘플링된다. 실시예로, 해당 문장과 전, 후 다수의 문장이 샘플링될 수 있다.
도 6은 학습 데이터 세트를 보인 예시도이다.
생성하는 단계는 샘플링 데이터를 입력데이터로 설정하고, 출력데이터는 핵심문장은 0, 비 핵심문장은 1로 하여 출력데이터 정답데이터를 이진 분류하는 단계를 포함한다.
핵심문장 추출 장치는 샘플링 데이터를 입력데이터로 설정하고, 출력데이터는 핵심문장은 0, 비 핵심문장을 1로 두어 정답데이터로 설정하여 이진 분류한다. 뉴럴 네트워크가 학습되기 위해 학습 데이터 세트가 준비되어야 한다. 핵심문장 추출 장치는 샘플링 데이터를 입력데이터로 하고 출력데이터를 정답데이터로 하되 정답데이터는 이진 분류하여 학습 데이터 세트를 준비한다. 학습 데이터 세트는 뉴럴 네트워크를 학습시키는 용도로 사용된다. 이후 문서의 샘플링 데이터가 뉴럴 네트워크에 입력되면서 다시 학습될 수 있다.
도 7은 룩업 테이블을 보인 예시도이다.
룩업 테이블을 생성하는 단계는 문장을 형태소 분석기를 이용하여 어근단위로 나눈 후 어근에 -1~1사이의 임의의 실수를 N차원만큼 생성하고, 학습을 진행하여 룩업 테이블 값을 업데이트하는 단계를 포함한다.
핵심문장 추출 장치는 문장을 형태소 분석기를 이용하여 어근단위로 나눈 후 어근에 -1~1사이의 임의의 실수를 N차원만큼 생성하고, 학습을 진행하여 룩업 테이블 값을 업데이트한다. 핵심문장 추출 장치는 룩업 테이블을 이용한다. 룩업 테이블은 어근에 -1~1 상의 임의의 실수가 N차원 생성된 테이블이다. 핵심문장 추출 장치는 문장을 어근단위로 나눈 후 어근에 임의의 실수를 N차원만큼 생성한 룩업 테이블로 학습을 진행하여 룩업 테이블 값을 업데이트한다.
도 8은 추론 방법을 보인 예시도이다.
입력하는 단계는 룩업 테이블을 입력받아 딥러닝 알고리즘을 이용하여 핵심문장 가능성을 추론하는 단계를 포함한다.
핵심문장 추출 장치는 룩업 테이블을 입력받아 딥러닝 알고리즘을 이용하여 핵심문장 가능성을 추론한다. 딥러닝 알고리즘은 룩업 테이블로 핵심문장 가능성을 추론한다. 핵심문장 추출 장치는 룩업 테이블을 딥러닝 알고리즘에 적용해서 핵심문장 가능성을 추론한다.
핵심문장 추출 장치는 CNN 모델의 출력값을 이진 분류하여 학습 결과를 출력하고, 학습 결과와 샘플링 결과를 비교하여 룩업 테이블을 업데이트한다.
도 9는 딥러닝 알고리즘 학습 모델을 보인 예시도이다.
추론하는 단계는 룩업 테이블을 CNN 모델에 입력하여 멀티플 필터를 사용한 컨벌루션 레이어를 생성하고, 맥스 풀링드 알고리즘을 이용하여 멀티플 필터의 가장 높은 확률을 선택해 풀링 레이어를 구성하고, 풀리 커넥티드 레이어를 이용하여 풀링 레이어를 1*1행렬로 치환하여 가능성을 추론하는 단계를 포함한다.
핵심문장 추출 장치는 룩업 테이블을 CNN 모델에 입력하여 멀티플 필터를 사용한 컨벌루션 레이어(91)를 생성하고, 맥스 풀링드 알고리즘을 이용하여 멀티플 필터의 가장 높은 확률을 선택해 풀링 레이어(92)를 구성하고, 풀리 커넥티드 레이어(93)를 이용하여 풀링 레이어(92)를 1*1행렬로 치환하여 가능성을 추론한다. 뉴럴 네트워크는 CNN 모델이고, 컨벌루션 레이어(91), 풀링 레이어(92), 풀리 커넥티드 레이어(93)로 구성된다. 컨벌루션 레이어(91)는 멀티플 필터를 사용하고, 풀링 레이어(92)는 맥스 풀링드 알고리즘을 이용하여 멀티플 필터의 가장 높은 확률을 선택하고, 풀리 커넥티드 레이어(93)는 풀링 레이어(92)를 1*1행렬로 치환하여 가능성을 추론한다. 맥스-풀링(max pooling) 알고리즘은 단순히 결과 배열을 2x2 정사각형으로 나누어 각각에서 가장 큰 숫자만을 취합한다. 이 아이디어는 각 2x2 사각형 격자(square grid)를 구성하는 4개의 입력 타일에서 흥미로운 것을 찾으면, 가장 흥미로운 것도 유지할 수 있다. 이를 통해 가장 중요한 부분을 유지하면서도 배열의 크기를 줄일 수 있다.
풀링(Pooling) 레이어는 사소한 변화를 무시해준다. 풀링 레이어는 컨볼루션 레이어의 출력 이미지에서 주요값만 뽑아 크기가 작은 출력 영상을 만든다. 이것은 지역적인 사소한 변화가 영향을 미치지 않도록 한다.
도 10은 추출 방법을 보인 예시도이다.
추출하는 단계는 문장별 확률값을 토대로 내림차순으로 정렬시킨 후 상위 N개의 문장을 출력하는 단계를 포함한다.
핵심문장 추출 장치는 문장별 확률값을 토대로 내림차순으로 정렬시킨 후 상위 N개의 문장을 출력한다. 핵심문장 추출 장치는 N개의 문장을 핵심 문장으로 출력한다. 핵심문장 추출 장치는 핵심 문장을 추출하기 위해 문장별 확률값을 토대로 내림차순으로 정렬시킨 후 상위 N개의 문장을 핵심 문장으로 출력한다.
본 발명 핵심문장 추출 장치이다.
핵심문장 추출 장치는 문서의 문장을 구분하는 구분부; 문장을 샘플링하는 샘플링부; 샘플링 데이터로 지도 학습 데이터를 생성하는 생성부; 문장에 대해 룩업 테이블을 생성하는 테이블 생성부; 룩업 테이블을 이용하여 문장별 핵심문장 확률을 추출하고, 지도 학습된 뉴럴 네트워크 모델을 입력하는 입력부; 및 뉴럴 네트워크 모델의 문장별 확률값으로 상위 문장을 추출하는 추출부를 포함한다.
구분부는 구두점인 마침표, 물음표, 느낌표를 이용하여 문서의 문장을 구분한다. 샘플링부는 해당 문장을 포함한 전, 후 다수의 문장을 한 문장으로 묶어 데이터를 샘플링한다. 생성부는 샘플링 데이터로 지도 학습 데이터를 생성한다. 테이블 생성부는 문장을 형태소 분석기를 이용하여 어근단위로 나눈 후 어근에 임의의 실수를 N차원만큼 생성한다. 입력부는 룩업 테이블을 이용하여 문장별 핵심문장 확률을 추출하고, 지도 학습된 뉴럴 네트워크 모델을 입력한다. 추출부는 뉴럴 네트워크 모델의 문장별 확률값으로 상위 문장을 추출한다.
마침표의 예외 사항이다.
마침표의 예외 사항에서 구분부는 마침표의 예외 사항을 처리한다. 구분부는 소수점을 예외 사항으로 처리하고, 성과 이름의 구분점을 예외 사항으로 처리한다.
구분부는 소수점을 예외 사항으로 처리하고, 성과 이름의 구분점을 예외 사항으로 처리한다. 구분부는 문장에서 마침표 예외 사항을 처리해야 한다. 소수점과 성과 이름에는 마침표가 포함되는데 구분부는 소수점, 성과 이름에 포함된 마침표를 예외 사항으로 처리한다.
구두점 구분 장치이다.
구두점 구분 방법에서 구분부는 구두점을 이용한 문장을 구분하는 문장 구분부; 마침표 뒤 문자를 판별하여 마침표의 예외사항으로서 소수점을 판별하는 제1보완부; 마침표 전, 두번째 칸에 알파벳이 기재되었는지 판별하여 마침표의 예외사항으로서 구분점을 판별하는 제2보완부를 포함한다.
구분부는 구두점을 이용하여 문장을 구분하고, 마침표 뒤 문자를 판별하여 마침표 예외사항으로서 소수점을 판별하고, 마침표 전, 두번째 칸에 알파벳이 기재되었는지 판별하여 마침표 예외사항으로서 구분점을 판별한다. 구두점 구분 알고리즘은 문장에 포함된 구두점에 대해 소수점과 구분점을 판별하여 마침표의 예외사항으로 처리한다.
샘플링 장치이다.
샘플링부는 해당 문장을 포함한 전, 후 다수의 문장을 한 문장으로 묶어 데이터를 샘플링하는 문장 샘플링부를 포함한다.
문장 샘플링부는 해당 문장을 포함한 전, 후 다수의 문장을 한 문장으로 묶어 데이터를 샘플링한다. 문장 샘플링부는 단일 문장을 사용하지 않고 해당 문장을 포함하는 전, 후 다수의 문장을 한 문장으로 묶어 샘플링한다. 문장 샘플링부는 다수의 문장에 핵심문장이 포함되어 있음을 추론할 수 있도록 다수의 문장을 샘플링한다.
학습 데이터 세트이다.
생성부는 샘플링 데이터를 입력데이터로 설정하고, 출력데이터를 핵심문장은 0, 비 핵심문장은 1로 두어 정답데이터로 설정하여 이진 분류하는 분류부를 포함한다.
분류부는 샘플링 데이터를 입력데이터로 설정하고, 출력데이터를 핵심문장은 0, 비 핵심문장은 1로 두고 정답데이터로 설정한다. 뉴럴 네트워크가 학습되기 위해 학습 데이터 세트가 준비되어야 한다. 분류부는 샘플링 데이터를 입력데이터로 설정하고 출력데이터를 이진 분류된 정답데이터로 설정하여 학습 데이터 세트를 준비한다.
룩업 테이블이다.
테이블 생성부는 문장을 형태소 분석기를 이용하여 어근단위로 나눈 후 어근에 -1~1사이의 임의의 실수를 N차원만큼 생성하고, 학습을 진행하여 룩업 테이블 값을 업데이트하는 업데이트부를 포함한다.
업데이트부는 문장을 형태소 분석기를 이용하여 어근단위로 나눈 후 어근에 -1~1사이의 임의의 실수를 N차원만큼 생성하고, 학습을 진행하여 룩업 테이블 값을 업데이트한다. 업데이트부는 룩업 테이블을 이용한다. 룩업 테이블은 어근에 -1~1 상의 임의의 실수가 N차원 생성된 테이블이다. 업데이트부는 문장을 어근단위로 나눈 후 어근에 임의의 실수를 N차원만큼 생성한 룩업 테이블로 학습을 진행하여 룩업 테이블 값을 업데이트한다.
추론 장치이다.
입력부는 룩업 테이블을 입력받아 딥러닝 알고리즘을 이용하여 핵심문장 가능성을 추론부를 포함한다.
추론부는 룩업 테이블을 입력받아 딥러닝 알고리즘을 이용하여 핵심문장 가능성을 추론한다. 딥러닝 알고리즘은 룩업 테이블로 핵심문장 가능성을 추론한다. 추론부는 룩업 테이블을 딥러닝 알고리즘에 적용해서 핵심문장 가능성을 추론한다.
딥러닝 알고리즘 학습 모델이다.
추론부는 룩업 테이블을 CNN 모델에 입력하여 멀티플 필터를 사용한 컨벌루션 레이어를 생성하고, 맥스 풀링드 알고리즘을 이용하여 멀티플 필터의 가장 높은 확률을 선택해 풀링 레이어를 구성하고, 풀리 커넥티드 레이어를 이용하여 풀링 레이어를 1*1행렬로 치환하여 가능성을 추론한다.
뉴럴 네트워크는 CNN 모델이고, 컨벌루션 레이어, 풀링 레이어, 풀리 커넥티드 레이어로 구성된다. 컨벌루션 레이어는 멀티플 필터를 사용하고, 룰링 레이어는 맥스 풀링드 알고리즘을 이용하여 멀티플 필터의 가장 높은 확률을 선택하고, 풀리 커넥티드 레이어는 풀링 레이어를 1*1행렬로 치환하여 가능성을 추론한다.
추출 장치이다.
추출부는 문장별 확률값을 토대로 내림차순으로 정렬시킨 후 상위 N개의 문장을 출력하는 출력부를 포함한다.
출력부는 문장별 확률값을 토대로 내림차순으로 정렬시킨 후 상위 N개의 문장을 출력한다. 출력부는 N개의 문장을 핵심 문장으로 출력한다. 출력부는 핵심 문장을 추출하기 위해 문장별 확률값을 토대로 내림차순으로 정렬시킨 후 상위 N개의 문장을 핵심 문장으로 출력한다.
[실시예 1]
핵심문장 추출 장치는 출력 결과인 핵심 문장에 대한 사용자 피드백을 반영하여 뉴럴 네트워크에 대한 룩업 테이블의 업데이트를 조정할 수 있다. 핵심 문장에 대한 사용자 피드백이 높은 경우 핵심문장 추출 장치는 룩업 테이블의 업데이트를 지시하고 사용자 피드백이 낮은 경우 룩업 테이블의 업데이트를 중단할 수 있다. 계속되는 사용자 피드백이 높은 경우에만 룩업 테이블의 업데이트가 계속되어 핵심 문장의 신뢰도가 상승할 수 있다.
[실시예 2]
핵심문장 추출 장치는 사용자 피드백을 다른 핵심문장 추출 장치로 전파해서 다수의 핵심문장 추출 장치의 신뢰도를 상승시킬 수 있다. 사용자 피드백 전파를 위해 핵심문장 추출 장치는 중앙 서버와 클라이언트간의 통신을 포함할 수 있다. 중앙 서버는 사용자 피드백에 관련된 데이터를 수집하고, 클라이언트인 다수의 핵심문장 추출 장치로 전파할 수 있다.
[실시예 3]
핵심문장 추출 장치는 문장을 순차 샘플링 또는 문단 형식을 고려한 우선 샘플링을 수행할 수 있다. 문단 형식을 고려한 우선 샘플링은 문단에서 핵심 문장이 놓여지는 두괄식, 미괄식, 또는 중괄식을 고려해서 우선 샘플링 문장을 샘플링하고, 순차 샘플링되는 문장에 포함시킬 수 있다. 핵심문장 추출 장치는 우선 샘플링 문장과 순차 샘플링 문장을 혼합해서 문장 샘플링을 처리할 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
91: 컨벌루션 레이어 92: 풀링 레이어
93: 풀리 커넥티드 레이어

Claims (8)

  1. 문서의 문장을 구분하는 단계;
    상기 문장을 샘플링하는 단계;
    샘플링 데이터로 뉴럴 네트워크 모델의 지도 학습 데이터를 생성하는 단계;
    상기 문장에 대해 룩업 테이블을 생성하는 단계;
    상기 룩업 테이블을 이용하여 문장별 핵심문장 확률을 추출하고, 지도 학습된 상기 뉴럴 네트워크 모델에 입력하는 단계;
    상기 뉴럴 네트워크 모델의 문장별 확률값으로 상위 문장을 추출하는 단계를 포함하며,
    상기 구분하는 단계는
    마침표, 물음표 및 느낌표를 포함하는 구두점을 이용하여 상기 문장을 구분하는 단계;
    마침표 뒤 문자를 판별하여 마침표가 아닌 소수점인지 판별하는 단계; 및
    마침표 전, 두번째 칸에 알파벳이 기재되었는지 판별하여 마침표가 아닌 구분점인지 판별하는 단계를 포함하고,
    상기 문장을 샘플링하는 단계는
    해당 문장을 포함한 전, 후 다수의 문장을 한 문장으로 묶어 데이터를 샘플링하며,
    샘플링 데이터로 뉴럴 네트워크 모델의 상기 지도 학습 데이터를 생성하는 단계는
    상기 샘플링 데이터를 입력데이터로 설정하고, 출력데이터를 핵심문장은 0, 비 핵심문장은 1로 두어 정답데이터로 설정하여 정답데이터를 이진 분류하는 단계를 포함하며,
    상기 룩업 테이블을 생성하는 단계는 상기 문장을 형태소 분석기를 이용하여 어근단위로 나눈 후 어근에 -1~1사이의 임의의 실수를 N차원만큼 생성하고, 학습을 진행하여 상기 룩업 테이블의 값을 업데이트하는 단계를 포함하고,
    상기 입력하는 단계는 상기 룩업 테이블을 입력받아 딥러닝 알고리즘을 이용하여 핵심문장 가능성을 추론하는 단계를 포함하며,
    상기 추론하는 단계는 상기 룩업 테이블을 CNN 모델에 입력하여 멀티플 필터를 사용한 컨벌루션 레이어를 생성하고, 맥스 풀링드 알고리즘을 이용하여 상기 멀티플 필터의 가장 높은 확률을 선택해 풀링 레이어를 구성하고, 풀리 커넥티드 레이어를 이용하여 상기 풀링 레이어를 1*1행렬로 치환하여 상기 핵심문장 가능성을 추론하는 단계를 포함하고,
    상기 추출하는 단계는 상기 문장별 확률값을 토대로 내림차순으로 정렬시킨 후 상위 N개의 문장을 출력하는 단계를 포함하며,
    상기 추출하는 단계 후에 출력 결과인 핵심 문장에 대한 사용자 피드백이 전달되는 단계와,
    상기 전달된 사용자 피드백을 통해 뉴럴 네트워크에 대한 룩업 테이블의 업데이트가 조정되는 단계가 포함되되,
    상기 룩업 테이블의 업데이트가 조정되는 단계는 핵심 문장에 대한 사용자 피드백이 설정치보다 높은 경우 룩업 테이블의 업데이트가 수행되고, 사용자 피드백이 설정치보다 낮은 경우 룩업 테이블의 업데이트가 중단되며,
    상기 문장을 샘플링하는 단계는
    해당 문장을 포함한 전, 후 다수의 문장을 한 문장으로 묶어 데이터를 샘플링할 시에 문서의 문장을 순차 샘플링하거나 문단 형식을 고려한 우선 샘플링이 수행되되, 문단 형식을 고려한 우선 샘플링은 문단에서 핵심 문장이 놓여지는 위치인 두괄식, 미괄식, 또는 중괄식을 고려해서 우선 샘플링 문장을 샘플링한 뒤 순차 샘플링되는 문장에 이를 포함시키며, 우선 샘플링 문장과 순차 샘플링 문장을 혼합해서 문장 샘플링을 처리하는 것을 특징으로 하는 딥러닝 알고리즘 기반의 핵심문장 추출 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
KR1020180031774A 2018-02-23 2018-03-20 딥러닝 알고리즘 기반의 핵심문장 추출 방법 KR102118603B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180031774A KR102118603B1 (ko) 2018-03-20 2018-03-20 딥러닝 알고리즘 기반의 핵심문장 추출 방법
PCT/KR2018/010398 WO2019164078A1 (ko) 2018-02-23 2018-09-06 주제문 추출 가능한 실시간 다자 통역 무선 송수신 시스템 및 이를 이용한 송수신 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180031774A KR102118603B1 (ko) 2018-03-20 2018-03-20 딥러닝 알고리즘 기반의 핵심문장 추출 방법

Publications (2)

Publication Number Publication Date
KR20190110174A KR20190110174A (ko) 2019-09-30
KR102118603B1 true KR102118603B1 (ko) 2020-06-05

Family

ID=68098673

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180031774A KR102118603B1 (ko) 2018-02-23 2018-03-20 딥러닝 알고리즘 기반의 핵심문장 추출 방법

Country Status (1)

Country Link
KR (1) KR102118603B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230053373A (ko) 2021-10-14 2023-04-21 비큐리오 주식회사 심층 신경망 기반의 문서 분석 시스템과 방법 및 이를 구현하기 위한 프로그램이 저장된 기록 매체 및 매체에 저장된 컴퓨터프로그램

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241832B (zh) * 2020-01-15 2023-08-15 北京百度网讯科技有限公司 核心实体标注方法、装置及电子设备
KR102520305B1 (ko) * 2020-06-11 2023-04-10 배재대학교 산학협력단 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101646461B1 (ko) 2015-04-22 2016-08-12 강원대학교산학협력단 딥 러닝을 이용한 한국어 의존 구문 분석 방법
CN107133211A (zh) * 2017-04-26 2017-09-05 中国人民大学 一种基于注意力机制的作文评分方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101259558B1 (ko) * 2009-10-08 2013-05-07 한국전자통신연구원 문장경계 인식 장치 및 방법
KR101627428B1 (ko) 2014-11-17 2016-06-03 포항공과대학교 산학협력단 딥 러닝을 이용하는 구문 분석 모델 구축 방법 및 이를 수행하는 장치
KR101886373B1 (ko) 2016-07-14 2018-08-09 주식회사 언더핀 딥러닝 인공신경망 기반의 타스크 제공 플랫폼

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101646461B1 (ko) 2015-04-22 2016-08-12 강원대학교산학협력단 딥 러닝을 이용한 한국어 의존 구문 분석 방법
CN107133211A (zh) * 2017-04-26 2017-09-05 中国人民大学 一种基于注意力机制的作文评分方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Tom Young 외, ‘Recent Trends in Deep Learning Based Natural Language Processing', 2017.08*
이경호, ‘자연 언어 처리와 문장 부호’, 2001*

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230053373A (ko) 2021-10-14 2023-04-21 비큐리오 주식회사 심층 신경망 기반의 문서 분석 시스템과 방법 및 이를 구현하기 위한 프로그램이 저장된 기록 매체 및 매체에 저장된 컴퓨터프로그램

Also Published As

Publication number Publication date
KR20190110174A (ko) 2019-09-30

Similar Documents

Publication Publication Date Title
CN109791569B (zh) 因果关系识别装置及存储介质
CN110851596A (zh) 文本分类方法、装置及计算机可读存储介质
KR102118603B1 (ko) 딥러닝 알고리즘 기반의 핵심문장 추출 방법
CN105094368B (zh) 一种对输入法候选项进行调频排序的控制方法及控制装置
CN110895559B (zh) 模型训练、文本处理方法、装置以及设备
CN105593845B (zh) 基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法
CN112035511A (zh) 基于医学知识图谱的目标数据搜索方法及相关设备
CN111324692B (zh) 基于人工智能的主观题自动评分方法和装置
CN111125295A (zh) 一种基于lstm的获取食品安全问题答案的方法及系统
CN116561538A (zh) 问答评分方法、问答评分装置、电子设备及存储介质
CN109948154A (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
CN115130538A (zh) 文本分类模型的训练方法、文本处理的方法、设备及介质
CN113010679A (zh) 问答对生成方法、装置、设备及计算机可读存储介质
CN112149410A (zh) 语义识别方法、装置、计算机设备和存储介质
CN115470328A (zh) 基于知识图谱的开放领域问答方法及相关设备
CN114610838A (zh) 文本情感分析方法、装置、设备及存储介质
CN114138969A (zh) 文本处理方法及装置
CN113536777A (zh) 新闻关键词的抽取方法、装置、设备及存储介质
CN112989058A (zh) 信息分类方法、试题分类方法、设备、服务器和存储介质
CN117171650A (zh) 基于网络爬虫技术的文献数据处理方法、系统及介质
CN110413985B (zh) 一种相关文本片段搜索方法及装置
CN111460114A (zh) 检索方法、装置、设备及计算机可读存储介质
Romanov et al. Research of neural networks application efficiency in automatic scientific articles classification according to UDC
CN116244442A (zh) 文本分类方法、装置、存储介质及电子设备
Yahya et al. Arabic text categorization based on Arabic Wikipedia

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right