KR102348689B1

KR102348689B1 - 감정점수를 활용한 시퀀스-투-시퀀스 기반의 텍스트 요약

Info

Publication number: KR102348689B1
Application number: KR1020190179964A
Authority: KR
Inventors: 정윤경; 김유진
Original assignee: 성균관대학교산학협력단
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2022-01-07
Anticipated expiration: 2039-12-31
Also published as: KR20210086192A

Abstract

감정점수를 활용한 시퀀스-투-시퀀스 기반의 텍스트 요약이 개시된다. 본 명세서의 일 실시예에 따른 언어처리방법은, 복수의 문서로부터 복수의 문장를 추출하고, 상기 복수의 문장의 감정점수를 생성하고, 상기 감정점수에 기반하여 상기 복수의 문장 중 적어도 일부를 추출하고, 상기 추출된 문장을 입력으로 미리 학습된 언어모델(language model)에 적용하여, 적어도 하나의 후보 텍스트(text prediction candidates)를 생성하여 적은 컴퓨팅 자원으로도 고성능의 언어모델을 구현할 수 있다.

Description

감정점수를 활용한 시퀀스-투-시퀀스 기반의 텍스트 요약{TEXT SUMMARIZATION USING SENTIMENT SCORE WITH SEQUENCE-TO-SEQUENCE}

본 명세서는 감정점수를 활용한 시퀀스-투-시퀀스 기반의 텍스트 요약에 관한 것이다.

인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.

기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.

한편, 방대한 양의 데이터를 학습시키기 위하여 데이터의 길이를 잘라서 학습시키는 경우가 기계번역에서는 많다. 하지만, 데이터를 자르는 기준이 명확하지 않으므로 텍스트 데이터에서 중요한 부분을 누락하는 경우가 있다.

본 명세서는 전술한 필요성 및/또는 문제점을 해결하는 것을 목적으로 한다.

또한, 본 명세서는, 학습 데이터의 길이를 처리하는 과정에서 중요한 문장 또는 단어를 누락하지 않을 수 있는 감정점수를 활용한 시퀀스-투-시퀀스 기반의 텍스트 요약을 구현하는 것을 목적으로 한다.

또한, 본 명세서는, 감정인자를 이용하여 학습 데이터의 질이 향상하고, 좋은 학습 성능을 도출할 수 있는 감정점수를 활용한 시퀀스-투-시퀀스 기반의 텍스트 요약을 구현하는 것을 목적으로 한다.

본 명세서의 일 실시예에 따른 언어처리방법은 복수의 문서로부터 복수의 문장을 추출하는 단계;상기 복수의 문장의 감정점수를 생성하는 단계;상기 감정점수에 기반하여 상기 복수의 문장 중 적어도 일부를 추출하는 단계; 및 상기 추출된 문장을 입력으로 미리 학습된 언어모델(language model)에 적용하여, 적어도 하나의 후보 텍스트(text prediction candidates)를 생성하는 단계를 포함한다.

또한, 상기 복수의 문서는 복수의 도메인으로 설정된 문서를 포함할 수 있다.

또한, 상기 감정점수는 긍정점수, 부정점수, 중립점수, 또는 혼합점수를 포함할 수 있다.

또한, 상기 긍정점수는 +1, 상기 부정점수는 -1, 상기 중립점수는 0의 가중치를 가질 수 있고, 상기 혼합점수는 -1 내지 +1 사이의 값을 나타낼 수 있다.

또한, 상기 감정점수를 생성하는 단계는,상기 복수의 문장의 센텐스 벡터를 추출하는 단계; 및 상기 센텐스 벡터를 미리 학습된 감정모델(emotion model)에 입력으로 적용하여, 상기 감정점수를 생성하는 단계;를 포함할 수 있다.

또한, 상기 복수의 문장 중 적어도 일부를 추출하는 단계는, 상기 복수의 문장 각각에 대응되는 감정점수를 비교하여, 인접한 문장 간의 감정점수의 차이가 최대인 구간을 확인하는 단계; 및 상기 확인된 구간에 포함된 적어도 둘의 문장을 추출하는 단계;를 포함할 수 있다.

또한, 상기 복수의 문장 중 적어도 일부를 추출하는 단계는, 상기 복수의 문장 각각에 대응되는 감정점수를 비교하여, 인접한 문장 간의 감정점수의 차이가 미리 설정된 임계값 이상인 적어도 둘의 문장을 추출하는 단계;를 포함할 수 있다.

또한, 상기 복수의 문장을 추출하는 단계는, 상기 복수의 문서 중 상기 문서를 구성하는 문장의 수가 미리 설정된 임계치 미만인 제1 문서를 제외하고, 상기 문장의 수가 미리 설정된 임계치 이상인 제2 문서로부터 상기 복수의 문장을 추출할 수 있다.

또한, 상기 미리 설정된 임계치는, 상기 언어모델의 입력으로 적용되는 문장의 수에 상응할 수 있다.

또한, 상기 복수의 문서의 도메인을 분류하는 단계; 상기 분류된 도메인에 기반하여 적어도 하나의 추가문장을 추출하는 단계;를 더 포함할 수 있다.

또한, 상기 복수의 문서의 도메인을 분류하는 단계는, 상기 복수의 문서를 구성하는 상기 복수의 텍스트로부터 센텐스 벡터를 추출하는 단계; 상기 센텐스 벡터를 미리 학습된 분류모델에 적용하여, 상기 복수의 텍스트에 대응하는 하나 이상의 후보 도메인(domaion prediction candidates)를 생성하는 단계;를 포함할 수 있다.

또한, 상기 추가문장을 추출하는 단계는, 상기 후보 도메인이 두괄식 문단으로 판단되면, 상기 두괄식 문단의 첫 번째 문장으로부터 순서대로 N 번째(N은 자연수)문장까지의 텍스트를 포함하는 추가 텍스트(additional text)을 추출할 수 있다.

또한, 상기 추가문장을 추출하는 단계는, 상기 후보 도메인이 미괄식 문단으로 판단되면, 상기 미괄식 문단의 마지막 문장으로부터 역순으로 M 번째(M은 자연수)문장까지의 텍스트를 포함하는 추가문장을 추출할 수 있다.

본 명세서의 일 실시예에 따른 감정점수를 활용한 시퀀스-투-시퀀스 기반의 텍스트 요약의 효과에 대해 설명하면 다음과 같다.

본 명세서는 학습 데이터의 길이를 처리하는 과정에서 중요한 문장 또는 단어를 누락하지 않을 수 있다.

또한, 본 명세서는 감정인자를 이용하여 학습 데이터의 질이 향상하고, 좋은 학습 성능을 도출할 수 있다.

본 명세서에서 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 명세서가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 명세서에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 명세서에 대한 실시예를 제공하고, 상세한 설명과 함께 본 명세서의 기술적 특징을 설명한다.
도 1은 본 명세서의 일 실시예에 따른 텍스트 요약장치의 블록도이다.
도 2는 본 명세서의 일 실시예에 따른 언어처리방법의 순서도이다.
도 3 및 도 4는 본 명세서의 일 실시예에 따른 언어처리방법의 구현예를 설명하기 위한 도면이다.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 명세서의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

< 텍스트 요약 >

텍스트 요약(text summarization)은 주어진 문서에서 가장 중요한 정보들을 추출하여 문서의 핵심내용을 기술하는 방법이다. 텍스트 데이터가 증가함으로 인해 자연어처리 영역에서 텍스트의 전처리 및 요약은 중요시된다. 텍스트 요약에서 활용되는 기술은 크게 2 가지가 존재한다. 보다 구체적으로, 텍스트 요약에서 활용되는 기술은 문서에서 중요한 단어들을 추출한 뒤에 이를 나열하는 방법은 추출방법(extractive summarization)과 주어진 텍스트 문장에서 새로운 요약 문장을 만들어내는 생성요약방법(abstractive summarization)이 있으나, 이에 한정되는 것은 아니다. 또한, 하드웨어의 발전과 대량의 텍스트 데이터로 인하여, 생성요약방법에 딥러닝 모델(deep learning model)을 활용하는 방법도 있다. 특히, 딥러닝 모델 중 시퀀스-투-시퀀스(sequence-to-sequence) 모델이 텍스트 요약에서 용이하게 사용될 수 있다.

텍스트 요약을 위한 시퀀스-투-시퀀스 모델은 인코더(encoder)와 디코더(decoder)를 LSTM(long short-term memory)로 활용한 모델, 합성곱신경망(convolutional neural network)을 활용한 모델이 있으나 이에 한정되는 것은 아니다. LSTM 모델은 문장의 길이가 긴 경우에 문장 간의 종속성을 상실하지 않기 위하여 개발된 모델이다. 하지만, 종속성 문제가 완전히 해결되지 않았고, 단점들을 보완하기 위해서 일 예는 주의 매커니즘(attention mechanism)을 이용하나, 학습문장의 길이가 늘어나거나 다중요약(multiple sentence summaries)의 경우 한 번에 학습시키는 데에 어려움이 존재한다. 이에 적은 컴퓨팅 리소스를 통해 효과적인 러닝모델을 생성하기 위하여 텍스트를 요약하는 전처리 방법이 제안될 필요가 있다. 일반적으로 텍스트 데이터에는 감정 표현(sentiment expression)이 포함되어 있고, 핵심적인 문장 또는 단어에서 상기 감정 표현을 나타내는 감정 점수(sentiment score)는 큰 폭으로 변화할 수 있다. 따라서, 상기 감정 점수의 변화에 기반하여 텍스트 데이터에 포함된 적어도 일부의 문장을 추출하고, 추출된 적어도 일부의 문장을 학습 데이터로 삼아 러닝모델을 생성하면 전술한 적은 컴퓨팅 리소스를 통해 러닝모델을 생성할 수 있다.

< 텍스트 요약장치 >

도 1은 본 명세서의 일 실시예에 따른 텍스트 요약장치의 블록도이다.

도 1을 참조하면, 텍스트 요약장치(100)는 적어도 하나의 프로세서(110), 메모리(120), 통신 모듈(130)을 포함할 수 있다.

프로세서(110)는 하나 이상의 어플리케이션 프로세서(application processor, AP), 하나 이상의 커뮤니케이션 프로세서(communication processor, CP) 또는 적어도 하나 이상의 AI 프로세서(artificial intelligence processor)를 포함할 수 있다. 어플리케이션 프로세서, 커뮤니케이션 프로세서 또는 AI 프로세서(110)는 서로 다른 IC(integrated circuit) 패키지들 내에 각각 포함되거나 하나의 IC 패키지 내에 포함될 수 있다.

어플리케이션 프로세서는 운영체제 또는 응용 프로그램을 구동하여 어플리케이션 프로세서에 연결된 다수의 하드웨어 또는 소프트웨어 구성요소들을 제어하고, 멀티미디어 데이터를 포함한 각종 데이터 처리/연산을 수행할 수 있다. 일 례로, 상기 어플리케이션 프로세서는 SoC(system on chip)로 구현될 수 있다. 프로세서(110)는 GPU(graphic prcessing unit, 미도시)를 더 포함할 수 있다.

커뮤니케이션 프로세서는 텍스트 요약장치(100)와 네트워크로 연결된 다른 전자 기기들 간의 통신에서 데이터 링크를 관리하고 통신 프로토콜을 변환하는 기능을 수행할 수 있다. 일 례로, 커뮤니케이션 프로세서는 SoC로 구현될 수 있다. 커뮤니케이션 프로세서는 멀티미디어 제어 기능의 적어도 일부를 수행할 수 있다.

또한, 커뮤니케이션 프로세서는 통신 모듈(130)의 데이터 송수신을 제어할 수 있다. 커뮤니케이션 프로세서는 어플리케이션 프로세서의 적어도 일부로 포함되도록 구현될 수도 있다.

어플리케이션 프로세서 또는 커뮤니케이션 프로세서는 각각에 연결된 비휘발성 메모리(120) 또는 다른 구성요소 중 적어도 하나로부터 수신한 명령 또는 데이터를 휘발성 메모리(120)에 로드(load)하여 처리할 수 있다. 또한, 어플리케이션 프로세서 또는 커뮤니케이션 프로세서는 다른 구성요소 중 적어도 하나로부터 수신하거나 다른 구성요소 중 적어도 하나에 의해 생성된 데이터를 비휘발성 메모리(120)에 저장할 수 있다.

한편, 프로세서(110)(특히, AI 프로세서)는 메모리(120)에 저장된 프로그램을 이용하여 신경망을 학습할 수 있다. 프로세서(110)는 텍스트 요약장치(100)의 동작과 관련된 데이터를 인식하기 위한 신경망을 학습할 수 있다. 여기서, 신경망은 인간의 뇌 구조(예를 들어, 인간의 신경망의 뉴런 구조)를 컴퓨터 상에서 모의하도록 설계될 수 있다. 신경망은 입력층(input layer), 출력층(output layer) 및 적어도 하나의 은닉층(hidden layer)를 포함할 수 있다. 각 층은 가중치를 갖는 적어도 하나의 뉴런을 포함하고, 신경망은 뉴런과 뉴런을 연결하는 시냅스(synapse)를 포함할 수 있다. 신경망에서 각 뉴런은 시냅스를 통해 입력되는 입력 신호를 가중치(weight) 및/또는 편향(bias)에 대한 활성함수(activation function)의 함수값으로 출력할 수 있다.

복수의 네트워크 모드들은 뉴런이 시냅스를 통해 신호를 주고받는 뉴런의 시냅틱 활동을 모의하도록 각각 연결 관계에 따라 데이터를 주고받을 수 있다. 딥러닝 모델에서 복수의 네트워크 노드들은 서로 다른 레이어에 위치하면서 콘볼루션(convolution) 연결 관계에 따라 데이터를 주고받을 수 있다. 신경망 모델의 예는 심층 신경망(deep neural network, DNN), 합성곱 신경망(convolutional neural network, CNN), 순환 신경망(recurrent neural network), 제한 볼츠만 머신(restricted Boltzmann machine), 심층 신뢰 신경망(deep belief network), 심층 Q-네트워크(deep Q-Network)와 같은 다양한 딥러닝 기법들을 포함하며, 비전인식, 음성인식, 자연어처리, 음성/신호처리 등의 분야에서 적용될 수 있다.

한편, 전술한 바와 같은 기능을 수행하는 프로세서(110)는 범용 프로세서(예를 들어, CPU)일 수 있으나, 인공지능 학습을 위한 AI 전용 프로세서(예를 들어, GPU)일 수 있다.

구체적으로, 본 명세서의 일 실시예에 따른 텍스트 요약장치(100)는 프로세서(110)를 통해 메모리(120)에 저장된 코퍼스로부터 복수의 학습문장을 추출할 수 있다. 학습문장은 러닝모델의 학습데이터로 이용되는 문장 형태의 텍스트 데이터를 지칭한다.

프로세서(110)는 추출된 복수의 학습문장에 대하여 감정점수를 생성할 수 있다. 일 례로, 프로세서(110)는 NLTK(Natural Language ToolKit)에서 제공되는 VADER Sentiment Analysis로 학습문장의 감정을 분석할 수 있다. VADER Sentiment Analysis는 규칙 기반의 모델(Rule-Based Model)로서, 텍스트로부터 긍정, 부정, 중립, 또는 혼합점수를 생성하거나 산출할 수 있다.

일 예로, 혼합점수는 -1점(부정점수의 최대값)과 +1(긍정점수의 최대값) 사이의 정규화된 모든 어휘에 대한 감정점수의 합계를 나타낸다. 프로세서(110)는 각 문장에서 추출된 혼합점수를 이용하여 복수의 문장에 대응하는 감정점수를 나타내는 그래프를 생성할 수 있다. 프로세서(110)는 상기 그래프를 분석하여 감정의 고조를 판단할 수 있다. 감정의 고조는 인접한 문장 사이의 감정점수의 차이(즉, 절대값)로 정의된다.

프로세서(110)는 복수의 학습문장에 대응하는 감정점수에 기반하여 상기 복수의 학습문장 중 적어도 일부를 추출할 수 있다. 프로세서(110)는 복수의 문장에 대하여 각각 감정점수를 산출하고, 복수의 문장에 대한 감정점수를 서로 비교분석할 수 있다. 복수의 문장에 대응하는 감정점수를 비교하여, 감정점수의 차이가 최대이거나 미리 설정된 임계값 이상인 적어도 둘의 문장을 추출할 수 있다. 이처럼 추출된 적어도 둘의 문장은 이후에 요약문을 구성하는 적어도 문장으로 활용될 수 있다. 일 예로, 프로세서(110)는 복수의 문장에 대하여 산출된 감정점수를 분석한 결과 감정점수의 차이가 최대인 두 개의 문장을 추출할 수 있고, 추출된 두 개의 문장을 이용하여 요약문을 생성할 수 있다. 다른 예로, 프로세서(110)는 복수의 문장에 대하여 산출된 감정점수를 분석하고, 감정점수의 차이가 미리 설정된 임계치 이상인 적어도 둘의 문장을 추출할 수 있다. 프로세서(110)는 추출된 적어도 둘의 문장을 이용하여 요약문을 생성할 수 있다.

본 명세서의 일 실시예에 따른 텍스트 요약장치(100)는 프로세서(110)를 통해 코퍼스에 포함된 텍스트의 종류(또는 도메인)에 기반하여 적어도 일부의 제1 텍스트를 추출하고, 상기 적어도 일부의 제1 텍스트를 제외한 제2 텍스트를 이용하여 전술한 감정점수를 활용한 전처리 과정을 수행할 수 있다. 텍스트의 종류는 한글뉴스, 영어뉴스, 중문뉴스, 한글대본, 영문대본 등을 포함할 수 있으나 이에 한정되는 것은 아니다. 일 예로, 영어뉴스의 경우에는 문단의 핵심이 앞에서 나타나는 두괄식으로 구성된다. 두괄식 문단의 경우에 텍스트 요약장치(100)는 상기 두괄식 문단의 첫 번째 문장부터 미리 설정된 수의 문장을 제1 텍스트로 추출하고, 상기 미리 설정된 수(예를 들어, 2개)의 제2 텍스트를 제외한 제2 텍스트로부터 감정점수를 활용한 텍스트 추출을 수행할 수 있다. 프로세서(110)는 제1 텍스트 및 제2 텍스트를 결합(concatenation)하거나 조합(combination)하여 요약문을 생성할 수 있다.

이처럼 감정분석 기반의 전처리 과정이 수행된 텍스트를 학습 데이터로 활용하면, 한정된 컴퓨팅 자원에서도 텍스트 요약의 성능이 향상될 수 있다. 감정분석 기반의 전처리 과정이 수행된 텍스트 데이터는 시퀀스-투-시퀀스 모델의 학습 데이터로 이용될 수 있다. 프로세서(110)는 학습 과정에서 학습 데이터에 대하여 워드 임베딩(word embedding) 과정을 수행할 수 있다. 워드 임베딩은 Glove에서 제공하는 사전 훈련된 워드 벡터(word vector)이 사용될 수 있으나 이에 한정되는 것은 아니다.

한편, 본 명세서의 일 실시예에 따른 텍스트 요약장치(100)는 문장의 개수가 미리 설정된 개수 미만인 문서는 학습 과정에서 제외할 수 있다. 이때, 미리 설정된 개수는 생성될 요약문을 구성하는 문장의 개수에 대응될 수 있다. 일 례로, 두괄식 문단의 경우에 전처리 과정에서 미리 추출되는 제1 텍스트는 2 개의 문장을 포함하고, 감정분석 기반의 전처리로 추출될 제2 텍스트는 2개의 문장을 포함한다. 즉, 제1 텍스트와 제2 텍스트의 개수의 합인 4 개 미만의 문단은 문장을 요약하는 본 명세서의 일 실시예에 따른 언어처리방법의 대상이 아니다. 따라서, 프로세서(110)는 문장의 개수를 판별하여, 상기 문장의 개수가 미리 설정된 개수 미만인 문서는 학습 과정에서 제외함으로써 학습의 효율을 향상시킬 수 있다.

프로세서(110)는 추출된 학습문장을 학습 데이터로 설정하여 요약문을 구성하는 문장을 추출하기 위한 언어모델(language model, LM)의 파라미터를 갱신할 수 있다. 언어모델은 재귀신경망(recurrent neural network, RNN), 또는 LSTM에 기반한 언어모델로 구현될 수 있으나, 이에 한정되는 것은 아니다. 한편, 언어모델에 관한 설명은 본 명세서의 기술분야에 관한 통상의 기술자에게 자명한 것이므로 구체적인 설명은 생략하도록 한다.

프로세서(110)는 감정분석 기반의 전처리 과정이 수행된 학습 데이터로 학습된 언어모델을 이용하여 요약문을 생성할 수 있다. 구체적으로, 프로세서(110)는 전처리된 데이터를 언어모델에 입력으로 적용할 수 있다. 프로세서(110)는 상기 언어모델에 대한 입력에 응답하여 요약문을 생성하기 위한 출력(output)을 생성할 수 있다. 프로세서(110)는 상기 출력에 기반하여 요약문을 생성할 수 있다.

이처럼, 감정점수를 활용하여 전처리된 데이터를 이용한 언어처리방법은 중요 문장을 선별하여 학습 및/또는 추론 과정을 수행하므로, 텍스트 요약의 성능이 향상된다. 또한, 중요 문장을 선별하여 언어처리가 수행되기 때문에 적은 컴퓨팅 자원에서도 높은 성능을 구현할 수 있다.

메모리(120)는 내장 메모리 또는 외장 메모리를 포함할 수 있다. 내장 메모리는 휘발성 메모리(예를 들면, DRAM(dynamic RAM), SRAM(static RAM), SDRAM(synchronous dynamic RAM) 등) 또는 비휘발성 메모리 비휘발성 메모리(예를 들면, OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, NAND flash memory, NOR flash memory 등) 중 적어도 하나를 포함할 수 있다. 일 실시예에 따르면, 상기 내장 메모리는 SSD(solid state drive)의 형태를 취할 수도 있다. 상기 외장 메모리는 플래시 드라이브(flash drive), 예를 들면, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital) 또는 메모리 스틱(memory stick) 등을 더 포함할 수 있다.

본 명세서의 일 실시예에 따른 텍스트 요약장치(100)의 메모리(120)는 복수의 문장으로 구성된 학습용 코퍼스를 저장하고 있을 수 있다. 상기 학습용 코퍼스는 다양한 언어 및/또는 억양으로 구성된 텍스트 데이터를 포함할 수 있다. 학습용 코퍼스는 텍스트 요약장치(100)의 센서(미도시) 또는 카메라(미도시)를 통해 수집되거나 통신 모듈(130)을 이용하여 통신 가능한 외부 단말로부터 수신된 텍스트 데이터일 수 있다. 또한, 메모리(120)는 본 명세서의 일 시릿예에 따른 데이터의 분류/인식을 위한 학습 알고리즘을 통해 생성된 러닝모델(learning model)을 저장할 수 있다. 나아가, 메모리(120)는 러닝모델의 입력 데이터, 학습 데이터, 또는 학습 히스토리 등을 저장할 수도 있다.

통신 모듈(130)은 무선 통신 모듈 또는 RF 모듈를 포함할 수 있다. 무선 통신 모듈은, 예를 들면, Wi-Fi, BT, GPS 또는 NFC를 포함할 수 있다. 예를 들면, 무선 통신 모듈은 무선 주파수를 이용하여 무선 통신 기능을 제공할 수 있다. 추가적으로 또는 대체적으로, 무선 통신 모듈은 텍스트 요약장치(100)를 네트워크(예: Internet, LAN, WAN, telecommunication network, cellular network, satellite network, POTS 또는 5G network 등)와 연결시키기 위한 네트워크 인터페이스 또는 모뎀 등을 포함할 수 있다.

RF 모듈은 데이터의 송수신, 예를 들면, RF 신호 또는 호출된 전자 신호의 송수신을 담당할 수 있다. 일 례로, RF 모듈는 트랜시버(transceiver), PAM(power amp module), 주파수 필터(frequency filter) 또는 LNA(low noise amplifier) 등을 포함할 수 있다. 또한, RF 모듈은 무선통신에서 자유공간상의 전자파를 송수신하기 위한 부품, 예를 들면, 도체 또는 도선 등을 더 포함할 수 있다.

본 명세서의 다양한 실시예에 따른 텍스트 요약장치(100)는 서버, TV, 냉장고, 오븐, 의류 스타일러, 로봇 청소기, 드론, 에어컨, 공기 청정기, PC, 스피커, 홈 CCTV, 조명, 세탁기 및 스마트 플러그 중 적어도 하나로 구현될 수 있다. 도 1에서 설명한 텍스트 요약장치(100)의 구성요소는 일반적으로 전자 기기에 구비되는 구성요소를 예시한 것이므로, 본 명세서의 실시예에 따른 텍스트 요약장치(100)는 전술한 구성요소에 한정되지 않으며 필요에 따라 생략 및/또는 추가될 수 있다.

< 언어처리방법 >

도 2는 본 명세서의 일 실시예에 따른 언어처리방법의 순서도이다.

도 2를 참조하면, 텍스트 요약장치(100)의 프로세서(110)는 복수의 문서로부터 복수의 문장을 추출할 수 있다(S110). 프로세서(110)는 훈련에 사용할 데이터를 학습에 적합한 형태로 변환하기 위하여 문서에 포함된 복수의 텍스트를 문장 단위로 분할할 수 있다. 예를 들어, "시간은 묘한 것이다. 우리 대부분은 바로 눈 앞에 닥친 시간을 살아갈 뿐이다. 한 사람의 인생에서 가장 고통스러운 순간 중 하나는 아마도 바라볼 시간보다 돌아볼 시간이 더 많다는 나이에 도달했다는 깨달음과 함께 찾아온다"는 문단은 "시간은 묘한 것이다", "우리 대부분은 바로 눈 앞에 닥친 시간을 살아갈 뿐이다", 및 "한 사람의 인생에서 가장 고통스러운 순간 중 하나는 아마도 바라볼 시간보다 돌아볼 시간이 더 많다는 나이에 도달했다는 깨달음과 함께 찾아온다"로 분할되어 메모리(120)에 저장될 수 있다. 이처럼 분할된 문장 단위의 텍스트 데이터는 이후의 감정점수를 이용한 전처리 과정에 이용될 수 있다.

복수의 문서는 복수의 도메인(예를 들어, 뉴스, 신문, 도서, 대본 등)으로 설정된 문서를 포함할 수 있다. 한편, 본 명세서의 일 실시예에서 프로세서(110)는 복수의 문서 중 상기 문서를 구성하는 문장의 수가 미리 설정된 임계치 미만인 제1 문서를 제외하고, 상기 문장의 수가 미리 설정된 임계치 이상인 제2 문서로부터 상기 복수의 문장을 추출할 수 있다. 이때, 미리 설정된 임계치는 언어모델의 입력으로 적용되는 문장의 수에 상응하는 수로 설정될 수 있다.

프로세서(110)는 복수의 문장의 감정점수를 생성할 수 있다(S120). 감정점수는 긍정점수, 부정점수, 중립점수, 또는 혼합점수를 포함할 수 있다. 여기서 긍정점수는 +1, 부정점수는 -1, 중립점수는 0의 가중치를 가질 수 있다. 혼합점수는 긍정점수, 부정점수, 및 중립점수를 이용하여 산출한 값이다. 일 례로, 혼합점수는 -1 내지 +1 사이의 정규화된 모든 점수의 합계를 나타낼 수 있다.

본 명세서의 일 실시예에 따른 언어처리방법에서 프로세서(110)는 미리 학습된 감정모델을 이용하여 감정점수를 생성할 수 있다. 구체적으로, 프로세서(110)는 복수의 문장으로부터 센텐스 벡터를 추출하고, 추출된 센텐스 벡터를 미리 학습된 감정모델에 적용하여 감정점수를 생성할 수 있다. 여기서, 센텐스 벡터는 추출 모델(extraction model)을 이용하여 추출되거나 상기 감정모델을 구성하는 적어도 하나의 알고리즘 상에서 추출될 수 있다. 이때, 상기 감정모델은 규칙 기반 모델로서, VADER Sentiment Analsys를 이용할 수 있으나 이에 한정되는 것은 아니다.

프로세서(110)는 감정점수에 기반하여 복수의 문장 중 적어도 일부를 추출할 수 있다(S130). 프로세서(110)는 복수의 문장 각각에서 산출한 혼합점수를 이용하여 그래프를 생성할 수 있으며, 생성된 그래프를 분석하여 감정점수 차이가 최대인 구간을 확인할 수 있다. 일 예로, 프로세서(110)는 복수의 문장 각각에 대응되는 감정점수를 비교하여, 인접한 문장 간의 감정점수의 차이가 최대인 구간을 확인하고, 확인된 구간에 포함된 적어도 둘의 문장을 추출할 수 있다. 다른 례로, 프로세서(110)는 복수의 문장 각각에 대응되는 감정점수를 비교하여, 인접한 문장 간의 감정점수의 차이가 미리 설정된 임계값 이상인 적어도 둘의 문장을 추출할 수 있다.

한편, 본 명세서의 일 실시예에서 프로세서(110)는 복수의 문서의 도메인을 분류하고, 분류된 도메인에 기반하여 적어도 하나의 추가문장을 추출할 수 있다. 구체적으로, 프로세서(110)는 미리 학습된 분류모델을 이용하여 복수의 텍스트에 대한 후보 도메인을 생성할 수 있다. 이때, 프로세서(110)는 복수의 문서에 포함된 각각의 문장 또는 단어에 대하여 특징 벡터(예를 들어, 센텐스 벡터, 워드 벡터)를 추출하고, 추출된 특징 벡터를 미리 학습된 분류모델에 적용하여 복수의 텍스트에 대응하는 하나 이상의 후보 도메인을 생성할 수 있다. 후보 도메인이 생성되면, 프로세서(110)는 후보 도메인의 종류에 따라서 적어도 하나의 추가 텍스트를 추출하여 요약문을 생성하는 데 이용할 수 있다. 일 례로, 후보 도메인이 두괄식 문단으로 판단되면, 두괄식 문단의 첫 번째 문장으로부터 순서대로 N 번째(N은 자연수)문장 까지의 텍스트를 포함하는 추가 텍스트를 추출할 수 있다. 다른 례로, 후보 도메인이 미괄식 문단으로 판단되면, 미괄식 문단의 마지막 문단으로부터 역순으로 M 번째(M은 자연수)문장 까지의 텍스트를 포함하는 추가 텍스트를 추출할 수 있다.

프로세서(110)는 추출된 문장을 입력으로 미리 학습된 언어모델에 적용하여, 적어도 하나의 후보 텍스트를 생성할 수 있다(S140). 언어모델은 재귀신경망(recurrent neural network, RNN), 또는 LSTM에 기반한 언어모델로 구현될 수 있으나, 이에 한정되는 것은 아니다.

한편, 본 명세서의 일 실시예에 따른 언어처리방법에서 프로세서(110)는 언어모델의 성능을 평가할 수 있다. 여기서, 성능 평가지표는 ROUGE-1, ROUGE-2, ROUGE-L의 F1 점수를 사용할 수 있다. 이는 언어모델이 생성한 답과 학습 데이터의 답을 비교하여 평가하는 방법이다. 프로세서(110)는 생성된 요약문과 정답 요약문 사이의 N-Gram을 이용해 산출되는 재현율(recall)과 정확성(accuracy)으로부터 최종적으로 F1 결과를 측정한다. ROUGE-1은 유니그램(Unigram)의 중첩, ROUGE-2는 바이그램(Bigram)의 중첩, 그리고 ROUGE-L(Longest Common Subsequence)는 가장 긴 열의 중첩이다.

< 구현예 >

도 3 및 도 4는 본 명세서의 일 실시예에 따른 언어처리방법의 구현예를 설명하기 위한 도면이다.

도 3를 참조하면, 텍스트 요약장치(100)는 언어모델(220)을 생성하거나 학습된 언어모델(220)을 이용하여 특정 문서의 요약문을 생성하기 위하여 적어도 일부의 문장을 추출하는 전처리를 수행할 수 있다. 전처리 과정의 구체적인 설명은 전술한 도 1 및 도 2에서 전술하였으므로 생략한다. 텍스트 요약장치(100)는 감정모델(예를 들어, VADER Sentiment Analisys)를 이용하여 복수의 문장 각각에 대한 감정점수를 획득할 수 있으며, 생성된 감정점수를 이용하여 전처리 데이터(210)를 생성할 수 있다.

텍스트 요약장치(100)는 텍스트 요약을 위한 언어모델(220)에 전처리된 데이터를 포함하는 텍스트 데이터(210)를 입력 데이터로 사용하여, 요약된 텍스트(230)를 생성할 수 있다.

도 4는 예시적으로 뉴스기사를 대상으로 감정분석의 전처리 과정을 설명하기 위한 도면이다. 도 4를 참조하면, 감정분석의 전처리 과정이 수행되지 않은 뉴스기사는 522 단어와 15 문장으로 구성된다. 이러한 문단 100,000개를 요약해야 한다면, 처리해야할 단어와 문장의 양은 한정된 컴퓨팅 연산의 자원 때문에 메모리 부족 에러가 발생할 수 있다. 에러를 극복하기 위하여 문단 전단에 위치한 4 문장(194 단어)을 학습에 이용하는 경우 메모리 오류는 해결할 수 있으나 적은 문장의 길이로 인하여 좋은 성능을 기대할 수 없다. 본 명세서의 일 실시예에 따른 감정분석의 전처리 과정을 수행하면, 2+N(or M) 문장을 수집할 수 있다. 여기서 N은 두괄식 문단의 경우에 기 설정된 문장의 개수이며, M은 미괄식 문단의 경우에 기 설정된 문장의 개수이다. 이처럼 감정분석의 전처리 과정으로 추출된 중요문장들을 언어모델(220)의 학습 데이터 또는 입력 데이터로 활용하면 한정된 컴퓨팅 자원에서도 텍스트 요약의 성능이 향상될 수 있다.

예를 들어, 텍스트 요약장치(100)는 "an Italian humanitarian activist and journalist. police investigating the case learned where Vittorio Arrigoni was being held. (중략) the grisly outcome came hours after a video was posted on youtube showing a man identified by his colleagues as Arrigoni a black blindfold covered his eyes his right cheek appeared red. Arabic writing scrolled over the video threatened that Arrigoni would be(text)"와 같은 문단을 대상으로 전처리 과정을 수행하고, 4 개의 중요문장을 추출할 수 있다.

프로세서(110)는 감정점수를 이용하여 "the grisly outcome came hours after a video was posted on youtube showing a man identified by his colleagues as Arrigoni a black blindfold covered his eyes(sub-text1)", "Arabic writing scrolled over the video threatened that Arrigoni would be(sub-text2)"를 중요문장으로 추출할 수 있다. 보다 구체적으로, 그래프를 살펴보면, 제1 지점(P1) 및 제2 지점(P2)의 사이에서 감정점수의 차이가 최대값을 가질 수 있다.

또한, 프로세서(110)는 텍스트의 전처리 대상인 텍스트의 도메인이 두괄식 구성이므로, 처음의 두 문장인 "an Italian humanitarian activist and journalist(sub-text3)", "police investigating the case learned where Vittorio arrigoni was being held(sub-text4)"를 중요문장으로 추출할 수 있다.

텍스트 요약장치(100)는 이처럼 추출된 4 개의 중요문장를 학습 데이터로 활용하여 언어모델(220)을 생성하거나 또는 입력 데이터로 활용하여 텍스트 요약을 수행할 수 있다.

< 실험예 >

본 명세서의 일 실시예에 따른 실험에서 텍스트 요약 장치는 CNN / Daily mail 뉴스 데이터를 사용하여 실험을 수행하였다. 실험예를 살펴보면, 텍스트 요약장치는 데이터셋에서 문장이 3 개 이하인 항목들은 다중문장요약의 형태에 부합하지 않으므로 제거하였다.

실험예에서 텍스트 요약장치는 총 92,309 개의 문서를 수집하였고, 70,000 개의 문서를 학습 데이터로, 나머지 22,309 개의 문서를 평가 데이터로 사용하였다. 각 문서당 학습에 사용된 문서의 최대 길이는 문장의 시작부터 130 단어, 요약본 20 단어이며, 워드 임베딩은 300차원으로 설정하고, 에포크(epoch)는 150으로 설정하여 학습을 진행하였다.

실험 결과는 아래의 표와 같다.

< 표 >

상기 표를 살펴보면, 본 명세서의 일 실험예에 따른 언어처리는 모든 평가 점수에 대하여 성능이 향상된 것을 확인할 수 있다.

전술한 본 명세서는, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 명세서의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 명세서의 등가적 범위 내에서의 모든 변경은 본 명세서의 범위에 포함된다.

Claims

메모리와 프로세서를 포함하는 장치에서 상기 프로세서에 의해 수행되는 언어처리방법에 있어서,
복수의 문서로부터 복수의 문장을 추출하는 단계;
상기 복수의 문장의 감정점수를 생성하는 단계;
상기 감정점수에 기반하여 상기 복수의 문장 중 적어도 일부 문장을 추출하는 단계;
상기 복수의 문서의 도메인을 분류하는 단계;
상기 분류된 도메인에 기반하여 적어도 하나의 추가문장을 추출하는 단계; 및
상기 추출된 문장과 상기 추가 문장을 입력으로 미리 학습된 언어모델(language model)에 적용하여, 적어도 하나의 후보 텍스트(text prediction candidates)를 생성하는 단계를 포함하고,
상기 복수의 문장 중 적어도 일부 문장을 추출하는 단계는,
상기 복수의 문장 각각에 대응되는 감정점수를 비교하여, 인접한 문장 간의 감정점수의 차이가 최대인 구간을 확인하는 단계; 및
상기 확인된 구간에 포함된 적어도 두 문장을 추출하는 단계를 포함하고,
상기 복수의 문서의 도메인을 분류하는 단계는,
상기 복수의 문서를 구성하는 상기 복수의 텍스트로부터 센텐스 벡터를 추출하는 단계; 및
상기 센텐스 벡터를 미리 학습된 분류모델에 적용하여, 상기 복수의 텍스트에 대응하는 하나 이상의 후보 도메인(domain prediction candidates)을 생성하는 단계를 포함하고,
상기 추가문장을 추출하는 단계는,
상기 후보 도메인이 두괄식 문단으로 판단되면 상기 두괄식 문단의 첫 번째 문장으로부터 순서대로 N 번째(N은 자연수)문장까지의 텍스트를 포함하는 추가문장을 추출하고, 상기 후보 도메인이 미괄식 문단으로 판단되면 상기 미괄식 문단의 마지막 문장으로부터 역순으로 M 번째(M은 자연수)문장까지의 텍스트를 포함하는 추가문장을 추출하는 것을 특징으로 하는 언어처리방법.
제1 항에 있어서,
상기 복수의 문서는 복수의 도메인으로 설정된 문서를 포함하는 것을 특징으로 하는 언어처리방법.
제1 항에 있어서,
상기 감정점수는 긍정점수, 부정점수, 중립점수, 또는 혼합점수를 포함하는 것을 특징으로 하는 언어처리방법.
제3 항에 있어서,
상기 긍정점수는 +1, 상기 부정점수는 -1, 상기 중립점수는 0의 가중치를 가질 수 있고,
상기 혼합점수는 -1 내지 +1 사이의 값을 나타내는 것을 특징으로 하는 언어처리방법.
제1 항에 있어서,
상기 감정점수를 생성하는 단계는,
상기 복수의 문장의 센텐스 벡터를 추출하는 단계; 및
상기 센텐스 벡터를 미리 학습된 감정모델(emotion model)에 입력으로 적용하여, 상기 감정점수를 생성하는 단계;
를 포함하는 것을 특징으로 하는 언어처리방법.
삭제
삭제
삭제
제1 항에 있어서,
상기 복수의 문장을 추출하는 단계는,
상기 복수의 문서 중 상기 문서를 구성하는 문장의 수가 미리 설정된 임계치 미만인 제1 문서를 제외하고, 상기 문장의 수가 미리 설정된 임계치 이상인 제2 문서로부터 상기 복수의 문장을 추출하는 것을 특징으로 하는 언어처리방법.
제9 항에 있어서,
상기 미리 설정된 임계치는,
상기 언어모델의 입력으로 적용되는 문장의 수에 상응하는 것을 특징으로 하는 언어처리방법.
삭제
삭제
삭제
삭제
제1 항 내지 제5 항, 제9 항 및 제10 항 중 어느 한 항의 방법을 컴퓨터 시스템에서 실행하기 위한 프로그램이 기록된 컴퓨터 시스템이 판독 가능한 기록매체.