KR102655408B1 - 토픽 카테고리 기반의 요약문 생성 장치 및 방법 - Google Patents

토픽 카테고리 기반의 요약문 생성 장치 및 방법 Download PDF

Info

Publication number
KR102655408B1
KR102655408B1 KR1020200187529A KR20200187529A KR102655408B1 KR 102655408 B1 KR102655408 B1 KR 102655408B1 KR 1020200187529 A KR1020200187529 A KR 1020200187529A KR 20200187529 A KR20200187529 A KR 20200187529A KR 102655408 B1 KR102655408 B1 KR 102655408B1
Authority
KR
South Korea
Prior art keywords
score
topic category
model unit
word
topic
Prior art date
Application number
KR1020200187529A
Other languages
English (en)
Other versions
KR20220095731A (ko
Inventor
박세영
박성배
김소언
Original Assignee
경북대학교 산학협력단
경희대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경북대학교 산학협력단, 경희대학교 산학협력단 filed Critical 경북대학교 산학협력단
Priority to KR1020200187529A priority Critical patent/KR102655408B1/ko
Publication of KR20220095731A publication Critical patent/KR20220095731A/ko
Application granted granted Critical
Publication of KR102655408B1 publication Critical patent/KR102655408B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 원문 데이터의 토픽 카테고리를 반영하여 요약문을 생성하는 장치 및 방법을 제안하다. 본 발명의 요약문 생성장치는, 요약할 원문 데이터로부터 어텐션 매커니즘에 의해 어텐션 스코어를 생산하는 제1 모델부, 상기 원문 데이터의 토픽 카테고리를 분류하는 신경망 모델부, 상기 토픽 카테고리를 참조하여 상기 원문 데이터의 단어별 스코어를 계산하는 제2 모델부, 상기 어텐션 스코어와 상기 단어별 스코어를 이용하여 단어별 최종 스코어를 계산하는 제3 모델부, 및 상기 최종 스코어에 따라 일련의 단어들을 추출하여 요약문을 생성하는 요약문 생성부를 포함하여 구성된다.

Description

토픽 카테고리 기반의 요약문 생성 장치 및 방법{apparatus and method for generating summary statements based on Topic category}
본 발명은 요약문 생성장치에 관한 것으로, 원문 데이터의 토픽 카테고리를 반영할 수 있도록 어텐션 매커니즘과 CAM 모델을 결합함으로써 종래보다 더 정확하면서 자연스럽게 요약문을 생성할 수 있는 토픽 카테고리 기반의 요약문 생성 장치 및 방법에 관한 것이다.
다양한 매체에 의해 방대한 양의 정보가 유입되고 있고, 또 스마트 폰 등 휴대용 기기의 소지자가 증가함에 따라 많은 양의 정보 중 필요한 정보만을 신속 정확하게 획득하는 기술이 주목되고 있다. 이에 다양한 문서들의 내용을 요약하는 문서 요약(Document summarization) 기술이 소개된 바 있다. 전통적인 방법으로 어텐션 매커니즘을 이용한 방법이 있다.
이러한 문서 요약기술은 크게 2가지 유형으로 구분할 수 있다. 첫 번째는 원본 데이터에서 중요한 단어, 구 또는 문장을 선택 결합하여 요약문을 만드는 추출 요약방법이다. 즉 원문 텍스트에서 키워드 또는 문장을 추출하고 이를 재정렬하여 요약문을 생성하는 방식이라 할 수 있다. 두 번째는 텍스트의 내용을 이해하여 요약문을 생성하는 추상적 요약방법이라 할 수 있다. 상기 추상적 요약 방법은 신경망을 적용하여 요약문을 작성하기 때문에 상기한 추출 요약방법보다 요약 성능이 더 뛰어나다고 볼 수 있다.
그러나 상기 추출 요약방법은 간단하고 쉬운 요약방법에 비해 응집력이나 가독성이 낮다. 추출양이 많으면 문법적으로 잘못된 요약문을 생성할 수 있고, 또 정확하지 않은 단어나 문장을 추출하게 되면 요약문이 자연스럽게 생성되지 못할 수 있기 때문이다. 또 언어의 복잡성으로 인해 단어의 빈도수와 분포만으로 키워드를 추출하는 경우 생성된 요약문의 정확도가 낮아질 수 있다. 그럼에도 전체 내용을 이해한 후에 요약문을 작성하는 추상적 요약방법보다 요약 성능이 낮지만 요약문을 더 빠르게 생성할 수 있다는 점에서, 추출 요약방법이 많이 사용되고 있다.
또한 종래의 요약방법들은 모든 문서를 동일한 방법으로 요약하기 때문에, 합리적이지 못하다. 예를 들어 문서마다 다른 카테고리를 가지고 있을 것인데, 이러한 카테고리를 무시한 채 요약을 하게 되면 요약 성능이 저하되는 이유가 될 수있다.
근래에 이러한 문제 해결을 위해 연구된 방법 중 하나로 시퀀스-투-시퀀스(Sequence-to-sequence) 모델을 말할 수 있다. 시퀀스-투-시퀀스(Sequence-to-sequence) 모델은 인코더에서 입력 시퀀스를 컨텍스트 벡터라는 하나의 고정된 크기의 벡터 표현으로 압축하고, 디코더는 상기 컨텍스트 벡터를 통해서 출력 시퀀스를 만드는 모델이다. 시퀀스-투-시퀀스(Sequence-to-sequence) 모델이 상기 추상적 요약 방법을 일부 포함한다고 할 수 있다. 이를 통해 기존보다 자동 생성된 문서 요약의 이해도를 향상시키고 있다.
하지만 상기 시퀀스-투-시퀀스(Sequence-to-sequence) 모델 역시 요약문에 토픽(topic) 정보를 반영하지 못하는 문제를 가진다. 알려진 바와 같이 문서를 구성하는 모든 텍스트는 대부분 하나 이상의 토픽 카테고리(topic catrgory)를 포함하며, 상기 토픽 카테고리는 요약문을 더 정확하게 작성할 수 있는 요소일 수 있다. 예를 들어 하기 표 1를 보면 원문(S)과 요약문(R)을 살펴보면, 첫 번째 요약문에 "two concerts at the Metropolitan Museum of Art", "pianist"와 같은 음악 관련 문구가 있고, 두 번째 요약문에 "Governor", "campaign"처럼 정치에 관한 문구가 남아 있어, 토픽 카테고리를 고려하여 요약하면 더 나은 요약문을 생성할 수 있을 것이다.
관건은 앞서 설명한 바와 같이 토픽 카테고리를 이용하여 요약문을 생성하는 것이 좋지만, 상술한 요약 방법들 모두는 토픽 카테고리를 전혀 반영하지 못하고 있다는 것이다. 아직까지 어떠한 시도조차 없었다. 이는 그만큼 자동 생성된 요약문의 정확도를 향상시키는데 한계가 있다는 것을 의미한다고 할 것이다.
본 발명의 일 실시 예는, 각 텍스트마다 부여된 토픽 카테고리를 반영하여 요약문을 생성하는 토픽 카테고리 기반의 요약문 생성 장치 및 방법을 제공하는 것이다.
본 발명의 다른 실시 예는, 어텐션 메커니즘과 클래스 활성화 맵(class activation map: CAM)을 결합하여 텍스트의 주제정보와 내용정보를 요약문에 반영하여 생성하는 토픽 카테고리 기반의 요약문 생성 장치 및 방법을 제공하는 것이다.
즉 이러한 목적에 따르면 본 발명은은 클래스 활성화 맵(CAM)으로 뉴스 카테고리 정보를 추출하고, 이의 뉴스 카테고리 정보를 반영하여 문서를 요약하는 방법과 관련된 것이다.
상기한 바와 같은 목적을 달성하기 위하여, 본 발명의 일 실시 예에 따른 토픽 카테고리 기반의 요약문 생성 장치는, 요약할 원문 데이터로부터 어텐션 매커니즘에 의해 어텐션 스코어를 생산하는 제1 모델부; 상기 원문 데이터의 토픽 카테고리를 분류하는 신경망 모델부; 상기 토픽 카테고리를 참조하여 상기 원문 데이터의 단어별 스코어를 계산하는 제2 모델부; 상기 어텐션 스코어와 상기 단어별 스코어를 이용하여 단어별 최종 스코어를 계산하는 제3 모델부; 및 상기 최종 스코어에 따라 일련의 단어들을 추출하여 요약문을 생성하는 요약문 생성부를 포함하여 구성되는 것을 특징으로 한다.
또한, 상기 신경망 모델부는 컨볼루션 신경망(CNN: convolutional neural network)이다.
또한, 상기 제2 모델부는 상기 토픽 카테고리와의 관계에 따라 상기 원문 데이터의 단어들을 차등적으로 점수를 부여하는 모델이다.
또한, 상기 제2 모델부는 CAM(class activation map) 모델이다.
또한, 상기 요약문 생성부는, 요약문 생성시에 상기 제1 모델부에 구비된 디코더의 히든 스테이트(hidden state) 정보를 반영할 수 있다.
그리고 본 발명의 다른 실시 예에 따른 토픽 카테고리 기반의 요약문 생성 방법은, 원문 데이터의 토픽 카테고리를 분류하는 단계; 상기 토픽 카테고리를 참조하여 토픽 카테고리와의 관련성에 따라 단어마다 점수를 차등 부여하는 단어별 스코어를 계산하는 단계; 상기 단어별 스코어와 상기 원문 데이터의 어텐션 스코어를 이용하여 단어별 최종 스코어를 계산하는 단계; 상기 최종 스코어를 기초로하여 상기 토픽 카테고리와 관련된 단어들을 추출하는 단계; 및 상기 추출된 단어들을 반영하여 요약문을 생성하는 단계를 포함하여 수행하는 것을 특징으로 한다.
또한, 상기 단어들 추출은, 높은 최종 스코어를 가지는 단어들을 정해진 개수만큼 순서대로 추출한다.
또한, 상기 단어들 추출은, 미리 정해진 최종 스코어를 가지는 단어들만을 추출한다.
본 발명에 따르면, 기존의 어텐션 매커니즘 방법과 토픽 카테고리에 따라 단어별 가중치를 부여한 CAM 방법을 함께 적용한 새로운 요약 방법을 제안하고 있다.
따라서 종래 어텐션 매커니즘 방법으로 요약하는 것보다 원문 데이터의 내용을 더 정확하게 요약할 수 있는 효과가 있다. 그만큼 요약문의 품질 향상을 기대할 수 있다.
도 1은 본 발명의 바람직한 실시 예에 따른 주제 카테고리 기반의 요약문 생성 장치를 나타낸 개념도이다.
도 2는 도 1의 요약문 생성장치의 전체 구성도이다.
도 3은 본 발명에 따른 요약문 생성방법을 설명하는 흐름도이다.
도 4는 종래의 요약문 생성방법과 본 발명의 요약문 생성방법의 성능 비교를 설명하기 위한 도면이다.
본 발명의 목적 및 효과, 그리고 그것들을 달성하기 위한 기술적 구성들은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.
그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다.
그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있다. 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 발명은 원본 텍스트와 토픽 카테고리 간의 관계를 학습하여 요약문을 생성하는 것이며, 특히 요약문 작성에 CAM 기법을 적용하였으며, 이러한 CAM과 기존의 어텐션 매커니즘 모델에 적용한 것이다. 상기 토픽 카테고리는 텍스트의 핵심정보일 수 있다. 그만큼 토픽 카테고리를 요약문에 반영하는 것이 요약문의 품질 향상을 기대할 수 있기 때문이다.
이하에서는 도면에 도시한 실시 예에 기초하면서 본 발명에 대하여 더욱 상세하게 설명하기로 한다.
도 1은 본 발명의 바람직한 실시 예에 따른 주제 카테고리 기반의 요약문 생성 장치를 나타낸 개념도, 도 2는 도 1의 요약문 생성장치의 전체 구성도이다.
도시된 바와 같이 요약문 생성장치(100)는 제1 모델부(110), 제2 모델부(120), 상기 제1 모델부(110) 및 제2 모델부(120)의 결과를 이용한 제3 모델부(150), 그리고 제3 모델부(150)의 결과를 기초로 요약문을 생성하는 요약문 생성부(160)를 포함하여 구성된다.
상기 제1 모델부(110)는 어텐션 매커니즘(Attention mechanism)을 이용한 모델부일 수 있다. 어텐션 매터니즘 모델부라 하기도 한다. 이러한 상기 어텐션 매커니즘 모델부(110)는, 알려진 바와 같이 입력열의 각 단어를 입력받아 인코딩을 생성하는 인코더(112), 이전에 생성한 인코딩과 이전 시간의 히든 스테이트를 입력으로 받아 디코딩을 수행하는 디코더(114), 그리고 디코더(114)의 특정 예측 시점에서 디코더(114)의 히든 스테이트(hidden state)가 인코더(112)의 각 모든 히든 스테이트(hidden state)와 얼마나 유사한지를 나타내는 값인 어텐션 스코어(attention score)를 구하는 어텐션 스코어부(116)를 포함한다. 이처럼 어텐션 매커니즘 모델부는 인코더의 히든 스테이트와 현재까지 생성한 디코더의 히든 스테이트를 이용하여 입력에 대한 어텐션 가중치(attention wegiht)를 학습하는 모델이라 할 수 있다.
그리고 본 실시 예에서 상기 인코더(112) 및 디코더(114)는 LSTM(long short-term memory)일 수 있다.
상기 제2 모델부(120)는 CAM(class activation map) 모델부일 수 있다. 본 실시 예에서 상기 CAM 모델부(120)는 주어진 문서들에 있는 단어를 토픽 카테고리에 따라 점수화하는 모델이다. 일반적으로 CAM은 특정 클래스를 구별하기 위해 데이터의 어떤 영역을 주목하고 있는지 시각화하는 모델이지만, 본 실시 예는 후술하는 신경망 모델부(130)가 분류한 원문 데이터의 토픽 카테고리를 참조하여 원문 데이터의 단어마다 단어별 스코어를 계산하는 역할을 하는 것이다.
상기 원문 데이터의 토픽 카테고리를 분류하는 것은 상기 제1 모델부(110)와 연결된 신경망 모델부(130)가 수행한다. 실시 예에서 상기 신경망 모델부(130)는 컨볼루션 신경망(CNN: convolutional neural network)일 수 있다. 상기 CNN(130)은 원문 데이터에 기재된 단어들을 참조하여 토픽 카테고리를 분류할 수 있다.
상기 제3 모델부(150)는 상기 제1 모델부(110) 및 제2 모델부(120)의 결과를 함께 이용하여 토픽 카테고리에 따라 모든 단어들을 점수화하는 역할을 한다. 상기 제3 모델부(150)는 소프트맥스(140) 함수를 적용해서 어텐션 분포(attention distribution)를 구하게 된다. 상기 어텐션 분포는 실질적으로 토픽 카테고리가 반영된 점수일 것이다.
다시 말하면, 제3 모델부(150)에 의한 단어별 점수는 기존의 어텐션 매커니즘 방법과 CAM 방법을 함께 적용하여 새롭게 계산한 점수인 것으로, 토픽 카테고리가 반영되지 않는 것과 비교하면 원문 데이터를 더 효과적으로 요약할 수 있게 된다.
도 3은 본 발명에 따른 요약문 생성방법을 설명하는 흐름도이다. 도 3에서 보듯이 요약을 위한 원문 데이터가 입력되면(s100), 어텐션 매커니즘 모델부(110)의 어텐션 스코어부(116)는 인코더(112) 및 디코더(114)의 계산 결과를 기초로 하여 어텐션 스코어를 계산하여 출력한다(s110).
그리고 상기 원문 데이터가 어텐션 매커니즘 모델부(110)로 입력될 때 신경망 모델부(130)은 상기 원문 데이터를 분석하여 토픽 카테고리를 분류한다(s120). 토픽 카테고리는 사용자에 의해 미리 제공되는 카테고리일 수 있거나 그러지 않을 수 있다. 미리 제공되는 카테고리이면 신경망 모델부(130)는 분석 결과에 따라 적절한 토픽 카테고리를 선택하면 되고, 주어진 카테고리가 없다면 새롭게 토픽 카테고리를 생성할 수도 있을 것이다.
토픽 카테고리가 분류되면, 상기 CAM(class activation map) 모델부(120)는 상기 토픽 카테고리를 고려하여 상기 원문 데이터에 있는 각 단어마다 스코어를 부여하게 된다(s130). 스코어 부여방식은 단어별로 토픽 카테고리와의 관련성, 연관성 등을 고려하여 부여할 수 있다. 토픽 카테고리와 더 밀접하다고 판단되는 단어에 가중치를 더 부여하게 된다. 이렇게 하면 실질적으로 토픽 카테고리가 반영된 단어 추출이 가능하게 된다.
이와 같이 제1 모델부(110)의 어텐션 스코어와 제2 모델부(120)의 단어별 스코어가 계산되면, 소프트맥스(140) 함수를 적용해서 제3 모델부(150)가 어텐션 분포를 구하게 된다(s140). 여기서 말하는 어텐션 분포는 일반적으로 상기 제1 모델부(110)가 구하는 어텐션 분포와는 전혀 다른 값을 가진다. 즉 본 발명의 어텐션 분포는 토픽 카테고리에 따른 단어별 스코어가 반영된 어텐션 분포이기 때문이다.
그리고 제3 모델부(150)가 상기한 어텐션 스코어와 단어별 스코어를 함께 고려하여 어텐션 분포를 구할 때, 상기 어텐션 분포는 소프트맥스 함수를 적용하여, 모든 값을 합하면 1이 되는 확률 분포 값을 말할 수 있다. 그리고 상기 제3 모델부(150)에 의해 계산된 점수는 상기 어텐션 스코어와 단어별 스코어를 가산한 값의 평균이거나 단순히 가산된 값의 분포 값일 수 있다. 여기서는 이를 '최종 스코어'로 칭하여 설명하기로 한다.
이와 같이 제3 모델부(150)가 토픽 카테고리가 반영된 최종 스코어를 구하게 되면, 마지막으로 요약문 생성부(160)는 최종 스코어를 참조하여 단어들을 추출하고(s150), 추출된 단어들을 이용하여 요약문을 생성하게 된다(s160). 요약문 생성의 예로, 최종 스코어가 높은 점수를 가지는 단어를 추출하여 생성할 수 있거나, 일정 이상의 최종 스코어를 가지는 단어들만을 추출하여 생성할 수 있을 것이다. 물론 이외의 다양한 방법으로 요약문을 생성하는 것도 가능함은 당연하다 할 것이다.
이처럼 토픽 카테고리가 반영되면, 그만큼 원문 텍스트를 밀접하게 추종하면서 요약문을 생성할 수 있는 것이다. 이는 도 4를 참조하면 확인할 수 있을 것이다.
도 4는 종래의 요약문 생성방법과 본 발명의 요약문 생성방법의 성능 비교를 설명하기 위한 도면으로, (a)가 본 발명의 따른 히트맵, (b)는 종래 어텐션 매커니즘에 의해서만 생성된 요약문의 히트맵이다.
상기 히트맵에서 x축은 원문 데이터의 단어, y축은 요약문 단어를 나타낸다. 상기 히트맵에서 노란색에 가까울수록 가중치가 높음을 의미한다. 따라서 예를 들면 토픽 카테고리가 "Politics and Goverment"이다고 가정하면, (a) 및 (b)의 "department" 단어를 비교하면 본 발명에 따른 요약문 생성장치가 "department" 단어를 더 중요하게 판단한다. 그래서 (a)의 요약문에서는 "defense dept"가 기재되지만, (b)의 요약문에서는 토픽 카테고리가 반영되지 못했기 때문에 기재되고 있지 못한 것이다. 이를 보면 동일한 원문 데이터를 요약할 경우 서로 상반되거나 다른 내용이 포함된 요약문이 생성될 수 있음을 알 수 있다.
이와 같이 본 발명은 원문 데이터의 토픽 카테고리를 반영하여 단어들을 추출하기 때문에, 원문 데이터의 내용을 최대한 반영하는 요약문을 생성할 수 있음을 알 수 있다.
이상과 같이 본 발명의 도시된 실시 예를 참고하여 설명하고 있으나, 이는 예시적인 것들에 불과하며, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자라면 본 발명의 요지 및 범위에 벗어나지 않으면서도 다양한 변형, 변경 및 균등한 타 실시 예들이 가능하다는 것을 명백하게 알 수 있을 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적인 사상에 의해 정해져야 할 것이다.
110: 제1 모델부(attention mechanism)
112: 인코더
114: 디코더
116: 어텐션 스코어부
120: 제2 모델부(CAM)
130: 신경망 모델부(CNN)
150: 제3 모델부
160: 요약문 생성부

Claims (8)

  1. 요약할 원문 데이터로부터 어텐션 매커니즘에 의해 어텐션 스코어를 생산하는 제1 모델부;
    상기 원문 데이터의 토픽 카테고리를 분류하는 신경망 모델부;
    상기 토픽 카테고리를 참조하여 상기 원문 데이터의 단어별 스코어를 계산하는 제2 모델부;
    상기 어텐션 스코어와 상기 단어별 스코어를 이용하여 단어별 최종 스코어를 계산하는 제3 모델부; 및
    상기 최종 스코어에 따라 일련의 단어들을 추출하여 요약문을 생성하는 요약문 생성부를 포함하여 구성되는 토픽 카테고리 기반의 요약문 생성 장치.
  2. 제 1 항에 있어서,
    상기 신경망 모델부는 컨볼루션 신경망(CNN: convolutional neural network)인 토픽 카테고리 기반의 요약문 생성 장치.
  3. 제 1 항에 있어서,
    상기 제2 모델부는 상기 토픽 카테고리와의 관계에 따라 상기 원문 데이터의 단어들을 차등적으로 점수를 부여하는 모델인 토픽 카테고리 기반의 요약문 생성 장치.
  4. 제 1 항에 있어서,
    상기 제2 모델부는 CAM(class activation map) 모델인 토픽 카테고리 기반의 요약문 생성 장치.
  5. 제 1 항에 있어서,
    상기 요약문 생성부는, 요약문 생성시에 상기 제1 모델부에 구비된 디코더의 히든 스테이트(hidden state) 정보를 반영할 수 있는 토픽 카테고리 기반의 요약문 생성 장치.
  6. 원문 데이터의 토픽 카테고리를 분류하는 단계;
    상기 토픽 카테고리를 참조하여 토픽 카테고리와의 관련성에 따라 단어마다 점수를 차등 부여하는 단어별 스코어를 계산하는 단계;
    상기 단어별 스코어와 상기 원문 데이터의 어텐션 스코어를 이용하여 단어별 최종 스코어를 계산하는 단계;
    상기 최종 스코어를 기초로하여 상기 토픽 카테고리와 관련된 단어들을 추출하는 단계; 및
    상기 추출된 단어들을 반영하여 요약문을 생성하는 단계를 포함하는 토픽 카테고리 기반의 요약문 생성 방법.
  7. 제 6 항에 있어서,
    상기 단어들 추출은,
    높은 최종 스코어를 가지는 단어들을 정해진 개수만큼 순서대로 추출하는 토픽 카테고리 기반의 요약문 생성 방법.
  8. 제 6 항에 있어서,
    상기 단어들 추출은,
    미리 정해진 최종 스코어를 가지는 단어들만을 추출하는 토픽 카테고리 기반의 요약문 생성 방법.
KR1020200187529A 2020-12-30 2020-12-30 토픽 카테고리 기반의 요약문 생성 장치 및 방법 KR102655408B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200187529A KR102655408B1 (ko) 2020-12-30 2020-12-30 토픽 카테고리 기반의 요약문 생성 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200187529A KR102655408B1 (ko) 2020-12-30 2020-12-30 토픽 카테고리 기반의 요약문 생성 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20220095731A KR20220095731A (ko) 2022-07-07
KR102655408B1 true KR102655408B1 (ko) 2024-04-05

Family

ID=82398877

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200187529A KR102655408B1 (ko) 2020-12-30 2020-12-30 토픽 카테고리 기반의 요약문 생성 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102655408B1 (ko)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101944331B1 (ko) * 2017-02-10 2019-01-31 강원대학교 산학협력단 순환신경망을 이용한 문서요약시스템 및 방법
KR102128659B1 (ko) * 2018-10-16 2020-06-30 주식회사 포스코아이씨티 키워드 추출 및 요약문 생성 시스템 및 방법
KR20210060018A (ko) * 2019-11-18 2021-05-26 한국전자통신연구원 전자 장치, 문서 요약문 생성 방법 및 저장 매체

Also Published As

Publication number Publication date
KR20220095731A (ko) 2022-07-07

Similar Documents

Publication Publication Date Title
US9424294B2 (en) Method for facet searching and search suggestions
US20240028837A1 (en) Device and method for machine reading comprehension question and answer
CA2612404C (en) Means and method for adapted language translation
JP7251181B2 (ja) 対訳処理方法および対訳処理プログラム
CN108763402B (zh) 基于依存关系、词性和语义词典的类中心向量文本分类法
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
Linhares Pontes et al. Impact of OCR quality on named entity linking
EP2643770A2 (en) Text segmentation with multiple granularity levels
US20190286741A1 (en) Document revision change summarization
JP2001249922A (ja) 単語分割方式及び装置
US20180081861A1 (en) Smart document building using natural language processing
CN108052630B (zh) 一种基于中文教育视频提取拓展词的方法
CN104978332A (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
WO2009017464A9 (en) Relation extraction system
King et al. Evaluating approaches to personalizing language models
CN112287100A (zh) 文本识别方法、拼写纠错方法及语音识别方法
CN110287314A (zh) 基于无监督聚类的长文本可信度评估方法及系统
US7752033B2 (en) Text generation method and text generation device
Ruzzetti et al. Lacking the embedding of a word? look it up into a traditional dictionary
KR102655408B1 (ko) 토픽 카테고리 기반의 요약문 생성 장치 및 방법
US20190065453A1 (en) Reconstructing textual annotations associated with information objects
Khassanov et al. Enriching rare word representations in neural language models by embedding matrix augmentation
Chang et al. The secret’s in the word order: Text-to-text generation for linguistic steganography
Dorr et al. Cross-language headline generation for Hindi

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant