KR20210058059A - 문장 임베딩 기반의 비지도 학습 문서 요약 방법 및 이를 이용한 문서 요약용 디바이스 - Google Patents

문장 임베딩 기반의 비지도 학습 문서 요약 방법 및 이를 이용한 문서 요약용 디바이스 Download PDF

Info

Publication number
KR20210058059A
KR20210058059A KR1020190145024A KR20190145024A KR20210058059A KR 20210058059 A KR20210058059 A KR 20210058059A KR 1020190145024 A KR1020190145024 A KR 1020190145024A KR 20190145024 A KR20190145024 A KR 20190145024A KR 20210058059 A KR20210058059 A KR 20210058059A
Authority
KR
South Korea
Prior art keywords
sentences
sentence
document
learning
training
Prior art date
Application number
KR1020190145024A
Other languages
English (en)
Inventor
장영걸
민충기
Original Assignee
주식회사 셀바스에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 셀바스에이아이 filed Critical 주식회사 셀바스에이아이
Priority to KR1020190145024A priority Critical patent/KR20210058059A/ko
Publication of KR20210058059A publication Critical patent/KR20210058059A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은, 프로세서에 의해 구현되는 문서 요약 방법으로서, 복수의 문장을 포함하는 문서를 수신하는 단계, 문장을 클러스터링 하도록 구성된 사전 학습된 언어 모델을 이용하여, 문서 내의 복수의 문장을 클러스터링 하는 단계, 문장 클러스터에 기초하여 비지도 학습 방법으로 요약문을 생성하도록 구성된 요약 모델을 이용하여, 클러스터링된 복수의 문장 각각에 대한 요약문을 생성하는 단계, 및 문서에 대한 최종 요약문을 획득하도록, 복수의 문장 각각에 대한 요약문을 재구성하는 단계를 포함하는, 문서 요약 방법 및 이를 이용한 장치를 제공한다.

Description

문장 임베딩 기반의 비지도 학습 문서 요약 방법 및 이를 이용한 문서 요약용 디바이스{UNSUPERVISED TEXT SUMMARIZATION METHOD BASED ON SENTENCE EMBEDDING AND UNSUPERVISED TEXT SUMMARIZATION DEVICE USING THE SAME}
본 발명은 문장 임베딩 기반의 비지도 학습 문서 요약 방법 및 이를 이용한 문서 요약용 장치에 관한 것으로, 보다 구체적으로는 문서를 이루는 문장을 분석하는 두 가지 언어 모델에 기초한 문서 요약 방법 및 이를 이용한 문서 요약용 장치에 관한 것이다.
자연어 처리 (Natural Language Process, NLP) 는 컴퓨터와 같은 기계를 이용해 인간의 언어 현상을 모사하는 핵심 연구분야들 중 하나로, 이를 활용해 정보검색, QA 시스템, 문서 자동 분류, 신문기사 클러스터링, 대화형 에이전트 등 다양한 연구가 이뤄지고 있다. 최근 인공지능 기술의 엄청난 성공과 함께 수리 통계적 도구를 활용해 인공지능기술에 기반하거나 접목한 기법들이 자연어 처리분야 연구에 많이 사용되고 있다.
자연어 처리의 여러 응용들 중 요약기술은 방대한 양의 문장들에서 사용자에게 중요 핵심 문장들만 보여준다는 측면에서 현대 사회의 방대한 데이터/부족한 시간 등의 제약사항을 보완해줄 수 있는 중요기술로 꼽힌다. 요약기술은 요약할 문서의 개수에 따라 단일/다중문서 요약으로 나눌 수 있으며, 생성기법에 따라 추출/추상(또는 생성) 요약으로 분류할 수 있다.
추출 요약은 문서 내에서 핵심 단어 키워드들만 뽑아 요약하는 기술이며 추상 요약은 전체 문장의 내용을 고려해 핵심이 되는 문장을 생성하는 기술이다. 추출 요약의 경우, 핵심 키워드, 문장 등을 추출하다 보니 문장이 자연스럽지 못하고 내용 추론이 어려운 경우가 많다.
한편, 추상 요약의 경우 전체 문장의 문맥을 고려해 핵심 문장을 생성하는 기술로, 추출 요약의 단점을 보완할 수 있다. 그러나, 추상 요약은, 여러 기술적 난제로 인해 추출 요약과 비교해 성능이 만족스럽지 못하다. 이러한 이유로 기사 요약 등의 상용화된 대부분의 기술들은 추출 요약에 기반을 두고 있다.
따라서, 보다 정확하게 문서의 내용을 추상화하여 요약하는 새로운 문서 요약 시스템의 개발이 지속적으로 요구되고 있는 실정이다.
발명의 배경이 되는 기술은 본 발명에 대한 이해를 보다 용이하게 하기 위해 작성되었다. 발명의 배경이 되는 기술에 기재된 사항들이 선행기술로 존재한다고 인정하는 것으로 이해되어서는 안 된다.
한편, 전술한 바와 같은 문제를 해결하기 위한 수단으로, 인공 지능에 기초한 문서의 추상 요약 방법이 제안되었다. 이때, 인공 지능에 기초한 추상 요약 시스템은 학습 데이터가 많고 잘 정제돼 있을 수록 좋은 성능을 가질 수 있다. 그러나, 이러한 학습용 데이터는, 만드는데 있어 비용이 막대하기 하기 때문에 쉽게 구하거나 구축하기 어려울 수 있다.
특히 자연어 처리의 경우, 영상과 달리 노이즈를 추가해 데이터 증강시키는 것 또한 매우 어려울 수 있다.
한편, 본 발명의 발명자들은, 전술한 인공 지능 기반의 문서의 추상 요약 시스템이 갖는 문제점을 해결하기 위해, 비지도 학습 기반의 모델에 주목하였다.
보다 구체적으로, 본 발명의 발명자들은 비지도 학습 기반의 인공 지능 모델을 적용할 경우, 학습 데이터의 부족에 따른 성능 저하의 문제, 학습 데이터의 구축을 위해 고비용이 소요되는 등의 문제들을 해결할 수 있음에 주목하였다.
나아가, 본 발명의 발명자들은, 비지도 학습 기반의 모델이 다양한 형태의 데이터들을 사용할 수 있다는 점에서 성능을 향상을 기대할 수 있고, 이를 통해 기 상용화된 추출 기반 요약 기술과 같은 자연스러운 문서 요약이 가능한 추상 요약이 가능할 수 있음을 인지할 수 있었다.
그 결과, 본 발명의 발명자들은 비지도 학습 기반의 문서 요약 시스템을 개발할 수 있었다.
이때, 본 발명의 발명자들은, 비지도 학습 기반의 문서 요약 시스템에 사전 학습된 언어 모델과 인코더-디코더 기반의 요약 모델을 적용하였고, 이를 통해 실제 사람이 문서를 요약한 것과 유사한 정도의 높은 정확도 및 가독성이 좋은 요약문의 생성을 기대할 수 있었다.
보다 구체적으로, 본 발명의 발명자들은, 상기 시스템에 대하여, 문서 내의 복수의 문장들을 다차원 벡터로 임베딩하고, 이들의 거리에 기초하여 문장 클러스터를 형성하는 언어 모델을 적용하였다.
나아가, 본 발명의 발명자들은, 두 가지 방법으로 비지도 학습된 모델로서, 하나는 자기 부호화 (Auto-Encoder) 손실 함수에 기초하여 학습되고, 다른 하나는 디코딩되어 생성된 요약을 다시 인코딩시키고 이를 생성을 위해 사용된 문장들의 임베딩 벡터와 그 코사인 유사도 손실 함수에 기초하여 학습된, 요약 모델을 상기 시스템에 적용하였다.
특히, 본 발명의 발명자들은, 두 가지 방법으로 비지도 학습된 요약 모델 내의 인코더 및 디코더가 서로 학습 파라미터를 공유하도록 하여, 두 가지의 손실 함수를 최소화하는 학습을 통해 네트워크 파라미터들이 세부 조정 (fine-tuning) 되도록 상기 시스템을 구축하였다.
결과적으로, 본 발명의 발명자들은, 새로운 문서 요약 시스템이, 종래의 추상 요약 기술보다 우수한 문서 요약 성능을 갖는 것을 확인할 수 있었다.
이에, 본 발명이 해결하고자 하는 과제는, 사전 학습된 언어 모델을 이용하여 문서 내의 복수의 문장 각각에 대한 문장 클러스터를 형성하고, 요약 모델을 이용하여 문장 클러스터에 기초하여 복수의 요약문을 생성하고, 이를 재구성하여 문서 전체에 대한 요약문을 획득하도록 구성된, 문장 임베딩 기반의 비지도 학습 문서 요약 방법 및 이를 이용한 디바이스를 제공하는 것이다.
본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 비지도 학습 문서 요약 방법을 제공한다. 본 발명의 일 실시예에 따른 문서 요약 방법은, 프로세서에 의해 수행되고, 복수의 문장을 포함하는 문서를 수신하는 단계, 문장을 클러스터링 하도록 구성된 사전 학습된 언어 모델을 이용하여, 문서 내의 복수의 문장을 클러스터링 하는 단계, 문장 클러스터에 기초하여 비지도 학습 방법으로 요약문을 생성하도록 구성된 요약 모델을 이용하여, 클러스터링된 복수의 문장 각각에 대한 요약문을 생성하는 단계, 및 문서에 대한 최종 요약문을 획득하도록, 복수의 문장 각각에 대한 요약문을 재구성하는 단계를 포함한다.
본 발명의 특징에 따르면, 복수의 문장을 클러스터링하는 단계는, 사전 학습된 언어 모델을 이용하여, 복수의 문장을 다차원 벡터로 임베딩 (embedding) 하는 단계, 및 복수의 문장 각각에 대하여 생성된 복수의 벡터의 거리에 기초하여 상기 복수의 문장을 클러스터링하는 단계를 포함할 수 있다.
본 발명의 다른 특징에 따르면, 요약 모델은, 학습용 복수의 문장을 포함하는 학습용 문서를 수신하는 단계, 사전 학습된 언어 모델을 이용하여 상기 학습용 복수의 문장을 클러스터링하는 단계, 압축된 학습용 문장 클러스터를 획득하도록, 클러스터링된 학습용 복수의 문장 각각을 인코딩하는 단계, 재구성된 학습용 문장을 획득하도록, 압축된 학습용 문장 클러스터 각각을 디코딩하는 단계, 재구성된 학습용 문장 및 상기 클러스터링된 학습용 복수의 문장의 유사도 손실 함수를 최소화하도록 세부 조정 (fine tuning) 하는 단계, 통합된 문장을 획득하도록, 클러스터링 학습용 복수의 문장 각각을 인코딩하는 단계, 통합된 요약문을 획득하도록, 상기 통합된 문장을 디코딩하는 단계, 인코딩된 요약문을 획득하도록, 통합된 요약문을 인코딩하는 단계, 및 압축된 학습용 문장 클러스터 및 상기 인코딩된 요약문의 유사도 손실 함수를 최소화하도록 세부 조정 (fine tuning) 하는 단계를 통해 비지도 학습된 모델일 수 있다.
전술한 바와 같은 과제를 해결하기 위하여 본 발명의 다른 실시예에 따른 비지도 학습 문서 요약 방법용 디바이스를 제공한다. 본 발명의 다른 실시예에 따른 문서 요약 장치는 복수의 문장을 포함하는 문서를 수신하도록 구성된 수신부, 및 수신부와 통신하도록 구성된 프로세서를 포함한다. 이때, 프로세서는, 문장을 클러스터링 하도록 구성된 사전 학습된 언어 모델을 이용하여, 문서 내의 복수의 문장을 클러스터링 하고, 문장 클러스터에 기초하여 비지도 학습 방법으로 요약문을 생성하도록 구성된 요약 모델을 이용하여, 클러스터링된 복수의 문장 각각에 대한 요약문을 생성하고, 문서에 대한 최종 요약문을 획득하도록, 복수의 문장 각각에 대한 요약문을 재구성하도록 구성된다.
본 발명의 특징에 따르면, 프로세서는, 사전 학습된 언어 모델을 이용하여, 복수의 문장을 다차원 벡터로 임베딩 (embedding) 하고, 복수의 문장 각각에 대하여 생성된 복수의 벡터의 거리에 기초하여 복수의 문장을 클러스터링하도록 더 구성될 수 있다.
본 발명의 다른 특징에 따르면, 요약 모델은, 학습용 복수의 문장을 포함하는 학습용 문서를 수신하고, 사전 학습된 언어 모델을 이용하여 학습용 복수의 문장을 클러스터링하고, 압축된 학습용 문장 클러스터를 획득하도록, 클러스터링된 학습용 복수의 문장 각각을 인코딩하고, 재구성된 학습용 문장을 획득하도록, 압축된 학습용 문장 클러스터 각각을 디코딩하고, 재구성된 학습용 문장 및 클러스터링된 학습용 복수의 문장의 유사도 손실 함수를 최소화하도록 세부 조정하고, 통합된 문장을 획득하도록, 클러스터링 학습용 복수의 문장 각각을 인코딩하고, 통합된 요약문을 획득하도록, 통합된 문장을 디코딩하고, 인코딩된 요약문을 획득하도록, 상기 통합된 요약문을 인코딩하고, 압축된 학습용 문장 클러스터 및 인코딩된 요약문의 유사도 손실 함수를 최소화하도록 세부 조정 (fine tuning) 되는 단계를 통해 비지도 학습된 모델일 수 있다.
기타 실시예의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명은, 비지도 학습 기반의 인공 지능 모델을 제공함에 따라, 학습 데이터의 부족에 따른 성능 저하의 문제, 학습 데이터의 구축을 위해 고비용이 소요되는 등의 종래의 문서요약 시스템이 갖는 문제들을 해결할 수 있다.
특히, 본 발명은, 비지도 학습 기반의 모델이 다양한 형태의 데이터들을 사용할 수 있다는 점에서 성능을 향상을 제공할 수 있고, 이를 통해 기 상용화된 추출 기반 요약 기술과 같은 자연스러운 문서 요약이 가능한 추상 요약 시스템을 제공할 수 있다.
나아가, 본 발명은, 사전 학습된 언어 모델과 인코더-디코더 기반의 요약 모델이 적용된 비지도 학습 기반의 문서 요약 시스템을 제공함으로써, 실제 사람이 문서를 요약한 것과 유사한 정도의 정확도 및 가독성이 높은 요약문을 제공할 수 있다.
특히, 본 발명은, 두 가지 방법으로 비지도 학습된 요약 모델 내의 인코더 및 디코더가 서로 학습 마라미터를 공유하도록 하여, 두 가지의 손실 함수를 최소화하는 학습을 통해 네트워크 파라미터들이 세부 조정 (fine-tuning) 되도록 상기 시스템을 구축함에 따라, 종래의 추상 요약 기술보다 우수한 문서 요약 성능을 제공할 수 있다.
본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 발명 내에 포함되어 있다.
도 1a은 본 발명의 일 실시예에 따른 문서 요약 시스템을 설명하기 위한 개략도이다.
도 1b는 본 발명의 일 실시예에 따른 문서 요약용 장치를 설명하기 위한 개략도이다.
도 2a 내지 2c는 본 발명의 일 실시예에 따른 문서 요약 방법을 설명하기 위한 개략적인 순서도이다.
도 3a 및 3c는 본 발명의 다양한 실시예에 적용되는 요약 모델의 학습 방법에 대하여 예시적으로 도시한 것이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
비록 제1, 제2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.
이하에서는, 도 1a 및 도 1b를 참조하여, 본 발명의 다양한 실시예에 따른 문서 요약용 장치를 상세히 설명한다.
도 1a은 본 발명의 일 실시예에 따른 문서 요약 시스템을 설명하기 위한 개략도이다. 도 1b는 본 발명의 일 실시예에 따른 문서 요약용 장치를 설명하기 위한 개략도이다.
먼저, 도 1a을 참조하면, 문서 요약 시스템 (1000) 은, 요약문을 생성하도록 구성된 본 발명의 일 실시예에 따른 문서 요약 장치 (100) 와 요약하고자 하는 문서를 제공하는 사용자 디바이스 (200) 로 이루어질 수 있다. 이때, 본 발명의 일 실시예에 따른 문서 요약 장치 (100) 는, 사용자 디바이스 (200) 로부터 수신된 문서의 내용들에 기초하여, 요약문을 생성하도록 구성된 문서 요약 장치 (100) 로 구성된다. 한편, 문서 요약 장치 (100) 는, 사용자 디바이스 (200) 로부터 문서를 수신할 수 있고, 다양한 문서들이 데이터화되어 저장된 DB 시스템으로부터 문서를 수신할 수도 있다.
보다 구체적으로, 도 1b를 함께 참조하면, 본 발명의 일 실시예에 따른 문서 요약용 장치 (100) 는 수신부 (110), 입력부 (120), 출력부 (130), 저장부 (140) 및 프로세서 (150) 를 포함할 수 있다.
이때, 수신부 (110) 는 복수의 문장을 포함하는 문서를 수신하도록 구성될 수 있다. 이때, 수신부 (110) 는 사용자 디바이스 (200) 와 통신하도록 연결되어 목적 문서를 수신하도록 구성될 수 있다.
입력부 (120) 는 키보드, 마우스, 터치 스크린 패널 등 제한되지 않는다. 입력부 (120) 는 문서 요약용 장치 (100) 를 설정하고, 이의 동작을 지시하도록 구성될 수 있다. 본 발명의 특징에 따르면, 입력부 (120) 는, 사용자로부터 문서 내의 특정 문단에 대한 선택을 입력 받도록 더욱 구성될 수 있다.
출력부 (130) 는, 수신부 (110) 에 의해 수신된 문서를 표시하거나, 프로세서 (150) 에 의해 생성된, 문서에 대한 요약 정보를 표시할 수 있다.
저장부 (140) 는, 수신부 (110) 에 수신된 다양한 문서, 입력부 (120) 를 통해 입력된 사용자의 선택을 저장하도록 구성될 수 있다. 나아가, 저장부 (140) 는 후술할 프로세서 (150) 에 의해 생성된 다양한 요약 정보를 저장하도록 구성될 수 있다. 그러나, 이에 제한되지 않고, 저장부 (140) 는 프로세서 (150) 가 다양한 모델에 기초하여 요약문을 생성하는 과정에서 생성되는 모든 데이터들을 저장하도록 구성될 수 있다.
프로세서는 (150) 는, 비지도 학습 기반의 문서 요약 시스템에 사전 학습된 언어 모델과 인코더-디코더 기반의 요약 모델에 기초할 수 있다.
보다 구체적으로, 프로세서 (150) 는, 문장을 클러스터링 하도록 구성된 사전 학습된 언어 모델을 이용하여, 문서 내의 복수의 문장을 클러스터링 하고, 문장 클러스터에 기초하여 비지도 학습 방법으로 요약문을 생성하도록 구성된 요약 모델을 이용하여, 클러스터링된 복수의 문장 각각에 대한 요약문을 생성하도록 구성될 수 있다. 나아가, 프로세서 (150) 는, 문서에 대한 최종 요약문을 획득하도록, 복수의 문장 각각에 대한 요약문을 재구성하도록 구성될 수 있다.
본 발명의 특징에 따르면, 프로세서 (150) 는, 사전 학습된 언어 모델을 이용하여, 복수의 문장을 다차원 벡터로 임베딩 (embedding) 하고, 복수의 문장 각각에 대하여 생성된 복수의 벡터의 거리에 기초하여 복수의 문장을 클러스터링하도록 더 구성될 수 있다.
한편, 프로세서 (150) 내의 요약 모델은, 두 가지 방법으로 비지도 학습된 모델로서, 하나는 자기 부호화 (Auto-Encoder) 손실 함수에 기초하여 학습되고, 다른 하나는 디코딩되어 생성된 요약을 다시 인코딩 시키고 이를 생성을 위해 사용된 문장들의 임베딩 벡터와 그 코사인 유사도 손실 함수에 기초하여 학습될 수 있다.
보다 구체적으로, 프로세서 (150) 내의 요약 모델은, 학습용 복수의 문장을 포함하는 학습용 문서를 수신하고, 사전 학습된 언어 모델을 이용하여 학습용 복수의 문장을 클러스터링하고, 압축된 학습용 문장 클러스터를 획득하도록, 클러스터링된 학습용 복수의 문장 각각을 인코딩하고, 재구성된 학습용 문장을 획득하도록, 압축된 학습용 문장 클러스터 각각을 디코딩하고, 재구성된 학습용 문장 및 클러스터링된 학습용 복수의 문장의 유사도 손실 함수를 최소화하도록 세부 조정하고, 통합된 문장을 획득하도록, 클러스터링 학습용 복수의 문장 각각을 인코딩하고, 통합된 요약문을 획득하도록, 통합된 문장을 디코딩하고, 인코딩된 요약문을 획득하도록, 상기 통합된 요약문을 인코딩하고, 압축된 학습용 문장 클러스터 및 인코딩된 요약문의 유사도 손실 함수를 최소화하도록 세부 조정 (fine tuning) 되는 단계를 통해 비지도 학습된 모델일 수 있다.
따라서, 본 발명의 일 실시예에 따른 문서 요약용 장치 (100) 는, 사전 학습된 언어 모델과 인코더-디코더 기반의 요약 모델이 적용된 비지도 학습 기반의 문서 요약 시스템을 제공함으로써, 실제 사람이 문서를 요약한 것과 유사한 정도의 정확도 및 가독성이 높은 요약문을 제공할 수 있다.
이에, 사용자는, 문서 요약 시스템 (1000) 에 의해, 다양한 문서들에 대한 요약 정보를 제공받을 수 있다.
이하에서는 도 2a 내지 2c를 참조하여 본 발명의 다양한 실시예에 따른 문서 요약 방법을 설명한다. 도 2a 내지 2c는 본 발명의 일 실시예에 따른 문서 요약 방법을 설명하기 위한 개략적인 순서도이다.
도 2a를 참조하면, 먼저 본 발명의 일 실시예에 따른 문서 요약 방법에 따라, 복수의 문장을 포함하는 문서가 수신된다 (S210). 그 다음, 사전 학습된 언어 모델에 의해 문서 내의 복수의 문장이 클러스터링되고 (S220), 요약 모델에 의해 클러스터링된 복수의 문장 각각에 대한 요약문이 생성된다 (S230). 마지막으로, 문서에 대한 최종 요약문이 획득된다 (S240).
보다 구체적으로, 문서가 수신되는 단계 (S210) 에서, 복수의 문장으로 구성된 문서가 수신된다 (S210).
그 다음, 복수의 문장이 클러스터링되는 단계 (S220) 에서, 문장을 클러스터링 하도록 구성된 사전 학습된 언어 모델을 이용하여, 문서 내의 복수의 문장이 클러스터링된다.
이때, 사전 학습된 언어 모델은 BERT일 수 있으나 이에 제한되지 않고, K-평균 클러스터링 (K-means clustering) 등의 다양한 클러스터링 알고리즘에 기초할 수도 있다.
예를 들어, 도 2b를 함께 참조하면, 복수의 문장이 클러스터링되는 단계 (S220) 에서, 사전 학습된 양방향 언어 분석 모델인 BERT을 통해 다차원 벡터로 문장 임베딩이 수행되고, 벡터에 기초하여 유클리디언 거리 기반으로 문장 클러스터를 분류하는 클러스터링이 수행된다. 이러한 클러스터링은, 유사 의미를 갖는 문장들끼리 서로 유클리디언 거리가 가깝다는 특징을 이용한 것으로, 이 과정을 통해 관련 있는 문장들마다 하나의 클러스터로 구성되게 된다.
그 다음, 복수의 문장 각각에 대한 요약문이 생성되는 단계 (S230) 에서, 문장 클러스터에 기초하여 비지도 학습 방법으로 요약문을 생성하도록 구성된 요약 모델에 의해, 클러스터링된 복수의 문장 각각에 대한 요약문이 생성될 수 있다.
보다 구체적으로, 도 2c를 함께 참조하면, 복수의 문장 각각에 대한 요약문이 생성되는 단계 (S230) 에서, 인코더-디코더 기반의 요약 모델에 문장 클러스터가 입력된다. 다음으로, 문장 클러스터의 평균에 기초하여 통합된 요약 이 생성되고, 문장 클러스터에 대한 압축된 문장 클러스터가 생성된다. 다음으로, 압축된 요약이 인코딩되어 생성된 요약문이 전술한 압축된 문장 클러스터와 유사하도록 세부 조정되고, 압축된 문장이 디코딩되어 재구성된 문장이 초기의 문장 클러스터와 유사하도록 세부 조정된다. 결과적으로, 인코더-디코더 기반의 요약 모델에 의해 세부 조정 과정을 거쳐, 문장 클러스터 각각에 대한 요약문이 출력되게 된다.
다시 도 2a를 참조하면, 문서에 대한 최종 요약문이 획득되는 단계 (S240) 에서, 복수의 문장 각각에 대한 요약문이 재구성되고, 문서 전체에 대한 요약문이 생성될 수 있다.
이에, 본 발명의 다양한 실시예에 따른 문서 요약 방법은, 요약 정보 제공을 위한 문서 요약 시스템에 적용될 수 있다.
이하에서는, 도 3a 및 3b를 참조하여, 본 발명의 다양한 실시예에 적용되는 요약 모델의 학습 방법 및 이의 구성에 대하여 예시적으로 설명한다.
도 3a 및 3b는 본 발명의 다양한 실시예에 적용되는 요약 모델의 학습 방법에 대하여 예시적으로 도시한 것이다.
먼저, 도 3a를 참조하면, 요약 모델은, 학습용 복수의 문장을 포함하는 학습용 문서가 수신되고 (S310), 사전 학습된 언어 모델에 의해 학습용 복수의 문장이 클러스터링되고 (S320), 압축된 학습용 문장 클러스터를 획득하도록, 클러스터링된 학습용 복수의 문장 각각이 인코딩된다 (S330). 그 다음, 재구성된 학습용 문장을 획득하도록, 압축된 학습용 문장 클러스터 각각이 디코딩되고 (S340), 재구성된 학습용 문장 및 클러스터링된 학습용 복수의 문장의 유사도 손실 함수를 최소화하도록 세부 조정된다 (S350). 동시에, 통합된 문장을 획득하도록, 클러스터링 학습용 복수의 문장 각각이 인코딩되고 (S360), 통합된 요약문을 획득하도록, 통합된 문장이 디코딩되고 (S370), 인코딩된 요약문을 획득하도록, 통합된 요약문이 다시 인코딩된다 (S380). 마지막으로, 압축된 학습용 문장 클러스터 및 인코딩된 요약문의 유사도 손실 함수를 최소화하도록 다시 세부 조정된다 (S390).
이와 같이, 다양한 인코딩 및 디코딩이 동시에 수행될 수 있다.
보다 구체적으로, 도 3b를 함께 참조하면, 클러스터링된 학습용 복수의 문장 각각이 인코딩되는 단계 (S330) 에서, 사전 학습된 언어 모델에 의해 학습용 문서에 대하여 클러스터링된, 학습용 문장 클러스터가 인코더-디코더 기반의 요약 모델에 입력된다. 그 다음, 클러스터링된 학습용 복수의 문장 각각이 인코딩되고, 압축된 학습용 문장 클러스터가 획득된다. 이와 동시에, 클러스터링 학습용 복수의 문장 각각이 인코딩되는 단계 (S360) 가 수행되고, 인코더에 의해 통합된 학습용 문장 클러스터가 획득된다.
다음으로, 압축된 학습용 문장 클러스터 각각이 디코딩되는 단계 (S340) 에서, 압축된 학습용 문장 클러스터가 디코더에 의해 재구성되어 재구성된 학습용 문장이 획득된다. 그 다음, 재구성된 학습용 문장 및 사전 학습된 언어 모델에 의해 학습용 문서에 대하여 클러스터링된, 학습용 문장 클러스터에 대하여 유사도 손실 함수가 최소화하도록 세부 조정된다 (S350). 이와 동시에, 클러스터링 학습용 복수의 문장 각각이 인코딩되는 단계 (S360) 에 의해 생성된 통합된 학습용 문장 클러스터가 디코더에 의해 디코딩되어 (S370) 통합된 요약문이 획득되고, 다시 통합된 요약문이 인코더에 의해 인코딩되어 (S380) 인코딩된 요약문이 획득된다. 최종적으로, 전술한 클러스터링된 학습용 복수의 문장 각각이 인코딩되는 단계 (S330) 의 결과로 획득된, 압축된 학습용 문장 클러스터와 인코딩된 요약문에 대하여, 유사도 손실 함수가 최소화하도록 세부 조정된다 (S390).
즉, 이와 같이 인코딩 및 디코딩이 동시 및/또는 이시에 수행되면서, 요약 모델에 대한 비지도 학습이 이루어질 수 있다.
이때, 요약 모델의 비지도 학습 단계에서, 인코더와 디코더는 학습 파라미터를 공유할 수 있도록 구성될 수 있다.
결과적으로, 이와 같이 두 가지 방법으로 손실 함수를 최소화하도록 요약 모델이 비지도 학습되면서, 네트워크 파라미터들은 세부 조정될 수 있고,
이에, 본 발명은, 사전 학습된 언어 모델과 인코더-디코더 기반의 요약 모델이 적용된 비지도 학습 기반의 문서 요약 시스템을 제공함으로써, 실제 사람이 문서를 요약한 것과 유사한 정도의 정확도 및 가독성이 높은 요약문을 제공할 수 있다.
특히, 두 가지 방법으로 비지도 학습된 요약 모델 내의 인코더 및 디코더가 서로 학습 마라미터를 공유하도록 하여, 두 가지의 손실 함수를 최소화하는 학습을 통해 네트워크 파라미터들이 세부 조정 되도록 문서 요약 시스템을 구축함에 따라, 종래의 추상 요약 기술보다 우수한 문서 요약 성능을 제공할 수 있다.
이상 첨부된 도면을 참조하여 본 발명의 일 실시예들을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형 실시될 수 있다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100: 문서 요약용 장치
110: 수신부
120: 입력부
130: 출력부
140: 저장부
150: 프로세서
200: 사용자 디바이스
1000: 문서 요약 시스템

Claims (6)

  1. 프로세서에 의해 구현되는 문서 요약 방법으로서,
    복수의 문장을 포함하는 문서를 수신하는 단계;
    문장을 클러스터링 하도록 구성된 사전 학습된 언어 모델을 이용하여, 상기 문서 내의 상기 복수의 문장을 클러스터링 하는 단계;
    문장 클러스터에 기초하여 비지도 학습 방법으로 요약문을 생성하도록 구성된 요약 모델을 이용하여, 클러스터링된 복수의 문장 각각에 대한 요약문을 생성하는 단계, 및
    상기 문서에 대한 최종 요약문을 획득하도록, 상기 복수의 문장 각각에 대한 요약문을 재구성하는 단계를 포함하는, 문서 요약 방법.
  2. 제1항에 있어서,
    상기 복수의 문장을 클러스터링하는 단계는,
    상기 사전 학습된 언어 모델을 이용하여, 상기 복수의 문장을 다차원 벡터로 임베딩 (embedding) 하는 단계, 및
    상기 복수의 문장 각각에 대하여 생성된 복수의 벡터의 거리에 기초하여 상기 복수의 문장을 클러스터링하는 단계를 포함하는, 문서 요약 방법.
  3. 제1항에 있어서,
    상기 요약 모델은,
    학습용 복수의 문장을 포함하는 학습용 문서를 수신하는 단계;
    상기 사전 학습된 언어 모델을 이용하여 상기 학습용 복수의 문장을 클러스터링하는 단계;
    압축된 학습용 문장 클러스터를 획득하도록, 클러스터링된 학습용 복수의 문장 각각을 인코딩하는 단계;
    재구성된 학습용 문장을 획득하도록, 상기 압축된 학습용 문장 클러스터 각각을 디코딩하는 단계;
    상기 재구성된 학습용 문장 및 상기 클러스터링된 학습용 복수의 문장의 유사도 손실 함수를 최소화하도록 세부 조정 (fine tuning) 하는 단계;
    통합된 문장을 획득하도록, 상기 클러스터링 학습용 복수의 문장 각각을 인코딩하는 단계;
    통합된 요약문을 획득하도록, 상기 통합된 문장을 디코딩하는 단계;
    인코딩된 요약문을 획득하도록, 상기 통합된 요약문을 인코딩하는 단계, 및
    상기 압축된 학습용 문장 클러스터 및 상기 인코딩된 요약문의 유사도 손실 함수를 최소화하도록 세부 조정 (fine tuning) 하는 단계를 통해 비지도 학습된 모델인, 문서 요약 방법.
  4. 복수의 문장을 포함하는 문서를 수신하도록 구성된 수신부, 및
    상기 수신부와 통신하도록 구성된 프로세서를 포함하고,
    상기 프로세서는,
    문장을 클러스터링 하도록 구성된 사전 학습된 언어 모델을 이용하여, 상기 문서 내의 상기 복수의 문장을 클러스터링 하고, 문장 클러스터에 기초하여 비지도 학습 방법으로 요약문을 생성하도록 구성된 요약 모델을 이용하여, 클러스터링된 복수의 문장 각각에 대한 요약문을 생성하고, 상기 문서에 대한 최종 요약문을 획득하도록, 상기 복수의 문장 각각에 대한 요약문을 재구성하도록 구성된, 문서 요약용 디바이스.
  5. 제4항에 있어서,
    상기 프로세서는,
    상기 사전 학습된 언어 모델을 이용하여, 상기 복수의 문장을 다차원 벡터로 임베딩 (embedding) 하고, 상기 복수의 문장 각각에 대하여 생성된 복수의 벡터의 거리에 기초하여 상기 복수의 문장을 클러스터링하도록 더 구성된, 문서 요약용 디바이스.
  6. 제4항에 있어서,
    상기 요약 모델은,
    학습용 복수의 문장을 포함하는 학습용 문서를 수신하고, 상기 사전 학습된 언어 모델을 이용하여 상기 학습용 복수의 문장을 클러스터링하고, 압축된 학습용 문장 클러스터를 획득하도록, 클러스터링된 학습용 복수의 문장 각각을 인코딩하고, 재구성된 학습용 문장을 획득하도록, 상기 압축된 학습용 문장 클러스터 각각을 디코딩하고, 상기 재구성된 학습용 문장 및 상기 클러스터링된 학습용 복수의 문장의 유사도 손실 함수를 최소화하도록 세부 조정 (fine tuning) 하고, 통합된 문장을 획득하도록, 상기 클러스터링 학습용 복수의 문장 각각을 인코딩하고, 통합된 요약문을 획득하도록, 상기 통합된 문장을 디코딩하고, 인코딩된 요약문을 획득하도록, 상기 통합된 요약문을 인코딩하고, 상기 압축된 학습용 문장 클러스터 및 상기 인코딩된 요약문의 유사도 손실 함수를 최소화하도록 세부 조정 (fine tuning) 되는 단계를 통해 비지도 학습된 모델인, 문서 요약용 디바이스.
KR1020190145024A 2019-11-13 2019-11-13 문장 임베딩 기반의 비지도 학습 문서 요약 방법 및 이를 이용한 문서 요약용 디바이스 KR20210058059A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190145024A KR20210058059A (ko) 2019-11-13 2019-11-13 문장 임베딩 기반의 비지도 학습 문서 요약 방법 및 이를 이용한 문서 요약용 디바이스

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190145024A KR20210058059A (ko) 2019-11-13 2019-11-13 문장 임베딩 기반의 비지도 학습 문서 요약 방법 및 이를 이용한 문서 요약용 디바이스

Publications (1)

Publication Number Publication Date
KR20210058059A true KR20210058059A (ko) 2021-05-24

Family

ID=76153270

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190145024A KR20210058059A (ko) 2019-11-13 2019-11-13 문장 임베딩 기반의 비지도 학습 문서 요약 방법 및 이를 이용한 문서 요약용 디바이스

Country Status (1)

Country Link
KR (1) KR20210058059A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283242A (zh) * 2021-05-31 2021-08-20 西安理工大学 一种基于聚类与预训练模型结合的命名实体识别方法
KR20230055164A (ko) 2021-10-18 2023-04-25 (주)아이와즈 치안정보 문서 작성 가이드 시스템 및 그 방법
KR20230065017A (ko) * 2021-11-04 2023-05-11 연세대학교 산학협력단 인공지능 분석 기반 프로그램 소스코드의 요약문 생성 장치 및 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283242A (zh) * 2021-05-31 2021-08-20 西安理工大学 一种基于聚类与预训练模型结合的命名实体识别方法
CN113283242B (zh) * 2021-05-31 2024-04-26 西安理工大学 一种基于聚类与预训练模型结合的命名实体识别方法
KR20230055164A (ko) 2021-10-18 2023-04-25 (주)아이와즈 치안정보 문서 작성 가이드 시스템 및 그 방법
KR20230065017A (ko) * 2021-11-04 2023-05-11 연세대학교 산학협력단 인공지능 분석 기반 프로그램 소스코드의 요약문 생성 장치 및 방법

Similar Documents

Publication Publication Date Title
Bai et al. A survey on automatic image caption generation
Yang et al. Multitask learning for cross-domain image captioning
Welleck et al. Non-monotonic sequential text generation
Gao et al. Video captioning with attention-based LSTM and semantic consistency
KR101855597B1 (ko) 계층적 회귀 신경망을 이용하여 비디오 문절을 캡셔닝하기 위한 시스템 및 방법
CN110288980A (zh) 语音识别方法、模型的训练方法、装置、设备及存储介质
CN104735468B (zh) 一种基于语义分析将图像合成新视频的方法及系统
CN109657051A (zh) 文本摘要生成方法、装置、计算机设备及存储介质
CN109582952B (zh) 诗歌生成方法、装置、计算机设备和介质
Li et al. Residual attention-based LSTM for video captioning
CN111597779B (zh) 文本生成方法、装置、设备以及存储介质
KR20210058059A (ko) 문장 임베딩 기반의 비지도 학습 문서 요약 방법 및 이를 이용한 문서 요약용 디바이스
CN112818670B (zh) 可分解变分自动编码器句子表示中的切分语法和语义
CN111881292B (zh) 一种文本分类方法及装置
CN111931500A (zh) 搜索信息的处理方法、装置
EP3732592A1 (en) Intelligent routing services and systems
CN113239169A (zh) 基于人工智能的回答生成方法、装置、设备及存储介质
CN113807074A (zh) 基于预训练语言模型的相似语句生成方法和装置
KR20200087977A (ko) 멀티모달 문서 요약 시스템 및 방법
CN113407663B (zh) 基于人工智能的图文内容质量识别方法和装置
Yang et al. Open domain dialogue generation with latent images
US20230215162A1 (en) Method and apparatus for text-to-image generation using self-supervised discriminator to extract image feature
CN115293348A (zh) 一种多模态特征提取网络的预训练方法及装置
US20210227223A1 (en) System and methods for artificial intelligence explainability via symbolic generative modeling
CN113705315A (zh) 视频处理方法、装置、设备及存储介质