KR20210151281A - Bert의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치 - Google Patents

Bert의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치 Download PDF

Info

Publication number
KR20210151281A
KR20210151281A KR1020200067679A KR20200067679A KR20210151281A KR 20210151281 A KR20210151281 A KR 20210151281A KR 1020200067679 A KR1020200067679 A KR 1020200067679A KR 20200067679 A KR20200067679 A KR 20200067679A KR 20210151281 A KR20210151281 A KR 20210151281A
Authority
KR
South Korea
Prior art keywords
sentence
extracting
textrank
vector
sentences
Prior art date
Application number
KR1020200067679A
Other languages
English (en)
Other versions
KR102535852B1 (ko
Inventor
손영두
양승호
신석원
Original Assignee
동국대학교 산학협력단
주식회사 인사이저
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동국대학교 산학협력단, 주식회사 인사이저 filed Critical 동국대학교 산학협력단
Priority to KR1020200067679A priority Critical patent/KR102535852B1/ko
Publication of KR20210151281A publication Critical patent/KR20210151281A/ko
Application granted granted Critical
Publication of KR102535852B1 publication Critical patent/KR102535852B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 ERT의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치에 관한 것으로, 본 발명의 일실시예에 따른 BERT의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법은 컴퓨팅 장치에서 실행되는 핵심 문장 추출에 관한 컴퓨터 구현 방법(Computer implemented method)으로서, 핵심 문장을 추출하고자 하는 자연어 데이터를 문장 단위로 분할하는 제1 단계; 상기 분할된 각 문장 앞에 특별 분류 토큰(CLS: special classification token)을 추가하는 제2 단계; 문장 벡터 변환 모델을 이용해 상기 특별 분류 토큰(CLS)이 추가된 각 문장을 문장 벡터로 변환시키는 제3 단계; 상기 문장 벡터들을 기반으로 문장 사이의 유사도를 계산하여 유사도 매트릭스(Matrix)를 구성하는 제4 단계; 상기 유사도 매트릭스를 텍스트랭크(TextRank)에 적용하여 각 문장 별 중요도를 산출하는 제5 단계; 및 상기 산출된 중요도에 따라 핵심 문장을 추출하는 제6 단계;를 포함한다.

Description

BERT의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치{TEXTRANK BASED CORE SENTENCE EXTRACTION METHOD AND DEVICE USING BERT SENTENCE EMBEDDING VECTOR}
본 발명은 텍스트랭크 기반 핵심 문장 추출 방법 및 장치에 관한 것으로, 보다 상세하게는 BERT의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치에 관한 것이다.
기존의 핵심문장 추출은 텍스트랭크(TextRank)를 이용한 핵심문장 추출이 주를 이루었다. 텍스트랭크(TextRank)는 토큰(문서, 문장, 단어 등)의 단위로 토큰 간의 유사도를 계산하여 유사도 매트릭스(Matrix)를 기반으로 토큰 별 중요도를 계산하는 방법론이다. 이는 토큰 간의 유사도 매트릭스(Matrix)에 의존적인 방법론으로 토큰 간의 유사도를 계산하는 방식에 의존적인 방법론이다.
문장 간의 유사도를 계산하는 방식은 출현 단어의 횟수 혹은 존재 여부를 토대로 문장을 벡터화(BoW; Bag of Words)하여 벡터 간의 거리를 기반으로 유사도를 부여하는 방식을 주로 사용하였다.
단순한 빈도에 의존적인 자연어 토큰의 수치화(BoW)는 단어의 존재여부와 단어의 출현 횟수 정보만을 포함하기 때문에 토큰이 가지고 있는 의미나, 토큰의 위치가 가지고 있는 정보를 모두 반영해주기 힘들다. 이를 해결하기 위해 최초로 도입된 방법은 단어 출현을 기반으로 비지도 학습 기법을 이용한 모델이다. 하지만, 이 또한, 단어의 출현 순서, 혹은 단어 동시 출현 여부 정보만 반영되기 때문에 단어의 의미나 단어 자체가 가지고 있는 특성을 완벽히 파악했다고 보기 힘들다. 이에 따라 최근에는 자연어 토큰이 가지고 있는 의미를 단어 간의 관계와 여러 가지 자연어 처리 작업을 통해 학습된 기계학습 모델로 추출하는 방식이 많이 연구되고 있고 이를 언어 모델이라 부른다.
언어 모델은 질문에 대한 정답 찾기, 이어질 문장 고르기, 사이 단어 고르기 등 여러 가지 자연어 처리 작업을 통해 학습된 모델이다. 언어 모델은 위에 명시한 자연어 처리 작업을 위해 토큰 단위(문서, 문장, 단어 등)로 적절한 벡터를 생성해내기 때문에, 단어의 존재 여부 혹은 출현 횟수 정도의 정보가 담긴 빈도기반 방법의 수치화를 넘어서서 단어가 가진 내재적인 의미나 단어가 문장에 미치는 영향 등 복잡한 언어 체계 자체가 생성되는 벡터에 영향을 미치는 구조이다.
언어 모델의 대표적인 예시로는 GPT, ELMo 등이 있다. 하지만 GPT와 ELMo 등의 언어 모델은 순환 신경망 구조를 기본 구조로 하고 있기 때문에 언어 모델이 토큰 단위로 언어를 분석함에 있어서, 분석 순서가 존재한다. 이는 특정 토큰을 분석 할 때, 해당 토큰 이전의 토큰만 영향을 미치거나 이후의 토큰만 영향을 미치기 때문에, 앞과 뒷 문맥이 모두 영향을 미치는 언어 체계에 완벽하게 설계된 모델은 아니었다.
BERT(Bidirectional Encoder Representations from Transformers)는 구글(Google)에서 개발한 언어 모델로, 기존의 순환 신경망 구조에서 벗어나 멀티 헤드 셀프 어텐션(Multi head Self Attention)을 기본 구조로 하는 트랜스포머(Transformer) 모델을 바탕으로 구성된 모델이다. 이는 토큰을 분석할 때마다 앞/뒤 문맥을 다시보고 해당 토큰에 대한 분석을 수행하기 때문에 앞/뒤 문맥을 지속적으로 반영해줄 수 있다. 동시에 MLM(Masking 기법이 적용된 언어모델)을 사용하는데, 이는 주어진 텍스트 데이터의 일부를 가리고 가려진 단어가 무엇인지 학습시키는 방법으로 단어 간의 관계를 학습하게 된다. 이를 통해 BERT는 여러 자연어 처리 작업에서 기존 언어 모델의 성능을 넘어서는 최고 수준의 성능을 보여주었다.
텍스트 데이터가 가진 통계적인 정보를 벗어나 각각의 단어 혹은 문장에 내제된 의미까지 분석할 수 있는 언어 모델이 존재함에도 불구하고 현재 문장에서 정보를 추출(핵심문장, 키워드 추출 등)하는 방법은 기존의 빈도 기반의 방법론의 한계를 벗어나지 못하고 있다. 이는 정보 추출에 문장이나 혹은 문맥이 가진 의미를 완전히 반영해주지 못한다는 한계점을 가지고 있다.
이와 같은 핵심문장 추출 방법은 언어 모델의 개념이 생기기 전이었으며, 아직까지 언어 모델의 문장 수치화를 이용하여 핵심문장을 추출하는 방법은 존재하지 않는다. 단순 통계적 수치를 벗어나 언어 체계에 대한 이해를 바탕으로 수치화된 BERT의 문장 임베딩(Embedding)들을 기반으로 한 핵심문장 추출 기법에 대한 개발이 필요하다.
본 발명은 텍스트랭크(TextRank)를 이용하여 핵심문장 추출하는 방식에 BERT(Bidirectional Encoder Representations from Transformers) 모델로 추출된 문장의 유의미한 임베딩 벡터(Embedding vector)를 사용하는 방법을 제공하여, 현재 이용 가능한 최고 수준의 언어 모델을 핵심문장 추출에 이용할 수 있는 간단한 방법을 구축할 수 있도록 하고자 한다.
본 발명의 일실시예에 따른 BERT의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법은 컴퓨팅 장치에서 실행되는 핵심 문장 추출에 관한 컴퓨터 구현 방법(Computer implemented method)으로서, 핵심 문장을 추출하고자 하는 자연어 데이터를 문장 단위로 분할하는 제1 단계; 상기 분할된 각 문장 앞에 특별 분류 토큰(CLS: special classification token)을 추가하는 제2 단계; 문장 벡터 변환 모델을 이용해 상기 특별 분류 토큰(CLS)이 추가된 각 문장을 문장 벡터로 변환시키는 제3 단계; 상기 문장 벡터들을 기반으로 문장 사이의 유사도를 계산하여 유사도 매트릭스(Matrix)를 구성하는 제4 단계; 상기 유사도 매트릭스를 텍스트랭크(TextRank)에 적용하여 각 문장 별 중요도를 산출하는 제5 단계; 및 상기 산출된 중요도에 따라 핵심 문장을 추출하는 제6 단계;를 포함한다.
본 발명의 다른 일실시예에 따르면, 상기 제2 단계는 상기 특별 분류 토큰(CLS)을 문장 토큰의 임베딩 벡터(embedding vector)로 사용할 수 있다.
본 발명의 다른 일실시예에 따르면, 상기 제3 단계는 BERT(Bidirectional Encoder Representations from Transformers) 모델을 이용하여 상기 특별 분류 토큰(CLS)이 추가된 각 문장을 문장 벡터로 변환시킬 수 있다.
본 발명의 다른 일실시예에 따르면, 상기 제4 단계는 상기 각 문장의 벡터 값의 내적 값을 이용해 문장 유사도를 계산하여 유사도 매트릭스를 구성할 수 있다.
본 발명의 다른 일실시예에 따르면, 상기 산출된 중요도의 값이 가장 높은 문장을 핵심 문장으로 추출할 수 있다.
본 발명의 일실시예에 따른 BERT의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 장치는 메모리; 적어도 하나의 프로세서; 및 상기 메모리에 저장되며, 상기 적어도 하나의 프로세서에 의해 실행되도록 구현되는 핵심 문장 추출에 관한 프로그램을 포함하는 컴퓨팅 장치로서, 상기 핵심 문장 추출에 관한 프로그램은,
핵심 문장을 추출하고자 하는 자연어 데이터를 문장 단위로 분할하는 제1 단계; 상기 분할된 각 문장 앞에 특별 분류 토큰(CLS: special classification token)을 추가하는 제2 단계; 문장 벡터 변환 모델을 이용해 상기 특별 분류 토큰(CLS)이 추가된 각 문장을 문장 벡터로 변환시키는 제3 단계; 상기 문장 벡터들을 기반으로 문장 사이의 유사도를 계산하여 유사도 매트릭스(Matrix)를 구성하는 제4 단계; 상기 유사도 매트릭스를 텍스트랭크(TextRank)에 적용하여 각 문장 별 중요도를 산출하는 제5 단계; 및 상기 산출된 중요도에 따라 핵심 문장을 추출하는 제6 단계;를 수행하는 명령어들을 포함할 수 있다.
본 발명은 텍스트랭크(TextRank)를 이용하여 핵심문장 추출하는 방식에 BERT(Bidirectional Encoder Representations from Transformers) 모델로 추출된 문장의 유의미한 임베딩 벡터(Embedding vector)를 사용하는 방법을 제공하여, 현재 이용 가능한 최고 수준의 언어 모델을 핵심문장 추출에 이용할 수 있는 간단한 방법을 구축할 수 있는 효과가 있다. 이에 의할 때, 본 발명은 기존의 텍스트 데이터를 이용한 요약문 추출, 핵심 키워드 추출 문제에 활용되어, 뉴스 데이터를 이용한 금융시장 분석, 리뷰 데이터를 이용한 고객 니즈, 상품 문제점 분석 등에 적용될 수 있으며, 국내외 산업에서 텍스트 데이터의 활용을 더욱 활성화시킬 수 있다.
도 1은 본 발명의 일실시예에 따른 BERT의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법을 설명하기 위한 흐름도이다.
도 2는 본 발명의 일실시예에 따른 문장 벡터를 기반으로 계산된 유사도 매트릭스(Matrix)를 도시한 도면이다.
도 3은 본 발명의 일실시예에 따른 각 문장 별 중요도를 추출하는 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일실시예에 따른 핵심 문장을 추출하는 방법을 설명하기 위한 도면이다.
도 5는 본 발명의 일실시예에 따른 핵심 문장 추출 방법을 실행하는 컴퓨팅 장치에 관한 개략적인 블록 구성도이다.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.
또한, 명세서 전체에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다. 또한, 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하나 이상의 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 조합으로 구현될 수 있음을 의미한다.
본 발명은 BERT(Bidirectional Encoder Representations from Transformers) 모델을 이용한 핵심문장 추출 방법에 관한 것으로, 핵심문장 추출에 필요한 적합한 문장 간의 유사도 선택 방법을 개시하고 있다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세히 설명한다.
도 1은 본 발명의 일실시예에 따른 BERT의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법을 설명하기 위한 흐름도이고, 도 2는 본 발명의 일실시예에 따른 문장 벡터를 기반으로 계산된 유사도 매트릭스(Matrix)를 도시한 도면이다.
또한, 도 3은 본 발명의 일실시예에 따른 각 문장 별 중요도를 추출하는 방법을 설명하기 위한 도면이고, 도 4는 본 발명의 일실시예에 따른 핵심 문장을 추출하는 방법을 설명하기 위한 도면이다. 또한, 도 5는 본 발명의 일실시예에 따른 핵심 문장 추출 방법을 실행하는 컴퓨팅 장치에 관한 개략적인 블록 구성도이다.
도 1을 참조하면, 먼저 핵심 문장 추출 장치가 핵심 문장을 추출하고자 하는 자연어 데이터를 문장 단위로 분할한다(S110).
이후에 상기 분할된 각 문장 앞에 특별 분류 토큰(CLS: special classification token)을 추가한다(S120).
본 발명의 일실시예에 따르면, 다양한 작업에 의해 학습된 사전 훈련된(Pre-trained) 언어 모델 중 가장 좋은 성능을 낸 BERT(Bidirectional Encoder Representations from Transformers) 모델의 특별 분류 토큰(CLS)을 이용한다
특별 분류 토큰(CLS)이란, 문장 단위의 내제된 정보를 이용하여 분류 작업에 사용할 때, 문장의 내제된 정보를 담고 있을 수 있도록 학습된 BERT 고유의 토큰이다.
특별 분류 토큰(CLS)을 이용하는 방식은 다음과 같다. 핵심 문장을 추출하고 싶은 자연어 데이터를 문장 단위로 나눈 뒤, 각 문장에 특별 분류 토큰(CLS)을 문장 앞에 추가한다. 특별 분류 토큰(CLS)은 '[CLS]'라는 단어를 문장 시작 부분에 추가하면 되기 때문에 다른 추가 제약조건 없이, 어떤 형태의 문장에도 추가가 가능하다. 이후, 모델에 의해 수치화된 특별 분류 토큰(CLS)의 벡터는 각 문장 사이의 유사도를 계산할 때 이용된다. 즉, 해당 특별 분류 토큰(CLS)은 BERT에서 문장 단위로 분류 작업을 실행할 때, 문장의 표현 벡터로 사용되는 토큰이며 특별 분류 토큰(CLS)의 표현 벡터를 문장 토큰의 임베딩 벡터(Embedding Vector)로 사용한다.
이후, 문장 벡터 변환 모델을 이용해 상기 특별 분류 토큰(CLS)이 추가된 각 문장을 문장 벡터로 변환한다(S130).
즉, 특별 분류 토큰(CLS)이 추가된 각 문장을 사전 훈련된(Pre-trained) BERT을 이용해 벡터화 한다.
그에 따라, 상기 문장 벡터들을 기반으로 문장 사이의 유사도를 계산하여 유사도 매트릭스(Matrix)를 구성한다(S140)
본 발명의 일실시예에 따른 문장 간 유사도 계산 방법을 설명하면, 각 문장의 유사도는 문장 벡터 간의 내적 값을 이용한다. 해당 방식은 코사인 유사도와 동일한 유사도 계산 방식으로 기존 코사인 유사도 계산이 두 벡터의 내적 값을 두 벡터의 크기 곱으로 나누어주는 방식에서 분모에 해당하는 두 벡터의 크기가 BERT 내부 알고리즘을 통해 1에 맞춰져 있음을 이용하는 방식이다. 유사도를 내적 값으로 하는 방법은 BERT 내부 알고리즘에서 토큰 사이의 유사도를 계산하는 방법과 동일한 방법으로 다른 유사도 척도보다 BERT 알고리즘을 통해 추출된 토큰(Token)에 적합한 방식이다.
도 2에 도시된 바와 같이, 계산된 문장 유사도를 기반으로 유사도 매트릭스(Matrix)를 구성한 후에는, 유사도 매트릭스(Matrix)를 텍스트랭크(TextRank)에 적용하여 각 문장 별로 중요도를 추출한다(S150).
따라서, 추출된 중요도에 따라 순위를 매겨 주어진 텍스트 데이터의 핵심 문장을 추출한다(S160).
도 3에는 실제 금융 뉴스에서의 텍스트랭크(TextRank)를 이용한 각 문장 별 중요도를 산출한 값이 도시되어 있으며, 도 4는 실제 금융 뉴스에서 핵심 문장을 추출한 예시가 도시되어 있다.
도 4에 도시된 바와 같이 가장 점수가 높은 문장(S2)과 그 다음으로 접수가 높은 문장(S1)을 핵심 문장으로 추출할 수 있다. 이와 같이 각 문장 별 중요도 값 중에서 가장 높은 값을 갖는 문장을 핵심 문장으로 추출할 수 있다.
즉, 본 발명에 따르면 기존에 원시 텍스트 데이터를 문장 단위로 나누어 특별 분류 토큰(CLS)을 추가하고, 특별 분류 토큰(CLS)이 추가된 문장을 BERT 모델을 기반으로 벡터화 한 뒤, 해당 문장 벡터들을 기반으로 문장 사이의 유사도를 계산하고 계산된 값으로 유사도 매트릭스(Matrix)를 구축한다. 그 후, 유사도 매트릭스(Matrix)를 텍스트랭크(TextRank)에 적용하여 각 문장 별로 중요도 값을 추출하고, 이와 같은 중요도를 기반으로 최종 핵심문장을 선정할 수 있다.
상술한 바와 같이 BERT의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법은, 도 5에 도시된 바와 같이, 적어도 하나의 프로세서(110)와 메모리(120)를 포함하는 컴퓨팅 장치(100)에 의해 실행될 수 있다. 이때, 메모리(120)에는 상술한 핵심 문장 추출을 위한 프로그램이 저장되며, 이러한 핵심 문장 추출을 위한 프로그램은 상기 적어도 하나의 프로세서(110)에 의해 실행되도록 구현될 수 있다.
이때, 상기 핵심 문장 추출에 관한 프로그램은, 핵심 문장을 추출하고자 하는 자연어 데이터를 문장 단위로 분할하고, 상기 분할된 각 문장 앞에 특별 분류 토큰(CLS: special classification token)을 추가하며, 문장 벡터 변환 모델을 이용해 상기 특별 분류 토큰(CLS)이 추가된 각 문장을 문장 벡터로 변환시키고, 상기 문장 벡터들을 기반으로 문장 사이의 유사도를 계산하여 유사도 매트릭스(Matrix)를 구성하며, 상기 유사도 매트릭스를 텍스트랭크(TextRank)에 적용하여 각 문장 별 중요도를 산출하고, 상기 산출된 중요도에 따라 핵심 문장을 추출하도록 하는 명령어들을 포함할 수 있다.
상술한 바에 따른 본 발명의 실시예에 의하면, 텍스트랭크(TextRank)를 이용하여 핵심문장 추출하는 방식에 BERT(Bidirectional Encoder Representations from Transformers) 모델로 추출된 문장의 유의미한 임베딩 벡터(Embedding vector)를 사용하는 방법을 제공하여, 현재 이용 가능한 최고 수준의 언어 모델을 핵심문장 추출에 이용할 수 있는 간단한 방법을 구축할 수 있는 효과가 있다. 또한 이에 의할 때, 기존의 텍스트 데이터를 이용한 요약문 추출, 핵심 키워드 추출 문제에 활용되어, 뉴스 데이터를 이용한 금융시장 분석, 리뷰 데이터를 이용한 고객 니즈, 상품 문제점 분석 등에 적용될 수 있으며, 국내외 산업에서 텍스트 데이터의 활용을 더욱 활성화시킬 수 있다.
이상에서는 본 발명의 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 쉽게 이해할 수 있을 것이다.

Claims (6)

  1. 컴퓨팅 장치에서 실행되는 핵심 문장 추출에 관한 컴퓨터 구현 방법(Computer implemented method)으로서,
    핵심 문장을 추출하고자 하는 자연어 데이터를 문장 단위로 분할하는 제1 단계;
    상기 분할된 각 문장 앞에 특별 분류 토큰(CLS: special classification token)을 추가하는 제2 단계;
    문장 벡터 변환 모델을 이용해 상기 특별 분류 토큰(CLS)이 추가된 각 문장을 문장 벡터로 변환시키는 제3 단계;
    상기 문장 벡터들을 기반으로 문장 사이의 유사도를 계산하여 유사도 매트릭스(Matrix)를 구성하는 제4 단계;
    상기 유사도 매트릭스를 텍스트랭크(TextRank)에 적용하여 각 문장 별 중요도를 산출하는 제5 단계; 및
    상기 산출된 중요도에 따라 핵심 문장을 추출하는 제6 단계;
    를 포함하는 BERT의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법.
  2. 청구항 1에 있어서,
    상기 제2 단계는,
    상기 특별 분류 토큰(CLS)을 문장 토큰의 임베딩 벡터(embedding vector)로 사용하는 BERT의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법.
  3. 청구항 1에 있어서,
    상기 제3 단계는,
    BERT(Bidirectional Encoder Representations from Transformers) 모델을 이용하여 상기 특별 분류 토큰(CLS)이 추가된 각 문장을 문장 벡터로 변환시키는 BERT의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법.
  4. 청구항 1에 있어서,
    상기 제4 단계는,
    상기 각 문장의 벡터 값의 내적 값을 이용해 문장 유사도를 계산하여 유사도 매트릭스를 구성하는 BERT의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법.
  5. 청구항 1에 있어서,
    상기 제6 단계는,
    상기 산출된 중요도의 값이 가장 높은 문장을 핵심 문장으로 추출하는 BERT의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법.
  6. 메모리; 적어도 하나의 프로세서; 및 상기 메모리에 저장되며, 상기 적어도 하나의 프로세서에 의해 실행되도록 구현되는 핵심 문장 추출에 관한 프로그램을 포함하는 컴퓨팅 장치로서,
    상기 핵심 문장 추출에 관한 프로그램은,
    핵심 문장을 추출하고자 하는 자연어 데이터를 문장 단위로 분할하고, 상기 분할된 각 문장 앞에 특별 분류 토큰(CLS: special classification token)을 추가하며, 문장 벡터 변환 모델을 이용해 상기 특별 분류 토큰(CLS)이 추가된 각 문장을 문장 벡터로 변환시키고, 상기 문장 벡터들을 기반으로 문장 사이의 유사도를 계산하여 유사도 매트릭스(Matrix)를 구성하며, 상기 유사도 매트릭스를 텍스트랭크(TextRank)에 적용하여 각 문장 별 중요도를 산출하고, 상기 산출된 중요도에 따라 핵심 문장을 추출하도록 하는 명령어들을 포함하는, 컴퓨팅 장치.
KR1020200067679A 2020-06-04 2020-06-04 Bert의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치 KR102535852B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200067679A KR102535852B1 (ko) 2020-06-04 2020-06-04 Bert의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200067679A KR102535852B1 (ko) 2020-06-04 2020-06-04 Bert의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20210151281A true KR20210151281A (ko) 2021-12-14
KR102535852B1 KR102535852B1 (ko) 2023-05-24

Family

ID=78935103

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200067679A KR102535852B1 (ko) 2020-06-04 2020-06-04 Bert의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102535852B1 (ko)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357142A (zh) * 2022-01-12 2022-04-15 南京题麦壳斯信息科技有限公司 一种无监督的英文写作切题评估方法及其系统和设备
KR102476104B1 (ko) * 2022-06-27 2022-12-09 한국과학기술정보연구원 사전학습 언어모델 구축장치 및 사전학습 언어모델의 어휘 확장 방법
KR102503854B1 (ko) * 2022-08-05 2023-02-27 주식회사 리플에이아이 영상 처리 방법 및 장치
KR102520248B1 (ko) * 2022-06-30 2023-04-10 주식회사 애자일소다 주요 구절 추출을 이용한 관련리뷰 필터링 장치 및 방법
KR102543647B1 (ko) * 2023-01-26 2023-06-15 (주)피플리 적응적 마스크드 어텐션 메커니즘을 이용한 에스팩트 기반 문장 내 감정 분석 방법, 장치 및 시스템
KR102583818B1 (ko) * 2022-09-14 2023-10-04 주식회사 글로랑 Bert를 기반으로한 응답자 집단을 대표하는 질의 응답 네트워크를 활용한 인적성 검사의 표집 과정 방법
WO2023196554A1 (en) * 2022-04-08 2023-10-12 Language Logic, Llc Systems and methods for generating codes and code books using cosine proximity
KR102591769B1 (ko) 2022-09-14 2023-10-24 주식회사 글로랑 언어 모델을 기반으로 질의 응답 네트워크를 활용한 인적성 검사의 문제 생성 방법 및 서버
KR102603298B1 (ko) 2023-01-17 2023-11-17 주식회사 코딧 대상문서로부터 의미론적 키워드를 추출하는 방법, 컴퓨터-판독가능 기록매체 및 이를 수행하는 컴퓨팅시스템
KR102652009B1 (ko) * 2023-09-07 2024-03-27 아이보람 주식회사 모국어 습득 원리를 적용한 영어 교육을 수행함에 있어, 뉴럴 네트워크를 이용하여 사용자 단말에게 동영상을 기반으로 하는 이북을 제공하는 방법 및 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1400901A2 (en) * 2002-09-19 2004-03-24 Microsoft Corporation Method and system for retrieving confirming sentences
KR101710010B1 (ko) * 2015-12-30 2017-02-24 성균관대학교산학협력단 문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템
KR20170096282A (ko) * 2016-02-15 2017-08-24 한국과학기술원 단어 자질 가중치를 적용한 딥 러닝 기반 개체 유형 분류 방법
JP2019086995A (ja) * 2017-11-07 2019-06-06 株式会社Fronteoヘルスケア 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1400901A2 (en) * 2002-09-19 2004-03-24 Microsoft Corporation Method and system for retrieving confirming sentences
KR101710010B1 (ko) * 2015-12-30 2017-02-24 성균관대학교산학협력단 문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템
KR20170096282A (ko) * 2016-02-15 2017-08-24 한국과학기술원 단어 자질 가중치를 적용한 딥 러닝 기반 개체 유형 분류 방법
JP2019086995A (ja) * 2017-11-07 2019-06-06 株式会社Fronteoヘルスケア 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Jacob Devlin 외 3명, "BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding", 2019.05.24., pp.1-16. 1부.* *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357142A (zh) * 2022-01-12 2022-04-15 南京题麦壳斯信息科技有限公司 一种无监督的英文写作切题评估方法及其系统和设备
WO2023196554A1 (en) * 2022-04-08 2023-10-12 Language Logic, Llc Systems and methods for generating codes and code books using cosine proximity
KR102476104B1 (ko) * 2022-06-27 2022-12-09 한국과학기술정보연구원 사전학습 언어모델 구축장치 및 사전학습 언어모델의 어휘 확장 방법
KR102520248B1 (ko) * 2022-06-30 2023-04-10 주식회사 애자일소다 주요 구절 추출을 이용한 관련리뷰 필터링 장치 및 방법
KR102503854B1 (ko) * 2022-08-05 2023-02-27 주식회사 리플에이아이 영상 처리 방법 및 장치
KR102583818B1 (ko) * 2022-09-14 2023-10-04 주식회사 글로랑 Bert를 기반으로한 응답자 집단을 대표하는 질의 응답 네트워크를 활용한 인적성 검사의 표집 과정 방법
KR102591769B1 (ko) 2022-09-14 2023-10-24 주식회사 글로랑 언어 모델을 기반으로 질의 응답 네트워크를 활용한 인적성 검사의 문제 생성 방법 및 서버
KR102603298B1 (ko) 2023-01-17 2023-11-17 주식회사 코딧 대상문서로부터 의미론적 키워드를 추출하는 방법, 컴퓨터-판독가능 기록매체 및 이를 수행하는 컴퓨팅시스템
KR102543647B1 (ko) * 2023-01-26 2023-06-15 (주)피플리 적응적 마스크드 어텐션 메커니즘을 이용한 에스팩트 기반 문장 내 감정 분석 방법, 장치 및 시스템
KR102652009B1 (ko) * 2023-09-07 2024-03-27 아이보람 주식회사 모국어 습득 원리를 적용한 영어 교육을 수행함에 있어, 뉴럴 네트워크를 이용하여 사용자 단말에게 동영상을 기반으로 하는 이북을 제공하는 방법 및 장치

Also Published As

Publication number Publication date
KR102535852B1 (ko) 2023-05-24

Similar Documents

Publication Publication Date Title
KR102535852B1 (ko) Bert의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치
CN111859960B (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
CN107798140B (zh) 一种对话系统构建方法、语义受控应答方法及装置
CN107402912B (zh) 解析语义的方法和装置
CN111859940B (zh) 一种关键词提取方法、装置、电子设备及存储介质
CN111866004B (zh) 安全评估方法、装置、计算机系统和介质
CN110543633B (zh) 语句意图识别方法、装置
CN113239169A (zh) 基于人工智能的回答生成方法、装置、设备及存储介质
CN111241828A (zh) 情感智能识别方法、装置及计算机可读存储介质
CN113705315B (zh) 视频处理方法、装置、设备及存储介质
CN113220890A (zh) 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法
CN111739520B (zh) 一种语音识别模型训练方法、语音识别方法、装置
CN111767714B (zh) 一种文本通顺度确定方法、装置、设备及介质
CN111563373A (zh) 聚焦属性相关文本的属性级情感分类方法
CN110750642A (zh) 一种基于cnn的中文关系分类方法及系统
CN112464655A (zh) 中文字符和拼音相结合的词向量表示方法、装置、介质
CN111309893A (zh) 基于源问题生成相似问题的方法和装置
CN114492661A (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN114282592A (zh) 一种基于深度学习的行业文本匹配模型方法及装置
CN111400340B (zh) 一种自然语言处理方法、装置、计算机设备和存储介质
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
KR102629063B1 (ko) 제약 조건을 이용하는 질의 응답 시스템 및 정보 제공 방법
KR102540665B1 (ko) 한국어 언어 모델에 기반한 핵심문장 추출장치 및 그 방법
CN117540003B (zh) 一种文本处理方法及相关装置
CN115905456B (zh) 一种数据识别方法、系统、设备及计算机可读存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant