KR102452814B1

KR102452814B1 - 문서 내 현안 분석 및 추출하기 위한 방법

Info

Publication number: KR102452814B1
Application number: KR1020210137318A
Authority: KR
Inventors: 오흥선; 조성웅; 임상훈
Original assignee: 한국기술교육대학교 산학협력단
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2022-10-07

Abstract

본 발명의 일 실시예에 따른 문서 내 현안 분석 및 추출하기 위한 방법은, 현안 추출 장치의 수집부에서 문서 내에서 수집된 컨텍스트 데이터를 토대로 패턴 단어를 이용하여 학습 데이터를 설정하는 단계; 상기 현안 추출 장치의 학습부는 상기 학습 데이터를 토대로 해당 문서에서 해결하고자 하는 적어도 하나 이상의 문제를 포함한 현안을 추출하기 위한 현안 추출 모델을 학습시키는 단계; 상기 현안 추출 장치의 현안추출부는 상기 학습된 현안 추출 모델을 통하여 문서 내 현안을 추출하는 단계; 상기 현안 추출 장치의 현안추출부는 다중 턴 질의 응답 형식으로 현안 수가 복수 개인 경우 현안 복수 추출하는 단계를 포함한다.

Description

문서 내 현안 분석 및 추출하기 위한 방법{Methods for analyzing and extracting issues in documents}

본 발명은 문서 내 현안 분석 및 추출하기 위한 방법에 관한 것으로, 더욱 상세하게는 문서에서 다중의 현안을 추출하기 위한 신경망 모델의 다중 턴 기반의 질의응답 형식 학습을 통한 문서 내 현안 분석 및 추출하기 위한 방법에 관한 것이다.

현재 다양한 분야의 문서가 생산되고 있으며, 각 문서의 특성에 맞는 여러 분류체계를 통해 분류하여 투자분석 등 여러 판단에 이용하고 있다.

특히 특허, 논문, 기술 보고서와 같은 전문 기술 문서와 뉴스 등의 사회이슈 관련 문서는 기술적, 사회적 현안을 포함하고 있으며, 문서에서 이를 추출할 수 있다면 투자분석, 사회문제 파악 등에 효과적으로 이용될 수 있다.

또한 신기술 분야의 기술 문서들은 기존의 분류체계를 통해 분류하기 힘들며 기술적, 사회적 현안에 따른 투자분석 및 기술 수준, 시급성, 파급성 등의 다양한 기술 자질에 기초한 투자분석의 필요성이 증가하고 있다.

비정형적 컨텍스트(context)를 포함한 기술 문서에서 기술적, 사회적 현안을 추출하기 위해선 고도의 추상적 자질을 사용하는 기계학습을 적용하여야 한다.

최근 인공지능의 핵심 기술들은 대부분 기계학습에 기반을 두고 있다. 특히 딥러닝은 가장 주목받고 있는 기계학습의 분야로써 자연어처리, 컴퓨터 비전 등 다양한 분야에 적용되어 큰 성과를 나타내고 있다.

특히 딥러닝을 활용한 문맥 파악 및 추출, 요약 성능은 큰 발전을 이루었으며, 도 1을 참고하면 자연어 처리를 위한 딥러닝에 널리 쓰이는 알고리즘 중 하나인 Transformer 알고리즘은 self-attention 기반의 모델 구성을 통해 컨텍스트에서 추상적 자질을 추출할 수 있게 되었다.

그런, 기존의 문서 내 현안 추출 기술 중에는 문서들을 대상으로 기 정의된 현안 사전과 R&D 사전을 이용하여 분석 대상이 되는 현안 키워드와 R&D 키워드를 도출하는 방식으로 수행되고 있으며, 문서 내 현안을 추출하기 위해 현안 사전과 R&D 사전을 이용하여 관련 토픽 용어나 IPC 등과 같은 분류 코드를 찾아서 학습시켜야 하는 번거롭고 복잡한 과정이 필요하였다.

따라서, 기술 및 사회적 문서에서의 기술적, 사회적 현안 추출 모델 개발과 기술적, 사회적 현안 추출을 위해 문제와 해결책에 대한 패턴 단어를 입력하여 학습 데이터를 구축하고, 문서 내 복수의 현안을 추출하기 위해 딥러닝 기반 질의응답 방식의 추출 모델을 생성하고, 질의 응답 방식으로 문서 내 현안 분석 및 추출하기 위한 방법에 대한 발명이 필요하게 되었다.

한국등록특허 제10-2059309호(2019년12월18일 등록)

본 발명의 목적은 다중 턴 기반의 질의응답(Multi-turn based QA) 형식을 이용한 현안 추출 모델을 이용하며, 트랜스포머(Transformer) 기반의 모델 아키텍처와 ELECTRA 기반의 사전학습 및 질의응답 형식의 학습 방법을 이용함으로써, 문서에서 다중의 현안을 추출하기 위한 다중 턴 기반의 질의응답 형식 학습을 통한 문서 내 현안 분석 및 추출하기 위한 방법을 제공하는 것이다.

본 발명의 일 실시예에 따른 문서 내 현안 분석 및 추출하기 위한 방법은, 현안 추출 장치의 수집부에서 문서 내에서 수집된 컨텍스트 데이터를 토대로 문서 내에 포함되는 해결하고자 하는 문제에 연관된 패턴 단어를 이용하여 해당 문서에서 해결하고자 하는 적어도 하나 이상의 문제를 포함한 현안을 추출하기 위해 현안 추출 모델의 학습 데이터를 설정하는 단계; 상기 현안 추출 장치의 학습부는 학습 데이터를 토대로 질의 응답 방식의 현안 추출 모델을 학습시키는 단계; 상기 현안 추출 장치의 현안추출부는 상기 학습된 현안 추출 모델을 통하여 문서 내 현안을 추출하는 단계; 상기 현안추출부는 다중 턴 질의 응답 형식으로 현안 수가 복수 개인 경우 현안을 복수로 추출하는 단계를 포함하며, 상기 현안 추출 모델은 질의 응답형식으로 현안을 추출하기 위해 사전 학습된 ELECTRA의 판별 모델 가중치로 초기화하고, 판별 모델의 입력은 질의와 지문을 붙여 질의와 지문 구조로 구성되도록 하여, 문서 내에 복수 개의 현안이 존재하더라도 추출 가능한 것을 특징으로 한다.

상기 패턴 단어는 상기 해결하고자 하는 문제에 연관된 패턴 단어로서, "을/를 위한", "목적의, "~개발, "~목표, "~용, "~용도" 단어를 포함하는 것을 특징으로 한다.

상기 현안은 상기 문제에 대해 적어도 하나 이상의 해결책이 더 포함되는 것을 특징으로 한다.

상기 패턴 단어는 상기 문제에 대한 해결책과 연관된 패턴 단어로서, "개발, "발전, "발명, "~통한, "~를 이용한, "확립" 단어를 포함하는 것을 특징으로 한다.

상기 다중 턴은 상기 문제 또는 해결책을 찾는 질의 턴에 더하여 추가 질문이 존재하는지 검사하는 중간 턴이 추가되며, 상기 다중 턴 질의 응답 형식의 현안 추출 모델에서, 다중 턴 질의 응답 형식으로 현안 추출 시, 이전 턴에서 찾은 문제 또는 해결책 정보를 미리 저장하고 예외로 설정하여, 다음 턴에 현안이 중복 추출되는 문제를 방지하도록 하는 것을 특징으로 한다.

상기 다중 턴 질의 응답 형식의 현안 추출 모델에서, 다중 턴 질의 응답 형식으로 현안 추출 시, 이전 턴에서 찾은 문제 또는 해결책 정보를 미리 저장하고 예외로 설정하여, 다음 턴에 현안이 중복 추출되는 문제를 방지하도록 하되, 추가 질문이 존재하는지 검사하는 추가 턴을 학습하기 위해 지문에 추가 진행할지 혹은 진행하지 않을지에 대한 특수 토큰을 2개 이상 복수개로 추가하고, 추가 턴에 더 확률값이 높은 토큰을 추출하여 추가 현안의 유무를 예측하는 것을 특징으로 한다.

상기에 있어서, 상기 다음 턴에 현안이 중복 추출되는 문제를 방지하기 위해 학습 시에 다음 턴의 입력으로 정답 입력을 활용하는 티처 포싱(teacher-forcing) 방식을 적용하여 학습시의 잘못된 선행 판단이 다중 턴 학습에 미치는 영향을 최소화하는 것을 특징으로 한다.

상기 현안 추출 모델은 질의 응답형식으로 현안을 추출하기 위해 사전 학습된 ELECTRA의 판별 모델 가중치로 초기화하고, 판별 모델의 입력은 질의와 지문을 붙여 질의와 지문 구조로 구성되도록 하며, 상기 판별 모델은 입력 토큰 간의 연산을 통해 Transformer의 마지막 계층까지 진행하여 각 토큰에 대한 표상화 벡터를 만든 후 Transformer의 마지막 계층의 표상화 벡터를 가져와 각각 시작(start), 끝(end)에 해당하는 표상화 벡터에 내적 연산을 수행하여 지정한 개 수 만큼의 시작과 끝 범위 쌍에 대한 점수를 만들며, 최종적으로 시작과 끝 각각 합의 값이 가장 큰 하나의 토큰을 추출하고 입력된 문서 내 지문(Context)에서 정답 컨텍스트(목표로 하는 문제 또는 해결책)가 어디에 위치하는지 토큰의 범위를 찾아내어 응답을 추출하는 방식으로 이루어지는 것을 특징으로 한다.

상기에 있어서, 상기 다중 턴 질의 응답 형식으로 현안 수가 복수 개인 경우 현안 복수 추출하는 단계에서 문서 내 현안에 해당하는 문제와 해결책은 복수 개일 수 있으므로, 모델의 질의 형태가 우선 각 문제와 해결책이 무엇인지 질의하면, 해당 문제와 해결책을 학습된 패턴 단어를 토대로 추출해내고, 이후 추가로 문제와 해결책이 있는지 여부를 판단하기 위해 다시 추출된 문제와 해결책을 제외한 다른 문제와 해결책이 있는지 질의하는 형태로 이루어지며, 만약 추가 문제 또는 해결책이 있다면, 해당 문제 또는 해결책을 추출하고, 다시 추출된 문제와 해결책을 제외한 다른 문제와 해결책이 있는지 질의하는 형태를 반복하여, 추가 문제와 해결책이 추출되지 않을 때까지 반복하는 것을 특징으로 한다.

상기에 있어서, 상기 현안 추출 장치의 평가분석부는 상기 현안 추출 모델의 추출 결과에 따라 분석 및 평가하는 단계; 상기 현안추출부는 상기 분석 및 평가 결과에 따라 현안 추출 모델의 가중치를 보정하는 단계를 더 포함한다.

본 발명의 문서 내 현안 분석 및 추출하기 위한 방법은 기존의 단순 질의 응답 방식에 비해, 다중 턴 질의 응답 형식으로 이루어진 현안 추출 모델을 통하여 현안에 해당하는 문제 또는 해결책이 복수 개인 경우에도 추출할 수 있으며, 같은 현안을 추출하는 오류를 방지하기 위해 다중 턴 방식으로 이루어지면, 중복을 방지하도록 예외 설정하여, 문서 내 현안들을 모두 잘 추출할 수 있는 장점이 있다.

또한, 기술적 현안은 기술 문서의 제목이나 연구 목표 요약의 서두에 나타나는 경향이 있으므로, 이러한 부분에 가중치를 부여하여 면밀하게 분석하고 추출을 수행하거나, 현안 추출이 필요한 문서 일부분만을 추출 모델에 적용하여 원하는 결과(문제 및 해결책)에 대한 추출 속도를 향상시킬 수 있다.

또한, 모델의 업그레이드를 위해 현안 추출 모델의 추출 결과에 따라 분석 및 평가를 수행할 수 있으며, 분석 및 평가 결과에 따라 현안 추출 모델의 가중치 보정할 수 있어 반복 학습에 의해 현안 추출 능력을 향상시킬 수도 있다.

도 1은 트랜스포머 모델의 전체 구조를 설명하기 위한 참고 도면이다.
도 2는 ELECTRA 모델의 토큰 변환 및 판별 방식을 설명하기 위한 참고 도면이다.
도 3은 본 발명의 일 실시예에 따른 문서 내 현안 분석 및 추출하기 위한 방법을 실현하기 위한 현안 추출 장치의 구성을 보인 블록도이다.
도 4는 본 발명의 일 실시예에 따른 문서 내 현안 분석 및 추출하기 위한 방법을 나타낸 순서도이다.
도 5는 본 발명에 적용되는 ELECTRA 모델 기반의 응답 추출 방식을 설명하기 위한 도면이다.
도 6은 질의 응답 형식의 현안 추출 모델의 전체 구조를 나타낸 도면이다.
도 7은 다중턴 질의 응답 형식의 현안 추출 모델을 구체적으로 보인 도면이다.
도 8은 단일턴 질의 응답 형식 추출 모델과 다중턴 질의 응답 형식 추출 모델을 비교 설명하기 위한 도면이다.
도 9 및 도 10은 추출 모델 평가를 위한 정밀도, 재현율, F1 score에 대한 수식을 설명한 도면이다.
도 11은 문서 내 현안 분석 및 추출하기 위한 방법에 따라 추출 모델의 추출 예시를 설명하기 위한 도면이다.

이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 다만, 본 발명의 사상은 제시되는 실시예에 제한되지 아니하고, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서 다른 구성요소를 추가, 변경, 삭제 등을 통하여, 퇴보적인 다른 발명이나 본 발명 사상의 범위 내에 포함되는 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본원 발명 사상 범위 내에 포함된다고 할 것이다. 또한, 각 실시예의 도면에 나타나는 동일한 사상의 범위 내의 기능이 동일한 구성요소는 동일한 참조부호를 사용하여 설명한다.

도 3은 본 발명의 일 실시예에 따른 문서 내 현안 분석 및 추출하기 위한 방법을 실현하기 위한 현안 추출 장치 구성을 보인 블록도이다.

본 발명의 문서 내 현안 분석 및 추출하기 위한 방법을 실현하기 위한 현안 추출 장치(100)는 도 3을 참조하면, 수집부(110), 학습부(120), 현안추출부(130), 평가분석부(140)를 포함할 수 있다.

머신 러닝 기반의 추출 모델을 이용하여 기술적인 현안을 추출하기 위해서는 우선 기술적인 문서 상에 제시될 수 있는 문제(problem, PB)와 해결책(solution, SL)을 구분하여 정의해야 한다. 이때 기술 문서 상에서 문제는 반드시 제시되는 것이 원칙이나, 해결책은 경우에 따라서는 제시되지 않을 수도 있다.

문제의 경우, 해당 문서에서 해결하고자 하는 문제에 대한 것으로서, 문서 상에서 "을/를 위한, "목적의, "~개발, "~목표, "~용, "~용도" 등의 패턴 단어를 포함하는 경향이 있다.

또한 해결책의 경우, 해당 문서에서 해결하기 위한 방법, 기술, 기법 등에 대한 것이 되며, 문서 상에서 "개발, "발전, "발명, "~통한, "~를 이용한, "확립" 등의 패턴 단어를 포함할 수 있다.

우선적으로 현안 추출 모델이 적어도 하나 이상 포함되는 현안추출부(130)를 통하여 기술적 현안을 추출하기 위해서는 학습 데이터가 필요하며, 학습 데이터를 수집부(110)를 통하여 수집할 수 있다.

복수의 논문, 보고서 등과 같은 문서 내 컨텍스트 데이터를 기반으로 학습 데이터를 만들기 위해 태깅 작업을 수행할 수 있다.

본 발명에서 기술적인 현안을 상술한 바와 같이 문제(problem)와 해결책(solution)으로 정의하고, "A 문제를 해결하기 위한 방법 B"를 문제-해결책 관계(Problem-Solution Relation)로 정의하여 추후 추출 모델의 관계 추출에 활용할 수 있도록 할 수 있으며, 실 태깅 작업에 앞서 데이터 분석을 통해 일반적으로 "~을/를 위한", "목적의" 등의 문제 패턴과 "~개발", "~발전", "~발명"등의 해결책 패턴을 발견하여 선정 후 태깅 작업자들에게 공지하여 기본적인 현안 태깅을 위한 틀을 구성하는 것이 바람직하다.

또한, 구축한 태깅 데이터를 기술적 현안 추출 및 생성을 위한 현안추출부(130)의 모델 학습에 적용하기 위해서는 적합한 학습 데이터로 변형하는 전처리 과정이 필요하다.

본 발명에서 후술한 현안 추출 모델은 질의응답 기반의 현안 추출 및 생성을 위한 딥러닝 기반 질의 응답 방식의 현안 추출 모델로써 질의응답 모델의 입력이 될 수 있는 형태로 변형하는 방법을 사용한다. 이를 위해 본 발명에선 학습부(120)에서 학습하기 위해 기존의 한국어 질의응답 데이터셋인 KorQuAD 학습 데이터셋과 비슷한 형식으로 질의응답 형식의 학습 데이터를 구성할 수 있다.

하나의 문서 데이터에 각 현안 및 해결책에 대한 질의와 응답 쌍을 데이터로 구성할 수 있다.

구체적으로 전체 문서 데이터에 대한 질의와 응답 쌍으로 데이터를 구성한 후 학습과 평가 과정에서 나타날 수 있는 편차를 방지하기 위해 각 현안 개수 별 분포를 유지하여 학습 및 평가 데이터로 분리함이 바람직하다.

이제 학습 데이터를 구축하였으므로, 현안 추출부의 현안 추출 모델을 이용하여 현안을 추출할 수 있으며, 본 발명에서는 다중 턴 기반의 질의응답(Multi-turn based QA) 형식을 이용한 신기술 분야 기술의 기술적 현안 추출 및 생성을 수행할 수 있다.

기존의 현안 추출 모델은 특정 분류체계와 합성곱 신경망(Convolutional Neural Network, CNN), 순환 신경망(Recurrent Neural Network, RNN) 기반의 방법을 이용하는 것에 그치고 있으나, 본 발명에서는 기존 모델 대비 상대적으로 성능이 우수한 트랜스포머(Transformer) 기반의 모델 아키텍처와 ELECTRA 기반의 사전학습 및 질의응답 형식의 학습 방법을 이용할 수 있다.

또한 문서에서 다중의 현안을 추출하기 위한 다중 턴 기반의 질의응답 형식 학습 방법을 제시한다.

기존의 CNN, RNN 기반의 자연어처리는 각 토큰(token)을 표상화(Embedding) 하는 과정에 있어 장기 문맥 의존성 등과 같은 문제가 존재하기에 정확한 문맥의 파악이 힘들고, 문서와 같이 긴 문맥에서는 토큰 간의 관계 파악이 어려운 문제가 있다.

이에 비해 구글의 트랜스포머(Transformer) 모델은 Self-Attention 매커니즘을 통해 문맥 내의 각 토큰 간의 중요도를 직접 파악하는 과정을 통해 상술한 문제를 해결할 수 있으며, 높은 장기 문맥 의존성 파악 및 딥러닝의 핵심 중 하나인 강력한 병렬화 능력을 통해 기계 번역에 큰 성능 향상을 가져올 수 있다.

도 1은 트랜스포머 모델의 전체 구조를 설명하기 위한 도면을 도시하고 있으며, 도 1과 같이 트랜스포머 모델은 크게 입력 문서를 표상화하는 인코더(Encoder)와 입력 문서 기반의 출력 문서를 생성하는 디코더(Decoder)로 구성된다.

먼저 인코더는 다각도의 Self-Attention을 통해 입력 문서를 표상화하는 Multi-Head Attention 블록과 통합적인 토큰별 표상화를 하는 Feed-Forward 블록으로 구성된다.

이후 표상화된 입력 문서와 현재 생성되고 있는 Masked Multi-Head Attention을 통해 표상화된 출력 문서 간의 관계를 파악하는 추가적인 디코더의 Multi-Head Attention을 통해 다음 시점의 출력 문서 토큰을 생성한다.

최근 트랜스포머 구조를 기반으로 인코더만 활용하는 사전학습 모델 BERT 및 디코더만 활용하는 GPT 등의 활용을 통해 대부분의 자연어처리 문제에서 높은 성능을 보이고 있다.

도 2는 ELECTRA 모델의 토큰 변환 및 판별 방식을 설명하기 위한 도면이며, ELECTRA는 BERT 기반의 모델 구조와 GAN(Generative Adversarial Networks) 형식의 학습 방법에서 착안한 모델로써 생성모델(Generator)에 BERT와 같은 마스킹 기반 언어 모델(Masked Language Model, MLM)을 판별모델(Discriminator)에 ELECTRA라는 새로운 방식을 사용하는 언어 모델이다.

생성 모델은 각 입력 토큰에 대하여 마스킹할 토큰 위치를 선정하고, 이를 대체 토큰으로 변환하며 판별모델에서 해당 위치의 대체 토큰이 원본 토큰인지 대체된 토큰인지 판별한다.

이를 통해 생성 모델은 판별모델이 판별하기 힘든 토큰을 마스킹하는 법을 학습하며, 판별모델은 마스킹 된 토큰을 학습하는 BERT와 달리 모든 토큰이 대체된 토큰인지 아닌지를 판별함을 통해 BERT 대비 높은 성능과 빠른 학습 속도를 보인다.

상기 설명한 입력 토큰에 대한 변환 및 판별 과정은 도 2에 도시된 바와 같다.

즉, 도 2는 입력 토큰에 대한 변환 및 판별 과정에 대한 예시를 보여주며 이를 통해 하나의 데이터 입력 내에서 마스킹 된 토큰에 더불어 입력 토큰 전체를 한 번에 학습할 수 있다는 장점을 가짐을 알 수 있다.

본 발명에서는 ELECTRA 구조를 사용하여 언어모델을 학습하기 위해 한국어 데이터를 수집 및 전처리하여 예컨대 수천만 개의 한국어 문장을 구성하여 모델 크기가 작은 모델을 학습할 수 있다.

본 발명에서는 현안 추출 및 생성을 위해 입력 문서에 대하여 현안 및 해결책을 찾는 질문을 구성하여 각 현안 및 해결책을 정답으로 하는 학습 방식인 질의응답 형식의 학습 방법을 제시한다.

본 발명의 질의응답 학습 과정은 도 5를 참조하면, 우선 Transformer의 인코더로 구성된 ELECTRA의 판별 모델을 한국어로 사전 학습된 KoELECTRA의 판별 모델 가중치로 초기화한다.

판별 모델의 입력은 질의와 지문을 붙여 [질의, 지문] 구조로 구성되어 있으며, 판별 모델은 입력 토큰 간의 연산을 통해 Transformer의 마지막 계층까지 진행하여 각 토큰에 대한 표상화 벡터를 만든 후 Transformer의 마지막 계층의 표상화 벡터를 가져와 각각 시작(start), 끝(end)에 해당하는 표상화 벡터에 내적 연산을 수행하여 지정한 개 수 만큼의 시작과 끝 범위 쌍에 대한 점수를 만든다.

최종적으로 시작과 끝 각각 합의 값이 가장 큰 하나의 토큰을 추출하고 이를 통해 입력 지문에서 정답 컨텍스트가 어디에 위치하는지 토큰의 범위를 찾아내어 응답을 추출하는 방식이다.

질의응답 형식의 전체 모델 구조는 도 6과 같다. 도 6의 상단부분은 대량의 한국어로 KoELECTRA를 사전 학습하는 과정이며, 중단 부분은 사전 학습된 KoELECTRA에서 판별모델(discriminator, D)이 가져와 일차적으로 KorQuAD 데이터에 학습하는 것을 보여준다.

마지막으로 도 6의 하단 부분은 KorQuAD를 통한 1차 학습 이후 2차로 본 발명에서 구축한 현안 데이터에 추가 학습을 진행하는 구조를 예시적으로 보여준다.

기존의 질의응답 데이터 및 모델의 형식은 단일 턴 기반 질의응답이라고 할 수 있다.

단일 턴 기반 질의 응답 방식은 각 문서 별 모든 질의가 사전 정의되어 있으며, 각 질문은 서로 연관성이 없는 질문들로 구성되어야 하며, 각각의 정해진 질문에 대한 정답(answer)을 예측하여 오차(loss)를 계산하는 방식이지만 문서 내의 기술적 현안 및 해결책은 상호 연관성이 뚜렷한 데이터라고 할 수 있다.

또한 별도의 사전 질문에 대한 정의를 할 수 없다(질문 개수 등)는 특성이 있다.

따라서 단일 턴 기반 질의응답 형식으로 추출시에는 문서에서 각 하나의 현안 및 해결책만을 추출할 수 있다는 문제가 발생할 수 있다.

또한 기존의 BERT 류 모델의 질의응답(QA)방식은 문서(context)별로 질의(question)을 입력으로 넣어 모델의 최종 계층의 임베딩 벡터와 start, end에 대한 임베딩 벡터의 dot product을 통한 score를 계산하며, score값이 최대가 되게 하는 (start, end) 쌍을 최종으로 선정하여 문서의 해당 부분을 추출하는 span-based 방식이다.

본 발명에서는 위와 같은 문제를 해결하기 위하여 도 7 및 도 8을 참조하면, 다중 턴 기반 질의응답 모델을 제시한다.

도 8은 단일 턴과 다중 턴 방식을 비교한 예시로 단일 턴 방식과 다르게 다중 턴 기반 질의응답 모델은 현안 및 해결책을 찾는 질의 턴에 더하여 추가 질문이 존재하는지 검사하는 중간 턴(E-PB-1 등)이 추가된다.

또한 이전 턴에서 찾은 현안 및 해결책 정보를 다음 턴에 활용 중복되는 현안이 추출되는 문제를 방지하는데 이용한다.

나아가 학습 시에는 다음 턴의 입력으로 정답 입력을 활용하는 티처 포싱(teacher-forcing) 방식을 적용하여 학습시의 잘못된 선행 판단이 다중 턴 학습에 미치는 영향을 최소화할 수 있다.

다중 턴 기반 질의응답 형식의 현안 추출 모델 학습 방법은 도 7에 구체적으로 도시하고 있다.

본 발명의 현안 추출 모델은 기존 질의응답 데이터셋에 사용되는 범용적인 지표를 사용하여 상술한 현안 추출 장치(100) 내 평가분석부(140)를 구비하여 평가분석부(140)를 통하여 평가하였으며 두 가지 지표로 EM(Exact Match)과 F1 score를 사용하였다.

EM은 추출된 각 현안과 모든 정답 간의 현안 단위 최고 정밀도(precision)를 계산 후 모든 추출된 현안에 대해 평균을 산출하며 추출된 지문의 정확도에 대한 수치를 나타낸다.

F1 score는 모델을 평가하기 위해 정밀도(precision)와 재현율(recall)을 조합하여 계산하는 방식으로 추출된 각 현안과 모든 정답 간의 음절 단위 최고 F1을 계산 후 모든 현안에 대한 평균을 산출한다.

도 9 및 도 10은 각각 정밀도, 재현율, F1 score에 대한 수식을 보여주며, 추출된 현안과 정답 현안을 통한 구체적인 평가방법을 보여준다.

현안 추출 모델은 Python 기반의 Pytorch를 이용해 구현하여, 상기 방식과 같이 학습 데이터를 구성하여 해당 모델의 입력으로 사용하였으며 평가하기 위해 현안 추출 모델의 구현 세부사항은 아래 표 1과 같다.

또한 표 2는 현안 추출 모델 실험 결과로서, 전체 평가 데이터 300개에 대한 현안 추출 모델의 성능 평가표로 4개 모델에 대한 성능을 평가 및 분석하였으며 각 모델은 크게 단일 턴과 다중 턴 두 타입으로 분류된다.

단일 턴 모델은 하나의 문서에서 각 하나의 현안 및 해결책만을 추출하는 모델이며 다중 턴 모델은 A, B, C로 구분되며 각 모델에 대한 설명은 아래와 같다.

모델 A : 이전 턴에서 찾은 현안 및 해결책(정답 및 예측)을 사용하지 않는 방식

모델 B : 이전 턴들에서 찾은 모든 현안 및 해결책 정보를 사용하는 방식

모델 C : B 모델을 학습 후 PB, SL이 2개 이상인 문서들에 대해 few-shot learning을 진행한 방식

표 2의 다중 턴(Multi-turn) 모델 A와 B를 통해 이전 턴에서 찾은 정보를 사용하는 점이 성능에 영향을 미치는 요소임을 알 수 있으며, 다중 턴 모델 B, C의 비교를 통해 PB, SL이 많은 문서들에 대한 추가 학습이 성능에 영향을 미침을 알 수 있다.

또한 단일 턴과 다중 턴의 전반적인 성능에서는 단일 턴 모델이 더 우수함을 알 수 있다.

좀 더 자세한 성능 분석을 위해 표 3과 같은 각 문서 타입 별 성능을 단일 턴 모델과 다중 턴 모델 중 성능이 가장 좋았던 C 모델을 사용하여 비교하였다.

단일 턴과 다중 턴 C모델의 비교를 통해 PB(문제)-SL(해결책)이 1개 혹은 1개 이하로 존재하는 문서에서는 단일 턴의 성능이 PB, SL이 많은 문서에서는 다중 턴의 성능이 전반적으로 높음을 알 수 있다.

추가로 SL이 1개, PB가 2개 이상인 문서에서는 단일 턴의 성능이 조금 더 높음을 알 수 있으며, 위 실험과 표 3을 통해 추가로 두 가지 사항에 대해 분석할 수 있다.

문서 타입 별 현안 추출 모델 실험 결과인 표 3을 통해 PB-SL이 여러 개 있는 문서에서 성능 향상이 있었고 여러 개의 PB-SL을 추출하기 위해선 다중 턴 방식의 모델이 효과적이며, 전반적으로 단일 턴 방식의 성능이 다중 턴 방식 모델보다 성능이 높았다.

위 표들을 통해 두 번째 사항에 대한 원인을 분석할 수 있다.

PB가 1개 SL이 1개 이하인 문서에서 성능이 높은 단일 턴 모델이 성능이 더 우수한 것이라고 분석 할 수 있다.

추가로 PB가 2개이상 SL이 1개인 문서에서 단일 턴의 성능이 더 높은 이유 또한 데이터의 부족으로 인한 문제임을 알 수 있다.

또한 다중 턴에 적합한 예제에 대한 학습을 진행하는 다중 턴 모델은 단일 PB-SL에 대한 예측 및 학습에서 노이즈가 발생할 수 있다.

결과적으로 이러한 이유로 단일 턴 방식 모델의 성능이 다중 턴 방식 모델보다 높았을 것으로 분석할 수 있다.

각 문서 타입 별 현안 추출이 달라지며, 도 11은 문제(PB)가 2개이고, 해결책(SL)이 1개인 경우의 추출 예시이다.

PB는 빨간색, SL은 파란색으로 표기하였으며 PB-SL의 각 관계(모델에서 추출한 관계는 아님)는 화살표를 통해 표기하고 있으며, 입력 지문(Context)은 중요한 부분을 제외하고 중략하여 표기한 것이다.

추출 예시에서와 같이, 상술한 각 현안의 패턴 단어가 모델에서 추출한 현안에서도 나타남을 알 수 있으며, 추가로 대부분의 기술적 현안은 기술 문서의 제목이나 연구 목표 요약의 서두에 나타나므로, 이러한 부분에 가중치를 부여하여 면밀하게 분석하고 추출을 수행하거나 이 부분만을 추출 모델에 적용하여 원하는 결과(문제 및 해결책)에 대한 추출 속도를 향상시킬 수도 있다.

도 4는 본 발명의 일 실시예에 따른 문서 내 현안 분석 및 추출하기 위한 방법을 나타낸 순서도이다.

본 발명의 문서 내 현안 분석 및 추출하기 위한 방법은, 먼저 모델 학습을 수행하기 위해 문서 내에서 수집된 컨텍스트 데이터를 토대로 태깅 및 학습 데이터를 설정한다(S100).

학습 데이터가 충분히 생성된 경우, 학습 데이터를 토대로 현안 추출 모델을 학습할 수 있다(S102).

이제, 학습된 현안 추출 모델을 통하여 질의 응답 형식으로 문서 내 현안을 추출한다(S104).

이때 다중 턴 질의 응답 형식으로 현안 수가 복수 개인 경우 현안 복수 추출할 수 있다(S106).

구체적으로 도 11을 참조하면, 문서 내 현안에 해당하는 문제와 해결책은 복수 개일 수 있으므로, 모델의 질의 형태가 우선 각 문제와 해결책이 무엇인지 질의하면, 해당 문제와 해결책을 패턴 단어를 토대로 추출해내고, 이후 추가로 문제와 해결책이 있는지 여부를 판단하기 위해 다시 추출된 문제와 해결책을 제외한 다른 문제와 해결책이 있는지 질의하는 형태가 될 수 있다.

만약 추가 문제 또는 해결책이 있다면, 해당 문제 또는 해결책을 추출하고, 다시 추출된 문제와 해결책을 제외한 다른 문제와 해결책이 있는지 질의하는 형태를 반복하여, 추가 문제와 해결책이 추출되지 않을 때까지 반복하는 것이다.

이후에는 모델의 업그레이드를 위해 현안 추출 모델의 추출 결과에 따라 분석 및 평가를 수행할 수 있으며, 분석 및 평가 결과에 따라 현안 추출 모델의 가중치 보정할 수도 있다(S108, S110).

나아가 본 발명의 문서 내 현안 분석 및 추출하기 위한 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램으로 구현되거나, 이 컴퓨터 프로그램이 동작하는 컴퓨터 하드웨어에 탑재되는 모듈 형태로 구현될 수 있다.

또한, 본 발명의 일 실시예에 따른 문서 내 현안 분석 및 추출하기 위한 방법은, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리, SSD(Solid State Drive) 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

100 : 현안 추출 장치
110 : 수집부
120 : 학습부
130 : 현안추출부
140 : 평가분석부

Claims

현안 추출 장치의 수집부에서 문서 내에서 수집된 컨텍스트 데이터를 토대로 문서 내에 포함되는 해결하고자 하는 문제에 연관된 패턴 단어를 이용하여 해당 문서에서 해결하고자 하는 적어도 하나 이상의 문제를 포함한 현안을 추출하기 위해 현안 추출 모델의 학습 데이터를 설정하는 단계;
상기 현안 추출 장치의 학습부는 학습 데이터를 토대로 질의 응답 방식의 현안 추출 모델을 학습시키는 단계;
상기 현안 추출 장치의 현안추출부는 상기 학습된 현안 추출 모델을 통하여 문서 내 현안을 추출하는 단계;
상기 현안추출부는 다중 턴 질의 응답 형식으로 현안 수가 복수 개인 경우 현안을 복수로 추출하는 단계
를 포함하며,
상기 현안 추출 모델은
질의 응답형식으로 현안을 추출하기 위해 질의와 지문을 붙여 질의와 지문 구조로 구성되도록 하여, 문서 내에 복수 개의 현안이 존재하더라도 추출 가능하고,
상기 현안은
상기 문제에 대해 적어도 하나 이상의 해결책이 더 포함되며,
상기 다중 턴은
상기 문제 또는 해결책을 찾는 질의 턴에 더하여 추가 질문이 존재하는지 검사하는 중간 턴이 추가되며,
상기 다중 턴 질의 응답 형식의 현안 추출 모델에서, 다중 턴 질의 응답 형식으로 현안 추출 시,
이전 턴에서 찾은 문제 또는 해결책 정보를 미리 저장하고 예외로 설정하여, 다음 턴에 현안이 중복 추출되는 문제를 방지하도록 하고,
상기 다음 턴에 현안이 중복 추출되는 문제를 방지하기 위해 학습 시에 다음 턴의 입력으로 정답 입력을 활용하는 티처 포싱(teacher-forcing) 방식을 적용하여 학습시의 잘못된 선행 판단이 다중 턴 학습에 미치는 영향을 최소화하는 것을 특징으로 하는 문서 내 현안 분석 및 추출하기 위한 방법.
제1항에 있어서,
상기 패턴 단어는
상기 해결하고자 하는 문제에 연관된 패턴 단어로서, "을/를 위한", "목적의", "~개발", "~목표", "~용", "~용도" 단어를 포함하는 것을 특징으로 하는 문서 내 현안 분석 및 추출하기 위한 방법.
삭제
제1항에 있어서,
상기 패턴 단어는
상기 문제에 대한 해결책과 연관된 패턴 단어로서,
"개발", "발전", "발명", "~통한", "~를 이용한", "확립" 단어를 포함하는 것을 특징으로 하는 문서 내 현안 분석 및 추출하기 위한 방법.
삭제
삭제
삭제
제1항에 있어서,
상기 현안 추출 모델은
질의 응답형식으로 현안을 추출하기 위해 사전 학습된 ELECTRA의 판별 모델 가중치로 초기화하고, 판별 모델의 입력은 질의와 지문을 붙여 질의와 지문 구조로 구성되도록 하며,
상기 판별 모델은 입력 토큰 간의 연산을 통해 Transformer의 마지막 계층까지 진행하여 각 토큰에 대한 표상화 벡터를 만든 후 Transformer의 마지막 계층의 표상화 벡터를 가져와 각각 시작(start), 끝(end)에 해당하는 표상화 벡터에 내적 연산을 수행하여 지정한 개 수 만큼의 시작과 끝 범위 쌍에 대한 점수를 만들며, 최종적으로 시작과 끝 각각 합의 값이 가장 큰 하나의 토큰을 추출하고 입력된 문서 내 지문(Context)에서 정답 컨텍스트(목표로 하는 문제 또는 해결책)가 어디에 위치하는지 토큰의 범위를 찾아내어 응답을 추출하는 방식으로 이루어지는 것을 특징으로 하는 문서 내 현안 분석 및 추출하기 위한 방법.
제1항에 있어서,
상기 다중 턴 질의 응답 형식으로 현안 수가 복수 개인 경우 현안을 복수로 추출하는 단계에서
문서 내 현안에 해당하는 문제와 해결책은 복수 개일 수 있으므로, 모델의 질의 형태가 우선 각 문제와 해결책이 무엇인지 질의하면, 해당 문제와 해결책을 학습된 패턴 단어를 토대로 추출해내고,
이후 추가로 문제와 해결책이 있는지 여부를 판단하기 위해 다시 추출된 문제와 해결책을 제외한 다른 문제와 해결책이 있는지 질의하는 형태로 이루어지며,
만약 추가 문제 또는 해결책이 있다면, 해당 문제 또는 해결책을 추출하고, 다시 추출된 문제와 해결책을 제외한 다른 문제와 해결책이 있는지 질의하는 형태를 반복하여, 추가 문제와 해결책이 추출되지 않을 때까지 반복하는 것을 특징으로 하는 문서 내 현안 분석 및 추출하기 위한 방법.
제1항에 있어서,
상기 현안 추출 장치의 평가분석부는 상기 현안 추출 모델의 추출 결과에 따라 분석 및 평가하는 단계;
상기 현안추출부는 상기 분석 및 평가 결과에 따라 현안 추출 모델의 가중치를 보정하는 단계
를 더 포함하는 문서 내 현안 분석 및 추출하기 위한 방법.