KR102569381B1

KR102569381B1 - 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법

Info

Publication number: KR102569381B1
Application number: KR1020200175773A
Authority: KR
Inventors: 권혁철; 김민호
Original assignee: 부산대학교 산학협력단
Priority date: 2019-12-16
Filing date: 2020-12-15
Publication date: 2023-08-23
Also published as: KR20210076871A

Abstract

본 발명은 평문뿐만 아니라 표와 같이 일정한 형식을 갖춘 데이터를 HTML 태그로 기술한 웹 문서를 효율적으로 독해할 수 있도록 한 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법에 관한 것으로, 평문과 HTML 태그, 표나 리스트를 포함하는 웹 문서를 대상으로 하는 하이브리드 구조의 기계독해를 위하여, 주어진 문서를 토큰화한 후 웹 문서의 구조는 유지하면서 불필요한 HTML 태그를 제거하거나 간소화하는 데이터 전처리부;문서의 평문과 비평문을 구분하여 각각으로부터 정답후보를 추출하는 정답후보 추출부;정답후보에서 최종 정답을 추출하기 위해 정답후보를 순위화하는 정답후보 순위화 처리부;를 포함하는 것이다.

Description

테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법{System and Method for Machine Reading Comprehension to Table-centered Web Documents}

본 발명은 기계독해에 관한 것으로, 구체적으로 평문뿐만 아니라 표와 같이 일정한 형식을 갖춘 데이터를 HTML 태그로 기술한 웹 문서를 효율적으로 독해할 수 있도록 한 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법에 관한 것이다.

기계독해(Machine Reading Comprehension; MRC)는 기계가 주어진 지문과 질문을 이해하여 지문 내에서 답변에 해당하는 부분을 찾는 자연어처리 응용 분야이다.

기계독해 기술을 이용하면 사용자의 질문에 적절한 응답을 제시하는 질의응답 시스템의 개발이 가능하며, 이를 기계독해 기반 질의응답 시스템이라고 한다.

일반적으로 연구단계에서 기계독해 모형은 평문을 대상으로 이루어지지만, 기계독해 기술이 적용되는 실무에서는 정제된 평문보다는 정제되지 않은 웹 문서를 처리해야 하는 경우가 많다.

이를 위해서는 웹 문서의 HTML 태그 전처리, 표나 리스트와 같은 반정형 데이터의 처리가 필요하다.

이와 같이, 기계독해는 지문과 질문을 입력받고 해당 지문과 질문을 이용하여 지문 내에서 정답을 찾는 자연어처리의 과제이다. 기계독해를 위한 데이터셋으로는 KorQuAD 1.0이 있으며, 위키피디아 문서에서 추출한 지문과 질문, 그리고 질문에 대한 답이 제공된다.

기존 기계독해 데이터셋은 평문으로 구성된 지문을 이용하여 질의응답을 수행한다. 하지만 기계독해가 적용되는 실무에서는 정제된 평문보다는 정제되지 않은 웹 문서를 처리해야 하는 경우가 많다. 이에 최근 다양한 구조와 길이를 가지는 문서에서 긴 문단이나 리스트나 표로 이루어진 정답을 찾는 기계독해 모형을 평가할 수 있는 KorQuAD 2.0 데이터셋이 발표되었다.

KorQuAD 2.0은 전체 103,193개의 질의-응답 쌍을 포함하는 기계독해 데이터로서, 47,971건의 문서에서 평균 215개의 질의-정답 쌍을 생성하였다.

1~2개의 문단에서 답을 찾아야 하는 KorQuAD 1.0과는 달리 위키피디아 문서 전체에서 답을 찾아야 해서, 탐색 시간에 대한 고려가 필요하다. 또한, 문단 전체가 답이 되거나, 1~2개의 <p>, <table>, <ui> 태그로 둘러싸인 부분 전체가 답이 될 수도 있어 HTML 태그의 분석을 통한 문서의 구조 이해도 필요하다.

KorQuad 2.0의 성능 기준치(baselise)는 BERT 다중언어 모형(multilingual model)을 사용하였을 때 EM 30.2, F1 46.0으로 KorQuad 10과 비교하여 난도가 높다. 즉, 기존 기계독해 모형과 달리 여러 문단에서 답을 찾고, 표와 같이 구조화된 문서를 분석할 수 있고, 문단과 같이 긴 정답도 찾을 수 있어야 한다.

TabQA는 표를 대상으로 한 자연어 질의응답을 위해 BiLSTM으로 질문과 테이블 정보를 인코딩하였으며 표의 행/열 구조를 그대로 이용하는 기계독해 모형이다.

주어진 질문에 기반하여 테이블의 어떤 행과 열이 정답일 가능성이 가장 큰 객체인지 평가하기 위해서 이중선형 형식(bilinear form)을 적용하였다.

TabQA를 이용할 경우 표에 대한 기계독해는 가능하나, 평문과 표 등이 섞인 웹 문서의 기계독해는 어렵다.

따라서, 평문뿐만 아니라 표와 같이 일정한 형식을 갖춘 데이터를 HTML 태그로 기술한 정제되지 않은 웹 문서를 효율적으로 기계독해할 수 있는 새로운 기술의 개발이 요구되고 있다.

대한민국 등록특허 제10-1986345호 대한민국 공개특허 제10-2019-0101567호 대한민국 공개특허 제10-2019-0056184호

본 발명은 종래 기술의 기계독해 기술의 문제점을 해결하기 위한 것으로, 평문뿐만 아니라 표와 같이 일정한 형식을 갖춘 데이터를 HTML 태그로 기술한 웹 문서를 효율적으로 독해할 수 있도록 한 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법을 제공하는데 그 목적이 있다.

본 발명은 평문, 표, 그리고 리스트가 함께 있는 웹 문서의 독해를 위한 하이브리드 구조의 기계독해 모형으로 강인한 독해 성능을 구현할 수 있도록 한 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법을 제공하는데 그 목적이 있다.

본 발명은 데이터 전처리(HTML 태그 정제),정답후보 추출,정답 후처리(HTML 태그 복원),정답 순위화를 포함하는 새로운 기계독해 모형으로 HTML 태그, 표나 리스트를 포함하는 웹 문서를 효율적으로 독해할 수 있도록 한 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법을 제공하는데 그 목적이 있다.

본 발명은 정답후보 추출에서 평문 정답을 추출하는 부분과 비평문(非平文) 정답을 추출하는 예측 부분을 분리하여 평문과 비평문을 함께 학습하였을 때 생길 수 있는 오류를 최소화할 수 있도록 한 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법을 제공하는데 그 목적이 있다.

본 발명의 다른 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 테이블 중심의 웹 문서를 위한 기계독해 시스템은 평문과 HTML 태그, 표나 리스트를 포함하는 웹 문서를 대상으로 하는 하이브리드 구조의 기계독해를 위하여, 주어진 문서를 토큰화한 후 웹 문서의 구조는 유지하면서 불필요한 HTML 태그를 제거하거나 간소화하는 데이터 전처리부;문서의 평문과 비평문을 구분하여 각각으로부터 정답후보를 추출하는 정답후보 추출부;정답후보에서 최종 정답을 추출하기 위해 정답후보를 순위화하는 정답후보 순위화 처리부;를 포함하는 것을 특징으로 한다.

여기서, 상기 정답후보 순위화 처리부는, 서술형/단답형 정답 분류를 통해 단답형으로 분류되는 경우 긴 답변을 짧은 답변으로 변환하는 것을 특징으로 한다.

그리고 문서의 구조는 유지하면서 불필요한 태그를 제거하기 위해, <p>, <ul>, <table> 태그 안에 존재하는 텍스트 외에 나머지 텍스트들은 제거하고 <p>, <ul>, <table> 태그와 관련된 태그들을 토큰 사전에 추가하는 것을 특징으로 한다.

그리고 표의 경우 모든 정보를 토큰화하여 입력으로 사용할 경우 너무 긴 입력을 생성하기 때문에, 표의 내용을 대표하는 <th> 태그 외에 나머지는 제거하고, 학습데이터에서 실제 정답의 시작과 끝을 각각 해당 테이블 태그의 <table>과 </table>로 재설정하는 것을 특징으로 한다.

그리고 상기 정답후보 추출부는, 정답이 포함되지 않은 입력은 [CLS]를 정답의 시작과 끝으로 가리키도록 라벨을 설정하고, 평문과 비평문의 정답후보 추출은 정답을 예측하는 FFNN(feed-forward neural network) 2개를 이용하여 처리하는 것을 특징으로 한다.

그리고 첫 번째 FFNN은 답변이 <p> 태그 내에 존재하거나 문단 전체가 답이 되는 평문 정답만 예측하고, 두 번째 FFNN은 표나 리스트와 같은 비평문 정답을 예측하도록 하는 것을 특징으로 한다.

그리고 비평문 정답이 포함된 경우에는 첫 번째 FFNN이 [CLS]를 정답의 시작과 끝을 예측하도록 하고, 반대로 평문 정답의 경우에는 두 번째 FFNN이 [CLS]를 정답의 시작과 끝을 예측하도록 하는 것을 특징으로 한다.

다른 목적을 달성하기 위한 본 발명에 따른 테이블 중심의 웹 문서를 위한 기계독해 방법은 기계독해 시스템의 정답후보 순위화 처리부가 정답후보를 후처리를 하는 방법에 있어서, (A)각각의 출력함수에서 출력된 정답 중 정답 선택모형에 의해 정답일 확률이 높은 각 상위 2개의 평문 정답과 테이블이나 리스트 정답을 추출하여 정답 후보를 구성하는 단계;(B)서술형/단답형 정답 분류기에서 BERT 모델을 이용하여 질문을 입력으로 받고 해당 질문에 대한 답이 서술형일 확률과 단답형일 확률을 출력하는 단계;(C)빈도수 기반 정답 추출기에서 토큰화된 테이블 헤드와 테이블 데이터를 입력된 질문 토큰을 비교하여 일치하는 토큰의 개수가 많은 테이블 헤드와 테이블 데이터를 선택하여 최종 정답을 추출하는 단계;(D)일치하는 토큰이 없다면 신경망 기반 정답 추출기를 통해서 정답을 추출하는 단계;를 포함하는 것을 특징으로 한다.

여기서, 상기 (A)단계에서, 정답후보 표의 경우 데이터 전처리 과정으로 인해 정답이 표 일부일지라도 테이블 태그 전체가 정답으로 출력되도록 하는 것을 특징으로 한다.

그리고 상기 (D)단계에서, 신경망 기반 정답 추출기는 BERT 모델에 정답과 테이블 정보가 [SEP]로 구분된 입력을 주고 해당 테이블 헤드 혹은 테이블 정보가 해당 질문에 대한 정답을 포함하고 있을 확률을 출력하도록 하고, 학습 데이터는 KorQuAD 2.0 데이터셋의 테이블 태그와 정답 인덱스를 재구성하는 것을 특징으로 한다.

이상에서 설명한 바와 같은 본 발명에 따른 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법은 다음과 같은 효과가 있다.

첫째, 평문뿐만 아니라 표와 같이 일정한 형식을 갖춘 데이터를 HTML 태그로 기술한 웹 문서를 효율적으로 독해할 수 있도록 한다.

둘째, 평문, 표, 그리고 리스트가 함께 있는 웹 문서의 독해를 위한 하이브리드 구조의 기계독해 모형으로 강인한 독해 성능을 구현할 수 있도록 한다.

셋째, 데이터 전처리(HTML 태그 정제),정답후보 추출,정답 후처리(HTML 태그 복원),정답 순위화를 포함하는 새로운 기계독해 모형으로 HTML 태그, 표나 리스트를 포함하는 웹 문서를 효율적으로 독해할 수 있도록 한다.

넷째, 정답후보 추출에서 평문 정답을 추출하는 부분과 비평문(非平文) 정답을 추출하는 예측 부분을 분리하여 평문과 비평문을 함께 학습하였을 때 생길 수 있는 오류를 최소화할 수 있도록 한다.

도 1은 본 발명에 따른 테이블 중심의 웹 문서를 위한 기계독해 시스템의 구성도
도 2는 본 발명에 따른 하이브리드 구조의 기계독해 시스템이 질문과 지문으로부터 답안을 추출하는 과정을 나타낸 구성도
도 3은 본 발명에 따른 기계독해 시스템의 데이터 전처리부가 HTML 태그를 간소화하는 과정을 나타낸 구성도
도 4는 본 발명에 따른 기계독해 시스템의 정답후보 순위화 처리부가 정답후보를 후처리하는 과정을 나타낸 구성도
도 5는 본 발명에 따른 기계독해 시스템의 정답후보 순위화 처리부가 정답후보를 후처리하는 과정을 나타낸 플로우 차트

이하, 본 발명에 따른 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법의 바람직한 실시 예에 관하여 상세히 설명하면 다음과 같다.

본 발명에 따른 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법의 특징 및 이점들은 이하에서의 각 실시 예에 대한 상세한 설명을 통해 명백해질 것이다.

도 1은 본 발명에 따른 테이블 중심의 웹 문서를 위한 기계독해 시스템의 구성도이다.

본 발명에 따른 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법은 평문뿐만 아니라 표와 같이 일정한 형식을 갖춘 데이터를 HTML 태그로 기술한 웹 문서를 효율적으로 독해할 수 있도록 한 것이다.

이를 위하여, 본 발명은 평문, 표, 그리고 리스트가 함께 있는 웹 문서의 독해를 위한 하이브리드 구조의 기계독해 모형으로 강인한 독해 성능을 구현할 수 있도록 하는 구성을 포함할 수 있다.

본 발명은 데이터 전처리(HTML 태그 정제),정답후보 추출,정답 후처리(HTML 태그 복원),정답 순위화를 포함하는 기계독해 모형에 관한 구성을 포함할 수 있다.

본 발명은 정답후보 추출에서 평문 정답을 추출하는 부분과 비평문(非平文) 정답을 추출하는 예측 부분을 분리하여 평문과 비평문을 함께 학습하였을 때 생길 수 있는 오류를 최소화하는 구성을 포함할 수 있다.

본 발명에 따른 테이블 중심의 웹 문서를 위한 기계독해 시스템은 HTML 태그를 간소화하는 데이터 전처리부(101)와, 문서의 평문과 비평문 각각으로부터 정답후보를 추출하는 정답후보 추출부(102)와, 정답후보에서 최종 정답을 추출하기 위해 정답후보를 순위화하는 정답후보 순위화 처리부(103)를 포함한다.

여기서, 상기 데이터 전처리부(101)는 웹 문서의 구조는 유지하면서 불필요한 HTML 태그를 제거하거나 간소화하는 것이다.

그리고 상기 정답후보 추출부(102)는 평문과 비평문을 구분하여 각각으로부터 정답후보를 추출한다.

그리고 정답후보 순위화 처리부(103)는 서술형/단답형 정답 분류를 통해 단답형으로 분류되는 경우 긴 답변을 짧은 답변으로 변환하는 것이다.

이와 같이 데이터 전처리부(101)는 주어진 문서를 토큰화한 후 HTML 태그를 간소화하여 입력 문장의 길이를 최소화한다.

본 발명에 따른 테이블 중심의 웹 문서를 위한 기계독해 방법을 구체적으로 설명하면 다음과 같다.

도 2는 본 발명에 따른 하이브리드 구조의 기계독해 시스템이 질문과 지문으로부터 답안을 추출하는 과정을 나타낸 구성도이고, 도 3은 본 발명에 따른 기계독해 시스템의 데이터 전처리부가 HTML 태그를 간소화하는 것을 보여주는 예시도이다.

문서의 구조는 유지하면서 불필요한 태그를 제거하기 위해 <p>, <ul>, <table> 태그 안에 존재하는 텍스트 외에 나머지 텍스트들은 제거하고 <p>, <ul>, <table> 태그와 관련된 태그들을 토큰 사전에 추가한다.

표의 경우 모든 정보를 토큰화하여 입력으로 사용할 경우 너무 긴 입력을 생성하기 때문에 표의 내용을 대표하는 <th> 태그 외에 나머지는 제거하고, 학습데이터에서 실제 정답의 시작과 끝을 각각 해당 테이블 태그의 <table>과 </table>로 재설정한다.

추출해야하는 정답은 <table> 태그의 일부 일지라도 태그 전체가 복원되며 서술형/단답형 분류기를 통하여 테이블 전체를 정답으로 출력할지 테이블 태그 내에 있는 짧은 답변을 출력할지를 결정한다.

그리고 정답후보 추출부(102)는 평문과 비평문의 정답후보 추출을 구분하여 처리한다.

, 와 같이 입력을 주게 되며, 는 질문을 의미하며, 는 나누어진 입력 중 i번째 입력을 의미한다.

정답이 포함되지 않은 입력은 [CLS]를 정답의 시작과 끝으로 가리키도록 라벨을 설정한다.

평문과 비평문의 정답후보 추출은 정답을 예측하는 FFNN(feed-forward neural network) 2개를 이용하여 처리한다.

첫 번째 FFNN은 답변이 <p> 태그 내에 존재하거나 문단 전체가 답이 되는 평문 정답만 예측하고, 두 번째 FFNN은 표나 리스트와 같은 비평문 정답을 예측하도록 한다.

이때, 비평문 정답이 포함된 경우에는 첫 번째 FFNN이 [CLS]를 정답의 시작과 끝을 예측하도록 하였고, 반대로 평문 정답의 경우에는 두 번째 FFNN이 [CLS]를 정답의 시작과 끝을 예측하도록 한다.

이에 대한 수식은 다음과 같다.

여기서, 은 평문 정답에 대한 출력함수이며, 는 비평문 정답에 대한 출력함수이다.

각각의 출력함수에서 출력된 정답 중 정답 선택모형에 의해 정답일 확률이 높은 각 상위 2개의 평문 정답과 테이블이나 리스트 정답을 추출하여 정답 후보를 구성한다.

본 발명에 따른 기계독해 시스템의 정답후보 순위화 처리부가 정답후보를 후처리 구성을 구체적으로 설명하면 다음과 같다.

도 4는 본 발명에 따른 기계독해 시스템의 정답후보 순위화 처리부가 정답후보를 후처리하는 과정을 나타낸 구성도이고, 도 5는 본 발명에 따른 기계독해 시스템의 정답후보 순위화 처리부가 정답후보를 후처리하는 과정을 나타낸 플로우 차트이다.

정답 후보 추출 과정에서, 각각의 출력함수에서 출력된 정답 중 정답 선택모형에 의해 정답일 확률이 높은 각 상위 2개의 평문 정답과 테이블이나 리스트 정답을 추출하여 정답 후보를 구성하는 과정을 수행한다.(S501)

정답후보 표의 경우 데이터 전처리 과정으로 인해 정답이 표 일부일지라도 테이블 태그 전체가 정답으로 출력된다.

테이블 태그가 출력된 정답후보는 서술형/단답형 정답 분류기를 통해서 단답형으로 분류되는 경우 정답 후처리 모듈을 통해서 테이블 태그 내에 있는 짧은 답변으로 변환한다.

이어, 서술형/단답형 정답 분류기는 BERT 모델을 이용했으며 질문을 입력으로 받고 해당 질문에 대한 답이 서술형일 확률과 단답형일 확률을 출력한다.(S502)

단답형 정답일 확률이 더 높은 경우 정답 추출기를 통해서 테이블 태그 내의 짧은 답변을 출력한다.

그리고 빈도수 기반 정답 추출기는 토큰화된 테이블 헤드와 테이블 데이터를 입력된 질문 토큰을 비교하여 일치하는 토큰의 개수가 많은 테이블 헤드와 테이블 데이터를 선택하여 최종 정답을 추출한다.(S503)

이어, 일치하는 토큰이 없다면 신경망 기반 정답 추출기를 통해서 정답을 추출한다.(S504)

그리고 신경망 기반 정답 추출기는 BERT 모델에 정답과 테이블 정보가 [SEP]로 구분된 입력을 주고 해당 테이블 헤드 혹은 테이블 정보가 해당 질문에 대한 정답을 포함하고 있을 확률을 출력하도록 한다.

학습 데이터는 KorQuAD 2.0 데이터셋의 테이블 태그와 정답 인덱스를 재구성한다.

정답 재순위화 모형은 질문과 정답을 [SEP]로 구분하여 입력으로 사용했으며 해당 정답이 해당 질문의 답일 확률을 출력한다. 정답 재순위화 모형은 정답 후보와 질문을 입력받고 최종 정답을 추출한다.

이상에서 설명한 본 발명에 따른 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법은 평문과 표를 포함하는 웹 문서를 대상으로 하는 하이브리드 구조의 기계독해 방법으로 HTML 태그, 표나 리스트를 포함하는 웹 문서를 효율적으로 독해할 수 있도록 한 것이다.

이상에서의 설명에서와 같이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명이 구현되어 있음을 이해할 수 있을 것이다.

그러므로 명시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 전술한 설명이 아니라 특허청구 범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

101. 데이터 전처리부
102. 정답후보 추출부
103. 정답후보 순위화 처리부

Claims

평문과 HTML 태그, 표나 리스트를 포함하는 웹 문서를 대상으로 하는 하이브리드 구조의 기계독해를 위하여,
주어진 문서를 토큰화한 후 웹 문서의 구조는 유지하면서 불필요한 HTML 태그를 제거하거나 간소화하는 데이터 전처리부;
문서의 평문과 비평문을 구분하여 각각으로부터 정답후보를 추출하는 정답후보 추출부;
정답후보에서 최종 정답을 추출하기 위해 정답후보를 순위화하는 정답후보 순위화 처리부;를 포함하고,
상기 정답후보 순위화 처리부는 서술형 및 단답형 정답 분류를 통해 단답형으로 분류되는 경우 긴 답변을 짧은 답변으로 변환하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 시스템.
삭제
제 1 항에 있어서, 문서의 구조는 유지하면서 불필요한 태그를 제거하기 위해,
<p>, <ul>, <table> 태그 안에 존재하는 텍스트 외에 나머지 텍스트들은 제거하고 <p>, <ul>, <table> 태그와 관련된 태그들을 토큰 사전에 추가하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 시스템.
제 1 항에 있어서, 표의 경우 모든 정보를 토큰화하여 입력으로 사용할 경우 너무 긴 입력을 생성하기 때문에,
표의 내용을 대표하는 <th> 태그 외에 나머지는 제거하고, 학습데이터에서 실제 정답의 시작과 끝을 각각 해당 테이블 태그의 <table>과 </table>로 재설정하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 시스템.
제 1 항에 있어서, 상기 정답후보 추출부는,
정답이 포함되지 않은 입력은 [CLS]를 정답의 시작과 끝으로 가리키도록 라벨을 설정하고, 평문과 비평문의 정답후보 추출은 정답을 예측하는 FFNN(feed-forward neural network) 2개를 이용하여 처리하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 시스템.
제 5 항에 있어서, 첫 번째 FFNN은 답변이 <p> 태그 내에 존재하거나 문단 전체가 답이 되는 평문 정답만 예측하고, 두 번째 FFNN은 표나 리스트와 같은 비평문 정답을 예측하도록 하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 시스템.
제 6 항에 있어서, 비평문 정답이 포함된 경우에는 첫 번째 FFNN이 [CLS]를 정답의 시작과 끝을 예측하도록 하고,
반대로 평문 정답의 경우에는 두 번째 FFNN이 [CLS]를 정답의 시작과 끝을 예측하도록 하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 시스템.
기계독해 시스템의 정답후보 순위화 처리부가 정답후보를 후처리를 하는 방법에 있어서,
(A)각각의 출력함수에서 출력된 정답 중 정답 선택모형에 의해 정답일 확률이 높은 각 상위 2개의 평문 정답과 테이블이나 리스트 정답을 추출하여 정답 후보를 구성하는 단계;
(B)서술형/단답형 정답 분류기에서 BERT 모델을 이용하여 질문을 입력으로 받고 해당 질문에 대한 답이 서술형일 확률과 단답형일 확률을 출력하는 단계;
(C)빈도수 기반 정답 추출기에서 토큰화된 테이블 헤드와 테이블 데이터를 입력된 질문 토큰을 비교하여 일치하는 토큰의 개수가 많은 테이블 헤드와 테이블 데이터를 선택하여 최종 정답을 추출하는 단계;
(D)일치하는 토큰이 없다면 신경망 기반 정답 추출기를 통해서 정답을 추출하는 단계;를 포함하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 방법.
제 8 항에 있어서, 상기 (A)단계에서,
정답후보 표의 경우 데이터 전처리 과정으로 인해 정답이 표 일부일지라도 테이블 태그 전체가 정답으로 출력되도록 하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 방법.
제 8 항에 있어서, 상기 (D)단계에서,
신경망 기반 정답 추출기는 BERT 모델에 정답과 테이블 정보가 [SEP]로 구분된 입력을 주고 해당 테이블 헤드 혹은 테이블 정보가 해당 질문에 대한 정답을 포함하고 있을 확률을 출력하도록 하고,
학습 데이터는 KorQuAD 2.0 데이터셋의 테이블 태그와 정답 인덱스를 재구성하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 방법.