KR102569381B1 - 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법 - Google Patents

테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법 Download PDF

Info

Publication number
KR102569381B1
KR102569381B1 KR1020200175773A KR20200175773A KR102569381B1 KR 102569381 B1 KR102569381 B1 KR 102569381B1 KR 1020200175773 A KR1020200175773 A KR 1020200175773A KR 20200175773 A KR20200175773 A KR 20200175773A KR 102569381 B1 KR102569381 B1 KR 102569381B1
Authority
KR
South Korea
Prior art keywords
correct answer
answer
correct
machine reading
plain text
Prior art date
Application number
KR1020200175773A
Other languages
English (en)
Other versions
KR20210076871A (ko
Inventor
권혁철
김민호
Original Assignee
부산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 부산대학교 산학협력단 filed Critical 부산대학교 산학협력단
Publication of KR20210076871A publication Critical patent/KR20210076871A/ko
Application granted granted Critical
Publication of KR102569381B1 publication Critical patent/KR102569381B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명은 평문뿐만 아니라 표와 같이 일정한 형식을 갖춘 데이터를 HTML 태그로 기술한 웹 문서를 효율적으로 독해할 수 있도록 한 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법에 관한 것으로, 평문과 HTML 태그, 표나 리스트를 포함하는 웹 문서를 대상으로 하는 하이브리드 구조의 기계독해를 위하여, 주어진 문서를 토큰화한 후 웹 문서의 구조는 유지하면서 불필요한 HTML 태그를 제거하거나 간소화하는 데이터 전처리부;문서의 평문과 비평문을 구분하여 각각으로부터 정답후보를 추출하는 정답후보 추출부;정답후보에서 최종 정답을 추출하기 위해 정답후보를 순위화하는 정답후보 순위화 처리부;를 포함하는 것이다.

Description

테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법{System and Method for Machine Reading Comprehension to Table-centered Web Documents}
본 발명은 기계독해에 관한 것으로, 구체적으로 평문뿐만 아니라 표와 같이 일정한 형식을 갖춘 데이터를 HTML 태그로 기술한 웹 문서를 효율적으로 독해할 수 있도록 한 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법에 관한 것이다.
기계독해(Machine Reading Comprehension; MRC)는 기계가 주어진 지문과 질문을 이해하여 지문 내에서 답변에 해당하는 부분을 찾는 자연어처리 응용 분야이다.
기계독해 기술을 이용하면 사용자의 질문에 적절한 응답을 제시하는 질의응답 시스템의 개발이 가능하며, 이를 기계독해 기반 질의응답 시스템이라고 한다.
일반적으로 연구단계에서 기계독해 모형은 평문을 대상으로 이루어지지만, 기계독해 기술이 적용되는 실무에서는 정제된 평문보다는 정제되지 않은 웹 문서를 처리해야 하는 경우가 많다.
이를 위해서는 웹 문서의 HTML 태그 전처리, 표나 리스트와 같은 반정형 데이터의 처리가 필요하다.
이와 같이, 기계독해는 지문과 질문을 입력받고 해당 지문과 질문을 이용하여 지문 내에서 정답을 찾는 자연어처리의 과제이다. 기계독해를 위한 데이터셋으로는 KorQuAD 1.0이 있으며, 위키피디아 문서에서 추출한 지문과 질문, 그리고 질문에 대한 답이 제공된다.
기존 기계독해 데이터셋은 평문으로 구성된 지문을 이용하여 질의응답을 수행한다. 하지만 기계독해가 적용되는 실무에서는 정제된 평문보다는 정제되지 않은 웹 문서를 처리해야 하는 경우가 많다. 이에 최근 다양한 구조와 길이를 가지는 문서에서 긴 문단이나 리스트나 표로 이루어진 정답을 찾는 기계독해 모형을 평가할 수 있는 KorQuAD 2.0 데이터셋이 발표되었다.
KorQuAD 2.0은 전체 103,193개의 질의-응답 쌍을 포함하는 기계독해 데이터로서, 47,971건의 문서에서 평균 215개의 질의-정답 쌍을 생성하였다.
1~2개의 문단에서 답을 찾아야 하는 KorQuAD 1.0과는 달리 위키피디아 문서 전체에서 답을 찾아야 해서, 탐색 시간에 대한 고려가 필요하다. 또한, 문단 전체가 답이 되거나, 1~2개의 <p>, <table>, <ui> 태그로 둘러싸인 부분 전체가 답이 될 수도 있어 HTML 태그의 분석을 통한 문서의 구조 이해도 필요하다.
KorQuad 2.0의 성능 기준치(baselise)는 BERT 다중언어 모형(multilingual model)을 사용하였을 때 EM 30.2, F1 46.0으로 KorQuad 10과 비교하여 난도가 높다. 즉, 기존 기계독해 모형과 달리 여러 문단에서 답을 찾고, 표와 같이 구조화된 문서를 분석할 수 있고, 문단과 같이 긴 정답도 찾을 수 있어야 한다.
TabQA는 표를 대상으로 한 자연어 질의응답을 위해 BiLSTM으로 질문과 테이블 정보를 인코딩하였으며 표의 행/열 구조를 그대로 이용하는 기계독해 모형이다.
주어진 질문에 기반하여 테이블의 어떤 행과 열이 정답일 가능성이 가장 큰 객체인지 평가하기 위해서 이중선형 형식(bilinear form)을 적용하였다.
TabQA를 이용할 경우 표에 대한 기계독해는 가능하나, 평문과 표 등이 섞인 웹 문서의 기계독해는 어렵다.
따라서, 평문뿐만 아니라 표와 같이 일정한 형식을 갖춘 데이터를 HTML 태그로 기술한 정제되지 않은 웹 문서를 효율적으로 기계독해할 수 있는 새로운 기술의 개발이 요구되고 있다.
대한민국 등록특허 제10-1986345호 대한민국 공개특허 제10-2019-0101567호 대한민국 공개특허 제10-2019-0056184호
본 발명은 종래 기술의 기계독해 기술의 문제점을 해결하기 위한 것으로, 평문뿐만 아니라 표와 같이 일정한 형식을 갖춘 데이터를 HTML 태그로 기술한 웹 문서를 효율적으로 독해할 수 있도록 한 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 평문, 표, 그리고 리스트가 함께 있는 웹 문서의 독해를 위한 하이브리드 구조의 기계독해 모형으로 강인한 독해 성능을 구현할 수 있도록 한 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 데이터 전처리(HTML 태그 정제),정답후보 추출,정답 후처리(HTML 태그 복원),정답 순위화를 포함하는 새로운 기계독해 모형으로 HTML 태그, 표나 리스트를 포함하는 웹 문서를 효율적으로 독해할 수 있도록 한 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 정답후보 추출에서 평문 정답을 추출하는 부분과 비평문(非平文) 정답을 추출하는 예측 부분을 분리하여 평문과 비평문을 함께 학습하였을 때 생길 수 있는 오류를 최소화할 수 있도록 한 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 테이블 중심의 웹 문서를 위한 기계독해 시스템은 평문과 HTML 태그, 표나 리스트를 포함하는 웹 문서를 대상으로 하는 하이브리드 구조의 기계독해를 위하여, 주어진 문서를 토큰화한 후 웹 문서의 구조는 유지하면서 불필요한 HTML 태그를 제거하거나 간소화하는 데이터 전처리부;문서의 평문과 비평문을 구분하여 각각으로부터 정답후보를 추출하는 정답후보 추출부;정답후보에서 최종 정답을 추출하기 위해 정답후보를 순위화하는 정답후보 순위화 처리부;를 포함하는 것을 특징으로 한다.
여기서, 상기 정답후보 순위화 처리부는, 서술형/단답형 정답 분류를 통해 단답형으로 분류되는 경우 긴 답변을 짧은 답변으로 변환하는 것을 특징으로 한다.
그리고 문서의 구조는 유지하면서 불필요한 태그를 제거하기 위해, <p>, <ul>, <table> 태그 안에 존재하는 텍스트 외에 나머지 텍스트들은 제거하고 <p>, <ul>, <table> 태그와 관련된 태그들을 토큰 사전에 추가하는 것을 특징으로 한다.
그리고 표의 경우 모든 정보를 토큰화하여 입력으로 사용할 경우 너무 긴 입력을 생성하기 때문에, 표의 내용을 대표하는 <th> 태그 외에 나머지는 제거하고, 학습데이터에서 실제 정답의 시작과 끝을 각각 해당 테이블 태그의 <table>과 </table>로 재설정하는 것을 특징으로 한다.
그리고 상기 정답후보 추출부는, 정답이 포함되지 않은 입력은 [CLS]를 정답의 시작과 끝으로 가리키도록 라벨을 설정하고, 평문과 비평문의 정답후보 추출은 정답을 예측하는 FFNN(feed-forward neural network) 2개를 이용하여 처리하는 것을 특징으로 한다.
그리고 첫 번째 FFNN은 답변이 <p> 태그 내에 존재하거나 문단 전체가 답이 되는 평문 정답만 예측하고, 두 번째 FFNN은 표나 리스트와 같은 비평문 정답을 예측하도록 하는 것을 특징으로 한다.
그리고 비평문 정답이 포함된 경우에는 첫 번째 FFNN이 [CLS]를 정답의 시작과 끝을 예측하도록 하고, 반대로 평문 정답의 경우에는 두 번째 FFNN이 [CLS]를 정답의 시작과 끝을 예측하도록 하는 것을 특징으로 한다.
다른 목적을 달성하기 위한 본 발명에 따른 테이블 중심의 웹 문서를 위한 기계독해 방법은 기계독해 시스템의 정답후보 순위화 처리부가 정답후보를 후처리를 하는 방법에 있어서, (A)각각의 출력함수에서 출력된 정답 중 정답 선택모형에 의해 정답일 확률이 높은 각 상위 2개의 평문 정답과 테이블이나 리스트 정답을 추출하여 정답 후보를 구성하는 단계;(B)서술형/단답형 정답 분류기에서 BERT 모델을 이용하여 질문을 입력으로 받고 해당 질문에 대한 답이 서술형일 확률과 단답형일 확률을 출력하는 단계;(C)빈도수 기반 정답 추출기에서 토큰화된 테이블 헤드와 테이블 데이터를 입력된 질문 토큰을 비교하여 일치하는 토큰의 개수가 많은 테이블 헤드와 테이블 데이터를 선택하여 최종 정답을 추출하는 단계;(D)일치하는 토큰이 없다면 신경망 기반 정답 추출기를 통해서 정답을 추출하는 단계;를 포함하는 것을 특징으로 한다.
여기서, 상기 (A)단계에서, 정답후보 표의 경우 데이터 전처리 과정으로 인해 정답이 표 일부일지라도 테이블 태그 전체가 정답으로 출력되도록 하는 것을 특징으로 한다.
그리고 상기 (D)단계에서, 신경망 기반 정답 추출기는 BERT 모델에 정답과 테이블 정보가 [SEP]로 구분된 입력을 주고 해당 테이블 헤드 혹은 테이블 정보가 해당 질문에 대한 정답을 포함하고 있을 확률을 출력하도록 하고, 학습 데이터는 KorQuAD 2.0 데이터셋의 테이블 태그와 정답 인덱스를 재구성하는 것을 특징으로 한다.
이상에서 설명한 바와 같은 본 발명에 따른 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법은 다음과 같은 효과가 있다.
첫째, 평문뿐만 아니라 표와 같이 일정한 형식을 갖춘 데이터를 HTML 태그로 기술한 웹 문서를 효율적으로 독해할 수 있도록 한다.
둘째, 평문, 표, 그리고 리스트가 함께 있는 웹 문서의 독해를 위한 하이브리드 구조의 기계독해 모형으로 강인한 독해 성능을 구현할 수 있도록 한다.
셋째, 데이터 전처리(HTML 태그 정제),정답후보 추출,정답 후처리(HTML 태그 복원),정답 순위화를 포함하는 새로운 기계독해 모형으로 HTML 태그, 표나 리스트를 포함하는 웹 문서를 효율적으로 독해할 수 있도록 한다.
넷째, 정답후보 추출에서 평문 정답을 추출하는 부분과 비평문(非平文) 정답을 추출하는 예측 부분을 분리하여 평문과 비평문을 함께 학습하였을 때 생길 수 있는 오류를 최소화할 수 있도록 한다.
도 1은 본 발명에 따른 테이블 중심의 웹 문서를 위한 기계독해 시스템의 구성도
도 2는 본 발명에 따른 하이브리드 구조의 기계독해 시스템이 질문과 지문으로부터 답안을 추출하는 과정을 나타낸 구성도
도 3은 본 발명에 따른 기계독해 시스템의 데이터 전처리부가 HTML 태그를 간소화하는 과정을 나타낸 구성도
도 4는 본 발명에 따른 기계독해 시스템의 정답후보 순위화 처리부가 정답후보를 후처리하는 과정을 나타낸 구성도
도 5는 본 발명에 따른 기계독해 시스템의 정답후보 순위화 처리부가 정답후보를 후처리하는 과정을 나타낸 플로우 차트
이하, 본 발명에 따른 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법의 바람직한 실시 예에 관하여 상세히 설명하면 다음과 같다.
본 발명에 따른 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법의 특징 및 이점들은 이하에서의 각 실시 예에 대한 상세한 설명을 통해 명백해질 것이다.
도 1은 본 발명에 따른 테이블 중심의 웹 문서를 위한 기계독해 시스템의 구성도이다.
본 발명에 따른 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법은 평문뿐만 아니라 표와 같이 일정한 형식을 갖춘 데이터를 HTML 태그로 기술한 웹 문서를 효율적으로 독해할 수 있도록 한 것이다.
이를 위하여, 본 발명은 평문, 표, 그리고 리스트가 함께 있는 웹 문서의 독해를 위한 하이브리드 구조의 기계독해 모형으로 강인한 독해 성능을 구현할 수 있도록 하는 구성을 포함할 수 있다.
본 발명은 데이터 전처리(HTML 태그 정제),정답후보 추출,정답 후처리(HTML 태그 복원),정답 순위화를 포함하는 기계독해 모형에 관한 구성을 포함할 수 있다.
본 발명은 정답후보 추출에서 평문 정답을 추출하는 부분과 비평문(非平文) 정답을 추출하는 예측 부분을 분리하여 평문과 비평문을 함께 학습하였을 때 생길 수 있는 오류를 최소화하는 구성을 포함할 수 있다.
본 발명에 따른 테이블 중심의 웹 문서를 위한 기계독해 시스템은 HTML 태그를 간소화하는 데이터 전처리부(101)와, 문서의 평문과 비평문 각각으로부터 정답후보를 추출하는 정답후보 추출부(102)와, 정답후보에서 최종 정답을 추출하기 위해 정답후보를 순위화하는 정답후보 순위화 처리부(103)를 포함한다.
여기서, 상기 데이터 전처리부(101)는 웹 문서의 구조는 유지하면서 불필요한 HTML 태그를 제거하거나 간소화하는 것이다.
그리고 상기 정답후보 추출부(102)는 평문과 비평문을 구분하여 각각으로부터 정답후보를 추출한다.
그리고 정답후보 순위화 처리부(103)는 서술형/단답형 정답 분류를 통해 단답형으로 분류되는 경우 긴 답변을 짧은 답변으로 변환하는 것이다.
이와 같이 데이터 전처리부(101)는 주어진 문서를 토큰화한 후 HTML 태그를 간소화하여 입력 문장의 길이를 최소화한다.
본 발명에 따른 테이블 중심의 웹 문서를 위한 기계독해 방법을 구체적으로 설명하면 다음과 같다.
도 2는 본 발명에 따른 하이브리드 구조의 기계독해 시스템이 질문과 지문으로부터 답안을 추출하는 과정을 나타낸 구성도이고, 도 3은 본 발명에 따른 기계독해 시스템의 데이터 전처리부가 HTML 태그를 간소화하는 것을 보여주는 예시도이다.
문서의 구조는 유지하면서 불필요한 태그를 제거하기 위해 <p>, <ul>, <table> 태그 안에 존재하는 텍스트 외에 나머지 텍스트들은 제거하고 <p>, <ul>, <table> 태그와 관련된 태그들을 토큰 사전에 추가한다.
표의 경우 모든 정보를 토큰화하여 입력으로 사용할 경우 너무 긴 입력을 생성하기 때문에 표의 내용을 대표하는 <th> 태그 외에 나머지는 제거하고, 학습데이터에서 실제 정답의 시작과 끝을 각각 해당 테이블 태그의 <table>과 </table>로 재설정한다.
추출해야하는 정답은 <table> 태그의 일부 일지라도 태그 전체가 복원되며 서술형/단답형 분류기를 통하여 테이블 전체를 정답으로 출력할지 테이블 태그 내에 있는 짧은 답변을 출력할지를 결정한다.
그리고 정답후보 추출부(102)는 평문과 비평문의 정답후보 추출을 구분하여 처리한다.
, 와 같이 입력을 주게 되며, 는 질문을 의미하며, 는 나누어진 입력 중 i번째 입력을 의미한다.
정답이 포함되지 않은 입력은 [CLS]를 정답의 시작과 끝으로 가리키도록 라벨을 설정한다.
평문과 비평문의 정답후보 추출은 정답을 예측하는 FFNN(feed-forward neural network) 2개를 이용하여 처리한다.
첫 번째 FFNN은 답변이 <p> 태그 내에 존재하거나 문단 전체가 답이 되는 평문 정답만 예측하고, 두 번째 FFNN은 표나 리스트와 같은 비평문 정답을 예측하도록 한다.
이때, 비평문 정답이 포함된 경우에는 첫 번째 FFNN이 [CLS]를 정답의 시작과 끝을 예측하도록 하였고, 반대로 평문 정답의 경우에는 두 번째 FFNN이 [CLS]를 정답의 시작과 끝을 예측하도록 한다.
이에 대한 수식은 다음과 같다.
여기서, 은 평문 정답에 대한 출력함수이며, 는 비평문 정답에 대한 출력함수이다.
각각의 출력함수에서 출력된 정답 중 정답 선택모형에 의해 정답일 확률이 높은 각 상위 2개의 평문 정답과 테이블이나 리스트 정답을 추출하여 정답 후보를 구성한다.
본 발명에 따른 기계독해 시스템의 정답후보 순위화 처리부가 정답후보를 후처리 구성을 구체적으로 설명하면 다음과 같다.
도 4는 본 발명에 따른 기계독해 시스템의 정답후보 순위화 처리부가 정답후보를 후처리하는 과정을 나타낸 구성도이고, 도 5는 본 발명에 따른 기계독해 시스템의 정답후보 순위화 처리부가 정답후보를 후처리하는 과정을 나타낸 플로우 차트이다.
정답 후보 추출 과정에서, 각각의 출력함수에서 출력된 정답 중 정답 선택모형에 의해 정답일 확률이 높은 각 상위 2개의 평문 정답과 테이블이나 리스트 정답을 추출하여 정답 후보를 구성하는 과정을 수행한다.(S501)
정답후보 표의 경우 데이터 전처리 과정으로 인해 정답이 표 일부일지라도 테이블 태그 전체가 정답으로 출력된다.
테이블 태그가 출력된 정답후보는 서술형/단답형 정답 분류기를 통해서 단답형으로 분류되는 경우 정답 후처리 모듈을 통해서 테이블 태그 내에 있는 짧은 답변으로 변환한다.
이어, 서술형/단답형 정답 분류기는 BERT 모델을 이용했으며 질문을 입력으로 받고 해당 질문에 대한 답이 서술형일 확률과 단답형일 확률을 출력한다.(S502)
단답형 정답일 확률이 더 높은 경우 정답 추출기를 통해서 테이블 태그 내의 짧은 답변을 출력한다.
그리고 빈도수 기반 정답 추출기는 토큰화된 테이블 헤드와 테이블 데이터를 입력된 질문 토큰을 비교하여 일치하는 토큰의 개수가 많은 테이블 헤드와 테이블 데이터를 선택하여 최종 정답을 추출한다.(S503)
이어, 일치하는 토큰이 없다면 신경망 기반 정답 추출기를 통해서 정답을 추출한다.(S504)
그리고 신경망 기반 정답 추출기는 BERT 모델에 정답과 테이블 정보가 [SEP]로 구분된 입력을 주고 해당 테이블 헤드 혹은 테이블 정보가 해당 질문에 대한 정답을 포함하고 있을 확률을 출력하도록 한다.
학습 데이터는 KorQuAD 2.0 데이터셋의 테이블 태그와 정답 인덱스를 재구성한다.
정답 재순위화 모형은 질문과 정답을 [SEP]로 구분하여 입력으로 사용했으며 해당 정답이 해당 질문의 답일 확률을 출력한다. 정답 재순위화 모형은 정답 후보와 질문을 입력받고 최종 정답을 추출한다.
이상에서 설명한 본 발명에 따른 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법은 평문과 표를 포함하는 웹 문서를 대상으로 하는 하이브리드 구조의 기계독해 방법으로 HTML 태그, 표나 리스트를 포함하는 웹 문서를 효율적으로 독해할 수 있도록 한 것이다.
이상에서의 설명에서와 같이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명이 구현되어 있음을 이해할 수 있을 것이다.
그러므로 명시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 전술한 설명이 아니라 특허청구 범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
101. 데이터 전처리부
102. 정답후보 추출부
103. 정답후보 순위화 처리부

Claims (10)

  1. 평문과 HTML 태그, 표나 리스트를 포함하는 웹 문서를 대상으로 하는 하이브리드 구조의 기계독해를 위하여,
    주어진 문서를 토큰화한 후 웹 문서의 구조는 유지하면서 불필요한 HTML 태그를 제거하거나 간소화하는 데이터 전처리부;
    문서의 평문과 비평문을 구분하여 각각으로부터 정답후보를 추출하는 정답후보 추출부;
    정답후보에서 최종 정답을 추출하기 위해 정답후보를 순위화하는 정답후보 순위화 처리부;를 포함하고,
    상기 정답후보 순위화 처리부는 서술형 및 단답형 정답 분류를 통해 단답형으로 분류되는 경우 긴 답변을 짧은 답변으로 변환하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 시스템.
  2. 삭제
  3. 제 1 항에 있어서, 문서의 구조는 유지하면서 불필요한 태그를 제거하기 위해,
    <p>, <ul>, <table> 태그 안에 존재하는 텍스트 외에 나머지 텍스트들은 제거하고 <p>, <ul>, <table> 태그와 관련된 태그들을 토큰 사전에 추가하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 시스템.
  4. 제 1 항에 있어서, 표의 경우 모든 정보를 토큰화하여 입력으로 사용할 경우 너무 긴 입력을 생성하기 때문에,
    표의 내용을 대표하는 <th> 태그 외에 나머지는 제거하고, 학습데이터에서 실제 정답의 시작과 끝을 각각 해당 테이블 태그의 <table>과 </table>로 재설정하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 시스템.
  5. 제 1 항에 있어서, 상기 정답후보 추출부는,
    정답이 포함되지 않은 입력은 [CLS]를 정답의 시작과 끝으로 가리키도록 라벨을 설정하고, 평문과 비평문의 정답후보 추출은 정답을 예측하는 FFNN(feed-forward neural network) 2개를 이용하여 처리하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 시스템.
  6. 제 5 항에 있어서, 첫 번째 FFNN은 답변이 <p> 태그 내에 존재하거나 문단 전체가 답이 되는 평문 정답만 예측하고, 두 번째 FFNN은 표나 리스트와 같은 비평문 정답을 예측하도록 하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 시스템.
  7. 제 6 항에 있어서, 비평문 정답이 포함된 경우에는 첫 번째 FFNN이 [CLS]를 정답의 시작과 끝을 예측하도록 하고,
    반대로 평문 정답의 경우에는 두 번째 FFNN이 [CLS]를 정답의 시작과 끝을 예측하도록 하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 시스템.
  8. 기계독해 시스템의 정답후보 순위화 처리부가 정답후보를 후처리를 하는 방법에 있어서,
    (A)각각의 출력함수에서 출력된 정답 중 정답 선택모형에 의해 정답일 확률이 높은 각 상위 2개의 평문 정답과 테이블이나 리스트 정답을 추출하여 정답 후보를 구성하는 단계;
    (B)서술형/단답형 정답 분류기에서 BERT 모델을 이용하여 질문을 입력으로 받고 해당 질문에 대한 답이 서술형일 확률과 단답형일 확률을 출력하는 단계;
    (C)빈도수 기반 정답 추출기에서 토큰화된 테이블 헤드와 테이블 데이터를 입력된 질문 토큰을 비교하여 일치하는 토큰의 개수가 많은 테이블 헤드와 테이블 데이터를 선택하여 최종 정답을 추출하는 단계;
    (D)일치하는 토큰이 없다면 신경망 기반 정답 추출기를 통해서 정답을 추출하는 단계;를 포함하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 방법.
  9. 제 8 항에 있어서, 상기 (A)단계에서,
    정답후보 표의 경우 데이터 전처리 과정으로 인해 정답이 표 일부일지라도 테이블 태그 전체가 정답으로 출력되도록 하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 방법.
  10. 제 8 항에 있어서, 상기 (D)단계에서,
    신경망 기반 정답 추출기는 BERT 모델에 정답과 테이블 정보가 [SEP]로 구분된 입력을 주고 해당 테이블 헤드 혹은 테이블 정보가 해당 질문에 대한 정답을 포함하고 있을 확률을 출력하도록 하고,
    학습 데이터는 KorQuAD 2.0 데이터셋의 테이블 태그와 정답 인덱스를 재구성하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 방법.

KR1020200175773A 2019-12-16 2020-12-15 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법 KR102569381B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20190167891 2019-12-16
KR1020190167891 2019-12-16

Publications (2)

Publication Number Publication Date
KR20210076871A KR20210076871A (ko) 2021-06-24
KR102569381B1 true KR102569381B1 (ko) 2023-08-23

Family

ID=76607248

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200175773A KR102569381B1 (ko) 2019-12-16 2020-12-15 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102569381B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102452814B1 (ko) * 2021-10-15 2022-10-07 한국기술교육대학교 산학협력단 문서 내 현안 분석 및 추출하기 위한 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101284788B1 (ko) * 2009-10-13 2013-07-10 한국전자통신연구원 신뢰도에 기반한 질의응답 장치 및 그 방법
KR101992399B1 (ko) * 2016-07-05 2019-06-24 한국전자통신연구원 하이브리드 추론 기반의 자연어 질의응답 시스템 및 그 방법
KR102100951B1 (ko) 2017-11-16 2020-04-14 주식회사 마인즈랩 기계 독해를 위한 질의응답 데이터 생성 시스템
KR102116518B1 (ko) 2018-02-23 2020-05-28 주식회사 마인즈랩 기계 독해에 기초한 질의 응답 장치 및 이를 이용한 질의 응답 방법
KR101986345B1 (ko) 2019-02-08 2019-06-10 주식회사 스위트케이 기계독해 성능향상을 위해 표·이미지에 메타 문장을 생성하는 장치

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
김영민 et al. "KorQuAD 2.0: 웹문서 기계독해를 위한 한국어 질의응답 데이터셋." 제31회 한글 및 한국어 정보처리 학술대회 (2019): 97-102.*
이동헌 et al. "BERT-SRU 와 HTML Tag 자질을 이용한 다중 지문 기계 독해 모델." 한국정보과학회 학술발표논문집 (2019): 383-385.
조상현 et al. "HW-Net: 웹 문서를 위한 하이브리드 기계독해 모형." 한국정보과학회 학술발표논문집 (2019): 350-352.
조상현 et al. "KorQuAD를 활용한 한국어 오픈도메인 질의응답 시스템." 제31회 한글 및 한국어 정보처리 학술대회 (2019): 321-325.*

Also Published As

Publication number Publication date
KR20210076871A (ko) 2021-06-24

Similar Documents

Publication Publication Date Title
KR102640564B1 (ko) 질의 응답 시스템의 훈련 장치 및 그것을 위한 컴퓨터 프로그램
Merchant et al. Nlp based latent semantic analysis for legal text summarization
US9779085B2 (en) Multilingual embeddings for natural language processing
Al-Kabi et al. A novel root based Arabic stemmer
Tahsin Mayeesha et al. Deep learning based question answering system in Bengali
Al Wazrah et al. Sentiment analysis using stacked gated recurrent unit for arabic tweets
Veena et al. An effective way of word-level language identification for code-mixed facebook comments using word-embedding via character-embedding
Valerio et al. Using automatically generated concept maps for document understanding: A human subjects experiment
Theeramunkong et al. Non-dictionary-based Thai word segmentation using decision trees
Opitz Argumentative relation classification as plausibility ranking
KR101333485B1 (ko) 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치
Galitsky et al. Text classification into abstract classes based on discourse structure
KR102569381B1 (ko) 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법
Mathayomchan et al. Utilizing Google translated Reviews from Google maps in sentiment analysis for Phuket tourist attractions
Bourahouat et al. Systematic review of the Arabic natural language processing: challenges, techniques and new trends
Imane et al. A set of parameters for automatically annotating a Sentiment Arabic Corpus
Joshi Text image extraction and summarization
Trisnawati et al. Twitter sentiment analysis on the use of Sinovac Vaccine in Indonesia
CN114491209A (zh) 基于互联网信息抓取的企业业务标签挖掘的方法和系统
CN113901793A (zh) 结合rpa和ai的事件抽取方法及装置
Desai et al. A Survey On Automatic Subjective Answer Evaluation
Shahade et al. Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining
Stewart et al. Segmentation and stitching improves handwriting recognition on datasets with few samples
Bairaktaris et al. DUTH at SemEval-2020 Task 11: BERT with entity mapping for propaganda classification
Pirovani et al. Indexing names of persons in a large dataset of a newspaper

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right