KR20220074695A

KR20220074695A - 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템 및 방법

Info

Publication number: KR20220074695A
Application number: KR1020210067844A
Authority: KR
Inventors: 권혁철; 이정훈; 조상현
Original assignee: 부산대학교 산학협력단
Priority date: 2020-11-27
Filing date: 2021-05-26
Publication date: 2022-06-03

Abstract

본 발명은 기계가 주어진 지문과 질문을 이해하여 지문 내에서 답변 영역을 평문뿐만 아니라 표, 리스트와 같이 일정한 형식을 갖춘 데이터에서 찾아 효율적인 대응이 가능하도록 한 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템 및 방법에 관한 것으로, 표 데이터에 특화된 언어모형 구축을 위한 사전 학습을 하는 사전 학습부;구축된 테이블 특화 언어 모형으로 기계독해 데이터에 대해 학습하는 미세 조정 학습부;미세조정 학습된 테이블 특화 기계독해 모형에 테이블과 사용자의 질문을 입력하고 질문에 대한 답을 출력하는 정답 추론부;를 포함하는 것이다.

Description

정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템 및 방법{System and Method for Table Specialized Machine Reading Comprehension using Structured and Unstructured and Semi-Structured Information}

본 발명은 기계독해에 관한 것으로, 구체적으로 기계가 주어진 지문과 질문을 이해하여 지문 내에서 답변 영역을 평문뿐만 아니라 표, 리스트와 같이 일정한 형식을 갖춘 데이터에서 찾아 효율적인 대응이 가능하도록 한 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템 및 방법에 관한 것이다.

기계독해(MRC;Machine Reading Comprehension)는 기계가 주어진 지문과 질문을 이해하여 지문 내에서 답변 영역을 찾아야 하는 자연어처리 과제로 자동 질의응답 기술의 핵심 토대가 되는 기술이다.

종래 기술의 기계독해는 좋은 성능을 내기 위하여 평문 형태의 지문 입력과 응답에 최적화 되어있었다. 하지만, 실제로 질의응답 기술이 필요한 영역을 살펴보면 정제된 평문에서 기계독해를 수행해야 하는 경우 보다는 웹 문서, 상품 매뉴얼, 이용 약관 문서 등 양식 구조도 다양하며 길이 또한 문단이 아닌 문서 레벨에서 수행해야 하는 경우가 많다.

이와 같이 종래 기술의 기계독해는 평문 형태의 지문을 이해해서 응답하는데 최적화가 되어 있었으며, 표와 리스트같이 정형, 반정형 데이터에 특화된 사례는 찾기가 어렵다.

종래 기술의 하나로, 표나 이미지에 대해 표나 이미지가 포함된 문서를 기반으로 메타 문장을 생성하여 표나 이미지 관련 응답에 대해서 성능을 향상키는 방법이 제시되고 있다.(대한민국 등록특허 제10-1986345호)

종래 기술의 기계독해 시스템에서는 표와 리스트같이 정형, 반정형 데이터에 대해서 성능을 향상시키는 방법으로 해당 형태의 데이터에 국한하여 정보를 반영하는데 그쳤다는 한계점이 있다.

기계독해는 평문과 같은 비정형 데이터에 비해서 양이 부족한 표(정형) 데이터에 대해 데이터의 증강 및 모델링 기술 개발이 필요로 하던 주요 향상점이였다.

따라서, 표 데이터와 같은 정형 데이터에 대해 특화된 더욱 정확한 기계독해 기술의 개발이 요구되고 있다.

대한민국 등록특허번호 제10-1986345호 대한민국 공개특허번호 제10-2020-0065832호 대한민국 공개특허번호 제10-2019-0143415호

본 발명은 종래 기술의 기계독해 기술의 문제점을 해결하기 위한 것으로, 기계가 주어진 지문과 질문을 이해하여 지문 내에서 답변 영역을 평문뿐만 아니라 표, 리스트와 같이 일정한 형식을 갖춘 데이터에서 찾아 효율적인 대응이 가능하도록 한 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템 및 방법을 제공하는데 그 목적이 있다.

본 발명은 표 중심의 정형, 비정형, 반정형 데이터에 대해 특화되어 질의에 응답하며, 학습 모형을 표 데이터에 특화시키고 학습과정에서 비정형, 반정형 데이터인 평문, 리스트를 표와 같이 정제하여 표 데이터로 인식하게 하여 표 데이터의 양을 늘려 기계독해의 성능을 높인 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템 및 방법을 제공하는데 그 목적이 있다.

본 발명은 표의 셀의 번호를 학습 과정에 부여하여 사용자의 질의에 대해서 표 관련 응답에 관한 성능을 높인 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템 및 방법을 제공하는데 그 목적이 있다.

본 발명은 비정형, 반정형 데이터를 정형 데이터의 형태로 참고하여 증강 학습을 하여 더 많은 정보를 함축하고 있는 학습 모형을 얻을 수 있도록 한 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템 및 방법을 제공하는데 그 목적이 있다.

본 발명은 정형 데이터에 특화시킨 학습된 모형을 질의응답에 사용하는 것에 의해 정형 데이터에 관한 정답을 더 효율적으로 찾을 수 있도록 한 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템 및 방법을 제공하는데 그 목적이 있다.

본 발명의 다른 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템은 표 데이터에 특화된 언어모형 구축을 위한 사전 학습을 하는 사전 학습부;구축된 테이블 특화 언어 모형으로 기계독해 데이터에 대해 학습하는 미세 조정 학습부;미세조정 학습된 테이블 특화 기계독해 모형에 테이블과 사용자의 질문을 입력하고 질문에 대한 답을 출력하는 정답 추론부;를 포함하는 것을 특징으로 한다.

여기서, 사전 학습부는, 사전학습을 위한 표 데이터를 입력하는 입력부와,입력부를 통한 입력 데이터 중 정형 데이터인 표 데이터를 사전학습 모형에 넣기 편한 형태인 평면 상태를 만들어주는 표 데이터 평면화 정제부와,표 데이터를 위해 특화된 임베딩을 수행하는 표 데이터 특화 임베딩 적용부와,표 데이터 특화 임베딩 적용부에서 출력된 표현 값을 입력받아 행과 열의 표현 벡터를 구하여 토큰 표현 벡터에 합산하는 셀 표현 연산부와,표 데이터 특화 임베딩 적용부에서 생성된 임베딩 벡터를 기반으로 표 특화 언어 모형을 학습하는 학습부를 포함하는 것을 특징으로 한다.

그리고 표 데이터 특화 임베딩 적용부는, 표에 특화된 질의응답 사전학습 언어모형을 만들기 위해서 비정형 또는 반정형 데이터에 표와 같은 셀의 행, 열 번호와 순위 정보, 개체명(named entity)정보의 임베딩을 수행하는 것을 특징으로 한다.

그리고 셀 표현 연산부는, 평문 언어 모형에서 출력된 표현 값을 셀 단위의 표현 값으로 치환하고 표의 셀 정보가 반영된 표현 값을 생성하는 것을 특징으로 한다.

그리고 학습부는, 표 데이터에 적합한 언어 모형을 생성하기 위해 마스킹 언어 모형을 이용하여 표 데이터에 대한 사전학습을 하는 것을 특징으로 한다.

그리고 마스킹 언어 모형은 사전학습을 위해 입력된 데이터의 일부를 마스킹하고 마스킹된 문장을 입력받았을 때 마스킹 되기 전의 토큰을 예측하도록 하는 것을 특징으로 한다.

그리고 정답 추론부는, 질의와 질의에 대한 정답을 찾기 위한 표 데이터를 입력하는 질의 입력부와,질의 입력부를 통해 입력된 데이터 중 정형 데이터인 표 데이터를 사전학습 모형에 넣기 편한 형태인 평면 상태를 만들어주는 표 데이터 평면화 정제부와,사전학습된 표 데이터 특화 언어모형에 평면화된 질문과 테이블을 입력하고 입력 토큰들의 표현 백터를 출력받는 표 데이터 특화 사전학습 언어모형 출력부와,언어모형에서 출력된 표현 벡터를 이용하여 정답의 시작과 끝을 예측하고 답을 출력하는 응답 출력부를 포함하는 것을 특징으로 한다.

그리고 응답 출력부는, 사전학습된 표 데이터 특화 언어모형에 표 데이터와 질문을 입력하고 입력된 표에서 질문에 대한 정답의 범위를 찾는 것을 특징으로 한다.

다른 목적을 달성하기 위한 본 발명에 따른 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 방법은 사전 학습부에서 표 데이터에 특화된 언어모형 구축을 위한 사전학습을 수행하는 단계;미세 조정 학습부에서 구축된 테이블 특화 언어 모형으로 기계독해 데이터에 대해 학습하는 미세 조정 학습을 수행하는 단계;정답 추론부에서 미세조정 학습된 테이블 특화 기계독해 모형에 테이블과 사용자의 질문을 입력하고 질문에 대한 답을 출력하는 정답 추론 단계;를 포함하는 것을 특징으로 한다.

여기서, 사전학습을 수행하는 단계에서, 사전 학습부의 표 데이터 평면화 정체부에서 반-구조화된 표 데이터를 언어 모형에 입력할 수 있는 평면화된 토큰의 배열 형태로 변환하고, 사전 학습부의 표 데이터 특화 임베딩 적용부가 표 데이터 평면화 정체부에서 생성된 표 데이터에 대해서 표 데이터에 특화된 임베딩을 생성하는 것을 특징으로 한다.

그리고 표 데이터에 특화된 임베딩은, 숫자, 수량, 시간의 대소 비교가 가능한 표 데이터를 행의 방향으로 순위를 매기고 해당 순위에 대한 임베딩을 부여하는 순위 임베딩과, 표 데이터의 각 셀의 숫자, 수량, 시간, 국가, 인물 이름에 대한 개체명을 분류하고 해당 개체명에 대한 임베딩을 부여하는 개체명 임베딩이 포함되는 것을 특징으로 한다.

그리고 사전학습을 수행하는 단계에서, 사전 학습부의 학습부에서 표 데이터에 적합한 언어 모형을 생성하기 위해 마스킹 언어 모형을 이용하여 표 데이터에 대한 사전학습을 하는 것을 특징으로 한다.

그리고 사전학습을 수행하는 단계에서 사전학습 언어모형의 입력은, 토큰 사전에서의 입력된 토큰의 번호 Token ids, 각 토큰의 입력된 순서 Position ids, 질의와 관련된 토큰은 0을 부여하고 표와 관련된 토큰은 1을 부여하여 각 토큰의 종류를 나타내는 Segments ids 및, 각 토큰이 해당하는 행과 열의 번호를 나타내는 Column ids와 Row ids, 행을 기준으로 대/소 비교가 가능한 셀들에 대해서 대소 비교를 하고 큰 순서대로 순위를 부여한 것을 나타내는 Rank ids, 개체명에 대한 번호를 나타내는 Name ids를 포함하는 것을 특징으로 한다.

그리고 정답 추론 단계의 질의응답 과정에서 정답 추론부의 표 데이터 특화 사전학습 언어모형 출력부는 사전학습한 언어모형에 표 데이터 평면화 정제부에서 정제한 질문과 표 데이터를 입력하여 입력한 각 토큰에 대한 표현값을 출력하는 것을 특징으로 한다.

그리고 정답 추론 단계의 질의응답 과정에서 표 데이터 특화 사전학습 언어모형에서 출력된 표현 값을 이용하여 정답 출력을 위한 예측 값을 출력하고, 입력된 테이블에서 정답에 해당하는 토큰들의 시작 위치와 끝의 위치에 대한 확률을 출력하며, [CLS] 토큰의 표현을 이용하여 입력된 테이블에 질문에 대한 정답을 포함하고 있을 확률을 출력하는 것을 특징으로 한다.

이상에서 설명한 바와 같은 본 발명에 따른 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템 및 방법은 다음과 같은 효과가 있다.

첫째, 기계가 주어진 지문과 질문을 이해하여 지문 내에서 답변 영역을 평문뿐만 아니라 표, 리스트와 같이 일정한 형식을 갖춘 데이터에서 찾아 효율적인 대응이 가능하도록 한다.

둘째, 표 중심의 정형, 비정형, 반정형 데이터에 대해 특화되어 질의에 응답하며, 학습 모형을 표 데이터에 특화시키고 학습과정에서 비정형, 반정형 데이터인 평문, 리스트를 표와 같이 정제하여 표 데이터로 인식하게 하여 표 데이터의 양을 늘려 기계독해의 성능을 높인다.

셋째, 표의 셀의 번호를 학습 과정에 부여하여 사용자의 질의에 대해서 표 관련 응답에 관한 성능을 높인다.

넷째, 비정형, 반정형 데이터를 정형 데이터의 형태로 참고하여 증강 학습을 하여 더 많은 정보를 함축하고 있는 학습 모형을 얻을 수 있도록 한다.

다섯째, 정형 데이터에 특화시킨 학습된 모형을 질의응답에 사용하는 것에 의해 정형 데이터에 관한 정답을 더 효율적으로 찾을 수 있도록 한다.

도 1은 본 발명에 따른 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템의 전체 구성도
도 2a는 본 발명에 따른 표 데이터에 특화된 언어 모형 사전 학습부의 상세구성도
도 2b는 본 발명에 따른 표 데이터에 특화된 언어 모형을 이용한 질의응답을 위한 정답 추론부의 상세 구성도
도 3은 본 발명에 따른 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 방법을 나타낸 플로우 차트
도 4는 표 데이터 특화 사전학습 모형 및 기계독해 모형에 입력되는 예시를 나타낸 구성도
도 5는 표 데이터 특화 사전학습 언어모형에서 셀 표현 연산을 위한 행과 열의 표현 값을 구하는 것을 나타낸 구성도
도 6은 셀 표현 행과 열 임베딩을 평면화하고 토큰 표현 연산에 추가하여 표 특화 사전학습 언어모형에서 출력 값을 구하는 것을 나타낸 구성도
도 7은 미세조정 학습 단계에서 만든 표 데이터 특화 기계독해 모형에 질문과 테이블을 입력하고 테이블 내에 정답이 있을 확률과 정답의 시작과 끝의 확률을 출력하는 것을 나타낸 구성도
도 8은 정답 추론 과정에서 질문이 입력되었을 때 사용자에게 정답을 출력하는 과정을 나타낸 구성도

이하, 본 발명에 따른 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템 및 방법의 바람직한 실시 예에 관하여 상세히 설명하면 다음과 같다.

본 발명에 따른 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템 및 방법의 특징 및 이점들은 이하에서의 각 실시 예에 대한 상세한 설명을 통해 명백해질 것이다.

도 1은 본 발명에 따른 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템의 전체 구성도이다.

본 발명에 따른 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템 및 방법은 기계가 주어진 지문과 질문을 이해하여 지문 내에서 답변 영역을 평문뿐만 아니라 표, 리스트와 같이 일정한 형식을 갖춘 데이터에서 찾아 효율적인 대응이 가능하도록 한 것이다.

이를 위하여, 본 발명은 표 중심의 정형, 비정형, 반정형 데이터에 대해 특화되어 질의에 응답하며, 학습 모형을 표 데이터에 특화시키고 학습과정에서 비정형, 반정형 데이터인 평문, 리스트를 표와 같이 정제하여 표 데이터로 인식하게 하여 표 데이터의 양을 늘려 기계독해의 성능을 높이기 위한 구성을 포함할 수 있다.

본 발명은 평문을 사용한 표에 특화된 기계독해 방법 및 시스템은 심화학습을 통해 얻어진 평문에 특화된 언어 모형을 표 데이터를 이용하여 표 데이터에 특화된 언어 모형을 얻는 방법과 표 데이터를 입력하고 행과 열의 벡터를 계산하고 이를 이용하여 표 내에서 질문에 대한 최종 응답을 결정하는 구성을 포함할 수 있다.

이하의 설명에서 평문에 특화된 사전학습된 언어 모형은 토큰 단위로 쪼개진 학습 문서의 토큰을 마스킹하여 마스킹된 토큰을 예측하는 방식으로 평문 데이터를 이용하여 사전학습된 언어 모형을 말한다.

본 발명에 따른 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템은 도 1에서와 같이, 표 데이터에 특화된 언어모형 구축을 위한 사전 학습을 하는 사전 학습부(100)와, 구축된 테이블 특화 언어 모형으로 기계독해 데이터에 대해 학습하는 미세 조정 학습부(200)와, 미세조정 학습된 테이블 특화 기계독해 모형에 테이블과 사용자의 질문을 입력하고 질문에 대한 답을 출력하는 정답 추론부(300)를 포함한다.

여기서, 사전 학습부(100)의 상세 구성은 다음과 같다.

도 2a는 본 발명에 따른 표 데이터에 특화된 언어 모형 사전 학습부의 상세구성도이다.

사전 학습부(100)는 도 2a에서와 같이, 사전학습을 위한 표 데이터를 입력하는 입력부(101)와, 입력부(101)를 통한 입력 데이터 중 정형 데이터인 표 데이터를 사전학습 모형에 넣기 편한 형태인 평면 상태를 만들어주는 표 데이터 평면화 정제부(102)와, 표에 특화된 질의응답 사전학습 언어모형을 만들기 위해서 비정형 또는 반정형 데이터에 표와 같은 셀의 행, 열 번호와 순위 정보, 개체명(named entity)정보의 특별한 임베딩을 수행하는 표 데이터 특화 임베딩 적용부(103)와, 표 데이터 특화 임베딩 적용부(103)에서 출력된 표현 값을 입력받아 행과 열의 표현 벡터를 구하여 토큰 표현 벡터에 합산하는 셀 표현 연산부(104)와, 표 데이터 특화 임베딩 적용부(103)에서 생성된 임베딩 벡터를 기반으로 표 특화 언어 모형을 학습하는 학습부(105)를 포함한다.

여기서, 셀 표현 연산부(104)는 평문 언어 모형에서 출력된 표현 값을 셀 단위의 표현 값으로 치환하고 표의 셀 정보가 반영된 표현 값을 생성하는 것이다.

그리고 학습부(105)는 표 데이터에 적합한 언어 모형을 생성하기 위해 마스킹 언어 모형을 이용하여 표 데이터에 대한 사전학습을 하는 것이다.

마스킹 언어 모형은 사전학습을 위해 입력된 데이터의 일부를 마스킹하고 마스킹된 문장을 입력받았을 때 마스킹 되기 전의 토큰을 예측하도록 하는 것이다.

그리고 정답 추론부(300)의 상세 구성은 다음과 같다.

도 2b는 본 발명에 따른 표 데이터에 특화된 언어 모형을 이용한 질의응답을 위한 정답 추론부의 상세 구성도이다.

정답 추론부(300)는 표 데이터에 특화된 언어 모형을 이용한 질의응답 처리를 위한 것으로 도 2b에서와 같이, 질의와 질의에 대한 정답을 찾기 위한 표 데이터를 입력하는 질의 입력부(301)와, 질의 입력부(301)를 통해 입력된 데이터 중 정형 데이터인 표 데이터를 사전학습 모형에 넣기 편한 형태인 평면 상태를 만들어주는 표 데이터 평면화 정제부(302)와, 사전학습된 표 데이터 특화 언어모형에 평면화된 질문과 테이블을 입력하고 입력 토큰들의 표현 백터를 출력받는 표 데이터 특화 사전학습 언어모형 출력부(303)와, 언어모형에서 출력된 표현 벡터를 이용하여 정답의 시작과 끝을 예측하고 답을 출력하는 응답 출력부(304)를 포함한다.

여기서, 응답 출력부(304)는 사전학습된 표 데이터 특화 언어모형에 표 데이터와 질문을 입력하고 입력된 표에서 질문에 대한 정답의 범위를 찾는 것이다.

본 발명에 따른 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 방법을 구체적으로 설명하면 다음과 같다.

도 3은 본 발명에 따른 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 방법을 나타낸 플로우 차트이다.

본 발명에 따른 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 방법은 도 3에서와 같이, 표 데이터에 특화된 언어모형 구축을 위한 사전학습 단계(S301)와, 구축된 테이블 특화 언어 모형으로 기계독해 데이터에 대해 학습하는 미세 조정 학습 단계(S302)와, 미세조정 학습된 테이블 특화 기계독해 모형에 테이블과 사용자의 질문을 입력하고 질문에 대한 답을 출력하는 정답 추론 단계(S303)로 크게 구성된다.

본 발명에 따른 표 데이터에 특화된 언어 모형 사전학습 방법을 각 단계별로 상세히 설명하면 다음과 같다.

도 4는 표 데이터 특화 사전학습 모형 및 기계독해 모형에 입력되는 예시를 나타낸 구성도이다.

표 데이터 평면화 정체부(102)는 도 3에서처럼 반-구조화된 표 데이터를 언어 모형에 입력할 수 있는 평면화된 토큰의 배열 형태로 변환한다.

표 데이터 특화 임베딩 적용부(103)는 표 데이터 평면화 정체부(102)에서 생성된 표 데이터에 대해서 표 데이터에 특화된 임베딩을 생성한다.

표 데이터에 특화된 임베딩은 숫자, 수량, 시간의 대소 비교가 가능한 표 데이터를 행의 방향으로 순위를 매기고 해당 순위에 대한 임베딩을 부여하는 순위 임베딩과, 표 데이터의 각 셀의 숫자, 수량, 시간, 국가, 인물 이름에 대한 개체명을 분류하고 해당 개체명에 대한 임베딩을 부여하는 개체명 임베딩이 포함된다.

학습부(105)에서 학습하는 언어 모형은 마스크 언어 모형을 이용한다. 마스크 언어 모형이란 입력부(101)에서 입력되는 토큰의 일부를 마스킹하고 마스킹된 토큰을 예측하는 방식이다.

도 4는 입력부(101)에서 입력된 질의와 표 데이터를 표 데이터 평면화 정제부(102)에서 사전학습 언어모형에 입력하기 위한 형태로 변형한 예시를 나타낸다.

도 4의 Token ids, Position ids, Segments ids는 기존의 언어모형에서 입력을 나타낸다.

Column ids, Row ids, Rank ids, Name ids는 표를 위한 언어모형에서 표에 특화된 임베딩을 생성하기 위한 입력을 나타낸다.

Token ids는 토큰 사전에서의 입력된 토큰의 번호를 나타내며, 각 토큰의 Position ids는 입력된 순서를 나타내며, Segments ids는 각 토큰의 종류를 나타낸다. Segments ids에서 질의와 관련된 토큰은 0을 부여하고 표와 관련된 토큰은 1을 부여한다.

Column ids와 Row ids는 각 토큰이 해당하는 행과 열의 번호를 나타내며, Rank ids는 행을 기준으로 대/소 비교가 가능한 셀들에 대해서 대소 비교를 하고 큰 순서대로 순위를 부여한 것을 나타낸다. Name ids는 개체명에 대한 번호를 나타내며, 개체명은 '해당 없음, 사람 이름, 숫자 및 수량, 나라 이름'으로 구분하고 해당하는 개체명의 번호를 부여한다.

사전학습 단계의 상세 구성은 다음과 같다.

수학식 1은 표 데이터 평면화 데이터 정제부(102)에서 생성한 입력을 평문 데이터 사전학습 언어모형의 표 데이터 특화 임베딩 적용부(103)에 입력하고 각 토큰의 표현 값을 출력한 것을 나타낸다.

수학식 1의 BERT는 평문 데이터를 이용하여 마스크 언어 모형을 기반으로 사전학습한 언어 모형을 의미한다. BERT는 도 4의 Token, Position, Segment ids를 통해 Token, Position, Segment의 임베딩을 입력받고 다층 트랜스포머 블록을 통해서 입력된 토큰의 표현을 출력한다.

트랜스포머는 어텐션 기법을 이용하여 입력된 벡터가 어떤 벡터에 집중을 하여 정보를 인코딩 할 것인지를 결정하는 어텐션 점수를 계산하고 어텐션 점수와 입력된 벡터를 가중합한 값을 출력하는 모형이다.

수학식 2는 각 셀에서 태깅된 개체명 정보를 통해 개체명 임베딩을 생성하고, 해당 임베딩을 BERT의 출력 값과 합하여 개체명 정보가 포함된 표현 값을 얻는 것을 나타낸다.

수학식 3 ~ 수학식 6은 표 데이터 평면화 정제부(102)에서 생성한 Col ids와 Row ids를 이용하여 셀 표현 연산부(104)에서 행과 열에 대한 표현 값을 계산하는 방법을 나타낸다. Col ids와 Row ids는 입력된 각 토큰이 속하는 행과 열을 나타낸다.

도 5는 표 데이터 특화 사전학습 언어모형에서 셀 표현 연산을 위한 행과 열의 표현 값을 구하는 것을 나타낸 것으로, 셀 표현 연산부(104)에서 각 토큰에서 출력된 표현 값을 각 행과 열의 위치에 따라 합산을 하여 행과 열의 표현 벡터를 계산하는 것을 나타낸다.

수학식 5 ~ 수학식 6은 행과 열의 위치에 따라 합산한 행과 열의 표현 벡터를 평면화하여 해당 행과 열에 해당하는 토큰의 언어모형 출력 벡터에 결합하여 행과 열의 정보가 반영된 토큰 표현 벡터를 생성하는 것을 나타낸다.

도 6은 이에 대한 예시를 나타낸 것으로, 셀 표현 행과 열 임베딩을 평면화하고 토큰 표현 연산에 추가하여 표 특화 사전학습 언어모형에서 출력 값을 구하는 것을 나타낸 구성도이다.

여기서,

는 Col ids를 원-핫 벡터로 변환한 벡터를 의미한다.

는 행의 최대 길이를 나타내며, m+n+2는 BERT 모형의 최대 입력 길이를 나타낸다.

는 Row ids를 원-핫 벡터로 변환한 벡터를 의미한다. R은 행의 최대 길이를 나타낸다.

수학식 5 ~ 수학식 6에서는 수학식 3 ~ 수학식 4에서 구한 행과 열의 임베딩과 행과 열의 원-핫 벡터를 행렬 곱하여 [행의 길이 X 히든 사이즈], [열의 길이 X 히든 사이즈]였던 행과 열의 임베딩 벡터 크기가 [입력의 길이 X 히든 사이즈]와 같이 변경되도록 한다.

수학식 7에서는 입력의 길이를 가지도록 한 행과 열의 임베딩 벡터와 언어 모형에서 출력된 벡터를 연결(Concatenation)한다. 언어 모형에서 출력된 벡터는 수학식 2의

를 가리킨다.

수학식 8에서는 수학식 7에서 구한 벡터에 전방향 신경망(Feed-forward Neural Network)을 적용하여 [입력의 길이 X 히든 사이즈]의 크기의 벡터가 출력되도록 한다.

표 데이터에 대한 언어모형 사전학습을 위해서 입력된 토큰의 일부를 [MASK] 토큰으로 치환하고 언어 모형에 입력한다. 언어모형은 [MASK] 토큰의 위치에 들어갈 원본 토큰의 확률을 출력하며, 수학식 9의

가 이에 대한 확률을 나타낸다.

수학식 9에서

는 토큰 임베딩을 의미한다. 수학식 8에서 얻은 셀 표현이 결합된 벡터과 토큰 임베딩을 행렬 곱하여 치환되기 전의 토큰에 대한 예측 결과를 얻는다. 학습부(105)는 언어모형의 예측 결과인

과 원본 토큰에 대한 확률인

과의 크로스 엔트로피 오차를 최소화하도록 사전학습한다.

도 7은 미세조정 학습 단계에서 만든 표 데이터 특화 기계독해 모형에 질문과 테이블을 입력하고 테이블 내에 정답이 있을 확률과 정답의 시작과 끝의 확률을 출력하는 것을 나타낸 구성도이다.

그리고 질의응답 과정에서 표 데이터 특화 사전학습 언어모형 출력부(303)는 학습부(104)에서 사전학습한 언어모형에 표 데이터 평면화 정제부(302)에서 정제한 질문과 표 데이터를 입력하여 입력한 각 토큰에 대한 표현값을 출력한다.

수학식 10 ~ 수학식 12는 표 데이터 특화 사전학습 언어모형 출력부(303)에서 출력한 표현값에 FFNN을 적용하여 질문에 대한 정답의 시작 토큰일 확률과 끝 토큰일 확률을 출력하여 정답 토큰의 범위를 구하는 것을 나타낸다.

도 7은 표 데이터 특화 사전학습 언어모형에서 출력된 표현 값을 이용하여 정답 출력을 위한 예측 값을 출력하는 것을 나타낸 것으로, 입력된 테이블에서 정답에 해당하는 토큰들의 시작 위치와 끝의 위치에 대한 확률을 출력하며, [CLS] 토큰의 표현을 이용하여 입력된 테이블에 질문에 대한 정답을 포함하고 있을 확률을 출력한다.

도 8은 정답 추론 과정에서 질문이 입력되었을 때 사용자에게 정답을 출력하는 과정을 나타낸 구성도이다.

기계독해 장치 동작시에 단락 순위화 과정에서는 여러 개의 테이블을 입력받고 해당 테이블이 정답을 포함하고 있을 확률을 출력받는다. 기계독해 과정에서는 정답을 포함하고 있을 확률이 가장 높게 출력된 테이블을 입력하여 정답의 시작과 끝의 위치를 구하고 해당 위치에 해당하는 토큰들을 정답으로 출력한다.

도 8에서와 같이, 기계독해 장치의 동작 과정에서 사용자가 질의와 정답을 찾을 문서를 입력하면 도 2b에서 학습한 표 데이터 특화 기계독해 모형에서 문서 내에 존재하는 테이블 데이터들과 사용자의 질의를 입력하고 정답이 있을 확률이 가장 크게 출력되는 테이블에서 출력된 정답을 출력한다.

이상에서 설명한 본 발명에 따른 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템 및 방법은 기계가 주어진 지문과 질문을 이해하여 지문 내에서 답변 영역을 평문뿐만 아니라 표, 리스트와 같이 일정한 형식을 갖춘 데이터에서 찾아 효율적인 대응이 가능하도록 한 것이다.

이상에서의 설명에서와 같이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명이 구현되어 있음을 이해할 수 있을 것이다.

그러므로 명시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 전술한 설명이 아니라 특허청구 범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

100. 사전 학습부
200. 미세 조정 학습부
300. 정답 추론부

Claims

표 데이터에 특화된 언어모형 구축을 위한 사전 학습을 하는 사전 학습부;
구축된 테이블 특화 언어 모형으로 기계독해 데이터에 대해 학습하는 미세 조정 학습부;
미세조정 학습된 테이블 특화 기계독해 모형에 테이블과 사용자의 질문을 입력하고 질문에 대한 답을 출력하는 정답 추론부;를 포함하는 것을 특징으로 하는 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템.
제 1 항에 있어서, 사전 학습부는,
사전학습을 위한 표 데이터를 입력하는 입력부와,
입력부를 통한 입력 데이터 중 정형 데이터인 표 데이터를 사전학습 모형에 넣기 편한 형태인 평면 상태를 만들어주는 표 데이터 평면화 정제부와,
표 데이터를 위해 특화된 임베딩을 수행하는 표 데이터 특화 임베딩 적용부와,
표 데이터 특화 임베딩 적용부에서 출력된 표현 값을 입력받아 행과 열의 표현 벡터를 구하여 토큰 표현 벡터에 합산하는 셀 표현 연산부와,
표 데이터 특화 임베딩 적용부에서 생성된 임베딩 벡터를 기반으로 표 특화 언어 모형을 학습하는 학습부를 포함하는 것을 특징으로 하는 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템.
제 2 항에 있어서, 표 데이터 특화 임베딩 적용부는,
표에 특화된 질의응답 사전학습 언어모형을 만들기 위해서 비정형 또는 반정형 데이터에 표와 같은 셀의 행, 열 번호와 순위 정보, 개체명(named entity)정보의 임베딩을 수행하는 것을 특징으로 하는 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템.
제 3 항에 있어서, 표 데이터에 특화된 임베딩은 숫자, 수량, 시간의 대소 비교가 가능한 표 데이터를 행의 방향으로 순위를 매기고 해당 순위에 대한 임베딩을 부여하는 순위 임베딩과,
표 데이터의 각 셀의 숫자, 수량, 시간, 국가, 인물 이름에 대한 개체명을 분류하고 해당 개체명에 대한 임베딩을 부여하는 개체명 임베딩이 포함되는 것을 특징으로 하는 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템.
제 2 항에 있어서, 셀 표현 연산부는,
평문 언어 모형에서 출력된 표현 값을 셀 단위의 표현 값으로 치환하고 표의 셀 정보가 반영된 표현 값을 생성하는 것을 특징으로 하는 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템.
제 2 항에 있어서, 학습부는,
표 데이터에 적합한 언어 모형을 생성하기 위해 마스킹 언어 모형을 이용하여 표 데이터에 대한 사전학습을 하는 것을 특징으로 하는 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템.
제 6 항에 있어서, 마스킹 언어 모형은 사전학습을 위해 입력된 데이터의 일부를 마스킹하고 마스킹된 문장을 입력받았을 때 마스킹 되기 전의 토큰을 예측하도록 하는 것을 특징으로 하는 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템.
제 1 항에 있어서, 정답 추론부는,
질의와 질의에 대한 정답을 찾기 위한 표 데이터를 입력하는 질의 입력부와,
질의 입력부를 통해 입력된 데이터 중 정형 데이터인 표 데이터를 사전학습 모형에 넣기 편한 형태인 평면 상태를 만들어주는 표 데이터 평면화 정제부와,
사전학습된 표 데이터 특화 언어모형에 평면화된 질문과 테이블을 입력하고 입력 토큰들의 표현 백터를 출력받는 표 데이터 특화 사전학습 언어모형 출력부와,
언어모형에서 출력된 표현 벡터를 이용하여 정답의 시작과 끝을 예측하고 답을 출력하는 응답 출력부를 포함하는 것을 특징으로 하는 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템.
제 8 항에 있어서, 응답 출력부는,
사전학습된 표 데이터 특화 언어모형에 표 데이터와 질문을 입력하고 입력된 표에서 질문에 대한 정답의 범위를 찾는 것을 특징으로 하는 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템.
사전 학습부에서 표 데이터에 특화된 언어모형 구축을 위한 사전학습을 수행하는 단계;
미세 조정 학습부에서 구축된 테이블 특화 언어 모형으로 기계독해 데이터에 대해 학습하는 미세 조정 학습을 수행하는 단계;
정답 추론부에서 미세조정 학습된 테이블 특화 기계독해 모형에 테이블과 사용자의 질문을 입력하고 질문에 대한 답을 출력하는 정답 추론 단계;를 포함하는 것을 특징으로 하는 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 방법.
제 10 항에 있어서, 사전학습을 수행하는 단계에서,
사전 학습부의 표 데이터 평면화 정체부에서 반-구조화된 표 데이터를 언어 모형에 입력할 수 있는 평면화된 토큰의 배열 형태로 변환하고,
사전 학습부의 표 데이터 특화 임베딩 적용부가 표 데이터 평면화 정체부에서 생성된 표 데이터에 대해서 표 데이터에 특화된 임베딩을 생성하는 것을 특징으로 하는 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 방법.
제 11 항에 있어서, 표 데이터에 특화된 임베딩은,
숫자, 수량, 시간의 대소 비교가 가능한 표 데이터를 행의 방향으로 순위를 매기고 해당 순위에 대한 임베딩을 부여하는 순위 임베딩과,
표 데이터의 각 셀의 숫자, 수량, 시간, 국가, 인물 이름에 대한 개체명을 분류하고 해당 개체명에 대한 임베딩을 부여하는 개체명 임베딩이 포함되는 것을 특징으로 하는 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 방법.
제 10 항에 있어서, 사전학습을 수행하는 단계에서,
사전 학습부의 학습부에서 표 데이터에 적합한 언어 모형을 생성하기 위해 마스킹 언어 모형을 이용하여 표 데이터에 대한 사전학습을 하는 것을 특징으로 하는 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 방법.
제 13 항에 있어서, 마스킹 언어 모형은 사전학습을 위해 입력된 데이터의 일부를 마스킹하고 마스킹된 문장을 입력받았을 때 마스킹 되기 전의 토큰을 예측하도록 하는 것을 특징으로 하는 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 방법.
제 10 항에 있어서, 사전학습을 수행하는 단계에서 사전학습 언어모형의 입력은,
토큰 사전에서의 입력된 토큰의 번호 Token ids, 각 토큰의 입력된 순서 Position ids, 질의와 관련된 토큰은 0을 부여하고 표와 관련된 토큰은 1을 부여하여 각 토큰의 종류를 나타내는 Segments ids 및,
각 토큰이 해당하는 행과 열의 번호를 나타내는 Column ids와 Row ids, 행을 기준으로 대/소 비교가 가능한 셀들에 대해서 대소 비교를 하고 큰 순서대로 순위를 부여한 것을 나타내는 Rank ids, 개체명에 대한 번호를 나타내는 Name ids를 포함하는 것을 특징으로 하는 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 방법.
제 10 항에 있어서, 정답 추론 단계의 질의응답 과정에서 정답 추론부의 표 데이터 특화 사전학습 언어모형 출력부는 사전학습한 언어모형에 표 데이터 평면화 정제부에서 정제한 질문과 표 데이터를 입력하여 입력한 각 토큰에 대한 표현값을 출력하는 것을 특징으로 하는 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 방법.
제 16 항에 있어서, 정답 추론 단계의 질의응답 과정에서 표 데이터 특화 사전학습 언어모형에서 출력된 표현 값을 이용하여 정답 출력을 위한 예측 값을 출력하고,
입력된 테이블에서 정답에 해당하는 토큰들의 시작 위치와 끝의 위치에 대한 확률을 출력하며, [CLS] 토큰의 표현을 이용하여 입력된 테이블에 질문에 대한 정답을 포함하고 있을 확률을 출력하는 것을 특징으로 하는 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 방법.