WO2020213776A1

WO2020213776A1 - 토론 상황 시 객관적이고 구체적이고 정보가 풍부한 근거 문장 검색에 특화된 자질 추출기

Info

Publication number: WO2020213776A1
Application number: PCT/KR2019/004824
Authority: WO
Inventors: 맹성현; 장경록; 임도연
Original assignee: 한국과학기술원
Priority date: 2019-04-19
Filing date: 2019-04-22
Publication date: 2020-10-22

Abstract

토론 환경에서 주어진 주장에 대한 근거 문장을 검색할 때, 객관적이면서 정보가 풍부한 근거 문장이 지녀야 하는 자질을 정의 및 추출하는 방법에 관한 것이다. 주어진 텍스트에 객관적이고 포함된 정보가 많은 근거 문장을 나타내는 자질이 포함된 정도를 자동으로 추출하는 추출기를 제공한다.

Description

[규칙 제26조에 의한 보정 15.07.2019]　토론 상황 시 객관적이고 구체적이고 정보가 풍부한 근거 문장 검색에 특화된 자질 추출기

이하의 설명은 토론 환경에서 주어진 주장에 대한 근거 문장을 검색할 때, 객관적이면서 정보가 풍부한 근거 문장이 지녀야 하는 자질을 정의 및 추출하는 방법에 관한 것이다.

주어진 주장에 대한 근거 문장을 검색하는 기술은 텍스트 호환(textual entailment) 판별 기술의 응용을 통해 다뤄지는게 일반적이다. 텍스트 호환 판별 기술은 기본적으로 앞-뒤 문장이 논리적으로 서로 배치되지 않고 의미를 상당 정도 공유하고 있을 때 두 문장이 '호환'된다고 판단한다.

이런 텍스트 간 호환 여부도 주장에 맞는 근거 문장을 찾는데 도움이 되는 자질이지만, 통계 정보 포함 여부나 그 밖의 문장 자체에 내재된 특성 (예: 길이, 맞춤법 준수 여부)도 마찬가지로 객관적이고 정보가 풍부한 근거 문장을 찾는데 중요한 자질로 작용할 수 있다.

본 발명은 문장의 중요한 자질을 정의하고 주어진 텍스트로부터 자동으로 추출하는 기술을 제공한다.

객관적이고 포함된 정보가 많은 근거 문장을 나타내는 자질의 정의를 제공한다.

주어진 텍스트에 객관적이고 포함된 정보가 많은 근거 문장을 나타내는 자질이 포함된 정도를 자동으로 추출하는 추출기를 제공한다

본 발명의 실시예들에 따르면, 객관적이고 포함된 정보가 많아 상대적으로 가치가 높은 근거 문장을 자동으로 포착하는 데 활용될 수 있다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

본 발명은 토론 환경에서 주어진 주장에 대한 근거 문장을 검색할 때, 객관적이면서 정보가 풍부한 근거 문장이 지녀야 하는 자질을 정의 및 추출하는 방법에 대한 것이다. 이는 주장과 근거 문장 간의 의미적 유사도와는 별도로 근거 문장의 질을 평가하는 척도가 될 수 있다는 점에서 맥락 비종속적(context-independent)이라는 특성을 갖는다. 가령 주장과 비슷한 정도로 의미가 유사한 두 근거 문장이 있다면, 길이가 길고(i.e. 정보가 많이 포함되고) 숫자 등 객관적인 통계 정보가 포함된 문장을 선호하는 것이 사용자에게 도움이 되는 근거 문장을 가져올 확률을 높일 수 있다. 이 예에서 '통계 정보 포함' 여부를 주어진 문장이 객관적인 근거 문장일 확률을 높이는 자질 (근거 문장 자질)로 정의할 수 있다.

본 발명이 정의하는 '근거 문장 자질 추출기'는 미리 정의한 '근거 문장 자질'이 주어진 문장에 포함된 정도에 따라 0.0~1.0 사이의 확률 분포 형태로 추출하는 기능을 한다. 추출된 근거 문장 자질은 기계학습 기법에 기반한 분류 모델 등에서 활용 가능하다.

본 발명은 주어진 주장에 대한 근거 문장을 자동으로 가져오는 시나리오에서 주관적이거나 포함된 정보가 별로 없어 도움이 되지 않는 근거 문장을 필터링하는데 활용될 수 있다. 시나리오의 예시로는 본 발명이 목표하고 있는 토론 상황이 있다.

질 높은 근거 문장을 필요로 하는 기타 다른 도메인에도 활용 가능하다. 가령 논설문, 기사문 작성에서 작성자를 보조하는 데 활용될 수 있다.

기존에는 토론의 질을 평가하는 이론적 지표가 군중(crowd)과 전문가가 실제로 사용하는 임상적 지표와 일치하는지를 확인하고자 하였다. 이에 반해 본 발명은 객관적이고 정보가 풍부한 근거 문장을 판단하는데 도움이 될만한 지표를 정의하고, 그것을 자동으로 추출할 수 있는 추출기를 정의하고 있다.

본 발명에서는 객관적이고 구체적이고 정보가 풍부한 근거 문장을 판별하기 위한 자질을 다음과 같이 정의하였다. 자질들은 주어진 주장에 대한 근거 문장을 가져오는 모델을 평가하기 위해 공개된 데이터셋으로부터 얻은 직관에 근거하고 있다.

1. 문장의 전체 텍스트에서 통계 등 수치 정보가 포함된 비율

(1) 수치 정보의 비율이 높을수록 객관적인 정보를 담고 있을 가능성이 높음

(2) 텍스트에서 숫자를 인식하는 (이미 구현된)알고리즘을 활용하여 계산 가능

2. 문장에 포함된 개체명(Named entity)

3. 문장에 포함된 개체명의 유형

4. 문장에 포함된 개체명이 문장에서 차지하는 비율

(1) 인물, 장소 등 고유명사나 날짜, 시간 등의 시간적 정보는 문장의 내용이 구체적이라는 걸 나타내는 중요한 지표가 될 수 있음

(2) 문장에서 추출한 개체명 목록 및 유형은 최종 어플리케이션에 따라 달리 활용될 수 있음 (예: 토론 주제에 따라서 인물 개체명이 포함된 근거 문장을 선호하는게 나을 수 있음)

(3) 개체명의 유형 및 분류는 영어 기준으로 OntoNotes 5.0 ¹ ¹ https ://catalog. ldc . upenn . edu / LDC2013T19 개체명 사전에 기반한 spaCy ² ² https :// spacy . io/ 라이브러리로 추출 가능, 한국어의 경우 ETRI 등의 기관에서 개발 및 관리중인 개체명 추출기 활용 가능

5. 언어심리학적(psycho-linguistic) 자질

(1) 인간의 언어사용에 드러나는 심리학적 특성을 문장에서 자동으로 추출하여 자질로써 활용

(2) 영어의 경우 Linguistic　Inquiry and　Word　Count (LIWC) 사전 ¹ ¹ https :// liwc . wpengine .com/, 한국어의 경우 유사한 언어심리학적 연구 결과에 기반한 사전을 활용할 수 있음

(3) LIWC 소프트웨어는 자체 관리하는 사전에 기반하여 다음 변수의 값을 추출함

- 추출 가능한 변수 ² ² https://liwc.wpengine.com/interpreting-liwc-output/: 분석적 사고, 화자의 영향력, 진실성 등

6. 문장의 길이

(1) 문장이 길수록 포함된 정보의 양이 많을 가능성이 높음

(2) 단어 수를 세는 것으로 계산 가능

(3) 단순하고도 강력한 지표

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

객관적이고 포함된 정보가 많은 근거 문장을 나타내는 자질의 정의.
주어진 텍스트에 객관적이고 포함된 정보가 많은 근거 문장을 나타내는 자질이 포함된 정도를 자동으로 추출하는 추출기.