WO2020213776A1 - 토론 상황 시 객관적이고 구체적이고 정보가 풍부한 근거 문장 검색에 특화된 자질 추출기 - Google Patents

토론 상황 시 객관적이고 구체적이고 정보가 풍부한 근거 문장 검색에 특화된 자질 추출기 Download PDF

Info

Publication number
WO2020213776A1
WO2020213776A1 PCT/KR2019/004824 KR2019004824W WO2020213776A1 WO 2020213776 A1 WO2020213776 A1 WO 2020213776A1 KR 2019004824 W KR2019004824 W KR 2019004824W WO 2020213776 A1 WO2020213776 A1 WO 2020213776A1
Authority
WO
WIPO (PCT)
Prior art keywords
sentence
information
objective
searching
specialized
Prior art date
Application number
PCT/KR2019/004824
Other languages
English (en)
French (fr)
Inventor
맹성현
장경록
임도연
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of WO2020213776A1 publication Critical patent/WO2020213776A1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Definitions

  • the following description relates to a method of defining and extracting the features that an objective and information-rich ground sentence should have when searching for a ground sentence for a given argument in a discussion environment.
  • Text compatibility discrimination technology basically judges that two sentences are'compatible' when the preceding and following sentences are not logically arranged with each other and share a considerable degree of meaning.
  • the present invention provides a technique for defining important features of a sentence and automatically extracting it from a given text.
  • an extractor that automatically extracts the degree to which a given text contains a feature representing an underlying sentence that is objective and contains a lot of information.
  • the present invention relates to a method of defining and extracting features that an objective and information-rich ground sentence should have when searching for a ground sentence for a given argument in a discussion environment.
  • This has the characteristic of being context-independent in that it can be a measure for evaluating the quality of the supporting sentence, apart from the semantic similarity between the assertion and the supporting sentence. For example, if there are two evidence sentences that have similar meanings to the claim, preferring a sentence that is long (ie, contains a lot of information) and contains objective statistical information such as numbers increases the probability of bringing the evidence sentence helpful to the user. I can. In this example, whether'statistical information is included' can be defined as a feature that increases the probability that a given sentence is an objective basis sentence (evidence sentence feature).
  • The'evidence sentence feature extractor' defined by the present invention functions to extract in the form of a probability distribution between 0.0 and 1.0 according to the degree to which the predefined'evidence sentence feature' is included in a given sentence.
  • the extracted base sentence features can be used in classification models based on machine learning techniques.
  • the present invention can be used to filter out unhelpful grounding sentences because there is little subjective or included information in a scenario in which a grounding sentence for a given argument is automatically retrieved. Examples of scenarios include discussion situations for which the present invention is aimed.
  • the present invention defines an index that is helpful in determining an objective and information-rich ground sentence, and an extractor capable of automatically extracting the index.
  • features for discriminating objective, specific, and information-rich ground sentences are defined as follows.
  • the qualities are based on intuition from public datasets to evaluate the model that fetches the supporting sentence for a given claim.
  • Proper nouns such as people and places, or temporal information such as date and time can be an important indicator that the content of a sentence is specific.
  • LIWC software extracts the values of the following variables based on a dictionary managed by itself

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

토론 환경에서 주어진 주장에 대한 근거 문장을 검색할 때, 객관적이면서 정보가 풍부한 근거 문장이 지녀야 하는 자질을 정의 및 추출하는 방법에 관한 것이다. 주어진 텍스트에 객관적이고 포함된 정보가 많은 근거 문장을 나타내는 자질이 포함된 정도를 자동으로 추출하는 추출기를 제공한다.

Description

[규칙 제26조에 의한 보정 15.07.2019] 토론 상황 시 객관적이고 구체적이고 정보가 풍부한 근거 문장 검색에 특화된 자질 추출기
이하의 설명은 토론 환경에서 주어진 주장에 대한 근거 문장을 검색할 때, 객관적이면서 정보가 풍부한 근거 문장이 지녀야 하는 자질을 정의 및 추출하는 방법에 관한 것이다.
주어진 주장에 대한 근거 문장을 검색하는 기술은 텍스트 호환(textual entailment) 판별 기술의 응용을 통해 다뤄지는게 일반적이다. 텍스트 호환 판별 기술은 기본적으로 앞-뒤 문장이 논리적으로 서로 배치되지 않고 의미를 상당 정도 공유하고 있을 때 두 문장이 '호환'된다고 판단한다.
이런 텍스트 간 호환 여부도 주장에 맞는 근거 문장을 찾는데 도움이 되는 자질이지만, 통계 정보 포함 여부나 그 밖의 문장 자체에 내재된 특성 (예: 길이, 맞춤법 준수 여부)도 마찬가지로 객관적이고 정보가 풍부한 근거 문장을 찾는데 중요한 자질로 작용할 수 있다.
본 발명은 문장의 중요한 자질을 정의하고 주어진 텍스트로부터 자동으로 추출하는 기술을 제공한다.
객관적이고 포함된 정보가 많은 근거 문장을 나타내는 자질의 정의를 제공한다.
주어진 텍스트에 객관적이고 포함된 정보가 많은 근거 문장을 나타내는 자질이 포함된 정도를 자동으로 추출하는 추출기를 제공한다
본 발명의 실시예들에 따르면, 객관적이고 포함된 정보가 많아 상대적으로 가치가 높은 근거 문장을 자동으로 포착하는 데 활용될 수 있다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
본 발명은 토론 환경에서 주어진 주장에 대한 근거 문장을 검색할 때, 객관적이면서 정보가 풍부한 근거 문장이 지녀야 하는 자질을 정의 및 추출하는 방법에 대한 것이다. 이는 주장과 근거 문장 간의 의미적 유사도와는 별도로 근거 문장의 질을 평가하는 척도가 될 수 있다는 점에서 맥락 비종속적(context-independent)이라는 특성을 갖는다. 가령 주장과 비슷한 정도로 의미가 유사한 두 근거 문장이 있다면, 길이가 길고(i.e. 정보가 많이 포함되고) 숫자 등 객관적인 통계 정보가 포함된 문장을 선호하는 것이 사용자에게 도움이 되는 근거 문장을 가져올 확률을 높일 수 있다. 이 예에서 '통계 정보 포함' 여부를 주어진 문장이 객관적인 근거 문장일 확률을 높이는 자질 (근거 문장 자질)로 정의할 수 있다.
본 발명이 정의하는 '근거 문장 자질 추출기'는 미리 정의한 '근거 문장 자질'이 주어진 문장에 포함된 정도에 따라 0.0~1.0 사이의 확률 분포 형태로 추출하는 기능을 한다. 추출된 근거 문장 자질은 기계학습 기법에 기반한 분류 모델 등에서 활용 가능하다.
본 발명은 주어진 주장에 대한 근거 문장을 자동으로 가져오는 시나리오에서 주관적이거나 포함된 정보가 별로 없어 도움이 되지 않는 근거 문장을 필터링하는데 활용될 수 있다. 시나리오의 예시로는 본 발명이 목표하고 있는 토론 상황이 있다.
질 높은 근거 문장을 필요로 하는 기타 다른 도메인에도 활용 가능하다. 가령 논설문, 기사문 작성에서 작성자를 보조하는 데 활용될 수 있다.
기존에는 토론의 질을 평가하는 이론적 지표가 군중(crowd)과 전문가가 실제로 사용하는 임상적 지표와 일치하는지를 확인하고자 하였다. 이에 반해 본 발명은 객관적이고 정보가 풍부한 근거 문장을 판단하는데 도움이 될만한 지표를 정의하고, 그것을 자동으로 추출할 수 있는 추출기를 정의하고 있다.
본 발명에서는 객관적이고 구체적이고 정보가 풍부한 근거 문장을 판별하기 위한 자질을 다음과 같이 정의하였다. 자질들은 주어진 주장에 대한 근거 문장을 가져오는 모델을 평가하기 위해 공개된 데이터셋으로부터 얻은 직관에 근거하고 있다.
1. 문장의 전체 텍스트에서 통계 등 수치 정보가 포함된 비율
(1) 수치 정보의 비율이 높을수록 객관적인 정보를 담고 있을 가능성이 높음
(2) 텍스트에서 숫자를 인식하는 (이미 구현된)알고리즘을 활용하여 계산 가능
2. 문장에 포함된 개체명(Named entity)
3. 문장에 포함된 개체명의 유형
4. 문장에 포함된 개체명이 문장에서 차지하는 비율
(1) 인물, 장소 등 고유명사나 날짜, 시간 등의 시간적 정보는 문장의 내용이 구체적이라는 걸 나타내는 중요한 지표가 될 수 있음
(2) 문장에서 추출한 개체명 목록 및 유형은 최종 어플리케이션에 따라 달리 활용될 수 있음 (예: 토론 주제에 따라서 인물 개체명이 포함된 근거 문장을 선호하는게 나을 수 있음)
(3) 개체명의 유형 및 분류는 영어 기준으로 OntoNotes 5.0 1 1 https ://catalog. ldc . upenn . edu / LDC2013T19 개체명 사전에 기반한 spaCy 2 2 https :// spacy . io/ 라이브러리로 추출 가능, 한국어의 경우 ETRI 등의 기관에서 개발 및 관리중인 개체명 추출기 활용 가능
5. 언어심리학적(psycho-linguistic) 자질
(1) 인간의 언어사용에 드러나는 심리학적 특성을 문장에서 자동으로 추출하여 자질로써 활용
(2) 영어의 경우 Linguistic Inquiry and Word Count (LIWC) 사전 1 1 https :// liwc . wpengine .com/, 한국어의 경우 유사한 언어심리학적 연구 결과에 기반한 사전을 활용할 수 있음
(3) LIWC 소프트웨어는 자체 관리하는 사전에 기반하여 다음 변수의 값을 추출함
- 추출 가능한 변수 2 2 https://liwc.wpengine.com/interpreting-liwc-output/: 분석적 사고, 화자의 영향력, 진실성 등
6. 문장의 길이
(1) 문장이 길수록 포함된 정보의 양이 많을 가능성이 높음
(2) 단어 수를 세는 것으로 계산 가능
(3) 단순하고도 강력한 지표
본 발명의 실시예들에 따르면, 객관적이고 포함된 정보가 많아 상대적으로 가치가 높은 근거 문장을 자동으로 포착하는 데 활용될 수 있다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (2)

  1. 객관적이고 포함된 정보가 많은 근거 문장을 나타내는 자질의 정의.
  2. 주어진 텍스트에 객관적이고 포함된 정보가 많은 근거 문장을 나타내는 자질이 포함된 정도를 자동으로 추출하는 추출기.
PCT/KR2019/004824 2019-04-19 2019-04-22 토론 상황 시 객관적이고 구체적이고 정보가 풍부한 근거 문장 검색에 특화된 자질 추출기 WO2020213776A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2019-0045985 2019-04-19
KR20190045985 2019-04-19

Publications (1)

Publication Number Publication Date
WO2020213776A1 true WO2020213776A1 (ko) 2020-10-22

Family

ID=72838302

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/004824 WO2020213776A1 (ko) 2019-04-19 2019-04-22 토론 상황 시 객관적이고 구체적이고 정보가 풍부한 근거 문장 검색에 특화된 자질 추출기

Country Status (1)

Country Link
WO (1) WO2020213776A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5440815B2 (ko) * 1974-05-14 1979-12-05
JPH1125108A (ja) * 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム
KR20110038474A (ko) * 2009-10-08 2011-04-14 한국전자통신연구원 문장경계 인식 장치 및 방법
KR20110059267A (ko) * 2009-11-27 2011-06-02 한국과학기술정보연구원 과학기술핵심개체 간 의미적 연관관계 자동 추출을 위한 시맨틱 구문 트리 커널 기반 처리 시스템 및 방법
JP2018077611A (ja) * 2016-11-08 2018-05-17 株式会社野村総合研究所 文書検索装置、文書検索方法およびコンピュータプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5440815B2 (ko) * 1974-05-14 1979-12-05
JPH1125108A (ja) * 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム
KR20110038474A (ko) * 2009-10-08 2011-04-14 한국전자통신연구원 문장경계 인식 장치 및 방법
KR20110059267A (ko) * 2009-11-27 2011-06-02 한국과학기술정보연구원 과학기술핵심개체 간 의미적 연관관계 자동 추출을 위한 시맨틱 구문 트리 커널 기반 처리 시스템 및 방법
JP2018077611A (ja) * 2016-11-08 2018-05-17 株式会社野村総合研究所 文書検索装置、文書検索方法およびコンピュータプログラム

Similar Documents

Publication Publication Date Title
CN107220232B (zh) 基于人工智能的关键词提取方法及装置、设备与可读介质
CN106940788B (zh) 智能评分方法及装置、计算机设备及计算机可读介质
JP5825676B2 (ja) ノン・ファクトイド型質問応答システム及びコンピュータプログラム
Warnow Mathematical approaches to comparative linguistics
Zampieri et al. N-gram Language Models and POS Distribution for the Identification of Spanish Varieties (Ngrammes et Traits Morphosyntaxiques pour la Identification de Variétés de l’Espagnol)[in French]
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
O'donnell et al. Exploring text-initial words, clusters and concgrams in a newspaper corpus
CN113590810B (zh) 摘要生成模型训练方法、摘要生成方法、装置及电子设备
Wei et al. A new computing method for extracting contiguous phraseological sequences from academic text corpora
Ronan et al. Determining light verb constructions in contemporary British and Irish English
CN110189751A (zh) 语音处理方法及设备
WO2018088664A1 (ko) 러프 셋을 이용한 형태소 품사 태깅 코퍼스 오류 자동 검출 장치 및 그 방법
De Felice et al. Automatically acquiring models of preposition use
CN109086274A (zh) 基于约束模型的英文社交媒体短文本时间表达式识别方法
Go et al. Using Stanford part-of-speech tagger for the morphologically-rich Filipino language
CN109992651B (zh) 一种问题目标特征自动识别和抽取方法
Nini Corpus analysis in forensic linguistics
CN112800182A (zh) 试题生成方法及装置
WO2020213776A1 (ko) 토론 상황 시 객관적이고 구체적이고 정보가 풍부한 근거 문장 검색에 특화된 자질 추출기
Boulaknadel et al. Amazighe Named Entity Recognition using a A rule based approach
Faaß et al. Part-of-Speech tagging of Northern Sotho: Disambiguating polysemous function words
CN106844448B (zh) 一种中文事件事实性识别方法和系统
US11475222B2 (en) Automatically extending a domain taxonomy to the level of granularity present in glossaries in documents
Pilán Detecting context dependence in exercise item candidates selected from corpora
Sun et al. Using maximum entropy model to extract protein-protein interaction information from biomedical literature

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19925289

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19925289

Country of ref document: EP

Kind code of ref document: A1