KR20200065348A - 신뢰도 분포 기반 논지 및 뒷받침 증거자료의 군집화를 통한 신뢰 가능성 판단 가속화 방법 및 시스템 - Google Patents

신뢰도 분포 기반 논지 및 뒷받침 증거자료의 군집화를 통한 신뢰 가능성 판단 가속화 방법 및 시스템 Download PDF

Info

Publication number
KR20200065348A
KR20200065348A KR1020180151721A KR20180151721A KR20200065348A KR 20200065348 A KR20200065348 A KR 20200065348A KR 1020180151721 A KR1020180151721 A KR 1020180151721A KR 20180151721 A KR20180151721 A KR 20180151721A KR 20200065348 A KR20200065348 A KR 20200065348A
Authority
KR
South Korea
Prior art keywords
reliability
sentence
user
data
determining
Prior art date
Application number
KR1020180151721A
Other languages
English (en)
Inventor
박종철
양원석
김정호
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020180151721A priority Critical patent/KR20200065348A/ko
Publication of KR20200065348A publication Critical patent/KR20200065348A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

가짜 뉴스(fake news)와 같은 사회적 문제에 대응하기 위한 기술적 해결안으로서 주어진 정보에 대한 관련 논지 및 관련 뒷받침 증거자료 자동 수집 제공을 위한 방법 및 시스템에 대한 연구 개발이 진행되어 왔다. 지금까지 제안되어 온 상기 자동 수집 및 제공 방법 및 시스템은 주어진 정보에 대해 (1) 관련 논지 및 뒷받침 증거자료를 단순 나열하거나 (2) 찬성/반대 의견에 해당하는 정보로 구분 정리하여 제공하는 방법을 활용해왔고, 때문에 (1) 관련 논지 및 뒷받침 증거자료를 검토하기에 너무 오랜 시간이 소요된다는 문제점 혹은 (2) 찬성 의견도 반대 의견도 아니지만 신뢰 가능성 판단에 중요성을 가지는 관련 정보를 누락한다는 문제점이 있어왔다. 본 발명은 상기 서술한 문제를 해결하기 위해, 특정 정보에 대한 신뢰 가능성 판단을 가속화하기 위한 판단 보조 자료로서 관련 논지 및 뒷받침 증거자료를 보다 효과적으로 군집화하고 요약 정리하여 사용자에게 출력 제공하는 방법 및 시스템에 대한 것이다. 본 발명은, 신뢰도 분포 개념을 활용해 주어진 정보에 대한 자동화된 신뢰도 분포 예측과, 자동화된 논지 및 뒷받침 증거자료 연결과, 불특정 독자 집단이 특정 신뢰도를 보이는 것을 정당화하기 위해 활용한 복수 자료의 신뢰도 값에 따른 군집화를 진행하며, 예측된 신뢰도 분포와 이에 상응하도록 군집화된 상기 복수 자료를 사용자에게 출력 제공하여 사용자가 주어진 정보에 대한 신뢰 가능성 판단에 필요한 복수 자료를 검토하는 과정이 가속화될 수 있게 한다.

Description

신뢰도 분포 기반 논지 및 뒷받침 증거자료의 군집화를 통한 신뢰 가능성 판단 가속화 방법 및 시스템{Method and system for accelerating judgments of documents by clustering arguments and supporting evidence based on credibility distribution}
본 발명은 사용자가 입력한 문서 내 정보에 대한 신뢰 가능성을 판단하는 과정을 보조하기 위해 상기 정보와 관련된 논지 및 뒷받침 증거자료를 제공함에 있어, 신뢰도 분포 개념을 활용하여 효과적으로 상기 논지 및 뒷받침 증거자료를 군집화하고 사용자에게 요약 제공함을 통해 사용자의 해당 문서에 대한 신뢰 가능성 판단 과정을 가속화하기 위한 자연언어처리 기술에 대한 것이다.
가짜 뉴스(fake news)와 같은 사회적 문제가 대두됨에 따라 주어진 문서의 내용이 가짜인지 진짜인지에 대한 연구가 활발히 진행되고 있다.
주어진 문서의 내용이 가짜인지 진짜인지에 관련하여서는 언론사에서 전문 팩트 체커(fact-checker)가 수행하는 팩트 체킹(fact-checking) 과정을 보조하고, 자연언어처리 기술 및 웹 문서 분석을 통해 자동으로 팩트 체킹을 수행하는 기술 (이하 팩트 체킹 보조 및 자동화 기술)이 연구 개발되어 왔다.
상기 팩트 체킹 보조 및 자동화 기술 개발의 예시로는, 미국 특허 US20170286850A1 (pending, 2017-06-22), “checking calendar-based graphical user interface”가 있으며, 해당하는 특허는 특정 정보가 주어졌을 때 시스템적으로 상기 특정 정보의 사실적 정확성(factual accuracy)을 자동 예측하고, 달력 기반 가시화 방법을 통해 상기 특정 정보에 대한 원본 출처(original source)로부터의 원본 정보를 사용자에게 출력 제공하며 동시에 상기 특정 정보의 팩트 체킹 여부에 대한 상태를 단계별로 가시화하여 사용자에게 출력 제공하는 방법 및 시스템에 대한 것이다. 다른 예시로는, 미국 특허 US20180121412A1 (pending, 2018-01-02), “summarizing and fact checking method and system utilizing augmented reality”가 있으며, 해당하는 특허는 상기 서술한 바와 같이 특정 정보의 사실적 정확성을 자동으로 예측하고, 특정 문서 및 컨텐츠 내 포함된 여러 정보에 대한 통합 및 요약 자료를 증강 현실(augmented reality)을 통해 사용자에게 제공하는 방법 및 시스템에 대한 것이다.
상기 팩트 체킹 보조 및 자동화 기술에 대한 연구는 구체적으로 다음과 같다. Sauri and Pustejovsky (2009)11 R. Sauri and J. Pustejovsky. FactBank: a corpus annotated with event factuality. Language resources and evaluation, 2009.는 주어진 문장에 대한 사실성(factuality)에 대한 대규모 코퍼스인 FactBank를 구축하였다. Qian 외(2018)22 Z. Qian et al. Event Factuality Identification via Generative Adversarial Networks with Auxiliary Classification. IJCAI, 2018.는 FactBank 코퍼스를 기반으로 하여 자동으로 특정 문장의 사실성을 예측하는 연구를 진행하였으며, 약 85%에 해당하는 정밀도(precision), 재현율(recall), F1-score를 보이는 자동 사실성 예측 시스템을 개발하였다. 또한 Thompson 외(2011)33 P. Thompson et al. Enriching a biomedical event corpus with meta-knowledge annotation. BMC bioinformatics, 2011.는 해당하는 사실성 개념에 기반하여 주어진 문장 내 특정 사건의 확신성 정도(certainty level) 및 사실(fact) 여부 개념에 대한 대규모 코퍼스를 전문 생명 연구 문서 도메인에 대해 구축하였으며, Miwa 외(2012)44 M. Miwa et al. Extracting semantically enriched events from biomedical literature. BMC bioinformatics, 2012.는 상기 특정 사건의 확신성 정도 및 사실 여부에 대한 자동 예측 시스템을 구축하여, 해당하는 시스템이 확신성 정도에 대한 자동 예측의 경우 정밀도(precision), 재현율(recall), F1-score 모두에 있어 약 80%, 사실 여부에 대한 예측의 경우 정밀도(precision), 재현율(recall), F1-score 모두에 있어 약 70%에 해당하는 성능을 보인다는 점을 실험적으로 입증하였다.
상기 팩트 체킹 보조 및 자동화 기술이 발전하고, 특정 뒷받침 증거자료의 사실성 여부에 대한 자동 확인 기술의 성능이 향상함에 따라, 이를 기반으로 정책 및 사회 문제와 관련된 논의 및 토론에 있어 주어진 의견이 얼마나 사실을 바탕으로 설득력 있게 구성되어 있는지와 관련된 논지 품질(argument quality)에 대한 연구(이하 논지 품질에 대한 연구)가 활발히 진행되고 있다.
상기 논지 품질에 대한 연구는 구체적으로 다음과 같다. Ajjour 외(2017)55 Y. Ajjour et al. Unit segmentation of argumentative texts. In Proceedings of the 4th Workshop on Argument Mining, ACL, 2017.는 논지로서 기능할 수 있는 최소 단위를 문서에서 자동 추출하는 방법 및 시스템을 연구 개발하였다. Mochales-Palau and Moens (2009)66 R. Mochales-Palau and M. Moens. Argumentation mining: The detection, classification and structure of arguments in text. In Proceedings of the 12th International Conference on Artificial Intelligence and Law, ACM, 2009.는 한 문서 내에서 하나의 논지가 동일 문서 내의 다른 논지들과 전제-결론(premise-conclusion) 관계에 있어서 어떤 방식으로 상호 연결되어 있는지를 자동으로 파악하는 방법 및 시스템을 연구 개발하였다. Egar 외(2017)77 S. Eger et al. Neural end-to-end learning for computational argumentation mining. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, ACL, 2017.는 인공 신경망을 활용하여 문서의 논지 구조를 자동으로 파악하고 문서 내에 포함된 세부 논지들을 자동으로 추출하는 방법 및 시스템을 연구 개발하였다. Wachsmuth 외(2017)88 H. Wachsmuth et al. Building an argument search engine for the Web. In Proceedings of the 4th Workshop on Argument Mining, ACL, 2017.는 토론 포럼 사이트로부터 자동으로 토론에 참여한 사용자들의 복수 논지를 추출하여 사용자에게 보여주는 방법 및 시스템을 연구 개발하였다. Levy 외(2014)99 R. Levy et al. Context dependent claim detection. In Proceedings the 25th International Conference on Computational Linguistics: Technical Papers, COLING, 2014.는 위키피디아 내 문서에 대해 특정 주제(예를 들어, 위키피디아 문서 제목 및 대분류 태그)에 특화된 논지들을 위키피디아 문서 내에서 자동으로 찾아 추출하는 시스템을 연구 개발하였다. 또한 Rinott 외(2015)110 R. Rinott, et al. Show me your evidence - An automatic method for context dependent evidence detection. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, ACL, 2015.0는 특정 문장이 특정 결론에 대한 뒷받침 증거자료가 될 수 있는지 여부가 문맥에 따라 결정된다는 점에 근거하여 문맥 의존 증거 선별(context dependent evidence detection) 문제에 대한 자동 해결 방법 및 시스템을 연구 개발하였다.
상기 논지 품질에 대한 연구에 기반하여 지금까지 개발되어 온 어플리케이션의 대표적 예시는 구체적으로 다음과 같다. Lippi and Torroni (2015)111 M. Lippi and P. Torroni. MARGOT: A web server for argumentation mining. Expert Systems with Applications, 2015.1는 온라인 상에 존재하는 논지 및 뒷받침 증거자료를 자동 수집하여 사용자에게 제공하는 웹 어플리케이션 MARGOT을 연구 개발하였다. Stab 외(2018)112 C. Stab et al. ArgumenText: Searching for Arguments in Heterogeneous Sources. In Proceedings of NAACL-HLT 2018: Demonstrations, ACL, 2018.2는 사용자가 입력한 문장 혹은 단어 집합과 관련된 찬성/반대 논지를 제공하는 웹 어플리케이션인 ArgumenText를 연구 개발하였다.
상기 논지 품질에 대한 연구에 기반하여 지금까지 개발되어 온 어플리케이션 중 가장 최근에 제안된 어플리케이션은 상기 서술한 ArgumenText인데, 구체적으로 해당 어플리케이션은 다음과 같은 방식으로 사용자에게 논지 및 뒷받침 자료를 제공한다: (1) 사용자가 입력한 문장 혹은 단어 집합에 대해, 찬성하는 논지와 반대되는 논지를 2개 행으로 나열하여 보여주는 방식, (2) 혹은 한 행으로 각 논지를 찬성 혹은 반대로 표기하여 보여주는 방식, (3) 사용자에게 각 논지를 나열하고 각 논지에 있어서 중요한 키워드를 색으로 표시하고 강조하여 보여주는 방식.
관련 선행 문헌
1 R. Sauri and J. Pustejovsky. FactBank: a corpus annotated with event factuality. Language resources and evaluation, 2009.
2 Z. Qian et al. Event Factuality Identification via Generative Adversarial Networks with Auxiliary Classification. IJCAI, 2018.
3 P. Thompson et al. Enriching a biomedical event corpus with meta-knowledge annotation. BMC bioinformatics, 2011.
4 M. Miwa et al. Extracting semantically enriched events from biomedical literature. BMC bioinformatics, 2012.
5 Y. Ajjour et al. Unit segmentation of argumentative texts. In Proceedings of the 4th Workshop on Argument Mining, ACL, 2017.
6 R. Mochales-Palau and M. Moens. Argumentation mining: The detection, classification and structure of arguments in text. In Proceedings of the 12th International Conference on Artificial Intelligence and Law, ACM, 2009.
7 S. Eger et al. Neural end-to-end learning for computational argumentation mining. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, ACL, 2017.
8 H. Wachsmuth et al. Building an argument search engine for the Web. In Proceedings of the 4th Workshop on Argument Mining, ACL, 2017.
9 R. Levy et al. Context dependent claim detection. In Proceedings the 25th International Conference on Computational Linguistics: Technical Papers, COLING, 2014.
1 R. Rinott, et al. Show me your evidence - An automatic method for context dependent evidence detection. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, ACL, 2015.
상기 서술한 것과 같은, 지금까지 제안된 논지 자동 제공 및 각 논지에 상응하는 뒷받침 증거자료의 자동 제공 방법 및 시스템에는 다음과 같은 문제점들이 있다.
(1) 하나의 사안에 대해서 사람들의 의견들은 찬성/반대 의견으로만 나뉘지는 않는다. 예를 들어, "백신 접종의 의무화" 이라는 키워드에 대해, "백신의 부작용이 우려되지만, 백신의 긍정적인 효과가 더 클 수 있기 때문에 신중한 연구 조사가 필요하다"는 논지는, 찬성 의견도 반대 의견도 아니다. 그러나, 해당하는 정보는 “백신 접종의 의무화”에 대한 신뢰 가능성 판단에 있어서 중요하게 활용 가능한 정보이다. 이와 같이, 찬성 의견도 반대 의견도 아니지만 신뢰 가능성 판단에 중요한 정보는 그 규모가 다수일 것으로 판단되는데, 기존의 방법론은 이와 같은 다수의 중요 정보를 누락한다는 단점을 가진다.
(2) 리스트 형태로 제공해주는 방법은 주어진 사안에 대해서 너무 많은 찬성/반대 의견을 보여주기 때문에, 사용자가 입력한 키워드에 대해 사람들이 보이는 다양한 의견에 대해 한눈에 개괄적인 이해를 하기 힘들다.
(3) 기존의 방법은 하나의 문장 혹은 구 구조(단어의 나열)에 대한 찬성/반대 논지를 나열하여 가시화하는 검색엔진 형태로 구축되어 있으며, 따라서 하나의 문서 전반에 대한 논지 분석을 진행함에 있어서 주어진 문서 내부의 각 문장에 대한 찬성 반대 의견을 검토하는 것이 필요하고, 이는 매우 오랜 시간의 분석 시간이 요구된다.
따라서 상기 서술한 문제를 해결하기 위해, 특정 정보에 대한 신뢰 가능성 판단을 가속화하기 위한 판단 보조 자료로서 관련 논지 및 뒷받침 증거자료를 보다 효과적으로 군집화하고 요약 정리하여 사용자에게 출력 제공하는 방법 및 시스템에 대한 연구 개발이 필요하다.
상기와 같은 목적을 달성하기 위하여, 본 발명의 일 실시 예에 따른 신뢰 가능성 판단 가속화 시스템은,
사용자로부터 신뢰 판단 가능성 가속화의 대상이 되는 문서(이하 판단 대상 문서)를 입력 받고, 선택적으로, 신뢰 가능성 판단에 필요한 복수 자료 중 어떤 정보를 사용자에게 출력 제공할 것인지에 해당하는 제어 정보(이하 제어 정보)를 사용자로부터 입력 받고, 상기 제어 정보를 제어부(160)로 전달하고, 신뢰도 판단 부적합성 지표를 활용하여 상기 판단 대상 문서 내 각 문장이 상기 신뢰도 판단에 적합한 문장인지 판별하고, 신뢰도 판단에 적합하지 않은 문장(예를 들어, 주관적인 신념에 대한 문장)일 경우 해당 문장 내 신뢰도 판단에 적합한 구문 요소를 추출하고, 상기 신뢰도 판단에 적합한 문장 및 구문 요소에 대해 신뢰도 분포 예측을 진행하고, 제어부(160)로부터 상기 제어 정보를 전달받아, 상기 신뢰 가능성 판단에 필요한 복수 자료 중 상기 제어 정보에 해당하는 자료를 선별하는 사용자 입력 문서 처리부(110),
복수 문장 집합과 상기 복수 문장 집합 내 각 문장에 포함된 신뢰도 판단이 가능한 구문 요소들을 저장하는 전처리 코퍼스(120),
직접적인 신뢰도 설문을 통해 수집한, 각 문장에 대한 독자들의 신뢰도 분포를 저장하는 신뢰도 분포 코퍼스(130),
신뢰 가능성 판단에 필요한 복수 자료 중 논지와 뒷받침 증거자료에 해당하는 정보를 저장하는 논지 및 뒷받침 증거자료 데이터베이스(140),
상기 판단 대상 문서 내 신뢰도 판단에 적합한 복수 문장 및 복수 구문 요소에 대한 예상 신뢰도 분포를 사용자 입력 문서 처리부(110)로부터 전달받아, 전달받은 신뢰도 분포를 사용자에게 출력 제공하고, 상기 판단 대상 문서 내 각 문장 및 구문 요소에 있어 각각의 신뢰도 점수에 상응하는 신뢰 가능성 판단에 필요한 복수 자료를 사용자 입력 문서 처리부(110)로부터 전달받아, 전달받은 복수 자료를 사용자에게 출력 제공하고, 상기 제어 정보 중 뒷받침 증거자료와 관련된 제3 항목 혹은 제4 항목이 포함된 경우, 마우스 클릭과 같은 사용자 상호작용을 통해 신뢰 가능성 판단에 필요한 복수 자료의 원본 출처(original source)에 사용자가 접근할 수 있도록 하는 출력부(150),
신뢰 가능성 판단에 필요한 복수 자료 중 어떤 정보를 사용자에게 출력 제공할 것인지를 결정하는 제어부(160)를 포함하며, 상기 사용자 입력 문서 처리부(110)는 신뢰도 분포 개념을 활용해 상기 판단 대상 문서 내 신뢰도 판단에 적합한 문장 및 구문요소에 대한 자동화된 신뢰도 분포 예측과, 자동화된 논지 및 뒷받침 증거자료 연결과, 불특정 독자 집단이 특정 신뢰도를 보임을 정당화하기 위해 활용한 복수 자료에 대한 신뢰도 값에 따른 군집화를 진행하며, 출력부(140)는 상기 사용자 입력 문서 처리부(110)에 의해 예측된 신뢰도 분포와 상기 서술한 것과 같이 신뢰도 분포를 기준으로 군집화된 논지 및 뒷받침 증거자료를 사용자에게 출력 제공하여 사용자가 상기 판단 대상 문서의 신뢰 가능성 판단에 필요한 복수 자료를 검토하는 과정이 가속화될 수 있게 한다.
바람직하게, 상기 신뢰 가능성 판단에 필요한 복수 자료는 하기 제1 항목 내지 제4 항목 중 하나 이상의 항목을 포함한다.
- 주어진 문장 혹은 구문 요소를 독해하고 신뢰도 판단을 수행하여 해당하는 문장 혹은 구문 요소에 대해 신뢰도 값을 제공한 독자들이 해당하는 신뢰도 값을 정당화(이하 신뢰도 정당화)하기 위해 활용한 대표 논지를, 해당하는 문장 혹은 구문 요소에 상응하는 신뢰도 값에 따라 구별하여 군집화한 대표 논지 집합에 해당하는 제1 항목
- 상기 신뢰도 정당화를 위해 활용한 추가 논지 리스트를, 해당하는 문장 혹은 구문 요소에 상응하는 신뢰도 값에 따라 구별하여 군집화한 추가 논지 리스트의 집합에 해당하는 제2 항목
- 상기 신뢰도 정당화를 위해 활용한 대표 논지 및 추가 논지 리스트의 합집합 내 각 논지에 대한 대표 뒷받침 증거자료를, 해당하는 문장 혹은 구문 요소에 상응하는 신뢰도 값과 상응하는 논지에 따라 구별하여 군집화한 대표 뒷받침 증거자료 집합에 해당하는 제3 항목
- 상기 신뢰도 정당화를 위해 활용한 대표 논지 및 추가 논지 리스트의 합집합 내 각 논지에 대한 추가 뒷받침 증거자료 리스트를, 해당하는 문장 혹은 구문 요소에 상응하는 신뢰도 값과 상응하는 논지에 따라 구별하여 군집화한 추가 뒷받침 증거자료 리스트의 집합에 해당하는 제4 항목
바람직하게, 상기 신뢰도 판단 부적합성 지표는 하기 식을 이용하여 산출된다.
[수학식]
Figure pat00001
여기서,
Figure pat00002
는 특정 문장에 대한 상기 신뢰도 판단 부적합성 지표이며,
Figure pat00003
는 해당하는 문장 내에서 문장의 작성자 스스로를 지칭하는 표현의 등장 횟수,
Figure pat00004
는 해당하는 문장 내 헤지 표현(hedge expression)의 등장 횟수,
Figure pat00005
는 해당하는 문장 내 특정 정보를 알 수 없다는 것에 대한 표현의 등장 횟수,
Figure pat00006
는 해당하는 문장 내 개인의 의견 및 신념에 대한 표현의 등장 횟수,
Figure pat00007
는 해당하는 문장 내 특정 사건 및 객체에 대한 필요성에 대한 표현의 등장 횟수,
Figure pat00008
는 해당하는 문장 내 특정 사건 및 객체의 조건성(conditionality)에 대한 표현(이하 조건성 표현)의 등장 횟수이다.
여기서
Figure pat00009
내지
Figure pat00010
은 각각 가중치를 표현하는 음이 아닌 실수이며, 한 값의 가중치가 0인 경우는 해당하는 표현의 등장 횟수를 고려하지 않는 것을 의미한다 (예를 들어,
Figure pat00011
이 0인 경우 개인의 신념에 대한 표현의 등장 횟수를 고려하지 않는다는 것을 의미). 여기서
Figure pat00012
에서
Figure pat00013
중 적어도 하나는 0이 아닌 값을 가진다.
본 발명은 특정 문장 혹은 구문요소로서 정의될 수 있는 특정 정보와 관련된 논지 및 뒷받침 증거자료를 상기 특정 문장 혹은 구문요소에 대해 독자들이 보일 것으로 예상하는 신뢰도 분포 내 각 신뢰도 값과 연결하여 제공함을 통해 상기 서술한 문제를 해결할 수 있다.
(1) 본 발명의 일 실시 예에 따른 신뢰 판단 가능성 가속화 시스템은, 신뢰도 분포를 우선적으로 제공함을 통해, 상기 특정 문장 혹은 구문 구조에 대해, 단순히 찬성/반대에 해당하는 논지는, 매우 높은/낮은 신뢰도에 연결함으로써 기존의 찬성/반대 논지를 제공하는 시스템을 포함하며, 동시에 찬성/반대로 분명하게 구분될 수 없는 논지들 역시 시스템 내에 포함하여 사용자에게 제공할 수 있다. 예를 들어 상기 서술한 "백신의 부작용이 우려되지만, 백신의 긍정적인 효과가 더 클 수 있기 때문에 신중한 연구 조사가 필요하다"의 논지는 "백신 접종을 의무화 해야 한다"라는 정보에 대해 중간 값의 신뢰도를 보이는 독자가 해당하는 신뢰도를 정당화하기 위해 제안하는 논지로 해석될 수 있다.
(2) 본 발명의 일 실시 예에 따른 신뢰 판단 가능성 가속화 시스템은 상기 특정 정보에 대해 불특정 독자 집단이 어떤 양태의 신뢰를 보이는지를 사용자가 한눈에 파악할 수 있게 한다. 신뢰도 분포 및 분포 내의 각 신뢰도 값에 상응하는 논지 및 뒷받침 증거자료를 연결하여 보여줌을 통해, 사용자는 한눈에 개괄적으로, 상기 특정 정보에 대한 사람들의 의견을 파악할 수 있으며, 동시에 기존에 제안된 방식인 논지의 나열에 대한 기능 역시, 본 발명의 일 실시 예에 따른 신뢰 판단 가능성 가속화 시스템을 통해 제공받을 수 있다.
(3) 본 발명에 의한 일 실시예에 따른 신뢰 판단 가능성 가속화 시스템은 주어진 문서 내부에 포함된, 상기 특정 문장 및 구문 구조에 대해 모두, 독자가 보일 신뢰도 분포를 그래프 형태로 문서 측면에 가시화하여 보여주기 때문에, 사용자로 하여금 문서 전개에 있어 차례대로 독해 대상이 되는 각 문장에 대해 일반 독자가 어떤 신뢰 패턴을 보이는지, 어떤 찬성/반대 패턴을 보이는지를 한 눈에 파악할 수 있게 한다.
도 1은 본 발명의 일 실시 예에 따른 신뢰 가능성 판단 가속화 시스템의 구성도이다.
도 2는 도 1에 도시된 사용자 입력 문서 처리부의 일 실시 예 상세 구성도이다.
도 3은 도 1에 도시된 출력부의 일 실시 예 상세 구성도이다.
도 4는 본 발명의 일 실시 예에 따른 신뢰 가능성 판단 가속화 시스템의 입력 및 출력 결과의 예시를 도시한 도면이다.
도 5는 신뢰 가능성 판단 시스템에 포함되는 전처리 코퍼스의 예시를 도시한 도면이다.
도 6은 신뢰 가능성 판단 시스템에 포함되는 신뢰도 분포 코퍼스의 예시를 도시한 도면이다.
도 7은 신뢰 가능성 판단 시스템에 포함되는 논지 및 뒷받침 증거자료 데이터베이스의 예시를 도시한 도면이다.
도 8은 본 발명의 일 실시 예에 따른 신뢰 가능성 판단 가속화 방법 중 사용자 입력 문서 처리부에 의한 방법을 구체적으로 도시한 흐름도이다.
도 9는 본 발명의 일 실시 예에 따른 신뢰 가능성 판단 가속화 방법 중 출력부에 의한 방법을 구체적으로 도시한 흐름도이다.
이하 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명을 충분히 실시할 수 있도록 실시 예를 상세히 설명한다.
도 1은 본 발명의 일 실시 예에 따른 신뢰 가능성 판단 가속화 시스템의 구성도이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시 예에 따른 신뢰 가능성 판단 가속화 시스템(100)은 사용자 입력 문서 처리부(110), 전처리 코퍼스(120), 신뢰도 분포 코퍼스(130), 논지 및 뒷받침 증거자료 데이터베이스(140), 출력부(150), 제어부(160)를 포함한다.
도 4는 본 발명의 일 실시 예에 따른 신뢰 가능성 판단 가속화 시스템의 입력 및 출력 결과의 예시를 도시한 도면이다. 도 4에 도시된 바와 같이, 본 발명의 일 실시 예에 따른 신뢰 가능성 판단 가속화 시스템(100)은 사용자가 입력한 문서 내 신뢰도 판단에 적합한 문장에 대한 신뢰도 분포를 각각 예측하고, 신뢰도 판단에 적합하지 않은 문장 내 신뢰도 판단에 적합한 구문요소를 선별하고, 이에 대한 신뢰도 분포를 예측하고, 각 문장과 각 구문요소에 대한 신뢰도 분포를 각각 사용자에게 출력 제공하며, 각 문장과 각 구문요소의 신뢰 가능성 판단에 필요한 복수 자료를 출력 제공한다.
바람직하게, 상기 신뢰 가능성 판단에 필요한 복수 자료는 하기 제1 항목 내지 제4 항목 중 하나 이상의 항목을 포함한다.
- 주어진 문장 혹은 구문 요소를 독해하고 신뢰도 판단을 수행하여 해당하는 문장 혹은 구문 요소에 대해 신뢰도 값을 제공한 독자들이 해당하는 신뢰도 값을 정당화(이하 신뢰도 정당화)하기 위해 활용한 대표 논지를, 해당하는 문장 혹은 구문 요소에 상응하는 신뢰도 값에 따라 구별하여 군집화한 대표 논지 집합에 해당하는 제1 항목
- 상기 신뢰도 정당화를 위해 활용한 추가 논지 리스트를, 해당하는 문장 혹은 구문 요소에 상응하는 신뢰도 값에 따라 구별하여 군집화한 추가 논지 리스트의 집합에 해당하는 제2 항목
- 상기 신뢰도 정당화를 위해 활용한 대표 논지 및 추가 논지 리스트의 합집합 내 각 논지에 대한 대표 뒷받침 증거자료를, 해당하는 문장 혹은 구문 요소에 상응하는 신뢰도 값과 상응하는 논지에 따라 구별하여 군집화한 대표 뒷받침 증거자료 집합에 해당하는 제3 항목
- 상기 신뢰도 정당화를 위해 활용한 대표 논지 및 추가 논지 리스트의 합집합 내 각 논지에 대한 추가 뒷받침 증거자료 리스트를, 해당하는 문장 혹은 구문 요소에 상응하는 신뢰도 값과 상응하는 논지에 따라 구별하여 군집화한 추가 뒷받침 증거자료 리스트의 집합에 해당하는 제4 항목
도 4는 상기 신뢰 가능성 판단에 필요한 복수 자료 중 제1 항목을 출력하는 예시에 대한 것이다. 그러나 본 발명의 실시예는 이에 국한되지 않으며, 상기 신뢰 가능성 판단에 필요한 복수 자료의 모든 항목에 대해 실시될 수 있다.
사용자 입력 문서 처리부(110)는 사용자로부터 신뢰 판단 가능성 가속화의 대상이 되는 문서(이하 판단 대상 문서)를 입력받고, 선택적으로, 상기 신뢰 가능성 판단에 필요한 복수 자료 중 어떤 정보를 사용자에게 출력 제공할 것인지에 해당하는 제어 정보(이하 제어 정보)를 사용자로부터 입력 받고, 상기 제어 정보를 제어부(160)로 전달하고, 상기 판단 대상 문서 내 각 문장이 상기 신뢰도 판단에 적합한 문장인지 판별하고, 신뢰도 판단에 적합하지 않은 문장(예를 들어, 주관적인 신념에 대한 문장)일 경우 해당 문장 내 신뢰도 판단에 적합한 구문 요소를 추출하고, 상기 신뢰도 판단에 적합한 문장 및 구문 요소에 대해 신뢰도 분포 예측을 진행하고, 제어부(160)로부터 상기 제어 정보를 전달받아, 상기 신뢰 가능성 판단에 필요한 복수 자료 중 상기 제어 정보에 해당하는 자료를 선별한다. 여기서, 사용자로부터 상기 제어 정보를 입력 받지 않은 경우에는 상기 신뢰 가능성 판단에 필요한 복수 자료 내 모든 항목에 해당하는 자료를 사용자가 선택한 것으로 한다.
전처리 코퍼스(120)는 복수 문장 집합과 상기 복수 문장 집합 내 각 문장에 포함된 신뢰도 판단이 가능한 구문 요소들을 포함한다. 도 5는 신뢰 가능성 판단 시스템에 포함되는 전처리 코퍼스의 예시를 도시한 도면이다. 도 5에 도시된 바와 같이, 전처리 코퍼스(120)는 상기 복수 문장 집합을 포함하며, 각 문장에 대해 신뢰도 판단이 가능한 구문 요소들을 포함하며, 각 구문 요소에 있어 문장 내에서의 시작 위치와 종료 위치를 포함하며, 각 구문 요소에 포함된 단어의 리스트를 포함한다.
바람직하게, 전처리 코퍼스(120)는 언어 전문가에 의한 수동 선별 및 분석 과정을 통해 구축된다. 구체적으로, 전처리 코퍼스(120)는 Penn Discourse Tree Bank, OntoNote와 같이 이미 언어 전문가에 의해 언어학적 분석이 완료된 대규모 코퍼스에 대한 언어 전문가의 추가적인 수동 선별 및 분석 과정을 통해 구축될 수 있으며, 특히 Penn Discourse Tree Bank 내의 모든 Elementary Discourse Unit (EDU) 중 신뢰도 판단이 가능한 EDU를 언어 전문가가 추가적으로 선별하는 과정을 통해 구축될 수 있다.
신뢰도 분포 코퍼스(130)는 직접적인 신뢰도 설문을 통해 수집한, 각 문장에 대한 독자들의 신뢰도 분포를 저장한다. 신뢰도 분포 코퍼스(130)는 사용자 입력 문서 처리부(110)가 상기 판단 대상 문서 내 각 문장 및 구문요소에 대해 독자들이 보일 신뢰도 분포를 예측함에 있어 신뢰도 분포 예측 모델을 포함할 때 해당하는 모델을 지도 학습(supervised learning) 시키기 위한 학습 기준으로 활용될 수 있다. 도 6은 신뢰 가능성 판단 시스템에 포함되는 신뢰도 분포 코퍼스의 예시를 도시한 도면이다. 도 6에 도시된 바와 같이, 신뢰도 분포 코퍼스는 복수 문장 및 구문 요소 집합과, 각 문장과 각 구문 요소에 대해 독자 그룹들이 각각 실제로 설문을 통해 보인 신뢰도 분포 및 설문에 참여한 독자들이 각 신뢰도 점수를 정당화 하기 위해 활용한 논지 및 뒷받침 증거자료에 상응하는 논지 및 증거자료 색인을 저장한다. 상기 색인에 해당하는 논지 및 증거자료는 논지 및 뒷받침 증거자료 데이터베이스(140)에 저장된다. 현재 상세히 설명하는 일 실시예는 한 명의 독자가 하나의 문서에 대해 평가하는 신뢰도가 -5점(매우 신뢰할 수 없음)에서 +5점(매우 신뢰할 수 있음)까지의 정수인 경우로 한다. 그러나 본 발명의 실시 예는 이에 국한되지 않으며, 다양한 양태의 신뢰도 범위에 대해 실시될 수 있다.
바람직하게, 신뢰도 분포 코퍼스(130)가 저장하는 상기 복수 문서 집합은 일상생활에서 접할 수 있는 다양한 주제들에 대한 다양한 종류의 문서들을 포함할 수 있어야 한다. 상세한 설명을 위한 예시로, 문서의 주제는 생활, 건강, 정치, 정책, 경제, 환경을 포함할 수 있으며, 문서의 종류는 SNS 게시글, 블로그 게시글, 온라인 뉴스, 온라인 포럼 게시글, 연구 논문, 도서를 포함할 수 있다. 바람직하게, 코퍼스 전반에 걸쳐 직접적인 설문의 대상이 되는 문서들 각각이 가지는 주제와 종류가 획일화되지 않아야 한다. 이는 본 발명의 일 실시예에 따른 시스템에서 설문을 통해 수집한 신뢰도 분포 코퍼스(130)가 신뢰도 분포를 자동 예측하기 위한 학습 기준으로 활용되기 때문이다. 신뢰도 분포 코퍼스(130)가 생활/건강에 대한 문서들과 이 문서들에 대해 독자들이 보이는 신뢰도 설문 결과만을 포함할 경우, 해당하는 예측 기준 코퍼스를 통해 학습된 예측 모델은 정치/정책에 대한 문서의 신뢰도 분포를 예측하기에 부적절할 것이며 예측 결과가 실제 독자들이 보일 신뢰도 분포와 상이할 것으로 예상할 수 있다.
논지 및 뒷받침 증거자료 데이터베이스(140)는 상기 신뢰 가능성 판단에 필요한 복수 자료 중 논지와 뒷받침 증거자료에 해당하는 정보를 저장한다. 논지 및 뒷받침 증거자료 데이터베이스(140)는 사용자 입력 문서 처리부(110)가 상기 판단 대상 문서 내 각 문장에 대해 독자들이 보일 신뢰도 분포를 예측함과 동시에 각 신뢰도 점수에 상응하는 논지 및 뒷받침 증거자료를 논지 및 뒷받침 증거자료 데이터베이스(140) 내에서 자동 추출하기 위한 논지 및 뒷받침 자료 자동 선별 모델을 포함할 때 해당하는 모델을 지도 학습(supervised learning) 시키기 위한 학습 기준으로 활용될 수 있다. 도 7은 신뢰 가능성 판단 시스템에 포함되는 논지 및 뒷받침 증거자료 데이터베이스의 예시를 도시한 도면이다. 도 7에 도시된 바와 같이, 논지 및 뒷받침 증거자료 데이터베이스(140)는 상기 논지 및 증거자료 색인에 따라 대표 논지, 대표 증거자료, 추가 논지 리스트, 추가 증거자료 리스트를 포함한다.
출력부(150)는 상기 판단 대상 문서 내 신뢰도 판단에 적합한 복수 문장 및 복수 구문 요소에 대한 예상 신뢰도 분포를 사용자 입력 문서 처리부(110)로부터 전달받아, 전달받은 신뢰도 분포를 사용자에게 출력하여 제공하고, 상기 판단 대상 문서 내 각 문장 및 구문 요소에 있어 각각의 신뢰도 점수에 상응하는 상기 신뢰 가능성 판단에 필요한 복수 자료를 사용자 입력 문서 처리부(110)로부터 전달받아, 전달받은 복수 자료를 사용자에게 출력 제공하고, 상기 제어 정보 중 뒷받침 증거자료와 관련된 제3 항목 혹은 제4 항목이 포함된 경우, 마우스 클릭과 같은 사용자 상호작용을 통해 상기 신뢰 가능성 판단에 필요한 복수 자료의 원본 출처(original source)에 사용자가 접근할 수 있도록 한다.
제어부(160)는 상기 신뢰 가능성 판단에 필요한 복수 자료 중 어떤 정보를 사용자에게 출력하여 제공할 것인지를 결정한다.
사용자 입력 문서 처리부(110)를 상세히 설명하면 다음과 같다.
사용자 입력 문서 처리부(110)는 도 2에 도시된 바와 같이, 입력부(111), 전처리부(112), 신뢰도 분포 예측부(113), 증거 자료 연결부(114)로 구성된다.
입력부(111)는 사용자로부터 상기 판단 대상 문서를 입력 받고, 선택적으로, 사용자로부터 상기 제어 정보를 입력 받고, 상기 제어 정보를 제어부(160)로 전달한다. 여기서, 상기 서술한 것과 같이 사용자로부터 상기 제어 정보를 입력 받지 않은 경우에는 상기 신뢰 가능성 판단에 필요한 복수 자료 내 모든 항목에 해당하는 자료를 사용자가 선택한 것으로 한다.
전처리부(112)는 입력부(111)로부터 상기 판단 대상 문서를 전달받고, 상기 판단 대상 문서 내각 문장에 대한 의미역 분석(semantic role labeling)을 진행하고, 특정 문장에 대한 신뢰도 판단 부적합성 지표를 활용하여 상기 판단 대상 문서 내 각 문장이 신뢰도 판단에 적합한 문장인지를 선별한다. 구체적으로, 상기 특정 문장에 대한 신뢰도 판단 부적합성 지표가 시스템 초기값으로 설정된 임계값 이상일 때에는 해당하는 문장을 신뢰도 판단에 부적합한 문장으로 선별한다. 바람직하게, 의미역 분석은 DeepSemanticRoleLabeling 또는 PathLSTM Semantic Role Labeler와 같은 의미역 추출기를 통해 진행된다.
바람직하게, 상기 특정 문장에 대한 신뢰도 판단 부적합성 지표는 하기 식을 이용하여 산출된다.
[수학식]
Figure pat00014
여기서,
Figure pat00015
는 상기 특정 문장에 대한 신뢰도 판단 부적합성 지표이며,
Figure pat00016
는 해당하는 문장 내에서 문장의 작성자 스스로를 지칭하는 표현(이하 본인 지칭 표현)의 등장 횟수,
Figure pat00017
는 해당하는 문장 내 헤지 표현(hedge expression11 https://en.wikipedia.org/wiki/Hedge_(linguistics))의 등장 횟수,
Figure pat00018
는 해당하는 문장 내 특정 정보를 알 수 없다는 것에 대한 표현 (이하 알 수 없음 표현)의 등장 횟수,
Figure pat00019
는 해당하는 문장 내 개인의 의견 및 신념에 대한 표현(이하 신념 표현)의 등장 횟수,
Figure pat00020
는 해당하는 문장 내 특정 사건 및 객체에 대한 필요성에 대한 표현(이하 필요성 표현)의 등장 횟수,
Figure pat00021
는 해당하는 문장 내 특정 사건 및 객체의 조건성(conditionality22 https://en.wikipedia.org/wiki/Conditionality)에 대한 표현(이하 조건성 표현)의 등장 횟수이다.
여기서
Figure pat00022
내지
Figure pat00023
은 각각 가중치를 표현하는 음이 아닌 실수이며, 한 값의 가중치가 0인 경우는 해당하는 표현의 등장 횟수를 고려하지 않는 것을 의미한다 (예를 들어,
Figure pat00024
이 0인 경우 개인의 신념에 대한 표현의 등장 횟수를 고려하지 않는다는 것을 의미). 여기서
Figure pat00025
에서
Figure pat00026
중 적어도 하나는 0이 아닌 값을 가진다.
바람직하게, 상기 본인 지칭 표현, 헤지 표현, 알 수 없음 표현, 신념 표현, 필요성 표현, 조건성 표현은 본인 지칭 표현 단어 집합, 헤지 표현 단어 집합, 알 수 없음 표현 단어 집합, 신념 표현 단어 집합, 필요성 표현 단어 집합, 조건성 표현 단어 집합을 각각 활용하여 구분된다. 바람직하게, 상기 복수 단어 집합은 언어학 전문가의 주석을 통해 구축된다. 바람직하게, 특정 문장 내 각 표현이 등장한 횟수는 해당하는 문장에 대한 의미역 분석 결과 추출된 각 의미역에 상응하는 단어 중 상기 복수 단어 집합에 속하는 단어가 있을 경우 상응하는 등장 횟수를 1 증가시키는 과정을, 해당하는 문장에 대한 의미역 분석 결과를 통해 추출된 각 의미역에 대해 상기 복수 단어 집합을 각기 순회하는 과정을 통해 산출한다.
전처리부(112)는 상기 판단 대상 문서 내 상기 신뢰도 판단에 부적합한 문장 내 신뢰도 판단에 적합한 구문 요소를 자동 구별 추출한다. 바람직하게, 전처리부(112)에 의한 상기 신뢰도 판단에 적합한 문장 내 구문 요소의 자동 구별 추출은 지도 학습(supervised learning) 기반 구문 요소 자동 추출 모델을 통해 진행되며, 해당하는 모델은 전처리 코퍼스(120)를 통해 지도 학습된다. 바람직하게, 해당하는 학습 모델은 학습 중에 전처리 코퍼스(120)로부터 복수 문장 집합 중 예시 문장들을 입력 기준으로 삼고, 상응하는 구문 요소들의 시작 위치, 종료 위치, 포함 단어를 출력 기준으로 삼는다.
신뢰도 분포 예측부(113)는 전처리부(112)로부터 (1) 상기 판단 대상 문서와 (2) 상기 판단 대상 문서 내 신뢰도 판단에 적합한 복수 문장 집합 및 복수 구문 요소 집합을 전달받아, 각 문장 및 구문 요소에 대해 독자들이 보일 신뢰도 분포를 예측한다. 바람직하게, 신뢰도 예측부(113)에 의한 상기 신뢰도 분포 예측은 지도 학습(supervised learning) 기반 신뢰도 분포 예측 모델을 통해 진행되며, 해당하는 모델은 신뢰도 분포 코퍼스(130)를 통해 지도 학습된다. 바람직하게, 해당하는 학습 모델은 학습 중에 신뢰도 분포 코퍼스(130)로부터 복수 문장 집합 및 복수 구문 요소 집합 중 예시 문장들과 예시 구문 요소들을 입력 기준으로 삼고, 상응하는 신뢰도 분포를 출력 기준으로 삼는다.
증거 자료 연결부(114)는 신뢰도 분포 예측부(113)로부터 (1) 상기 판단 대상 문서와 (2) 상기 판단 대상 문서 내 신뢰도 판단에 적합한 복수 문장 집합 및 복수 구문 요소 집합과 (3) 상기 복수 문장 집합과 상기 구문 요소 집합의 합집합 내 모든 요소에 대한 신뢰도 분포 예측 결과를 전달받고, 제어부(160)로부터 상기 제어 정보를 전달받아, 각 신뢰도 분포 예측 결과에 있어, 각각의 신뢰도 점수에 상응하는 상기 신뢰 가능성 판단에 필요한 복수 자료 중 상기 제어 정보에 해당하는 자료를 논지 및 뒷받침 증거자료 데이터베이스(140)로부터 선별한다.
바람직하게, 증거자료 연결부(114)에 의한 상기 자료 선별은 지도 학습(supervised learning) 기반 논지 및 뒷받침 증거자료 적합성 판단 모델을 통해 진행되며, 해당하는 모델은 신뢰도 분포 코퍼스(130)와 논지 및 뒷받침 증거자료 데이터베이스(140)를 통해 학습된다. 바람직하게, 해당하는 학습 모델은 학습 중에 신뢰도 분포 코퍼스(130)로부터 복수 문장 집합 및 복수 구문 요소 집합 중 예시 문장들과 예시 구문 요소들과 신뢰도 분포 내의 특정 신뢰도 점수를 입력 기준으로 삼고, 논지 및 뒷받침 증거자료 데이터베이스(140) 내 항목 중 해당하는 신뢰도 점수에 상응하는 논지 및 증거자료 색인을 갖는 (1) 대표 논지, (2) 대표 증거자료, (3) 추가 논지 리스트, (4) 추가 증거자료 리스트 중 상기 제어 정보에 해당하는 항목(이하 제어 정보 해당 항목)에 대해서는 정수 1을 출력하고, 다른 값의 논지 및 증거자료 색인을 갖는 모든 항목 내의 제어 정보 해당 항목에 대해서는 정수 0을 출력하는 것을 출력 기준으로 삼는다. 여기서, 정수 1은 “논지 및 뒷받침 증거자료로서 적합”, 정수 0은 “논지 및 뒷받침 증거자료로서 부적합”을 의미하는 것으로 해석될 수 있다.
바람직하게, 증거 자료 연결부(114)는 상기 논지 및 뒷받침 증거자료 적합성 판단 모델을 활용해 상기 판단 대상 문서 내 신뢰도 판단에 적합한 복수 문장 집합 및 복수 구문 요소 집합 내 각 문장과 각 구문 요소에 상응하는 신뢰도 분포 예측 결과 내 각각의 신뢰도 점수에 대해 논지 및 뒷받침 증거자료 데이터베이스(140)를 순회하며, 상기 제어 정보 해당 항목에 대해 논지 및 뒷받침 자료로서 적합/부적합 여부를 각각 판단하며, 적합한 것으로 판단된 상기 제어 정보 해당 항목을 상기 판단 대상 문서 내 각 문장 및 구문 요소에 있어 각각의 신뢰도 점수에 상응하는 상기 신뢰 가능성 판단에 필요한 복수 자료로서 선별한다.
출력부(150)를 상세히 설명하면 다음과 같다.
출력부는 도 3에 도시된 바와 같이, 그래프 출력부(151), 증거자료 출력부(152), 사용자 상호작용부(153)로 구성된다.
그래프 출력부(151)는 상기 판단 대상 문서 내 신뢰도 판단에 적합한 복수 문장 및 복수 구문 요소에 대한 예상 신뢰도 분포를 사용자 입력 문서 처리부(110)로부터 전달받아, 전달받은 신뢰도 분포를 사용자에게 출력 제공한다.
증거자료 출력부(152)는 상기 제어 정보를 제어부(160)로부터 전달받고, 상기 판단 대상 문서 내 각 문장 및 구문 요소에 있어 각각의 신뢰도 점수에 상응하는 상기 신뢰 가능성 판단에 필요한 복수 자료 중 상기 제어 정보에 해당하는 자료를 사용자 입력 문서 처리부(110)로부터 전달받아, 전달받은 복수 자료를 사용자에게 출력 제공한다.
사용자 상호작용부(153)는 상기 제어 정보를 제어부(160)로부터 전달받고, 상기 제어 정보 중 뒷받침 증거자료와 관련된 제3 항목 혹은 제4 항목이 포함된 경우, 마우스 클릭과 같은 사용자 상호작용을 통해 증거자료 출력부(152)에 의해 출력 제공된 상기 신뢰 가능성 판단에 필요한 복수 자료의 원본 출처(original source)에 사용자가 접근할 수 있도록 한다.
도 8과 9는 본 발명의 일 실시 예에 따른 신뢰 가능성 판단 가속화 방법을 도시한 흐름도이다. 도 8에 도시된 바와 같이, 본 발명의 일 실시 예에 따른 신뢰 가능성 판단 가속화 방법 중 사용자 입력 문서 처리부(110)에 의한 방법은 입력 단계(S310), 전처리 단계(S320), 신뢰도 분포 예측 단계(S330), 증거 자료 연결 단계(S340)를 포함하여 구성된다. 도 8에 도시된 바와 같이, 본 발명의 일 실시 예에 따른 신뢰 가능성 판단 가속화 방법 중 출력부(150)에 의한 방법은 그래프 출력 단계(S410), 증거자료 출력 단계(S420), 사용자 상호작용 단계(S430)를 포함하여 구성된다.
입력 단계(S310)는 사용자로부터 신뢰 판단 가능성 가속화의 대상이 되는 문서(이하 판단 대상 문서)를 입력 받고, 선택적으로, 상기 신뢰 가능성 판단에 필요한 복수 자료 중 어떤 정보를 사용자에게 출력 제공할 것인지에 해당하는 제어 정보(이하 제어 정보)를 사용자로부터 입력 받는 단계이다. 전처리 단계(S320)는 상기 신뢰도 판단 부적합성 지표를 활용하여 상기 판단 대상 문서 내 각 문장이 상기 신뢰도 판단에 적합한 문장인지 판별하고, 상기 신뢰도 판단에 적합하지 않은 문장일 경우 해당하는 문장 내 신뢰도 판단에 적합한 구문 요소를 추출하는 단계이다. 신뢰도 분포 예측 단계(S330)는 상기 신뢰도 판단에 적합한 문장 및 구문 요소에 대해 신뢰도 분포 예측을 진행하는 단계이다. 증거 자료 연결 단계(S340)는 상기 신뢰 가능성 판단에 필요한 복수 자료 중 상기 제어 정보에 해당하는 자료를 선별하는 단계이다.
그래프 출력 단계(S410)는 상기 판단 대상 문서 내 신뢰도 판단에 적합한 복수 문장 및 복수 구문 요소에 대한 예상 신뢰도 분포를 사용자에게 출력하여 제공하는 단계이다. 증거자료 출력 단계(S420)는 상기 판단 대상 문서 내 신뢰도 판단에 적합한 각 문장 및 구문 요소에 있어 각각의 신뢰도 점수에 상응하는 상기 신뢰 가능성 판단에 필요한 복수 자료 중 상기 제어 정보에 해당하는 자료를 사용자에게 출력하여 제공하는 단계이다. 사용자 상호작용 단계(S430)는 상기 제어 정보 중 뒷받침 증거자료와 관련된 제3 항목 혹은 제4 항목이 포함된 경우, 마우스 클릭과 같은 사용자 상호작용을 통해 상기 신뢰 가능성 판단에 필요한 복수 자료의 원본 출처(original source)에 사용자가 접근할 수 있도록 하는 단계이다.
이상에서 설명한 바와 같이 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자는 본 발명이 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일 요소로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 후술하는 상세 설명에 의해 한정되지 않고, 이를 기반으로 하는 특허청구범위에 의하여 나타내어진다. 따라서, 본 발명의 실시 예들의 개시는 예시적인 것이며, 이하의 청구항에 기재된 본 발명의 범위를 제한하는 것으로 해석되지 않아야 한다.
100 : 신뢰 가능성 판단 가속화 시스템
110 : 사용자 입력 문서 처리부
120 : 전처리 코퍼스

Claims (3)

  1. 신뢰 가능성 판단 가속화 방법에 있어서,
    주어진 문서 내의 각 문장에 대해 신뢰도 판단 부적합성 지표를 활용하여 각 문장이 신뢰도 판단에 적합한 문장인지를 판별하고, 신뢰도 판단에 부적합한 문장일 경우 문장에 포함된 신뢰도 판단에 적합한 구문 요소를 추출하고, 신뢰도 판단에 적합한 각 문장 및 구문요소에 대해 불특정 독자 집단이 보일 신뢰도 분포를 예측하고, 예측된 신뢰도 분포를 기준으로 각 문장 및 구문요소와 관련된 논지 및 뒷받침 증거자료를 군집화하여 신뢰 가능성 판단에 필요한 복수 자료를 사용자에게 제공하는 방법.
  2. 제 1 항에 있어서,
    상기 신뢰 가능성 판단에 필요한 복수 자료는 하기 제1 항목 내지 제4 항목 중 하나 이상의 항목을 포함하는 방법:
    - 주어진 문장 혹은 구문 요소를 독해하고 신뢰도 판단을 수행하여 해당하는 문장 혹은 구문 요소에 대해 신뢰도 값을 제공한 독자들이 해당하는 신뢰도 값을 정당화(이하 신뢰도 정당화)하기 위해 활용한 대표 논지를, 해당하는 문장 혹은 구문 요소와 상응하는 신뢰도 값에 따라 구별하여 군집화한 대표 논지 집합에 해당하는 제1 항목
    - 상기 신뢰도 정당화를 위해 활용한 추가 논지 리스트를, 해당하는 문장 혹은 구문 요소와 상응하는 신뢰도 값에 따라 구별하여 군집화한 추가 논지 리스트의 집합에 해당하는 제2 항목
    - 상기 신뢰도 정당화를 위해 활용한 대표 논지 및 추가 논지 리스트의 합집합 내 각 논지에 대한 대표 뒷받침 증거자료를, 해당하는 문장 혹은 구문 요소와 상응하는 신뢰도 값과 상응하는 논지에 따라 구별하여 군집화한 대표 뒷받침 증거자료 집합에 해당하는 제3 항목
    - 상기 신뢰도 정당화를 위해 활용한 대표 논지 및 추가 논지 리스트의 합집합 내 각 논지에 대한 추가 뒷받침 증거자료 리스트를, 해당하는 문장 혹은 구문 요소와 상응하는 신뢰도 값과 상응하는 논지에 따라 구별하여 군집화한 추가 뒷받침 증거자료 리스트의 집합에 해당하는 제4 항목
  3. 제 1 항에 있어서,
    신뢰 가능성 판단 가속화 방법은,
    사용자로부터 신뢰 판단 가능성 가속화의 대상이 되는 문서(이하 판단 대상 문서)를 입력 받고, 선택적으로, 상기 신뢰 가능성 판단에 필요한 복수 자료 중 어떤 정보를 사용자에게 출력 제공할 것인지에 해당하는 제어 정보(이하 제어 정보)를 사용자로부터 입력 받는 입력 단계(S310);
    상기 신뢰도 판단 부적합성 지표를 활용하여 상기 판단 대상 문서 내 각 문장이 상기 신뢰도 판단에 적합한 문장인지 판별하고, 상기 신뢰도 판단에 적합하지 않은 문장일 경우 해당하는 문장 내 신뢰도 판단에 적합한 구문 요소를 추출하는 전처리 단계(S320);
    상기 신뢰도 판단에 적합한 문장 및 구문 요소에 대해 신뢰도 분포 예측을 진행하는 신뢰도 분포 예측 단계(S330);
    상기 신뢰 가능성 판단에 필요한 복수 자료 중 상기 제어 정보에 해당하는 자료를 선별하는 증거 자료 연결 단계(S340);
    상기 판단 대상 문서 내 신뢰도 판단에 적합한 복수 문장 및 복수 구문 요소에 대한 예상 신뢰도 분포를 사용자에게 출력하여 제공하는 그래프 출력 단계(S410);
    상기 판단 대상 문서 내 신뢰도 판단에 적합한 각 문장 및 구문 요소에 있어 각각의 신뢰도 점수에 상응하는 상기 신뢰 가능성 판단에 필요한 복수 자료 중 상기 제어 정보에 해당하는 자료를 사용자에게 출력하여 제공하는 증거자료 출력 단계(S420);
    상기 제어 정보 중 뒷받침 증거자료와 관련된 제3 항목 혹은 제4 항목이 포함된 경우, 마우스 클릭과 같은 사용자 상호작용을 통해 상기 신뢰 가능성 판단에 필요한 복수 자료의 원본 출처(original source)에 사용자가 접근할 수 있도록 하는 사용자 상호작용 단계(S430);
    를 포함하는 방법.
KR1020180151721A 2018-11-30 2018-11-30 신뢰도 분포 기반 논지 및 뒷받침 증거자료의 군집화를 통한 신뢰 가능성 판단 가속화 방법 및 시스템 KR20200065348A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180151721A KR20200065348A (ko) 2018-11-30 2018-11-30 신뢰도 분포 기반 논지 및 뒷받침 증거자료의 군집화를 통한 신뢰 가능성 판단 가속화 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180151721A KR20200065348A (ko) 2018-11-30 2018-11-30 신뢰도 분포 기반 논지 및 뒷받침 증거자료의 군집화를 통한 신뢰 가능성 판단 가속화 방법 및 시스템

Publications (1)

Publication Number Publication Date
KR20200065348A true KR20200065348A (ko) 2020-06-09

Family

ID=71082578

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180151721A KR20200065348A (ko) 2018-11-30 2018-11-30 신뢰도 분포 기반 논지 및 뒷받침 증거자료의 군집화를 통한 신뢰 가능성 판단 가속화 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR20200065348A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950253A (zh) * 2020-08-28 2020-11-17 鼎富智能科技有限公司 用于裁判文书的证据信息提取方法及装置
CN117291740A (zh) * 2023-09-26 2023-12-26 湖北盈嘉集团有限公司 一种基于大数据的应收账款资料真实性智能识别审核系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950253A (zh) * 2020-08-28 2020-11-17 鼎富智能科技有限公司 用于裁判文书的证据信息提取方法及装置
CN111950253B (zh) * 2020-08-28 2023-12-08 鼎富智能科技有限公司 用于裁判文书的证据信息提取方法及装置
CN117291740A (zh) * 2023-09-26 2023-12-26 湖北盈嘉集团有限公司 一种基于大数据的应收账款资料真实性智能识别审核系统
CN117291740B (zh) * 2023-09-26 2024-04-19 湖北盈嘉集团有限公司 一种基于大数据的应收账款资料真实性智能识别审核系统

Similar Documents

Publication Publication Date Title
Arora et al. Character level embedding with deep convolutional neural network for text normalization of unstructured data for Twitter sentiment analysis
Arora et al. Mining twitter data for depression detection
Nurdeni et al. Sentiment analysis on Covid19 vaccines in Indonesia: from the perspective of Sinovac and Pfizer
CN112395539B (zh) 一种基于自然语言处理的舆情风险监测方法及系统
Nasir et al. Text-based emotion prediction system using machine learning approach
Demirci Emotion analysis on Turkish tweets
Chung et al. Comparing natural language processing (NLP) applications in construction and computer science using preferred reporting items for systematic reviews (PRISMA)
Thakur et al. A review on text based emotion recognition system
Hussien et al. On the use of emojis to train emotion classifiers
KR20200065348A (ko) 신뢰도 분포 기반 논지 및 뒷받침 증거자료의 군집화를 통한 신뢰 가능성 판단 가속화 방법 및 시스템
Narendra et al. Named entity recognition based resume parser and summarizer
Garcia-Gorrostieta et al. Argument component classification in academic writings
Al-Abri et al. A scheme for extracting information from collaborative social interaction tools for personalized educational environments
Rasheed et al. Conversational chatbot system for student support in administrative exam information
Panthum et al. Generating functional requirements based on classification of mobile application user reviews
Wang et al. Natural language processing systems and Big Data analytics
Doğan et al. Text summarization in social networks by using deep learning
Sánchez et al. Identifying the polarity of a text given the emotion of its author
Ouertatani et al. Argued opinion extraction from festivals and cultural events on Twitter
Jha et al. Artemis: A novel annotation methodology for indicative single document summarization
CN114185868B (zh) 中文热点事件库智能构建方法
Gangbo et al. Classification of Student Mental Health Prediction Using LSTM
Basu et al. An End-to-End Topic-Based Sentiment Analysis Framework from Twitter Using Feature Set Cumulation
Eke Multi-Feature Fusion Framework for Automatic Sarcasm Identification in Twitter Data
Khazaei et al. Corpus-based analysis of rhetorical relations: A study of lexical cues