KR102661819B1 - 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법 - Google Patents

시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법 Download PDF

Info

Publication number
KR102661819B1
KR102661819B1 KR1020210154223A KR20210154223A KR102661819B1 KR 102661819 B1 KR102661819 B1 KR 102661819B1 KR 1020210154223 A KR1020210154223 A KR 1020210154223A KR 20210154223 A KR20210154223 A KR 20210154223A KR 102661819 B1 KR102661819 B1 KR 102661819B1
Authority
KR
South Korea
Prior art keywords
information
relationship information
temporal
input text
time
Prior art date
Application number
KR1020210154223A
Other languages
English (en)
Other versions
KR20220071113A (ko
Inventor
최호진
임채균
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of KR20220071113A publication Critical patent/KR20220071113A/ko
Application granted granted Critical
Publication of KR102661819B1 publication Critical patent/KR102661819B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24575Query processing with adaptation to user needs using context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법이 개시된다. 이 방법은 컴퓨터 프로그램으로 구현 되어 컴퓨팅 장치를 이용하여 수행될 수 있다. 자연어로 된 입력 텍스트에서 불필요한 요소를 제거하는 데이터 전처리를 한 다음, 그 입력 텍스트의 언어적 특성을 분석하여 구조체 형태로 분석결과를 생성한다. 그 분석결과를 활용하여 입력 텍스트에 포함된 시간정보 및 오픈 도메인 정보를 분석함으로써 상기 입력 텍스트에 내포된 시간적 관계정보의 후보를 생성한 다음, 그 시간적 관계정보의 후보에 대한 타당성을 확인하여 검증된 시간적 관계정보를 생성한다. 입력 텍스트에서 오픈 도메인 정보를 바탕으로 시간적 관계정보를 파악할 수 있으므로, 실제 응용에서 정보 추출 결과의 품질 및 정확성을 높일 수 있다. 특히, 본 발명은 질의응답, 문서 요약, 대화 시스템 등에 적용하여 해당 시스템의 성능을 개선할 수 있다.

Description

시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법 {Methods for Understanding Context of Temporal Relations Based on Open-domain Information}
본 발명은 자연어 처리 기술 분야에 관한 것으로, 보다 상세하게는 자연어 텍스트 데이터에서 시간적 관계정보의 컨텍스트를 이해할 수 있도록 오픈 도메인 정보를 활용하는 방법에 관한 것이다.
일반적으로 자연어를 사용하여 작성된 문서에는 시간 정보(temporal information)가 포함된다. 이 시간 정보는 작성자가 자연어 텍스트를 통해서 표현하고자 했던 의미적인 내용을 정확하게 이해하기 위해서 중요하다. 자연어처리 연구 분야에서는 기계학습 기법들을 적용하여 문서 내 기술된 내용에 대한 문맥 정보(contextual information)를 파악하는 연구가 다방면으로 수행됐으며, 시간 정보를 집중적으로 조명하며 문맥을 파악하는 연구도 있었다. 이러한 시간적 문맥 정보에 대한 기존 기술들은 대부분 영어로 작성된 입력 텍스트를 대상으로 처리하고 있으므로 다른 언어를 기반으로 하는 문서에 적용하기 어려울 수밖에 없다. 대표적인 이유는 모델의 처리 과정에서 언어분석 결과를 사용하므로, 학습모델이 입력 문서 언어에 대한 언어학적 특성에 종속적인 경향을 보이게 된다는 점이다.
또한, 기존의 연구들은 대체로 시간정보 추출 기술의 관점에서만 입력 텍스트 내에 시간적인 관계가 존재하고 있는지를 분석한다. 그렇기 때문에, 해당 모델이 어떤 도메인에 대해 충분히 학습한 경우에는, 시간 관계 개체들을 잘 추출할 수 있지만 새로운 도메인을 대상으로 적용하기 어려운 경향이 크다.
개방형 정보 추출(open-domain information extraction)은 주어진 텍스트 자체를 기준으로 구문분석, 의존관계 분석 등의 언어분석 결과를 바탕으로 관계정보의 패턴을 학습하고 추출할 수 있는 기술이다. 이에 따라, 개방형 정보 추출을 적용하면 어떤 도메인에 관한 사전정보가 불충분한 경우에도 새로운 관계정보를 분석할 수 있어서 활용성이 높다.
종래기술인 대한민국 특허등록 제10-1831058호 (발명의 명칭:'구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템')에서는, 개방형 정보 추출 기술을 활용하여 입력 텍스트를 대상으로 술어(predicate)와 논항(argument)을 분석하고, 관계정보를 RDF(Resource Description Framework)의 삼항 관계(ternary relation) 형태로 생성한다. 상기 종래기술은 일반적인 텍스트를 대상으로 관계를 추출할 수 있으나, 시간정보 추출의 결과로 생성되는 시간 개체들은 분석대상으로 다루진 않아 주어진 텍스트에 관한 시간적 컨텍스트를 이해하는 기술과는 거리가 멀다.
아래 비특허문헌 1은 시간정보 추출 기술의 관점에서만 입력 텍스트를 대상으로 시간적 관계정보를 분석하기 때문에, 어떤 도메인에 대해 충분히 학습한 경우에는 시간 관계 개체들을 추출할 수 있지만 새로운 도메인을 대상으로 적용하기 어려운 단점이 있다.
1. 대한민국 특허등록 제10-1831058호
1. 제31회 한글 및 한국어 정보처리 학술대회, pp. 81-84, 2019.양방향 언어 모델을 활용한 자연어 텍스트의 시간 관계정보 추출 기법
본 발명의 일 목적은 자연어 텍스트 데이터에서의 관계정보와 시간 개체들을 함께 결합하여 분석함으로써 기존 모델에서 대응하지 못하는 새로운 시간적 관계정보를 추출하여 개체 간의 서사적인 흐름을 더욱 잘 이해할 수 있도록 하는 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 과제는 상술한 과제들에 한정되는 것이 아니며, 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위에서 다양하게 확장될 수 있을 것이다.
본 발명의 일 측면에 따른 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법은 적어도 프로세서와 메모리 소자를 포함하는 컴퓨팅 장치를 이용하여 수행되는 방법에 있어서, 자연어로 된 입력 텍스트에서 불필요한 요소를 제거하는 데이터 전처리 단계; 전처리된 상기 입력 텍스트의 언어적 특성을 분석하여 구조체 형태로 분석결과를 생성하는 언어 분석 단계; 상기 언어 분석 단계에서 생성된 분석결과를 활용하여 상기 입력 텍스트에 포함된 시간정보 및 오픈 도메인 정보를 분석함으로써 상기 입력 텍스트에 내포된 시간적 관계정보의 후보를 생성하는 관계정보 확장 단계; 및 상기 시간적 관계정보의 후보에 대한 타당성을 확인하는 시간적 관계정보 검증단계를 포함한다.
예시적인 실시예에 있어서, 상기 불필요한 요소는 상기 자연어로 된 입력 텍스트에서 불필요한 기호, 특수문자, 연속된 공백 문자와 같은 노이즈(noise) 중 적어도 하나를 포함할 수 있다.
예시적인 실시예에 있어서, 상기 방법은 상기 전처리 단계는 상기 자연어로 된 입력 텍스트를 분절화 및 불용화 처리를 수행하는 단계를 더 포함할 수 있다.
예시적인 실시예에 있어서, 상기 언어적 특성은 상기 자연어로 된 입력 텍스트에 대한 형태소 분석, 의존 구문 분석, 의미적 중의성 및 개체명 인식 중 적어도 하나를 포함할 수 있다.
예시적인 실시예에 있어서, 상기 시간정보는 특정한 날짜나 시기에 대해 직접적으로 나타내는 표현인 시간(time) 개체, 상기 입력 텍스트 내에서 시간 표현과 연관된 사건을 나타내는 표현인 사건(event) 개체, 및 시간 및 사건 표현들 사이에서 존재하는 관계정보를 나타내는 표현인 시간 관계(temporal link) 개체 중 적어도 하나를 포함할 수 있다.
예시적인 실시예에 있어서, 상기 오픈 도메인 정보는, 관계정보 R={S, V, O} 형식의 트리플(triple)로 표현 가능한 어떤 관계정보에 대해서, 관계의 주체(subject)인 S, 관계의 대상(object)인 O, 관계의 종류를 나타내는 술어(predicate)인 V 중 적어도 하나를 포함할 수 있다.
예시적인 실시예에 있어서, 상기 시간적 관계정보는 시간-시간(time-time), 시간-사건(time-event), 사건-사건(event-event)의 조합 중 적어도 하나를 포함할 수 있다.
예시적인 실시예에 있어서, 상기 관계정보 확장단계는, 언어분석 결과를 활용하여 상기 입력 텍스트에 포함된 시간 개체들을 추출하는 시간정보 추출하는 단계; 언어분석 결과를 활용하여 상기 입력 텍스트로부터 개체들 간의 관계에 대한 오픈 도메인 정보를 분석하여 오픈 도메인 정보의 시간적 관계정보를 추출하는 개방형 관계정보 추출단계; 및 추출된 상기 시간 개체들과 상기 오픈 도메인 정보의 시간적 관계정보들을 함께 결합하여 새로운 관계정보를 발견하는 관계정보 후보 생성단계를 포함할 수 있다.
예시적인 실시예에 있어서, 상기 관계정보 R은 R={S, V, O} 형식의 트리플(triple)로 표현 가능한 어떤 관계정보일 수 있으며, 여기서 S는 관계의 주체, V는 관계의 종류를 나타내는 술어, O는 관계의 대상을 나타낼 수 있다.
예시적인 실시예에 있어서, 상기 시간적 관계정보 검증단계는, 생성된 모든 관계정보 후보들을 방향 그래프(directed graph) 형태로 변환하고, 상기 시간(time) 개체 또는 상기 사건(event) 개체를 상기 방향 그래프의 노드로 설정하고, 상기 노드 간의 링크는 시간 관계를 구성하는 2개 개체에 대응하는 노드들을 상호 연결하며, 완성된 방향 그래프에 대해 상기 노드들을 순차적으로 탐색하면서 잘못된 연결을 확인하고 교정하는 것을 포함할 수 있다.
위에서 언급된 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법을 수행하기 위하여 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 실행가능 프로그램과 이 프로그램이 기록된 컴퓨터 판독 가능한 기록매체가 제공될 수 있다.
위와 같은 본 발명에 따르면, 시간정보 추출의 관점에서 입력 텍스트에 내포된 시간적 관계정보의 형성 범위를 더 확장하기 위해서 개방형 관계정보 추출이 적용된다. 특히, 개방형 정보 추출의 결과로 생성된 관계 개체들뿐만 아니라, 시간(time) 및 사건(event) 개체로 분석된 시간정보 추출 결과를 동시에 활용함으로써 주어진 텍스트에 관한 시간적 컨텍스트를 이해하는 것을 도와주는 시간 관계 개체들을 생성할 수 있다.
본 발명의 예시적인 실시예들에 따르면, 자연어 텍스트로부터 시간적 컨텍스트를 이해하기 위하여 시간정보와 개방형 관계정보를 분석하고 시간적 관계정보를 확장할 수 있다. 이 기술을 통해 입력 텍스트에서 오픈 도메인 정보를 바탕으로 시간적 관계정보를 파악할 수 있으므로, 실제 응용에서 정보 추출 결과의 품질 및 정확성을 높일 수 있다. 특히, 본 발명은 질의응답, 문서 요약, 대화 시스템 등에 적용하여 해당 시스템의 성능을 개선할 수 있다.
도 1은 본 발명의 일 실시예에 따른 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법이 구현된 컴퓨터 프로그램의 구성을 나타낸 기능블록도이다.
도 2는 본 발명의 일 실시예에 따른 관계정보 확장부의 상세 구성을 나타낸 기능블록도이다.
도 3은 본 발명의 일 실시예에 따른 시간정보 추출과 개방형 관계정보 추출 결과의 예를 설명한 도면이다.
도 4는 본 발명의 일 실시예에 따른 시간적 관계정보 검증의 예를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법의 수행 절차를 나타내는 순서도이다.
도 6은 본 발명의 예시적인 실시예에 따른 상기 방법을 실행할 수 있는 컴퓨팅 장치의 구성을 예시한다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 첨부되는 도면을 참조하여 본 발명의 일 측면에 따른 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법을 설명한다.
도 1은 본 발명의 예시적인 실시예에 따른 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법이 구현된 애플리케이션 프로그램의 구성을 나타낸 기능블록도이다. 도 2는 본 발명의 예시적인 실시예에 따른 관계정보 확장부의 구성을 나타낸 기능블록도이다.
도 1을 참조하면, 발명의 일 실시예에 따른 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법을 위한 컴퓨터 실행가능 애플리케이션 프로그램(50)은 데이터 전처리부(10), 언어 분석부(20), 관계정보 확장부(30) 및 시간적 관계정보 검증부(40)를 포함할 수 있다.
예시적인 실시예에 따른 상기 애플리케이션 프로그램(50)에 의한 모델은 자연어 텍스트로 작성된 하나 이상의 문서를 입력으로 받아서 처리할 수 있다. 입력 데이터로 제공되는 자연어 텍스트에는 기호, 특수문자, 연속된 공백 문자와 같은 노이즈 중 적어도 한 가지 이상의 불필요한 요소들이 포함되어 있을 수 있다. 데이터 전처리부(10)는 입력으로 제공되는 자연어 텍스트에서 불필요한 기호, 특수문자, 연속된 공백 문자와 같은 노이즈(noise)를 제거하고 분절화(tokenization) 및 불용어(stop word) 처리와 같은 전처리를 수행할 수 있다. 이와 같은 데이터 전처리를 통해 애플리케이션 프로그램(50)에 의한 모델이 효율적으로 텍스트를 다룰 수 있도록 한다.
언어 분석부(20)는 주어진 입력 텍스트를 대상으로 형태소 분석, 의존 구문 분석, 의미적 중의성, 개체명 인식 중 적어도 한 가지 이상의 언어적 특성을 분석하여 그 분석 결과를 구조체 형태로 관계정보 확장부(30)에 전달할 수 있다.
관계정보 확장부(30)는 언어분석 결과를 이용하여 시간정보와 개방형 관계정보 분석을 수행하고, 이 분석 결과를 바탕으로 입력 텍스트에서 내포하고 있는 시간적 관계정보를 발견함으로써 최종적인 관계정보를 확장한다.
도 2를 참조하여 관계정보 확장부(30)를 좀 더 구체적으로 설명하면, 예시적인 실시예에서 관계정보 확장부(30)는 시간정보 추출부(31), 개방형 관계정보 추출부(32), 및 관계정보 후보 생성부(33)를 포함할 수 있다.
시간정보 추출부(31)는 언어 분석부(20)로부터 제공된 언어분석 결과를 활용하여 입력 텍스트 문장에 포함된 시간 정보 즉, 시간 개체들을 추출하는 작업을 수행할 수 있다. 이때 시간 개체의 종류는 시간(time), 사건(event), 시간 관계(temporal link)의 3가지 종류가 있다. 먼저, 시간(time) 개체는 특정한 날짜나 시기 등에 대해 직접적으로 나타내는 표현이고, 사건(event) 개체는 주어진 텍스트에서의 시간 표현과 관련이 있는 사건들을 나타내며, 시간 관계(temporal link) 개체는 시간 및 사건 표현들 사이에서 존재하는 관계정보를 표현한다. 시간 관계는 시간-시간(time-time), 시간-사건(time-event), 사건-사건(event-event)의 조합으로 구성될 수 있다.
개방형 관계정보 추출부(32)는, 상기 입력 텍스트가 어떠한 도메인에 관한 내용인지에 관한 사전정보를 보유하지 않더라도, 언어 분석부(20)로부터 제공되는 언어분석 결과를 기반으로 특정 도메인에 대한 사전 지식이 없더라도 개체들 간의 관계에 대한 의미를 표현할 수 있는 단어들을 분석함으로써 오픈 도메인에서 시간적 관계정보를 추출할 수 있다. 하나의 관계정보를 R, 관계의 주체(subject)를 S, 관계의 대상(object)를 O, 관계의 종류를 나타내는 술어(predicate)를 V라고 하면, 관계정보는 R={S, V, O} 형식의 트리플(triple)로 표현 가능하다.
관계정보 후보 생성부(33)는 시간정보 추출부(31)에서 분석된 시간 개체들과 개방형 관계정보 추출부(32)에서 분석된 오픈 도메인 정보의 시간적 관계정보를 결합함으로써 입력 텍스트에 관한 시간적 관계정보 확장을 위한 새로운 관계정보 후보를 생성할 수 있다. 시간 관계(temporal link)는 2개의 개체에 대한 연결이 형성된 것이므로, 오픈 도메인 정보의 관계와 일대일로 대응하기 어려워서 구성요소에 대한 부분 매칭(partial matching)을 기준으로 관계정보 후보를 판단할 수 있다. 이 경우, 오픈 도메인 정보에서의 관계 트리플 R={S, V, O}가 주어졌을 때, S 또는 O가 시간(time) 개체이거나 사건(event) 개체를 포함한다면 관계정보 후보로 지정할 수 있다. 또한, V가 사건(event) 개체라면 마찬가지로 관계정보 후보로 지정할 수 있다.
시간적 관계정보 검증부(40)는 생성된 모든 관계정보 후보들을 방향 그래프(directed graph) 형태로 변환하고 그래프 자체의 타당성을 확인할 수 있다. 그래프의 노드는 시간(time) 또는 사건(event) 개체가 되고, 엣지는 시간 관계를 구성하는 2개 개체에 대응하는 노드들을 상호 연결한다. 이 과정에서 완성된 그래프에 대해, 노드들을 순차적으로 탐색하면서 잘못된 연결을 확인하고 교정할 수 있다.
도 3은 본 발명의 일 실시예에 따른 시간정보 추출과 개방형 관계정보 추출 결과의 예를 나타낸다.
도 3은 종래의 시간적 관계정보를 표현하는 TempEval annotation 방식과 달리, 오픈 도메인 정보의 형태(즉, S, V, O 트리플)로 표현한 것에 대한 예시이다. 도 3을 참조하면, 오픈 도메인 정보는 개방형 추출 결과에서 생성되는 모든 관계정보 개체들을 의미하는 바, 원본 문장(60)에 대해서 개방형 관계정보 추출부(32)가 분석한 오픈 도메인 정보는 다수 생성될 수 있다. 즉, 주어진 문장을 대상으로 분석했을 때 생성될 수 있는 모든 관계정보 개체들은 오픈 도메인 정보에 포함될 수 있으나, 본 실시예에서 설명의 편의상 임의의 1가지 케이스인 관계 트리플 R={S, V, O}인 경우 즉, R={flu season; started in; December}인 경우를 예시로 설명한다. 기존의 TempEval annotation에서는 주어진 텍스트에서 인라인(inline)으로 시간(time)과 사건(event) 개체를 태깅한 후, 해당 개체들 사이에 대한 시간적 관계정보(tlink)를 별도로 태깅하는 방식을 사용한 것에 비해, 도 3에 예시된 개방형 추출 방법을 적용하면 상기한 오픈 도메인 정보의 형태에 따라서 R={S, V, O} 트리플 구조로 표현하므로, 더욱 다양한 조합의 시간 및 사건 개체들 사이의 관계정보를 찾아낼 수 있는 가능성이 있다.
한편, 시간정보 추출부(31)에서는 입력 텍스트(60)를 분석하여, 파악된 시간 개체인 TIMEX3와 사건 개체인 EVENT에 대한 주석(62)을 생성하고, 그 시간 개체 TIMEX3와 사건 개체 EVENT에 대한 인스턴스를 나타내는 MAKEINSTANCE(64), 시간/사건 개체 간의 관계를 나타내는 TLINK(66)에 대한 정보를 XML 형식으로 태깅할 수 있다. 본 실시예에서 오픈 도메인 정보의 관계 R에서 'started in'은 V 위치에 있는 동시에 시간정보 추출 결과에서 사건(event) 개체로 분석된 것이다. 추가적으로, 관계 R에서 'December'는 O 위치에 있는 동시에 시간정보 추출 결과에서 시간(time) 개체로 분석된 것을 보인다. 여기에서 오픈 도메인 정보의 관계 트리플 R이 시간적 관계정보를 포함한다면 S 또는 O 부분과 함께 V 부분이 시간정보를 지니고 있다는 것을 알 수 있다. 이러한 특징을 활용하여 관계정보 후보 생성부(33)에서 새로운 관계정보 후보를 발견할 수 있다.
도 4는 본 발명의 일 실시예에 따른 시간적 관계정보 검증의 예를 나타낸 도면이다.
도 4를 참조하면, 5개의 시간 관계(temporal link)를 구성하고 있는 사건(event) 2개(e1, e2)와 시간(time) 3개(t1, t2, t3)를 방향 그래프 형태로 나타내고 있다. 그래프 노드로서 e 1 ~ e 2 개체와 t 1 ~ t 3 개체가 배치되고, 관계 정보에 따른 링크로 다음 조합들이 연결된 것이다.
번호 관계 주체 종류 관계 대상
1 e 1 BEFORE t 1
2 e 1 BEFORE e 2
3 e 1 AFTER t 2
4 e 2 AFTER t 1
5 e 2 DURING (t 2 , t 3 )
여기에서, 3번 조합인 {e 1 , AFTER, t 2 }의 경우에는, 시간적 관점에서 e 1 < e 2 이고 t 1 < t 2 이라는 사실이 명확하게 나타나므로 잘못된 연결이라고 판단하여 교정 처리한 것을 보여준다. 즉, [표 1]의 내용을 도식화하면 도 4와 같은 그래프 형태로 나타낼 수 있으며, 개체들의 시간 흐름을 하나의 시간선에서 표현한다면 e 1 --> BEFORE t 1 --> BEFORE [t 2 --> e 2 --> t 3 ]DURING 과 같이 표현될 수 있다. 이에 따라, t 2 ---> AFTER e 1 이라는 표 1의 3번 조합은 t 1 보다 앞선 시점(BEFORE)에 있어야 하므로 잘못된 연결이라 판단하여 교정처리 하는 과정을 보여준다.
도 5는 본 발명의 일 실시예에 따른 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법의 실행 순서를 나타낸 순서도이다.
도 5를 참조하면, 먼저 데이터 전처리부(10)에서는 자연어 입력 텍스트를 대상으로 불필요한 기호, 특수문자, 연속된 공백 문자와 같은 노이즈(noise)를 제거하고 분절화(tokenization) 및 불용어(stop word) 처리를 한다(S100). 전처리된 입력 텍스트는 언어 분석부(20)에 제공된다.
언어 분석부(20)는 전처리된 입력 텍스트에 대한 형태소 분석, 의존 구문 분석, 의미적 중의성, 개체명 인식과 같은 언어적 특성을 분석한다(S200). 언어적 특성 분석의 결과는 관계정보 확장부(30)에 제공된다. 형태소 분석, 의존 구문 분석, 의미적 중의성, 개체명 인식과 같은 언어적 특성 결과는 아래 예시된 것처럼 각각의 분석결과를 포함하고 있는 JSON 형식의 텍스트 데이터로 전달될 수 있다. 또는, 언어적 특성 결과는 XML 등 다른 형식으로도 표현 가능할 수도 있다.
(언어적 특성 결과의 예)
{
"morp": [{"text": "형태소1 텍스트", "type": "NNP"}, ...],
"dependency": {"root": "노드", "type": "노드 타입", "child": [...]},
...
}
이어, 관계정보 확장부(30)는 상기 언어분석 결과를 이용하여 시간정보와 개방형 관계정보 분석을 시행하여 시간 개체 정보와 시간적 관계 정보를 추출하고, 이들 정보를 결합하여 입력 텍스트에 내포된 시간적 관계정보를 발견함으로써 최종적인 관계정보를 확장할 수 있다(S300).
구체적으로 설명하면, 시간정보 추출부(31)는 이전 단계에서 전달된 언어분석 결과를 활용하여 입력 텍스트 문장에 포함된 시간 개체들을 추출할 수 있다(S310).
또한, 개방형 관계정보 추출부(32)는 상기 입력 텍스트로부터 개체 간의 관계에 대한 오픈 도메인 정보를 분석하고, R={S, V, O} 형식의 트리플(triple)로 표현된 관계정보를 추출할 수 있다(S320).
상기한 바와 같이 시간 개체 및 오픈 도메인 정보의 관계가 추출되면, 관계정보 후보 생성부(33)는 그 시간 개체들과 오픈 도메인 정보의 관계들을 함께 결합함으로써 입력 텍스트에 관한 새로운 관계정보 후보를 생성할 수 있다(S330). 생성된 새로운 관계정보 후보들은 시간적 관계정보 검증부(40)에 제공될 수 있다.
이어, 시간적 관계정보 검증부(40)는 생성된 모든 관계정보 후보들을 방향 그래프(directed graph) 형태로 변환하고 그래프 자체의 타당성을 확인할 수 있다(S400).
이와 같은 과정을 통해, 시간 개체와 오픈 도메인 정보의 관계의 결합을 통해 새로운 시간적 관계 정보를 얻고 그것에 대한 타당성 검증을 거쳐 타당한 서사적 흐름 내지 시간적 관계정보의 컨텍스트를 더욱 잘 이해할 수 있다.
도 6은 본 발명의 예시적인 실시예에 따른 상기 방법을 실행할 수 있는 컴퓨팅 장치의 구성을 예시한다.
도 6을 참조하면, 본 발명의 예시적인 실시예에 따른 상기 방법은 애플리케이션 프로그램으로 구현되어, 컴퓨팅 장치(100)에서 그 애플리캐이션 프로그램을 실행하는 것을 통해 그 방법이 수행될 수 있다. 컴퓨팅 장치(100)는 하드웨어 자원으로서, 프로세서(60)와 메모리(70), 그리고 데이터 저장소(80)를 포함할 수 있다. 프로세서(60)는 예컨대 중앙연산처리 장치(CPU), 마이크로프로세서, 디지털 신호 프로세서 등과 같은 프로세서로 구현될 수 있다. 프로세서(60)의 연산처리에 필요한 데이터 처리 작업 공간을 제공하는 메모리(70)는 예컨대 DRAM과 같은 소자로 구현될 수 있다. 데이터 저장소(80)는 전원의 온/오프에 상관없이 데이터의 기록 상태를 유지할 수 있는 하드디스크 드라이버, 플래시 메모리 장치 등으로 구현될 수 있다. 상기 애플리케이션 프로그램(50)과 프로세서(60)가 애플리케이션 프로그램(50)의 수행을 통해 생성되는 데이터는 은 데이터 저장소(80)에 저장될 수 있다.
이상에서 설명한 바와 같이, 본 발명의 실시예에 따른 방법은 시간정보 추출의 관점에서 입력 텍스트에 내포된 시간적 관계정보의 형성 범위를 더 확장하기 위해서 개방형 관계정보 추출을 적용한다는 점에서 위 특허문헌 1과 주요한 차이가 있다. 특히, 본 발명의 관계정보 확장부(30)에서는 개방형 정보 추출의 결과로 생성된 관계 개체들뿐만 아니라, 시간(time) 및 사건(event) 개체로 분석된 시간정보 추출 결과를 동시에 활용함으로써 입력으로 주어진 텍스트에 관한 시간적 컨텍스트를 이해하는 것을 돕는 시간 관계 개체들을 생성할 수 있는 점에서 차이가 있다. 본 발명의 실시예에 따른 방법은 개방형 관계정보 추출 기술을 접목하여 도메인에 관한 사전정보 없이 새로운 관계정보(오픈 도메인 정보)를 분석할 수 있고, 이러한 관계와 시간 개체들을 결합하여 새로운 시간적 관계정보를 분석할 수 있다는 점에서 위 비특허문헌 1과도 차이가 있다.
이상에서 실시 예들에 설명된 특징, 구조, 효과 등은 본 발명의 하나의 실시 예에 포함되며, 반드시 하나의 실시 예에만 한정되는 것은 아니다. 나아가, 각 실시 예에서 예시된 특징, 구조, 효과 등은 실시 예들이 속하는 분야의 통상의 지식을 가지는 자에 의해 다른 실시들에 대해서도 조합 또는 변형되어 실시 가능하다. 따라서 이러한 조합과 변형에 관계된 내용들은 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.
또한, 이상에서 실시예를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 실시 예에 구체적으로 설명된 방법과 다른 순서로 수행되거나 또는 설명된 장치나 시스템의 구성요소와는 다른 구성 요소로 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.
본 발명은 자연어 텍스트 처리 기술을 필요로 하는 여러 분야에서 이용될 수 있다.
10: 데이터 전처리부 20: 언어 분석부
30: 관계정보 확장부 31: 시간정보 추출부
32: 개방형 관계정보 추출부 33: 관계정보 후보 생성부
40: 시간적 관계정보 검증부

Claims (12)

  1. 적어도 프로세서와 메모리 소자를 포함하는 컴퓨팅 장치를 이용하여 수행되는 방법에 있어서,
    자연어로 된 입력 텍스트에서 불필요한 요소를 제거하는 데이터 전처리 단계;
    전처리된 상기 입력 텍스트의 언어적 특성을 분석하여 구조체 형태로 분석결과를 생성하는 언어 분석 단계;
    상기 언어 분석 단계에서 생성된 분석결과를 활용하여 상기 입력 텍스트에 포함된 시간정보 및 오픈 도메인 정보를 분석함으로써 상기 입력 텍스트에 내포된 시간적 관계정보의 후보들을 생성하는 관계정보 확장 단계, 여기서 상기 시간정보는 특정한 날짜나 시기에 대해 직접적으로 나타내는 표현인 시간(time) 개체, 상기 입력 텍스트 내에서 시간 표현과 연관된 사건을 나타내는 표현인 사건(event) 개체, 및 시간 및 사건 표현들 사이에서 존재하는 관계정보를 나타내는 표현인 시간 관계(temporal link) 개체 중 적어도 하나를 포함하고; 그리고
    생성된 상기 시간적 관계정보의 후보들에 대한 타당성을 확인하는 시간적 관계정보 검증단계를 포함하며,
    상기 관계정보 확장단계는, 상기 언어 분석 단계에서 생성된 분석 결과를 활용하여 상기 입력 텍스트에 포함된 시간 개체들을 추출하는 시간정보 추출단계; 상기 분석 결과를 활용하여 상기 입력 텍스트로부터 개체들 간의 관계에 대한 오픈 도메인 정보를 분석하여 오픈 도메인 정보의 시간적 관계정보를 추출하는 개방형 시간적 관계정보 추출단계; 및 추출된 상기 시간 개체들과 상기 오픈 도메인 정보의 시간적 관계정보들을 함께 결합하여 새로운 시간적 관계정보의 ‘후보를 생성’하는 시간적 관계정보 후보 생성단계를 포함하며,
    하나의 관계정보 R이 오픈 도메인 정보에서의 관계 트리플 R={S, V, O}의 형식으로 표현되고, (i) 관계의 주체(subject)인 S 또는 관계의 대상(object)인 O가 시간(time) 개체이거나 사건(event) 개체를 포함하는 경우, 또는 (i) 관계의 종류를 나타내는 술어(predicate)인 V가 사건(event) 개체인 경우에, 상기 입력 텍스트에 관한 상기 새로운 시간적 관계정보의 후보가 생성되며,
    상기 시간적 관계정보 검증단계는, 생성된 모든 시간적 관계정보의 후보들을 모두 방향 그래프(directed graph) 형태로 변환하는 단계; 상기 시간(time) 개체 또는 상기 사건(event) 개체를 상기 방향 그래프의 노드로 설정하는 단계, 여기서 상기 노드 간의 링크는 시간 관계를 구성하는 2개 개체에 대응하는 노드들을 상호 연결하며; 그리고 완성된 방향 그래프에 대해 상기 노드들을 순차적으로 탐색하면서 ‘시간적 관점에서’ 잘못된 연결을 확인하고 교정하는 단계를 포함하는 것을 특징으로 하는 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법.
  2. 제 1항에 있어서, 상기 불필요한 요소는 상기 자연어로 된 입력 텍스트에서 불필요한 기호, 특수문자, 연속된 공백 문자와 같은 노이즈(noise) 중 적어도 하나를 포함하는 것을 특징으로 하는 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법.
  3. 제 2항에 있어서, 상기 전처리 단계는 상기 자연어로 된 입력 텍스트를 분절화 및 불용화 처리를 수행하는 단계를 더 포함하는 것을 특징으로 하는 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법.
  4. 제 1항에 있어서, 상기 언어적 특성은 상기 자연어로 된 입력 텍스트에 대한 형태소 분석, 의존 구문 분석, 의미적 중의성 및 개체명 인식 중 적어도 하나를 포함하는 것을 특징으로 하는 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법.
  5. 삭제
  6. 삭제
  7. 제 1항에 있어서, 상기 시간적 관계정보는 시간-시간(time-time), 시간-사건(time-event), 사건-사건(event-event)의 조합 중 적어도 하나를 포함하는 것을 특징으로 하는 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법.
  8. 삭제
  9. 삭제
  10. 삭제
  11. 제1항 내지 제4항과 제7항 중 어느 한 항에 기재된 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법을 수행하기 위하여 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 실행가능 프로그램.
  12. 제1항 내지 제4항과 제7항 중 어느 한 항에 기재된 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법을 수행하기 위한 컴퓨터 실행가능 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
KR1020210154223A 2020-11-23 2021-11-10 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법 KR102661819B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200158017 2020-11-23
KR20200158017 2020-11-23

Publications (2)

Publication Number Publication Date
KR20220071113A KR20220071113A (ko) 2022-05-31
KR102661819B1 true KR102661819B1 (ko) 2024-04-30

Family

ID=81709379

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210154223A KR102661819B1 (ko) 2020-11-23 2021-11-10 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법

Country Status (3)

Country Link
US (1) US20240005098A1 (ko)
KR (1) KR102661819B1 (ko)
WO (1) WO2022108282A1 (ko)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101831058B1 (ko) 2016-01-11 2018-02-21 한국과학기술원 구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템
CN111061832A (zh) * 2019-12-05 2020-04-24 电子科技大学广东电子信息工程研究院 基于开放域信息抽取的人物行为抽取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
C. Niklaus et al., A Survey on Open Information Extraction, arXiv:1806.05599v1(2018)*
M. Anandarajan et al., Text Preprocessing, Practical Text Analytics, Advances in Analytics and Data Science Vol.2(2019)*
임채균 외, 한국어 시간정보추출 연구를 위한 언어자원 및 시스템 구축, 제30회 한글 및 한국어 정보처리 학술대회 논문집, 636-638page(2018)*
정영섭 외, 규칙 기반 한국어 시간 정보 추출, 제26회 한글 및 한국어 정보처리 학술대회 논문집, 242-246page(2014)*

Also Published As

Publication number Publication date
KR20220071113A (ko) 2022-05-31
US20240005098A1 (en) 2024-01-04
WO2022108282A1 (ko) 2022-05-27

Similar Documents

Publication Publication Date Title
Al Omran et al. Choosing an NLP library for analyzing software documentation: a systematic literature review and a series of experiments
RU2610241C2 (ru) Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов
CN112699665B (zh) 一种安全报告文本的三元组抽取方法、装置及电子设备
Shahrour et al. Improving Arabic diacritization through syntactic analysis
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
JP2003196274A (ja) 構文解析方法及び装置
CN111353306A (zh) 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
Abdelnabi et al. Generating uml class diagram from natural language requirements: A survey of approaches and techniques
Feng et al. Probing and fine-tuning reading comprehension models for few-shot event extraction
CN114217766A (zh) 基于预训练语言微调与依存特征的半自动需求抽取方法
CN112733547A (zh) 一种利用语义依存分析的中文问句语义理解方法
Lin et al. Towards collaborative neural-symbolic graph semantic parsing via uncertainty
Wax Automated grammar engineering for verbal morphology
Pârtachi et al. Posit: Simultaneously tagging natural and programming languages
JP2016164707A (ja) 自動翻訳装置及び翻訳用モデル学習装置
US8818792B2 (en) Apparatus and method for constructing verbal phrase translation pattern using bilingual parallel corpus
KR101983477B1 (ko) 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법 및 시스템
Ji Mining name translations from comparable corpora by creating bilingual information networks
KR102661819B1 (ko) 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법
US20200097532A1 (en) Intelligent Normalization and De-Normalization of Tables for Multiple Processing Scenarios
Qian et al. BePT: a behavior-based process translator for interpreting and understanding process models
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
KR20200101735A (ko) 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체
Zhang et al. Chart mining-based lexical acquisition with precision grammars
WO2022123716A1 (ja) 述語項構造修正プログラム、述語項構造修正方法、および情報処理装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant