KR20100069958A - 온톨로지 구축에서 용어를 공유하는 패턴 쌍을 이용한 의미관계 추출 방법 - Google Patents

온톨로지 구축에서 용어를 공유하는 패턴 쌍을 이용한 의미관계 추출 방법 Download PDF

Info

Publication number
KR20100069958A
KR20100069958A KR1020080128519A KR20080128519A KR20100069958A KR 20100069958 A KR20100069958 A KR 20100069958A KR 1020080128519 A KR1020080128519 A KR 1020080128519A KR 20080128519 A KR20080128519 A KR 20080128519A KR 20100069958 A KR20100069958 A KR 20100069958A
Authority
KR
South Korea
Prior art keywords
terms
pair
pairs
pattern
term
Prior art date
Application number
KR1020080128519A
Other languages
English (en)
Inventor
최기선
이종혁
김세종
정헌영
김한경
Original Assignee
한국과학기술원
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원, 포항공과대학교 산학협력단 filed Critical 한국과학기술원
Priority to KR1020080128519A priority Critical patent/KR20100069958A/ko
Publication of KR20100069958A publication Critical patent/KR20100069958A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은, 온톨로지 구축에서 패턴 기반 의미 관계 추출 방법을 사용할 때 한 문장 안에서 용어 쌍이 선택되는 한계를 극복하는 새로운 의미 관계 추출 방법에 관한 것이다. 실제 대용량 문서에서 자동으로 의미 관계를 추출하여 온톨로지를 구축할 때, 한 문장 안에 의미 관계를 대표할 수 있는 용어 쌍이 위치할 가능성은 작기 때문에 서로 다른 문장에 위치한 용어들 사이에서도 의미 관계를 추출할 수 있도록 하였고, 이는 기타 용어를 공유하고 있는 서로 떨어진 패턴 쌍을 추출하고 이것을 확장하여 의미 관계 추출에 적용함으로써 이루어진다.
의미 관계 추출, 패턴 쌍, 온톨로지, 시맨틱 웹, 부트스트랩핑

Description

온톨로지 구축에서 용어를 공유하는 패턴 쌍을 이용한 의미 관계 추출 방법 { Semantic relation extraction method using pattern pairs sharing a term for ontology construction }
본 발명은 온톨로지 구축을 위한 의미 관계 추출에서 기존의 패턴 기반 의미 관계 추출 방법이 가지고 있는 한 문장만을 대상으로 하는 한계성을 극복하기 위한 것으로, 서로 다른 문장에 위치한 용어들이 기타 용어를 공유하고 있을 경우에 의미 관계를 추출하는 방법을 제시하고 있다.
질의 응답 및 문맥 의미와 같은 풍부한 지식에 관한 최근의 증가하는 관심의 경향에 따라서 자연 언어 처리 개발자들은 자동으로 시맨틱 자원을 얻기 위한 알고리즘을 활발히 연구하고 있다. 무한정한 문서 데이터와 함께 이들 개발자들은 자동으로 시맨틱 용어집 및 온톨로지 자원을 증가시킬 수 있는 엄청난 기회를 가지고 있는 것이다. 현재 많은 노력이 의미(entailment), 이즈-어(is-a), 파트-오브(part-of) 및 여러 관계어와 같이 엔터티(entities) 사이의 시맨틱 관계를 추 출하는데 집중되고 있다 (참조: Patrick Pantel, Marco Pennacchiotti, Espresso:Leveraging Generic Patterns for Automatically Harvesting Semantic Relations. Proceedings of ACL, 2006, Vol.1, ISBN 1-932432-69-8, 113-120쪽).
상기한 바와 같은 종래의 패턴 기반 의미 관계 추출 방법에서는 같은 문장에 위치한 용어 쌍에 대해서만 의미 관계를 추출할 수 있었다. 그러나 대용량의 문서를 이용하여 자동으로 온톨로지를 구축할 때, 의미 관계를 대표할 수 있는 용어들의 쌍이 한 문장에 포함되어 있는 경우는 매우 적기 때문에 실제 재현율과 정확률에서 기대 이하의 성과를 보이고 있다. 따라서 본 발명에 따른 의미 관계 추출 방법에서는 서로 다른 문장에 위치한 용어들의 의미 관계를 추출할 수 있도록 하여,한 문장에서 추출된 용어 쌍만 사용하는 것에 비하여 의미 관계를 대표하기에 더 적절한 용어 쌍을 선택할 수 있도록 하였다.
종래의 패턴 기반 의미 추출 방법이 각각의 문장 안에서 용어 쌍과 그 사이에 위치한 패턴을 추출하고, 이 용어 쌍과 패턴에 대하여 신뢰도를 측정하여 의미 관계를 대표하는 용어 쌍을 결정하는 것에 비하여 본 발명에서는 서로 다른 문장에서 기타 용어를 공유하는 패턴 쌍을 추출하고 이 패턴 쌍에 해당하는 용어 쌍을 기존의 한 문장 안에서 추출된 패턴 및 용어 쌍과 함께 고려하여 의미 관계를 대표하기에 가장 알맞은 용어 쌍을 선택하도록 하였다.
이때, 패턴 쌍에서 공유되는 기타 용어는 내용을 고려하지 않고 단지 용어의 위치만을 정보로 사용하며 이 공유되는 기타 용어의 위치에 따라서 각각의 문장에 서 나타난 패턴들이 같을 경우에도 패턴 쌍은 다르게 인식될 수 있다. 그러면 이 패턴 쌍을 기존의 방법에서와 같이 신뢰도 측정에 사용하면 패턴 쌍과 함께 나타날 확률이 큰 용어 쌍을 획득할 수 있으며, 이 용어 쌍을 기초로 하여 더 적합한 패턴 쌍을 찾는 상기의 과정을 반복하면 서로 다른 문장에 위치한 용어 쌍 중에서 의미 관계를 대표하기에 가장 알맞은 용어 쌍을 얻을 수 있다.
이렇게 얻어진 용어 쌍은 기존의 패턴 기반 의미 관계 추출 방법으로는 얻을 수 없는 것으로, 이를 한 문장에서 추출한 용어 쌍에 추가함으로써 본 발명의 목적을 달성할 수 있다.
본 발명에 따른 방법을 사용하여 대용량 문서에서 의미 관계 추출을 실제로 실행한 결과에 의하면, 의미 관계에 따라서 기존 방식과 대비하여 정확률 향상과 상대적 재현율의 향상을 볼 수 있었다.
이하, 첨부된 도면을 참조하여 본 발명의 구체적인 내용 및 실시 예를 설명하면 다음과 같다.
도 1은 본 발명에 따라 서로 다른 문장에 위치한 용어 쌍에서 의미 관계를 추출하는 전체 과정을 개략적으로 나타낸 블록도이다. 패턴 기반 의미 관계 추출 방법에서 사용하는 패턴과 의미 관계를 추출할 용어 쌍은 대용량 문서에서 문장을 정제하여 그 문장들에서 얻는다. 본 발명에서는 도 2에 나타낸 바와 같이 대상 문서에서 파서(parser)를 이용해서 문장을 정제하여 구문 분석을 수행하며, 이렇게 구문 분석된 문장들에서 사전을 사용하여 각 문장에 속한 용어 쌍과 그 사이에 위치한 패턴을 도 3에 나타낸 바와 같이 얻는다.
상기의 과정을 통하여 기존의 패턴 기반 의미 관계 추출 방법에서 사용하는 용어 쌍과 패턴을 대상 문서에서 추출한 다음, 이를 바탕으로 하여 용어를 공유하는 패턴 쌍을 구성한다. 이는 도 4에서 보여주고 있는 바와 같이 용어 쌍과 패턴 (x,p1,y), (y,p2,z)이 각 문장에서 추출되었을 때 p1 + y + p2를 하나의 패턴으로 간주하여 (x,p1yp2,z), 즉 (x,ppair,z)를 설정하는 것으로 기존의 패턴과 용어 쌍의 확장을 통하여 서로 다른 문장에 위치한 기타 용어를 공유하는 패턴 쌍, 그리고 이 패턴 쌍을 이용하여 의미 관계를 추출할 용어 쌍을 구축한다.
실제로 의미 관계를 추출하는 과정은 도 5에서 도시한 흐름도와 같이 용어 쌍과 패턴 쌍이 함께 나타날 신뢰도를 계산하여 이루어진다. 기존의 방법에서는 용어 쌍과 패턴 사이의 신뢰도 계산을 전체 문장에서 용어 쌍 사이에 패턴이 나타난 횟수를 용어 쌍이 나타난 횟수와 패턴이 나타난 횟수의 곱으로 나눈 값을 주요 요인으로 삼아 계산하였다. 본 발명에 따른 방법에 있어서, 신뢰도의 계산은 두 문장에서 기타 용어를 공유하는 패턴 쌍이 의미 관계를 추출할 용어 쌍 사이에 나타난 횟수를 해당 용어 쌍이 각 문장에 나타난 횟수와 기타 용어를 공유하는 패턴 쌍이 만들어진 횟수의 곱을 주요 요인으로 계산하였다. 이러한 신뢰도 계산 방법을 이용 하여 추출하고자 하는 각 의미 관계에 적합하다고 생각되는 용어 쌍을 시드(seed)값으로 사용하여 이 용어 쌍과 신뢰도가 높게 측정된 패턴 쌍을 구하고, 다시 이 패턴 쌍과 신뢰도가 높은 용어 쌍을 구하는 과정을 얻어지는 결과가 수렴할 때까지 반복하여 대상 문서에서 해당 의미 관계에 가장 적절한 용어 쌍을 추출한다.
도 1은 본 발명에 따라 서로 다른 문장에 위치한 용어 쌍에서 의미 관계를 추출하는 전체 과정을 개략적으로 나타낸 블록도,
도 2는 대용량 문서에서 구문 분석된 문장들을 추출하는 과정을 나타낸 블록도,
도 3은 구문 분석된 문장들로부터 기존의 패턴 기반 의미 추출 방법에 따라 패턴을 추출하는 과정을 나타낸 블록도,
도 4는 기존의 방법에서 사용하는 패턴과 용어 쌍으로부터, 본 발명에 따라 제안한 용어를 공유하는 패턴 쌍을 생성하는 과정을 나타낸 블록도, 및
도 5는 용어를 공유하는 패턴 쌍과 용어 쌍에서 의미 관계를 추출하는 과정을 나타낸 블록도이다.

Claims (4)

  1. 문장으로부터 온톨로지를 자동으로 구축하는 방법에 있어서 다음의 단계를 포함한 용어를 공유하는 패턴 쌍을 이용한 의미 관계 추출 방법:
    대용량의 문서로부터 문장을 정제하고 구문 분석을 수행하는 단계;
    사전을 사용하여 각 문장에 속하는 용어 쌍과 그 사이에 위치한 패턴을 추출하는 단계;
    추출된 용어 쌍과 패턴을 기 구축된 패턴 쌍 및 용어 쌍의 확장을 통하여 서로 다른 문장에 위치한 기타 용어 쌍과 이를 공유하는 패턴 쌍을 추출하는 단계; 및
    상기 기타 용어를 공유하는 패턴 쌍을 이용하여 서로 다른 문장에 위치한 용어 쌍의 의미 관계를 추출하는 단계.
  2. 제 1항에 있어서, 서로 다른 문장에 위치한 기타 용어를 공유하는 패턴 쌍은 대상 문서를 문장 단위로 분할하고 각각 구문 분석하였을 때 서로 다른 문장에 위치하는 용어 쌍과 그 사이의 패턴에서 한 개의 용어가 서로 일치할 때 일치하는 용어를 포함한 두 개의 패턴 쌍을 이루도록 하는 것을 특징으로 하는 서로 다른 문장에 위치한 용어 쌍의 의미 관계를 추출하는 방법.
  3. 제 1항에 있어서, 서로 다른 문장에 위치하는 용어 쌍은 기타 용어를 공유하는 패턴 쌍을 설정하였을 때 각 문장에서 공유되지 않은 두 개의 용어가 서로 다른 문장에 위치하는 용어 쌍을 이루도록 한 것을 특징으로 하는 서로 다른 문장에 위치한 용어 쌍의 의미 관계를 추출하는 방법.
  4. 제 1항에 있어서, 의미 관계에 부합하는 주어진 용어 쌍에서 시작하여 용어 쌍에 대한 패턴 쌍의 신뢰도를 계산하여 패턴 쌍을 확장하고, 다시 해당하는 패턴 쌍에 대한 신뢰도가 높은 용어 쌍을 구하는 과정을 반복함으로써, 이의 결과가 수렴하여 더 이상 변화가 없을 때까지 수행한 후 얻어진 용어 쌍을 의미 관계에 해당되는 것으로 하는 단계를 포함하는 서로 다른 문장에 위치한 용어 쌍의 의미 관계를 추출하는 방법.
KR1020080128519A 2008-12-17 2008-12-17 온톨로지 구축에서 용어를 공유하는 패턴 쌍을 이용한 의미관계 추출 방법 KR20100069958A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080128519A KR20100069958A (ko) 2008-12-17 2008-12-17 온톨로지 구축에서 용어를 공유하는 패턴 쌍을 이용한 의미관계 추출 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080128519A KR20100069958A (ko) 2008-12-17 2008-12-17 온톨로지 구축에서 용어를 공유하는 패턴 쌍을 이용한 의미관계 추출 방법

Publications (1)

Publication Number Publication Date
KR20100069958A true KR20100069958A (ko) 2010-06-25

Family

ID=42367865

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080128519A KR20100069958A (ko) 2008-12-17 2008-12-17 온톨로지 구축에서 용어를 공유하는 패턴 쌍을 이용한 의미관계 추출 방법

Country Status (1)

Country Link
KR (1) KR20100069958A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101104113B1 (ko) * 2009-11-11 2012-01-13 한국과학기술정보연구원 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 시스템
KR101467707B1 (ko) * 2013-12-23 2014-12-02 포항공과대학교 산학협력단 지식 베이스의 개체 매칭 방법 및 이를 위한 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101104113B1 (ko) * 2009-11-11 2012-01-13 한국과학기술정보연구원 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 시스템
KR101467707B1 (ko) * 2013-12-23 2014-12-02 포항공과대학교 산학협력단 지식 베이스의 개체 매칭 방법 및 이를 위한 장치

Similar Documents

Publication Publication Date Title
Eder Visualization in stylometry: cluster analysis using networks
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
Port et al. Persistent topology of syntax
KR101991086B1 (ko) 경험적 속성화를 통해 구조화되지 않은 데이터의 소스들을 분석, 한정 및 수집하기 위한 시스템 및 프로세스
CN111125295A (zh) 一种基于lstm的获取食品安全问题答案的方法及系统
CN110874535B (zh) 依存关系对齐组件、依存关系对齐训练方法、设备及介质
CN110532575A (zh) 文本翻译方法及装置
Zhao et al. Text sentiment analysis algorithm optimization and platform development in social network
CN115470328A (zh) 基于知识图谱的开放领域问答方法及相关设备
CN112395871A (zh) 一种搭配构式的自动获取方法和系统、可视化方法
Yan Mapreduce and semantics enabled event detection using social media
Palash et al. Bangla image caption generation through cnn-transformer based encoder-decoder network
CN114416926A (zh) 关键词匹配方法、装置、计算设备及计算机可读存储介质
CN111368552B (zh) 一种面向特定领域的网络用户群组划分方法及装置
KR20100069958A (ko) 온톨로지 구축에서 용어를 공유하는 패턴 쌍을 이용한 의미관계 추출 방법
Mahmoodvand et al. Semi-supervised approach for Persian word sense disambiguation
US20230177359A1 (en) Method and apparatus for training document information extraction model, and method and apparatus for extracting document information
Wibawa et al. Classification Analysis of MotoGP Comments on Media Social Twitter Using Algorithm Support Vector Machine and Naive Bayes
El Abdouli et al. Mining tweets of Moroccan users using the framework Hadoop, NLP, K-means and basemap
Jenny Li et al. Natural language translator correctness prediction
Xu et al. Estimating similarity of rich internet pages using visual information
CN111538898B (zh) 基于组合特征提取的Web服务包推荐方法及系统
Vu et al. Building a vietnamese sentiwordnet using vietnamese electronic dictionary and string kernel
KR102330190B1 (ko) 복합 문서의 의미적 분해를 통한 다중 벡터 문서 임베딩 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application