KR20150111587A - 디비피디아를 활용한 uri 스포팅 시스템 및 방법 - Google Patents

디비피디아를 활용한 uri 스포팅 시스템 및 방법 Download PDF

Info

Publication number
KR20150111587A
KR20150111587A KR1020140035047A KR20140035047A KR20150111587A KR 20150111587 A KR20150111587 A KR 20150111587A KR 1020140035047 A KR1020140035047 A KR 1020140035047A KR 20140035047 A KR20140035047 A KR 20140035047A KR 20150111587 A KR20150111587 A KR 20150111587A
Authority
KR
South Korea
Prior art keywords
spotting
uri
sentence
pedia
extracted
Prior art date
Application number
KR1020140035047A
Other languages
English (en)
Inventor
최기선
임경태
함영균
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020140035047A priority Critical patent/KR20150111587A/ko
Publication of KR20150111587A publication Critical patent/KR20150111587A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 자연어 문장을 분석하여 문장에서 사용된 디비피디아를 리소스를 찾아 자동으로 추출하는 시스템이다.
시스템에서 명하는 URI spotting은 자연어 문장으로부터 연관된 링크드 데이터의 리소스를 찾는 것을 말한다. 본 시스템의 목표는 한국어 문장을 대상으로 URI spotting을 하는 도구를 개발하는 것이다. 대상이 되는 문장은 한국어 텍스트, 한국어질의어의 두 종류이다. URI spotting은 크게 2가지 세부 과정으로 나눌 수 있다. 첫 단계는 spotting 단계로 문장으로부터 추출할 단어의 추출 규칙을 정하여 결과적으로 여러 개의 후보들을 생성하는 단계이다. 이 과정은 대부분 형태소 분석기, 개체명 인식기 등의 자연어 처리 도구로부터 추출할 단어를 선정한다. URI spotting을 위한 두 번째 단계로 리소스 매핑 단계가 있다. Spotting 단계로부터 추출된 후보들로부터 최적의 디비피디아 URI와 매핑하는 단계로 유사도 측정 알고리즘, 단어의 의미의 모호성 문제 해결이 필요하다.
최종적으로 앞 두 단계로부터 추출된 URI는 디비피디아 SPARQL을 이용한 트리플 데이터 검증을 통해 추출된 최적의 후보 데이터와 디비피디아 데이터가 유효한가 검사하는 과정을 거쳐 최종 URI들을 선택하고 해당 문장과 관련된 SPARQL질의를 추천한다.

Description

디비피디아를 활용한 URI 스포팅 시스템 및 방법{SYSTEM AND METHOD FOR URI SPOTTING}
본 발명은 URI 스포팅 시스템 및 방법에 관한 것이다.
디비피디아는 위키피디아로부터 구조화된 정보를 추출한 링크드 데이터로서 W3C에서 채택된 RDF 형태의 데이터를 사용한다. 구조화 정보는 SPARQL질의 처리기를 통해 기존 관계형 데이터 베이스와 비교하여 자연어 질의에 가까운 질의 처리를 가능하게 만든다. 예를 들어 "버락 오바마의 배우자는 누구인가?"와 같은 질의는 RDF 트리플 형태로 <버락오바마> <배우자> <?>와 같은 형태로 SPARQL 표현이 가능하다.
본 발명이 해결하고자 하는 과제는 자연어 문장으로부터 관련된 디비피디아 URI를 규명하고 추출하는 시스템 및 방법을 제공하는 것이다.
본 발명의 URI spotting은 크게 2가지 세부 과정으로 나눌 수 있다. 첫 단계는 spotting 단계이다. 주로 자연언어로부터 문제 해결의 핵심이 되는 단어를 인지하는 과정을 말하며 본 시스템과 유사한 시스템인 디비피디아 spotlight에서는 명사를 spotting 후보로 정하였으며 LingPipe의 개체명 인식 정보를 참고하였다. 따라서 자연언어처리 도구 중 품사 태그정보와 개체명 인식 결과를 이용하여 spotting 대상을 설정 가능하다. 본 발명에서는 한국어 언어분석을 위해 형태소분석기 한나눔을 사용하고, 개체명 인식의 경우 Etri의 개체명 인식기를 사용할 수 있다.
URI spotting을 위한 두 번째 단계로 리소스 매핑 단계가 있다. 리소스 매핑 단계는 spotting된 결과로부터, 연관된 최적의 디비피디아 리소스를 규명하는 것을 목적으로 한다. 이 단계에서 의미의 모호성 문제가 발생할 수 있으며 최적의 정답 후보를 선택하기 위한 자체적으로 개발한 알고리즘을 이용한다.
본 발명의 한 실시예에 따른 URI spotting 기술은 영어의 경우 DBpedia Spotlight, Zemanta, Wikimachine와 같은 도구들에서 사용되고 있으며, 이 도구들은 social blog, 뉴스 기사 자동 주석 처리, 질의응답 시스템 등 다양한 텍스트 처리 분야에서 응용되고 있다. 따라서 본 발명의 한 실시예에 따른 한국어 URI spotting 시스템은 정보검색, 정보 추출 분야와 자연언어처리 도구들에 기술을 적용할 수 있다.
도 1은 본 발명의 한 실시예에 따른 흐름도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
본 발명은 자연어 문장을 분석하여 문장에서 사용된 디비피디아를 리소스를 찾아 자동으로 추출하는 시스템이다.
시스템에서 명하는 URI spotting은 자연어 문장으로부터 연관된 링크드 데이터의 리소스를 찾는 것을 말한다. 본 시스템의 목표는 한국어 문장을 대상으로 URI spotting을 하는 도구를 개발하는 것이다. 대상이 되는 문장은 한국어 텍스트, 한국어질의어의 두 종류일 수 있다.
URI spotting은 크게 2가지 세부 과정으로 나눌 수 있다.
첫 단계는 spotting 단계로 문장으로부터 추출할 단어의 추출 규칙을 정하여 결과적으로 여러 개의 후보들을 생성하는 단계이다. 이 과정은 대부분 형태소 분석기, 개체명 인식기 등의 자연어 처리 도구로부터 추출할 단어를 선정한다.
URI spotting을 위한 두 번째 단계로 리소스 매핑 단계가 있다. Spotting 단계로부터 추출된 후보들로부터 최적의 디비피디아 URI와 매핑하는 단계로 유사도 측정 알고리즘, 단어의 의미의 모호성 문제 해결이 필요하다.
최종적으로 앞 두 단계로부터 추출된 URI는 디비피디아 SPARQL을 이용한 트리플 데이터 검증을 통해 추출된 최적의 후보 데이터와 디비피디아 데이터가 유효한가 검사하는 과정을 거쳐 최종 URI들을 선택하고 해당 문장과 관련된 SPARQL질의를 추천한다.
본 시스템에서 사용하는 디비피디아는 위키피디아로부터 구조화된 정보를 추출한 링크드 데이터로서 W3C에서 채택된 RDF 형태의 데이터를 사용한다. 구조화 정보는 SPARQL질의 처리기를 통해 기존 관계 형 데이터 베이스와 비교하여 자연어 질의에 가까운 질의 처리를 가능하게 만든다. 예를 들어 "버락 오바마의 배우자는 누구인가?"와 같은 질의는 RDF 트리플 형태로 <버락오바마> <배우자> <?>와 같은 형태로 SPARQL 표현이 가능하다.
따라서 질의 응답 시스템, 개체명 인식기 등 다양한 곳에 사용 가능하며, 개체의 고유 식별자인 URI를 이용하여 각 객체마다 유일한 URI주소를 가진다. 디비피디아를 활용한 URI spotting 시스템은 일반 문장으로부터 매칭되는 최적의 디비피디아 URI를 찾는걸 목적으로 하기 때문에 결과적으로 위 문장으로부터 다음과 같은 두 가지 디비피디아 URI리소스를 추출한다. <http://ko.dbpedia.org/resource/버락_오바마> <http://ko.dbpedia.org/property/배우자>
도 1은 본 발명의 한 실시예에 따른 흐름도이다.
도 1을 참고하면, 시스템은 데이터를 입력받는다. 입력 데이터는 한국어 텍스트 문서나 문장 하나일 수 있다.
시스템은 Spotting 단계에서 문장으로부터 추출할 후보를 선정한다(s1). Spotting 단계(s1)는 세부 작업으로 형태소 분석 단계(s2), 개체명 인식 단계(s3), 최대거리 문자열 선택 단계(s4)의 기술을 활용할 수 있다.
형태소 분석 단계(s2)는 한국어 텍스트 처리(품사 분석)를 위한 텍스트 분석기를 통해 형태소를 분석한다.
개체명 인식 단계(s3)는 문장으로부터 사람, 장소, 단체 등을 찾는 텍스트 분석기를 통해 개체명을 인식한다.
최대거리 문자열 선택 단계(s4)는 형태소 분석 단계(s2)와 개체명 인식 단계(s3)에서 추출된 단어로부터 띄어쓰기 등을 포함한 형태의 처리를 위한 후보 확장 알고리즘을 기초로 최대거리 문자열을 선택한다.
시스템은 리소스 매핑 단계에서, Spotting 단계(S1)에서부터 생성된 후보들로부터 최적의 후보를 선택한다(s5). 리소스 매핑 단계(s5)는 의미의 모호성 문제 해결 알고리즘(6)과 Latent Semantic Analysis 알고리즘(7)을 포함할 수 있다.
의미의 모호성 문제 해결 알고리즘(6)은 의미의 모호성이 있는 단어를 분류하기 위한 알고리즘이다.
Latent Semantic Analysis 알고리즘(7)은 디비피디아 URI 리소스간의 유사도 검색을 통해 최적의 후보를 선택하는 알고리즘이다.
시스템은 유효성 검증 단계에서, 리소스 매핑 단계(s5)로부터 최종적으로 추출된 URI를 검증한다(s8). 유효성 검증 단계(s8)는 SPARQL 접근 모듈(9)과 SPARQL 질의 템플릿 모듈(10)을 포함할 수 있다.
SPARQL 접근 모듈(9)은 디비피디아 SPARQL에 손쉽게 접근하도록 개발된 모듈이다.
SPARQL 질의 템플릿 모듈(10)은 미리 정해둔 SPARQL 질의 템플릿을 통해 추출된 리소스간의 관계가 유효한지 검사하는 모듈이다.
시스템은 텍스트 분석을 통해 추출된 디비피디아 URI 정보(예를 들면, http://ko.dbpedia.org/resource/버락_오바마)를 출력한다.
이와 같이, 시스템은 Spotting 대상으로 한국어 디비피디아의 엔티티, 프로퍼티로를 대상으로 사용할 수 있다.
시스템은 한국어 텍스트 문서나 문장 하나를 입력받을 수 있다.
시스템은 텍스트 분석을 통해 추출된 디비피디아 URI 정보를 출력할 수 있다.
시스템은 Spotting 후보를 선정함에 있어, 한국어 형태소 분석기의 분석 결과를 이용하며 한국어 특징에 따라 명사, 동사, 형용사 등을 이용할 수 있다.
시스템은 Spotting 후보를 선정함에 있어 최대거리 문자열 선택 알고리즘(longest case-insensitive match)을 사용할 수 있다.
시스템은 spotting 후보들 선정 이 후 단어 의미의 모호성 문제(disambiguation)를 해결하고 최적의 후보 선택을 위해 Latent Semantic Analysis(LSA)알고리즘을 사용할 수 있다.
시스템은 단어 의미의 모호성 문제(disambiguation) 해결에 사용될 자질은 디비피디아 프로퍼티 리스트, 분류정보, Abstract 정보 등을 활용할 수 있다.
시스템은 최종적으로 선택된 후보들을 디비피디아 SPARQL질의를 이용하여 해당 데이터가 디비피디아에서 유효한지 검증할 수 있다.
이와 같이, 본 발명의 한 실시예에 따른 URI spotting 기술은 영어의 경우 DBpedia Spotlight, Zemanta, Wikimachine와 같은 도구들에서 사용되고 있으며, 이 도구들은 social blog, 뉴스 기사 자동 주석 처리, 질의응답 시스템 등 다양한 텍스트 처리 분야에서 응용되고 있다. 따라서 본 발명의 한 실시예에 따른 한국어 URI spotting 시스템은 정보검색, 정보 추출 분야와 자연언어처리 도구들에 기술을 적용할 수 있다.
이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (8)

  1. 자연어 문장으로부터 관련된 디비피디아 URI를 추출하는 시스템.
  2. 제1항에서,
    한국어 텍스트 문서나 문장 하나를 입력받는 시스템.
  3. 제1항에서,
    텍스트 분석을 통해 추출된 디비피디아 URI 정보를 출력하는 시스템.
  4. 제1항에서,
    한국어 형태소 분석기의 분석 결과를 이용하며 Spotting 후보를 선정하는 시스템.
  5. 제1항에서,
    최대거리 문자열 선택 알고리즘(longest case-insensitive match)을 사용하여 Spotting 후보를 선정하는 시스템.
  6. 제1항에서,
    Latent Semantic Analysis(LSA)알고리즘을 사용하여 단어 의미의 모호성 문제(disambiguation)를 해결하는 시스템.
  7. 제6항에서,
    디비피디아 프로퍼티 리스트, 분류정보, Abstract 정보를 이용하여 단어 의미의 모호성 문제(disambiguation)를 해결하는 시스템.
  8. 제1항에서,
    디비피디아 SPARQL질의를 이용하여 해당 데이터가 디비피디아에서 유효한지 검증하는 시스템.
KR1020140035047A 2014-03-26 2014-03-26 디비피디아를 활용한 uri 스포팅 시스템 및 방법 KR20150111587A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140035047A KR20150111587A (ko) 2014-03-26 2014-03-26 디비피디아를 활용한 uri 스포팅 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140035047A KR20150111587A (ko) 2014-03-26 2014-03-26 디비피디아를 활용한 uri 스포팅 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20150111587A true KR20150111587A (ko) 2015-10-06

Family

ID=54344966

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140035047A KR20150111587A (ko) 2014-03-26 2014-03-26 디비피디아를 활용한 uri 스포팅 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR20150111587A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160089847A (ko) * 2015-01-20 2016-07-28 한국과학기술원 Uri 정의문 및 부가정보 기반 텍스트에서 개체의 uri를 식별하는 장치, 토픽 분포 추정 방법 및 uri 선택 방법
KR20220047071A (ko) * 2020-10-08 2022-04-15 한국전자통신연구원 문장 의미 유사도 판단 방법 및 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160089847A (ko) * 2015-01-20 2016-07-28 한국과학기술원 Uri 정의문 및 부가정보 기반 텍스트에서 개체의 uri를 식별하는 장치, 토픽 분포 추정 방법 및 uri 선택 방법
KR20220047071A (ko) * 2020-10-08 2022-04-15 한국전자통신연구원 문장 의미 유사도 판단 방법 및 장치

Similar Documents

Publication Publication Date Title
KR102033395B1 (ko) 심층 자연어 질문 분석 기반 구조화된 지식베이스 질의응답 시스템 및 그 방법
US9424524B2 (en) Extracting facts from unstructured text
JP5936698B2 (ja) 単語意味関係抽出装置
US20170199914A1 (en) Search suggestions of related entities based on co-occurrence and/or fuzzy-score matching
KR101723862B1 (ko) 텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치
US10642928B2 (en) Annotation collision detection in a question and answer system
EP2915068A2 (en) Natural language processing system and method
CN111339751A (zh) 一种文本关键词处理方法、装置及设备
CN111417940A (zh) 支持复杂答案的证据搜索
GB2555207A (en) System and method for identifying passages in electronic documents
KR101709055B1 (ko) 오픈 웹 질의응답을 위한 질문분석 장치 및 방법
CN107590124B (zh) 按场景对同义词替换并根据按场景归类的标准词组比对的方法
US8204736B2 (en) Access to multilingual textual resources
CN110096599B (zh) 知识图谱的生成方法及装置
Dubuisson Duplessis et al. Utterance retrieval based on recurrent surface text patterns
US20160078099A1 (en) Search suggestions using fuzzy-score matching and entity co-occurrence
CN103049434B (zh) 一种变形词证认系统及证认方法
KR20150111587A (ko) 디비피디아를 활용한 uri 스포팅 시스템 및 방법
Garrido et al. Improving the generation of infoboxes from data silos through machine learning and the use of semantic repositories
US20160078072A1 (en) Term variant discernment system and method therefor
Bhanu Prasad et al. Author verification using rich set of linguistic features
CN114896269A (zh) 结构化查询语句检测方法、装置、电子设备及存储介质
KR102600703B1 (ko) 법령 분야 질의 응답 방법 및 장치
JP2019200582A (ja) 検索装置、検索方法及び検索プログラム
KR20190058029A (ko) 질문 자동 완성 기능을 이용한 질의 응답 시스템 및 그 방법

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination