KR100963885B1 - Rdf 네트워크 기반 연관검색 서비스 시스템 및 방법 - Google Patents

Rdf 네트워크 기반 연관검색 서비스 시스템 및 방법 Download PDF

Info

Publication number
KR100963885B1
KR100963885B1 KR1020100028426A KR20100028426A KR100963885B1 KR 100963885 B1 KR100963885 B1 KR 100963885B1 KR 1020100028426 A KR1020100028426 A KR 1020100028426A KR 20100028426 A KR20100028426 A KR 20100028426A KR 100963885 B1 KR100963885 B1 KR 100963885B1
Authority
KR
South Korea
Prior art keywords
rdf
network
subject
search service
model
Prior art date
Application number
KR1020100028426A
Other languages
English (en)
Inventor
정한민
김평
이승우
이미경
서동민
성원경
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020100028426A priority Critical patent/KR100963885B1/ko
Priority to PCT/KR2010/002419 priority patent/WO2011122730A1/ko
Application granted granted Critical
Publication of KR100963885B1 publication Critical patent/KR100963885B1/ko
Priority to EP10186119A priority patent/EP2372571A3/en
Priority to US12/898,242 priority patent/US20110246461A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 구조적 형식을 갖추고 있지 않은 비구조적 문장들로 이루어진 텍스트 문서로부터 RDF 모델을 이루는 단위인 Subject, Predicate, Object를 추출하여, 각 개체들 간에 의미적으로 동일 개체인지 여부에 따라 개체를 식별하여 RDF 네트워크를 이루고, RDF 네트워크에 근거해 동일한 관계명(Predicate)을 가지는 주체(Subject) 또는 객체(Object)들을 검색하여 관련 정보로 제공할 수 있도록 된, RDF 네트워크 기반 연관검색 서비스 시스템 및 방법에 관한 것이다.
본 발명에 따른 RDF 네트워크 기반 연관검색 서비스 방법은, (a) 구조적 형식을 갖추지 않은 비구조적 문장들로 이루어진 텍스트 문서로부터 주체(Subject), 관계명(Predicate), 객체(Object)를 추출하는 단계; (b) 추출된 하나의 상기 주체와 하나의 상기 관계명 및 하나의 상기 객체로 이루어지는 RDF 모델을 생성하는 단계; (c) 상기 RDF 모델들을 비교하여 의미적으로 충돌하는지를 판단하는 단계; (d) 상기 RDF 모델 간에 충돌하는 경우 분리하고, 충돌하지 않는 경우에 병합하여 RDF 네트워크를 조성하는 단계; 및 (e) 상기 조성된 RDF 네트워크에 근거해 상기 관계명이 동일한 상기 주체들 또는 상기 객체들을 검색하는 서비스를 제공하는 단계를 포함한다.

Description

RDF 네트워크 기반 연관검색 서비스 시스템 및 방법{Related search system and method based on Resource Description Framework network}
본 발명은 RDF(Resource Description Framework) 네트워크에 기반하여 연관검색 서비스를 제공하는 시스템 및 방법에 관한 것으로서, 더욱 자세하게는 구조적 형식을 갖추고 있지 않은 비구조적 문장들로 이루어진 텍스트 문서로부터 RDF 모델을 이루는 단위인 Subject, Predicate, Object를 추출하여, 각 개체들 간에 의미적으로 동일 개체인지 여부에 따라 개체를 식별하여 RDF 네트워크를 이루고, RDF 네트워크에 근거해 동일한 관계명(Predicate)을 가지는 주체(Subject) 또는 객체(Object)들을 검색하여 관련 정보로 제공할 수 있도록 된, RDF 네트워크 기반 연관검색 서비스 시스템 및 방법에 관한 것이다.
일반적으로, 시소러스(thesaurus)는 컴퓨터가 웹(Web) 문서의 의미를 인식할 수 있도록 각종 용어와 동의어, 반의어, 포함 관계 등 용어들을 집대성한 데이터 베이스(database)를 나타낸다.
정보 기술에서의 온톨로지(Ontology)는 전자 상거래와 같이 지식의 어떤 특정 영역 내에 있는 실체 및 상호 작용의 작업 모델을 의미한다. 즉, 온톨로지는 특정한 도메인(domain) 내의 지식을 개념화하고 이를 명세화한 것으로 그 도메인 내에 사용되는 개념들의 관계성을 가진 네트워크 또는 그래프라고 할 수 있다.
현재 온톨로지의 연구는 자연어 처리와 관련해서 연구 개발되고 있는데 기존의 다양한 언어 자원으로부터 자연어 처리용 온톨로지를 반자동으로 구축하는 방식을 중심으로 연구되어 한일/일한 기계 번역 시스템에서 어휘 의미 중의성 해소의 효과가 입증된 바 있는 가도카와 시소러스의 개념 분류 체계를 온톨로지의 기반으로 삼아, 여기에서 세종 전자사전과 기계번역 사전, 그리고 대규모 말 뭉치로부터 반자동으로 추출한 다양한 의미 관계들을 추가하여 실용적인 온톨로지를 구축하고 있다.
또한 이에 대규모 온톨로지 구축을 위한 지식 습득의 기본 자료를 국어사전과 백과사전으로 정하고, 국어사전과 백과사전이 가지고 있는 다양한 지식 정보를 온톨로지로 구축하는 방법을 통해서 울산대 NLP 연구소에서는 98년에 10만 여 명사를 대상으로 한국어 명사 의미계층 구조를 자동으로 구축한 바 있으며, 2002년부터 시작하여 한국어 의미망(KSN)이 구축 중에 있으며, 현재 국어사전과 백과사전을 이용한 온톨로지를 구축 중에 있다.
예를 들면, 도면 관리 시스템에서는 도면명과, 제품명과, 설계자와, 설계 날짜 및 관련 부서 등의 온톨로지를 사용해 검색에 이용하고 있으며, 제품 데이터 관리(PDM: Product Data Management) 시스템과 같은 어플리케이션(application)에서도 부품 번호와, 버전 번호와, 설계자 이름과, 승인 날짜와, 어셈블리(assembly) 구조 및 구성 데이터 등의 데이터를 가지고 인덱스(index)를 구성하여 사용하고 있다.
그러나, 온톨로지에 대한 표현 형식이 시스템마다 상이하여 시스템 확장이나 기존의 어플리케이션에 이미 구성되어 있는 온톨로지에 대한 접근이 용이하지 않다는 문제점이 있다. 또한 레파지토리에 저장된 제품 데이터들 간의 관계를 기술한 온톨로지가 활용되지 않고 있다는 문제점이 있다. 이런 온톨로지는 제품의 구성은 물론 설계 의도를 포함하고 있어 지능적인 제품 데이터의 활용에 필수적이다.
한편, 자원 디스크립션 프레임워크(Resource Description Framework, 이하 'RDF'라 칭함)는 온톨로지 간의 상호 운용성 제공을 목적으로 W3C(World Wide Web Consortium)에서 제정된 표준으로서, 온톨로지의 정의와 저장 및 교환을 위한 표준적인 메커니즘을 제공한다. 특히, 온톨로지의 저장과 교환을 위한 포맷으로 확장성 생성 언어(Extensible Markup Language, 이하 'XML'이라 칭함) 구문(syntax)를 이용함으로써 웹(Web)을 통해 쉽게 접근할 수 있고, 서로 다른 시스템간의 정보 교환에 표준적인 데이터 포맷을 제공할 수 있다.
특히, IT(Information Technology) 산업의 발달로 컴퓨터와 인터넷을 통해 정보와 서비스가 제공되고 있으나 그 방대한 양은 사용자가 필요로 하는 정보와 서비스를 선택해 사용하는데 소요되는 시간과 노력을 증가시키고 있다. 따라서, 컴퓨터가 웹 문서의 용어들을 이해할 수 있게 함으로써 사용자가 필요로 하는 정보와 서비스를 선택하는 작업까지 컴퓨터가 직접 수행하도록 하는 지능형 웹, 즉 시맨틱 웹(Semantic Web) 방식에 대한 연구가 활발하게 진행되고 있다. 시맨틱 웹 방식을 위해서 온톨로지를 구축해야만 하는 것이며, 온톨로지는 컴퓨터를 지능화시킬 수 있어 시맨틱 웹 방식 뿐만 아니라 지능형 서비스를 위한 다양한 분야에서 사용될 수 있다.
정보 검색을 위한 용어 사전을 이용하는 시소러스는 주로 각 용어에 동의어, 반의어, 유의어, 상위어, 하위어, 관련어 따위를 나타내는 특별 항목을 설정하여 사용함에 따라 식별 체계가 필요없으나, 온톨로지는 용어가 아닌 개념들과 그들간의 관계들로 구성된 일종의 네트워크로서 생각할 수 있고, 그 속에는 특정 도메인에 관련된 개념들이 계층적으로 한정되지 않고 다양한 구조나 형식으로 표현되어 있어 식별 체계가 반드시 필요하며, 추가적으로 온톨로지를 확장할 수 있도록 추론 규칙을 지원하고 있어, 웹 기반의 지식 처리나 응용 프로그램 사이의 지식 공유, 재사용 등이 가능토록 되어 있다. 즉, 어휘 의미망, 시소러스 등과 온톨로지의 큰 차이 중 하나로써 식별 체계를 들 수 있다.
한편, RDF는 시맨틱 웹 방식과 관련되어 활발하게 연구되고 있는 방식이며, 기존의 확장성 생성 언어(XML)로 표현된 웹 콘텐츠(Web contents)와 웹 콘텐츠에 부여된 RDF 메타 정보를 관리하기 위한 XML/RDF 콘텐츠 관리 시스템에 대한 연구 역시 활발하게 진행되고 있다.
또한, 정보 통합을 목적으로 RDF를 사용하여 웹 온톨로지의 표준화 연구가 활발하게 진행되고 있으며, 전자 상거래에서 각종 서비스 및 보안 응용 프로그램상의 문제점들을 해결하기 위해 CommerceNet(인터넷을 이용한 전자 상거래(electronic commerce)의 보급 촉진을 목적으로 하는 컨소시엄)에서 제안한 전자 상거래 프레임워크인 eCo에서 서로 다른 프로토콜들 및 서로 다른 시스템들 간의 상호 호환성을 확보하기 위해 비즈니스 웹(business Web)을 위한 데이터 처리 모델 및 프레임워크 구축과 온톨로지 브로커 시스템에 대한 연구와, 그리고 협업 비즈니스를 위한 비즈니스 프로세스 처리 모델에 대한 연구와, 전자 카탈로그와 상품 분류 체계 및 코드를 중심으로 하는 연구가 활발하게 진행되고 있다.
전술한 사정을 감안한 본 발명의 목적은, 구조적 형식을 갖추고 있지 않은 비구조적 문장들로 이루어진 텍스트 문서로부터 RDF 모델을 이루는 단위인 Subject, Predicate, Object를 추출하여, 각 개체들 간에 의미적으로 동일 개체인지 여부에 따라 개체를 식별하여 RDF 네트워크를 이루고, RDF 네트워크에 근거해 동일한 관계명(Predicate)을 가지는 주체(Subject) 또는 객체(Object)들을 검색하여 관련 정보로 제공할 수 있도록 된, RDF 네트워크 기반 연관검색 서비스 시스템 및 방법을 제공함에 있다.
전술한 목적을 달성하기 위한 본 발명에 따른 RDF 네트워크 기반 연관검색 서비스 시스템은, 구조적 형식을 갖추지 않은 비구조적 문장들로 이루어진 텍스트 문서로부터 주체(Subject), 관계명(Predicate), 객체(Object) 등의 요소를 추출하는 요소 추출부; 상기 추출된 주체와, 관계명, 객체를 저장하는 요소 저장부; 상기 추출된 주체와, 관계명, 객체에 대해 각각 고유 식별자를 부여하는 식별자 부여부; 상기 추출된 하나의 주체, 하나의 관계명, 하나의 객체를 이용하여 식별 체계 기반 RDF 모델을 생성하고, 생성된 RDF 모델을 기반으로 RDF 네트워크를 조성하는 RDF 조성부; 상기 RDF 네트워크에 근거한 검색 서비스를 제공하는 검색 서비스부; 및 상기 생성된 RDF 모델들 간에 의미적으로 충돌하는지를 판단하여 충돌하는 경우 분리하고, 충돌하지 않는 경우에 병합하여 RDF 네트워크가 조성되도록 제어하고, 상기 조성된 RDF 네트워크에 근거해 상기 관계명이 동일한 상기 주체들 또는 상기 객체들을 검색하는 서비스가 제공되도록 제어하는 제어부를 포함한다.
여기서, 상기 요소 추출부는 상기 비구조적 문장의 문맥에 따른 추출 패턴을 상기 텍스트 문서의 문장 또는 구에 매칭시켜 상기 주체(Subject), 상기 관계명(Predicate), 상기 객체(Object)를 추출하게 된다.
또한, 상기 RDF 조성부는 상기 RDF 모델을 조성하는 상기 주체(Subject) 또는 상기 객체(Object)에 대해 고유 식별자를 부여하여 식별 체계 기반 RDF 모델을 생성하게 된다.
또한, 상기 제어부는 상기 RDF 네트워크를 조성할 때, 두 개체가 동일 개체로 판명될 경우에 병합하게 된다.
그리고, 상기 제어부는 상기 추출된 주체, 관계명, 객체에 대해 문자열 정규화(Normalization)를 수행하게 된다.
한편, 전술한 목적을 달성하기 위한 본 발명에 따른 RDF 네트워크 기반 연관검색 서비스 방법은, (a) 구조적 형식을 갖추지 않은 비구조적 문장들로 이루어진 텍스트 문서로부터 주체(Subject), 관계명(Predicate), 객체(Object)를 추출하는 단계; (b) 추출된 하나의 상기 주체와 하나의 상기 관계명 및 하나의 상기 객체로 이루어지는 RDF 모델을 생성하는 단계; (c) 상기 RDF 모델들을 비교하여 의미적으로 충돌하는지를 판단하는 단계; (d) 상기 RDF 모델 간에 충돌하는 경우 분리하고, 충돌하지 않는 경우에 병합하여 RDF 네트워크를 조성하는 단계; 및 (e) 상기 조성된 RDF 네트워크에 근거해 상기 관계명이 동일한 상기 주체들 또는 상기 객체들을 검색하는 서비스를 제공하는 단계를 포함한다.
또한, 상기 (a) 단계는 상기 비구조적 문장의 문맥에 따른 추출 패턴을 상기 텍스트 문서의 문장 또는 구에 매칭시켜 상기 주체(Subject), 상기 관계명(Predicate), 상기 객체(Object)를 추출하게 된다.
또한, 상기 (a) 단계는 상기 추출된 주체, 관계명, 객체에 대해 문자열 정규화(Normalization)를 수행하게 된다.
또한, 상기 (b) 단계는 상기 RDF 모델을 이루는 상기 주체, 상기 관계명 및 상기 객체에 대해 고유 식별자를 부여하여 식별 체계 기반 RDF 모델을 생성하게 된다.
그리고, 상기 (d) 단계는 두 개체가 동일 개체로 추후 판명될 경우에 병합하게 된다.
본 발명에 의하면, 구조적 형식을 갖추고 있지 않은 비구조적 문장들로 이루어진 텍스트 문서로부터 주체(S), 관계명(P) 및 객체(O)를 추출하여 RDF 모델 및 RDF 네트워크를 구성할 수 있고, 이 RDF 네트워크에 근거해 동일한 관계명을 가지는 주체나 객체를 검색하여 관련 정보를 제공하는 검색 서비스를 구현할 수 있다.
도 1은 본 발명의 실시예에 따른 RDF 네트워크 기반 연관검색 서비스 시스템의 구성을 개략적으로 나타낸 구성도이다.
도 2는 본 발명의 실시예에 따른 RDF 네트워크 기반 연관검색 서비스 방법을 설명하기 위한 흐름도이다.
도 3은 본 발명의 실시예에 따른 RDF 네트워크를 조성하여 검색 서비스를 제공하는 과정의 한 예를 나타낸 도면이다.
도 4는 본 발명의 실시예에 따라 동일한 관계명을 가지는 주체 또는 객체들을 관련 정보로 제공하는 예를 나타낸 도면이다.
본 발명의 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하 상세한 설명에 의해 보다 명확하게 이해될 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다.
도 1은 본 발명의 실시예에 따른 RDF 네트워크 기반 연관검색 서비스 시스템의 구성을 개략적으로 나타낸 구성도이다.
도 1을 참조하면, 본 발명에 따른 RDF 네트워크 기반 연관검색 서비스 시스템(100)은, 요소 추출부(110), 식별자 부여부(120), 저장부(130), RDF 조성부(140), 검색 서비스부(150), 제어부(160) 및 디스플레이부(170)를 포함한다.
요소 추출부(110)는 입력된 텍스트 문서로부터 주체(Subject), 관계명(Predicate), 객체(Object) 등의 RDF 모델의 구성 요소를 추출한다.
여기서, 요소 추출부(110)는 비구조적 문장의 문맥에 따른 추출 패턴을 텍스트 문서의 문장 또는 구에 매칭시켜 주체(Subject), 관계명(Predicate), 객체(Object)를 추출하게 된다.
식별자 부여부(120)는 RDF 모델을 구성하는 주체, 관계명, 객체에 대해 고유 식별자를 부여한다.
저장부(130)는 예컨대, 데이터베이스 형태로 구현할 수 있으며, 추출된 주체와, 관계명, 객체를 일정 저장 영역에 저장하거나, 하나의 주체와 하나의 관계명, 하나의 객체로 이루어진 RDF 모델을 저장하거나, 하나 이상의 RDF 모델이 결합한 RDF 네트워크를 저장한다.
RDF 조성부(140)는 추출된 하나의 주체, 하나의 관계명, 하나의 객체를 이용하여 RDF 모델을 생성하거나, 생성된 RDF 모델에 기반하여 RDF 네트워크를 조성한다.
검색 서비스부(150)는 RDF 네트워크에 근거한 검색 서비스를 제공한다. 즉, 검색 서비스부(150)는 하나 이상의 RDF 모델이 결합된 RDF 네트워크에 근거해 동일한 관계명을 가지는 주체 또는 객체를 요소 저장부(130)에서 검색한다.
제어부(160)는 RDF 조성부(140)를 통해 생성된 RDF 모델들 간에 의미적으로 충돌하는지를 판단하여 충돌하는 경우 분리하고, 충돌하지 않는 경우에 병합하여 RDF 네트워크가 조성되도록 제어하고, 조성된 RDF 네트워크에 근거해 관계명이 동일한 주체들 또는 객체들을 검색하는 서비스가 제공되도록 제어한다.
또한, 제어부(160)는 두 개체가 동일 개체로 판명될 경우에 병합하여 RDF 네트워크를 조성하게 된다.
도 2는 본 발명의 실시예에 따른 RDF 네트워크 기반 연관검색 서비스 방법을 설명하기 위한 흐름도이다.
도 2를 참조하면, 본 발명에 따른 RDF 네트워크 기반 연관검색 서비스 시스템(100)은 먼저 도 3에 도시된 바와 같이 구조적 형식을 갖추지 않은 비구조적 문장들로 이루어진 텍스트 문서로부터 주체(Subject), 관계명(Predicate), 객체(Object) 등 RDF 모델의 구성요소를 추출한다(S202).
이때, RDF 네트워크 기반 연관검색 서비스 시스템(100)은 비구조적 문장의 문맥에 따른 추출 패턴(예를 들면, %주소 에 %거주 하는 %사람)을 텍스트 문서의 문장 또는 구에 매칭시켜 주체(Subject), 관계명(Predicate), 객체(Object)를 추출하게 된다. 즉, 도 3에 도시된 바와 같이 추출 패턴을 텍스트 문서의 문장 또는 구에 매칭시켜 예를 들면, 주체(S1)로 '박영서'를 추출하고, 관계명(P1)으로 '거주지'를 추출하며, 객체(O1)로 '서울 강동구 고덕동'을 추출하는 것이다.
이어, RDF 네트워크 기반 연관검색 서비스 시스템(100)은 추출된 결과들을 단순히 모아놓는 경우 개체들 간 인식에 있어서 혼란이 발생할 수 있으므로, 추출된 주체, 관계명, 객체에 대해 각각 고유 식별자를 부여해 RDF 모델을 생성한다(S204).
이때, RDF 네트워크 기반 연관검색 서비스 시스템(100)은 RDF 모델을 조성하는 주체(S)와 관계명(P) 및 객체(O)에 대해 예컨대, URI(Uniform Resource Identifier) 등의 고유 식별자를 부여한다.
본 발명의 실시예에서, 하나의 주체(S)와 하나의 객체(O) 및 하나의 관계명(P)으로 이루어진 것을 'RDF 모델'이라 하고, 둘 이상의 RDF 모델이 결합한 예로 하나의 주체에 둘 이상의 객체가 결합하거나, 하나의 객체에 둘 이상의 주체가 결합한 형태로 이루어진 것을 'RDF 네트워크'라 칭한다.
이어, RDF 네트워크 기반 연관검색 서비스 시스템(100)은 생성된 RDF 모델 간에 의미적으로 충돌하는지를 판단한다(S206). 즉, 도 3에 도시된 바와 같이 RDF 모델 간에 주체(S)들에 해당하는 S1, S2, S3, ..., Sn끼리 의미적으로 충돌하는지를 판단하고, 객체(O)에 해당하는 O1, O2, O3, ..., On끼리 의미적으로 충돌하는지를 판단하는 것이다.
이어, RDF 네트워크 기반 연관검색 서비스 시스템(100)은 생성된 RDF 모델 간에 의미적으로 충돌하는 경우(S208-예), 다른 RDF 모델로 분리하여 RDF 네트워크를 조성하고(S210), 충돌하지 않는 경우에(S208-아니오) 해당 주체들끼리, 객체들끼리 병합하여 RDF 네트워크를 조성한다(S212).
예를 들면, 주체 S1이 '박영서'이고 주체 S2가 '박영서'인데, 관계명 P1이 '거주지'이고 관계명 P2가 '거주지'이며, 객체 O1이 '서울 강동구 고덕동'이고 객체 O2가 '서울 강동구 고덕동'이면 의미적으로 충돌하지 않으므로, 제어부(160)는 RDF 조성부(140)를 통해 S2를 S1에 병합하고, O2를 O1에 병합하여 S1-P1-O1으로 된 RDF 모델을 조성할 수 있다.
그러나, 주체 S1이 '박영서'이고 주체 S3가 '박영서'인데, 관계명 P1이 '거주지'이고 관계명 P3가 '거주지'이며, 객체 O3이 '서울 강동구 고덕동'이고 객체 O3이 '서울 강남구 개포동'이면 의미적으로 충돌하게 되므로, 제어부(160)는 RDF 조성부(140)를 통해 S1과 S3를 분리하고, O1과 O3를 분리하여 S1-P1-O1으로 된 RDF 모델과 S3-P3-O3로 된 RDF 모델로 분리하여 RDF 네트워크를 조성하게 된다.
여기서, RDF 네트워크 기반 연관검색 서비스 시스템(100)은 두 개체가 동일 개체로 판명될 경우에 병합하여 RDF 네트워크를 조성하게 된다.
이어, RDF 네트워크 기반 연관검색 서비스 시스템(100)은 조성한 RDF 네트워크를 저장부(130)에 저장한다(S214).
그리고, RDF 네트워크 기반 연관검색 서비스 시스템(100)은 조성된 RDF 네트워크에 근거해 관계명이 동일한 주체들 또는 객체들을 검색하는 서비스를 제공한다(S216).
예를 들면, RDF 네트워크 기반 연관검색 서비스 시스템(100)은 도 4에 도시된 바와 같이 '공인중개사'라는 주체(S)에 대해 '개설등록'이라는 관계명(P1)을 가지는 '중개사사무소'라는 객체(P1) 뿐만 아니라 '약국'이나 '기술사사무소', '동물약국' 등의 다른 객체(O')들도 관련 정보로 제공한다. 여기서, 도 4는 본 발명의 실시예에 따라 동일한 관계명을 가지는 주체 또는 객체들을 관련 정보로 제공하는 예를 나타낸 도면이다.
또한, RDF 네트워크 기반 연관검색 서비스 시스템(100)은 도 4에 도시된 바와 같이 '공인중개사'라는 주체(S)에 대해 '실무교육'이라는 관계명(P2)을 가지는 '부동산경매'라는 객체(O2) 뿐만 아니라 '소방기술자'나 '세무사', '방화관리자' 등의 다른 객체(O')들을 관련 정보로 제공할 수 있다.
본 발명의 실시예는 도 4에 도시된 바와 같이 RDF 네트워크 기반 연관검색 서비스 시스템(100)이 텍스트 문서 단위로 처리하는 바, 텍스트 문서마다 RDF 모델이 구성되고, 이후 기존의 RDF 모델(들)과 주체(S)와 객체(O)를 중심으로 비교하여 RDF 모델 간에 충돌 여부를 확인하여 병합 또는 분리해 각각 고유 식별자를 부여한 후 RDF 네트워크를 조성하게 되는 것이다.
전술한 바와 같이 본 발명에 의하면, 구조적 형식을 갖추고 있지 않은 비구조적 문장들로 이루어진 텍스트 문서로부터 RDF 모델을 이루는 단위인 Subject, Predicate, Object를 추출하여, 각 개체들 간에 의미적으로 동일 개체인지 여부에 따라 개체를 식별하여 RDF 네트워크를 이루고, RDF 네트워크에 근거해 동일한 관계명(P)을 가지는 주체(S) 또는 객체(O)들을 검색하여 관련 정보로 제공할 수 있도록 된, RDF 네트워크 기반 연관검색 서비스 시스템 및 방법을 실현할 수 있다.
본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있으므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
본 발명은 텍스트 문서로부터 RDF 모델을 추출하여 온톨로지를 구성하는 시스템이나 서비스 등에 적용할 수 있다.
또한, 본 발명은 시맨텍 웹 서비스나 검색 서비스를 제공하는 시스템이나 서비스 등에 적용할 수 있다.
100 : RDF 네트워크 기반 연관검색 서비스 시스템
110 : 요소 추출부 120 : 식별자 부여부
130 : 저장부 140 : RDF 조성부
150 : 검색 서비스부 160 : 제어부
170 : 디스플레이부

Claims (10)

  1. (a) 구조적 형식을 갖추지 않은 비구조적 문장들로 이루어진 텍스트 문서로부터 주체(Subject), 관계명(Predicate), 객체(Object)를 추출하는 단계;
    (b) 추출된 하나의 상기 주체와 하나의 상기 관계명 및 하나의 상기 객체로 이루어지는 RDF 모델을 생성하는 단계;
    (c) 상기 RDF 모델들을 비교하여 의미적으로 충돌하는지를 판단하는 단계;
    (d) 상기 RDF 모델 간에 충돌하는 경우 분리하고, 충돌하지 않는 경우에 병합하여 RDF 네트워크를 조성하는 단계; 및
    (e) 상기 조성된 RDF 네트워크에 근거해 상기 관계명이 동일한 상기 주체들 또는 상기 객체들을 검색하는 서비스를 제공하는 단계;
    를 포함하는 RDF 네트워크 기반 연관검색 서비스 방법.
  2. 제 1 항에 있어서,
    상기 (a) 단계는 상기 비구조적 문장의 문맥에 따른 추출 패턴을 상기 텍스트 문서의 문장 또는 구에 매칭시켜 상기 주체(Subject), 상기 관계명(Predicate), 상기 객체(Object)를 추출하는 것을 특징으로 하는 RDF 네트워크 기반 연관검색 서비스 방법.
  3. 제 1 항에 있어서,
    상기 (a) 단계는 상기 추출된 주체, 관계명, 객체에 대해 문자열 정규화(Normalization)를 수행하는 것을 특징으로 하는 RDF 네트워크 기반 연관검색 서비스 방법.
  4. 제 1 항에 있어서,
    상기 (b) 단계는 상기 RDF 모델을 이루는 상기 주체, 상기 관계명 및 상기 객체에 대해 고유 식별자를 부여하여 식별 체계 기반 RDF 모델을 생성하는 것을 특징으로 하는 RDF 네트워크 기반 연관검색 서비스 방법.
  5. 제 1 항에 있어서,
    상기 (d) 단계는 두 개체가 동일 개체로 추후 판명될 경우에 병합하는 것을 특징으로 하는 RDF 네트워크 기반 연관검색 서비스 방법.
  6. 구조적 형식을 갖추지 않은 비구조적 문장들로 이루어진 텍스트 문서로부터 주체(Subject), 관계명(Predicate), 객체(Object) 등의 요소를 추출하는 요소 추출부;
    상기 추출된 주체와, 관계명, 객체를 저장하는 요소 저장부;
    상기 추출된 주체와, 관계명, 객체에 대해 각각 고유 식별자를 부여하는 식별자 부여부;
    상기 추출된 하나의 주체, 하나의 관계명, 하나의 객체를 이용하여 식별 체계 기반 RDF 모델을 생성하고, 생성된 RDF 모델을 기반으로 RDF 네트워크를 조성하는 RDF 조성부;
    상기 RDF 네트워크에 근거한 검색 서비스를 제공하는 검색 서비스부; 및
    상기 생성된 RDF 모델들 간에 의미적으로 충돌하는지를 판단하여 충돌하는 경우 분리하고, 충돌하지 않는 경우에 병합하여 RDF 네트워크가 조성되도록 제어하고, 상기 조성된 RDF 네트워크에 근거해 상기 관계명이 동일한 상기 주체들 또는 상기 객체들을 검색하는 서비스가 제공되도록 제어하는 제어부;
    를 포함하는 RDF 네트워크 기반 연관검색 서비스 시스템.
  7. 제 6 항에 있어서,
    상기 요소 추출부는 상기 비구조적 문장의 문맥에 따른 추출 패턴을 상기 텍스트 문서의 문장 또는 구에 매칭시켜 상기 주체(Subject), 상기 관계명(Predicate), 상기 객체(Object)를 추출하는 것을 특징으로 하는 RDF 네트워크 기반 연관검색 서비스 시스템.
  8. 제 6 항에 있어서,
    상기 RDF 조성부는 상기 RDF 모델을 조성하는 상기 주체(Subject) 또는 상기 객체(Object)에 대해 고유 식별자를 부여하여 식별 체계 기반 RDF 모델을 생성하는 것을 특징으로 하는 RDF 네트워크 기반 연관검색 서비스 시스템.
  9. 제 6 항에 있어서,
    상기 제어부는 상기 RDF 네트워크를 조성할 때, 두 개체가 동일 개체로 판명될 경우에 병합하는 것을 특징으로 하는 RDF 네트워크 기반 연관검색 서비스 시스템.
  10. 제 6 항에 있어서,
    상기 제어부는 상기 추출된 주체, 관계명, 객체에 대해 문자열 정규화(Normalization)를 수행하는 것을 특징으로 하는 RDF 네트워크 기반 연관검색 서비스 시스템.
KR1020100028426A 2010-03-30 2010-03-30 Rdf 네트워크 기반 연관검색 서비스 시스템 및 방법 KR100963885B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020100028426A KR100963885B1 (ko) 2010-03-30 2010-03-30 Rdf 네트워크 기반 연관검색 서비스 시스템 및 방법
PCT/KR2010/002419 WO2011122730A1 (ko) 2010-03-30 2010-04-19 Rdf 네트워크 기반 연관검색 서비스 시스템 및 방법
EP10186119A EP2372571A3 (en) 2010-03-30 2010-10-01 Related search system and method based on resource description framework network
US12/898,242 US20110246461A1 (en) 2010-03-30 2010-10-05 Related search system and method based on resource description framework network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100028426A KR100963885B1 (ko) 2010-03-30 2010-03-30 Rdf 네트워크 기반 연관검색 서비스 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR100963885B1 true KR100963885B1 (ko) 2010-06-17

Family

ID=42370067

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100028426A KR100963885B1 (ko) 2010-03-30 2010-03-30 Rdf 네트워크 기반 연관검색 서비스 시스템 및 방법

Country Status (4)

Country Link
US (1) US20110246461A1 (ko)
EP (1) EP2372571A3 (ko)
KR (1) KR100963885B1 (ko)
WO (1) WO2011122730A1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190119413A (ko) * 2018-04-12 2019-10-22 한국전자통신연구원 인터넷 오브 미디어 정보 생성 방법 및 장치
KR20210156964A (ko) * 2020-06-19 2021-12-28 (주)한국플랫폼서비스기술 쿼리기반 딥러닝 기계학습 시스템
KR20220016641A (ko) * 2020-08-03 2022-02-10 (주)한국플랫폼서비스기술 쿼리를 이용한 프레임워크 딥러닝 학습 시스템 및 방법
WO2023080276A1 (ko) * 2021-11-04 2023-05-11 (주)한국플랫폼서비스기술 쿼리 기반 데이터베이스 연동 딥러닝 분산 시스템 및 그 방법

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8799188B2 (en) * 2011-02-08 2014-08-05 International Business Machines Corporation Algorithm engine for use in a pattern matching accelerator
JP5315368B2 (ja) * 2011-02-28 2013-10-16 株式会社日立製作所 文書処理装置
US8719692B2 (en) 2011-03-11 2014-05-06 Microsoft Corporation Validation, rejection, and modification of automatically generated document annotations
US9626348B2 (en) * 2011-03-11 2017-04-18 Microsoft Technology Licensing, Llc Aggregating document annotations
CN105264518B (zh) 2013-02-28 2017-12-01 株式会社东芝 数据处理装置及故事模型构建方法
KR101724143B1 (ko) * 2014-09-05 2017-04-06 네이버 주식회사 검색 서비스 제공 장치, 시스템, 방법 및 컴퓨터 프로그램
CN105630824A (zh) 2014-11-04 2016-06-01 阿里巴巴集团控股有限公司 网络资源生成方法及装置
WO2016145480A1 (en) * 2015-03-19 2016-09-22 Semantic Technologies Pty Ltd Semantic knowledge base

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050074991A (ko) * 2002-11-15 2005-07-19 코닌클리케 필립스 일렉트로닉스 엔.브이. 의미 연관성에 기초한 콘텐츠 검색
JP2006302085A (ja) 2005-04-22 2006-11-02 Kddi Corp プロファイル管理装置およびコンピュータプログラム
KR20070102033A (ko) * 2006-04-13 2007-10-18 엘지전자 주식회사 문서검색 시스템 및 그 방법
KR20090036749A (ko) * 2007-10-10 2009-04-15 (주)케이티에프테크놀로지스 텍스트를 포함하는 컨텐츠 내의 문자열을 이용하여통합검색 하는 방법 및 이를 이용한 이동 통신 단말기

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7987088B2 (en) * 2006-07-24 2011-07-26 Lockheed Martin Corporation System and method for automating the generation of an ontology from unstructured documents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050074991A (ko) * 2002-11-15 2005-07-19 코닌클리케 필립스 일렉트로닉스 엔.브이. 의미 연관성에 기초한 콘텐츠 검색
JP2006302085A (ja) 2005-04-22 2006-11-02 Kddi Corp プロファイル管理装置およびコンピュータプログラム
KR20070102033A (ko) * 2006-04-13 2007-10-18 엘지전자 주식회사 문서검색 시스템 및 그 방법
KR20090036749A (ko) * 2007-10-10 2009-04-15 (주)케이티에프테크놀로지스 텍스트를 포함하는 컨텐츠 내의 문자열을 이용하여통합검색 하는 방법 및 이를 이용한 이동 통신 단말기

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190119413A (ko) * 2018-04-12 2019-10-22 한국전자통신연구원 인터넷 오브 미디어 정보 생성 방법 및 장치
KR102255339B1 (ko) * 2018-04-12 2021-05-24 한국전자통신연구원 인터넷 오브 미디어 정보 생성 방법 및 장치
KR20210156964A (ko) * 2020-06-19 2021-12-28 (주)한국플랫폼서비스기술 쿼리기반 딥러닝 기계학습 시스템
KR102417131B1 (ko) 2020-06-19 2022-07-05 (주)한국플랫폼서비스기술 쿼리기반 딥러닝 기계학습 시스템
KR20220016641A (ko) * 2020-08-03 2022-02-10 (주)한국플랫폼서비스기술 쿼리를 이용한 프레임워크 딥러닝 학습 시스템 및 방법
WO2022030670A1 (ko) * 2020-08-03 2022-02-10 ㈜한국플랫폼서비스기술 쿼리를 이용한 프레임워크 딥러닝 학습 시스템 및 방법
KR102491753B1 (ko) * 2020-08-03 2023-01-26 (주)한국플랫폼서비스기술 쿼리를 이용한 프레임워크 딥러닝 학습 시스템 및 방법
WO2023080276A1 (ko) * 2021-11-04 2023-05-11 (주)한국플랫폼서비스기술 쿼리 기반 데이터베이스 연동 딥러닝 분산 시스템 및 그 방법

Also Published As

Publication number Publication date
EP2372571A3 (en) 2011-10-19
EP2372571A2 (en) 2011-10-05
WO2011122730A1 (ko) 2011-10-06
US20110246461A1 (en) 2011-10-06

Similar Documents

Publication Publication Date Title
KR100963885B1 (ko) Rdf 네트워크 기반 연관검색 서비스 시스템 및 방법
Rana et al. Aspect extraction in sentiment analysis: comparative analysis and survey
KR100978740B1 (ko) Rdf 탐색기반 질의응답 서비스 시스템 및 방법
Pandarachalil et al. Twitter sentiment analysis for large-scale data: an unsupervised approach
Tsui et al. A concept–relationship acquisition and inference approach for hierarchical taxonomy construction from tags
Adrian et al. Contag: A semantic tag recommendation system
Do et al. Building a knowledge graph by using cross-lingual transfer method and distributed MinIE algorithm on apache spark
Najmi et al. ConceptOnto: An upper ontology based on Conceptnet
Cuteri et al. A logic-based question answering system for cultural heritage
Saeeda et al. Entity linking and lexico-semantic patterns for ontology learning
Nozza et al. Word embeddings for unsupervised named entity linking
Ta et al. Constructing a subject-based ontology through the utilization of a semantic knowledge graph
Ghoula et al. Tok: A meta-model and ontology for heterogeneous terminological, linguistic and ontological knowledge resources
Sousa et al. Collaborative elicitation of conceptual representations: a corpus-based approach
Cabrio et al. Mind the cultural gap: Bridging language-specific DBpedia chapters for question answering
Schiessl et al. Ontology lexicalization: Relationship between content and meaning in the context of Information Retrieval1
Beetz Structured Vocabularies in Construction: Classifications, Taxonomies and Ontologies
Akhtar et al. Generating RDFS Based Knowledge Graph from SBVR
Czerski et al. What NEKST?—semantic search engine for polish internet
Paulus et al. Recommending Semantic Concepts for Improving the Process of Semantic Modeling
Mahmood et al. Autonomous decentralized semantic based traceability link recovery framework
Ali et al. RELD: A Knowledge Graph of Relation Extraction Datasets
Bravo et al. Enriching semantically web service descriptions
di Buono Semi-automatic indexing and parsing information on the web with NooJ
Garrido et al. The GENIE system: Classifying documents by combining mixed-techniques

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130410

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140408

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20150520

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20160406

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170327

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee