WO2011122730A1 - Rdf 네트워크 기반 연관검색 서비스 시스템 및 방법 - Google Patents

Rdf 네트워크 기반 연관검색 서비스 시스템 및 방법 Download PDF

Info

Publication number
WO2011122730A1
WO2011122730A1 PCT/KR2010/002419 KR2010002419W WO2011122730A1 WO 2011122730 A1 WO2011122730 A1 WO 2011122730A1 KR 2010002419 W KR2010002419 W KR 2010002419W WO 2011122730 A1 WO2011122730 A1 WO 2011122730A1
Authority
WO
WIPO (PCT)
Prior art keywords
rdf
network
search service
subject
extracted
Prior art date
Application number
PCT/KR2010/002419
Other languages
English (en)
French (fr)
Inventor
정한민
김평
이승우
이미경
서동민
성원경
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Publication of WO2011122730A1 publication Critical patent/WO2011122730A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Definitions

  • the present invention relates to a system and method for providing a related search service based on a resource description framework (RDF) network. More particularly, the present invention relates to a unit for forming an RDF model from a text document composed of unstructured sentences having no structured form. Subject, Predicate, Object are extracted and each object is identified according to whether or not they are semantically identical, forming an RDF network, and subject or object having the same predicate based on the RDF network.
  • the present invention relates to an RDF network-based associative search service system and method capable of searching for and providing objects as related information.
  • thesaurus refers to a database of terms, synonyms, antonyms, inclusion relations, etc., that collectively mean terms so that a computer can recognize the meaning of a Web document.
  • Korean noun semantic hierarchies were automatically constructed for nouns, and since 2002, the Korean Semantic Network (KSN) has been under construction, and ontologies using Korean and encyclopedias are being built.
  • KSN Korean Semantic Network
  • the representation format of the ontology is different for each system, so that it is not easy to extend the system or to access the ontology already configured in the existing application.
  • the ontology describing the relationship between the product data stored in the repository is not utilized. This ontology includes design intention as well as product composition, which is essential for intelligent product data utilization.
  • Thesaurus using term dictionary for information retrieval does not need identification system because it sets up and uses special items representing synonyms, antonyms, synonyms, superwords, subwords, and related words.
  • ontology is not a term. It can be thought of as a kind of network consisting of the relations between them and the relations between them, and concepts related to a specific domain are not hierarchically defined but expressed in various structures or forms, so that an identification system is necessary and additional ontology can be extended. Support for inference rules allows Web-based knowledge processing, knowledge sharing between applications, and reuse. In other words, one of the great differences between the lexical semantic network, thesaurus and the ontology is the identification system.
  • an object of the present invention is to extract a Subject, Predicate, and Object, which are units of an RDF model, from a text document composed of unstructured sentences that do not have a structured form.
  • RDF network based to identify objects according to whether or not to form RDF network, and to search for subjects or objects with the same predicate based on RDF network and provide them as related information.
  • a related search service system and method are provided.
  • RDF network-based associative search service system for achieving the above object, Subject, Predicate, Object, etc. from a text document consisting of unstructured sentences having no structural form
  • An element extraction unit for extracting an element of the element
  • An element storage unit which stores the extracted subject, a relation name, and an object
  • An identifier assigning unit for assigning unique identifiers to the extracted subjects, relation names, and objects
  • An RDF composition unit for generating an identification scheme based RDF model using the extracted one subject, one relation name, and one object and constructing an RDF network based on the generated RDF model
  • a search service unit providing a search service based on the RDF network; And judging whether or not there is a semantic collision between the generated RDF models, separating if there is a collision, and merging if there is no collision, and controlling to form an RDF network, and wherein the subject having the same relation name is based on the formed RDF network.
  • a control unit for controlling a service for searching for the
  • the controller merges when two entities are identified as the same entity.
  • the RDF network-based associative search service method for achieving the above object, (a) from the text document consisting of unstructured sentences that do not have a structural form Subject, Predicate, Extracting an object; (b) generating an RDF model consisting of the extracted one subject and one relation name and one object; (c) comparing the RDF models to determine if they semantically collide; (d) separating the collisions between the RDF models, and merging them if they do not collide to form an RDF network; And (e) providing a service for searching for the subjects or the objects having the same relation name based on the established RDF network.
  • the extraction pattern according to the context of the unstructured sentence is matched with the sentence or phrase of the text document to extract the subject, the predicate, and the object. do.
  • a unique identifier is assigned to the subject, the relation name, and the object forming the RDF model to generate an identification scheme based RDF model.
  • an RDF model and an RDF network can be constructed by extracting a subject S, a relation name P, and an object O from a text document composed of unstructured sentences having no structural form. Based on the RDF network, it is possible to implement a search service that searches for subjects or objects with the same relationship name and provides related information.
  • FIG. 1 is a block diagram schematically showing the configuration of an RDF network-based associative search service system according to an embodiment of the present invention.
  • FIG. 3 is a diagram illustrating an example of a process of providing a search service by forming an RDF network according to an embodiment of the present invention.
  • FIG. 4 is a diagram illustrating an example of providing subjects or objects having the same relation name as related information according to an exemplary embodiment of the present invention.
  • the element extracting unit 110 extracts components of an RDF model such as a subject, a relation name, an object, and the like from the input text document.
  • the element extractor 110 extracts a subject, a predicate, and an object by matching an extraction pattern according to the context of an unstructured sentence with a sentence or phrase of a text document.
  • the identifier assigning unit 120 assigns a unique identifier to the subject, the relationship name, and the object constituting the RDF model.
  • the storage unit 130 may be implemented in a database form, for example, and stores the extracted subject, relation name, and object in a certain storage area, or stores an RDF model including one subject, one relation name, and one object. Or store an RDF network that combines one or more RDF models.
  • the search service unit 150 provides a search service based on the RDF network. That is, the search service unit 150 searches the element storage 130 for a subject or an object having the same relationship name based on the RDF network in which one or more RDF models are combined.
  • the RDF network-based associative search service system 100 matches an extraction pattern (eg,% person residing at% address) according to the context of an unstructured sentence to a sentence or phrase of a text document. , It extracts relation name (Predicate) and object. That is, as shown in FIG. 3, the extraction pattern is matched with a sentence or phrase of a text document, for example, 'Park Young-seo' is extracted with the subject S1, and 'resident' is extracted with the relation name P1. It is to extract 'Godeok-dong, Gangdong-gu, Seoul' as the object (O1).
  • an extraction pattern eg,% person residing at% address
  • one subject (S), one object (O), and one relation name (P) are called 'RDF models', and two or more RDF models are combined in one subject.
  • a combination of two or more objects or a combination of two or more subjects in one object is called an RDF network.
  • control unit 160 separates the S1 and S3 through the RDF composition unit 140, separates the O1 and O3 to the RDF model of S1-P1-O1 and S3-P3-O3
  • the RDF network will be separated into separate RDF models.
  • the RDF network-based associated search service system 100 processes the text document unit, and an RDF model is configured for each text document.
  • an RDF model is configured for each text document.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 구조적 형식을 갖추고 있지 않은 비구조적 문장들로 이루어진 텍스트 문서로부터 RDF 모델을 이루는 단위인 Subject, Predicate, Object를 추출하여, 각 개체들 간에 의미적으로 동일 개체인지 여부에 따라 개체를 식별하여 RDF 네트워크를 이루고, RDF 네트워크에 근거해 동일한 관계명(Predicate)을 가지는 주체(Subject) 또는 객체(Object)들을 검색하여 관련 정보로 제공할 수 있도록 된, RDF 네트워크 기반 연관검색 서비스 시스템 및 방법에 관한 것이다. 본 발명에 따른 RDF 네트워크 기반 연관검색 서비스 방법은, (a) 구조적 형식을 갖추지 않은 비구조적 문장들로 이루어진 텍스트 문서로부터 주체(Subject), 관계명(Predicate), 객체(Object)를 추출하는 단계; (b) 추출된 하나의 상기 주체와 하나의 상기 관계명 및 하나의 상기 객체로 이루어지는 RDF 모델을 생성하는 단계; (c) 상기 RDF 모델들을 비교하여 의미적으로 충돌하는지를 판단하는 단계; (d) 상기 RDF 모델 간에 충돌하는 경우 분리하고, 충돌하지 않는 경우에 병합하여 RDF 네트워크를 조성하는 단계; 및 (e) 상기 조성된 RDF 네트워크에 근거해 상기 관계명이 동일한 상기 주체들 또는 상기 객체들을 검색하는 서비스를 제공하는 단계를 포함한다.

Description

RDF 네트워크 기반 연관검색 서비스 시스템 및 방법
본 발명은 RDF(Resource Description Framework) 네트워크에 기반하여 연관검색 서비스를 제공하는 시스템 및 방법에 관한 것으로서, 더욱 자세하게는 구조적 형식을 갖추고 있지 않은 비구조적 문장들로 이루어진 텍스트 문서로부터 RDF 모델을 이루는 단위인 Subject, Predicate, Object를 추출하여, 각 개체들 간에 의미적으로 동일 개체인지 여부에 따라 개체를 식별하여 RDF 네트워크를 이루고, RDF 네트워크에 근거해 동일한 관계명(Predicate)을 가지는 주체(Subject) 또는 객체(Object)들을 검색하여 관련 정보로 제공할 수 있도록 된, RDF 네트워크 기반 연관검색 서비스 시스템 및 방법에 관한 것이다.
일반적으로, 시소러스(thesaurus)는 컴퓨터가 웹(Web) 문서의 의미를 인식할 수 있도록 각종 용어와 동의어, 반의어, 포함 관계 등 용어들을 집대성한 데이터 베이스(database)를 나타낸다.
정보 기술에서의 온톨로지(Ontology)는 전자 상거래와 같이 지식의 어떤 특정 영역 내에 있는 실체 및 상호 작용의 작업 모델을 의미한다. 즉, 온톨로지는 특정한 도메인(domain) 내의 지식을 개념화하고 이를 명세화한 것으로 그 도메인 내에 사용되는 개념들의 관계성을 가진 네트워크 또는 그래프라고 할 수 있다.
현재 온톨로지의 연구는 자연어 처리와 관련해서 연구 개발되고 있는데 기존의 다양한 언어 자원으로부터 자연어 처리용 온톨로지를 반자동으로 구축하는 방식을 중심으로 연구되어 한일/일한 기계 번역 시스템에서 어휘 의미 중의성 해소의 효과가 입증된 바 있는 가도카와 시소러스의 개념 분류 체계를 온톨로지의 기반으로 삼아, 여기에서 세종 전자사전과 기계번역 사전, 그리고 대규모 말 뭉치로부터 반자동으로 추출한 다양한 의미 관계들을 추가하여 실용적인 온톨로지를 구축하고 있다.
또한 이에 대규모 온톨로지 구축을 위한 지식 습득의 기본 자료를 국어사전과 백과사전으로 정하고, 국어사전과 백과사전이 가지고 있는 다양한 지식 정보를 온톨로지로 구축하는 방법을 통해서 울산대 NLP 연구소에서는 98년에 10만 여 명사를 대상으로 한국어 명사 의미계층 구조를 자동으로 구축한 바 있으며, 2002년부터 시작하여 한국어 의미망(KSN)이 구축 중에 있으며, 현재 국어사전과 백과사전을 이용한 온톨로지를 구축 중에 있다.
예를 들면, 도면 관리 시스템에서는 도면명과, 제품명과, 설계자와, 설계 날짜 및 관련 부서 등의 온톨로지를 사용해 검색에 이용하고 있으며, 제품 데이터 관리(PDM: Product Data Management) 시스템과 같은 어플리케이션(application)에서도 부품 번호와, 버전 번호와, 설계자 이름과, 승인 날짜와, 어셈블리(assembly) 구조 및 구성 데이터 등의 데이터를 가지고 인덱스(index)를 구성하여 사용하고 있다.
그러나, 온톨로지에 대한 표현 형식이 시스템마다 상이하여 시스템 확장이나 기존의 어플리케이션에 이미 구성되어 있는 온톨로지에 대한 접근이 용이하지 않다는 문제점이 있다. 또한 레파지토리에 저장된 제품 데이터들 간의 관계를 기술한 온톨로지가 활용되지 않고 있다는 문제점이 있다. 이런 온톨로지는 제품의 구성은 물론 설계 의도를 포함하고 있어 지능적인 제품 데이터의 활용에 필수적이다.
한편, 자원 디스크립션 프레임워크(Resource Description Framework, 이하 'RDF'라 칭함)는 온톨로지 간의 상호 운용성 제공을 목적으로 W3C(World Wide Web Consortium)에서 제정된 표준으로서, 온톨로지의 정의와 저장 및 교환을 위한 표준적인 메커니즘을 제공한다. 특히, 온톨로지의 저장과 교환을 위한 포맷으로 확장성 생성 언어(Extensible Markup Language, 이하 'XML'이라 칭함) 구문(syntax)를 이용함으로써 웹(Web)을 통해 쉽게 접근할 수 있고, 서로 다른 시스템간의 정보 교환에 표준적인 데이터 포맷을 제공할 수 있다.
특히, IT(Information Technology) 산업의 발달로 컴퓨터와 인터넷을 통해 정보와 서비스가 제공되고 있으나 그 방대한 양은 사용자가 필요로 하는 정보와 서비스를 선택해 사용하는데 소요되는 시간과 노력을 증가시키고 있다. 따라서, 컴퓨터가 웹 문서의 용어들을 이해할 수 있게 함으로써 사용자가 필요로 하는 정보와 서비스를 선택하는 작업까지 컴퓨터가 직접 수행하도록 하는 지능형 웹, 즉 시맨틱 웹(Semantic Web) 방식에 대한 연구가 활발하게 진행되고 있다. 시맨틱 웹 방식을 위해서 온톨로지를 구축해야만 하는 것이며, 온톨로지는 컴퓨터를 지능화시킬 수 있어 시맨틱 웹 방식 뿐만 아니라 지능형 서비스를 위한 다양한 분야에서 사용될 수 있다.
정보 검색을 위한 용어 사전을 이용하는 시소러스는 주로 각 용어에 동의어, 반의어, 유의어, 상위어, 하위어, 관련어 따위를 나타내는 특별 항목을 설정하여 사용함에 따라 식별 체계가 필요없으나, 온톨로지는 용어가 아닌 개념들과 그들간의 관계들로 구성된 일종의 네트워크로서 생각할 수 있고, 그 속에는 특정 도메인에 관련된 개념들이 계층적으로 한정되지 않고 다양한 구조나 형식으로 표현되어 있어 식별 체계가 반드시 필요하며, 추가적으로 온톨로지를 확장할 수 있도록 추론 규칙을 지원하고 있어, 웹 기반의 지식 처리나 응용 프로그램 사이의 지식 공유, 재사용 등이 가능토록 되어 있다. 즉, 어휘 의미망, 시소러스 등과 온톨로지의 큰 차이 중 하나로써 식별 체계를 들 수 있다.
한편, RDF는 시맨틱 웹 방식과 관련되어 활발하게 연구되고 있는 방식이며, 기존의 확장성 생성 언어(XML)로 표현된 웹 콘텐츠(Web contents)와 웹 콘텐츠에 부여된 RDF 메타 정보를 관리하기 위한 XML/RDF 콘텐츠 관리 시스템에 대한 연구 역시 활발하게 진행되고 있다.
또한, 정보 통합을 목적으로 RDF를 사용하여 웹 온톨로지의 표준화 연구가 활발하게 진행되고 있으며, 전자 상거래에서 각종 서비스 및 보안 응용 프로그램상의 문제점들을 해결하기 위해 CommerceNet(인터넷을 이용한 전자 상거래(electronic commerce)의 보급 촉진을 목적으로 하는 컨소시엄)에서 제안한 전자 상거래 프레임워크인 eCo에서 서로 다른 프로토콜들 및 서로 다른 시스템들 간의 상호 호환성을 확보하기 위해 비즈니스 웹(business Web)을 위한 데이터 처리 모델 및 프레임워크 구축과 온톨로지 브로커 시스템에 대한 연구와, 그리고 협업 비즈니스를 위한 비즈니스 프로세스 처리 모델에 대한 연구와, 전자 카탈로그와 상품 분류 체계 및 코드를 중심으로 하는 연구가 활발하게 진행되고 있다.
전술한 사정을 감안한 본 발명의 목적은, 구조적 형식을 갖추고 있지 않은 비구조적 문장들로 이루어진 텍스트 문서로부터 RDF 모델을 이루는 단위인 Subject, Predicate, Object를 추출하여, 각 개체들 간에 의미적으로 동일 개체인지 여부에 따라 개체를 식별하여 RDF 네트워크를 이루고, RDF 네트워크에 근거해 동일한 관계명(Predicate)을 가지는 주체(Subject) 또는 객체(Object)들을 검색하여 관련 정보로 제공할 수 있도록 된, RDF 네트워크 기반 연관검색 서비스 시스템 및 방법을 제공함에 있다.
전술한 목적을 달성하기 위한 본 발명에 따른 RDF 네트워크 기반 연관검색 서비스 시스템은, 구조적 형식을 갖추지 않은 비구조적 문장들로 이루어진 텍스트 문서로부터 주체(Subject), 관계명(Predicate), 객체(Object) 등의 요소를 추출하는 요소 추출부; 상기 추출된 주체와, 관계명, 객체를 저장하는 요소 저장부; 상기 추출된 주체와, 관계명, 객체에 대해 각각 고유 식별자를 부여하는 식별자 부여부; 상기 추출된 하나의 주체, 하나의 관계명, 하나의 객체를 이용하여 식별 체계 기반 RDF 모델을 생성하고, 생성된 RDF 모델을 기반으로 RDF 네트워크를 조성하는 RDF 조성부; 상기 RDF 네트워크에 근거한 검색 서비스를 제공하는 검색 서비스부; 및 상기 생성된 RDF 모델들 간에 의미적으로 충돌하는지를 판단하여 충돌하는 경우 분리하고, 충돌하지 않는 경우에 병합하여 RDF 네트워크가 조성되도록 제어하고, 상기 조성된 RDF 네트워크에 근거해 상기 관계명이 동일한 상기 주체들 또는 상기 객체들을 검색하는 서비스가 제공되도록 제어하는 제어부를 포함한다.
여기서, 상기 요소 추출부는 상기 비구조적 문장의 문맥에 따른 추출 패턴을 상기 텍스트 문서의 문장 또는 구에 매칭시켜 상기 주체(Subject), 상기 관계명(Predicate), 상기 객체(Object)를 추출하게 된다.
또한, 상기 RDF 조성부는 상기 RDF 모델을 조성하는 상기 주체(Subject) 또는 상기 객체(Object)에 대해 고유 식별자를 부여하여 식별 체계 기반 RDF 모델을 생성하게 된다.
또한, 상기 제어부는 상기 RDF 네트워크를 조성할 때, 두 개체가 동일 개체로 판명될 경우에 병합하게 된다.
그리고, 상기 제어부는 상기 추출된 주체, 관계명, 객체에 대해 문자열 정규화(Normalization)를 수행하게 된다.
한편, 전술한 목적을 달성하기 위한 본 발명에 따른 RDF 네트워크 기반 연관검색 서비스 방법은, (a) 구조적 형식을 갖추지 않은 비구조적 문장들로 이루어진 텍스트 문서로부터 주체(Subject), 관계명(Predicate), 객체(Object)를 추출하는 단계; (b) 추출된 하나의 상기 주체와 하나의 상기 관계명 및 하나의 상기 객체로 이루어지는 RDF 모델을 생성하는 단계; (c) 상기 RDF 모델들을 비교하여 의미적으로 충돌하는지를 판단하는 단계; (d) 상기 RDF 모델 간에 충돌하는 경우 분리하고, 충돌하지 않는 경우에 병합하여 RDF 네트워크를 조성하는 단계; 및 (e) 상기 조성된 RDF 네트워크에 근거해 상기 관계명이 동일한 상기 주체들 또는 상기 객체들을 검색하는 서비스를 제공하는 단계를 포함한다.
또한, 상기 (a) 단계는 상기 비구조적 문장의 문맥에 따른 추출 패턴을 상기 텍스트 문서의 문장 또는 구에 매칭시켜 상기 주체(Subject), 상기 관계명(Predicate), 상기 객체(Object)를 추출하게 된다.
또한, 상기 (a) 단계는 상기 추출된 주체, 관계명, 객체에 대해 문자열 정규화(Normalization)를 수행하게 된다.
또한, 상기 (b) 단계는 상기 RDF 모델을 이루는 상기 주체, 상기 관계명 및 상기 객체에 대해 고유 식별자를 부여하여 식별 체계 기반 RDF 모델을 생성하게 된다.
그리고, 상기 (d) 단계는 두 개체가 동일 개체로 추후 판명될 경우에 병합하게 된다.
본 발명에 의하면, 구조적 형식을 갖추고 있지 않은 비구조적 문장들로 이루어진 텍스트 문서로부터 주체(S), 관계명(P) 및 객체(O)를 추출하여 RDF 모델 및 RDF 네트워크를 구성할 수 있고, 이 RDF 네트워크에 근거해 동일한 관계명을 가지는 주체나 객체를 검색하여 관련 정보를 제공하는 검색 서비스를 구현할 수 있다.
도 1은 본 발명의 실시예에 따른 RDF 네트워크 기반 연관검색 서비스 시스템의 구성을 개략적으로 나타낸 구성도이다.
도 2는 본 발명의 실시예에 따른 RDF 네트워크 기반 연관검색 서비스 방법을 설명하기 위한 흐름도이다.
도 3은 본 발명의 실시예에 따른 RDF 네트워크를 조성하여 검색 서비스를 제공하는 과정의 한 예를 나타낸 도면이다.
도 4는 본 발명의 실시예에 따라 동일한 관계명을 가지는 주체 또는 객체들을 관련 정보로 제공하는 예를 나타낸 도면이다.
본 발명의 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하 상세한 설명에 의해 보다 명확하게 이해될 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다.
도 1은 본 발명의 실시예에 따른 RDF 네트워크 기반 연관검색 서비스 시스템의 구성을 개략적으로 나타낸 구성도이다.
도 1을 참조하면, 본 발명에 따른 RDF 네트워크 기반 연관검색 서비스 시스템(100)은, 요소 추출부(110), 식별자 부여부(120), 저장부(130), RDF 조성부(140), 검색 서비스부(150), 제어부(160) 및 디스플레이부(170)를 포함한다.
요소 추출부(110)는 입력된 텍스트 문서로부터 주체(Subject), 관계명(Predicate), 객체(Object) 등의 RDF 모델의 구성 요소를 추출한다.
여기서, 요소 추출부(110)는 비구조적 문장의 문맥에 따른 추출 패턴을 텍스트 문서의 문장 또는 구에 매칭시켜 주체(Subject), 관계명(Predicate), 객체(Object)를 추출하게 된다.
식별자 부여부(120)는 RDF 모델을 구성하는 주체, 관계명, 객체에 대해 고유 식별자를 부여한다.
저장부(130)는 예컨대, 데이터베이스 형태로 구현할 수 있으며, 추출된 주체와, 관계명, 객체를 일정 저장 영역에 저장하거나, 하나의 주체와 하나의 관계명, 하나의 객체로 이루어진 RDF 모델을 저장하거나, 하나 이상의 RDF 모델이 결합한 RDF 네트워크를 저장한다.
RDF 조성부(140)는 추출된 하나의 주체, 하나의 관계명, 하나의 객체를 이용하여 RDF 모델을 생성하거나, 생성된 RDF 모델에 기반하여 RDF 네트워크를 조성한다.
검색 서비스부(150)는 RDF 네트워크에 근거한 검색 서비스를 제공한다. 즉, 검색 서비스부(150)는 하나 이상의 RDF 모델이 결합된 RDF 네트워크에 근거해 동일한 관계명을 가지는 주체 또는 객체를 요소 저장부(130)에서 검색한다.
제어부(160)는 RDF 조성부(140)를 통해 생성된 RDF 모델들 간에 의미적으로 충돌하는지를 판단하여 충돌하는 경우 분리하고, 충돌하지 않는 경우에 병합하여 RDF 네트워크가 조성되도록 제어하고, 조성된 RDF 네트워크에 근거해 관계명이 동일한 주체들 또는 객체들을 검색하는 서비스가 제공되도록 제어한다.
또한, 제어부(160)는 두 개체가 동일 개체로 판명될 경우에 병합하여 RDF 네트워크를 조성하게 된다.
도 2는 본 발명의 실시예에 따른 RDF 네트워크 기반 연관검색 서비스 방법을 설명하기 위한 흐름도이다.
도 2를 참조하면, 본 발명에 따른 RDF 네트워크 기반 연관검색 서비스 시스템(100)은 먼저 도 3에 도시된 바와 같이 구조적 형식을 갖추지 않은 비구조적 문장들로 이루어진 텍스트 문서로부터 주체(Subject), 관계명(Predicate), 객체(Object) 등 RDF 모델의 구성요소를 추출한다(S202).
이때, RDF 네트워크 기반 연관검색 서비스 시스템(100)은 비구조적 문장의 문맥에 따른 추출 패턴(예를 들면, %주소 에 %거주 하는 %사람)을 텍스트 문서의 문장 또는 구에 매칭시켜 주체(Subject), 관계명(Predicate), 객체(Object)를 추출하게 된다. 즉, 도 3에 도시된 바와 같이 추출 패턴을 텍스트 문서의 문장 또는 구에 매칭시켜 예를 들면, 주체(S1)로 '박영서'를 추출하고, 관계명(P1)으로 '거주지'를 추출하며, 객체(O1)로 '서울 강동구 고덕동'을 추출하는 것이다.
이어, RDF 네트워크 기반 연관검색 서비스 시스템(100)은 추출된 결과들을 단순히 모아놓는 경우 개체들 간 인식에 있어서 혼란이 발생할 수 있으므로, 추출된 주체, 관계명, 객체에 대해 각각 고유 식별자를 부여해 RDF 모델을 생성한다(S204).
이때, RDF 네트워크 기반 연관검색 서비스 시스템(100)은 RDF 모델을 조성하는 주체(S)와 관계명(P) 및 객체(O)에 대해 예컨대, URI(Uniform Resource Identifier) 등의 고유 식별자를 부여한다.
본 발명의 실시예에서, 하나의 주체(S)와 하나의 객체(O) 및 하나의 관계명(P)으로 이루어진 것을 'RDF 모델'이라 하고, 둘 이상의 RDF 모델이 결합한 예로 하나의 주체에 둘 이상의 객체가 결합하거나, 하나의 객체에 둘 이상의 주체가 결합한 형태로 이루어진 것을 'RDF 네트워크'라 칭한다.
이어, RDF 네트워크 기반 연관검색 서비스 시스템(100)은 생성된 RDF 모델 간에 의미적으로 충돌하는지를 판단한다(S206). 즉, 도 3에 도시된 바와 같이 RDF 모델 간에 주체(S)들에 해당하는 S1, S2, S3, ..., Sn끼리 의미적으로 충돌하는지를 판단하고, 객체(O)에 해당하는 O1, O2, O3, ..., On끼리 의미적으로 충돌하는지를 판단하는 것이다.
이어, RDF 네트워크 기반 연관검색 서비스 시스템(100)은 생성된 RDF 모델 간에 의미적으로 충돌하는 경우(S208-예), 다른 RDF 모델로 분리하여 RDF 네트워크를 조성하고(S210), 충돌하지 않는 경우에(S208-아니오) 해당 주체들끼리, 객체들끼리 병합하여 RDF 네트워크를 조성한다(S212).
예를 들면, 주체 S1이'박영서'이고 주체 S2가 '박영서 인데, 관계명 P1이 '거주지'이고 관계명 P2가 '거주지'이며, 객체 O1이 '서울 강동구 고덕동'이고 객체 O2가 '서울 강동구 고덕동'이면 의미적으로 충돌하지 않으므로, 제어부(160)는 RDF 조성부(140)를 통해 S2를 S1에 병합하고, O2를 O1에 병합하여 S1-P1-O1으로 된 RDF 모델을 조성할 수 있다.
그러나, 주체 S1이 '박영서'이고 주체 S3가 '박영서'인데, 관계명 P1이 '거주지'이고 관계명 P3가 '거주지'이며, 객체 O3이 '서울 강동구 고덕동'이고 객체 O3이 '서울 강남구 개포동'이면 의미적으로 충돌하게 되므로, 제어부(160)는 RDF 조성부(140)를 통해 S1과 S3를 분리하고, O1과 O3를 분리하여 S1-P1-O1으로 된 RDF 모델과 S3-P3-O3로 된 RDF 모델로 분리하여 RDF 네트워크를 조성하게 된다.
여기서, RDF 네트워크 기반 연관검색 서비스 시스템(100)은 두 개체가 동일 개체로 판명될 경우에 병합하여 RDF 네트워크를 조성하게 된다.
이어, RDF 네트워크 기반 연관검색 서비스 시스템(100)은 조성한 RDF 네트워크를 저장부(130)에 저장한다(S214).
그리고, RDF 네트워크 기반 연관검색 서비스 시스템(100)은 조성된 RDF 네트워크에 근거해 관계명이 동일한 주체들 또는 객체들을 검색하는 서비스를 제공한다(S216).
예를 들면, RDF 네트워크 기반 연관검색 서비스 시스템(100)은 도 4에 도시된 바와 같이 '공인중개사'라는 주체(S)에 대해 '개설등록'이라는 관계명(P1)을 가지는 '중개사사무소'라는 객체(P1) 뿐만 아니라 '약국'이나 '기술사사무소', '동물약국' 등의 다른 객체(O')들도 관련 정보로 제공한다. 여기서, 도 4는 본 발명의 실시예에 따라 동일한 관계명을 가지는 주체 또는 객체들을 관련 정보로 제공하는 예를 나타낸 도면이다.
또한, RDF 네트워크 기반 연관검색 서비스 시스템(100)은 도 4에 도시된 바와 같이 '공인중개사'라는 주체(S)에 대해 '실무교육'이라는 관계명(P2)을 가지는 '부동산경매'라는 객체(O2) 뿐만 아니라 '소방기술자'나 '세무사', '방화관리자' 등의 다른 객체(O')들을 관련 정보로 제공할 수 있다.
본 발명의 실시예는 도 4에 도시된 바와 같이 RDF 네트워크 기반 연관검색 서비스 시스템(100)이 텍스트 문서 단위로 처리하는 바, 텍스트 문서마다 RDF 모델이 구성되고, 이후 기존의 RDF 모델(들)과 주체(S)와 객체(O)를 중심으로 비교하여 RDF 모델 간에 충돌 여부를 확인하여 병합 또는 분리해 각각 고유 식별자를 부여한 후 RDF 네트워크를 조성하게 되는 것이다.
전술한 바와 같이 본 발명에 의하면, 구조적 형식을 갖추고 있지 않은 비구조적 문장들로 이루어진 텍스트 문서로부터 RDF 모델을 이루는 단위인 Subject, Predicate, Object를 추출하여, 각 개체들 간에 의미적으로 동일 개체인지 여부에 따라 개체를 식별하여 RDF 네트워크를 이루고, RDF 네트워크에 근거해 동일한 관계명(P)을 가지는 주체(S) 또는 객체(O)들을 검색하여 관련 정보로 제공할 수 있도록 된, RDF 네트워크 기반 연관검색 서비스 시스템 및 방법을 실현할 수 있다.
본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있으므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
본 발명은 텍스트 문서로부터 RDF 모델을 추출하여 온톨로지를 구성하는 시스템이나 서비스 등에 적용할 수 있다.
또한, 본 발명은 시맨텍 웹 서비스나 검색 서비스를 제공하는 시스템이나 서비스 등에 적용할 수 있다.

Claims (10)

  1. (a) 구조적 형식을 갖추지 않은 비구조적 문장들로 이루어진 텍스트 문서로부터 주체(Subject), 관계명(Predicate), 객체(Object)를 추출하는 단계;
    (b) 추출된 하나의 상기 주체와 하나의 상기 관계명 및 하나의 상기 객체로 이루어지는 RDF 모델을 생성하는 단계;
    (c) 상기 RDF 모델들을 비교하여 의미적으로 충돌하는지를 판단하는 단계;
    (d) 상기 RDF 모델 간에 충돌하는 경우 분리하고, 충돌하지 않는 경우에 병합하여 RDF 네트워크를 조성하는 단계; 및
    (e) 상기 조성된 RDF 네트워크에 근거해 상기 관계명이 동일한 상기 주체들 또는 상기 객체들을 검색하는 서비스를 제공하는 단계;
    를 포함하는 RDF 네트워크 기반 연관검색 서비스 방법.
  2. 제 1 항에 있어서,
    상기 (a) 단계는 상기 비구조적 문장의 문맥에 따른 추출 패턴을 상기 텍스트 문서의 문장 또는 구에 매칭시켜 상기 주체(Subject), 상기 관계명(Predicate), 상기 객체(Object)를 추출하는 것을 특징으로 하는 RDF 네트워크 기반 연관검색 서비스 방법.
  3. 제 1 항에 있어서,
    상기 (a) 단계는 상기 추출된 주체, 관계명, 객체에 대해 문자열 정규화(Normalization)를 수행하는 것을 특징으로 하는 RDF 네트워크 기반 연관검색 서비스 방법.
  4. 제 1 항에 있어서,
    상기 (b) 단계는 상기 RDF 모델을 이루는 상기 주체, 상기 관계명 및 상기 객체에 대해 고유 식별자를 부여하여 식별 체계 기반 RDF 모델을 생성하는 것을 특징으로 하는 RDF 네트워크 기반 연관검색 서비스 방법.
  5. 제 1 항에 있어서,
    상기 (d) 단계는 두 개체가 동일 개체로 추후 판명될 경우에 병합하는 것을 특징으로 하는 RDF 네트워크 기반 연관검색 서비스 방법.
  6. 구조적 형식을 갖추지 않은 비구조적 문장들로 이루어진 텍스트 문서로부터 주체(Subject), 관계명(Predicate), 객체(Object) 등의 요소를 추출하는 요소 추출부;
    상기 추출된 주체와, 관계명, 객체를 저장하는 요소 저장부;
    상기 추출된 주체와, 관계명, 객체에 대해 각각 고유 식별자를 부여하는 식별자 부여부;
    상기 추출된 하나의 주체, 하나의 관계명, 하나의 객체를 이용하여 식별 체계 기반 RDF 모델을 생성하고, 생성된 RDF 모델을 기반으로 RDF 네트워크를 조성하는 RDF 조성부;
    상기 RDF 네트워크에 근거한 검색 서비스를 제공하는 검색 서비스부; 및
    상기 생성된 RDF 모델들 간에 의미적으로 충돌하는지를 판단하여 충돌하는 경우 분리하고, 충돌하지 않는 경우에 병합하여 RDF 네트워크가 조성되도록 제어하고, 상기 조성된 RDF 네트워크에 근거해 상기 관계명이 동일한 상기 주체들 또는 상기 객체들을 검색하는 서비스가 제공되도록 제어하는 제어부;
    를 포함하는 RDF 네트워크 기반 연관검색 서비스 시스템.
  7. 제 6 항에 있어서,
    상기 요소 추출부는 상기 비구조적 문장의 문맥에 따른 추출 패턴을 상기 텍스트 문서의 문장 또는 구에 매칭시켜 상기 주체(Subject), 상기 관계명(Predicate), 상기 객체(Object)를 추출하는 것을 특징으로 하는 RDF 네트워크 기반 연관검색 서비스 시스템.
  8. 제 6 항에 있어서,
    상기 RDF 조성부는 상기 RDF 모델을 조성하는 상기 주체(Subject) 또는 상기 객체(Object)에 대해 고유 식별자를 부여하여 식별 체계 기반 RDF 모델을 생성하는 것을 특징으로 하는 RDF 네트워크 기반 연관검색 서비스 시스템.
  9. 제 6 항에 있어서,
    상기 제어부는 상기 RDF 네트워크를 조성할 때, 두 개체가 동일 개체로 판명될 경우에 병합하는 것을 특징으로 하는 RDF 네트워크 기반 연관검색 서비스 시스템.
  10. 제 6 항에 있어서,
    상기 제어부는 상기 추출된 주체, 관계명, 객체에 대해 문자열 정규화(Normalization)를 수행하는 것을 특징으로 하는 RDF 네트워크 기반 연관검색 서비스 시스템.
PCT/KR2010/002419 2010-03-30 2010-04-19 Rdf 네트워크 기반 연관검색 서비스 시스템 및 방법 WO2011122730A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2010-0028426 2010-03-30
KR1020100028426A KR100963885B1 (ko) 2010-03-30 2010-03-30 Rdf 네트워크 기반 연관검색 서비스 시스템 및 방법

Publications (1)

Publication Number Publication Date
WO2011122730A1 true WO2011122730A1 (ko) 2011-10-06

Family

ID=42370067

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2010/002419 WO2011122730A1 (ko) 2010-03-30 2010-04-19 Rdf 네트워크 기반 연관검색 서비스 시스템 및 방법

Country Status (4)

Country Link
US (1) US20110246461A1 (ko)
EP (1) EP2372571A3 (ko)
KR (1) KR100963885B1 (ko)
WO (1) WO2011122730A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105264518A (zh) * 2013-02-28 2016-01-20 株式会社东芝 数据处理装置及故事模型构建方法
WO2016036049A1 (ko) * 2014-09-05 2016-03-10 네이버 주식회사 검색 서비스 제공 장치, 시스템, 방법 및 컴퓨터 프로그램

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8799188B2 (en) * 2011-02-08 2014-08-05 International Business Machines Corporation Algorithm engine for use in a pattern matching accelerator
JP5315368B2 (ja) * 2011-02-28 2013-10-16 株式会社日立製作所 文書処理装置
US8719692B2 (en) 2011-03-11 2014-05-06 Microsoft Corporation Validation, rejection, and modification of automatically generated document annotations
US9626348B2 (en) * 2011-03-11 2017-04-18 Microsoft Technology Licensing, Llc Aggregating document annotations
CN105630824A (zh) 2014-11-04 2016-06-01 阿里巴巴集团控股有限公司 网络资源生成方法及装置
WO2016145480A1 (en) * 2015-03-19 2016-09-22 Semantic Technologies Pty Ltd Semantic knowledge base
KR102255339B1 (ko) * 2018-04-12 2021-05-24 한국전자통신연구원 인터넷 오브 미디어 정보 생성 방법 및 장치
KR102417131B1 (ko) * 2020-06-19 2022-07-05 (주)한국플랫폼서비스기술 쿼리기반 딥러닝 기계학습 시스템
KR102491753B1 (ko) * 2020-08-03 2023-01-26 (주)한국플랫폼서비스기술 쿼리를 이용한 프레임워크 딥러닝 학습 시스템 및 방법
KR20230065038A (ko) * 2021-11-04 2023-05-11 (주)한국플랫폼서비스기술 쿼리 기반 데이터베이스 연동 딥러닝 분산 시스템 및 그 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050074991A (ko) * 2002-11-15 2005-07-19 코닌클리케 필립스 일렉트로닉스 엔.브이. 의미 연관성에 기초한 콘텐츠 검색
JP2006302085A (ja) * 2005-04-22 2006-11-02 Kddi Corp プロファイル管理装置およびコンピュータプログラム
KR20070102033A (ko) * 2006-04-13 2007-10-18 엘지전자 주식회사 문서검색 시스템 및 그 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7987088B2 (en) * 2006-07-24 2011-07-26 Lockheed Martin Corporation System and method for automating the generation of an ontology from unstructured documents
KR20090036749A (ko) * 2007-10-10 2009-04-15 (주)케이티에프테크놀로지스 텍스트를 포함하는 컨텐츠 내의 문자열을 이용하여통합검색 하는 방법 및 이를 이용한 이동 통신 단말기

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050074991A (ko) * 2002-11-15 2005-07-19 코닌클리케 필립스 일렉트로닉스 엔.브이. 의미 연관성에 기초한 콘텐츠 검색
JP2006302085A (ja) * 2005-04-22 2006-11-02 Kddi Corp プロファイル管理装置およびコンピュータプログラム
KR20070102033A (ko) * 2006-04-13 2007-10-18 엘지전자 주식회사 문서검색 시스템 및 그 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105264518A (zh) * 2013-02-28 2016-01-20 株式会社东芝 数据处理装置及故事模型构建方法
CN105264518B (zh) * 2013-02-28 2017-12-01 株式会社东芝 数据处理装置及故事模型构建方法
US9904677B2 (en) 2013-02-28 2018-02-27 Kabushiki Kaisha Toshiba Data processing device for contextual analysis and method for constructing script model
WO2016036049A1 (ko) * 2014-09-05 2016-03-10 네이버 주식회사 검색 서비스 제공 장치, 시스템, 방법 및 컴퓨터 프로그램

Also Published As

Publication number Publication date
EP2372571A3 (en) 2011-10-19
KR100963885B1 (ko) 2010-06-17
EP2372571A2 (en) 2011-10-05
US20110246461A1 (en) 2011-10-06

Similar Documents

Publication Publication Date Title
WO2011122730A1 (ko) Rdf 네트워크 기반 연관검색 서비스 시스템 및 방법
WO2011129481A1 (ko) Rdf 탐색기반 질의응답 서비스 시스템 및 방법
Pereira A survey of sentiment analysis in the Portuguese language
WO2010134752A2 (ko) 다수 분류 체계를 연동한 시멘틱 검색 방법 및 시스템
Adrian et al. Contag: A semantic tag recommendation system
Kacmajor et al. Capturing and measuring thematic relatedness
Kadima et al. Toward ontology-based personalization of a recommender system in social network
CN110097278A (zh) 一种科技资源智能共享融合训练系统和应用系统
Zaroor et al. A hybrid approach to conceptual classification and ranking of resumes and their corresponding job posts
Gracia et al. Semantic heterogeneity issues on the web
WO2021235617A1 (ko) 과학기술 지식정보 추천 시스템 및 그 방법
Kumar et al. Semantic similarity and text summarization based novelty detection
EP2633430A1 (en) Generating a taxonomy from unstructured information
Cuteri et al. A logic-based question answering system for cultural heritage
Hayashi et al. A Dictionary Model for Unifying Machine Readable Dictionaries and Computational Concept Lexicons.
Ahmed et al. Fuzzy concept map generation from academic data sources
Brazdil et al. Affinity mining of documents sets via network analysis, keywords and summaries
WO2021226184A1 (en) Automated knowledge base
Vagelatos et al. Developing tools and resources for the biomedical domain of the Greek language
Hasan et al. A semantic taxonomy for weighting assumptions to reduce feature selection from social media and forum posts
Ming et al. Resolving polysemy and pseudonymity in entity linking with comprehensive name and context modeling
Loukachevitch et al. RuThes thesaurus in detecting Russian paraphrases
Mahmood et al. Autonomous decentralized semantic based traceability link recovery framework
Paulus et al. Recommending Semantic Concepts for Improving the Process of Semantic Modeling
Grasso et al. MultiAligNet: Cross-lingual Knowledge Bridges Between Words and Senses

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10849052

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10849052

Country of ref document: EP

Kind code of ref document: A1