WO2010093101A1 - 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법 및 그 시스템 - Google Patents

블로그 포스트를 온톨로지 기반 정보로 변환하는 방법 및 그 시스템 Download PDF

Info

Publication number
WO2010093101A1
WO2010093101A1 PCT/KR2009/004945 KR2009004945W WO2010093101A1 WO 2010093101 A1 WO2010093101 A1 WO 2010093101A1 KR 2009004945 W KR2009004945 W KR 2009004945W WO 2010093101 A1 WO2010093101 A1 WO 2010093101A1
Authority
WO
WIPO (PCT)
Prior art keywords
ontology
tag
based information
recommendation
blog
Prior art date
Application number
PCT/KR2009/004945
Other languages
English (en)
French (fr)
Inventor
박세영
노태길
Original Assignee
경북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경북대학교 산학협력단 filed Critical 경북대학교 산학협력단
Publication of WO2010093101A1 publication Critical patent/WO2010093101A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes

Definitions

  • the semantic web framework can be divided into ontology and RDF (Resource description) layer that plays an intermediate role for communication between machine and human.
  • RDF Resource description
  • the conventional blog server has no restrictions on the tag input, so that in addition to the words that imply the subject, irregular numbers, symbols, and even long sentences can be input. Are not mixed.
  • the current user tag information does not have accurate semantic information attached, so it is not easy to identify semantic hierarchical relationships or inclusion relationships between tags. And will not be fully utilized in such work as classification.
  • the present invention for achieving the above object is an input step of the user terminal inputs the body of the blog and the category for the body through a web browser; A tag recommendation step of searching for an object name of the input text in an ontology of interest corresponding to the category and providing the user name as a plurality of recommendation tags to the user terminal; A selection step of checking, by the user terminal, the recommended plurality of tags and selecting one of the tags; And converting the inputted text into ontology-based information based on the selected recommendation tag and storing the ontology-based information.
  • the recommendation tag may be compared with the word frequency and the attribute information to rank only the top N items.
  • the ontology-based information may be configured as an OWL file.
  • a system for converting ontology-based information on a blog includes: a user terminal accessing a blog through a web browser and inputting a text and a category thereof; A resource description framework (RDF) store in which an instance of the ontology of interest corresponding to the category is stored; A blog that searches for the entity name of the input text in the RDF store and provides the recommendation tag to the user terminal as a plurality of recommendation tags, and converts the input text into ontology based information based on the recommendation tag selected in the user terminal.
  • RDF resource description framework
  • the recommendation tag may include direct input as an attribute.
  • FIG. 1 is a block diagram schematically illustrating a system for converting a blog post into ontology-based information according to an embodiment of the present invention.
  • the searched entity name is provided as the recommendation tag to the user terminal 100 together with the searched attribute (step S304).
  • the recommended tag attribute changes according to the event information selected by the user. In other words, it is guided to annotate who, where, with whom, when, etc. for the event of 'go to travel'. Examples of attribute information of recommended tags according to an event category selected by a user are shown in Table 2 below.
  • a tag for a blog post is recommended based on information on a topic and an event selected by a user, annotated based on the selected tag, and converted into ontology-based information, thereby searching by instance classification, tag, and instance analysis.
  • Next-generation semantic search such as analysis between instances, can be facilitated.
  • the machine automatically processes information on various resources and relationship-meaning information between resources in an ontology form, industrial applicability is great.

Abstract

본 발명은 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법 및 그 시스템에 관한 것으로, 블로그의 포스트(게시물)에 대한 태그를 추천하고 사용자에 의해 선택된 태그를 기초로 어노테이션(annotation)하여 온톨로지 기반 정보로 변환할 수 있는 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법 및 그 시스템을 제공한다. 이를 위한 본 발명은 사용자 단말이 웹 브라우저를 통해 블로그의 본문 및 본문에 대한 카테고리를 입력하는 입력 단계와; 상기 입력된 본문의 개체명을 상기 카테고리에 대응하는 관심 온톨로지에서 검색하고 다수의 추천 태그로서 상기 사용자 단말로 제공하는 태그추천 단계와; 상기 사용자 단말이 상기 추천된 다수의 태그를 확인하여 그 중 하나를 선택하는 선택 단계와; 상기 선택된 추천 태그를 기초로 상기 입력된 본문을 온톨로지 기반 정보로 변환하여 저장하는 변환 단계;를 포함하는 것을 특징으로 한다. 상기와 같은 구성에 의해 본 발명은 정확한 시맨틱 어노테이션이 가능하여 인스턴스 분류와 태그에 의해 검색, 인스턴스 분석, 인스턴스들 간의 분석 등 차세대 시맨틱 검색이 용이하게 되는 효과가 있다.

Description

블로그 포스트를 온톨로지 기반 정보로 변환하는 방법 및 그 시스템
본 발명은 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법 및 그 시스템에 관한 것으로, 특히 블로그의 포스트(게시물)에 대한 태그를 사용자가 선택한 주제(Topic) 및 이벤트(event)에 대한 정보를 기초로 추천하고 선택된 태그를 기초로 어노테이션(annotation)하여 온톨로지 기반 정보로 변환할 수 있는 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법 및 그 시스템에 관한 것이다.
시맨틱 웹(Semantic Web)은 1998년 팀 버나스 리의 제안으로 유명해진, 차세대 웹이다. 이것은 현재의 인터넷과 같은 분산환경에서 웹 문서, 각종 파일, 서비스 등의 리소스에 대한 정보와 자원 사이의 관계-의미 정보를 기계가 처리할 수 있는 온톨로지(Ontology) 형태로 표현하고, 이를 자동화된 기계가 처리하도록 하는 프레임 워크 기술이다.
이러한 시맨틱 웹의 프레임 워크는 기계와 사람 간에 의사소통을 위해 중간역할을 하는 온톨로지와 RDF(Resource description) 계층으로 구분될 수 있고, 가장 단순한 형태인 RDF는 <Subject, Predicate, Object>의 트리플 형태로 개념을 표현한다.
간략한 예로서, 사람이 생각하는 "바나나는 노랑색이다."라는 정보를 기계가 이해할 수 있는 트리플로 표현하면 <S:바나나, P:색, O:노랑>과 같이 표현할 수 있다. 이렇게 표현된 트리플을 컴퓨터가 해석하여 S:바나나 라는 개념은 P:노랑 이라는 O:색 을 가지고 있다는 개념을 해석하고 처리할 수 있게 된다.
또한 온톨로지는 기계가 이해할 수 있는 형태로 표현된 특정 분야의 지식이다. 온톨로지는 명백한 논리언어(logic language)로 서술되어 있어, 사람의 언어와 달리 모호성이나 혼돈의 여지가 없으며, 논리에 의한 추론이 가능하다는 특징이 있다. 이러한 특징으로 인해, 시맨틱 웹은 기계와 사람의 의미를 소통할 수 있는 차세대 웹으로 각광받고 있다.
이와 같이 시맨틱 웹은 이러한 사람-기계 사이의 의미소통을 위하여, 사람의 지식을 기계가 이해할 수 있는 형태로 표현하는 방법을 택하고 있다.
그러나 이와 같은 종래의 시맨틱 웹을 구현하는 방법은 특정 분야(domain)의 지식을 모델링하는 것이 매우 어려운 작업일 뿐만 아니라 모델에 의한 어노테이션의 경우 여전히 실제의 의미와는 다른 비정확성의 가능성을 내포하고 있다.
한편, 최근 들어 블로그(blog)는 많은 사용자들로부터 인기를 얻고 있는 웹 출판 패러다임의 한 형태이다. 현재 대부분의 블로그 서버는 사용자가 작성한 글에 보다 상세한 의미 정보를 추가할 수 있도록 카테고리 분류 정보와 태그 정보를 입력할 수 있는 인터페이스를 제공하고 있다. 즉, 블로그 사용자들은 글을 포스팅하면서 자신이 쓴 글의 주제나 본인이 경험한 이벤트와 관련이 되는 키워드들을 태그 정보로써 입력할 수 있으며, 시스템이 미리 분류해 둔 카테고리 정보 내에서 원하는 카테고리를 선택할 수도 있다.
그러나 종래의 블로그 서버는 태그 입력에 전혀 제한이 없어 주제를 함축하는 단어 외에도 불규칙한 숫자, 기호, 심지어 긴 문장까지도 입력될 수 있으며 사용자들의 자유로운 언어 사용으로 인하여 다의어, 동형이의어, 동의어 등이 서로 그 의미가 구분되지 않은 혼용되고 있다. 즉, 현재의 사용자 태그 정보에는 정확한 의미 정보가 부착되어 있지 않아 태그 간의 의미적 계층 관계나 포함 관계 등을 식별하기가 쉽지 않으며, 사용자들의 정제되지 않은 태그 정보가 증가할수록 사용자 태그 정보는 글의 검색 및 분류 등의 작업에서 충분히 활용되지 못할 것이다. 또한 블로그 시스템이 가지고 있는 다양한 리소스들을 충분히 활용하기에도 어려운 실정이다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 제안된 것으로, 사용자가 블로그 포스트의 주제나 이벤트와 관련하여 추천된 태그를 선택할 수 있도록 하여 보다 정확하게 온톨로지 기반의 정보로 변환할 수 있는 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법 및 그 시스템을 제공하는 것을 목적으로 한다.
상기와 같은 목적을 달성하기 위한 본 발명은 사용자 단말이 웹 브라우저를 통해 블로그의 본문 및 본문에 대한 카테고리를 입력하는 입력 단계와; 상기 입력된 본문의 개체명을 상기 카테고리에 대응하는 관심 온톨로지에서 검색하고 다수의 추천 태그로서 상기 사용자 단말로 제공하는 태그추천 단계와; 상기 사용자 단말이 상기 추천된 다수의 태그를 확인하여 그 중 하나를 선택하는 선택 단계와; 상기 선택된 추천 태그를 기초로 상기 입력된 본문을 온톨로지 기반 정보로 변환하여 저장하는 변환 단계;를 포함하는 것을 특징으로 한다.
바람직하게는 상기 태그추천 단계는 상기 입력된 본문을 분석하여 개체명을 인식하고 상기 개체명을 태그 후보로서 추출하는 후보추출 단계와, 상기 추출된 개체명이 상기 관심 온톨로지에 존재하는지 검색하는 검색 단계와, 상기 검색된 개체명을 추천 태그로서 상기 검색된 속성과 함께 제공하는 제공 단계;를 포함할 수 있다.
바람직하게는 상기 제공 단계는 상기 추천 태그를 단어 빈도 및 상기 속성 정보와 비교하여 순위화하여 상위 N개만 제공할 수 있다.
바람직하게는 상기 제공 단계는 직접 입력을 속성으로서 제공할 수 있다.
바람직하게는 상기 검색 단계는 상기 관심 온톨로지의 인스턴스(instance)를 검색할 수 있다.
바람직하게는 상기 변환 단계는 상기 선택된 태그 및 그 속성에 따라 상기 입력된 본문을 온톨로지 기반 정보로 변환할 수 있다.
바람직하게는 상기 변환 단계는 상기 사용자 단말의 선택이 없으면 디폴트 추천 태그 및 그 속성에 따라 상기 입력된 본문을 온톨로지 기반 정보로 변환할 수 있다.
바람직하게는 상기 변환 단계는 상기 온톨로지 기반 정보가 OWL(Ontology Web Language) 파일로 구성될 수 있다.
본 발명의 다른 양태에 따른 블로그에 대한 온톨로지 기반 정보로의 변환 시스템은 웹 브라우저를 통하여 블로그에 접속하여 본문 및 그에 대한 카테고리를 입력하는 사용자 단말과; 상기 카테고리에 대응하는 관심 온톨로지의 인스턴스가 저장된 RDF( Resource description framework) 스토어와; 상기 입력된 본문의 개체명을 상기 RDF 스토어에서 검색하여 다수의 추천 태그로서 상기 사용자 단말로 제공하며, 상기 사용자 단말에서 선택된 추천 태그를 기초로 상기 입력된 본문을 온톨로지 기반 정보로 변환하여 저장하는 블로그 서버;를 포함하는 것을 특징으로 한다.
바람직하게는 상기 블로그 서버는 상기 추천 태그를 순위화하고 상기 RDF 스토어에서 검색된 속성과 함께 상기 사용자 단말로 제공하고, 상기 사용자 단말이 선택한 추천 태그와 그 속성을 상기 변환부로 제공하며, 상기 사용자 단말의 선택이 없으면 디폴트 추천 태그와 그 속성을 상기 변환부로 제공하는 태그 부착부와, 상기 선택된 추천 태그와 그 속성 및 상기 디폴트 태그와 그 속성 중 어느 하나에 따라 상기 입력된 본문을 상기 온톨로지 기반 정보로 변환하는 변환부와, 상기 변환된 온톨로지 기반 정보가 저장되는 저장부;를 포함할 수 있다.
바람직하게는 상기 태그 부착부는 상기 입력된 본문을 분석하여 개체명을 추출하는 개체명 인식부와, 상기 추천 태그를 단어 빈도 및 상기 속성 정보와 비교하여 순위화하여 상위 N개만 추천 태그로서 제공하고, 상기 사용자 단말이 선택한 추천 태그를 상기 변환부로 제공하는 태그 추천부와, 상기 추출된 개체명이 상기 RDF 스토어의 관심 온톨로지의 인스턴스인지 검색하는 검색부를 포함할 수 있다.
바람직하게는 상기 변환부는 상기 온톨로지 기반 정보를 OWL 파일로 생성할 수 있다.
바람직하게는 상기 저장부는 상기 OWL 파일이 저장되는 OWL 파일 저장부와, 상기 블로그의 본문이 저장되는 DBMS(DataBase Management System)를 포함할 수 있다.
바람직하게는 상기 RDF 스토어는 웹 통신 기능을 구비할 수 있다.
바람직하게는 상기 추천 태그는 직접 입력이 속성으로서 포함할 수 있다.
본 발명에 따른 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법 및 그 시스템은 사용자와의 피드백을 통해 블로그 포스트의 주제나 이벤트와 관련된 태그와 특정 부가 정보를 온톨로지 인스턴스로 생성하여 시간 및 비용 절감뿐만 아니라 사용자에 의한 정확한 시맨틱 어노테이션이 가능함으로써, 인스턴스 분류와 태그에 의해 검색, 인스턴스 분석, 인스턴스들 간의 분석 등 차세대 시맨틱 검색이 용이하게 되는 효과가 있다.
도 1은 본 발명의 실시예에 따른 블로그 포스트를 온톨로지 기반 정보로의 변환 시스템을 개략적으로 나타낸 구성도이고,
도 2는 도 1의 블로그 시스템의 세부 구성을 나타낸 블록도이며,
도 3은 본 발명의 실시예에 따른 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법을 나타낸 순서도이고,
도 4는 블로그 본문의 저장전 웹 페이지를 나타낸 도면(a) 및 저장후 웹페이지를 나타낸 도면(b)이며,
도 5는 추천된 태그별 속성 정보의 일예를 나타낸 도면이고,
도 6은 최종 선택된 태그와 그 속성 정보의 일예를 나타낸 도면이며,
도 7은 생성된 OWL 파일의 예를 나타낸 도면이다.
* 도면의 주요 부분에 대한 부호의 설명 *
10 : 변환 시스템 100 : 사용자 단말
200 : 웹 브라우저 300 : 블로그 서버
310 : 태그 부착부 312 : 개체명 인식부
314 : 태그 추천부 316 : 검색부
320 : 변환부 330 : 저장부
332 : OWL 파일 저장부 334 : DBMS
400 : RDF 스토어
본 발명은 블로그 포스트에 대한 사용자 태그 정보를 기계가 이해하고 분류할 수 있도록 블로그 포스트에 대한 내용이 무엇에 대한 것인가의 주제 및 그 주제를 경험한 이벤트를 기초로 어노테이션하여 새로운 블로그 온톨로지의 인스턴스를 생성하는 것이다.
또한, 본 발명은 온톨로지와 블로그 포스트를 연동한 시맨틱 어노테이션을 수행하기 위하여 태그의 입력시 사용자에게 태그 추천의 피드백을 통해 가이드를 제시하고, 사용자가 태그를 직접 입력할 수 있도록 함으로써 사용자가 개입하여 정확한 시맨틱 어노테이션이 가능하므로, 수동 어노테이션의 코스트와 자동 어노테이션의 비정확성을 동시에 극복할 수 있다.
이와 같은 블로그 포스트는 OWL 언어로 변환되어 검색 및 분석, 추론 등을 위한 자료로 활용될 수 있다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 상세히 설명한다.
도 1은 본 발명의 실시예에 따른 블로그 포스트를 온톨로지 기반 정보로의 변환 시스템을 개략적으로 나타낸 구성도이고, 도 2는 도 1의 블로그 시스템의 세부 구성을 나타낸 블록도이다.
블로그 포스트를 온톨로지 기반 정보로의 변환 시스템(10)은 블로그 서버(300)에 접속되어 블로그 포스트를 작성하는 사용자 단말(100)과, 작성된 블로그에 대한 태그를 추천하여 사용자 단말(100)로 제공하는 블로그 서버(300)와, 온톨로지가 저장된 RDF 스토어(400)를 포함한다.
사용자 단말(100)은 웹 브라우저(200)를 통하여 블로그 서버(300)에 접속하여 블로그 본문을 작성하고 태그 설정시 블로그 서버(300)로부터 제공된 본문에 대한 카테고리와 추천된 태그를 입력한다.
블로그 서버(300)는 입력된 본문의 개체명을 RDF 스토어(400)에서 검색하여 다수의 추천 태그로서 사용자 단말(100)로 제공하는 태그 부착부(310)와, 사용자 단말(100)에서 선택된 추천 태그를 기초로 입력된 본문을 온톨로지 기반 정보로 변환하는 변환부(320)와, 상기 변환된 온톨로지 기반 정보가 저장되는 저장부(330)를 포함한다.
시맨틱 태그 추천
태그 부착부(310)는 입력된 본문을 분석하여 개체명을 추출하는 개체명 인식부(312)와, 추천 태그를 순위화하여 사용자 단말(100)로 제공하는 태그 추천부(314)와, RDF 스토어(400)에서 추천 태그와 그 속성을 검색하는 검색부(316)를 포함한다.
개체명 인식부(312)는 입력된 본문을 분석하여 태그 후보를 검색하기 위한 개체명을 추출한다. 이는 본문에 포함된 모든 명사를 대상으로 하지 않고 온톨로지 인스턴스로 존재할 것으로 예상되는 개체명을 추출한다.
즉, 개체명 인식부(312)는 본문에서 시맨틱 태그의 후보가 될 수 있는 개체명, 예를 들면 책 제목, 여행지, IT 기기의 제품명 등을 추출한다.
태그 추천부(314)는 상기 추출된 개체명에 대한 RDF 스토어(400) 검색을 검색부(316)로 요청하고, 검색된 다수의 태그를 빈도 및 속성 정보와 비교하여 순위화하여 상위 N개만 추천 태그로서 사용자 단말(100)로 제공한다.
여기서, 사용자 단말(100)로 제공되는 추천 태그의 속성은 직접 입력이 포함되는 것이 바람직하다.
이러한 태그 추천부(314)는 태그로 사용될 개체명이 온톨로지와 연동이 되도록 하기 위하여 관심 온톨로지의 인스턴스로 존재하는 개체명을 대상으로 태그를 추천한다.
또한, 태그 추천부(314)는 사용자 단말(100)이 선택한 추천 태그와 그 속성을 변환부(320)로 제공하며, 사용자 단말(100)의 선택이 없으면 디폴트 추천 태그와 그 속성을 변환부(320)로 제공한다.
검색부(316)는 개체명 인식부(312)에서 추출된 개체명이 RDF 스토어(400)의 관심 온톨로지에 존재하는지의 검색을 수행한다. 즉, 검색부(316)는 상기 개체명이 관심 온톨로지의 인스턴스인지를 검색한다.
OWL파일 생성
변환부(320)는 사용자 단말(100)에서 선택된 추천 태그와 그 속성에 따라 입력된 본문을 온톨로지 기반 정보로 변환하고, 사용자 단말(100)의 선택이 없으면 최상위 우선순위로 설정된 디폴트 태그와 그 속성에 입력된 본문을 온톨로지 기반 정보로 변환한다.
여기서, 온톨로지 기반 정보는 OWL 파일 형태로 생성되는데, 보다 상세하게는 사용자가 작성한 포스트와 선택한 태그를 기초로 OWL 파일 형태로 생성되며, OWL을 구성하기 위한 속성 정보의 예는 아래의 표 1과 같다.
표 1
속 성 개 요
rating 이벤트에 대한 자신의 선호도를 표시한다.
eventType 해당하는 포스트가 어느 이벤트에 해당하는 것인지를 표시한다. (여행, 감상, IT 디바이스 리뷰 등)
subject 이벤트의 주체를 기록한다.
object 이벤트의 객체를 기록한다.
beginTime 이벤트가 발생한 시간을 기록한다.
postingURI 해당 포스트에 접속할 수 있는 주소를 기록한다.
reply 해당 포스트에 작성되어 있는 reply 작성자들을 기록한다.
hasTitle 해당 포스트의 제목을 기록한다.
hasText 해당 포스트의 본문 내용을 기록한다.
저장부(330)는 변환된 온톨로지 기반 정보로서 OWL 파일이 저장되는 OWL 파일 저장부(332)와, 블로그의 본문이 저장되는 DBMS(DataBase Management System)를 포함한다.
RDF 스토어(400)는 카테고리에 대응하는 관심 온톨로지의 인스턴스가 저장되며, 바람직하게는 웹 기반의 블로그 서버(300)와의 통신을 위한 웹 통신 기능을 구비한다.
예를 들면, RDF 스토어(400)에서 제공하는 공개 소스 프레임 워크인 Sesame를 사용하여 http 프로토콜을 지원한다.
이하, 도 3 내지 도 7을 참조하여 본 발명의 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법을 설명한다.
도 3은 본 발명의 실시예에 따른 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법을 나타낸 순서도이고, 도 4는 블로그 본문의 저장전 웹 페이지를 나타낸 도면(a) 및 저장후 웹페이지를 나타낸 도면(b)이며, 도 5는 추천된 태그별 속성 정보의 일예를 나타낸 도면이고, 도 6은 최종 선택된 태그와 그 속성 정보의 일예를 나타낸 도면이며, 도 7은 생성된 OWL 파일의 예를 나타낸 도면이다.
본 발명의 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법은 사용자 단말(100)이 블로그의 본문 및 본문에 대한 카테고리를 입력하는 입력 단계(단계 S301)와, 상기 입력된 본문의 개체명을 상기 카테고리에 대응하는 관심 온톨로지에서 검색하고 다수의 추천 태그로서 사용자 단말(100)로 제공하는 태그추천 단계(단계 S302 내지 단계 S304)와, 사용자 단말(100)이 상기 추천된 다수의 태그를 확인하여 그 중 하나를 선택하는 선택 단계(단계 S305)와, 상기 선택된 추천 태그를 기초로 상기 입력된 본문을 온톨로지 기반 정보로 변환하여 저장하는 변환 단계(단계 S306 내지 단계 S308)를 포함하는 것을 특징으로 한다.
보다 구체적으로는 먼저, 사용자에 의해 사용자 단말(100)이 웹 브라우저(200)를 통하여 블로그 서버(300)에 접속하고 원하는 블로그 포스트를 작성한다(단계 S301).
이 때, 본문의 내용을 작성한 후 도 4(a)에 도시된 바와 같이 사용자가 주제와 관련된 카테고리를 선택할 수 있도록 미리 정의된 카테고리 분류 중 하나를 선택할 수 있도록 한다. 여기서, 사용자로부터 입력받은 카테고리 정보는 해당 관심 온톨로지를 활성화시키는 역할을 한다.
사용자 단말(100)이 본문을 저장하면, 도 4(b)에 도시된 바와 같이, 태그 추천이 활성화되어 입력된 본문을 분석하여 개체명을 인식하고 개체명을 태그 후보로서 추출한다(단계 S302).
즉, 사용자가 작성한 본문에 기반하여 태그 후보가 될 수 있는 개체명들을 개체명 인식부(312)를 통하여 추출한다.
추출된 개체명이 관심 온톨로지에 존재하는지 검색한다(단계 S303).
예를 들면, RDF 스토어(400)에 저장된 관심 온톨로지의 인스턴스를 검색하여 상기 개체명이 존재하는지를 검색한다.
다음으로 상기 검색된 개체명을 추천 태그로서 상기 검색된 속성과 함께 사용자 단말(100)로 제공한다(단계 S304).
이 때, 상기 검색된 추천 태그를 단어 빈도 및 상기 속성 정보와 비교하여 순위화하여 상위 N개만 제공하는 것이 바람직하다. 또한, 상기 제공되는 속성은 직접 입력을 포함할 수 있다.
여기서, 추천된 태그는 카테고리 정보에 따라 선택된 관심 온톨로지의 인스턴스이다.
이와 같이 사용자가 선택한 이벤트 정보에 따라 추천하는 태그 속성은 변화한다. 즉, '여행가다'라는 이벤트에 대해서는 누가, 어디에, 누구와 함께, 언제 등이 어노테이션되도록 가이드한다. 사용자가 선택한 이벤트 카테고리에 따른 추천 태그들의 속성 정보의 예는 아래의 표 2와 같다.
표 2
카테고리 태그 속성 비고
IT IT 제품명
리뷰 날짜 (default : 현재날짜)
평 점 (default : 3)
책 제목
리뷰 날짜 (default : 현재날짜)
평 점 (default : 3)
여행 여행자명
동행자
여행기간 (default : 현재날짜)
교통수단
평 점 (default : 3)
이 때, 도 5 및 도 6에 도시된 바와 같이, 추천된 태그는 동일한 속성값이 다른 동일한 개체명들이 존재할 수 있으므로, 이들에 대한 속성 정보를 사용자에게 제공하여 태그 선택시에 발생하는 모호성을 배제한다.
사용자 단말(100)이 제공된 추천 태그 목록을 확인하여 원하는 태그를 선택한다(단계 S305).
즉, 관심 온톨로지에 인스턴스로 존재하는 태그 목록을 사용자 단말(100)에 제공하면, 사용자가 작성된 본문에 적합한 원하는 태그를 선택한다.
사용자가 원하는 태그를 선택하면, 선택된 태그 및 그 속성에 따라 상기 입력된 본문을 온톨로지 기반 정보로 변환한다(단계 S306).
이 때, 사용자 단말(100)은 속성중 하나인 직접 입력을 선택하고 원하는 태그를 입력할 수도 있다.
한편, 사용자 단말(100)이 추천 태그를 선택하지 않으면, 디폴트 추천 태그 및 그 속성에 따라 상기 입력된 본문을 온톨로지 기반 정보로 변환한다(단계 S307).
여기서, 상기 온톨로지 기반 정보가 OWL 파일로 구성되는 것이 바람직하다.
예를 들면, 표 1과 같은 정보들을 이용하여 구축한 OWL 파일의 구조를 바탕으로 각 포스트에 해당하는 내용들을 이용하여 도 7에 도시된 바와 같은 OWL 파일을 생성한다. 이러한 OWL 파일을 생성하기 위하여 RDF 언어를 사용한다.
이 때, 추후 검색 시 쉽게 수집할 수 있도록 해당 포스트의 ID와 동일한 값을 가지는 파일 이름으로 설정하여 블로그 서버에 저장한다.(단계 S308).
이러한 추천 과정을 통해 사용자는 손쉽게 시맨틱 정보를 가진 태그를 부착할 수 있으며, 저장된 포스트는 OWL 파일로 생성되어 블로그 서버(300)에 수집이 된다.
이러한 방법에 의하여 보다 정확한 블로그 온톨로지를 구축할 수 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경할 수 있다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 당업자에게 있어 명백할 것이다.
본 발명에 따라, 블로그 포스트에 대한 태그를 사용자가 선택한 주제 및 이벤트에 대한 정보를 기초로 추천하고 선택된 태그를 기초로 어노테이션하여 온톨로지 기반 정보로 변환함으로써, 인스턴스 분류와 태그에 의해 검색, 인스턴스 분석, 인스턴스들 간의 분석 등 차세대 시맨틱 검색을 용이하게 할 수 있다. 특히, 차세대 웹 분야에서 있어서, 각종 리소스에 대한 정보와 자원 사이의 관계-의미 정보를 온톨로지 형태로 표현하여 기계가 자동적으로 처리함에 따라, 산업상 이용가능성이 크다.

Claims (15)

  1. 사용자 단말이 웹 브라우저를 통해 블로그의 본문 및 본문에 대한 카테고리를 입력하는 입력 단계와;
    상기 입력된 본문의 개체명을 상기 카테고리에 대응하는 관심 온톨로지에서 검색하고 다수의 추천 태그로서 상기 사용자 단말로 제공하는 태그추천 단계와;
    상기 사용자 단말이 상기 추천된 다수의 태그를 확인하여 그 중 하나를 선택하는 선택 단계와;
    상기 선택된 추천 태그를 기초로 상기 입력된 본문을 온톨로지 기반 정보로 변환하여 저장하는 변환 단계;를 포함하는 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법.
  2. 제 1 항에 있어서,
    상기 태그추천 단계는,
    상기 입력된 본문을 분석하여 개체명을 인식하고 상기 개체명을 태그 후보로서 추출하는 후보추출 단계와,
    상기 추출된 개체명이 상기 관심 온톨로지에 존재하는지 검색하는 검색 단계와,
    상기 검색된 개체명을 추천 태그로서 상기 검색된 속성과 함께 제공하는 제공 단계를 포함하는 것을 특징으로 하는 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법.
  3. 제 2항에 있어서,
    상기 제공 단계는 상기 추천 태그를 단어 빈도 및 상기 속성 정보와 비교하여 순위화하여 상위 N개만 제공하는 것을 특징으로 하는 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법.
  4. 제 2 항에 있어서,
    상기 제공 단계는 직접 입력을 속성으로서 제공하는 것을 특징으로 하는 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법.
  5. 제 2 항에 있어서,
    상기 검색 단계는 상기 관심 온톨로지의 인스턴스(instance)를 검색하는 것을 특징으로 하는 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법.
  6. 제 1 항에 있어서,
    상기 변환 단계는 상기 선택된 태그 및 그 속성에 따라 상기 입력된 본문을 온톨로지 기반 정보로 변환하는 것을 특징으로 하는 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법.
  7. 제 1 항에 있어서,
    상기 변환 단계는 상기 사용자 단말의 선택이 없으면 디폴트 추천 태그 및 그 속성에 따라 상기 입력된 본문을 온톨로지 기반 정보로 변환하는 것을 특징으로 하는 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법.
  8. 제 1 항에 있어서,
    상기 변환 단계는 상기 온톨로지 기반 정보가 OWL(Ontology Web Language) 파일로 구성된 것을 특징으로 하는 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법.
  9. 웹 브라우저를 통하여 블로그에 접속하여 본문 및 그에 대한 카테고리를 입력하는 사용자 단말과;
    상기 카테고리에 대응하는 관심 온톨로지의 인스턴스가 저장된 RDF( Resource description framework) 스토어와;
    상기 입력된 본문의 개체명을 상기 RDF 스토어에서 검색하여 다수의 추천 태그로서 상기 사용자 단말로 제공하며, 상기 사용자 단말에서 선택된 추천 태그를 기초로 상기 입력된 본문을 온톨로지 기반 정보로 변환하여 저장하는 블로그 서버;를 포함하는 블로그 포스트를 온톨로지 기반 정보로의 변환 시스템.
  10. 제 9 항에 있어서,
    상기 블로그 서버는,
    상기 추천 태그를 순위화하고 상기 RDF 스토어에서 검색된 속성과 함께 상기 사용자 단말로 제공하고, 상기 사용자 단말이 선택한 추천 태그와 그 속성을 상기 변환부로 제공하며, 상기 사용자 단말의 선택이 없으면 디폴트 추천 태그와 그 속성을 상기 변환부로 제공하는 태그 부착부와,
    상기 선택된 추천 태그와 그 속성 및 상기 디폴트 태그와 그 속성 중 어느 하나에 따라 상기 입력된 본문을 상기 온톨로지 기반 정보로 변환하는 변환부와,
    상기 변환된 온톨로지 기반 정보가 저장되는 저장부를 포함하는 것을 특징으로 하는 블로그 포스트를 온톨로지 기반 정보로의 변환 시스템.
  11. 제 10 항에 있어서,
    상기 태그 부착부는,
    상기 입력된 본문을 분석하여 개체명을 추출하는 개체명 인식부와,
    상기 추천 태그를 단어 빈도 및 상기 속성 정보와 비교하여 순위화하여 상위 N개만 추천 태그로서 제공하고, 상기 사용자 단말이 선택한 추천 태그를 상기 변환부로 제공하는 태그 추천부와,
    상기 추출된 개체명이 상기 RDF 스토어의 관심 온톨로지의 인스턴스인지 검색하는 검색부를 포함하는 것을 특징으로 하는 블로그 포스트를 온톨로지 기반 정보로의 변환 시스템.
  12. 제 10 항에 있어서,
    상기 변환부는 상기 온톨로지 기반 정보를 OWL 파일로 생성하는 것을 특징을 하는 블로그 포스트를 온톨로지 기반 정보로의 변환시스템.
  13. 제 12 항에 있어서,
    상기 저장부는,
    상기 OWL 파일이 저장되는 OWL 파일 저장부와,
    상기 블로그의 본문이 저장되는 DBMS(DataBase Management System)를 포함하는 것을 특징으로 하는 블로그 포스트를 온톨로지 기반 정보로의 변환 시스템.
  14. 제 9 항에 있어서,
    상기 RDF 스토어는 웹 통신 기능을 구비한 것을 특징으로 하는 블로그 포스트를 온톨로지 기반 정보로의 변환 시스템.
  15. 제 9 항에 있어서,
    상기 추천 태그는 직접 입력이 속성으로서 포함되는 것을 특징으로 하는 블로그 포스트를 온톨로지 기반 정보로의 변환 시스템.
PCT/KR2009/004945 2009-02-10 2009-09-02 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법 및 그 시스템 WO2010093101A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2009-0010525 2009-02-10
KR1020090010525A KR101072147B1 (ko) 2009-02-10 2009-02-10 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법 및 그 시스템

Publications (1)

Publication Number Publication Date
WO2010093101A1 true WO2010093101A1 (ko) 2010-08-19

Family

ID=42561929

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2009/004945 WO2010093101A1 (ko) 2009-02-10 2009-09-02 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법 및 그 시스템

Country Status (2)

Country Link
KR (1) KR101072147B1 (ko)
WO (1) WO2010093101A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101393247B1 (ko) * 2010-08-23 2014-05-22 한국전자통신연구원 Soap 및 rest에 기반한 웹 서비스의 시맨틱 정보를 자동 어노테이션하여 등록하는 장치 및 방법
CN104317891B (zh) * 2014-10-23 2017-11-28 华为软件技术有限公司 一种对页面标注标签的方法及装置
KR101733230B1 (ko) * 2015-05-21 2017-05-08 네이버 주식회사 컨텐츠 공유 서비스 제공 방법, 표시 제어 방법 및 컴퓨터 프로그램

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060004909A (ko) * 2003-02-14 2006-01-16 너바나, 인코퍼레이티드. 시맨틱 지식의 검색, 관리, 포착, 공유, 발견, 전달 및프리젠테이션 시스템 및 방법
KR100720762B1 (ko) * 2007-01-30 2007-05-23 (주) 프람트 사용자의 상황 정보를 이용한 유사도 계산 및 콘텐츠의검색 방법
KR20070065774A (ko) * 2005-12-20 2007-06-25 한국전자통신연구원 온톨로지를 이용한 시맨틱 블로그 관리 시스템 및 방법
KR20090000284A (ko) * 2007-02-14 2009-01-07 (주)인포메딕스프리벤션테크놀로지 관심주제에 대한 동향 및 성향 분석시스템

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100851041B1 (ko) 2006-11-08 2008-08-12 엔에이치엔(주) 유알엘 입력을 통한 광고 키워드 추천 방법 및 그 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060004909A (ko) * 2003-02-14 2006-01-16 너바나, 인코퍼레이티드. 시맨틱 지식의 검색, 관리, 포착, 공유, 발견, 전달 및프리젠테이션 시스템 및 방법
KR20070065774A (ko) * 2005-12-20 2007-06-25 한국전자통신연구원 온톨로지를 이용한 시맨틱 블로그 관리 시스템 및 방법
KR100720762B1 (ko) * 2007-01-30 2007-05-23 (주) 프람트 사용자의 상황 정보를 이용한 유사도 계산 및 콘텐츠의검색 방법
KR20090000284A (ko) * 2007-02-14 2009-01-07 (주)인포메딕스프리벤션테크놀로지 관심주제에 대한 동향 및 성향 분석시스템

Also Published As

Publication number Publication date
KR101072147B1 (ko) 2011-10-10
KR20100091367A (ko) 2010-08-19

Similar Documents

Publication Publication Date Title
US10698964B2 (en) System and method for automatically detecting and interactively displaying information about entities, activities, and events from multiple-modality natural language sources
Kassim et al. Introduction to semantic search engine
US20150254230A1 (en) Method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model
WO2012070840A2 (ko) 컨센서스 검색 장치 및 방법
US20140195884A1 (en) System and method for automatically detecting and interactively displaying information about entities, activities, and events from multiple-modality natural language sources
WO2011129481A1 (ko) Rdf 탐색기반 질의응답 서비스 시스템 및 방법
KR20100068532A (ko) 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법
WO2011162446A1 (ko) 온톨로지 스키마와 결합된 개체명 사전 및 마이닝 규칙을 이용한 용어의 개체명 결정모듈 및 방법
Spitz et al. EVELIN: Exploration of event and entity links in implicit networks
WO2010093101A1 (ko) 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법 및 그 시스템
Golub et al. EnTag: enhancing social tagging for discovery
WO2012046904A1 (ko) 다중 자원 기반 검색정보 제공 장치 및 방법
WO2014148664A1 (ko) 단어의 의미를 기반으로 하는 다국어 검색 시스템, 다국어 검색 방법 및 이를 이용한 이미지 검색 시스템
WO2019112223A1 (ko) 전자 문서 검색 방법 및 그 서버
JP2021064143A (ja) 文作成装置、文作成方法および文作成プログラム
Iwaniak et al. Semantic metadata for heterogeneous spatial planning documents
Vrkić Are they a perfect match? Analysis of usage of author suggested keywords, IEEE terms and social tags
WO2012046905A1 (ko) 다중 자원의 통합에 의한 자원 검색 장치 및 방법
Neelameghan et al. Multilingual Thesaurus and Interoperability.
Spector Architecting knowledge middleware
Lindemann et al. Metalexicography as knowledge graph
Paulus et al. Recommending Semantic Concepts for Improving the Process of Semantic Modeling
Kalinauskaitė To be findable, accessible, interoperable and reusable: language data and technology infrastructure for supporting the FAIR data approach
WO2018139778A1 (ko) 수치정보 검색이 가능한 수치정보 관리장치
Lei et al. An infrastructure for building semantic web portals

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09840091

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09840091

Country of ref document: EP

Kind code of ref document: A1