KR20100073793A - 집단지성을 이용한 지식 구조화 장치 및 그 방법과, 그를 이용한 지식서비스 제공 시스템 - Google Patents

집단지성을 이용한 지식 구조화 장치 및 그 방법과, 그를 이용한 지식서비스 제공 시스템 Download PDF

Info

Publication number
KR20100073793A
KR20100073793A KR1020080132558A KR20080132558A KR20100073793A KR 20100073793 A KR20100073793 A KR 20100073793A KR 1020080132558 A KR1020080132558 A KR 1020080132558A KR 20080132558 A KR20080132558 A KR 20080132558A KR 20100073793 A KR20100073793 A KR 20100073793A
Authority
KR
South Korea
Prior art keywords
knowledge
response
query
collecting
representative
Prior art date
Application number
KR1020080132558A
Other languages
English (en)
Inventor
정현준
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020080132558A priority Critical patent/KR20100073793A/ko
Publication of KR20100073793A publication Critical patent/KR20100073793A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 집단지성을 이용한 지식 구조화 장치 및 그 방법과, 그를 이용한 지식서비스 제공 시스템에 관한 것으로서, 집단지성을 대상으로 하여 체계적인 구조의 지식(예를 들어, 온톨로지 형태의 지식)을 자동으로 생성함으로써 지식의 정규화 및 재 사용성을 높이고, 다양한 지식 서비스와 연계될 수 있는 지식 구조를 제공하고자 한다.
이를 위하여, 본 발명은, 집단지성을 이용한 지식 구조화 장치에 있어서, 집단지성 정보로부터 영역별로 질의어, 응답어 및 응답 관련 특성을 수집하기 위한 수집 수단; 상기 수집 수단에서 수집된 정보를 군집화하고, 군집화된 질의어에 대해서는 대표 질의어를 선정하며, 상기 응답 관련 특성 중에서 상기 대표 질의어와 의미적 연관이 높은 특성을 선정하기 위한 정보 분석 수단; 및 상기 수집 수단 및 정보 분석 수단에서 수집/선정된 정보를 이용하여 지식 구조화를 수행하기 위한 구조화 수단을 포함한다.
지식 서비스, 지식 구조화, 집단지성, 온톨로지, 데이터 마이닝

Description

집단지성을 이용한 지식 구조화 장치 및 그 방법과, 그를 이용한 지식서비스 제공 시스템{APPARATUS AND METHOD FOR KNOWLEDGE STRUCTURALIZATION USING COLLECTIVE INTELLIGENCE, AND METHOD FOR PROVIDING KNOWLEDGE SERVICE USING IT}
본 발명은 집단지성을 이용한 지식서비스 제공에 관한 것으로, 더욱 상세하게는 집단지성으로부터 수집된 데이터를 데이터 마이닝 기술을 통해 지식 구조를 분석해서 온톨로지 형태로 체계화함으로써, 지식의 정규화 및 재 사용성을 높이고, 다양한 지식 서비스와 연계성을 높일 수 있는, 집단지성을 이용한 지식 구조화 장치 및 그 방법과, 그를 이용한 지식서비스 제공 시스템에 관한 것이다.
종래의 지식 서비스는 웹 상에 산재한 데이터를 수집해서 그 정보를 의미 기반이 아닌 '문자 매칭 기반'의 데이터 프로세싱을 통해 사용자가 원하는 지식에 대한 정보 서비스를 제공하였다.
특히, 종래의 검색 서비스의 경우에는 사용자의 질의어와 완전 일치 또는 부 분 일치되는 정보만을 검색해주거나, 추천 서비스의 경우에도 사용자의 성향과 문자적으로 일치되는 성향만을 추천해주는 서비스에 불과하였다.
상기와 같은 종래의 지식 서비스는 일차원적인 정보 처리를 기반으로 하는 지식 서비스이기 때문에 사용자의 서비스 만족도가 낮고, 또한 처리해야 하는 정보의 양이 매우 방대하다는 문제가 있다.
최근 들어, 상기와 같은 종래 기술의 문제점을 보완하기 위하여, '의미 기반 정보 처리 기술'에 대한 연구가 활발히 진행되면서 정보들에 내재된 의미를 재해석하여 지식을 제공하려는 서비스들이 시도되고 있다.
하지만, 아직 초보적인 수준의 연구에 그치고 있으며, 따라서, 온톨로지와 데이터마이닝 기술을 통하여 정보와 정보 사이에 내재된 의미들을 재해석하고 그 재해석 된 의미를 통하여 정보 서비스에 대한 고객의 만족도를 높이고, 더불어 분석/처리의 대상이 되는 정보의 양을 감소시킬 수 있는 방안이 절실히 요구된다.
특히, 웹 공간에 널리 분포하는 사용자들의 집단 지성은 그 방대한 규모와 풍부한 지식으로 각광받고 있지만, 종래의 정보 데이터베이스 기술로는 단순한 사용자 태그와 같은 것을 제외하고는 정규화된 지식으로 구축하는 것이 곤란하기 때문에 집단 지성의 장점을 새로운 지식 서비스로 연결하는데에는 한계가 있다.
본 발명은 집단지성을 대상으로 하여 체계적인 구조의 지식(예를 들어, 온톨 로지 형태의 지식)을 자동으로 생성함으로써 지식의 정규화 및 재 사용성을 높이고, 다양한 지식 서비스와 연계될 수 있는 지식 구조를 제공하는데 그 목적이 있다.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명은 집단지성을 이용한 지식 구조화 장치에 있어서, 집단지성 정보로부터 영역별로 질의어, 응답어 및 응답 관련 특성을 수집하기 위한 수집 수단; 상기 수집 수단에서 수집된 정보를 군집화하고, 군집화된 질의어에 대해서는 대표 질의어를 선정하며, 상기 응답 관련 특성 중에서 상기 대표 질의어와 의미적 연관이 높은 특성을 선정하기 위한 정보 분석 수단; 및 상기 수집 수단 및 정보 분석 수단에서 수집/선정된 정보를 이용하여 지식 구조화를 수행하기 위한 구조화 수단을 포함한다.
또한, 본 발명은, 집단지성을 이용한 지식 구조화 방법에 있어서, 집단지성 정보로부터 영역별로 질의어, 응답어 및 응답 관련 특성을 수집하는 수집 단계; 상기 수집 단계에서 수집된 정보를 군집화하고 군집 별로 대표 질의어를 선정하는 분 류 단계; 상기 응답 관련 특성 중에서 상기 대표 질의어와 의미적 연관이 높은 특성을 선정하는 연관 단계; 및 상기 수집 단계, 상기 분류 단계, 및 상기 연관 단계에서 수집/선정된 정보를 이용하여 지식 구조화를 수행하는 구조화 단계를 포함한다.
또한, 본 발명은, 집단지성을 이용한 지식서비스 제공 시스템에 있어서, 집단 지성 정보로부터 영역별로 질의어, 응답어 및 응답 관련 특성을 수집하고, 상기 수집된 질의어/응답어의 군집화, 대표 질의어 선정, 및 상기 응답 관련 특성과 상기 대표 질의어와 의미적 연관에 기초하여 온톨로지 형태의 구축된 지식을 저장/관리하는 온톨로지 엔진; 및 오픈 어플리케이션 인터페이스를 이용하여 외부의 지식서비스 요청자와 상기 온톨로지 엔진을 연결하기 위한 지식서비스 인터페이스 수단을 포함한다.
상기와 같은 본 발명은, 웹상에 산재한 집단지성을 기반하여 자동으로 온톨로지 형태의 지식 구조를 구축할 수 있고, 이렇게 구축된 지식구조를 바탕으로 검색, 추천, 광고 등과 같은 다양한 지식 서비스의 제공을 가능하게 하는 효과가 있다.
즉, 본 발명은 지식 구축의 측면에서 기존에 대상이 되지 않던 집단 지성이라는 특정 대상으로부터 보다 질 높은 지식 구조를 온톨로지의 형태로 자동 구축하는 알고리즘을 제공하며, 이렇게 구축된 지식구조는 Open API 형태의 지식 플랫폼 을 통해 다양한 플랫폼에서의 지식 서비스와 연계를 가능하게 하는 효과가 있다.
또한, 본 발명은, 특정 지식 서비스를 제공하기 위해 기존에 필요했던 사전 지식 구축 작업의 비용이 현저히 절감시켰으며, 보다 질 높은 지식 서비스를 제공하는 효과가 있다.
또한, 본 발명은, 사용자들이 생산하는 집단 지성의 특성을 시간의 변화에 따라 자동으로 지식 구조에 반영함으로써 지식 서비스 플랫폼의 동적인 진화를 가능하게 하고, 이로 인하여 지식 서비스 플랫폼의 구축과 관련된 경제적 비용을 감소시키고 새로운 서비스 창출을 유동하는 효과가 있다.
또한, 본 발명에 따른 지식 서비스는 시맨틱 검색, 시맨틱 추천, 시맨틱 광고 등의 서비스에서 응용 가능하며, 더 나아가 다양한 시맨틱 기반의 응용 서비스와 연계될 수 있는 효과가 있다. 즉, 본 발명은 기존의 협소한 영역에서의 일회적인 지식 구축이나 의미에 기반하지 않는 일반 지식 서비스가 아닌 의미 기반의 재활용 가능한 지식 플랫폼이라는 특성으로 인하여 다양한 용도로의 응용을 가능하게 하는 효과가 있다.
본 발명은 온톨로지 기술과 데이터 마이닝 기술을 활용하여 사용자들이 생산하는 집단지성을 토대로 새로운 지식 서비스에 사용할 수 있는 지식 플랫폼(지식서비스 데이터베이스)을 구축하는 것을 특징으로 한다.
본 발명은 의미 기반 정보 처리 기술 방안의 하나인 온톨로지와 데이터 마이 닝 기술을 활용하여, 집단지성이라는 새로운 형태의 정보를 효율적으로 분류 및 분석하여 지식화하고 그 구조화된 지식을 이용하여 새로운 응용 서비스에 활용할 수 있는 플랫폼을 구축하는 것을 특징으로 한다.
이를 위해서는, 우선, 수집 대상이 되는 집단 지성을 효과적으로 모으기 위해 집단 지성을 몇 가지 모델로 분류하고 그 각각에 대한 수집 방법을 다르게 적용한다. 이러한 과정을 거쳐 수집된 집단 지성의 데이터들은 의미를 지니는 지식구조로 분석되는데, 이 과정에서 기존의 구축된 사전 지식 트리를 활용하여 집단 지성을 분석하게 된다. 이 분석된 지식구조는 온톨로지 형태로 자동으로 매핑되어 지식 표현의 형태를 갖추게 되고, 표현된 온톨로지는 Open API를 통해 다양한 지식 서비스와 연계되게 된다.
요컨대, 본 발명은 지식의 정규화 및 재 사용성에 목적으로 두고 온톨로지 기술과 데이터 마이닝 기술을 융합하여 범용적인 지식 플랫폼(지식서비스 데이터베이스)을 만들고 그 지식 플랫폼을 토대로 다양한 지식 서비스를 가능하게 하는 것이다.
상술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되어 있는 상세한 설명을 통하여 보다 명확해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다.
도 1은 본 발명에 따른 집단지성을 이용한 지식 구조화 장치의 일실시예 구성도이다.
본 발명에 따른 지식 구조화 장치는, 도 1에 도시된 바와 같이, 집단지성 수집부(11), 정보분석부(12), 및 구조화부(13)를 포함하여 이루어진다. 이하, 각각의 구성요소에 대하여 설명하기로 한다.
집단지성 수집부(11)는 집단지성 정보로부터 영역별로 질의어, 응답어 및 응답 관련 특성을 수집하는 기능을 수행하는 것으로서, 더욱 상세하게는 질의어 수집기(111), 응답 수집기(112), 태그 수집기(113), 및 태그 사전(114)을 포함하여 이루어진다.
질의어 수집기(111)는 질의/응답 형식의 집단지성 데이터로부터 영역별로 질의어를 수집하고, 응답 수집기(112)는 질의/응답 형식의 집단지성 데이터로부터 영역별로 응답어 및 응답 관련 특성을 수집한다. 한편, 태그 수집기(113)는 태그가 있는 집단지성 데이터의 해당 태그로부터 질의어/응답어에 대한 유의어를 수집하고, 이를 이용하여 태그 사전을 생성한다. 이들에 대한 상세한 설명은, 도 3에서 하기로 한다.
정보 분석부(12)는 집단지성 수집부(11)에서 수집된 정보를 군집화하고, 군집화된 질의어에 대해서는 대표 질의어를 선정하며, 상기 응답 관련 특성 중에서 대표 질의어와 의미적 연관이 높은 특성을 선정하는 기능을 수행하는데, 이에 대해서는 도 4에서 상세히 설명하기로 한다.
구조화부(13)는 온톨로지 엔진을 구축하는 것으로서, 집단지성 수집부(11) 및 정보 분석부(12)에서 수집/선정된 정보를 이용하여 지식 구조화를 수행하되, 대표 질의어는 클래스, 상기 선정된 특성과 관련된 질의어는 규칙으로 표현되는 온톨로지를 구축한다. 더욱 상세하게는, 온톨로지 클래스 생성기(131), 온톨로지 규칙 생성기(132), 및 온톨로지 용어사전 생성기(133)를 포함하여 이루어진다. 여기서, 온톨로지 클래스 생성기(131)는 질의어 군집별 대표 질의어를 온톨로지 상의 클래스에 위치시키고, 온톨로지 규칙 생성기(132)는 상기 선정된 특성과 관련된 질의어를 규칙으로 표현하는 기능을 수행한다. 그리고, 온톨로지 용어사전 생성기(133)는 수집된 정보 및 태그 사전 등을 이용하여 온톨로지 용어사전을 구성한다.
도 2는 본 발명에 따른 집단지성을 이용한 지식 구조화 방법에 대한 일실시예 흐름도이다.
본 발명에 따른 집단지성을 이용한 지식 구조화 방법은 도 2에 도시된 바와 같이, 집단 지성 수집 과정(200), 수집된 집단지성을 분석하여 지식구조를 구축하는 과정(정보 분석 과정)(202), 구축된 지식구조를 온톨로지로 구현하는 과정(지식 구조화 과정)(204)으로 이루어진다.
첫째, 집단지성 수집 과정(200)은 집단지성 수집부(11)에서 수행되는 과정으로서, 집단지성 정보로부터 영역별로 질의어, 응답어 및 응답 관련 특성을 수집하는 과정이며, 이에 대해서는 도 3에서 상세히 설명하기로 한다.
둘째, 정보 분석 과정(202)은 정보 분석부(12)에서 수행되는 과정으로서, 수 집 과정(200)에서 수집된 정보를 군집화하고 군집 별로 대표 질의어를 선정하고, 응답 관련 특성 중에서 대표 질의어와 의미적 연관이 높은 특성을 선정하는 과정이며, 이에 대해서는 도 4에서 상세히 설명하기로 한다.
셋째, 지식 구조화 과정(204)은 집단지성 수집 과정(200) 및 정보 분석 과정(202)에서 획득한 정보를 이용하여 지식서비스를 위한 온톨로지를 구성하되, 대표 질의어는 클래스, 상기 선정된 특성과 관련된 질의어는 규칙으로 표현하는 과정이며, 이에 대해서는 도 5에서 상세히 설명하기로 한다.
도 3은 본 발명에 따른 집단지성의 수집 방법에 대한 일실시예 설명도이다.
지식 구조화의 첫 단계로, 본 발명은 사용자들이 웹 상에서 집단 지성을 표현하고 공유하는 방식들 중에서 질의 및 응답 형태 또는 태그(tag)를 통하여 정보를 공유하는 경우를 수집 대상 정보로 한다.
먼저, 질의 및 응답(Question & Answer)형태의 집단 지성의 경우, 일반적으로 사용자들이 특정 영역(Domain)(예를 들어, 영화, 스포츠 등)에 대한 질문과 답변을 하는 과정을 기본 모델로 하여, 질문에 해당하는 언어와 답변에 해당하는 핵심 단어를 수집한다.
본 발명에 따른 질의어 수집 과정은 임의의 단어들을 수집하는 것이 아니라, 특정 영역에 대한 '기초(seed) 키워드'를 토대로 사용자들이 흔히 사용하는 질의어를 수집한다(300, 301, 302). 여기서, 기초 키워드란 해당 영역의 기본 용어 사전과 같은 것으로서, 예를 들어 영화(특정 영역)의 경우, 영화에 대한 기본 용어를 정리한 사전을 의미한다. 영화에 관련된 사용자들의 형용사나 부사들을 수집하게 되는 것이며, 해당 작업은 질의어 수집기(111)를 통해 이루어진다.
질의어를 수집한 이후, 질의문에 해당하는 사용자들의 응답을 수집하는 과정(310, 311, 312)이 이루어진다.
본 발명에 따른 응답 수집 과정의 경우도 응답에 해당하는 모든 언어를 전부 수집하는 것이 아니라, 특정 영역에 맞는 형용사, 명사 등을 영역별 기초 키워드를 이용하여 수집하는 것이다. 예를 들어, 영화에 관한 질의어가 “볼만한”이라는 언어로 수집되는 경우라면, 해당하는 응답은 특정 영화(예를 들어, "나니아 연대기" 등)가 되어야 하는 것이다. 이런 경우 기초 키워드 사전은 영화로 구성되는 사전이라고 할 수 있다. 기초 키워드 사전의 구성과 관련된 부분은 영역별로 제공되는 다양한 용어 사전을 이용할 수 있으며, 이로 인하여 지식 구조화를 원활하게 진행할 수 있다.
한편, 응답에 관련된 언어를 수집하는 과정이 수행된 후에는, 응답된 언어들에 의미를 부여하기 위해 필요한 '특성(Feature)'에 관한 언어를 수집하는 과정이 수행된다(320, 321, 322). 예를 들어, 영화의 경우, 영화에 해당하는 특성들, 즉 영화를 드러내는 단어인 배우, 장르, 평점, 제작사, 제작년도 등의 다양한 특성들을 수집하는 과정을 말한다. 이렇게 수집된 특성 언어들은 특정 응답어와의 관계성을 통해 의미를 부여하는 과정에 사용된다.
다음은, 태그 수집 과정에 대하여 설명하기로 한다.
집단지성의 대상 데이터 중에서 두 번째 대상이 되는 '태그(tag)'는 특정 개 념과 관련되어 사용자들이 생산해내는 다양한 언어를 의미한다. 예를 들어, 영화 태그란 특정 영화와 관련된 주요 정보를 키워드로 덧붙이는 것을 의미하는 것으로서, 그 특정 영화와 관련된 소재나 장르, 영화의 느낌 등을 태그로 표현한 것이다. "브레이브 하트"라는 영화에 대하여 등록된 태그로는 '스코틀랜드', '독립', '감동', '전쟁' 등이 있다.
다시 말해, 태그는 질의어 수집기(111)와 응답 수집기(112)를 통해 수집된 언어와 유사성을 갖는 언어들의 집합을 구성할 수 있게 하며, 결국 사용자들이 생각하는 특정 개념과 유사한 다른 단어의 집합을 통해 유사 의미를 갖는 언어의 집합군을 구성할 수 있도록 한다.
태그 수집 과정을 거쳐 수집된 '유사한 의미를 갖는 태그의 집합'은 용어 사전(114)으로 구성될 수 있으며, 그 구성된 용어 사전은 정보 분석부(12)와 함께 지식 플랫폼 구축을 위한 언어 사전으로 사용된다.
도 4는 본 발명에 따른 수집된 집단지성을 분석하여 지식 구조를 구축하는 방법에 대한 일실시예 설명도이다.
수집된 집단지성의 정보는 군집화(clustering)와 분류화(classification) 단계를 거치면, 지식구조를 구축하기 위한 기본 토대가 된다.
질의어 수집기(111)와 응답 수집기(112)를 통해 수집된 단어들은 그 자체로서는 아무런 지식 구조와 연결될 수 없는 단순한 어휘들이다.
이러한 어휘들을 의미 있는 지식구조로 구조화하기 위해서는, 해당 어휘들의 성격을 군집화하고 분류화하는 과정을 통하여, 해당 언어들이 온톨로지로 표현되는 특정 지식 구조에서 어느 부분에 위치하게 되는지에 대한 의미를 파악을 해주어야 한다. 또한, 해당 어휘들의 군집화를 통해 특정 그룹들 간의 관계성을 부여함으로써, 논리적 추론 및 논증을 가능하게 한다.
상기와 같은 필요성에 따라 가장 기본적인 과정으로서, 군집화와 분류를 통하여 각 언어들을 정리하게 된다.
수집된 질의어와 응답의 경우, 각 단어들을 군집화하여 동일한 군집의 특성을 지니는 언어들을 하나의 군집으로 묶는다. 예를 들어, 영화 영역에 관한 집단 지성을 활용하고자 하는 경우, 영화에 관한 사용자들의 질의어를 비슷한 개념의 단어들끼리 묶는다. “인기있는”이라는 개념은 “볼만한”, “평점이 높은”, “관객이 많은”등과 같은 의미로 군집화하여 해당 단어들을 동일한 개념의 군집으로 묶는 것이다.
그리고 나서, 그 군집을 “인기있는”이라는 대표 어휘로 분류화하는 작업을 수행한다. 여기서, 대표 어휘는 사용 빈도에 기초하여 결정하게 된다. 분류의 과정에서는 비슷한 특성을 갖는 언어들끼리 묶인 군집에서 특성을 추출하여 그 군집의 대표성을 부여하고, 해당 군집들의 포함관계나 유사 관계성을 추출한다. 이 과정을 수행함에 있어서, 비슷한 특성을 갖는 언어를 모으기 위하여 미리 정의된 용어 사전을 활용하게 된다.
다음으로, 질의어에 대한 군집화와 분류화를 이룬 후에는 특정 질의어에 해당하는 응답들의 개념을 부여하고 분석하는 과정이 수행된다. 이 과정은 특정 질의 어를 어떤 의미로 해석해서 지식화할 것인가에 대한 기본적인 구조를 설계하는 부분이라고 할 수 있다.
분류화된 사용자 질문 집합과 응답 집합을 이용해서 응답 집합의 공통적 특성을 분석해 낸다. 그리고 나서, 응답 집합의 특성들이 질문과 응답의 의미적인 관계를 얼마나 잘 설명해줄 수 있는지를 의미적 관계의 거리도로 해석한다.
예를 들어, q1이라고 질의가 된 응답의 단어들(302)이 a1, a2, a3라는 VOD contents라고 가정한다면(312), a1, a2, a3가 갖는 다양한 특성들 f1, f2, f3(322)가 추출된다. 그리고, 추출된 특성 중에서 q1과 가장 의미적 거리가 가까운 특성을 찾기 위해 의미적 거리 관계에 있어서 유사성이 가장 높은 f를 찾아내기 위해, 기존의 max_similarity() 알고리즘을 사용한다. 만약 이 결과가 f2라고 가정하면, 이를 기반으로 q1의 특성을 갖는 영화와 f2라는 특성을 갖는 영화가 의미적으로 유사한 관계를 갖는다고 정의하게 된다. 이러한 정의는 다음 단계에서 개발되는 온톨로지의 규칙생성기(132)에서 본격적으로 활용되게 된다. 위의 내용을 정리하면 다음의 [수학식 1]과 같다.
질문1에서 수집 및 추출한 단어의 대표군 : q1
질문1에 대한 응답1에서 등장한 단어 집합 : A1 = {a1, a2, a3, ...}
A1 집합에 속하는 단어들의 특성의 집합 : F1 = {f1, f2, f3, ...}이라고 가정할 때,
max_similarity(q1, fk) = Arg_max(similarity(q1, fk))
위의 알고리즘에서 Similarity를 계산하는 과정은 아래의 [수학식 2]와 같은 알고리즘을 통해 작동하게 된다. 이 알고리즘에서 min_distance()는 용어 사전 내에서 특정 영역 d에 대한 단어 중에 질의어 q와 특성 관련 단어 f가 얼마나 가까운 거리에 존재하는가를 검사하는 알고리즘이다. 이 알고리즘은 용어 사전 내에서의 거리 계산 관련 모듈을 통해 수행된다.
D는 특정 영역(Domain)에서의 사전(dictionary)으로 볼 때,
similarity(q, f) = min_distance(q, f, d)
구체적으로 예를 들어 설명하면, "볼만한"이라는 대표 질의어에 대하여 응답한 '영화'를 수집하면(400) "401"과 같이 다수의 영화가 수집된 경우, 그 수집된 영화의 특성(feature) 중에서 "볼만한"의 특징으로 가장 잘 드러내는 것이 '평점'이라는 특성이라는 사실을 분석해낸다(410, 411). 그러면, '평점' 정보를 토대로 "볼만한"이라는 대표 질의어와 영화 평점 사이의 관계(예를 들어, 영화 평점이 "8.21"이상인 경우가 볼만한 영화라는 관계)를 모델링한다(420, 421).
즉, 질의어 집합과 응답 집합을 이용해서 응답 집합의 공통 특성을 분석하고, 그 응답 집합의 공통 특성 중에서 대표 질의어(예를 들어, "볼만한")와의 의미 적으로 최단 거리에 있는(의미적 관계의 거리가 가장 가까운) 대표 특성을 선정하고, 상기 대표 특성과 상기 대표 질의어의 관계를 모델링한다. 실시예에 따라서는 대표 특성을 복수로 선정할 수 있는데, 이 경우에는 대표 질의어와의 의미적 거리가 일정한 기준치 이내인 공통 특성들을 대표 특성으로 정할 수도 있다.
상기와 같은 일련의 과정을 통해 집단 지성에서 흔히 쓰이는 사용자들의 질문과 응답, 그리고 태그 정보를 토대로 한 언어 간의 연관 관계가 기본 구조로 완성되게 되는 것이다.
도 5는 본 발명에 따른 온톨로지 규칙 및 관계의 생성에 대한 일실시예 설명도이다.
"200" 및 "202" 단계를 거쳐 구축된 지식은 온톨로지로 구현되는 과정에서 3가지 과정으로 응용되어 사용된다.
첫째, 질의어 수집과 응답 수집의 과정, 그리고 태그 수집의 과정을 통해 구축된 지식에서 대표군의 단어로 선정된 것들은 온톨로지에서 "클래스(Class)"로 구성된다. 예를 들어, “인기있는”이라는 개념은 위의 과정을 거쳐 “볼만한”, “평점이 높은”, “관객이 많은”과 같은 의미로 군집화하여 존재하게 되는데, 이 군집에서는 “인기있는”이라는 언어가 클래스 상에 존재하게 되고, 나머지 언어들은 “인기있는”과 의미상 유사한 유의어로서 온톨로지 용어 사전에 유의어로서 등재되게 된다.
둘째, 정보 분석의 과정에서 의미상 거리 관계가 유사한 용어들은 온톨로지 상에서 "규칙(Rule)"으로 표현되게 된다. 예를 들어, “볼만한”이라는 질문에 대한 사용자들의 응답 VOD contents의 공통적 특징이 “평점이 높은” VOD contents이고, 이들 간의 의미적 관계도가 높다면(500), “볼만한”이라는 언어는 “평점이 높은”이라는 의미로 재해석하게 되며, 이것을 온톨로지에서는 클래스 간의 수직 관계를 통해 표현하게 된다(502). 만약, 이러한 특성을 갖는 언어가 다수가 나오는 경우에는(500, 501, 503) 확률에 근거하여 다양한 특성들이 도 5와 같이 특정 언어를 해석하는 규칙을 생성하게 된다.
도 5를 상세히 설명하면 다음과 같다. f가 2개 이상이라는 의미는 특정 q를 표현해주는 지식의 구조가 단순히 하나의 특성 f로 설명되는 것이 아니라, 2개 이상의 f의 조합으로 설명된다는 의미이다. 즉, “신나는 영화 ”라는 q에 대한 여러 개의 f중 장르에 해당하는 “액션 영화 or 어드벤쳐 영화 or 코믹 영화”와 같은 형태로 기술될 수 있다는 것을 의미한다. 따라서, "503"에서 의미하듯 q= f1 or f2 or f3 등의 형태로 기술된다.
세 번째 과정으로, 온톨로지 클래스와 관계 및 규칙을 생성하고 난 후, 온톨로지가 적절히 작동하기 위해서는 온톨로지의 용어들을 적절히 처리하기 위한 동의 및 유의어 사전을 작성해야 한다.
예를 들어, 대표군 단어인 “인기 있는”이라는 용어의 유의어들을 적절히 다루지 못하면, 실제 서비스에 있어서 사용자들이 입력하는 다양한 단어들을 본 발명에서의 지식 구조를 통해 서비스할 수 없기 때문이다.
이러한 온톨로지 용어 사전의 생성은 기본적으로 다음과 같은 과정을 통해 진행된다. 우선, 사용자 질의어 수집과 응답 수집, 그리고 태그 수집에서 구성된 모든 단어를 의미상의 거리가 일정 수준 이상으로 가까운 것들끼리 유의 관계로 구성한다. 그리고, 규칙 및 관계 생성에서 표현된 것들끼리는 포함 관계로 구성하여 사전을 구성하게 된다. 이렇게 다차원적인 사전 구성의 장점은 수평적으로는 유의 관계의 단어들을 찾게 하게 되며, 수직적으로는 의미적으로 포함관계를 갖는 단어들을 표현하게 하여 다양한 지식 서비스에서 활용할 수 있게 된다.
도 6은 본 발명에 따른 지식 서비스 제공 시스템의 일실시예 구성도로서, 지식 서비스 Open API의 사용 및 다양한 지식 서비스와의 연계를 나타낸다.
본 발명에 따라 구조화된 지식은 그 자체로서는 서비스와의 연계가 불가능하다. 따라서 검색이나 추천, 광고 등과 같은 지식 서비스(63)와의 연계를 위해서는 온톨로지와 용어 사전에 대하여 접근 가능한 인터페이스(interface)가 필요하다.
이를 위해서, 본 발명에서는 웹 2.0 이후 널리 사용되는 개념인 Open API 형태의 웹 메시징 인터페이스(Web Messaging Interface)를 활용함으로써, 다양한 지식 응용서비스들이 웹 질의(Web Request) 형태의 메시지를 통해 본 발명에 따른 지식구조의 데이터를 활용할 수 있는 플랫폼을 제공한다.
만약, 기존 기술처럼 온톨로지 엔진을 활용할 경우에는, 온톨로지에서 클래스와 인스턴스, 그리고 그 요소들 사이의 관계와 규칙에 관한 부분들은 온톨로지 서버를 통해 직접 접근이 가능하다.
하지만, 이런 경우에는 본 발명을 통해 구성된 지식 구조(61)가 외부로 노출 되는 위험 요소가 발생하며, 이는 보안상의 문제를 야기한다. 따라서 본 발명에서는 온톨로지 접근 인터페이스를 Open API형태(62)로 Wrapping하여 보안성을 높이고, 동시에 웹 질의(Web Request)의 형태로 메시지 타입(Message Type)을 통일화하여 다양한 플랫폼에서의 응용 어플리케이션이 별도의 제한 없이 웹을 이용하여 본 발명에 의한 지식 플랫폼을 활용할 수 있게 한다.
Open API(62)가 없이 온톨로지 엔진(61)이 외부에 바로 노출되는 형태가 기존의 방식임에 반하여, 본 발명에서는 지식 서비스 Open API(62)를 통하여 클래스와 인스턴스, 온톨로지 규칙 및 관계, 그리고 온톨로지 용어 사전 등(61)을 이용하게 한다. 여기서, 온톨로지 엔진(61)은 온톨로지 클래스(611), 온톨로지 규칙(612), 온톨로지 용어 사전(613)을 포함하여 구성되는 것으로서, 이는 도 1의 지식 구조화 장치(10)에 의하여 구축된 것이다.
도 7은 종래의 트리플 형태의 온톨로지와 본 발명에 따른 온톨로지의 비교에 대한 설명도이다.
종래의 트리플(Triple) 형태의 온톨로지(70)는 지식을 트리플로 표현해야 함으로써, 중복되는 지식 표현이 많다는 단점이 있다. 또한 종래의 온톨로지(70)는 기존의 데이터베이스에 비해 표현이 형태만 변화한 것에 불과하다.
반면에, 본 발명에 따른 온톨로지(71)는 중복 개념의 객체(Object)(711)를 하나의 대표 개념(712)으로 표현함으로써 온톨로지 용량을 축소할 수 있으며, 또한 유의어 사전(713), 반의어 사전을 통해 의미론적 추론을 사용함으로써, 보다 폭 넓 은 의미 기반 검색이 가능하다.
한편, 전술한 바와 같은 본 발명의 방법은 컴퓨터 프로그램으로 작성이 가능하다. 그리고 상기 프로그램을 구성하는 코드 및 코드 세그먼트는 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 상기 작성된 프로그램은 컴퓨터가 읽을 수 있는 기록매체(정보저장매체)에 저장되고, 컴퓨터에 의하여 판독되고 실행됨으로써 본 발명의 방법을 구현한다. 그리고 상기 기록매체는 컴퓨터가 판독할 수 있는 모든 형태의 기록매체를 포함한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
도 1은 본 발명에 따른 집단지성을 이용한 지식 구조화 장치의 일실시예 구성도,
도 2는 본 발명에 따른 집단지성을 이용한 지식 구조화 방법에 대한 일실시예 흐름도,
도 3은 본 발명에 따른 집단지성의 수집 방법에 대한 일실시예 설명도,
도 4는 본 발명에 따른 수집된 집단지성을 분석하여 지식 구조를 구축하는 방법에 대한 일실시예 설명도,
도 5는 본 발명에 따른 온톨로지 규칙 및 관계의 생성에 대한 일실시예 설명도,
도 6은 본 발명에 따른 지식 서비스 제공 시스템의 일실시예 구성도,
도 7은 종래의 트리플 형태의 온톨로지와 본 발명에 따른 온톨로지의 비교에 대한 설명도이다.

Claims (20)

  1. 집단지성을 이용한 지식 구조화 장치에 있어서,
    집단지성 정보로부터 영역별로 질의어, 응답어 및 응답 관련 특성을 수집하기 위한 수집 수단;
    상기 수집 수단에서 수집된 정보를 군집화하고, 군집화된 질의어에 대해서는 대표 질의어를 선정하며, 상기 응답 관련 특성 중에서 상기 대표 질의어와 의미적 연관이 높은 특성을 선정하기 위한 정보 분석 수단; 및
    상기 수집 수단 및 정보 분석 수단에서 수집/선정된 정보를 이용하여 지식 구조화를 수행하기 위한 구조화 수단
    을 포함하는 지식 구조화 장치.
  2. 제 1 항에 있어서,
    상기 수집 수단은,
    질의/응답 형식의 집단지성 정보로부터 영역별로 질의어, 응답어, 및 응답 관련 특성을 수집하기 위한 질의어/응답 수집 수단; 및
    태그가 있는 집단지성 정보의 해당 태그로부터 상기 질의어/응답어에 대한 유의어를 수집하기 위한 태그 수집 수단
    을 포함하는 지식 구조화 장치.
  3. 제 2 항에 있어서,
    상기 질의어/응답 수집 수단은,
    특정 영역에 대한 기초 키워드를 바탕으로 상기 질의어 및 상기 응답어를 수집하는 지식 구조화 장치.
  4. 제 3 항에 있어서,
    상기 기초 키워드는,
    해당 영역에 대한 용어 사전에 해당하는 지식 구조화 장치.
  5. 제 2 항에 있어서,
    상기 태그 수집 수단은,
    상기 수집된 유의어를 이용하여 유의어 사전을 구축하는 지식 구조화 장치.
  6. 제 1 항에 있어서,
    상기 정보 분석 수단은,
    상기 수집된 단계에서 수집된 정보의 언어적 성격에 기초하여 군집화를 수행 하는 지식 구조화 장치.
  7. 제 1 항에 있어서,
    상기 대표 질의어는,
    사용 빈도에 기초하여 결정되는 지식 구조화 장치.
  8. 제 1 항에 있어서,
    상기 정보 분석 수단은,
    질의어 집합과 응답 집합을 이용해서 응답 집합의 공통 특성을 분석하고, 상기 응답 집합의 공통 특성 중에서 상기 대표 질의어와의 의미적으로 최단 거리에 있는 대표 특성을 선정하고, 상기 대표 특성과 상기 대표 질의어의 관계를 모델링하는 지식 구조화 장치.
  9. 제 1 항에 있어서,
    상기 구조화 수단은,
    상기 대표 질의어는 클래스, 상기 선정된 특성과 관련된 질의어는 규칙으로 표현되는 온톨로지를 구축하는 지식 구조화 장치.
  10. 집단지성을 이용한 지식 구조화 방법에 있어서,
    집단지성 정보로부터 영역별로 질의어, 응답어 및 응답 관련 특성을 수집하는 수집 단계;
    상기 수집 단계에서 수집된 정보를 군집화하고 군집 별로 대표 질의어를 선정하는 분류 단계;
    상기 응답 관련 특성 중에서 상기 대표 질의어와 의미적 연관이 높은 특성을 선정하는 연관 단계; 및
    상기 수집 단계, 상기 분류 단계, 및 상기 연관 단계에서 수집/선정된 정보를 이용하여 지식 구조화를 수행하는 구조화 단계
    를 포함하는 지식 구조화 방법.
  11. 제 10 항에 있어서,
    상기 수집 단계는,
    질의/응답 형식의 집단지성 정보로부터 영역별로 질의어, 응답어, 및 응답 관련 특성을 수집하는 제1 수집 단계; 및
    태그가 있는 집단지성 정보의 해당 태그로부터 상기 질의어/응답어에 대한 유의어를 수집하는 제2 수집단계
    를 포함하는 지식 구조화 방법.
  12. 제 11 항에 있어서,
    상기 제1 수집 단계는,
    특정 영역에 대한 기초 키워드를 바탕으로 상기 질의어 및 상기 응답어를 수집하는 지식 구조화 방법.
  13. 제 12 항에 있어서,
    상기 기초 키워드는,
    해당 영역에 대한 용어 사전에 해당하는 지식 구조화 방법.
  14. 제 11 항에 있어서,
    상기 제2 수집단계는,
    상기 수집된 유의어를 이용하여 유의어 사전을 구축하는 지식 구조화 방법.
  15. 제 10 항에 있어서,
    상기 분류 단계는,
    상기 수집된 단계에서 수집된 정보의 언어적 성격에 기초하여 군집화를 수행 하는 지식 구조화 방법.
  16. 제 10 항에 있어서,
    상기 대표 질의어는,
    사용 빈도에 기초하여 결정되는 지식 구조화 방법.
  17. 제 10 항에 있어서,
    상기 연관 단계는,
    질의어 집합과 응답 집합을 이용해서 응답 집합의 공통 특성을 분석하는 단계;
    상기 응답 집합의 공통 특성 중에서 상기 대표 질의어와의 의미적으로 최단 거리에 있는 대표 특성을 선정하는 단계; 및
    상기 대표 특성과 상기 대표 질의어의 관계를 모델링하는 단계
    를 포함하는 지식 구조화 방법.
  18. 제 11 항에 있어서,
    상기 구조화 단계는,
    상기 대표 질의어는 클래스, 상기 선정된 특성과 관련된 질의어는 규칙으로 표현되는 온톨로지를 구축하는 지식 구조화 방법.
  19. 집단지성을 이용한 지식서비스 제공 시스템에 있어서,
    집단 지성 정보로부터 영역별로 질의어, 응답어 및 응답 관련 특성을 수집하고, 상기 수집된 질의어/응답어의 군집화, 대표 질의어 선정, 및 상기 응답 관련 특성과 상기 대표 질의어와 의미적 연관에 기초하여 온톨로지 형태의 구축된 지식을 저장/관리하는 온톨로지 엔진; 및
    오픈 어플리케이션 인터페이스를 이용하여 외부의 지식서비스 요청자와 상기 온톨로지 엔진을 연결하기 위한 지식서비스 인터페이스 수단
    을 포함하는 지식서비스 제공 시스템.
  20. 제 19 항에 있어서,
    상기 온톨로지 엔진은,
    제1항 내지 제9항 중 어느 한 항의 지식 구조화 장치에 의하여 구축된 것을 특징으로 하는 지식서비스 제공 시스템.
KR1020080132558A 2008-12-23 2008-12-23 집단지성을 이용한 지식 구조화 장치 및 그 방법과, 그를 이용한 지식서비스 제공 시스템 KR20100073793A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080132558A KR20100073793A (ko) 2008-12-23 2008-12-23 집단지성을 이용한 지식 구조화 장치 및 그 방법과, 그를 이용한 지식서비스 제공 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080132558A KR20100073793A (ko) 2008-12-23 2008-12-23 집단지성을 이용한 지식 구조화 장치 및 그 방법과, 그를 이용한 지식서비스 제공 시스템

Publications (1)

Publication Number Publication Date
KR20100073793A true KR20100073793A (ko) 2010-07-01

Family

ID=42636682

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080132558A KR20100073793A (ko) 2008-12-23 2008-12-23 집단지성을 이용한 지식 구조화 장치 및 그 방법과, 그를 이용한 지식서비스 제공 시스템

Country Status (1)

Country Link
KR (1) KR20100073793A (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016084994A1 (ko) * 2014-11-26 2016-06-02 주식회사 날리지큐브 방법지-사실지 매트릭스를 이용한 조직 지식관리방법
KR20200086574A (ko) * 2019-01-09 2020-07-17 네이버 주식회사 키워드 관계 구조를 이용한 신규 키워드 추출 방법 및 시스템
KR102201650B1 (ko) 2020-05-27 2021-01-12 주식회사 휴램프로 딥러닝 네트워크에 기반하여 노무 관리를 제공하는 방법 및 장치
KR20210038496A (ko) * 2019-02-11 2021-04-07 네이버 주식회사 키워드 관계 구조를 이용한 동의어 추출 방법 및 시스템
WO2022158776A1 (ko) * 2021-01-22 2022-07-28 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
KR20230135532A (ko) 2022-03-15 2023-09-25 유한회사 닥터다비드 집단지성화 알고리즘을 이용한 정보처리방법

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016084994A1 (ko) * 2014-11-26 2016-06-02 주식회사 날리지큐브 방법지-사실지 매트릭스를 이용한 조직 지식관리방법
KR20200086574A (ko) * 2019-01-09 2020-07-17 네이버 주식회사 키워드 관계 구조를 이용한 신규 키워드 추출 방법 및 시스템
KR20210038496A (ko) * 2019-02-11 2021-04-07 네이버 주식회사 키워드 관계 구조를 이용한 동의어 추출 방법 및 시스템
KR102201650B1 (ko) 2020-05-27 2021-01-12 주식회사 휴램프로 딥러닝 네트워크에 기반하여 노무 관리를 제공하는 방법 및 장치
WO2022158776A1 (ko) * 2021-01-22 2022-07-28 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
KR20230135532A (ko) 2022-03-15 2023-09-25 유한회사 닥터다비드 집단지성화 알고리즘을 이용한 정보처리방법

Similar Documents

Publication Publication Date Title
Andhale et al. An overview of text summarization techniques
Kaushik et al. A comprehensive study of text mining approach
US9715493B2 (en) Method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model
Claster et al. Thailand--Tourism and conflict: Modeling sentiment from Twitter tweets using naïve Bayes and unsupervised artificial neural nets
KR101045955B1 (ko) 문맥의 의미적 연관관계 추출 방법 및 그 장치와 그 프로그램 소스를 저장한 기록 매체
US20060047632A1 (en) Method using ontology and user query processing to solve inventor problems and user problems
KR101339103B1 (ko) 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
Liao et al. Unsupervised approaches for textual semantic annotation, a survey
US11055295B1 (en) Method and apparatus for determining search result demographics
JP2011529600A (ja) 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置
US20200409951A1 (en) Intelligence Augmentation System for Data Analysis and Decision Making
KR20100073793A (ko) 집단지성을 이용한 지식 구조화 장치 및 그 방법과, 그를 이용한 지식서비스 제공 시스템
Dorji et al. Extraction, selection and ranking of Field Association (FA) Terms from domain-specific corpora for building a comprehensive FA terms dictionary
Krzywicki et al. Data mining for building knowledge bases: techniques, architectures and applications
Gasparetti et al. Exploiting web browsing activities for user needs identification
Subhashini et al. Shallow NLP techniques for noun phrase extraction
Lee et al. A hierarchical document clustering approach with frequent itemsets
Garrido et al. The GENIE project-a semantic pipeline for automatic document categorisation
Hu et al. Embracing information explosion without choking: Clustering and labeling in microblogging
KR101374195B1 (ko) 학술적 과학 지식 메모리 기반의 심층 지식 제공 방법 및 이에 적합한 장치
Rabatel et al. Contextual sequential pattern mining
KR20220067808A (ko) 지식 그래프를 생성하는 장치, 방법 및 컴퓨터 프로그램
Mezentseva et al. Optimization of analysis and minimization of information losses in text mining
US20210342344A1 (en) Weighed Order Decision Making with Visual Representation
Demartini et al. A model for ranking entities and its application to wikipedia

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination