KR20140144877A - 지식 융합 시스템 및 방법 - Google Patents

지식 융합 시스템 및 방법 Download PDF

Info

Publication number
KR20140144877A
KR20140144877A KR20130066993A KR20130066993A KR20140144877A KR 20140144877 A KR20140144877 A KR 20140144877A KR 20130066993 A KR20130066993 A KR 20130066993A KR 20130066993 A KR20130066993 A KR 20130066993A KR 20140144877 A KR20140144877 A KR 20140144877A
Authority
KR
South Korea
Prior art keywords
infobox
template
target
subject
triple
Prior art date
Application number
KR20130066993A
Other languages
English (en)
Other versions
KR101497806B1 (ko
Inventor
이문용
홍순길
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020130066993A priority Critical patent/KR101497806B1/ko
Publication of KR20140144877A publication Critical patent/KR20140144877A/ko
Application granted granted Critical
Publication of KR101497806B1 publication Critical patent/KR101497806B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 지식 융합 시스템 및 방법에 관한 것으로, 상기 시스템은 소스 언어의 디비피디아를 기반으로 대상 도메인에 속하는 아티클들을 수집 및 분석하여 주제, 속성, 빈객체의 트리플 항목을 가지는 인포박스 템플릿을 생성하는 인포박스 템플릿 생성부; 상기 인포박스 템플릿의 속성 항목의 명칭을 호환 가능한 술어로 치환하는 술어 치환부; 소스 주제와 상기 소스 주제에 대응되는 타겟 주제를 검색하여 제시하는 정보 확인부; 소스 언어의 디비피디아를 기반으로 상기 소스 주제에 속하는 아티클을 획득한 후, 술어 치환된 상기 인포박스 템플릿에 대응되는 트리플을 추출하여 상기 인포박스 템플릿에 기입하는 트리플 추출부; 트리플 추출 완료된 상기 인포박스 템플릿을 소스 언어에서 타겟 언어로 모두 번역하는 트리플 번역부; 및 타겟 언어의 디비피디아를 기반으로 상기 타겟 주제에 속하는 아티클의 인포박스 데이터를 획득한 후, 번역된 상기 인포박스 템플릿의 트리플 항목과 융합하여 새로운 인포박스를 생성하는 데이터 융합부를 포함할 수 있다.

Description

지식 융합 시스템 및 방법{SYSTEM AND METHOD FOR KNOWLEDGE FUSION}
본 발명은 주제간 그리고 사용 언어 간에 발생할 수 있는 정보의 불균형을 최소화시키면서 디비피디아에 존재하는 지식들을 융합하여 새로운 지식을 창출할 수 있도록 하는 지식 융합 시스템 및 방법에 관한 것이다.
위키피디아는 웹(Web)상에서 누구나 목적에 관계없이 자유롭게 사용할 수 있는 공개형 백과사전으로 위키 문법(Wiki Syntax) 기반의 오픈 커뮤니티 웹사이트이다.
위키피디아 페이지는 아티클(article)이라는 단위로 불리며 하나의 아티클은 독립적인 주제(subject) 혹은 개체(entity)에 대한 설명을 하는 일반 텍스트 부분, 부가적인 정보를 제공하는 이미지, 하이퍼링크, 카테고리, 템플릿 등 다양한 구조화된 텍스트로 구성되어있다.
그 중 템플릿(template)은 위키에서 제공하는 유용한 기능 중 하나로 여러 페이지 내에서 반복적으로 사용되는 특정 부분을 미리 함수처럼 정의해놓고 여러 페이지에서 각 페이지에 맞게 인스턴스만 새롭게 추가하여 동일한 템플릿을 반복적으로 사용하는 것을 말한다.
이것은 프로그래밍 언어에서 외부함수를 불러 사용하는 기능과 동일하다. 위키피디아에서 제공하고 있는 템플릿 중 가장 많이 사용되고 있는 것은 인포박스이다.
인포박스(infobox)는 아티클 상단 부분에 위치하며 하나의 아티클에 대한 요약을 제공하는 일종의 메타데이터로 각 개체에 대한 주요 속성과 그에 대한 값을 기술하는 형태로 작성한다.
그러나 인포박스가 제공하는 정보 수준은 언어와 주제에 따라 상이한 단점이 있다. 즉, 도1에 도시된 바와 같이 주제별로 인포박스를 통해 제공되는 정보량이 상이하며(파스타의 영어 위키피디아와 만두의 영어 위키피디아 참고), 동일한 주제라 하더라도 사용 언어에 따라 인포박스를 통해 제공되는 정보량이 또 달라지는(파스타의 영어 위키피디아와 한국어 위키피디아 참고)단점이 있다.
이는 동일한 위키피디아의 사용자라 하더라도 검색하고자 하는 주제, 그리고 사용 언어에 따라 제공받을 수 있는 정보량이 상이해짐을 의미한다.
이에 본 발명에서는 주제간 그리고 사용 언어 간에 발생할 수 있는 정보의 불균형이 최소화되도록, 도메인별로 규격화된 인포박스 템플릿을 생성하고 인스턴스를 추가할 수 있도록 하는 지식 융합 시스템 및 방법을 제안하고자 한다.
또한 본 발명에서는 두 개의 서로 다른 언어인 소스 언어(source language), 타겟 언어(target language)가 주어졌을 때, 소스 언어로 작성된 주제들을 입력으로 하여 인포박스 템플릿의 속성에 대한 기술을 자동으로 생성하고 인스턴스를 추가하며, 이를 타겟 언어의 인포박스와 융합함으로써, 새로운 지식을 창출할 수 있도록 하는 지식 융합 시스템 및 방법을 제안하고자 한다.
상기 과제를 해결하기 위한 수단으로서, 본 발명의 일 실시 형태에 따르면, 소스 언어의 디비피디아를 기반으로 대상 도메인에 속하는 아티클들을 수집 및 분석하여 주제, 속성, 빈객체의 트리플 항목을 가지는 인포박스 템플릿을 생성하는 인포박스 템플릿 생성부; 상기 인포박스 템플릿의 속성 항목의 명칭을 호환 가능한 술어로 치환하는 술어 치환부; 소스 주제와 상기 소스 주제에 대응되는 타겟 주제를 검색하여 제시하는 정보 확인부; 소스 언어의 디비피디아를 기반으로 상기 소스 주제에 속하는 아티클을 획득한 후, 술어 치환된 상기 인포박스 템플릿에 대응되는 트리플을 추출하여 상기 인포박스 템플릿에 기입하는 트리플 추출부; 트리플 추출 완료된 상기 인포박스 템플릿을 소스 언어에서 타겟 언어로 모두 번역하는 트리플 번역부; 및 타겟 언어의 디비피디아를 기반으로 상기 타겟 주제에 속하는 아티클의 인포박스 데이터를 획득한 후, 번역된 상기 인포박스 템플릿의 트리플 항목과 융합하여 새로운 인포박스를 생성하는 데이터 융합부를 포함하는 지식 융합 시스템을 제공한다.
상기 인포박스 템플릿 생성부는 소스 언어로 기술된 다수개의 주제를 입력받고, 상기 다수개의 주제가 공통으로 포함되는 도메인을 대상 도메인으로 정의할 수 있다.
상기 인포박스 템플릿 생성부는 상기 대상 도메인에 속하는 아티클들의 트리플을 수집 및 통계내어 사용 빈도 기준으로 속성 용어 목록을 추출하고, 상기 추출된 속성 용어 목록을 기반으로 인포박스 템플릿의 속성 항목을 구성할 수 있다.
또한 상기 인포박스 템플릿 생성부는 용어 사용 패턴을 기반으로 수집된 아티클에 대한 필터링 작업을 수행한 후, 속성 용어 목록 추출 동작을 수행할 수 있다.
상기 인포박스 템플릿은 디비피디아가 보유하고 있는 테이블 형태의 자료 구조를 따르는 것을 특징으로 한다.
상기 술어 치환부는 기계 가독형 사전, 지식베이스, 백과사전을 활용하여 속성 항목의 명칭을 명사 형태에서 어근은 상이하나 호환 가능한 동사 또는 숙어 형태로 바꾸는 것을 특징으로 한다.
상기 정보 확인부는 소스 언어의 디비피디아와 타겟 언어의 디피디피아를 비교 검색하여 소스 주제와 동일하거나 유사한 주제를 추출하고, 상기 추출된 주제를 타겟 주제로 결정할 수 있다.
또한 상기 정보 확인부는 사용자로부터 소스 주제와 타겟 주제를 수동 입력받을 수도 있다.
상기 인포박스 템플릿 생성부는 사용자에 의해 입력되는 다수의 주제가 공통으로 속하는 도메인을 대상 도메인으로 설정할 수 있다.
상기 과제를 해결하기 위한 수단으로서, 본 발명의 다른 실시 형태에 따르면, 소스 언어의 디비피디아를 기반으로 대상 도메인에 속하는 아티클들을 수집 및 분석하여 주제, 속성, 빈객체(empty object)의 트리플 항목을 가지는 인포박스 템플릿을 생성하고 구성하는 단계; 상기 인포박스 템플릿의 속성 항목의 명칭을 어근은 상이하나 호환 가능한 술어로 치환하는 단계; 소스 언어의 디비피디아를 기반으로 소스 주제에 속하는 아티클을 획득한 후, 술어 치환된 상기 인포박스 템플릿에 대응되는 트리플을 추출하여 상기 인포박스 템플릿에 기입하는 단계; 트리플 추출 완료된 상기 인포박스 템플릿을 소스 언어에서 타겟 언어로 모두 번역하는 단계; 및 타겟 언어의 디비피디아를 기반으로 상기 타겟 주제에 속하는 아티클의 인포박스 데이터를 획득한 후, 번역된 상기 인포박스 템플릿의 트리플 항목과 융합하여 새로운 인포박스를 생성하는 단계를 포함하는 지식 융합 방법을 제공한다.
상기 인포박스 템플릿을 생성하고 구성하는 단계는 소스 언어로 기술된 다수개의 주제를 입력받고, 상기 다수개의 주제가 공통으로 포함되는 도메인을 대상 도메인으로 정의하는 단계; 소스 언어의 디비피디아를 기반으로 상기 대상 도메인에 속하는 아티클들을 수집하는 단계; 및 상기 수집된 아티클들을 이용하여 속성 용어 목록을 추출하고, 상기 추출 결과를 반영하여 상기 인포박스 템플릿의 속성 항목을 구성하는 단계를 포함할 수 있다.
상기 인포박스 템플릿은 디비피디아가 보유하고 있는 테이블 형태의 자료 구조를 따르는 것을 특징으로 한다.
상기 술어로 치환하는 단계는 기계 가독형 사전, 지식베이스, 백과사전을 활용하여 속성 항목의 명칭을 명사 형태에서 동사 또는 숙어 형태로 바꾸는 것을 특징으로 한다.
상기 대상 도메인에 속하는 아티클들을 수집하는 단계는 상기 수집된 아티클을 사용 용어에 따라 추가 선별할 수 있다.
본 발명에서는 도메인별로 규격화된 인포박스 탬플릿을 제공함으로써, 주제간 그리고 사용 언어 간에 발생할 수 있는 정보의 불균형을 최소화시켜줄 수 있도록 한다.
또한 소스 언어의 아티클을 이용하여 인포박스 템플릿의 속성에 대한 기술을 자동으로 생성하고 이를 타겟 언어의 인포박스와 융합함으로써, 새로운 지식이 창출될 수 있도록 한다.
도1은 언어 및 주제별로 상이해지는 인포박스 정보 제공량을 설명하기 위한 도면이다.
도2은 본 발명의 일 실시예에 따른 지식 융합 시스템을 도시한 도면이다.
도3은 본 발명의 일 실시예에 의해 타겟 도메인이 음식 도메인인 경우 획득되는 영어 아티클들과, 이를 기준으로 생성되는 인포박스 템플릿을 도시한 도면이다.
도4는 본 발명의 일 실시예에 따른 술어 치환 방법을 설명하기 위한 도면이다.
도5는 본 발명의 일 실시예에 따른 인포박스 템플릿의 데이터 최적화 방법을 설명하기 위한 도면이다.
도6은 본 발명의 일 실시예에 따른 인포박스 템플릿의 트리플 번역 방법을 설명하기 위한 도면이다.
도7은 본 발명의 일 실시예에 따른 데이터 융합 방법을 설명하기 위한 도면이다.
도8늘 본 발명의 일 실시예에 따른 지식 융합 방법을 도시한 도면이다.
이하 첨부된 도면을 참조하여 본 발명에 대해 구체적으로 살펴보기로 한다.
다만, 본 발명을 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 용어가 동일하더라도 표시하는 부분이 상이하면 도면 부호가 일치하지 않음을 미리 말해두는 바이다.
그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 설정된 용어들로서 이는 실험자 및 측정자와 같은 사용자의 의도 또는 관례에 따라 달라질 수 있으므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 명세서에서 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하 첨부된 도면을 참조하여 본 발명에 대해 구체적으로 설명하기로 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도2은 본 발명의 일 실시예에 따른 지식 융합 시스템을 도시한 도면이다.
도2에 도시된 바와 같이, 본 발명의 지식 융합 시스템은 인포박스 템플릿 생성부(11), 술어 치환부(12), 정보 확인부(13), 트리플 추출부(14), 트리플 번역부(15), 및 데이터 융합부(16) 등을 포함하여 구성되어, 디비디피아 및 위키디피아와 같은 공개형 백과사전이 제공하는 지식을 융합하여 새로운 지식을 창출할 수 있도록 한다.
특히, 본 발명의 지식 융합 시스템은 두 개의 서로 다른 언어인 소스 언어(source language), 타겟 언어(target language)가 주어졌을 때, 소스 언어로 작성된 주제를 입력 하여 인포박스 템플릿의 property(property)에 대한 기술을 자동으로 생성하고, 이를 타겟 언어의 인포박스와 융합함으로써 새로운 지식을 창출하는 데, 이하에서는 설명의 편이를 위해 소스 언어는 영어이고 타겟 언어는 한국어이며, 이를 위해 영어 DBpedia(21)와 한국어 DBpedia(22)가 이용된다고 가정하기로 한다.
인포박스 템플릿 생성부(11)는 사용자로부터 여러 가지 주제를 입력받은 후, 이들 주제가 공통적으로 속하는 도메인을 대상 도메인으로 설정하고, 주제(subject)와 속성(property), 및 빈 객체(object)의 트리플 항목을 가지는 인포박스 템플릿(InfoBox Template)을 생성한다. 인포박스 템플릿 구조는 디비피디아가 보유하고 있는 테이블 형태의 자료 구조를 따르는 것이 바람직하나, 필요에 따라 다양하게 변경될 수도 있을 것이다.
그리고 인포박스 템플릿 생성부(11)는 대상 도메인에 대응되는 영어 아티클의 인포박스 데이터를 모두 수집하고, 수집된 인포박스 데이터가 주로 사용하는 property 용어 목록을 추출하고, 추출된 property 용어 목록을 기반으로 인포박스 템플릿의 property 항목을 구성한다. 도3은 대상 도메인이 음식 도메인인 경우 획득되는 영어 아티클들과, 이를 기준으로 생성되는 인포박스 템플릿을 도시한 도면으로, 이를 참조하면, 본 발명의 인포박스 템플릿은 해당 도메인에 속하는 아티클이 공용으로 사용할 수 있는 규격화된 자료 구조를 가짐을 알 수 있다.
다만, 디비피디아는 오픈 커뮤니티 웹 사이트이므로, 도메인 분류 작업의 신뢰성이 현저히 떨어지며, 이에 따라 아티클 수집의 정확도가 낮은 단점을 가진다. 이에 본 발명에서는 대상 도메인에 속할 가능성이 높은 영어 아티클들을 우선 수집한 후, 수집된 아티클에 포함된 용어의 종류, 용어별 발생 빈도 등을 고려하여 아티클 필터링 작업을 추가 수행하여, 대상 도메인에 속하는 영어 아티클만이 선별될 수 있도록 한다.
술어 치환부(12)는 위키피디아, 워드넷(wordnet), 구글 번역기, 네이버 사전 등과 같은 기계 가독형 사전(Machine Readable Dictionary), 지식베이스(knowledge base), 백과사전 등을 활용하여, 인포박스 템플릿의 property 항목의 명칭을 어근은 상이하지만 호환 가능한 다른 용어로 치환해준다. 예를 들어, 도4에 도시된 바와 같이"main ingredient"는 "made of"로, "Country"는 "made in"로 치환할 수 있을 것이다. 즉, 본 발명의 술어 치환부(12)는 트리플 추출 성능을 극대화시키기 위해, property 항목의 명칭을 명사 형태에서 동사 또는 숙어 형태로 바꾸도록 한다.
정보 확인부(13)는 타겟 주제를 결정한다. 다만, 타겟 주제 결정 동작은 다양한 방식으로 수행될 수 있는 데, 소스 언어로 기술된 주제에 대응되며 타겟언어로 기술된 주제를 타겟 주제로 결정하거나, 사용자가 직접 소스 주제와 이에 대응되는 타겟 주제를 결정할 수 있다.
트리플 추출부(14)는 타겟 주제에 대응되는 영어 아티클의 텍스트 분석하여 인포박스 템플릿의 property 항목에 대응되는 값(value)을 추출하고, 이를 활용하여 인포박스 템플릿의 object의 항목을 채운다. 만약, 값이 추출되지 않는 property 항목이 발생한다면, 해당 항목은 인포박스 템플릿에서 삭제시킴으로써 도5에 도시된 바와 같이 데이터 최적화를 시켜 주기도 한다.
트리플 번역부(15)는 위키피디아, 워드넷(wordnet), 구글 번역기, 네이버 사전 등과 같은 기계 가독형 사전(Machine Readable Dictionary)을 활용하여, 도6에 도시된 바와 같이 인포박스 템플릿의 트리플 항목 모두를 한국어로 번역한다.
마지막으로 데이터 융합부(16)은 한국어 DBpedia(22)를 검색하여 타겟 주제에 대응되는 한국어 아티클의 인포박스를 획득하고, 이와 트리플 번역부(15)에 의해 번역 완료된 인포박스를 모두 융합하여 도7에 도시된 바와 같은 타겟 주제에 대응되는 새로운 인포박스를 만든다.
도8늘 본 발명의 일 실시예에 따른 지식 융합 방법을 도시한 도면이다.
도8에서는 설명의 편이를 위해, 파스타를 타겟 주제로, 파스타가 속하는 음식 도메인을 대상 도메인으로 설정하고, 소스 언어를 영어로, 타겟 언어를 한국어로 가정하기로 한다.
먼저, 인포박스 템플릿 생성부(11)는 우선 소스 언어로 기술된 몇 개의 주제(subject)를 입력으로 받아들이고(예들 들어, pasta, paella, taco, dumpling, pizza), 이들이 공통 포함되는 도메인을 대상 도메인(예를 들어, 앞의 5개의 음식은 음식 도메인에 공통 포함됨)으로 정의한다(S1).
그리고 나서 인포박스 템플릿 생성부(11)는 영어 DBpedia(21)을 기반으로 음식 도메인에 대응되는 subject를 가지는 영어 아티클들을 모두 수집한 후(S2), 수집된 영어 아티클의 인포박스를 분석하여 음식 도메인에 속하는 주제를 설명하기 위해 주로 사용되는 "main ingredient", "country", "serving temperature", "variations" 등을 property용어 목록으로 추출하고(S3), 이를 바탕으로 인포박스 템플릿을 생성한다(S4).
그리고 나서 술어 치환부(12)를 통해 인포박스 템플릿의 property항목의 명칭을 분석하여 호환 가능한 다른 용어를 가지는 속성 항목의 명칭 "main ingredient", "country"는 각각"made of", "made in"로 치환시킨다(S5).
정보 확인부(13)는 소스 언어인 영어로 주어진 Pasta란 소스 주제를 이용하여 한국어 DBpedia(22)를 검색하여 한국어로 기술된 파스타란 타겟 주제를결정한다(S6).
그리고나서, 트리플 추출부(14)는 영어 DBpedia(21)을 검색하여 파스타에 대한 영어 아티클을 획득한 후(S7), 영어 아티클의 텍스트를 분석하여 술어 치환된 property항목을 통해 주어가 Pasta이고 술어가 치환된 property항목에 해당되는 값(즉, object)을 추출한다(S8).
단계 S7들 거쳐 인포박스 템플릿의 트리플 항목이 모두 채워졌으면, 트리플 번역부(15)는 기계 가독형 사전을 참고하여 인포박스 템플릿의 트리플 항목 모두를 한국어로 번역한다(S9).
단계 S7 내지 S9를 수행하는 동안, 데이터 융합부(16)는 한국어 DBpedia(22)을 검색하여 파스타에 대한 한국어 아티클을 검색하고, 이에 포함된 인포박스 데이터를 획득한다(S10).
그리고 단계 S8을 통해 한국어로 번역된 인포박스와 단계 S9를 통해 획득된 한국어 인포박스를 융합하여, 파스타를 위한 새로운 인포박스를 생성한다(S11).
본 발명에 의해 생성된 새로운 인포박스는 한국어 DBpedia(22)에 다시 반영될 수도 있으며, 또 다른 시스템에 제공되어 해당 시스템이 또 다른 부가 정보를 만드는 근간으로 활용될 수 있도록 한다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (14)

  1. 소스 언어의 디비피디아를 기반으로 대상 도메인에 속하는 아티클들을 수집 및 분석하여 주제, 속성, 빈객체의 트리플 항목을 가지는 인포박스 템플릿을 생성하는 인포박스 템플릿 생성부;
    상기 인포박스 템플릿의 속성 항목의 명칭을 호환 가능한 술어로 치환하는 술어 치환부;
    소스 주제와 상기 소스 주제에 대응되는 타겟 주제를 검색하여 제시하는 정보 확인부;
    소스 언어의 디비피디아를 기반으로 상기 소스 주제에 속하는 아티클을 획득한 후, 술어 치환된 상기 인포박스 템플릿에 대응되는 트리플을 추출하여 상기 인포박스 템플릿에 기입하는 트리플 추출부;
    트리플 추출 완료된 상기 인포박스 템플릿을 소스 언어에서 타겟 언어로 모두 번역하는 트리플 번역부; 및
    타겟 언어의 디비피디아를 기반으로 상기 타겟 주제에 속하는 아티클의 인포박스 데이터를 획득한 후, 번역된 상기 인포박스 템플릿의 트리플 항목과 융합하여 새로운 인포박스를 생성하는 데이터 융합부를 포함하는 지식 융합 시스템.
  2. 제1항에 있어서, 상기 인포박스 템플릿 생성부는
    소스 언어로 기술된 다수개의 주제를 입력받고, 상기 다수개의 주제가 공통으로 포함되는 도메인을 대상 도메인으로 정의하는 것을 특징으로 하는 지식 융합 시스템.
  3. 제1항에 있어서, 상기 인포박스 템플릿 생성부는
    상기 대상 도메인에 속하는 아티클들의 트리플을 수집 및 통계내어 사용 빈도 기준으로 속성 용어 목록을 추출하고, 상기 추출된 속성 용어 목록을 기반으로 인포박스 템플릿의 속성 항목을 구성하는 것을 특징으로 하는 지식 융합 시스템.
  4. 제3항에 있어서, 상기 인포박스 템플릿 생성부는
    용어 사용 패턴을 기반으로 수집된 아티클에 대한 필터링 작업을 수행한 후, 속성 용어 목록 추출 동작을 수행하는 것을 특징으로 하는 지식 융합 시스템.
  5. 제1항에 있어서, 상기 인포박스 템플릿은
    디비피디아가 보유하고 있는 테이블 형태의 자료 구조를 따르는 것을 특징으로 하는 지식 융합 시스템.
  6. 제1항에 있어서, 상기 술어 치환부는
    기계 가독형 사전, 지식베이스, 백과사전을 활용하여 속성 항목의 명칭을 명사 형태에서 어근은 상이하나 호환 가능한 동사 또는 숙어 형태로 바꾸는 것을 특징으로 하는 지식 융합 시스템.
  7. 제1항에 있어서, 상기 정보 확인부는
    소스 언어의 디비피디아와 타겟 언어의 디피디피아를 비교 검색하여 소스 주제와 동일하거나 유사한 주제를 추출하고, 상기 추출된 주제를 타겟 주제로 결정하는 것을 특징으로 하는 지식 융합 시스템.
  8. 제1항에 있어서, 상기 정보 확인부는
    사용자로부터 소스 주제와 타겟 주제를 수동 입력받는 것을 특징으로 하는 지식 융합 시스템.
  9. 제1항에 있어서, 상기 인포박스 템플릿 생성부는
    사용자에 의해 입력되는 다수의 주제가 공통으로 속하는 도메인을 대상 도메인으로 설정하는 것을 특징으로 하는 지식 융합 시스템.
  10. 소스 언어의 디비피디아를 기반으로 대상 도메인에 속하는 아티클들을 수집 및 분석하여 주제, 속성, 빈객체(empty object)의 트리플 항목을 가지는 인포박스 템플릿을 생성하고 구성하는 단계;
    상기 인포박스 템플릿의 속성 항목의 명칭을 어근은 상이하나 호환 가능한 술어로 치환하는 단계;
    소스 언어의 디비피디아를 기반으로 소스 주제에 속하는 아티클을 획득한 후, 술어 치환된 상기 인포박스 템플릿에 대응되는 트리플을 추출하여 상기 인포박스 템플릿에 기입하는 단계;
    트리플 추출 완료된 상기 인포박스 템플릿을 소스 언어에서 타겟 언어로 모두 번역하는 단계; 및
    타겟 언어의 디비피디아를 기반으로 상기 타겟 주제에 속하는 아티클의 인포박스 데이터를 획득한 후, 번역된 상기 인포박스 템플릿의 트리플 항목과 융합하여 새로운 인포박스를 생성하는 단계를 포함하는 지식 융합 방법.
  11. 제10항에 있어서, 상기 인포박스 템플릿을 생성하고 구성하는 단계는
    소스 언어로 기술된 다수개의 주제를 입력받고, 상기 다수개의 주제가 공통으로 포함되는 도메인을 대상 도메인으로 정의하는 단계;
    소스 언어의 디비피디아를 기반으로 상기 대상 도메인에 속하는 아티클들을 수집하는 단계; 및
    상기 수집된 아티클들을 이용하여 속성 용어 목록을 추출하고, 상기 추출 결과를 반영하여 상기 인포박스 템플릿의 속성 항목을 구성하는 단계를 포함하는 것을 특징으로 하는 지식 융합 방법.
  12. 제10항에 있어서, 상기 인포박스 템플릿은
    디비피디아가 보유하고 있는 테이블 형태의 자료 구조를 따르는 것을 특징으로 하는 지식 융합 방법.
  13. 제10항에 있어서, 상기 술어로 치환하는 단계는
    기계 가독형 사전, 지식베이스, 백과사전을 활용하여 속성 항목의 명칭을 명사 형태에서 동사 또는 숙어 형태로 바꾸는 것을 특징으로 하는 지식 융합 방법.
  14. 제10항에 있어서, 상기 대상 도메인에 속하는 아티클들을 수집하는 단계는
    상기 수집된 아티클을 사용 용어에 따라 추가 선별하는 것을 특징으로 하는 지식 융합 방법.
KR1020130066993A 2013-06-12 2013-06-12 지식 융합 시스템 및 방법 KR101497806B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130066993A KR101497806B1 (ko) 2013-06-12 2013-06-12 지식 융합 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130066993A KR101497806B1 (ko) 2013-06-12 2013-06-12 지식 융합 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20140144877A true KR20140144877A (ko) 2014-12-22
KR101497806B1 KR101497806B1 (ko) 2015-03-04

Family

ID=52674936

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130066993A KR101497806B1 (ko) 2013-06-12 2013-06-12 지식 융합 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR101497806B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160090744A (ko) * 2015-01-22 2016-08-01 한국과학기술원 술어 치환 장치 및 이의 명사 술어의 동사술어 치환을 위한 동사술어 순위부여 방법
CN112380864A (zh) * 2020-11-03 2021-02-19 广西大学 一种基于回译的文本三元组标注样本增强方法
CN112418428A (zh) * 2020-12-01 2021-02-26 海南大学 基于本质计算的跨模态特征挖掘方法及组件
CN112580831A (zh) * 2020-11-19 2021-03-30 国网江苏省电力有限公司信息通信分公司 一种基于知识图谱的电力通信网智能辅助运维方法及系统
CN113807329A (zh) * 2021-11-18 2021-12-17 深圳市沃特沃德软件技术有限公司 融合监控方法、装置和计算机设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389303B (zh) * 2015-10-27 2018-11-27 北京信息科技大学 一种异源语料自动融合方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005141692A (ja) * 2003-11-10 2005-06-02 Nippon Telegr & Teleph Corp <Ntt> 検索システム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160090744A (ko) * 2015-01-22 2016-08-01 한국과학기술원 술어 치환 장치 및 이의 명사 술어의 동사술어 치환을 위한 동사술어 순위부여 방법
CN112380864A (zh) * 2020-11-03 2021-02-19 广西大学 一种基于回译的文本三元组标注样本增强方法
CN112580831A (zh) * 2020-11-19 2021-03-30 国网江苏省电力有限公司信息通信分公司 一种基于知识图谱的电力通信网智能辅助运维方法及系统
CN112580831B (zh) * 2020-11-19 2024-03-29 国网江苏省电力有限公司信息通信分公司 一种基于知识图谱的电力通信网智能辅助运维方法及系统
CN112418428A (zh) * 2020-12-01 2021-02-26 海南大学 基于本质计算的跨模态特征挖掘方法及组件
CN112418428B (zh) * 2020-12-01 2022-04-01 海南大学 基于本质计算的跨模态特征挖掘方法及组件
CN113807329A (zh) * 2021-11-18 2021-12-17 深圳市沃特沃德软件技术有限公司 融合监控方法、装置和计算机设备
CN113807329B (zh) * 2021-11-18 2022-04-01 深圳市沃特沃德软件技术有限公司 融合监控方法、装置和计算机设备

Also Published As

Publication number Publication date
KR101497806B1 (ko) 2015-03-04

Similar Documents

Publication Publication Date Title
KR101497806B1 (ko) 지식 융합 시스템 및 방법
Vulić et al. Do we really need fully unsupervised cross-lingual embeddings?
JP6333745B2 (ja) 翻訳結果提供方法、翻訳結果提供システム、プログラムおよびファイル配布システム
Woodsend et al. Generation with quasi-synchronous grammar
US9342301B2 (en) Converting and input script to a natural language description
CN106777331A (zh) 知识图谱生成方法及装置
US20160117405A1 (en) Information Processing Method and Apparatus
CN105573990B (zh) 外语句子制作支援装置以及方法
Perera et al. A multi-strategy approach for lexicalizing linked open data
WO2014104944A1 (en) Dictionary markup method
Tachicart et al. Lexical differences and similarities between Moroccan dialect and Arabic
Pradet et al. WoNeF, an improved, expanded and evaluated automatic French translation of WordNet
Šojat et al. CroDeriV: a new resource for processing Croatian morphology
KR102083017B1 (ko) 플레이스의 소셜 리뷰 분석 방법 및 시스템
JP2016164707A (ja) 自動翻訳装置及び翻訳用モデル学習装置
Margan et al. Network differences between normal and shuffled texts: Case of Croatian
US20120265520A1 (en) Text processor and method of text processing
JP2019053262A (ja) 学習システム
JP6153262B2 (ja) 対象文章を象徴する簡易文を推定するプログラム、装置及びサーバ
RU2643438C2 (ru) Обнаружение языковой неоднозначности в тексте
KR101027007B1 (ko) 대역어 사전 특화 장치 및 그 방법
EP4195093A1 (en) Method and system for finding associations between natural language and computer language
CN112749316A (zh) 翻译质量的确定方法、装置、存储介质和处理器
Stirling et al. Tense, aspect, modality and evidentiality in Australian languages: Foreword
KR101686764B1 (ko) 술어 치환 장치 및 이의 명사 술어의 동사술어 치환을 위한 동사술어 순위부여 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180129

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee