KR101137153B1 - 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 시스템 및 방법 - Google Patents

부분 워드넷을 결합한 온톨로지에 의한 문서 분류 시스템 및 방법 Download PDF

Info

Publication number
KR101137153B1
KR101137153B1 KR20100017059A KR20100017059A KR101137153B1 KR 101137153 B1 KR101137153 B1 KR 101137153B1 KR 20100017059 A KR20100017059 A KR 20100017059A KR 20100017059 A KR20100017059 A KR 20100017059A KR 101137153 B1 KR101137153 B1 KR 101137153B1
Authority
KR
South Korea
Prior art keywords
ontology
content
wordnet
keyword
modeling
Prior art date
Application number
KR20100017059A
Other languages
English (en)
Other versions
KR20110097287A (ko
Inventor
박영택
최정화
백규태
김효민
임우영
Original Assignee
주식회사 케이티
숭실대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티, 숭실대학교산학협력단 filed Critical 주식회사 케이티
Priority to KR20100017059A priority Critical patent/KR101137153B1/ko
Publication of KR20110097287A publication Critical patent/KR20110097287A/ko
Application granted granted Critical
Publication of KR101137153B1 publication Critical patent/KR101137153B1/ko

Links

Images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)

Abstract

본 발명은 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 시스템 및 방법에 관한 것으로, IPTV 및 멀티미디어 데이터의 지능형 검색을 위해 시맨틱 웹 기반의 온톨로지를 사용하여 특정 서비스 영역에 사용되는 어휘를 의미적으로 계층화하여 반자동 모델링하고, 모델링된 온톨로지를 기반으로 데이터에 관련 있는 콘텐츠로 자동 분류하는 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 시스템 및 방법에 관한 것이다. 온톨로지 모델링을 위해 입력되는 학습 VOD 시놉시스 데이터로부터 모델링할 콘텐츠의 키워드를 추출하고, 문서 분류를 위해 콘텐츠 기술을 정의하여 콘텐츠 온톨로지를 생성하는 콘텐츠 생성부와; 모든 도메인에 독립적으로 사용될 수 있는 핵심 온톨로지와 도메인에 종속적인 도메인 온톨로지를 모델링하는 반자동 온톨로지 모델링부와; 상기 학습 VOD 시놉시스 데이터를 기초로 모델링한 온톨로지를 기반으로 새로운 VOD 시놉시스 데이터가 입력되면 그 문서의 콘텐츠를 추론하여 분류하는 문서분류 시스템부와; 상기 콘텐츠 생성부와 반자동 온톨로지 모델링부 및 문서분류 시스템부에서 생성된 데이터가 저장되는 지식 베이스로 구성된다. 따라서, 본 발명은 워드넷에서 표현하지 못한 어휘의 의미적 관계 추론을 가능하고, 상기 워드넷에 없는 외래어와 한자어는 대체 어휘로 앵커링하여 한국인의 사고 체계에 맞고 서비스 도메인에 적합한 효과가 있다.

Description

부분 워드넷을 결합한 온톨로지에 의한 문서 분류 시스템 및 방법{Method and System for Document Classification by Ontology Combing Partial WordNet}
본 발명은 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 시스템 및 방법에 관한 것으로, 더욱 세부적으로는 IPTV 및 멀티미디어 데이터의 지능형 검색을 위해 시맨틱 웹(Semantic Web) 기반의 온톨로지를 사용하여 특정 서비스 영역에 사용되는 어휘를 의미적으로 계층화하여 반자동 모델링하고, 모델링된 온톨로지를 기반으로 데이터에 관련 있는 콘텐츠로 자동 분류하는 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 시스템 및 방법에 관한 것이다.
IPTV는 기존의 TV를 통해 과거 또는 최신의 TV방송 프로그램, 영화, 뮤직 비디오 등의 VOD(Video On Demand)를 신청하여 시청하는 주문형(On Demand)서비스가 가능하며, 상기 주문형 서비스의 장점 중 하나는 사용자 개개인에 따라 개인화가 요이하다는 점인데, 개인화를 실현하기 위해서는 시청자들이 입력하는 다양한 요구의 어휘를 처리하는 기술이 필요하다.
하지만, 사람이 사용하는 어휘는 너무 방대하며, 기계 또는 소프트웨어 에이전트가 어휘를 처리하기 위해서는 텍스트에서 단어를 추출하고 단어에 의미를 부여하여 어휘로 만들고, 어휘의미망(Lexical Semantic Network)을 구축하여 구조화하는 기술이 필요하다.
예를 들어, 범죄관련 영화 VOD는 제목과 줄거리 등의 텍스트를 가지고 있고, 소프트웨어 에이전트는 범죄관련 용어를 알고 있을 때 그 VOD를 범죄 영화로 추천할 수 있으며, 영화는 여러 개의 장르(범죄, 코미디, 액션 등)로 구분되고, 장르는 여러 개의 콘텐츠(범죄 장르는 사기, 형사 등 / 코미디 장르는 로맨틱, 가족 등)로 나눌 수 있으며, 콘텐츠에 관련된 키워드(범죄-사기: 작전, 계획 등 / 범죄-형사: 범인, 수사 등)의 어휘 개념이 온톨로지에 표현되어 있을 때 지능형 에이전트는 VOD의 콘텐츠를 추론하고, 이를 기반으로 VOD를 추론 및 추천할 수 있다.
워드넷(WordNet)은 영어 어휘의 의미관계를 계층적 망 형태로 설정한 것으로 어휘사전으로 널리 활용되지만, 너무 방대하고 어휘의 분류 체계(Taxonomy)만을 제공하여 서비스 도메인에 따른 필터링과 어휘의 의미를 고려한 관련 어휘의 추론이 필요하다.
코렉스(KorLex)는 워드넷을 참조 모델로 하여 개발한 한국어 어휘의미망으로, 워드넷과 같은 어휘 분류 체계를 제공하지만, 상기 워드넷과 코렉스는 특정 영역에서 많이 사용되는 외래어와 한자어는 포괄하지 못하는 단점이 있다.
Cyc와 SUMO와 같은 온톨로지는 텍스트에 포함된 단어 간의 관계를 클래스와 클래스들의 관계로 표현한 사전을 제공하여 시맨틱 웹 어플리케이션에 적용할 수 있게 하지만, 텍스트의 단어를 클래스로 연결하여 콘텐츠로 분류하기에는 완전하지 못하며, 온톨로지로 실세계의 모든 어휘를 표현하기는 불가능한 것으로, 제한된 도메인에 맞는 온톨로지를 설계해야 하는데 이 역시 사람이 모델링하기에는 정확성이 떨어진다.
Sanfilippo는 상기 Cyc와 SUMO의 단점을 해결하기 위해 워드넷을 이용하는 것으로, 워드넷의 동사 신셋을 온톨로지로 표현하고, 텍스트 단어를 의미의 중의성(Ambiguity)을 고려하여 콘텐츠로 분류하는 방법을 제안한다.
그러나, 상기 방법은 워드넷에 정의된 방대한 어휘의 상당한 양을 축소하고 논리적인 추론이 가능한 계층구조의 온톨로지를 제안하지만, 적용되는 지능형 시스템의 도메인에 따라 편집이 요구되며 불필요한 어휘의 적재로 시스템에 부하가 될 수 있는 문제점이 있다.
상술한 바와 같은 문제점을 해결하기 위하여, 본 발명에서는 서비스 도메인에 적합하고 경량적인 한국어 어휘 체계를 구축하기 위해 검증된 어휘 분류체계인 워드넷에서 서비스 도메인에 따른 부분트리를 추출하여 온톨로지로 구축하며, 상기 온톨로지는 추론을 지원하므로 워드넷에서 표현하지 못한 어휘의 의미적 관계 추론을 가능하고, 상기 워드넷에 없는 외래어와 한자어는 대체 어휘로 앵커링하여 한국인의 사고 체계에 맞고 서비스 도메인에 적합한 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 시스템 및 방법을 제공하는데 목적이 있다.
목적을 달성하기 위한 구성으로는 온톨로지 모델링을 위해 입력되는 학습 VOD 시놉시스 데이터로부터 모델링할 콘텐츠의 키워드를 추출하고, 문서 분류를 위해 콘텐츠를 기술(Description)이 포함된 클래스로 정의하여 콘텐츠 온톨로지를 생성하는 콘텐츠 생성부와; 모든 도메인에 독립적으로 사용될 수 있는 핵심 온톨로지와 도메인에 종속적인 도메인 온톨로지를 모델링하는 반자동 온톨로지 모델링부와; 상기 학습 VOD 시놉시스 데이터를 기초로 모델링한 온톨로지를 기반으로 새로운 VOD 시놉시스 데이터가 입력되면 그 문서의 콘텐츠를 추론하여 분류하는 문서분류 시스템부와; 상기 콘텐츠 생성부와 반자동 온톨로지 모델링부 및 문서분류 시스템부에서 생성된 데이터가 저장되는 지식 베이스로 구성된다.
목적을 달성하기 위한 방법으로는 온톨로지 모델링을 위해 입력되는 학습 VOD 시놉시스 데이터에 포함된 키워드들 간의 군집화를 통해 모델링할 콘텐츠의 키워드를 추출하고 문서 분류를 위해 콘텐츠를 기술이 포함된 클래스로 정의하여 콘텐츠 온톨로지를 생성하는 제100단계와; 모든 도메인에 독립적으로 사용될 수 있는 핵심 온톨로지와 도메인에 종속적인 도메인 온톨로지를 반자동 모델링하는 제200단계와; 상기 학습 VOD 시놉시스 데이터를 기초로 모델링한 온톨로지를 기반으로 새로운 VOD 시놉시스 데이터가 입력되면 그 문서의 콘텐츠를 추론하여 분류하는 제300단계를 포함한다.
상기한 바와 같이, 본 발명은 서비스 도메인에 적합하고 경량적인 한국어 어휘 체계를 구축하기 위해 검증된 어휘 분류체계인 워드넷에서 서비스 도메인에 따른 부분트리를 추출하여 온톨로지로 구축하며, 상기 온톨로지는 추론을 지원하므로 워드넷에서 표현하지 못한 어휘의 의미적 관계 추론을 가능하고, 상기 워드넷에 없는 외래어와 한자어는 대체 어휘로 앵커링하여 한국인의 사고 체계에 맞고 서비스 도메인에 적합한 효과가 있다.
도 1은 본 발명에 따른 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 시스템의 구성도.
도 2는 본 발명에 따른 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 방법의 흐름도.
도 3은 본 발명에 따른 학습데이터의 하나로 사용되는 영화 VOD의 장르 및 시놉시스를 나타낸 참고도.
도 4와 도 5는 본 발명에 따른 콘텐츠 온톨로지를 생성하는 세부단계를 나타낸 순서도.
도 6 내지 도 8은 본 발명에 따른 반자동 온톨로지 모델링의 세부단계를 나타낸 순서도.
도 9는 본 발명에 따른 콘텐츠 키워드와 워드넷을 연결하기 위한 2가지 경우를 도시한 참고도.
도 10은 본 발명에 따른 반자동 온톨로지 모델링의 세부단계인 도메인 온톨로지 모델링을 위한 과정을 나타낸 순서도.
도 11은 본 발명에 따른 콘텐츠 추론기 알고리즘을 이용한 콘텐츠 추론의 실시 예.
도 12는 본 발명에 따른 핵심 온톨로지 모델링부의 실시 예.
도 13은 본 발명에 따른 도메인 온톨로지 모델링부의 실시 예.
도 14는 본 발명에 따른 문서 분류 시스템부의 실시 예.
이하의 설명에서 본 발명에 따른 콘텐츠는 VOD 시놉시스 데이터로부터 추출된 키워드들을 대표하는 단어를 의미하며, ‘콘텐츠 유형’으로도 칭하기로 한다.
도 1은 본 발명에 따른 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 시스템의 구성도이고, 도 2는 본 발명에 따른 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 방법의 흐름도이고, 도 3은 본 발명에 따른 학습데이터의 하나로 사용되는 영화 VOD의 장르 및 시놉시스를 나타낸 참고도이고, 도 4와 도 5는 본 발명에 따른 콘텐츠 온톨로지를 생성하는 세부단계를 나타낸 순서도이고, 도 6 내지 도 8은 본 발명에 따른 반자동 온톨로지 모델링의 세부단계를 나타낸 순서도이고, 도 9는 본 발명에 따른 콘텐츠 키워드와 워드넷을 연결하기 위한 2가지 경우를 도시한 참고도이고, 도 10은 본 발명에 따른 반자동 온톨로지 모델링의 세부단계인 도메인 온톨로지 모델링을 위한 과정을 나타낸 순서도이고, 도 11은 본 발명에 따른 콘텐츠 추론기 알고리즘을 이용한 콘텐츠 추론의 실시 예이고, 도 12는 본 발명에 따른 핵심 온톨로지 모델링부의 실시 예이고, 도 13은 본 발명에 따른 도메인 온톨로지 모델링부의 실시 예이고, 도 14는 본 발명에 따른 문서 분류 시스템부의 실시 예이다.
이하, 도면을 참고로 구성요소를 설명하면 다음과 같다.
도 1은 본 발명의 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 시스템의 구성도로서, 콘텐츠 생성부(100)와 반자동 온톨로지 모델링부(200), 문서분류 시스템부(300) 및 지식 베이스(400)로 구성된다.
상기 콘텐츠 생성부(100)는 온톨로지 모델링을 위해 입력되는 학습 VOD 시놉시스(S) 데이터로부터 모델링할 콘텐츠의 키워드를 추출하고, 문서 분류를 위해 콘텐츠를 기술이 포함된 클래스로 정의하여 콘텐츠 온톨로지를 생성한다.
상기 콘텐츠 생성부(100)는 입력되는 학습 VOD 시놉시스(S) 데이터에 포함된 키워드들 간의 군집화를 통해 군집에서 대표 단어들을 추출하여 콘텐츠의 키워드로 정의하고, 상기 키워드들을 특정지을 수 있는 단어를 선정하여 소재로 정의하는 콘텐츠 키워드 추출부(110)와, 상기 콘텐츠 키워드 추출부(110)에서 추출한 콘텐츠를 장르별로 온톨로지에 정의하되, 상기 온톨로지는 장르, 콘텐츠, 콘텐츠의 키워드로 이루어지는 콘텐츠 정의부(120)로 구성된다.
본 발명의 상기 콘텐츠 키워드 추출부(110)에서는 실제 생활에서의 특정 영역에 관련된 문서 또는 멀티미디어 데이터를 콘텐츠별로 분류하기 위해서 전문가의 개입이 필요한데, 전문가의 지식수준을 대신하기 위해 정확도와 신뢰도가 높은 텍스트 마이닝 기법을 사용한다.
상기 반자동 온톨로지 모델링부(200)는 모든 도메인에 독립적으로 사용될 수 있는 핵심 온톨로지와 도메인에 종속적인 도메인 온톨로지를 모델링한다.
상기 반자동 온톨로지 모델링부(200)는 정의된 콘텐츠 온톨로지를 지식 베이스(300)에서 제공받아 적재하는 온톨로지 적재부(211)와, 콘텐츠 키워드에 의미를 부여하여 계층구조를 생성하기 위해 워드넷의 부분 트리와 연결하는 키워드 및 워드넷 연결부(212)와, 상기 콘텐츠 키워드가 워드넷에 정의된 경우 수행되는 부분 트리 결합부(213)와, 콘텐츠 키워드가 워드넷에 정의되지 않은 경우 수행되는 키워드 앵커링부(214)로 구성되는 핵심 온톨로지 모델링부(210)와, 상기 핵심 온톨로지 모델링부(210)에서 모델링된 온톨로지를 기반으로 콘텐츠 키워드 추론기(221)를 이용하여 콘텐츠와 연관성 있는 키워드를 추론하여 도메인 트리 모델을 생성하는 도메인 온톨로지 모델링부(220)로 구성된다.
상기 문서분류 시스템부(300)는 상기 학습 VOD 시놉시스(S) 데이터를 기초로 모델링한 온톨로지를 기반으로 새로운 VOD 시놉시스(N) 데이터가 입력되면 그 문서의 콘텐츠를 추론하여 분류한다.
상기 문서분류 시스템부(300)는 새로운 VOD 시놉시스(N) 데이터가 입력시 키워드를 추출하는 키워드 추출기(310)와, 상기 키워드 추출기(310)에 의해 콘텐츠를 추론하며, 추출된 콘텐츠 중 가중치가 가장 높은 콘텐츠가 문서의 분류로 추론되는 콘텐츠 추론기(320)와, 상기 추론된 콘텐츠가 저장되는 콘텐츠 저장기(330)로 구성된다.
상기 지식 베이스(400)는 상기 콘텐츠 생성부(100)와 반자동 온톨로지 모델링부(200) 및 문서분류 시스템부(300)에서 생성된 데이터가 저장된다.
상기 지식 베이스(400)는 콘텐츠 생성부(100)로 입력되는 학습 VOD 시놉시스(S) 데이터에 대한 생성된 콘텐츠가 저장되는 콘텐츠 온톨로지(410)와, 반자동 온톨로지 모델링부(200)에서 모델링된 모든 도메인에 독립적으로 사용될 수 있는 핵심 온톨로지가 저장되는 부분 워드넷(420)과, 반자동 온톨로지 모델링부(200)에서 모델링된 도메인에 종속적인 도메인 온톨로지가 저장되는 도메인 트리 모델(430)과, 문서분류 시스템부(300)로 입력되는 새로운 VOD 시놉시스(N) 데이터에 대한 생성된 콘텐츠가 저장되는 VOD 콘텐츠 저장소(440)로 구성된다.
상기와 같이 구성되는 본 발명의 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 방법을 도 2를 참조하여 설명하면, 학습 VOD 시놉시스(S) 데이터로부터 콘텐츠 온톨로지를 생성하는 제100단계(S100)와, 반자동 모델링하는 제200단계(S200)와, 새로운 VOD 시놉시스(N) 데이터 입력시 콘텐츠 추론 및 분류하는 제300단계(S300)를 포함한다.
상기 콘텐츠 온톨로지를 생성하는 제100단계(S100)는 온톨로지 모델링을 위해 콘텐츠 생성부(100)로 입력되는 학습 VOD 시놉시스(S) 데이터에 포함된 키워드들 간의 군집화를 통해 모델링할 콘텐츠의 키워드를 추출하고 문서 분류를 위해 콘텐츠를 기술이 포함된 클래스로 정의하여 콘텐츠 온톨로지를 생성한다.
도 3은 본 발명에서 학습 데이터의 하나로 사용된 영화 VOD의 장르 및 시놉시스 건수를 나타낸 것으로, 학습 데이터로 사용된 VOD 종류는 영화, 교육, 드라마, 다큐멘터리이며, 장르 구분이 분명한 영화 VOD 시놉시스를 수집하고, 장르별 시놉시스에 포함된 키워드들 간의 군집화 실험을 한다.
상기 제100단계(S100)는 도 4와 같이, 중심벡터 위치에 따라 결과가 크게 좌우되지 않도록 콘텐츠 키워드 추출부(110)에서 초기 중심벡터를 선정하는 제110단계(S110)와, 특징 벡터 생성시 변별력 있는 단어들을 추출하기 위해 콘텐츠 키워드 추출부(110)에서 단어를 필터링하는 제120단계(S120)와, 하나의 노드에 의해 대표단어가 좌우되지 않도록 콘텐츠 키워드 추출부(110)에서 노드를 평준화하는 제130단계(S130)와, 각 군집의 중심벡터에서 가장 높은 값을 갖는 상위 10개의 단어를 콘텐츠 키워드 추출부(110)에서 콘텐츠 키워드로 추출 후 대표 단어들을 포괄하는 단어를 콘텐츠로 정의하는 제140단계(S140)와, 상기 콘텐츠를 콘텐츠 정의부(120)에서 장르, 콘텐츠, 콘텐츠의 키워드로 구성되는 온톨로지로 정의하는 제150단계(S150)를 포함한다.
하기의 표 1에는 콘텐츠 키워드 추출부(110)에서 도 3의 SF와 범죄 장르에 해당하는 시놉시스를 입력하여 추출한 콘텐츠와 콘텐츠의 키워드가 기재되어 있다.
장르 SF 범죄
콘텐츠 우주 재난 로봇 괴수 시간여행 사기 형사 연쇄살인 범죄조직
키워드1 지구 인류 인간 박사 머신 계획 범인 살인 보스
키워드2 외계 바이러스 로봇 외계 타임 사기 수사 사건 킬러
키워드3 우주 미래 사이보그 공룡 미래 작전 조직 연쇄 조직
키워드4 우주선 지구 미래 연구 과거 사기꾼 형사 스릴러 경찰
키워드5 행성 감염 로보트 실험 로보트 금고 사건 야쿠자 삼합
키워드6 박사 생존자 컴퓨터 괴수 멤버 경찰 살인범 제거
키워드7 생명체 인간 인조 사고 에이스 범죄 살인
키워드8 혹성 전쟁 통제 거대 살인 암살
키워드9 화성 프로젝트 군단 공격 살해 마약
키워드10 물체 전쟁 대원 거래
키워드11 밀매
상기 제110단계(S110)의 초기 중심벡터 선정은 도 5(a)와 같이, 랜덤하게 하나의 중심벡터를 선정하는 제111단계(S111)와, 상기 선정된 중심벡터에서 가장 멀리 떨어진 노드를 다음 중심 벡터로 선정하는 제112단계(S112)와, 설정된 갯수의 중심벡터가 선정될 때까지 반복하는 제113단계(S113)를 포함한다.
상기 제120단계(S120)의 단어 필터링은 도 5(b)와 같이, DF가 높은 상위 5% 단어와 DF가 낮은 하위 5% 단어를 제거하는 제121단계(S121)와, 한 글자로 이루어진 단어를 제거하는 제122단계(S122)와, 기타 불용어 목록에 포함된 단어를 제거하는 제123단계(S123)를 포함한다.
또한 상기 제130단계(S130)의 노드 평준화는 군집에 스케일이 큰 이상 값이 포함될 경우 이상 값에 의해 대표단어가 좌우될 수 있으므로 문서의 스케일을 하기의 수학식 1을 이용하여 평준화한다.
[수학식 1]
Nnew = N / (log(│N│) + 1)
상기 콘텐츠를 콘텐츠 정의부(120)에서 장르, 콘텐츠, 콘텐츠의 키워드로 구성되는 온톨로지로 정의하는 제150단계(S150)의 장르는 클래스로 하기의 수학식 2와 같으며, 콘텐츠는 장르의 하위 클래스로 하기의 수학식 3과 같으며, 콘텐츠는 도메인 온톨로지를 자동으로 생성하기 위해 클래스에 기술을 정의하고, 기술을 포함한 콘텐츠를 하기의 수학식 4와 같이 재정의한다.
[수학식 2]
G = { g│g∈G, g∈ Cl, Cl∈ Ot }
여기서, G는 장르 클래스 집합, g는 장르 클래스, Cl은 온톨로지에 정의된 클래스 집합, Ot는 온톨로지를 의미한다.
[수학식 3]
C = { c│c∈C, c∈Cl, Cl∈Ot, c⊆G }
여기서, C는 콘텐츠 클래스의 집합, c는 콘텐츠 클래스를 의미한다.
[수학식 4]
C′= { c′,p│c′∈C′, c′∈Cl, Cl∈Ot, c′⊆g, Domain(p,c′), p∈P }
여기서, C′는 재정의된 콘텐츠 클래스의 집합, c′는 재정의된 콘텐츠 클래스, p는 온톨로지에 정의된 속성(property), P는 온톨로지에 정의된 속성의 집합을 의미한다.
상기 수학시 4에 의하면, 각 콘텐츠 클래스는 자신을 도메인으로 갖는 속성 po를 기술로 정의한다.
상기 반자동 모델링하는 제200단계(S200)은 모든 도메인에 독립적으로 사용될 수 있는 핵심 온톨로지와 도메인에 종속적인 도메인 온톨로지를 반자동 온톨로지 모델링부(200)에서 반자동 모델링한다.
상기 제200단계(S200)는 도 6과 같이, 콘텐츠 키워드가 워드넷에 정의시 부분 트리 결합부(213)에서 부분 트리 결합을 수행하는 제210단계(S210)와, 콘텐츠 키워드가 워드넷에 정의되지 않을시 키워드 앵커링부(214)에서 키워드 앵커링을 수행하는 제220단계(S220)와, 콘텐츠 키워드 추론기(221)에서 콘텐츠와 키워드 기술에 온톨로지 함의 관계 추론을 적용하여 추론된 도메인 트리 모델을 생성하는 제230단계(S230)를 포함한다.
하기의 표 2는 워드넷의 의미 관계를 온톨로지 공리로 변환한 표로서, 부분 트리는 키워드의 의미와 맞는 어휘를 워드넷과 연결하고, 그 어휘의 상하위어 및 동의어를 추출한 트리이며, 키워드 클래스를 기준으로 상위어는 상위 클래스, 하위어는 하위 클래스, 동의어는 등가(equivalent) 클래스로 정의한다.
구분 워드넷 온톨로지
상위어 hypernym super class
하위어 hyponym sub class
동의어 synonymy equivalent class
부분 트리 결합부(213)는 워드넷에서 키워드의 부분 트리를 가져와서 온톨로지에 클래스로 정의하고, 키워드 클래스에 기술을 추가하여 의미를 부여하는 것으로, 콘텐츠와 연관 있는 키워드의 부분 트리를 결합하면 하나의 장르에 연관된 보편적인 어휘 계층 구조가 형성(핵심 온토로지)되며, 여러 장르의 계층구조가 결합되면 하나의 VOD 도메인에 해당하는 특정 어휘 계층구조(도메인 온톨로지)가 형성되는데, 이 구조는 다른 시맨틱 웹 서비스의 도메인에도 적용할 수 있으며, 누구나 동의하는 어휘 분류 체계가 된다.
상기 제210단계(S210)의 부분 트리 결합 수행은 도 7과 같이, 키워드가 온톨로지에 정의되었는지 판단하는 제211단계(S211)와, 콘텐츠 키워드가 온톨로지에 정의된 경우 키워드의 부분 트리를 확장하는 제211a단계(S211a)와, 키워드가 온톨로지에 정의되지 않을 경우 키워드 상위어가 온톨로지에 정의되었는지 판단하는 제212단계(S212)와, 콘텐츠 키워드의 상위어가 온톨로지에 정의된 경우 키워드 상위어의 부분 트리를 확장하는 제212a단계(S212a)와, 키워드 상위어가 온톨로지에 정의되지 않을 경우 키워드 하위어가 온톨로지에 정의되었는지 판단하는 제213단계(S213)와, 콘텐츠 키워드의 하위어가 온톨로지에 정의된 경우 키워드 하위어의 부분 트리를 확장하는 제213a단계(S213a)와, 키워드 하위어가 온톨로지에 정의되지 않을 경우 키워드 동의어가 온톨로지에 정의되었는지 판단하는 제214단계(S214)와, 콘텐츠 키워드의 동의어가 온톨로지에 정의된 경우 키워드 동의어의 부분 트리를 확장하는 제214a단계(S214a)와, 키워드 동의어가 온톨로지에 정의되지 않을 경우 콘텐츠 키워드를 클래스로 온톨로지에 정의하는 제215단계(S215)와, 워드넷으로부터 가져온 키워드와 매치되는 어휘의 상하위어와 동의어를 부분 트리로 온톨로지에 추가하는 제216단계(S216)와, 콘텐츠 키워드 추론기(221)를 통해 관련된 콘텐츠로 분류하기 위해 기술을 추가하는 제217단계(S217)를 포함한다.
하기의 수학식 5는 키워드가 온톨로지에 정의된 경우(S211a)의 식이며, 수학식 6은 키워드의 상위어가 온톨로지에 정의된 경우(212a)의 식이며, 수학식 7은 키워드의 하위어가 온톨로지에 정의된 경우(213a)의 식이며, 수학식 8은 키워드의 동의어가 온톨로지에 정의된 경우(214a)의 식을 나타내고 있다.
Figure 112010012369916-pat00001
여기서, k′i는 사용자가 입력한 키워드의 부분트리, ki는 사용자가 입력한 키워드 클래스, wsb는 키워드의 하위 개념 클래스, Wsb2는 키워드 하위 개념의 하위 개념 클래스 집합, wsp는 키워드의 상위 개념 클래스, Wsp2는 키워드 상위 개념의 상위 개념 클래스 집합, k+는 온톨로지에 이미 정의되어 있는 키워드의 부분트리, Ot는 온톨로지를 의미한다.
Figure 112010012369916-pat00002
여기서, w′sp는 사용자가 입력한 키워드 상위어의 부분트리, wsp는 사용자가 입력한 키워드의 상위어 클래스, wsb3는 wsp의 하위 클래스 집합, wsp3는 wsp의 상위 클래스 집합, wsp +는 온톨로지에 이미 정의되어 있는 키워드 상위어의 부분트리, Ot는 온톨로지를 의미한다.
Figure 112010012369916-pat00003
여기서, w′sb는 사용자가 입력한 키워드 하위어의 부분트리, wsb는 사용자가 입력한 키워드의 하위어 클래스, wsb4는 wsb의 하위 클래스 집합, wsp4는 wsb의 상위 클래스 집합, wsb +는 온톨로지에 이미 정의되어 있는 키워드 하위어의 부분트리, Ot는 온톨로지를 의미한다.
Figure 112010012369916-pat00004
여기서, w′s는 사용자가 입력한 키워드 동의어의 부분트리, ws는 사용자가 입력한 키워드 동의어 클래스, wsb5는 ws의 하위 클래스 집합, wsp5는 ws의 상위 클래스 집합, wsp +는 온톨로지에 이미 정의되어 있는 키워드 동의어의 부분트리, Ot는 온톨로지를 의미한다.
부분 트리는 상위어로 올라갈수록 어휘는 너무 포괄적인 개념이어서 시놉시스에 포함될 확률이 낮고 키워드의 콘텐츠를 추론하는데 정확도를 떨어뜨리므로 상위어는 키워드 바로 위의 어휘만 추출하고, 하위어도 바로 밑의 어휘만 추출하지만 키워드를 구체화하므로 다중 선택을 허용한다.
상기 도 7의 콘텐츠 키워드 기술 알고리즘에서 하나의 경우만 살펴보면, 키워드가 온톨로지에 정의된 경우, ki의 부분트리를 확장하는데, 첫째로 ki 상위어 wsp의 상위어 집합 WSP2와 하위어 wsb의 하위어 집합 WSb2를 추출하여 k′i를 만든다. 다음으로 k′i의 계층구조에 함의되는 클래스 k+가 정의되어 있으면, k+가 정의되어 있으면, k+에 ki의 기술을 추가하여 수정한다.
예를 들어, ki가 “물체”라고 하고, ki의 부분트리, “유기체 ⊆ 물체 ⊆ 실체”를 추출하였다고 하자. ki를 확장하여 “{생명체, 인류} ⊆ 유기체 ⊆ 물체 ⊆ 실체”ki를 생성한다. 다음으로 k′i가 온톨로지에 이미 정의된 k+의 계층구조 “야생물 ⊆ 생명체 ⊆ 유기체”를 함의하면, ki 클래스를 새로 정의하지 않고 k+에 ki 기술을 추가한다.
반면에, 키워드 어휘는 같지만 상기 표 2의 조건을 만족하지 않는다면, 다의어로 간주하고 ki를 새로운 클래스로 정의한다(도 7의 S215 단계). 키워드의 상위어, 하위어, 그리고 동의어에 대해서도 동일한 처리를 실시하며, 도 7은 동음이의어에 대해 다른 부분트리를 생성하므로 이 알고리즘은 어휘의 중의성을 고려한다.
상기 제220단계(S220)의 키워드 앵커링 수행은 도 8과 같이, 국어 사전에서 키워드의 동의어를 추출하는 제221단계(S221)와, 코렉스에서 상기 동의어에 대한 어휘를 검색하는 제222단계(S222)와, 코렉스에서 동의어 미추출시 영어 사전에서 키워드의 영어단어를 추출하는 제223단계(S223)와, 워드넷에서 추출된 영어단어의 한국어 어휘를 검색하는 제224단계(S224)와, 상기 제222단계(S222)에서 동의어 어휘 검색 및 제224단계(S224)에서 한국어 어휘 검색시 부분 워드넷 생성 알고리즘을 수행하는 제225단계(S225)를 포함한다.
앵커링이란 한 자원으로부터 다른 자원에 연결하는 것을 의미하는 것으로, 워드넷은 영어 어휘를 기반으로 하므로 한국어 고유명사나 한자어, 그리고 외래어 등은 정의되어 있지 않으며, 본 발명은 VOD 도메인에 적합한 어휘 체계의 부분 트리를 온톨로지로 구축하기 위해 워드넷에 정의되지 않은 중요 키워드에 대해서는 상기 도 8의 과정을 통해 VOD 온톨로지를 확장한다.
워드넷에 정의되지 않은 키워드는 워드넷에 정의된 키워드의 이음동의어와 연결하여 앵커링 하는데, 예를 들어, ‘초능력’은 코렉스에서 검색되지 않으며, 상기 도 8의 과정을 수행하면, ‘초능력’의 동의어 ‘텔레파시’를 추출하고, ‘텔레파시’ 어휘를 검색하여, 부분 워드넷 생성 알고리즘을 수행하거나, 또 다른 예로서, ‘야생’은 ‘야생’의 동의어를 검색하지 못할 경우, ‘wildness’를 검색하여 ‘맹렬함’을 검색 후 부분 워드넷 생성 알고리즘을 수행하게 된다.
도 9는 콘텐츠 키워드와 워드넷을 연결하기 위한 2가지 경우를 도시한 도면으로, 콘텐츠 키워드가 워드넷에 정의된 경우는 부분 트리 결합부(213)를 수행하고, 콘텐츠 키워드가 워드넷에 정의되지 않은 경우에는 키워드 앵커링부(214)를 수행하며, 본 발명은 한국어 멀티미디어 데이터를 특정 콘텐츠로 분류하기 위해 워드넷의 영어 어휘를 한국어 어휘로 변환한 코렉스를 사용한다.
상기 새로운 VOD 시놉시스(N) 데이터 입력시 콘텐츠 추론 및 분류하는 제300단계(S300)는 상기 학습 VOD 시놉시스(S) 데이터를 기초로 모델링한 온톨로지를 기반으로 새로운 VOD 시놉시스(N) 데이터가 문서분류 시스템부(300)로 입력되면 그 문서의 콘텐츠를 추론하여 분류한다.
상기 제300단계(S300)는 도 10과 같이, VOD 시놉시스가 키워드 추출기(310)로 입력되면, 상기 시놉시스로부터 온톨로지에 정의된 키워드 집합을 추출하는 제310단계(S310)와, 소재 온톨로지에 익명의 클래스를 생성하고, 추출된 키워드들을 상기 클래스 의 기술로 생성하는 제320단계(S320)와, 온톨로지 함의 관계 추론을 이용하여 클래스의 상위 클래스로 추론되는 콘텐츠 클래스 집합을 콘텐츠 추론기(320)에서 추론하는 제330단계(S330)를 포함한다.
도 11은 콘텐츠 추론기(320) 알고리즘을 이용한 콘텐츠 추론의 실시 예인데, 문서 분류의 예로서, 영화 VOD의 시놉시스가 입력되었을 때, 도메인 온톨로지를 기반으로 콘텐츠가 추출되는 이유를 그래프 형태로 보여준다.
학습 데이터로 사용되지 않은 최근 개봉 영화 ‘국가대표’의 콘텐츠로서, ‘드라마’장르의 ‘스포츠’와 ‘우정’을 추론하는 예이며, 온톨로지 추론을 이용한 시맨틱 매칭이 되는 부분만 설명하는데, 우선, ‘대표’, ‘경기’, ‘올림픽’, ‘코치’등의 키워드는 콘텐츠 키워드 추론기에 의해 ‘드라마’ 장르의 ‘스포츠’로 추론되며, (1)‘점프’는 함의 관계 추론에 의해 ‘스포츠’ 키워드의 ‘시합’ 하의어로 매칭되고, (2)‘엄마’는 ‘어머니’와 동의어로 추론되며, (3)‘아버지’는 ‘어머니’의 형제(sibling) 클래스로 매칭되어 ‘우정’콘텐츠로 분류되는 것으로, 추출된 콘텐츠 중 가중치가 가장 높은 콘텐츠가 문서의 분류로 추론된다.
도 12는 반자동 온톨로지 모델링부(200)의 핵심 온톨로지 모델링부(210)의 실시 예로서, 온톨로지 모델링 과정을 살펴보면, 상단의 ‘File’메뉴를 통해 편집하고자 하는 OWL 온톨로지 파일을 열면 1-1 영역에 클래스 계층구조가 보이며, 이 영역은 대표적인 온톨로지 편집기인 Protege와 동일한 구조로 분류체계를 보인다.
하나의 온톨로지 파일에 장르, 콘텐츠, 콘텐츠 키워드의 어휘를 계층적으로 구축하며, 1-1의 (가)는 장르와 콘텐츠의 계층구조를 보여주고, 상기 표 1의 SF, 범죄 등의 장르가 출력된다. 또한 각 장르의 하위로 콘텐츠(예; ‘범죄’의 콘텐츠, 사기, 형사 등)를 보여주며, (나)는 부분 트리 결합부(213)를 통해 생성된 어휘의 계층구조이다.
1-2는 부분 트리 결합부(213)를 통해 콘텐츠의 키워드를 온톨로지에 삽입하는 부분을 보이는 것으로, 상기 표 1의 ‘범죄’장르의 ‘형사’콘텐츠의 키워드 1인 ‘조직’을 추가하는 예를 보여주며, 1-1의 (가)에서 ‘조직’의 콘텐츠인 ‘형사’를 선택하면, 장르와 콘텐츠가 자동으로 1-2의 (다)에 삽입된다. 그 후 ‘조직’을 키워드로 입력하고 오른쪽의 ‘Search’버튼을 누르면, 상하위어가 (라)에 출력되어 설계자가 선택할 수 있다. (마)는 키워드 입력시 동음이의어 처리를 위해 설계자에게 묻는 창으로, 동의어는 키워드가 선택되면 자동 삽입된다. 하지만, (나)에 이미 ‘조직’키워드에 대한 계층구조가 존재하며, 최종적으로 (바)와 같은 계층구조로 갱신된다.
도 13의 1-3은 도메인 온톨로지 모델링부(220)의 실시 예로서, 콘텐츠 키워드 추출부(110)에서 삽입한 콘텐츠 기술과 핵심 온톨로지 모델링부(210)에서 삽입한 키워드 기술을 기반으로 온톨로지 추론을 하여 (나)와 같은 결과를 얻으며, 콘텐츠 ‘형사’를 예로 들어보면, 핵심 온톨로지 모델링부(210)를 통해 (가)에서는 ‘형사’의 하위 트리는 존재하지 않는 반면, 도메인 온톨로지 모델링부(220)의 (나)는 ‘형사’의 하위 트리로 콘텐츠들이 추론되어 보임을 알 수 있다.
도 14의 1-4는 문서분류 시스템부(300)의 실시 예로서, VOD ‘국가대표’가 ‘우정’, ‘스포츠’에 관련된 콘텐츠로 분류된 것을 알 수 있다.
따라서, 본 발명은 서비스 도메인에 적합하고 경량적인 한국어 어휘 체계를 구축하기 위해 검증된 어휘 분류체계인 워드넷에서 서비스 도메인에 따른 부분트리를 추출하여 온톨로지로 구축하며, 상기 온톨로지는 추론을 지원하므로 워드넷에서 표현하지 못한 어휘의 의미적 관계 추론을 가능하고, 상기 워드넷에 없는 외래어와 한자어는 대체 어휘로 앵커링하여 한국인의 사고 체계에 맞고 서비스 도메인에 적합하다.
본 발명은 특정의 실시 예와 관련하여 도시 및 설명하였지만, 첨부된 특허청구범위에 의해 나타난 발명의 사상 및 영역으로부터 벗어나지 않는 한도 내에서 다양한 개조 및 변화가 가능하다는 것을 당업계에서 통상의 지식을 가진 자라면 누구나 쉽게 알 수 있을 것이다.
100 : 콘텐츠 생성부 110 : 콘텐츠 키워드 추출부
120 : 콘텐츠 정의부 200 : 반자동 온톨로지 모델링부
210 : 핵심 온톨로지 모델링부 211 : 온톨로지 적재부
212 : 키워드 및 워드넷 연결부 213 : 부분 트리 결합부
214 : 키워드 앵커링부 220 : 도메인 온톨로지 모델링부
221 : 콘텐츠 키워드 추론기 300 : 문서분류 시스템부
310 : 키워드 추출기 320 : 콘텐츠 추론기
330 : 콘텐츠 저장기 400 : 지식 베이스
410 : 콘텐츠 온톨로지 420 : 부분 워드넷
430 : 도메인 트리 모델 440 : VOD 콘텐츠 저장소
S : 학습 VOD 시놉시스 N : 새로운 VOD 시놉시스

Claims (14)

  1. 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 시스템으로서,
    학습 VOD 시놉시스(S) 데이터에 포함된 단어를 이용하여 장르, 콘텐츠 유형 및 콘텐츠 키워드로 이루어진 콘텐츠 온톨로지를 생성하는 콘텐츠 생성부(100);
    상기 콘텐츠 온톨로지에 포함된 상기 콘텐츠 키워드를 워드넷의 부분 트리와 연결하여 모든 도메인에 독립적으로 사용될 수 있는 핵심 온톨로지를 모델링하고, 상기 핵심 온톨로지를 기반으로 온톨로지 함의(subsumption) 관계 추론을 적용하여 도메인에 종속적인 도메인 온톨로지를 모델링하는 반자동 온톨로지 모델링부(200); 및
    새로운 VOD 시놉시스(N) 데이터가 입력된 경우, 상기 도메인 온톨로지를 기반으로 상기 새로운 VOD 시놉시스(N) 데이터에 대응되는 장르 및 콘텐츠 유형을 분류하는 문서분류 시스템부(300);를 포함하는 것을 특징으로 하는 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 시스템.
  2. 제 1항에 있어서,
    상기 콘텐츠 생성부(100)는,
    텍스트 마이닝 기법을 이용하여, 상기 학습 VOD 시놉시스(S) 데이터로부터 단어를 추출하고, 상기 추출된 단어를 군집화한 후 각 군집의 중심 벡터에서 가장 높은 값을 가지는 소정 개수의 상기 콘텐츠 키워드를 추출하며, 상기 추출된 콘텐츠 키워드의 특징을 대표하는 단어인 상기 콘텐츠 유형을 추출하는 콘텐츠 키워드 추출부(110); 및
    상기 콘텐츠 키워드 추출부(110)에서 추출된 상기 콘텐츠 유형 및 상기 콘텐츠 키워드를 장르별로 상기 콘텐츠 온톨로지에 정의하는 콘텐츠 정의부(120);를 포함하는 것을 특징으로 하는 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 시스템.
  3. 제 1항에 있어서,
    상기 반자동 온톨로지 모델링부(200)는,
    상기 콘텐츠 온톨로지에 포함된 상기 콘텐츠 키워드가 상기 워드넷에 정의되어 있는 경우, 상기 콘텐츠 키워드, 상기 콘텐츠 키워드의 상위어, 상기 콘텐츠 키워드의 하위어 및 상기 콘텐츠 키워드의 동의어 중 적어도 하나와 대응되는 상기 워드넷의 부분 트리를 상기 콘텐츠 키워드와 연결하고, 상기 콘텐츠 키워드가 상기 워드넷에 정의되어 있지 않은 경우, 국어 사전에서 추출된 상기 콘텐츠 키워드의 동의어 또는 영어 사전에서 추출된 상기 콘텐츠 키워드의 영어 단어와 대응되는 상기 워드넷의 부분 트리를 상기 콘텐츠 키워드와 연결하여 상기 핵심 온톨로지를 모델링하는핵심 온톨로지 모델링부(210); 및
    온톨로지 함의(subsumption) 관계 추론을 통해 상기 핵심 온톨로지 모델링부(210)에서 모델링된 서로 다른 상기 핵심 온톨로지를 결합하여 상기 도메인 온톨로지를 모델링하는 도메인 온톨로지 모델링부(220);를 포함하는 것을 특징으로 하는 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 시스템.
  4. 제 1항에 있어서,
    상기 문서분류 시스템부(300)는,
    상기 새로운 VOD 시놉시스(N) 데이터로부터 상기 도메인 온톨로지에 정의된 단어 집합을 추출하고, 상기 추출된 단어 집합을 기술(description)로 가지는 임시 클래스를 상기 도메인 온톨로지에 생성하는 키워드 추출기(310); 및
    온톨로지 함의(subsumption) 관계 추론을 이용하여 상기 키워드 추출기(310)에 의해 생성된 상기 임시 클래스를 기초로 상기 새로운 VOD 시놉시스(N) 데이터의 콘텐츠 유형 및 장르를 추론하는 콘텐츠 추론기(320);를 포함하는 것을 특징으로 하는 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 시스템.
  5. 제 1항에 있어서,
    상기 콘텐츠 생성부(100)에 의해 생성된 상기 콘텐츠 온톨로지, 상기 반자동 온톨로지 모델링부(200)에 의해 모델링된 상기 핵심 온톨로지 및 상기 도메인 온톨로지, 및 상기 문서분류 시스템부(300)에 의해 분류된 상기 새로운 VOD 시놉시스(N) 데이터의 장르 및 콘텐츠 유형을 저장하는 지식 베이스(400)를 더 포함하는 것을 특징으로 하는 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 시스템.
  6. 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 방법으로서,
    학습 VOD 시놉시스(S) 데이터에 포함된 단어를 이용하여 장르, 콘텐츠 유형 및 콘텐츠 키워드로 이루어진 콘텐츠 온톨로지를 생성하는 단계;
    상기 콘텐츠 온톨로지에 포함된 상기 콘텐츠 키워드를 워드넷의 부분 트리와 연결하여 모든 도메인에 독립적으로 사용될 수 있는 핵심 온톨로지를 모델링하는 단계;
    상기 핵심 온톨로지를 기반으로 온톨로지 함의(subsumption) 관계 추론을 적용하여 도메인에 종속적인 도메인 온톨로지를 모델링하는 단계; 및
    새로운 VOD 시놉시스(N) 데이터가 입력된 경우, 상기 도메인 온톨로지를 기반으로 상기 새로운 VOD 시놉시스(N) 데이터에 대응되는 장르 및 콘텐츠 유형을 분류하는 단계;를 포함하는 것을 특징으로 하는 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 방법.
  7. 제 6항에 있어서,
    상기 콘텐츠 온톨로지 생성 단계는,
    상기 학습 VOD 시놉시스(S) 데이터로부터 단어를 추출하는 단계;
    상기 추출된 단어를 군집화하고 각 군집에서 중심 벡터를 선정하는 단계;
    특징 벡터 생성시 변별력 있는 단어를 추출하기 위해 상기 추출된 단어를 필터링하는 단계;
    하나의 노드에 의해 콘텐츠 유형이 변경되지 않도록 노드를 평준화하는 단계;
    상기 각 군집의 중심 벡터에서 가장 높은 값을 가지는 소정 개수의 상기 콘텐츠 키워드를 추출하는 단계;
    상기 추출된 콘텐츠 키워드의 특징을 대표하는 단어인 상기 콘텐츠 유형을 추출하는 단계; 및
    상기 콘텐츠 유형 및 상기 콘텐츠 키워드를 장르별로 상기 콘텐츠 온톨로지에 정의하는 단계;를 포함하며,
    텍스트 마이닝 기법을 이용하여 상기 콘텐츠 온톨로지 생성 단계가 수행되는 것을 특징으로 하는 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 방법.
  8. 제 7항에 있어서,
    상기 중심 벡터 선정 단계는,
    무작위로 하나의 초기 중심 벡터를 선정하는 단계; 및
    상기 선정된 중심 벡터에서 가장 멀리 떨어진 노드를 다음 중심 벡터로 선정하는 단계;를 포함하며,
    상기 초기 중심 벡터 선정 단계와 상기 다음 중심 벡터 선정 단계를 사전에 설정된 개수의 중심 벡터가 선정될 때까지 반복적으로 수행하는 것을 특징으로 하는 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 방법.
  9. 제 7항에 있어서,
    상기 단어 필터링 단계는,
    전체 문서 중에서 해당 단어가 포함된 문서의 빈도수를 나타내는 DF(document frequency) 값을 기준으로 소정 범위 이내에 속하는 단어를 제거하는 단계;
    한 글자로 이루어진 단어를 제거하는 단계; 및
    기타 불용어 목록에 포함된 단어를 제거하는 단계;를 포함하는 것을 특징으로 하는 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 방법.
  10. 제 7항에 있어서,
    상기 노드 평준화 단계에서,
    상기 각 군집에서 문서의 수를 다음의 [수학식]에 의해 평준화하는 것을 특징으로 이루어진 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 방법:
    [수학식]
    Nnew = N / (log(│N│) + 1),
    여기서, 상기 Nnew는 평준화된 문서의 수를 나타내며, 상기 N은 상기 문서의 수를 나타낸다.
  11. 제 6항에 있어서,
    상기 핵심 온톨로지 모델링 단계에서.
    상기 콘텐츠 온톨로지에 포함된 상기 콘텐츠 키워드가 상기 워드넷에 정의되어 있는 경우, 상기 콘텐츠 키워드, 상기 콘텐츠 키워드의 상위어, 상기 콘텐츠 키워드의 하위어 및 상기 콘텐츠 키워드의 동의어 중 적어도 하나와 대응되는 상기 워드넷의 부분 트리를 상기 콘텐츠 키워드와 연결하고, 상기 콘텐츠 키워드가 상기 워드넷에 정의되어 있지 않은 경우, 국어 사전에서 추출된 상기 콘텐츠 키워드의 동의어 또는 영어 사전에서 추출된 상기 콘텐츠 키워드의 영어 단어와 대응되는 상기 워드넷의 부분 트리를 상기 콘텐츠 키워드와 연결하여 상기 핵심 온톨로지를 모델링하는 것을 특징으로 하는 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 방법.
  12. 제 6항에 있어서,
    상기 도메인 온톨로지 모델링 단계에서,
    온톨로지 함의(subsumption) 관계 추론을 통해 상기 핵심 온톨로지 모델링 단계에 의해 모델링된 서로 다른 상기 핵심 온톨로지를 결합하여 상기 도메인 온톨로지를 모델링하는 것을 특징으로 하는 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 방법.
  13. 삭제
  14. 제 6항에 있어서,
    상기 새로운 VOD 시놉시스(N) 데이터 분류 단계는,
    상기 새로운 VOD 시놉시스(N) 데이터로부터 상기 도메인 온톨로지에 정의된 단어 집합을 추출하는 단계;
    상기 추출된 단어 집합을 기술(description)로 가지는 임시 클래스를 상기 도메인 온톨로지에 생성하는 단계;
    온톨로지 함의(subsumption) 관계 추론을 이용하여 상기 임시 클래스를 기초로 상기 새로운 VOD 시놉시스(N) 데이터의 콘텐츠 유형 및 장르를 추론하는 단계;를 포함하는 것을 특징으로 하는 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 방법.
KR20100017059A 2010-02-25 2010-02-25 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 시스템 및 방법 KR101137153B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20100017059A KR101137153B1 (ko) 2010-02-25 2010-02-25 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20100017059A KR101137153B1 (ko) 2010-02-25 2010-02-25 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20110097287A KR20110097287A (ko) 2011-08-31
KR101137153B1 true KR101137153B1 (ko) 2012-04-19

Family

ID=44932331

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20100017059A KR101137153B1 (ko) 2010-02-25 2010-02-25 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR101137153B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160114928A (ko) * 2015-03-25 2016-10-06 주식회사 카카오 인터랙션을 통해 키워드를 검색하는 단말, 서버 및 방법

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101240330B1 (ko) * 2012-07-16 2013-03-11 한국과학기술정보연구원 다차원 문서 분류 시스템 및 방법
KR101488356B1 (ko) * 2013-11-08 2015-02-02 아주대학교산학협력단 개념 구조 기반으로 재구조화된 온톨로지를 생성하는 장치 및 방법
US11269964B2 (en) * 2017-07-24 2022-03-08 Mycelebs Co., Ltd. Field-of-interest based preference search guidance system
KR102103518B1 (ko) * 2018-09-18 2020-04-22 이승일 인공지능을 이용한 텍스트 및 그림 데이터를 동영상 데이터로 생성하는 시스템
KR102263317B1 (ko) * 2019-04-25 2021-06-14 주식회사 마이셀럽스 속성 언어 관리 방법 및 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080007740A (ko) * 2006-07-18 2008-01-23 제주대학교 산학협력단 웹 온톨로지 검색/분류 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080007740A (ko) * 2006-07-18 2008-01-23 제주대학교 산학협력단 웹 온톨로지 검색/분류 시스템 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160114928A (ko) * 2015-03-25 2016-10-06 주식회사 카카오 인터랙션을 통해 키워드를 검색하는 단말, 서버 및 방법
KR101665969B1 (ko) * 2015-03-25 2016-10-13 주식회사 카카오 인터랙션을 통해 키워드를 검색하는 단말, 서버 및 방법

Also Published As

Publication number Publication date
KR20110097287A (ko) 2011-08-31

Similar Documents

Publication Publication Date Title
CN106844658B (zh) 一种中文文本知识图谱自动构建方法及系统
Andhale et al. An overview of text summarization techniques
Syed et al. Exploiting a web of semantic data for interpreting tables
Zharmagambetov et al. Sentiment analysis of a document using deep learning approach and decision trees
US20190073420A1 (en) System for creating a reasoning graph and for ranking of its nodes
Wang et al. A low-rank approximation approach to learning joint embeddings of news stories and images for timeline summarization
KR101137153B1 (ko) 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 시스템 및 방법
Jotheeswaran et al. OPINION MINING USING DECISION TREE BASED FEATURE SELECTION THROUGH MANHATTAN HIERARCHICAL CLUSTER MEASURE.
Medelyan et al. Automatic construction of lexicons, taxonomies, ontologies, and other knowledge structures
Rupapara et al. Improving video ranking on social video platforms
Bai et al. Discriminative latent semantic graph for video captioning
Tiwari et al. Ensemble approach for twitter sentiment analysis
Dorji et al. Extraction, selection and ranking of Field Association (FA) Terms from domain-specific corpora for building a comprehensive FA terms dictionary
Suresh et al. Sentiment classification using decision tree based feature selection
US20210200799A1 (en) System and method for improved content discovery
Babekr et al. Personalized semantic retrieval and summarization of web based documents
Pourreza et al. Towards semantic-driven boolean query formalization for biomedical systematic literature reviews
Günther et al. Retro: Relation retrofitting for in-database machine learning on textual data
Gupta et al. A survey on methodologies used for semantic document clustering
Khan et al. An Automated Topics Labelling Framework using Zero-Shot Text Classification
Ji et al. Leveraging concept-enhanced pre-training model and masked-entity language model for named entity disambiguation
De Luca et al. Using clustering methods to improve ontology‐based query term disambiguation
CN114328820A (zh) 信息搜索方法以及相关设备
Jabri et al. A graph-based approach for text query expansion using pseudo relevance feedback and association rules mining
McAllister et al. Abstracting for dimensionality reduction in text classification

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160330

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170410

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee