KR20090061844A - 온톨로지 기반 시맨틱 메타데이터 추출 시스템 및 그 방법 - Google Patents

온톨로지 기반 시맨틱 메타데이터 추출 시스템 및 그 방법 Download PDF

Info

Publication number
KR20090061844A
KR20090061844A KR1020070128813A KR20070128813A KR20090061844A KR 20090061844 A KR20090061844 A KR 20090061844A KR 1020070128813 A KR1020070128813 A KR 1020070128813A KR 20070128813 A KR20070128813 A KR 20070128813A KR 20090061844 A KR20090061844 A KR 20090061844A
Authority
KR
South Korea
Prior art keywords
unit
ontology
semantic
extraction
natural language
Prior art date
Application number
KR1020070128813A
Other languages
English (en)
Inventor
정하용
정학진
최호준
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020070128813A priority Critical patent/KR20090061844A/ko
Publication of KR20090061844A publication Critical patent/KR20090061844A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 비구조적인 자연어 문서(Unstructured natural language documents) 등에서 온톨로지에 기반하여 시맨틱 메타데이터를 추출하기 위한 시스템 및 그 방법에 관한 것으로, 비구조적 자연어 문서 등으로부터 기계(예 : 컴퓨터)가 의미에 기반한 처리를 수행할 수 있는 정형적인 온톨로지 기반 시맨틱 메타데이터를 자동으로 추출하기 위한, 온톨로지 기반 시맨틱 메타데이터 추출 시스템 및 그 방법을 제공하고자 한다.
이를 위하여, 본 발명은 온톨로지 기반 시맨틱 메타데이터 추출 시스템에 있어서, 비구조적 자연어 문서에서 의미단위(실제적인 의미를 나타내는 어휘 단위)를 추출하기 위한 의미단위 추출 수단; 상기 의미단위 추출 수단에서 추출된 의미단위를 온톨로지에 존재하는 의미단위와 연결하기 위한 온톨로지 할당 수단; 및 상기 온톨로지와 연결된 의미단위들 간의 의미적 관계를 추출하기 위한 지식 추출 수단을 포함한다.
비구조적 자연어 문서, 온톨로지 기반 시맨틱 메타데이터, 의미단위 추출, 온톨로지 할당, 온톨로지 확장, 지식 추출

Description

온톨로지 기반 시맨틱 메타데이터 추출 시스템 및 그 방법{System and method for extracting semantic metadata based on ontology}
본 발명은 비구조적인 자연어 문서(Unstructured natural language documents) 등에서 온톨로지에 기반하여 시맨틱 메타데이터를 추출하기 위한 시스템 및 그 방법에 관한 것으로, 더욱 상세하게는 웹 문서를 비롯한 기하급수적으로 증가하는 전자문서 환경에서 정형화된 언어나 규격을 통해서 생성되지 않은 비구조적인 자연어 문서 등으로부터 그 문서의 내용을 컴퓨터가 이해하여 처리할 수 있게끔 하는 온톨로지 기반 시맨틱 메타데이터를 자동으로 추출하기 위한, 온톨로지 기반 시맨틱 메타데이터 추출 시스템 및 그 방법에 관한 것이다.
인터넷, 특히 웹의 발전은 비구조적 자연어 문서를 폭발적으로 증가시켰다. 비구조적 자연어 문서는 사람이 이해하고 처리하기에는 적합하지만, 정형적이지 않기 때문에 컴퓨터 프로그램에서 정보로서 활용하고 처리하기에는 부적합한 형태이다. 따라서 기존의 정보 시스템들은 문서의 의미나 내용과는 상관없이 문서에 어떤 글자가 나타나는지, 또는 문서의 길이가 어느 정도인지 등과 같은 외형적인 정보를 이용하여 정보를 처리할 수밖에 없었다. 기존의 인트라넷 환경에서는 문서의 수가 한정적이었기 때문에, 정보 시스템은 문서를 검색하거나 가공하는 것을 도와주고, 실제 문서의 내용을 확인해서 정확한 문서를 찾고 가공하는 것은 사용자의 몫이었다. 하지만, 웹 환경에서 기하급수적으로 증가하는 문서의 양은 더 이상 사람이 문서의 내용을 확인하기 어렵게 만들고 있다.
이에 대한 해결책으로 웹상의 정보들에 잘 정의된 공용의 의미를 부여해서, 사람뿐만 아니라 컴퓨터 프로그램도 문서의 내용을 이해하여 처리할 수 있게끔 하자는 "시맨틱 웹"이 제안되었다. 그리고 이를 위해 "잘 정의된 공용의 의미 체계"인 "온톨로지"가 하나 둘씩 속속 구축되게 되었다. 온톨로지에 정의된 의미들을 이용해 작성된 시맨틱 웹 문서들은 컴퓨터 프로그램도 문서의 내용을 이해하여 처리할 수 있기 때문에, 정보시스템들이 내용에 기반하여 문서를 검색하거나 가공하는 것이 가능해졌다. 하지만, 문제는 이미 셀 수 없을 만큼 많은, 그리고 앞으로도 수없이 생산될 기존의 비구조적 자연어 문서를 시맨틱 웹 문서로 바꾸는 일이다. 이를 위해서는 비구조적 자연어 문서(구조적 자연어 문서를 포함하는 개념의 용어임, 즉 구조적 자연어 문서뿐만 아니라 비구조적 자연어 문서까지 포함하는 의미의 용어임)로부터 문서의 외적인 정보인 메타데이터가 아닌 문서의 내적인 내용을 온톨로지에 맞추어 기술한 정보인 시맨틱 메타데이터를 추출하는 방안이 절실히 필요하다.
이를 해결하기 위한 종래의 방법으로는, 특정한 도메인에 한하여 미리 정의 된 패턴 등을 이용하여 정보를 추출하는 래퍼(Wrapper)를 이용하거나, 특정한 응용 프로그램이나 정보시스템을 위해 자연어 문서를 정형적 형태로 변환하는 방법 등이 있다.
그러나 상기와 같은 종래 기술은 특정 도메인이나 특정 시스템에서만 이용할 수 있는 제한적인 문제점이 있으며, 이러한 문제점을 해결하고자 하는 것이 본 발명의 과제이다.
따라서 본 발명은 비구조적 자연어 문서 등으로부터 기계(예 : 컴퓨터)가 의미에 기반한 처리를 수행할 수 있는 정형적인 온톨로지 기반 시맨틱 메타데이터를 자동으로 추출하기 위한, 온톨로지 기반 시맨틱 메타데이터 추출 시스템 및 그 방법을 제공하는데 그 목적이 있다.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명의 시스템은, 온톨로지 기반 시맨틱 메타데이터 추출 시스템에 있어서, 비구조적 자연어 문서에서 의미단위(실제적인 의미를 나타내는 어휘 단위)를 추출하기 위한 의미단위 추출 수단; 상기 의미단위 추출 수단에서 추출된 의미단위를 온톨로지에 존재하는 의미단위와 연결하기 위한 온톨 로지 할당 수단; 및 상기 온톨로지와 연결된 의미단위들 간의 의미적 관계를 추출하기 위한 지식 추출 수단을 포함한다.
또한, 상기 본 발명의 시스템은, 상기 의미단위 추출 수단에서 추출된 의미단위를 온톨로지 상위 개념(의미단위)과 연결하기 위한 온톨로지 확장 수단을 더 포함한다.
한편, 본 발명의 장치는, 온톨로지 확장 장치에 있어서, 비구조적 자연어 문서에서 추출된 의미단위를 구성하고 있는 글자들의 특성을 분석하기 위한 글자 특성 분석부; 상기 추출된 의미단위의 주변에 등장하는 어휘들을 분석하기 위한 주변어휘 분석부; 어휘 패턴, 구문 패턴, 및 온톨로지 패턴을 이용한 규칙을 적용하여 온톨로지 상위 개념을 찾기 위한 규칙 적용부; 및 상기 글자 특성 분석부와 상기 주변어휘 분석부와 상기 규칙 적용부의 처리 결과를 결합하여 상위 개념을 할당하기 위한 결과 조합부를 포함한다.
한편, 본 발명의 다른 장치는, 의미단위 추출 장치에 있어서, 비구조적 자연어 문서를 형태소 단위로 분석하기 위한 형태소 분석부; 상기 비구조적 자연어 문서로부터 의미단위 사전에 등록된 의미단위를 검색하기 위한 사전 검색부; 상기 비구조적 자연어 문서로부터 온톨로지에 등록된 의미단위를 검색하기 위한 온톨로지 어휘 검색부; 상기 비구조적 자연어 문서로부터 기 정의된 의미단위 추출 규칙에 따라 의미단위를 추출하기 위한 추출규칙 적용부; 상기 형태소 분석부, 상기 사전 검색부, 상기 온톨로지 어휘 검색부, 및 상기 추출규칙 적용부의 처리 결과를 결합하기 위한 결과 조합부; 및 상기 결과 조합부에서 선택된 의미단위들 중에서 불용 의미단위를 제거하기 위한 불용 의미단위 제거부를 포함한다.
한편, 본 발명의 또 다른 장치는, 지식 추출 장치에 있어서, 온톨로지 프로퍼티의 도메인과 레인지 정보를 이용하여, 비구조적 자연어 문서에서 추출된 의미단위들 간의 관계를 분석하기 위한 온톨로지 프로퍼티 적용부; 상기 비구조적 자연어 문서에 나타나 있는 구문적 구조를 분석하기 위한 구문구조 분석부; 어휘패턴이나 구문패턴 또는 온톨로지 패턴을 이용하여 의미단위들 간의 관계를 분석하기 위한 지식추출규칙 적용부; 및 상기 온톨로지 프로퍼티 적용부, 상기 구문구조 분석부, 및 상기 지식추출규칙 적용부의 처리 결과를 결합하여 지식(시맨틱 메타데이터)을 추출하기 위한 결과 조합부를 포함한다.
한편, 본 발명의 방법은, 온톨로지 기반 시맨틱 메타데이터 추출 방법에 있어서, 비구조적 자연어 문서에서 의미단위(실제적인 의미를 나타내는 어휘 단위)를 추출하는 의미단위 추출 단계; 상기 추출된 의미단위를 온톨로지에 존재하는 의미단위와 연결하는 온톨로지 할당 단계; 및 상기 온톨로지와 연결된 의미단위들 간의 의미적 관계를 추출하는 지식 추출 단계를 포함한다.
또한, 본 발명의 방법은, 상기 추출된 의미단위를 온톨로지 상위 개념(의미단위)과 연결하는 온톨로지 확장 단계를 더 포함한다.
한편, 본 발명의 다른 방법은, 온톨로지 확장 방법에 있어서, 비구조적 자연어 문서에서 추출된 의미단위를 구성하고 있는 글자들의 특성을 분석하는 글자 특성 분석 단계; 상기 추출된 의미단위의 주변에 등장하는 어휘들을 분석하는 주변어휘 분석 단계; 어휘 패턴, 구문 패턴, 및 온톨로지 패턴을 이용한 규칙을 적용하여 온톨로지 상위 개념을 찾는 규칙 적용 단계; 및 상기 글자 특성 분석 단계와 상기 주변어휘 분석 단계와 상기 규칙 적용 단계의 처리 결과를 결합하여 상위 개념을 할당하는 결과 조합 단계를 포함한다.
한편, 본 발명의 또 다른 방법은, 의미단위 추출 방법에 있어서, 비구조적 자연어 문서를 형태소 단위로 분석하는 형태소 분석 단계; 상기 비구조적 자연어 문서로부터 의미단위 사전에 등록된 의미단위를 검색하는 사전 검색 단계; 상기 비구조적 자연어 문서로부터 온톨로지에 등록된 의미단위를 검색하는 온톨로지 어휘 검색 단계; 상기 비구조적 자연어 문서로부터 기 정의된 의미단위 추출 규칙에 따라 의미단위를 추출하는 추출규칙 적용 단계; 상기 형태소 분석 단계, 상기 사전 검색 단계, 상기 온톨로지 어휘 검색 단계, 및 상기 추출규칙 적용 단계의 처리 결과를 결합하는 결과 조합 단계; 및 상기 결과 조합 단계에서 선택된 의미단위들 중에서 불용 의미단위를 제거하는 불용 의미단위 제거 단계를 포함한다.
한편, 본 발명의 또 다른 방법은, 지식 추출 방법에 있어서, 온톨로지 프로퍼티의 도메인과 레인지 정보를 이용하여, 비구조적 자연어 문서 추출된 의미단위들 간의 관계를 분석하는 온톨로지 프로퍼티 적용 단계; 상기 비구조적 자연어 문서에 나타나 있는 구문적 구조를 분석하는 구문구조 분석 단계; 어휘패턴이나 구문패턴 또는 온톨로지 패턴을 이용하여 의미단위들 간의 관계를 분석하는 지식추출규칙 적용 단계; 및 상기 온톨로지 프로퍼티 적용 단계, 상기 구문구조 분석 단계, 및 상기 지식추출규칙 적용 단계의 처리 결과를 결합하여 지식(시맨틱 메타데이터)을 추출하는 결과 조합 단계를 포함한다.
상기와 같은 본 발명은, 비구조적 자연어 문서 등으로부터 컴퓨터 프로그램이 의미에 기반한 처리를 수행할 수 있는 정형적인 온톨로지 기반 시맨틱 메타데이터를 자동으로 추출할 수 있는 효과가 있다.
즉, 본 발명은 인터넷 환경을 통해 폭발적으로 증가하는 비구조적 자연어 문서들의 내용을 자동적으로 온톨로지 기반 시맨틱 메타데이터로 표현함으로써, 컴퓨터 프로그램들이 사람이 작성한 수많은 비구조적 자연어 문서들을 정보로서 이용할 수 있도록 만들 수 있다.
그에 따라, 본 발명은 비구조적 자연어 문서 하나하나를 정보 자원으로서 사용할 수 있도록 할 수 있을 뿐만 아니라, 그것들 간의 관계를 제공함으로써 정보 검색, 자원 공유, 정보 요약, 문서 번역, 개인화, 자원 관리, 및 매쉬업 등의 다양한 응용시스템들이 의미에 기반한 결과를 제공할 수 있도록 할 수 있다.
또한, 본 발명은 자동적으로 비구조적 자연어 문서들로부터 다양한 어휘를 수집하여 온톨로지에 할당하고 그 온톨로지를 확장함으로써, 온톨로지의 구축, 관리, 확장, 및 보수에도 큰 도움을 줄 수 있다.
상술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되어 있는 상세한 설명을 통하여 보다 명확해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다.
도 1은 본 발명에 따른 비구조적 자연어 문서에서 온톨로지 기반 시맨틱 메타데이터를 추출하기 위한 시스템의 일실시예 전체 구성도이다.
도 1에 도시된 바와 같이, 본 발명에 따른 비구조적 자연어 문서에서 온톨로지 기반 시맨틱 메타데이터를 추출하기 위한 시스템은, 비구조적 자연어 문서(10)에서 실제적인 의미를 나타내는 어휘 단위(즉, 의미단위)를 추출하기 위한 의미단위 추출 모듈(20), 상기 의미단위 추출 모듈(20)에서 추출된 의미단위를 온톨로지에 존재하는 의미단위와 연결하기 위한 온톨로지 할당 모듈(30), 상기 의미단위 추출 모듈(20)에서 추출된 의미단위를 온톨로지 상위 개념(의미단위)과 연결하기 위한 온톨로지 확장 모듈(40), 상기 온톨로지와 연결된 의미단위들 간의 의미적 관계를 추출하기 위한 지식 추출 모듈(50)을 포함한다. 이때, 본 발명은 상기 각 구성 요소의 동작을 지원하기 위하여 의미단위 사전(60), 온톨로지(70), 및 온톨로지 기반 지식 베이스(80)를 구비한다.
이제, 본 발명에 따른 시스템이 비구조적 자연어 문서에서 온톨로지 기반 시맨틱 메타데이터를 추출하는 방법에 대하여 보다 상세하게 살펴보기로 한다.
상기 의미단위 추출 모듈(20)은 정형화된 언어나 규격을 통해서 생성되지 않 은 비구조적 자연어 문서들(10)로부터 문서가 전달하고자 하는 내용을 표현하는데 필요한 의미의 어휘 구성 단위인 의미단위들을 의미단위 사전(60)과 온톨로지(70)를 이용하여 추출하여 상기 온톨로지 할당 모듈(30)로 전달한다.
그리고 상기 온톨로지 할당 모듈(30)은 상기 의미단위 추출 모듈(20)에서 추출된 의미단위를, 같은 의미를 가지는 온톨로지(70) 상의 적절한 어휘(의미단위)와 연결한다. 이때, 상기 온톨로지 할당 모듈(30)은 온톨로지(70) 상의 의미단위와의 연결 결과(의미단위를 연결할 적절한 온톨로지 상의 의미단위가 존재하지 않음 또는 의미단위가 연결된 온톨로지 상의 의미단위)를 온톨로지 확장 모듈(40)로 전달하거나, 바로 지식 추출 모듈(50)로 전달한다.
그리고 상기 온톨로지 확장 모듈(40)은 상기 의미단위 추출 모듈(20)에서 추출된 의미단위가 기존의 온톨로지(70)에 존재하지 않을 경우, 즉 상기 의미단위 추출 모듈(20)에서 추출된 의미단위를 연결할 적절한 온톨로지(70) 상의 어휘(의미단위)가 존재하지 않을 경우, 상기 의미단위 추출 모듈(20)에서 추출된 의미단위가 속할 가장 적절한 온톨로지 상위 개념을 찾아 연결(할당)한다. 이때, 상기 온톨로지 확장 모듈(40)은 온톨로지 확장 결과를 지식 추출 모듈(50)로 전달한다. 이러한 온톨로지 확장 모듈(40)은 본 발명의 부가요소이다.
그리고 상기 지식 추출 모듈(50)은 상기 온톨로지와 연결된 의미단위들 간의 관계를 온톨로지(70)를 이용하여 분석함으로써 문서가 나타내는 내용을 온톨로지 기반 지식(온톨로지 기반 시맨틱 메타데이터)으로 생성하여 온톨로지 기반 지식 베이스(80)에 저장한다.
다음으로, 도 2를 참조하여 상기 의미단위 추출 모듈(20)의 구성 및 그 동작에 대해 보다 상세하게 살펴보기로 한다.
도 2는 본 발명에 따른 상기 도 1의 의미단위 추출 모듈(20)의 일실시예 상세 구성도이다.
도 2에 도시된 바와 같이, 상기 의미단위 추출 모듈(20)은, 비구조적 자연어 문서(10)를 형태소 단위로 분석하기 위한 형태소 분석부(21)와, 비구조적 자연어 문서(10)로부터 의미단위 사전(60)에 등록된 의미단위를 검색하기 위한 사전 검색부(22)와, 비구조적 자연어 문서(10)로부터 온톨로지(70)에 등록된 의미단위를 검색하기 위한 온톨로지 어휘 검색부(23)와, 비구조적 자연어 문서(10)로부터 기 정의된 의미단위 추출 규칙에 따라 의미단위를 추출하기 위한 추출규칙 적용부(24)와, 상기 형태소 분석부(21), 상기 사전 검색부(22), 상기 온톨로지 어휘 검색부(23), 및 상기 추출규칙 적용부(24)의 처리 결과를 결합하기 위한 제 1 결과 조합부(25)와, 상기 제 1 결과 조합부(25)에서 선택된 의미단위들 중에서 불용 의미단위(즉, 잘못 추출되거나 필요 없는 의미단위)를 제거하기 위한 불용 의미단위 제거부(26)를 포함한다.
이제, 상기 의미단위 추출 모듈(20)이 의미단위를 자동으로 추출하는 방법에 대하여 보다 상세하게 살펴보기로 한다.
먼저, 상기 형태소 분석부(21)에서는 비구조적 자연어 문서(10)에 등장하는 자연어 문장들을 언어적 의미를 갖는 최소 단위인 형태소로 분리하고 각 형태소의 품사를 태깅한다.
여기서, 형태소와 의미단위는 서로 다른 것으로서, 형태소는 언어적으로 의미를 가질 수 있는 최소의 단위인 반면에, 의미단위는 문장 내에서 하나의 객체로서 독립된 의미를 가지는 단위를 뜻한다. 따라서 일반적으로 형태소는 글자의 개수가 적고 복합명사, 띄어쓰기, 및 수식어구 등을 포함하지 않지만, 의미단위는 상대적으로 많은 글자로 구성되며 복합명사, 띄어쓰기, 및 수식어구 등을 포함할 수 있다.
그리고 상기 사전 검색부(22)에서는 비구조적 자연어 문서(10)에 등장하는 자연어 문장들로부터 형태소 분석부(21)에서 너무 작은 단위인 형태소로 분석하기 때문에 추출하기 어려운 복합명사, 띄어쓰기를 포함한 의미단위, 수식어구를 포함한 의미단위 등을 의미단위 사전(60)에서 검색하여 추출한다.
그리고 상기 온톨로지 어휘 검색부(23)에서는 비구조적 자연어 문서(10)에 등장하는 자연어 문장들로부터 온톨로지에 등록된 의미단위들을 온톨로지(70)에서 검색하여 추출한다.
여기서, 상기 사전 검색부(22)와 온톨로지 어휘 검색부(23)에서 띄어쓰기를 포함한 의미단위나 수식어구를 포함한 의미단위를 검색할 경우, 띄어쓰기나 수식어구가 변형되어도 검색을 가능하게 하기 위해, 의미단위의 첫 번째 어휘와 마지막 어휘를 비구조적 자연어 문서(10)에서 검색한 후에 중간 어휘가 첫 번째 어휘와 마지막 어휘의 사이에 존재(등장)하는지를 찾는다.
그리고 상기 추출규칙 적용부(24)에서는 비구조적 자연어 문서(10)에 등장하는 자연어 문장들로부터 따옴표 등의 특수기호로 구분된 의미단위나 이메일 주소, 인터넷 주소 등 정규식(Regular Expression)으로 표현될 수 있는 의미단위, 숫자, 시간, 돈, 나이 등 한정된 형식을 따르는 의미단위 등을 추출하기 위해 글자 패턴 규칙, 어휘 패턴 규칙, 구문 패턴 규칙, 및 온톨로지를 이용한 개념 패턴 규칙 등을 적용하여 의미단위를 추출한다.
그리고 상기 제 1 결과 조합부(25)에서는 상기 형태소 분석부(21), 상기 사전 검색부(22), 상기 온톨로지 어휘 검색부(23), 및 상기 추출규칙 적용부(24)로부터의 처리 결과를 결합하기 위해서 가장 긴 의미단위를 우선적으로 선택하는 최장 일치 기법을 사용하고, 각 처리 결과 사이의 우선순위는 상기 온톨로지 어휘 검색부(23)로부터의 처리 결과, 상기 사전 검색부(22)로부터의 처리 결과, 상기 추출규칙 적용부(24)로부터의 처리 결과, 및 상기 형태소 분석부(21)로부터의 처리 결과의 순서로 결정한다.
여기서, 상기 제 1 결과 조합부(25)에서 각 처리 결과로부터 찾은 의미단위를 서로 비교하기 위해서는 각 처리 결과에서 찾은 의미단위가 서로 간의 어느 부분에 해당하는지를 찾아야 한다. 이를 위해서 공백의 개수를 이용하여 문장 내 의미단위의 위치를 찾은 후에 각 의미단위 내에서 최초로 달라지는 형태소를 찾는 방식을 취한다.
그리고 상기 불용 의미단위 제거부(26)에서는 상기 제 1 결과 조합부(25)에서 선택된 의미단위들 중에서 잘못 추출되거나 필요 없는 의미단위(즉, 불용 의미단위)를 제거하기 위해서 불용 의미단위 사전(도면에 도시되지 않음)과 의미단위 제거 규칙을 적용하여 필요 없는 의미단위들을 제거한다.
여기서, 상기 불용 의미단위 사전은 대상이 되는 비구조적 자연어 문서(10)의 도메인에 따라 달라질 수 있는데, 예를 들어 뉴스 문서의 경우 문서의 내용과는 별 관련이 없는 "전하다", "말하다", "보도하다", "언급하다" 등의 보도용 동사들을 포함할 수 있다.
다음으로, 도 3을 참조하여 상기 온톨로지 할당 모듈(30)의 구성 및 동작에 대해 보다 상세하게 살펴보기로 한다.
도 3은 본 발명에 따른 상기 도 1의 온톨로지 할당 모듈의 일실시예 상세 구성도이다.
도 3에 도시된 바와 같이, 상기 온톨로지 할당 모듈(30)은, 상기 의미단위 추출 모듈(20)에서 추출된 의미단위가 온톨로지 상의 어떤 클래스나 인스턴스 또는 프로퍼티에 해당하는지를 검색하기 위한 온톨로지 검색부(31)와, 상기 온톨로지 검색부(31)에서 검색된 의미단위가 온톨로지(70)에 두 개 이상 존재할 때, 하나의 올바른 온톨로지 상의 의미단위를 할당하기 위한 동음이의어 처리부(32)를 포함한다.
이제, 상기 온톨로지 할당 모듈(30)이 상기 의미단위 추출 모듈(20)에서 추출된 의미단위에 자동으로 온톨로지를 할당하는 방법에 대하여 보다 상세하게 살펴보기로 한다.
먼저, 상기 온톨로지 검색부(31)에서는 상기 의미단위 추출 모듈(20)에서 추출된 의미단위들을 온톨로지의 클래스, 인스턴스, 및 프로퍼티들과 비교하여 같은 의미단위를 찾는다. 이를 위해 문자열 비교를 하는데, 문자열 비교의 대상은 클래 스, 인스턴스, 프로퍼티의 이름과 유사표현이다. 여기서, 유사표현은 해당 클래스, 인스턴스, 프로퍼티의 뜻을 나타낼 수 있는 다양한 문자열 표현들을 담고 있다. 이때, 유사표현은 의미적으로 완전 일치가 아닌 유사한 의미를 나타내는 표현을 모두 담고 있게 된다.
여기서, 상기 온톨로지 검색부(31)에서 동사나 형용사에 해당하는 어휘를 포함한 의미단위를 검색할 경우, 동사나 형용사의 활용형도 검색을 가능하게 하기 위하여, 해당 부분만을 형태소 분석하여 동사나 형용사의 원형을 구한다. 그리고 검색 대상이 되는 온톨로지 프로퍼티 역시 형태소 분석을 하여 원형의 형태로 저장하여 놓은 후에, 의미단위와 온톨로지 프로퍼티의 비교를 통해 검색한다.
그리고 상기 동음이의어 처리부(32)에서는 상기 온톨로지 검색부(31)에서 검색된 의미단위가 온톨로지(70)에 두 개 이상 존재할 때, 해당 의미단위에 하나의 올바른 온톨로지 상의 클래스나 인스턴스 또는 프로퍼티를 할당한다. 이를 위해 해당 의미단위와 관련이 있는 어휘들을 모아서 그 어휘들 간의 유사도를 비교한 후에, 유사도가 가장 큰 온톨로지 상의 클래스나 인스턴스 또는 프로퍼티를 할당한다.
여기서, 의미단위와 관련이 있는 어휘들은 크게 3가지가 있다. 첫 번째는 유사표현으로서 해당 클래스, 인스턴스, 프로퍼티의 뜻을 나타낼 수 있는 다양한 문자열 표현들을 담고 있다. 두 번째는 주변어로서 해당 클래스, 인스턴스, 프로퍼티의 모든 상위어, 1단계 하위어, 그리고 자매 노드를 포함한다. 세 번째는 연관어로서 문서상에서 실제 해당 의미단위와 함께 자주 나왔던 어휘들을 널리 알려진 상호 정보(Mutual Information) 등 두 사건 사이의 연관 정도를 얻기 위한 통계적 기법을 통하여 구한다.
다음으로, 도 4를 참조하여 상기 온톨로지 확장 모듈(40)의 구성 및 동작에 대해 보다 상세하게 살펴보기로 한다.
도 4는 본 발명에 따른 상기 도 1의 온톨로지 확장 모듈의 일실시예 상세 구성도이다.
이때, 상기 온톨로지 확장 모듈(40)은, 상기 의미단위 추출 모듈(20)에서 추출된 의미단위를 연결할 온톨로지 상의 적절한 어휘가 존재하지 않을 경우, 해당 의미단위에 적절한 온톨로지 상위 개념을 할당하기 위해 다음과 같은 방식을 사용한다. 여기서, 상기 온톨로지 확장 모듈(40)은 도 4에 도시된 바와 같이 상기 의미단위 추출 모듈(20)에서 추출된 의미단위를 상기 온톨로지 할당 모듈(30)을 통하여 전달받거나, 상기 의미단위 추출 모듈(20)로부터 바로 전달받을 수도 있다(이때에는 상기 의미단위 추출 모듈(20)에서 추출된 의미단위를 연결할 온톨로지 상의 적절한 어휘가 존재하지 않는다는 정보를 상기 온톨로지 할당 모듈(30)로부터 전달받음.).
도 4에 도시된 바와 같이, 상기 온톨로지 확장 모듈(40)은, 상기 의미단위 추출 모듈(20)에서 추출된 의미단위를 구성하고 있는 글자들이 어떤 글자들로 구성되어 있는지를 분석하기 위한 글자 특성 분석부(41)와, 상기 의미단위 추출 모듈(20)에서 추출된 의미단위의 주변에 등장하는 어휘들을 분석하기 위한 주변어휘 분석부(42)와, 어휘 패턴, 구문 패턴, 온톨로지 패턴을 이용한 규칙을 적용하여 온톨로지 상위 개념을 찾기 위한 규칙 적용부(43)와, 상기 글자 특성 분석부(41), 상기 주변어휘 분석부(42), 및 상기 규칙 적용부(43)의 처리 결과를 결합하여 적절한 상위 개념을 할당하기 위한 제 2 결과 조합부(44)를 포함한다.
이제, 상기 온톨로지 확장 모듈(40)이 상기 의미단위 추출 모듈(20)에서 추출된 의미단위에 자동으로 온톨로지 상위 개념을 할당하는 방법에 대하여 보다 상세하게 살펴보기로 한다.
먼저, 상기 글자 특성 분석부(41)에서는 상기 의미단위 추출 모듈(20)에서 추출된 의미단위를 구성하고 있는 어휘들을 온톨로지에서 찾는다. 의미단위를 구성하는 어휘들 중에 온톨로지에 존재하는 어휘가 있을 경우 찾은 온톨로지 상의 어휘는 해당 의미단위의 상위 개념이 될 확률이 커지므로, 찾은 온톨로지 상의 어휘와 그 어휘가 해당 의미단위를 구성하는 비율과 몇 번째 어휘인지를 분석한다. 예를 들어, "힙합 가수"라는 의미단위가 있을 때, 온톨로지에는 "가수"라는 클래스가 존재한다면, "가수"는 "힙합 가수"의 상위 개념 후보가 되고, 구성 비율은 2개의 어휘 중 하나의 어휘이므로 50%, 2개의 어휘 중에 2번째 어휘이므로 어휘 위치는 2가 된다. 여기서, 구성 비율은 높을수록, 어휘 위치는 마지막인 것이 상위 개념 확률을 높여주게 된다.
그리고 글자 패턴을 분석하여 특정 규칙을 만족하는 글자 패턴은 그에 맞는 클래스나 프로퍼티를 상위 개념 후보로 지정한다. 예를 들어, "김", "이", "박", "최", "정" 등으로 시작하며 3글자인 의미단위는 "사람" 클래스의 인스턴스, "(주)" 로 시작하는 의미단위는 "주식회사" 클래스의 인스턴스, "학교"로 끝나는 의미단위의 상위 개념 후보는 "학교"가 된다.
그리고 상기 주변어휘 분석부(42)에서는 상기 의미단위 추출 모듈(20)에서 추출된 의미단위의 주변에 등장하는 어휘들을 온톨로지(70)에서 찾는다. 의미단위의 주변 의미단위들 중에 온톨로지에 존재하는 의미단위가 있을 경우 대상 의미단위는 찾은 의미단위의 상위 개념이나 하위 개념 또는 자매 개념일 확률이 크다. 예를 들어, 대상 의미단위의 주변에 "김희선", "장동건" 등의 어휘가 등장하였고, "김희선", "장동건"은 온톨로지에 존재하는 인스턴스로서 상위 개념이 "탤런트"라면, "탤런트"는 대상 의미단위의 상위 개념 후보가 된다. 또는, 대상 의미단위의 주변에 "가수"라는 어휘가 등장했고, "가수"가 온톨로지에 존재하는 클래스라면, "가수"는 대상 의미단위의 상위 개념 후보가 된다.
하지만, 대상 의미단위의 주변에 등장한 의미단위가 프로퍼티라면 조금 다른 방식을 적용하는데, 그것은 프로퍼티의 도메인과 레인지를 이용하는 것이다. 프로퍼티의 경우 그 프로퍼티의 도메인과 레인지에 해당하는 클래스가 반드시 정의되므로, 대상 의미단위 주변에 찾은 프로퍼티의 도메인 클래스에 해당하는 의미단위만 존재하고 레인지 클래스에 해당하는 의미단위가 존재하지 않는다면, 레인지 클래스가 대상 의미단위의 상위 개념 후보가 된다. 반대로, 대상 의미단위 주변에 찾은 프로퍼티의 레인지 클래스에 해당하는 의미단위만 존재할 때에도 마찬가지이다. 이때, 도메인과 레인지 클래스에 해당하는 의미단위가 모두 존재하지 않는다면, 두 개의 클래스가 모두 대상 의미단위의 상위 개념 후보가 된다. 예를 들어, 대상 의 미단위 주변에 등장한 "레드카펫을 밟다"라는 프로퍼티의 도메인 클래스는 "영화 배우", 레인지 클래스는 "영화 시상식"이고, "영화 시상식" 클래스의 인스턴스인 "청룡 영화제"만 대상 의미단위 주변에 등장하였다면, "영화 배우"는 대상 의미단위의 상위 개념 후보가 된다.
그리고 상기 규칙 적용부(43)에서는, 일예로 상기 의미단위 추출 모듈(20)과 온톨로지 할당 모듈(30)을 통하여 전달받은 비구조적 자연어 문서(10)에서 규칙에 따라 온톨로지를 할당할 수 있는 의미단위들을 찾는다. 이때, 규칙은 어휘 패턴, 구문 패턴, 및 온톨로지 패턴 등을 이용한다. 예를 들어, "가수(공백)(의미단위)(조사)→(의미단위)isa가수"라는 규칙이 있을 경우, "가수 에이트는 첫 번째 앨범을 발매했다."와 같은 문장이 있을 때, "에이트"의 상위 개념 후보는 "가수"가 된다. 이때, 온톨로지 패턴을 응용한다면 규칙을 "(사람의 하위 클래스)(공백)(의미단위)(조사)→(의미단위)isa(사람의 하위 클래스)"와 같이 만들 수 있고, 이것은 좀 더 범용적으로 적용될 수 있는 규칙이 될 수 있다.
여기서, 규칙은 상기의 예와 같이 정규화된 규칙언어로 기술될 수 있고, 이를 통해 온톨로지 구축 과정에서 규칙언어에 맞추어 규칙을 작성하면, 작성된 규칙을 규칙 적용부(43)에 바로 적용해서 쉽게 자동화할 수 있다.
그리고 상기 제 2 결과 조합부(44)에서는 상기 글자 특성 분석부(41), 상기 주변어휘 분석부(42), 및 상기 규칙 적용부(43)로부터의 처리 결과로 얻어진 대상 의미단위의 상위 개념 후보들 중에서 상위 개념 확률이 임계값 이상인 것만을 선택한다. 이때, 임계값은 사람이 수동적으로 직접 정하거나 기계 학습 기법을 이용하 여 통계적으로 구할 수 있다. 만약, 상위 개념 확률이 임계값 이상인 상위 개념이 두 개 이상일 경우에는 상기 온톨로지 할당 모듈(30)의 동음이의어 처리부(32)에서의 처리 방식과 동일한 방식으로 하나의 상위 개념을 선택한다.
여기서, 상위 개념 확률은 상기 글자 특성 분석부(41), 상기 주변어휘 분석부(42), 및 상기 규칙 적용부(43) 각각에서 얻어진 확률 값을 2:4:4의 비율로 더한 것으로, 상기 비율은 임의로 조정할 수 있다. 또한, 상기 글자 특성 분석부(41), 상기 주변어휘 분석부(42), 및 상기 규칙 적용부(43) 각각에서 상위 개념 확률을 얻는 방식은 각각의 방식이나 규칙에 초기에 0.5의 확률을 부여하고 해당 방식이나 규칙이 정답을 맞추는 비율에 따라 일정 값을 가감한다.
다음으로, 도 5를 참조하여 상기 지식 추출 모듈(50)의 구성 및 동작에 대해 보다 상세하게 살펴보기로 한다.
도 5는 본 발명에 따른 상기 도 1의 지식 추출 모듈의 일실시예 상세 구성도이다.
이때, 상기 지식 추출 모듈(50)은 상기 의미단위 추출 모듈(20)과 상기 온톨로지 할당 모듈(30), 그리고 상기 온톨로지 확장 모듈(40)을 이용하여 비구조적 자연어 문서들(10)로부터 추출된 온톨로지 할당 의미단위들 간의 관계를 분석하여 온톨로지 기반 지식을 추출한다.
도 5에 도시된 바와 같이, 상기 지식 추출 모듈(50)은, 온톨로지 프로퍼티의 도메인과 레인지 정보를 이용하여 의미단위들 간의 관계를 분석하기 위한 온톨로지 프로퍼티 적용부(51)와, 비구조적 자연어 문서(10)에 나타나 있는 구문적 구조를 분석하기 위한 구문구조 분석부(52)와, 어휘패턴이나 구문패턴 또는 온톨로지 패턴 등을 이용하여 의미단위들 간의 관계를 분석하기 위한 지식추출규칙 적용부(53)와, 상기 온톨로지 프로퍼티 적용부(51), 상기 구문구조 분석부(52), 및 상기 지식추출규칙 적용부(53)의 처리 결과를 결합하여 적절한 지식(시맨틱 메타데이터)을 추출하기 위한 제 3 결과 조합부(54)를 포함한다.
이제, 상기 지식 추출 모듈(50)이 비구조적 자연어 문서들(10)로부터 자동으로 온톨로지 기반 지식을 추출하는 방법에 대하여 보다 상세하게 살펴보기로 한다.
먼저, 상기 온톨로지 프로퍼티 적용부(51)에서는 비구조적 자연어 문서들(10)에서 온톨로지 프로퍼티에 해당하는 의미단위를 찾는다. 여기서, 온톨로지 프로퍼티에 해당하는 의미단위는 의미단위 추출 모듈(20)과 온톨로지 할당 모듈(30) 또는 온톨로지 확장 모듈(40)을 통해 구해진 것이다. 온톨로지 프로퍼티는 도메인 클래스와 레인지 클래스를 가지는데 이것들은 온톨로지 구축 과정에서 정의되는 것으로서, 도메인 클래스는 해당 프로퍼티의 주체(Subject)가 될 수 있는 클래스이고, 레인지 클래스는 해당 프로퍼티의 객체(Object)가 될 수 있는 클래스이다. 온톨로지 프로퍼티에 해당하는 의미단위를 찾았다면, 해당 의미단위와 같은 문장 내에 있는 의미단위들 중에서 온톨로지 프로퍼티의 도메인 클래스나 레인지 클래스에 속하는 의미단위가 있는지를 찾는다. 온톨로지 프로퍼티의 도메인 클래스나 레인지 클래스에 속하는 의미단위를 찾았다면 도메인 클래스에 속하는 의미단위를 주체(Subject), 레인지 클래스에 속하는 의미단위를 객체(Object), 온톨로지 프로 퍼티에 해당하는 의미단위를 서술부(Predicate)로 하는 하나의 온톨로지 기반 트리플 지식을 추출할 수 있다.
예를 들어, "유재석의 소속은 MBC이다."라는 자연어 문장이 존재할 때, "소속"이 온톨로지 프로퍼티로 정의되어 있고, "소속"의 도메인 클래스는 "사람", 레인지 클래스가 "조직"이라면, "소속"과 같은 문장에서 등장하는 의미단위들 중에서 "사람"이나 "조직"에 속하는 의미단위를 찾는다. 상기 의미단위 추출 모듈(20)에서 "유재석", "소속", "MBC"가 의미단위로 추출되어 있고, 상기 온톨로지 할당 모듈(30)이나 온톨로지 확장 모듈(40)에서 "유재석"은 "사람" 클래스의 인스턴스로, "MBC"는 "조직" 클래스의 인스턴스로 할당되어 있다면, "유재석"을 주체(Subject), "소속"을 서술부(Predicate), "MBC"를 객체(Object)로 하는 하나의 온톨로지 기반 트리플 지식을 구할 수 있다. 이때, 온톨로지 기반 트리플 지식은 OWL(Web Ontology Language)의 형식으로 저장한다.
여기서, 온톨로지 프로퍼티의 도메인 클래스나 레인지 클래스에 속하는 의미단위를 찾을 때, 의미단위는 해당 클래스의 하위에 존재하는 모든 클래스와 인스턴스를 포함한다. 예를 들어, "유재석"이 "사람" 클래스의 인스턴스로 할당되어 있지 않더라도, "유재석"이 "개그맨" 클래스의 인스턴스이고, "개그맨" 클래스는 "사람" 클래스의 하위 클래스라면, "유재석"을 "사람" 클래스에 속하는 의미단위로 찾는 것이다.
또한, 온톨로지 프로퍼티가 도메인과 레인지에 따라서 구조화되어 있을 경우, 좀더 정확한 온톨로지 기반 트리플 지식을 구할 수 있다. 예를 들어, "소속"의 도메인 클래스는 "사람", 레인지 클래스가 "조직"이지만, "소속"의 하위 클래스로 같은 의미단위인 "소속"의 도메인 클래스가 "스포츠 선수", 레인지 클래스는 "스포츠팀"이라면, 좀더 정확하게 온톨로지 기반 트리플 지식을 구할 수 있다.
그리고 온톨로지 기반 트리플 지식은 대부분의 경우 (Subject, Predicate, Object)의 형태를 가지지만, 온톨로지 프로퍼티의 레인지 클래스가 정의되지 않은 일부의 경우에는 (Subject, Predicate)의 형태를 가질 수도 있다.
그리고 상기 구문구조 분석부(52)에서는 비구조적 자연어 문서(10)에 등장하는 자연어 문장들의 구문구조를 자연어 처리 기법으로 분석하여 주어와 서술어, 목적어에 해당하는 어휘들을 찾는다. 주어와 서술어, 목적어에 해당하는 어휘들이 의미단위와 일치하고 온톨로지가 할당되어 있다면, 주어, 서술어, 목적어 각각을 주체(Subject), 서술부(Predicate), 객체(Object)로 하여 온톨로지 기반 트리플 지식을 구한다.
이때, 주어와 서술어, 목적어가 의미단위와 일치하지 않거나, 온톨로지가 할당되지 않았다면, 온톨로지에 기반하지 않은 트리플 지식의 형태가 되지만 검색 시스템 등의 응용시스템에서 활용할 수 있기 때문에 제거하지 않고 따로 저장한다.
그리고 상기 지식추출규칙 적용부(53)에서는 비구조적 자연어 문서(10)에 등장하는 자연어 문장들의 어휘 패턴이나 구문 패턴 또는 온톨로지 패턴 등을 이용하여 온톨로지 기반 지식을 추출한다. 지식추출규칙은 문장 형태가 복잡하여 상기 온톨로지 프로퍼티 적용부(51)나 구문구조 분석부(52)에서 분석하기 어려운 문장이나, 제목 등에 자주 등장하는 중요한 패턴 등을 이용하여 상기 온톨로지 프로퍼티 적용부(51)와 구문구조 분석부(52)를 보완한다.
그리고 상기 제 3 결과 조합부(54)에서는 상기 온톨로지 프로퍼티 적용부(51), 상기 구문구조 분석부(52), 및 상기 지식추출규칙 적용부(53)로부터의 처리 결과로 얻어진 대상 온톨로지 기반 트리플 지식들 중에서 지식 추출 확률이 임계값 이상인 것만을 선택한다. 이때, 임계값은 사람이 수동적으로 직접 정하거나, 기계 학습 기법을 이용하여 통계적으로 구할 수 있다.
여기서, 지식 추출 확률은 상기 온톨로지 프로퍼티 적용부(51), 상기 구문구조 분석부(52), 및 상기 지식추출규칙 적용부(53) 각각에서 얻어진 확률 값을 5:2:3의 비율로 더한 것으로, 상기 비율은 임의로 조정할 수 있다. 또한, 상기 온톨로지 프로퍼티 적용부(51), 상기 구문구조 분석부(52), 및 상기 지식추출규칙 적용부(53) 각각에서 지식 추출 확률을 얻는 방식은 각각의 방식이나 규칙에 초기에 0.5의 확률을 부여하고 해당 방식이나 규칙이 정답을 맞추는 비율에 따라 일정 값을 가감한다.
한편, 전술한 바와 같은 본 발명의 방법은 컴퓨터 프로그램으로 작성이 가능하다. 그리고 상기 프로그램을 구성하는 코드 및 코드 세그먼트는 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 상기 작성된 프로그램은 컴퓨터가 읽을 수 있는 기록매체(정보저장매체)에 저장되고, 컴퓨터에 의하여 판독되고 실행됨으로써 본 발명의 방법을 구현한다. 그리고 상기 기록매체는 컴퓨터가 판독할 수 있는 모든 형태의 기록매체를 포함한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
본 발명은 시맨틱 검색 시스템 등과 같은 의미 기반 정보 시스템에 이용될 수 있다.
도 1은 본 발명에 따른 비구조적 자연어 문서에서 온톨로지 기반 시맨틱 메타데이터를 추출하기 위한 시스템의 일실시예 전체 구성도,
도 2는 본 발명에 따른 상기 도 1의 의미단위 추출 모듈의 일실시예 상세 구성도,
도 3은 본 발명에 따른 상기 도 1의 온톨로지 할당 모듈의 일실시예 상세 구성도,
도 4는 본 발명에 따른 상기 도 1의 온톨로지 확장 모듈의 일실시예 상세 구성도,
도 5는 본 발명에 따른 상기 도 1의 지식 추출 모듈의 일실시예 상세 구성도이다.
* 도면의 주요 부분에 대한 부호 설명
10 : 비구조적 자연어 문서 20 : 의미단위 추출 모듈
30 : 온톨로지 할당 모듈 40 : 온톨로지 확장 모듈
50 : 지식 추출 모듈 60 : 의미단위 사전
70 : 온톨로지 80 : 온톨로지 기반 지식 베이스

Claims (25)

  1. 온톨로지 기반 시맨틱 메타데이터 추출 시스템에 있어서,
    비구조적 자연어 문서에서 의미단위(실제적인 의미를 나타내는 어휘 단위)를 추출하기 위한 의미단위 추출 수단;
    상기 의미단위 추출 수단에서 추출된 의미단위를 온톨로지에 존재하는 의미단위와 연결하기 위한 온톨로지 할당 수단; 및
    상기 온톨로지와 연결된 의미단위들 간의 의미적 관계를 추출하기 위한 지식 추출 수단
    을 포함하는 온톨로지 기반 시맨틱 메타데이터 추출 시스템.
  2. 제 1 항에 있어서,
    상기 의미단위 추출 수단에서 추출된 의미단위를 온톨로지 상위 개념(의미단위)과 연결하기 위한 온톨로지 확장 수단
    을 더 포함하는 온톨로지 기반 시맨틱 메타데이터 추출 시스템.
  3. 제 2 항에 있어서,
    상기 온톨로지 확장 수단은,
    상기 의미단위 추출 수단에서 추출된 의미단위가 상기 온톨로지에 존재하지 않음에 따라, 상기 의미단위 추출 수단에서 추출된 의미단위가 속할 온톨로지 상위 개념을 글자 특성, 주변어휘, 및 패턴 규칙을 이용하여 찾아 연결(할당)하는 것을 특징으로 하는 온톨로지 기반 시맨틱 메타데이터 추출 시스템.
  4. 제 3 항에 있어서,
    상기 온톨로지 확장 수단은,
    상기 의미단위 추출 수단에서 추출된 의미단위를 구성하고 있는 글자들의 특성을 분석하기 위한 글자 특성 분석부;
    상기 의미단위 추출 수단에서 추출된 의미단위의 주변에 등장하는 어휘들을 분석하기 위한 주변어휘 분석부;
    어휘 패턴, 구문 패턴, 및 온톨로지 패턴을 이용한 규칙을 적용하여 온톨로지 상위 개념을 찾기 위한 규칙 적용부; 및
    상기 글자 특성 분석부와 상기 주변어휘 분석부와 상기 규칙 적용부의 처리 결과를 결합하여 상위 개념을 할당하기 위한 제 2 결과 조합부
    를 포함하는 온톨로지 기반 시맨틱 메타데이터 추출 시스템.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 의미단위 추출 수단은,
    정형화된 언어나 규격을 통해서 생성되지 않은 상기 비구조적 자연어 문서로부터 문서가 전달하고자 하는 내용을 표현하는데 필요한 의미의 어휘 구성 단위인 의미단위들을 형태소 분석, 의미단위 검색, 의미단위 추출 규칙 적용, 및 불용 의미단위 제거를 통하여 추출하는 것을 특징으로 하는 온톨로지 기반 시맨틱 메타데이터 추출 시스템.
  6. 제 5 항에 있어서,
    상기 의미단위 추출 수단은,
    상기 비구조적 자연어 문서를 형태소 단위로 분석하기 위한 형태소 분석부;
    상기 비구조적 자연어 문서로부터 의미단위 사전에 등록된 의미단위를 검색하기 위한 사전 검색부;
    상기 비구조적 자연어 문서로부터 상기 온톨로지에 등록된 의미단위를 검색하기 위한 온톨로지 어휘 검색부;
    상기 비구조적 자연어 문서로부터 기 정의된 의미단위 추출 규칙에 따라 의미단위를 추출하기 위한 추출규칙 적용부;
    상기 형태소 분석부, 상기 사전 검색부, 상기 온톨로지 어휘 검색부, 및 상기 추출규칙 적용부의 처리 결과를 결합하기 위한 제 1 결과 조합부; 및
    상기 제 1 결과 조합부에서 선택된 의미단위들 중에서 불용 의미단위를 제거 하기 위한 불용 의미단위 제거부
    를 포함하는 온톨로지 기반 시맨틱 메타데이터 추출 시스템.
  7. 제 6 항에 있어서,
    상기 사전 검색부와 상기 온톨로지 어휘 검색부는,
    띄어쓰기를 포함한 의미단위나 수식어구를 포함한 의미단위를 검색할 경우 띄어쓰기나 수식어구가 변형되어도 검색을 가능하게 하기 위해, 의미단위의 첫 번째 어휘와 마지막 어휘를 상기 비구조적 자연어 문서에서 검색한 후 중간 어휘가 첫 번째 어휘와 마지막 어휘의 사이에 존재하는지를 검색하는 것을 특징으로 하는 온톨로지 기반 시맨틱 메타데이터 추출 시스템.
  8. 제 6 항에 있어서,
    상기 추출규칙 적용부는,
    상기 비구조적 자연어 문서에 등장하는 자연어 문장들로부터 특수기호로 구분된 의미단위, 정규식(Regular Expression)으로 표현될 수 있는 의미단위, 한정된 형식을 따르는 의미단위를 추출하기 위해 글자 패턴 규칙, 어휘 패턴 규칙, 구문 패턴 규칙, 및 온톨로지를 이용한 개념 패턴 규칙을 적용하여 의미단위를 추출하는 것을 특징으로 하는 온톨로지 기반 시맨틱 메타데이터 추출 시스템.
  9. 제 6 항에 있어서,
    상기 지식 추출 수단은,
    상기 온톨로지와 연결된 의미단위들 간의 관계를 온톨로지 프로퍼티 적용, 구문구조 분석, 및 지식추출규칙 적용을 통하여 분석하여, 문서가 나타내는 내용을 온톨로지 기반 지식(온톨로지 기반 시맨틱 메타데이터)으로 생성하는 것을 특징으로 하는 온톨로지 기반 시맨틱 메타데이터 추출 시스템.
  10. 제 9 항에 있어서,
    상기 지식 추출 수단은,
    온톨로지 프로퍼티의 도메인과 레인지 정보를 이용하여 의미단위들 간의 관계를 분석하기 위한 온톨로지 프로퍼티 적용부;
    상기 비구조적 자연어 문서에 나타나 있는 구문적 구조를 분석하기 위한 구문구조 분석부;
    어휘패턴이나 구문패턴 또는 온톨로지 패턴을 이용하여 의미단위들 간의 관계를 분석하기 위한 지식추출규칙 적용부; 및
    상기 온톨로지 프로퍼티 적용부, 상기 구문구조 분석부, 및 상기 지식추출규칙 적용부의 처리 결과를 결합하여 지식(시맨틱 메타데이터)을 추출하기 위한 제 3 결과 조합부
    를 포함하는 온톨로지 기반 시맨틱 메타데이터 추출 시스템.
  11. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 온톨로지 할당 수단은,
    상기 의미단위 추출 수단에서 추출된 의미단위가 온톨로지 상의 어떤 클래스나 인스턴스 또는 프로퍼티에 해당하는지를 검색하기 위한 온톨로지 검색부; 및
    상기 온톨로지 검색부에서 검색된 의미단위가 상기 온톨로지에 두 개 이상 존재할 경우, 동음이의어 처리를 통하여 하나의 온톨로지 기반 의미단위를 할당하기 위한 동음이의어 처리부
    를 포함하는 온톨로지 기반 시맨틱 메타데이터 추출 시스템.
  12. 온톨로지 확장 장치에 있어서,
    비구조적 자연어 문서에서 추출된 의미단위를 구성하고 있는 글자들의 특성을 분석하기 위한 글자 특성 분석부;
    상기 추출된 의미단위의 주변에 등장하는 어휘들을 분석하기 위한 주변어휘 분석부;
    어휘 패턴, 구문 패턴, 및 온톨로지 패턴을 이용한 규칙을 적용하여 온톨로지 상위 개념을 찾기 위한 규칙 적용부; 및
    상기 글자 특성 분석부와 상기 주변어휘 분석부와 상기 규칙 적용부의 처리 결과를 결합하여 상위 개념을 할당하기 위한 결과 조합부
    를 포함하는 온톨로지 확장 장치.
  13. 의미단위 추출 장치에 있어서,
    비구조적 자연어 문서를 형태소 단위로 분석하기 위한 형태소 분석부;
    상기 비구조적 자연어 문서로부터 의미단위 사전에 등록된 의미단위를 검색하기 위한 사전 검색부;
    상기 비구조적 자연어 문서로부터 온톨로지에 등록된 의미단위를 검색하기 위한 온톨로지 어휘 검색부;
    상기 비구조적 자연어 문서로부터 기 정의된 의미단위 추출 규칙에 따라 의미단위를 추출하기 위한 추출규칙 적용부;
    상기 형태소 분석부, 상기 사전 검색부, 상기 온톨로지 어휘 검색부, 및 상기 추출규칙 적용부의 처리 결과를 결합하기 위한 결과 조합부; 및
    상기 결과 조합부에서 선택된 의미단위들 중에서 불용 의미단위를 제거하기 위한 불용 의미단위 제거부
    를 포함하는 의미단위 추출 장치.
  14. 제 13 항에 있어서,
    상기 사전 검색부와 상기 온톨로지 어휘 검색부는,
    띄어쓰기를 포함한 의미단위나 수식어구를 포함한 의미단위를 검색할 경우 띄어쓰기나 수식어구가 변형되어도 검색을 가능하게 하기 위해, 의미단위의 첫 번째 어휘와 마지막 어휘를 상기 비구조적 자연어 문서에서 검색한 후 중간 어휘가 첫 번째 어휘와 마지막 어휘의 사이에 존재하는지를 검색하는 것을 특징으로 하는 의미단위 추출 장치.
  15. 제 13 항 또는 제 14 항에 있어서,
    상기 추출규칙 적용부는,
    상기 비구조적 자연어 문서에 등장하는 자연어 문장들로부터 특수기호로 구분된 의미단위, 정규식(Regular Expression)으로 표현될 수 있는 의미단위, 한정된 형식을 따르는 의미단위를 추출하기 위해 글자 패턴 규칙, 어휘 패턴 규칙, 구문 패턴 규칙, 및 온톨로지를 이용한 개념 패턴 규칙을 적용하여 의미단위를 추출하는 것을 특징으로 하는 의미단위 추출 장치.
  16. 지식 추출 장치에 있어서,
    온톨로지 프로퍼티의 도메인과 레인지 정보를 이용하여, 비구조적 자연어 문 서에서 추출된 의미단위들 간의 관계를 분석하기 위한 온톨로지 프로퍼티 적용부;
    상기 비구조적 자연어 문서에 나타나 있는 구문적 구조를 분석하기 위한 구문구조 분석부;
    어휘패턴이나 구문패턴 또는 온톨로지 패턴을 이용하여 의미단위들 간의 관계를 분석하기 위한 지식추출규칙 적용부; 및
    상기 온톨로지 프로퍼티 적용부, 상기 구문구조 분석부, 및 상기 지식추출규칙 적용부의 처리 결과를 결합하여 지식(시맨틱 메타데이터)을 추출하기 위한 결과 조합부
    를 포함하는 지식 추출 장치.
  17. 온톨로지 기반 시맨틱 메타데이터 추출 방법에 있어서,
    비구조적 자연어 문서에서 의미단위(실제적인 의미를 나타내는 어휘 단위)를 추출하는 의미단위 추출 단계;
    상기 추출된 의미단위를 온톨로지에 존재하는 의미단위와 연결하는 온톨로지 할당 단계; 및
    상기 온톨로지와 연결된 의미단위들 간의 의미적 관계를 추출하는 지식 추출 단계
    를 포함하는 온톨로지 기반 시맨틱 메타데이터 추출 방법.
  18. 제 17 항에 있어서,
    상기 추출된 의미단위를 온톨로지 상위 개념(의미단위)과 연결하는 온톨로지 확장 단계
    를 더 포함하는 온톨로지 기반 시맨틱 메타데이터 추출 방법.
  19. 제 18 항에 있어서,
    상기 온톨로지 확장 단계는,
    상기 추출된 의미단위를 구성하고 있는 글자들의 특성을 분석하는 글자 특성 분석 단계;
    상기 추출된 의미단위의 주변에 등장하는 어휘들을 분석하는 주변어휘 분석 단계;
    어휘 패턴, 구문 패턴, 및 온톨로지 패턴을 이용한 규칙을 적용하여 온톨로지 상위 개념을 찾는 규칙 적용 단계; 및
    상기 글자 특성 분석 단계와 상기 주변어휘 분석 단계와 상기 규칙 적용 단계의 처리 결과를 결합하여 상위 개념을 할당하는 제 2 결과 조합 단계
    를 포함하는 온톨로지 기반 시맨틱 메타데이터 추출 방법.
  20. 제 17 항 내지 제 19 항 중 어느 한 항에 있어서,
    상기 의미단위 추출 단계는,
    상기 비구조적 자연어 문서를 형태소 단위로 분석하는 형태소 분석 단계;
    상기 비구조적 자연어 문서로부터 의미단위 사전에 등록된 의미단위를 검색하는 사전 검색 단계;
    상기 비구조적 자연어 문서로부터 상기 온톨로지에 등록된 의미단위를 검색하는 온톨로지 어휘 검색 단계;
    상기 비구조적 자연어 문서로부터 기 정의된 의미단위 추출 규칙에 따라 의미단위를 추출하는 추출규칙 적용 단계;
    상기 형태소 분석 단계, 상기 사전 검색 단계, 상기 온톨로지 어휘 검색 단계, 및 상기 추출규칙 적용 단계의 처리 결과를 결합하는 제 1 결과 조합 단계; 및
    상기 제 1 결과 조합 단계에서 선택된 의미단위들 중에서 불용 의미단위를 제거하는 불용 의미단위 제거 단계
    를 포함하는 온톨로지 기반 시맨틱 메타데이터 추출 방법.
  21. 제 20 항에 있어서,
    상기 지식 추출 단계는,
    온톨로지 프로퍼티의 도메인과 레인지 정보를 이용하여 의미단위들 간의 관계를 분석하는 온톨로지 프로퍼티 적용 단계;
    상기 비구조적 자연어 문서에 나타나 있는 구문적 구조를 분석하는 구문구조 분석 단계;
    어휘패턴이나 구문패턴 또는 온톨로지 패턴을 이용하여 의미단위들 간의 관계를 분석하는 지식추출규칙 적용 단계; 및
    상기 온톨로지 프로퍼티 적용 단계, 상기 구문구조 분석 단계, 및 상기 지식추출규칙 적용 단계의 처리 결과를 결합하여 지식(시맨틱 메타데이터)을 추출하는 제 3 결과 조합 단계
    를 포함하는 온톨로지 기반 시맨틱 메타데이터 추출 방법.
  22. 제 17 항 내지 제 19 항 중 어느 한 항에 있어서,
    상기 온톨로지 할당 단계는,
    상기 추출된 의미단위가 온톨로지 상의 어떤 클래스나 인스턴스 또는 프로퍼티에 해당하는지를 검색하는 온톨로지 검색 단계; 및
    상기 온톨로지 검색 단계에서 검색된 의미단위가 상기 온톨로지에 두 개 이상 존재할 경우, 동음이의어 처리를 통하여 하나의 온톨로지 기반 의미단위를 할당하는 동음이의어 처리 단계
    를 포함하는 온톨로지 기반 시맨틱 메타데이터 추출 방법.
  23. 온톨로지 확장 방법에 있어서,
    비구조적 자연어 문서에서 추출된 의미단위를 구성하고 있는 글자들의 특성을 분석하는 글자 특성 분석 단계;
    상기 추출된 의미단위의 주변에 등장하는 어휘들을 분석하는 주변어휘 분석 단계;
    어휘 패턴, 구문 패턴, 및 온톨로지 패턴을 이용한 규칙을 적용하여 온톨로지 상위 개념을 찾는 규칙 적용 단계; 및
    상기 글자 특성 분석 단계와 상기 주변어휘 분석 단계와 상기 규칙 적용 단계의 처리 결과를 결합하여 상위 개념을 할당하는 결과 조합 단계
    를 포함하는 온톨로지 확장 방법.
  24. 의미단위 추출 방법에 있어서,
    비구조적 자연어 문서를 형태소 단위로 분석하는 형태소 분석 단계;
    상기 비구조적 자연어 문서로부터 의미단위 사전에 등록된 의미단위를 검색하는 사전 검색 단계;
    상기 비구조적 자연어 문서로부터 온톨로지에 등록된 의미단위를 검색하는 온톨로지 어휘 검색 단계;
    상기 비구조적 자연어 문서로부터 기 정의된 의미단위 추출 규칙에 따라 의미단위를 추출하는 추출규칙 적용 단계;
    상기 형태소 분석 단계, 상기 사전 검색 단계, 상기 온톨로지 어휘 검색 단계, 및 상기 추출규칙 적용 단계의 처리 결과를 결합하는 결과 조합 단계; 및
    상기 결과 조합 단계에서 선택된 의미단위들 중에서 불용 의미단위를 제거하는 불용 의미단위 제거 단계
    를 포함하는 의미단위 추출 방법.
  25. 지식 추출 방법에 있어서,
    온톨로지 프로퍼티의 도메인과 레인지 정보를 이용하여, 비구조적 자연어 문서 추출된 의미단위들 간의 관계를 분석하는 온톨로지 프로퍼티 적용 단계;
    상기 비구조적 자연어 문서에 나타나 있는 구문적 구조를 분석하는 구문구조 분석 단계;
    어휘패턴이나 구문패턴 또는 온톨로지 패턴을 이용하여 의미단위들 간의 관계를 분석하는 지식추출규칙 적용 단계; 및
    상기 온톨로지 프로퍼티 적용 단계, 상기 구문구조 분석 단계, 및 상기 지식추출규칙 적용 단계의 처리 결과를 결합하여 지식(시맨틱 메타데이터)을 추출하는 결과 조합 단계
    를 포함하는 지식 추출 방법.
KR1020070128813A 2007-12-12 2007-12-12 온톨로지 기반 시맨틱 메타데이터 추출 시스템 및 그 방법 KR20090061844A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070128813A KR20090061844A (ko) 2007-12-12 2007-12-12 온톨로지 기반 시맨틱 메타데이터 추출 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070128813A KR20090061844A (ko) 2007-12-12 2007-12-12 온톨로지 기반 시맨틱 메타데이터 추출 시스템 및 그 방법

Publications (1)

Publication Number Publication Date
KR20090061844A true KR20090061844A (ko) 2009-06-17

Family

ID=40991175

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070128813A KR20090061844A (ko) 2007-12-12 2007-12-12 온톨로지 기반 시맨틱 메타데이터 추출 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR20090061844A (ko)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101047956B1 (ko) * 2010-08-27 2011-07-12 엘아이지넥스원 주식회사 Xml 기반 대화형 전자기술교범 장치 및 전자기술교범 구축방법
KR101101459B1 (ko) * 2009-10-29 2012-01-03 정안모 온톨로지 기반 데이터 가변성 처리 시스템 및 그 방법
WO2012074338A2 (ko) * 2010-12-02 2012-06-07 에스케이텔레콤 주식회사 자연어 및 수학식 처리 방법과 그를 위한 장치
KR101406000B1 (ko) * 2010-12-02 2014-06-13 주식회사 아이싸이랩 자연어 및 수식 입력 제공 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
KR101476230B1 (ko) * 2010-12-30 2014-12-26 에스케이 텔레콤주식회사 자연어와 수학식이 포함된 복합문장의 시맨틱 정보 추출방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
KR101476225B1 (ko) * 2010-12-22 2014-12-26 에스케이 텔레콤주식회사 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
KR101476232B1 (ko) * 2011-01-06 2014-12-26 에스케이 텔레콤주식회사 자연어와 수학식이 포함된 복합문장의 논리적 표현 변환방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
KR20200003329A (ko) * 2018-06-29 2020-01-09 김태정 자연어 처리 기반의 청크 구성 방법 및 장치
CN111858950A (zh) * 2019-04-30 2020-10-30 广东小天才科技有限公司 一种基于知识图谱扩充正则句式的方法和装置
CN112464671A (zh) * 2020-11-10 2021-03-09 西北工业大学 一种适航规章结构语义关联方法及系统
CN114254162A (zh) * 2021-12-03 2022-03-29 中国电子科技集团公司第二十八研究所 一种基于本体的数据检索方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101101459B1 (ko) * 2009-10-29 2012-01-03 정안모 온톨로지 기반 데이터 가변성 처리 시스템 및 그 방법
KR101047956B1 (ko) * 2010-08-27 2011-07-12 엘아이지넥스원 주식회사 Xml 기반 대화형 전자기술교범 장치 및 전자기술교범 구축방법
WO2012074338A2 (ko) * 2010-12-02 2012-06-07 에스케이텔레콤 주식회사 자연어 및 수학식 처리 방법과 그를 위한 장치
WO2012074338A3 (ko) * 2010-12-02 2012-10-11 에스케이텔레콤 주식회사 자연어 및 수학식 처리 방법과 그를 위한 장치
KR101406000B1 (ko) * 2010-12-02 2014-06-13 주식회사 아이싸이랩 자연어 및 수식 입력 제공 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
KR101476225B1 (ko) * 2010-12-22 2014-12-26 에스케이 텔레콤주식회사 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
KR101476230B1 (ko) * 2010-12-30 2014-12-26 에스케이 텔레콤주식회사 자연어와 수학식이 포함된 복합문장의 시맨틱 정보 추출방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
KR101476232B1 (ko) * 2011-01-06 2014-12-26 에스케이 텔레콤주식회사 자연어와 수학식이 포함된 복합문장의 논리적 표현 변환방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
KR20200003329A (ko) * 2018-06-29 2020-01-09 김태정 자연어 처리 기반의 청크 구성 방법 및 장치
CN111858950A (zh) * 2019-04-30 2020-10-30 广东小天才科技有限公司 一种基于知识图谱扩充正则句式的方法和装置
CN112464671A (zh) * 2020-11-10 2021-03-09 西北工业大学 一种适航规章结构语义关联方法及系统
CN114254162A (zh) * 2021-12-03 2022-03-29 中国电子科技集团公司第二十八研究所 一种基于本体的数据检索方法

Similar Documents

Publication Publication Date Title
KR20090061844A (ko) 온톨로지 기반 시맨틱 메타데이터 추출 시스템 및 그 방법
KR101130444B1 (ko) 기계번역기법을 이용한 유사문장 식별 시스템
US9495358B2 (en) Cross-language text clustering
US9740682B2 (en) Semantic disambiguation using a statistical analysis
US10169703B2 (en) System and method for analogy detection and analysis in a natural language question and answering system
US20150178270A1 (en) Semantic disambiguation with using a language-independent semantic structure
US10740570B2 (en) Contextual analogy representation
US8204736B2 (en) Access to multilingual textual resources
RU2579873C2 (ru) Разрешение семантической неоднозначности при помощи семантического классификатора
JP2011118689A (ja) 検索方法及びシステム
Deng et al. Resolving ambiguity in sentiment classification: The role of dependency features
KR20120064559A (ko) 오픈 웹 질의응답을 위한 질문분석 장치 및 방법
US10133736B2 (en) Contextual analogy resolution
US10055400B2 (en) Multilingual analogy detection and resolution
Nair et al. Sanskrit stemmer design: A literature perspective
US10061770B2 (en) Multilingual idiomatic phrase translation
Zimina et al. GQA: grammatical question answering for RDF data
Savary et al. Populating a multilingual ontology of proper names from open sources
Khalil et al. Extracting Arabic composite names using genitive principles of Arabic grammar
Claeser et al. Token level code-switching detection using Wikipedia as a lexical resource
Uzuner et al. Capturing expression using linguistic information
Al-Arfaj et al. Arabic NLP tools for ontology construction from Arabic text: An overview
US10325025B2 (en) Contextual analogy representation
Molendini et al. LIT: Rule based Italian lemmatizer
Kadam Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination