KR20140052328A - Rdf 기반의 문장 온톨로지 생성 장치 및 방법 - Google Patents

Rdf 기반의 문장 온톨로지 생성 장치 및 방법 Download PDF

Info

Publication number
KR20140052328A
KR20140052328A KR1020120118333A KR20120118333A KR20140052328A KR 20140052328 A KR20140052328 A KR 20140052328A KR 1020120118333 A KR1020120118333 A KR 1020120118333A KR 20120118333 A KR20120118333 A KR 20120118333A KR 20140052328 A KR20140052328 A KR 20140052328A
Authority
KR
South Korea
Prior art keywords
rdf
sentence
ontology
predicate
argument
Prior art date
Application number
KR1020120118333A
Other languages
English (en)
Inventor
김성묵
이순웅
신승은
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020120118333A priority Critical patent/KR20140052328A/ko
Publication of KR20140052328A publication Critical patent/KR20140052328A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 RDF기반의 온톨로지 생성 장치 및 방법에 관한 것으로, 입력된 문서를 하나 이상의 문장으로 구분하고, 상기 하나 이상의 문장을 형태소 단위로 구분하여 품사를 태깅하고, 상기 태깅된 품사에 기초하여 문장의 구문 구조를 생성하고, 이로부터 술어-논항 구조를 추출하는 RDF 생성부하고, 생성된 RDF를 확장하여 문장 온톨로지를 생성함으로써, 자연어로 이루어진 문장을 주요 구성 성분에 따라 술어-논항 정보로 변경하여, RDF 형태의 정형화된 구조로 변경 저장 및 관리 할 수 있다.

Description

RDF 기반의 문장 온톨로지 생성 장치 및 방법{APPARATUS AND METHOD FOR GENERATING RDF-BASED SENTENCE ONTOLOGY}
본 발명은 문장 자동 평가를 위하여 자연어 문장의 의미를 구조화된 데이터로 표현한 문장 온톨로지 생성 장치 및 방법에 관한 것으로서, 더욱 상세하게는 RDF(Resource Description Framework)를 이용하여 자연어 문장에서의 술어와 논항 관계를 구조화하여 표현하는 RDF 기반의 문장 온톨로지 생성 장치 및 방법에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 실시 예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것이 아니다.
인간이 획득한 다양한 정보는 여러 형태로 저장될 수 있으나, 정보처리기술의 발달로 인하여 정보처리기기는 다량의 정보를 처리할 수 있는 능력을 가지고, 상상도 못할 속도로 처리가 가능하게 됨으로 정보의 전자화를 촉진하게 되었다. 이러한 전자화의 촉진으로 인하여, 다수의 정보가 워드프로그램을 이용하여 전자문서화 되고 있다.
한편, 정보통신기술의 발달에 따른 인터넷 기술의 발달에 따라, 다수의 정보가 웹 페이지 형식으로 온라인상 개시되고 있다.
이러한, 기술의 발달은 오늘날 방대하고 다양한 정보의 홍수 속에서 자신에게 필요한 정보에 접근 및 관리를 위해서는 체계화된 정보 관리 체계를 필요로 한다.
이에, 데이터 베이스를 이용하여 정보를 관리하는 방법이 제시되고 있으나, 종래 데이터 베이스화 되어 있지 않은 정보의 수집과 분류를 위하여 많은 인력 자원이 소요되는 문제가 있다.
또한, 산재되어 있는 정보를 수집하고, 수집한 정보를 일률적으로 관리하는 것에 어려움이 있다.
특히, 영어 등을 포함하는 언어 영역에서의 작문 평가를 자동화하기 위해서는, 사람이 작성한 자연어 문장에 대한 의미를 구조화된 데이터로 표현하는 작업이 요구된다.
이와 같은 문제점을 해결하기 위하여, 본 발명의 목적은 문장의 술어 및 논항 관계를 RDF 구조로 표현함으로써 해당 문장의 의미를 구조화된 데이터로 표현할 수 있는 RDF 기반의 문장 온톨로지 생성 장치 및 방법을 제공하고자 한다.
상술한 바와 같은 목적을 달성하기 위한 본 발명의 RDF 기반의 문장 온톨로지 생성 장치는 자연어 문장을 형태소 단위로 구분하여 품사를 태깅하고, 태깅된 품사에 기초하여 문장의 구문 구조를 분석하는 문장 분석부와 문장 분석부로부터 전달받은 구문 구조를 기반으로, 문장의 술어 및 논항 요소들을 추출하고, 추출된 술어 및 논항 요소를 연결하여 RDF 트리플을 생성하는 RDF 생성부와 RDF 생성부로부터 전달 받은 RDF 트리플의 각 요소들을 원형으로 변형하고, 유사어 및 동의어를 이용하여 RDF 트리플의 각 요소들을 정규화하여 문장 온톨로지를 생성하는 RDF 확장부를 포함한다.
이때, 문장 분석부는 문장을 형태소 단위로 분리하는 형태소 분석 모듈과 형태소 분석 모듈로부터 전달 받은 형태소에 해당 품사를 태깅하는 품사 태깅 모듈과 품사 태깅 모듈로부터 전달 받은 형태소의 품사 정보를 기반으로 문장의 구문 구조를 분석하는 구문 분석 모듈을 포함한다.
아울러, 문장 분석부는 하나 이상의 문장을 포함하는 문서를 입력 받아, 문서를 문장 단위로 분리하는 문장 분리 모듈을 포함할 수 있다.
또한, RDF 생성부는 문장 분석부로부터 전송 받은 구문 구조의 동사를 술어로 추출하는 술어 추출 모듈과 술어 추출 모듈이 추출한 술어의 논항 구조에 따라서, 문장으로부터 술어에 대응하는 논항 요소들을 추출하고, 추출된 술어 및 논항 요소를 연결하여 RDF 트리플을 생성하는 논항 추출 모듈을 포함할 수 있다.
또한, RDF 확장부는 RDF 생성부로부터 RDF 트리플을 전송 받아, 술어와 각 논항을 원형으로 변환하는 원형 변형 모듈과 원형으로 변환 된 RDF트리플의 각 요소를 동의어, 유의어 사전에 따라 동의어 또는 유의어로 대체하여, 새로운 RDF트리풀을 생성하여 문장 온톨로지에 저장하는 동의어 변환 모듈을 포함할 수 있다.
아울러, RDF 확장부는 RDF 형태로 저장된 외부 리소스로부터 RDF 트리플 각 요소에 대한 정보를 획득하여 문장 온톨로지에 추가하는 RDF수집 모듈을 포함할 수 있다.
상술한 바와 같은 목적을 달성하기 위한 본 발명의 RDF 기반의 문장 온톨로지 생성 방법은 자연어 문장을 형태소 단위로 분리하는 단계와 분리된 각 형태소의 품사를 태그하고, 각 형태소에 태그된 품사에 따라 구문 구조를 생성하는 단계와 생성된 구문 구조의 동사로부터 술어를 추출하고, 추출된 술어의 논항 구조에 따라 논항 요소들을 추출하여 RDF 트리플을 생성하는 단계와 RDF 트리플을 원형으로 변경하고, 문장 온톨로지에 저장하는 단계를 포함할 수 있다.
이때, 문장 온톨로지를 저장하는 단계는 RDF 트리플을 매핑 테이블 형태로 저장할 수 있다.
아울러, 형태소 단위로 분리하는 단계는 하나 이상의 문장을 포함하는 문서를 입력 받아, 문서를 문장 단위로 분리하는 단계를 더 포함할 수 있다.
또한, 온톨로지를 저장하는 단계는 원형으로 변환 된 RDF트리플의 각 요소를 동의어, 유의어 사전에 따라 동의어 또는 유의어로 대체하여, 새로운 RDF트리풀을 생성하여 문장 온톨로지에 저장하는 단계를 더 포함할 수 있다.
또한, 온톨로지를 저장하는 단계는 원형으로 변환 된 RDF트리플의 각 요소를 동의어, 유의어 사전에 따라 동의어 또는 유의어로 대체하여, 동일 의미를 갖는 하나 이상의 RDF 트리플을 더 생성하여 문장 온톨로지에 저장하는 단계를 더 포함할 수 있다.
또한, 본 발명의 과제 해결을 위한 또 다른 수단으로서, 적어도 한 항에 기재된 RDF 기반의 문장 온톨로지 생성 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체를 제공할 수도 있다.
본 발명에 따르면, 데이터 베이스 등으로 구조화되지 않은 자연어로 이루어진 문장으로부터 구조화된 문장 온톨로지를 생성할 수 있다.
또한, 문장의 주요 구성 성분에 따라 술어-논항 정보로 변경하여, 복잡한 자연어 문장을 RDF 형태의 정형화된 구조로 변경함으로써, 문장의 의미를 효과적으로 구조화할 수 있다.
또한, 본 발명에 따라서 구축된 문장 온톨로지를 RDF 형태로 기술된 외부 리소스와 결합함으로써, 대규모 문장 온톨리지의 자동 구축이 가능하다.
도 1은 본 발명의 실시 예에 따른 RDF 기반의 문장 온톨로지 생성 장치 을 개략적으로 도시한 구성도이다.
도 2는 본 발명의 실시 예에 따른 RDF 기반의 문장 온톨로지 생성 장치의 문장 분석부를 도시한 블록도이다.
도 3은 본 발명의 일 실시 예에 따른 RDF 기반의 문장 온톨로지 생성 장치의 RDF 생성부를 도시한 블록도이다.
도 4은 본 발명의 일 실시 예에 따른 RDF 기반의 문장 온톨로지 생성 장치의 RDF 확장부를 도시한 블록도이다.
도 5는 본 발명의 RDF 기반의 문장 온톨로지 생성 방법을 설명하기 위한 흐름도이다.
도 6는 본 발명의 RDF 기반의 문장 온톨로지 생성 방법을 설명하기 위한 예시도이다.
이하 본 발명의 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 또한, 도면 전체에 걸쳐 동일한 구성 요소들은 가능한 한 동일한 도면 부호로 나타내고 있음에 유의하여야 한다.
이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위한 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.
통상적으로 온톨로지(ontology)의 사전적 의미는 "공유된 개념화(shared conceptualization)에 대한 정형화되고 명시적인 명세(formal and explicit specification)"로서, 특정 분야(이하 "도메인"이라 한다.)의 특정 정보와 관련된 용어와 용어 사이의 관계를 계측적으로 정의한 집합으로 정의된다. 본 발명은 이러한 온톨로지 구축에 관한 것으로서, 특히, 자연어 문장의 의미를 구조화된 형태로 표현하여 정의하기 위한 문장 온톨로지를 추출하는 방법 및 장치에 관한 것이다.
여기서, 문장 온톨로지는 자연어 문장에 있어서, 상기 자연어 문장의 의미를 용어와 용어 사이의 관계로서 계층적으로 정의한 것을 의미한다.
본 발명은 이러한 문장 온톨로지를 구성하는데 있어서, 자원 서술 체계(Resource Description Framework, 이하 "RDF"라 한다.)를 이용한다. 상기 RDF는 인터넷과 웹 상의 메타데이터(데이터에 대한 정의나 설명)를 지원하기 위한 기반구조를 제공하기 위하여 월드 와이드 웹 컨소시엄(W3C)에 의해 개발되고 있는 규격을 의미한다.
이와 같은 RDF 기반의 문장 온톨로지 구축 방법에 대하여 이하에서 더 구체적으로 설명한다.
도 1은 본 발명의 일 실시예에 따른 온톨로지 수집을 위한 온톨로지 생성 장치의 구성을 나타내는 도면이다.
도 1을 참조하면, 본 발명에 따른 온톨로지 생성 장치(10)는 문장 분석부(100), RDF 생성부(200) 및 RDF 확장부(300)로 구성될 수 있다.
본 발명의 실시예에 있어서, 문장 분석부(100)는 자연어로 작성된 작문(혹은 문서)을 구성하는 문장의 구조를 분석하기 위한 것으로서, 입력된 문서를 하나 이상의 문장으로 분리하여, 각 문장을 형태소 단위로 분리한 후, 분리된 형태소들에 대하여 각 단어의 문법적 성질을 나타내는 품사를 태깅한다. 그리고, 문장 분석부(100)는 태깅된 품사에 기초하여 각 문장의 구문(syntax) 구조를 분석한다. 여기서, 구문 구조는 문장의 구조를 의미하는 것으로서, 문장을 구성하는 주어, 술어, 목적어 등의 문장 구성 요소를 추출하는 것을 의미한다. 상기 구문 구조의 분석 결과는, 트리 형태로 나타내어 질 수 있다. 이때, 문장 분석부(100)는 하나 이상의 문장으로 이루어진 문서의 각 문장을 분석하여, 문장 온톨로지 생성을 위해 구문 구조를 RDF 생성부(200)에 전달한다. 여기서 형태소는 한 언어 내에서 의미를 내포하고 있는 가장 작은 단위로서 더 이상 분석하면 뜻을 잃어버리는 언어의 단위로 이해하여야 할 것이다.
한편, 문장 분석부(100)의 분석의 대상이 되는 문서는 컴퓨터 등 정보처리능력을 가진 장치에서 처리될 수 있는 전자화된 문서를 말한다. 예를 들어, 문서작성 프로그램을 통해서 작성된 문서, 웹 페이지 형태로 인터넷에 개시된 문서, 전자메일(E-mail) 및 사용자가 컴퓨터 등 정보처리능력을 가진 장치에 입력한 하나 이상의 문장도 해당한다. 또한 상기 예시 이외에도 정보기술의 발전으로 새로이 발생하는 전자문서도 포함하는 넓은 개념으로 이해하여야 한다.
RDF 생성부(200)는 문장 분석부(100)로부터 구문 구조를 전달 받아, 구문 구조를 탐색하여, 술어-논항 정보로부터 RDF 각 요소를 추출하여 RDF 트리플 구조를 생성한다. 여기서, RDF 각 요소는 술어와 술어에 의하여 관계가 설정되는 각 논항을 말하며, RDF 트리플 구조는 술어를 기준으로 각 논항을 연결한 구조를 의미한다.
구체적으로, 구문 구조를 탐색하여 각 문장의 술어를 추출하고, 추출된 술어의 문법형태에 따른 논항 구조를 기반으로 상기 술어에서 필요로 하는 논항 요소들을 추출한다. 이때, 술어의 논항 구조는 상기 술어가 문장을 구성하면서 필요로 하는 논항들의 수와 그 의미역 집합을 말하는 것으로서, 예를 들어, "가다"라는 술어는, 행동 주체인 주어와 행동의 도착점인 보어로 이루어진 두 개의 논항이 필요하다. 반면 "먹다"라는 술어는, 행동 주체인 주어와 대상체인 목적어로 이루어진 논항 구조를 갖는다. 따라서, 상기 RDF 생성부(200)는 추출된 술어의 논항 구조를 기반으로, 해당 문장에서 술어와 논항 관계를 갖는 요소들을 추출한다. 그리고, 이렇게 추출한 술어 및 논항들을 RDF 트리플 구조로 결합한다. 예를 들어, 술어를 기준으로 추출된 주어 및 목적어(또는 보어)를 연결하여, RDF 트리플 구조를 생성한다.
RDF 확장부(300)는 RDF 생성부(200)로부터 전달 받은 RDF 트리플 구조를 일반화하기 위한 구성 요소이다. 구체적으로, RDF 확장부(300)는 RDF 생성부(200)로부터 RDF 트리플 구조를 전달 받아, RDF의 각 요소를 원형으로 변환하여 문장 온톨로지에 저장할 수 있다. 한편, 동의어, 유의어 사전을 이용하여, RDF의 각 요소를 동의어, 유의어로 대하여 RDF 트리플을 생성하여, 문장 온톨로지에 저장할 수 있다.
아울러, 상기 RDF 확장부(300)는 RDF 형태로 이루어지는 외부 리소스 등을 참조하여 상기 생성한 문장 온톨로지를 확대할 수도 있다. 예를 들어, 상기 RDF의 구성 요소 중 고유 명사가 포함된 경우, 상기 고유 명사에 대한 외부 리소스를 수집하여 상기 해당 요소와 결합함으로써, 문장 온톨로지를 확대할 수 있다.
도 2은 본 발명의 일 실시예에 따른 문장 분석부의 상세 구성을 나타내는 도면이다.
도 2을 참조하면, 본 발명에 따른 문장 분석부(100)는 문장 분리 모듈(110), 형태소 분석 모듈(130), 품사 태깅 모듈(150), 구문 분석부(170)을 포함한다.
문장 분리 모듈(110)는 입력된 문서를 문장 단위로 분리하여 형태소 분석 모듈(130)에 전달한다. 더 구체적으로, 문서에 입력된 마침표(.), 물음표 (?), 또는 느낌표(!) 와 공백(NULL) 또는 줄바꿈(ENTER)이 순서대로 입력된 경우, 한 문장이 끝나는 것으로 인식할 수 있다. 아울러, 인용부호(?, ", -)로 묶인 경우도 한 문장이 끝나는 것으로 인식할 수 있다.
한편, 더 정확한 문장분리를 위하여, 약어와 함께 사용되는 마침표(.)에 의한 문장종료를 방지하기 위한 문장분리예외사전을 더 포함할 수 있다. 예를 들어, "DR. PARK" 같이 약어에서 사용되는 마침표(.)에 의한 문장 종료를 방지하기 위하여, "DR."를 문장분리예외사전에 입력하여둘 수 있다. 형태소 분석 모듈(130)은 문장 분리 모듈(110)로부터 전달받은 각 문장을 형태소 단위로 분리한다. 이때, 언어의 특성상 조사가 단어 옆에 정렬되지 않기 때문에 의미 있는 최소 단위인 형태소는 곧 단어가 될 수 있다. 예를 들면, 띄어쓰기를 기준으로 형태소를 분리할 수 있을 것이다. 한편, 더 정확한 형태소 분석을 위하여, 인명사전 또는 고유 명사사전을 더 포함할 수 있다.
품사 태깅 모듈(150)은 형태소 분석 모듈(130)로부터 전달 받은 형태소에 해당 품사를 태깅한다. 여기서 품사 태깅은 기 저장된 문법사전을 참조하여 수행할 수 있다. 예를 들면, 품사의 종류는 명사, 동사, 전치사, 형용사, 부사, 관사, 감탄사, 구, 절 등으로 분류할 수 있다.
구문 분석 모듈(170)은 품사 태깅 모듈(150)로부터 전달 받은 형태소의 품사 정보를 기반으로, 구문 구조를 분석한다. 더 구체적으로, 각 문장의 주어, 술어, 목적어, 보어 등의 구문의 구성 요소를 분석하는 할 수 있다. 이때, 구문 분석 모듈(170)은 문장의 구조를 분석하기 위하여 문법사전을 이용할 수 있다. 한편, 본 발명의 일 실시예에 있어서, 구문 구조의 분석 결과는, 트리 형태로 나타낼 수 있다.
도 3은 본 발명의 일 실시예에 따른 RDF 생성부(200)의 구성을 나타내는 도면이다.
도 3을 참조하면, 본 발명에 따른 RDF 생성부(200)는 논항 추출 모듈(210), 술어 추출 모듈(230)을 포함한다.
술어 추출 모듈(230)은 문장 분석부(100)로부터 전달 받은 구문 구조로부터 문장의 기본이 되는 술어를 추출한다. 여기서, 술어는 명제에 있어서 주어에 대해 주장되는 개념을 말한다. 특히, 본 발명의 실시예에 있어서는, 일반적으로 형용사 또는 동사가 술어에 해당하며, 술어는 주어와 목적어(보어)와의 관계를 나타내는 것으로 이해할 수 있다. 또한, 한 문장 안에는 하나 이상의 형용사 및 동사에 존재할 수 있으며, 이 경우, 상기 술어 추출 모듈(230)은 문장의 각 형태소간의 관계를 분석함으로써, 해당 문장의 술어를 추출할 수 있다.
논항 추출 모듈(210)은 술어 추출 모듈(230)로부터 제공 받은 술어를 기반으로, 상기 술어가 문장을 구성하는데 필요한 논항 요소를 추출하여 술어와 논항 관계를 표현하는 RDF 트리플을 생성한다. 더 구체적으로, 술어 추출 모듈(230)로부터 전달 받은 술어에 따라 문장의 논항을 추출하고, 술어를 기준으로 각 논항을 연결한 구조의 RDF 트리플 구조를 생성한다.
도 4은 본 발명의 일 실시예에 따른 RDF 확장부의 구성을 나타내는 도면이다.
도 4을 참조하면, 본 발명에 따른 RDF 확장부(300)는 원형 변환 모듈(310), 동의어 변환 모듈(330), RDF 수집 모듈(350)을 포함한다.
원형 변환 모듈(310)은 RDF 생성부(200)로부터 RDF 트리플 구조를 전송 받고, RDF의 각 구성 요소에 해당하는 술어와 각 논항을 단어의 원형으로 변형하여 문장 온톨로지에 저장할 수 있다. 여기서, RDF의 저장 형태는 RDF를 저장하는 데이터 베이스 구조에 따라 달라질 수 있다. 더 구체적으로, 매핑 테이블, 그래프, 트리 등 RDF의 술어-논항 구조를 저장하기 적합한 자료구조는 물론, 차후 기술의 발달로 생성될 새로운 형식의 자료구조도 포함할 수 있다.
동의어 변환 모듈(330)은 동의어, 유의어 사전을 이용하여, RDF의 각 요소를 동의어, 유의어로 대체하여 유사 의미를 가지는 다수의 RDF 트리플을 생성하고, 이렇게 생성한 다수의 RDF 트리플을 연결하여 문장 온톨로지를 생성할 수 있다. 더 구체적으로, 원형 변환 모듈(310)에 원형으로 변환 된 RDF트리플의 각 요소를 동의어, 유의어 사전에 따라 동의어 또는 유의어로 대체하여, 새로운 RDF 트리플을 생성하여 문장 온톨로지에 저장할 수 있다.
RDF 수집 모듈(350)은 RDF를 기반으로 생성된 문장 온톨로지를 확장할 수 있다. 구체적으로, RDF 형태로 저장된 외부 리소스로부터, 문장 온톨로지를 확장할 수 있다. 예를 들어, RDF의 논항에 ?족刮薩?가 있는 경우, 외부 리소스로부터 ?족刮薩?에 대한 RDF 트리플을 추출하여, 문장 온톨로지에 저장할 수 있다.
도 5은 본 발명의 일 실시예에 따른 RDF 기반의 문장 온톨로지 생성 방법을 나타내는 도면이다.
도 5을 참조하면, S101단계에서, 문장 분석부(100)의 문장 분리 모듈(110)은 입력된 문서를 문장 단위로 분리하여 형태소 분석 모듈(130)에 전달한다.
예를 들어, 도 6a를 참조하면, ?he Bank of Korea has signed a contract. "The contract will come into effect on March." 와 같은 전자 문서가 입력된 경우, 문장 분리 모듈(110)은 마침표(.)와 공백(null)이 연속적으로 입력 것을 기준으로 문장을 분리한다. 이에, 도 6b를 참조하면, 문장 분리 모듈(110)은 "The Bank of Korea has signed a contract."를 하나의 문장으로 분리하여 저장할 수 있다.
S103단계에서, 문장 분석부(100)는 문장을 형태소 단위로 분리한다. 더 구체적으로 공백(NULL)을 기준으로 각 형태소를 분석할 수 있다. 여기서 형태소는 의미를 가진 가장 작은 말의 단위를 말한다.
예를 들면, 도 6c를 참조하면, 형태소 분석 모듈(130)은 문장 분리 모듈(110)로부터 전달받은 "The Bank of Korea has signed a contract."를 형태소 단위로 분리한다. 즉, 공백을 기준으로 형태소를 분류하여, "The" "Bank" "of" "Korea" "has" "signed" "a" "contract"로 각각 분리할 수 있다.
S105단계에서, 문장 분석부(100)는 각 형태소의 품사를 태그한다. 여기서, 품사의 종류는 명사, 동사, 전치사, 형용사, 부사, 관사, 감탄사, 구, 절 등으로 분류할 수 있다.예를 들면, 도 6d를 참조하면, 품사 태깅 모듈(150)은 "The"는 정관사, "Bank"는 명사, "of"는 전치사, "Korea"는 명사, "has"는 동사, "signed"는 동사, "a"는 정관사, "contract"는 명사로 품사를 태그한다.
S107단계에서, 문장 분석부(100)는 각 형태소의 품사 정보를 기반으로, 기 구축된 문법사전을 통해 구문 구조를 분석하여 RDF 생성부(200)에 전달한다. 이때, 구문 구조는 트리 형태로 저장될 수 있다.
예를 들어, 도 6d와 같이 품사 태깅된 문장의 경우, 즉, 정관사, 명사, 전치사, 명사 순서로 배열된 "The Bank of Korea" 는 주어로, 동사, 동사 순으로 배열된 "has signed"는 술어로, 정관사, 명사 순서로 배열된 "a contract"는 목적어로 분리될 수 있다.
S109단계에서, RDF 생성부(200)는 문장 분석부(100)로부터 제공 받은 구문 구조로부터 술어를 추출하고, 추출된 술어의 문법형태에 따른 논항 구조를 기반으로 논항을 추출한다.
예를 들어, 동사 has signed은 술어로 추출되고, has signed는 문법 형태에 따라 "누가(WHO)"(주어), "무엇(WHAT)"(목적어 또는 보어)에 해당하는 논항 요소를 필요로 한다. 따라서, RDF 생성부(220)는 입력된 문장에서, 술어(has signed)가 필요로 하는 주어(The Bank of Korea) 및 목적어(a contract)를 논항 요소로 추출되게 될 것이다.
S111단계에서, RDF 생성부(200)는 RDF의 각 요소(술어 및 논항)를 기반으로 RDF 트리플 구조를 생성한다. 더 구체적으로, 술어를 기준으로 각 논항을 연결한 RDF 트리플 구조를 생성하게 된다.
예를 들어, "The Bank of Korea" 와 "a contract"는 술어인 "has signed"의 관계를 가지는 RDF 트리플 구조를 생성하게 된다.
S113단계에서, RDF 확장부(300)는 RDF생성부(200)로부터 제공 받은 RDF 트리플 구조의 각 요소를 원형으로 변형한다.
예를 들어, 술어 "has signed"는 동사의 원형인 "sign"으로 변환가능 하고, 각 논항은 정관사를 제외한 "Bank of Korea" 와 "contract"로 변환 할 수 있다.
S115단계에서, RDF 확장부(300)는 원형으로 변환 된 RDF트리플의 각 요소를 동의어, 유의어 사전에 따라 동의어 또는 유의어로 대체함으로써, 동일 의미를 가지는 하나 이상의 RDF 트리플을 생성하여 문장 온톨로지에 저장할 수 있다.
이때, 온톨로지에 RDF를 저장하는 방법은 온톨로지 데이터 베이스 구조에 따라서 달라질 수 있음을 이해하여야 하며, 더 구체적으로 메핑 테이블, 그래프, 트리 등의 형태로 RDF를 저장할 수 있다.
한편, RDF 확장부(200)는 RDF 형태로 저장된 외부 리소스로부터, 문장 온톨로지를 확장할 수 있다. 예를 들어, 도 6a에 예시된 문장에 대응하여 생성된 RDF 트리플의 요소중, 주어인 "Bank of Korea" 고유 명사로, 상기 고유 명사 "Bank of Korea"에대한 정보를 백과사전 DB 등과 같은 외부 리소스로부터 수집하여, 부가 정보로 추가함으로써 문장 온톨로지를 더 확장시킬 수 있다.
이렇게 생성된 문장 온톨로지는, 언어영역의 작문(쓰기) 평가를 자동화하는데 있어서, 평가 대상 문장의 의미를 분석 시 이용될 수 있다.
본 발명에 따른 RDF 기반의 문장 온톨로지 생성 방법은 다양한 컴퓨터 수단을 통하여 판독 가능한 소프트웨어 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM, Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
본 발명은 언어 평가 분야 특히 쓰기 또는 작문에 대한 평가 분야에 적용될 수 있는 것으로, 자연어 문장으로부터 술어-논항 관계에 추출하여, RDF를 기반으로 문장의 의미를 구조화된 데이터로 나타낸 문장 온톨로지를 구축할 수 있도록 하며, 이를 통해 언어 영역에서의 작문 또는 쓰기 자동 평가를 가능하게 하는 우수한 효과가 있는 것으로서, 산업상 이용가능성이 있다.
10: 온톨로지 생성 장치 100: 문장 분석부
110: 문장 분리 모듈 130: 형태소 분석 모듈
150: 품사 태깅 모듈 170: 구문 분석 모듈
200: RDF 생성부(200) 210: 논항 추출 모듈
230: 술어 추출 모듈 300: RDF 확장부(300)
310: 원형 변환 모듈 330: 동의어 변환 모듈
350: RDF 수집 모듈

Claims (12)

  1. 자연어 문장을 형태소 단위로 구분하여 품사를 태깅하고, 상기 태깅된 품사에 기초하여 상기 문장의 구문 구조를 분석하는 문장 분석부; 및
    상기 문장 분석부로부터 전달받은 구문 구조를 기반으로, 상기 문장의 술어 및 논항 요소들을 추출하고, 추출된 술어 및 논항 요소를 연결하여 RDF 트리플을 생성하는 RDF 생성부; 및
    상기 RDF 생성부로부터 전달 받은 RDF 트리플의 각 요소들을 원형으로 변형하고, 유사어 및 동의어를 이용하여 상기 RDF 트리플의 각 요소들을 정규화하여 문장 온톨로지를 생성하는 RDF 확장부;
    를 포함하는 것을 특징으로 하는 RDF 기반의 문장 온톨로지 생성 장치.
  2. 제 1 항에 있어서,
    상기 문장 분석부는,
    상기 문장을 형태소 단위로 분리하는 형태소 분석 모듈;
    상기 형태소 분석 모듈로부터 전달 받은 형태소에 해당 품사를 태깅하는 품사 태깅 모듈; 및
    상기 품사 태깅 모듈로부터 전달 받은 형태소의 품사 정보를 기반으로 상기 문장의 구문 구조를 분석하는 구문 분석 모듈;
    를 포함하는 것을 특징으로 하는 RDF 기반의 문장 온톨로지 생성 장치.
  3. 제 2 항에 있어서,
    상기 문장 분석부는,
    하나 이상의 문장을 포함하는 문서를 입력 받아, 상기 문서를 문장 단위로 분리하는 문장 분리 모듈을 더 포함하는 것을 특징으로 하는 RDF 기반의 문장 온톨로지 생성 장치.
  4. 제 1 항에 있어서,
    상기 RDF 생성부는,
    상기 문장 분석부로부터 전송 받은 구문 구조의 동사를 술어로 추출하는 술어 추출 모듈; 및
    상기 술어 추출 모듈이 추출한 술어의 논항 구조에 따라서, 상기 문장으로부터 상기 술어에 대응하는 논항 요소들을 추출하고, 추출된 술어 및 논항 요소를 연결하여 RDF 트리플을 생성하는 논항 추출 모듈;
    을 포함하는 것을 특징으로 하는 RDF 기반의 문장 온톨로지 생성 장치.
  5. 제 1 항에 있어서,
    상기 RDF 확장부는,
    상기 RDF 생성부로부터 RDF 트리플을 전송 받아, 술어와 각 논항을 원형으로 변환하는 원형 변형 모듈; 및
    상기 원형으로 변환 된 RDF트리플의 각 요소를 동의어, 유의어 사전에 따라 동의어 또는 유의어로 대체하여, 동일 의미를 갖는 하나 이상의 RDF 트리플을 더 생성하여 문장 온톨로지에 저장하는 동의어 변환 모듈;
    을 포함하는 것을 특징으로 하는 RDF 기반의 문장 온톨로지 생성 장치.
  6. 제 5 항에 있어서,
    상기 RDF 확장부는,
    RDF 형태로 저장된 외부 리소스로부터 상기 생성한 RDF 트리플의 각 요소에 대한 정보를 획득하여 문장 온톨로지에 추가하는 RDF 수집 모듈을 더 포함하는 것을 특징으로 하는 RDF 기반의 문장 온톨로지 생성 장치.
  7. 자연어 문장을 형태소 단위로 분리하는 단계;
    상기 분리된 각 형태소의 품사를 태그하고, 상기 각 형태소에 태그된 품사에 따라 구문 구조를 생성하는 단계;
    상기 생성된 구문 구조의 동사로부터 술어를 추출하고, 상기 추출된 술어의 논항 구조에 따라 논항 요소들을 추출하여 RDF 트리플을 생성하는 단계;
    상기 RDF 트리플을 원형으로 변경하고, 문장 온톨로지에 저장하는 단계;
    를 포함하는 것을 특징으로 하는 RDF 기반의 문장 온톨로지 생성 방법.
  8. 제 7 항에 있어서,
    상기 형태소 단위로 분리하는 단계는,
    하나 이상의 문장을 포함하는 문서를 입력 받아, 입력된 문서에서 문장을 분리하는 단계를 더 포함하는 것을 특징으로 하는 RDF 기반의 문장 온톨로지 생성 방법.
  9. 제 7 항에 있어서,
    상기 문장 온톨로지를 저장하는 단계는,
    RDF 트리플을 매핑 테이블 형태로 저장하는 것을 특징으로 하는 RDF 기반의 문장 온톨로지 생성 방법.
  10. 제 7 항에 있어서,
    상기 온톨로지를 저장하는 단계는,
    원형으로 변환 된 RDF트리플의 각 요소를 동의어, 유의어 사전에 따라 동의어 또는 유의어로 대체하여, 동일 의미를 갖는 하나 이상의 RDF 트리플을 더 생성하여 문서 온톨로지에 저장하는 단계를 더 포함하는 것을 특징으로 하는 RDF 기반의 문장 온톨로지 생성 방법.
  11. 제 8 항에 있어서,
    상기 온톨로지를 저장하는 단계는,
    RDF 형태로 저장된 외부 리소스로부터 RDF 트리플의 각 요소에 대한 정보를 획득하여 문장 온톨로지에 추가하는 단계를 더 포함하는 것을 특징으로 하는 RDF 기반의 문장 온톨로지 생성 방법.
  12. 제8항 내지 제11항 중 어느 한 항에 기재된 RDF 기반의 문장 온톨로지 생성 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.

KR1020120118333A 2012-10-24 2012-10-24 Rdf 기반의 문장 온톨로지 생성 장치 및 방법 KR20140052328A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120118333A KR20140052328A (ko) 2012-10-24 2012-10-24 Rdf 기반의 문장 온톨로지 생성 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120118333A KR20140052328A (ko) 2012-10-24 2012-10-24 Rdf 기반의 문장 온톨로지 생성 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20140052328A true KR20140052328A (ko) 2014-05-07

Family

ID=50885584

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120118333A KR20140052328A (ko) 2012-10-24 2012-10-24 Rdf 기반의 문장 온톨로지 생성 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20140052328A (ko)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160000132A (ko) * 2014-06-24 2016-01-04 주식회사 아이디인큐 데이터 처리 시스템 및 데이터 처리 시스템의 동작 방법
WO2016117920A1 (ko) * 2015-01-20 2016-07-28 한국과학기술원 지식표현 확장 방법 및 장치
JP2016162054A (ja) * 2015-02-27 2016-09-05 日本放送協会 オントロジー生成装置、メタデータ出力装置、コンテンツ取得装置、オントロジー生成方法及びオントロジー生成プログラム
KR20160108886A (ko) * 2015-03-09 2016-09-21 포항공과대학교 산학협력단 개방형 정보 추출을 이용한 지식베이스 확장 방법 및 장치
WO2017122904A1 (ko) * 2016-01-11 2017-07-20 한국과학기술원 구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템
WO2018096514A1 (en) 2016-11-28 2018-05-31 Thomson Reuters Global Resources System and method for finding similar documents based on semantic factual similarity
EP3404553A4 (en) * 2016-01-11 2019-01-16 Korea Advanced Institute of Science and Technology METHOD AND SYSTEM FOR EXTRACTING OPEN INFORMATION FOR EXTRACTING RE-ESTABLISHED TERNARY RELATION
WO2022191368A1 (ko) * 2021-03-09 2022-09-15 주식회사 마이데이터랩 자연어 의도를 분류하는 뉴럴 네트워크 훈련을 위한 데이터 처리 방법 및 장치
KR20230014040A (ko) * 2021-07-20 2023-01-27 국민대학교산학협력단 계층 기반 단어 대체를 통한 텍스트 데이터 증강 장치 및 방법

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160000132A (ko) * 2014-06-24 2016-01-04 주식회사 아이디인큐 데이터 처리 시스템 및 데이터 처리 시스템의 동작 방법
WO2016117920A1 (ko) * 2015-01-20 2016-07-28 한국과학기술원 지식표현 확장 방법 및 장치
JP2016162054A (ja) * 2015-02-27 2016-09-05 日本放送協会 オントロジー生成装置、メタデータ出力装置、コンテンツ取得装置、オントロジー生成方法及びオントロジー生成プログラム
KR20160108886A (ko) * 2015-03-09 2016-09-21 포항공과대학교 산학협력단 개방형 정보 추출을 이용한 지식베이스 확장 방법 및 장치
WO2017122904A1 (ko) * 2016-01-11 2017-07-20 한국과학기술원 구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템
EP3404553A4 (en) * 2016-01-11 2019-01-16 Korea Advanced Institute of Science and Technology METHOD AND SYSTEM FOR EXTRACTING OPEN INFORMATION FOR EXTRACTING RE-ESTABLISHED TERNARY RELATION
US20180150459A1 (en) 2016-11-28 2018-05-31 Thomson Reuters Global Resources System and method for finding similar documents based on semantic factual similarity
WO2018096514A1 (en) 2016-11-28 2018-05-31 Thomson Reuters Global Resources System and method for finding similar documents based on semantic factual similarity
EP3542259A4 (en) * 2016-11-28 2020-08-19 Thomson Reuters Enterprise Centre GmbH SYSTEM AND METHOD FOR FINDING SIMILAR DOCUMENTS ON THE BASIS OF SEMANTIC FACTICAL SIMILARITY
US11934465B2 (en) 2016-11-28 2024-03-19 Thomson Reuters Enterprise Centre Gmbh System and method for finding similar documents based on semantic factual similarity
WO2022191368A1 (ko) * 2021-03-09 2022-09-15 주식회사 마이데이터랩 자연어 의도를 분류하는 뉴럴 네트워크 훈련을 위한 데이터 처리 방법 및 장치
KR20220126493A (ko) * 2021-03-09 2022-09-16 주식회사 마이데이터랩 자연어 의도를 분류하는 뉴럴 네트워크 훈련을 위한 데이터 처리 방법 및 장치
KR20230014040A (ko) * 2021-07-20 2023-01-27 국민대학교산학협력단 계층 기반 단어 대체를 통한 텍스트 데이터 증강 장치 및 방법

Similar Documents

Publication Publication Date Title
KR20140052328A (ko) Rdf 기반의 문장 온톨로지 생성 장치 및 방법
Deeptimahanti et al. Semi-automatic generation of UML models from natural language requirements
More et al. Generating UML diagrams from natural language specifications
Btoush et al. Generating ER diagrams from requirement specifications based on natural language processing
Shinde et al. Nlp based object oriented analysis and design from requirement specification
Al-Taani et al. A top-down chart parser for analyzing arabic sentences.
JIMCALE et al. An approach for detecting syntax and syntactic ambiguity in software requirement specification
Abdurakhmonova et al. Uzbek electronic corpus as a tool for linguistic analysis
JP2008021270A (ja) データ変換装置および方法、データベース管理装置および方法、ならびにデータベース検索システムおよび方法
KR101757222B1 (ko) 한글 문장에 대한 의역 문장 생성 방법
KR101409298B1 (ko) 한국어 구문 인식을 위한 어휘의미패턴 재구성 방법
Shrawankar et al. Construction of news headline from detailed news article
Shatnawi et al. Parse trees of arabic sentences using the natural language toolkit
Maranduc A Multiform Balanced Dependency Treebank for Romanian
Gasser A dependency grammar for Amharic
KR101092355B1 (ko) 대용어 복원 방법
Amdouni et al. Semantic annotation of requirements for automatic UML class diagram generation
JP2007133905A (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Hensman et al. Constructing conceptual graphs using linguistic resources
Frank et al. Building literary corpora for computational literary analysis-a prototype to bridge the gap between CL and DH
Ouersighni Robust rule-based approach in Arabic processing
Temizer et al. Automatic subject-object-verb relation extraction
Patel et al. Resolve the uncertainity in requirement specification to generate the UML diagram
Khoufi et al. A Framework for Language Resource Construction and Syntactic Analysis: Case of Arabic
Neumann et al. HPSG-DOP: Data-oriented parsing with HPSG

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application