KR20140051606A

KR20140051606A - Rdf 기반의 문장 온톨로지를 이용한 일관성 평가 방법 및 장치

Info

Publication number: KR20140051606A
Application number: KR1020120117840A
Authority: KR
Inventors: 이순웅; 김성묵; 윤경아
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2012-10-23
Filing date: 2012-10-23
Publication date: 2014-05-02

Abstract

RDF기반의 온톨로지 생성 장치 및 방법에 관한 것으로, 입력된 문서를 하나 이상의 문장으로 구분하고, 상기 하나 이상의 문장을 형태소 단위로 구분하여 품사를 태깅하고, 상기 태깅된 품사에 기초하여 문장의 구문 구조를 생성하고, 이로부터 술어-논항 구조를 추출하는 RDF 생성부하고, 생성된 RDF를 확장하여 온톨로지에 저장하는 장치 및 방법을 제공함으로써, 자연어로 이루어진 문장을 주요 구성 성분에 따라 술어-논항 정보로 변경하여, RDF 형태의 정형화된 구조로 변경 저장 및 관리 할 수 있다.

Description

RDF 기반의 문장 온톨로지를 이용한 일관성 평가 방법 및 장치{METHOD AND APPARATUS FOR COHERENCE EVALUATION USING RDF-BASED SENTENCE ONTOLOGY}

본 발명은 쓰기 평가에 있어서 주어진 문제에 대하여 작성된 답안의 의미를분석하여 일관성을 자동으로 평가하기 위한 장치 및 방법에 관한 것으로, 더욱 상세하게는 RDF(Resource Description Framework) 트리플 기반의 문장 온톨로지를 이용한 문장의 의미 분석을 통하여 문장의 일관성을 평가할 수 있는 RDF 기반의 문장 온톨로지를 이용한 일관성 평가 방법 및 장치에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 실시 예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것이 아니다.

최근 대학 입시 시험 및 국내 대기업들이 성적 위주의 평가에서 말하기 또는 쓰기 위주의 실제 영어 능력 평가로 변화하고 있다. 즉, 영어 의사소통 능력 신장을 위해 교육과학 기술부가 NEAT(National English Ability Test, 인터넷을 기반으로 한 듣기, 독해, 말하기, 쓰기 평가)를 개발하여 시범 시행하고 있으며, 향후 공무원 시험이나 수능 영어 시험 등을 대체할 계획이다. 이러한 영어 능력 평가에서 쓰기 능력을 평가하기 위해 작문 평가 시스템을 도입하고 있다.

그러나, 기존의 쓰기 평가 시스템은 단순히 문장의 문법적인 오류 또는 형식적인 오류 검출을 위주로 문장을 평가하고 있기 때문에, 특정 주제를 따른 영어 쓰기 평가에 있어서, 평가 대상자의 영어 쓰기 능력을 정확하게 판단하기 어렵다.

따라서, 보다 정확한 쓰기 평가를 위하여, 문장의 의미를 분석하여, 주어진 주제에 대해 일관성을 유지하면서 서술하고 있는 지를 판단할 수 있어야 한다.

이와 같은 문제점을 해결하기 위하여, 본 발명은 평가 대상 답안의 의미를 분석하고 문장 간의 관계를 파악함으로써 주어진 주제에 대한 일관성을 유지하고 있는 지를 평가할 수 있는 일관성 평가 방법 및 장치를 제공하고자 한다.

특히, 본 발명은 특정 주제에 대하여 작성된 평가 대상 답안을 분석하여 그 의미를 구조화하여 나타내는 RDF 기반의 문장 온톨로지를 생성하고, 이를 상기 주제에 대하여 기 구축된 도메인 온톨로지와 비교함으로써 주어진 주제에 대한 문장의 일관성을 평가할 수 있는 RDF 기반의 문장 온톨로지를 이용한 일관성 평가 방법 및 장치를 제공하고자 한다.

상술한 과제의 해결 수단으로 본 발명의 실시예에 따른, RDF 기반의 문장 온톨로지를 이용한 문장의 일관성 평가 장치는 특정 주제와 관련되어 작성된 평가 대상 답안에 포함된 하나 이상의 문장을 분석하여, 각 문장의 의미 및 관계를 구조화하여 문장 온톨로지를 생성하는 문장 온톨로지 생성부와, 하나 이상의 주제에 각각 대응하고, 대응하는 주제와 관련된 하나 이상의 정보 및 그 관계를 구조화하여 정의하는 하나 이상의 도메인 온톨로지를 저장하는 도메인 온톨로지 DB와, 상기 도메인 온톨로지 DB로부터 상기 평가 대상 답안과 대응하는 주제의 도메인 온톨로지를 추출하고, 상기 추출한 도메인 온톨로지와 상기 평가 대상 답안의 문장 온톨로지를 비교하고, 상기 도메인 온톨로지와 문장 온톨로지의 유사도에 근거하여 일관성을 평가하는 일관성 평가부를 포함한다.

여기서, 상기 문장 온톨로지 생성부는, 평가 대상 답안에 포함된 하나 이상의 문장을 분리하는 문장 분리 모듈과, 상기 분리된 각 문장을 형태소 단위로 분리하는 형태소 분석 모듈과, 상기 형태소 분석 모듈로부터 전달 받은 형태소에 해당 품사를 태깅하고, 상기 형태소에 태깅된 품사 정보를 기반으로 각 문장의 구문 구조를 분석하는 구문 분석 모듈과, 각 문장의 구문 구조를 기반으로 각 문장의 술어 및 논항 요소를 추출하여 RDF 트리플로 정의한 RDF 생성 모듈과, 상기 각 문장의 RDF 트리플의 각 문장의 의미 관계에 따라서 연결하여 문장 온톨로지를 생성하는 온톨로지 생성 모듈을 포함할 수 있다.

또한, 상기 일관성 평가부는, 상기 도메인 온톨로지 DB로부터 평가 대상 답안과 대응하는 도메인 온톨로지를 추출하고, 상기 추출된 도메인 온톨로지와 대비되는, 상기 평가 대상 답안의 문장 온톨로지에 포함된 RDF 트리플간의 거리의 차를 구하는 거리 비교 모듈과, 상기 거리 비교 모듈로부터 전달 받은 거리의 차이에 따라 도메인 온톨로지와 문장 온톨로지의 유사도를 산출하고, 상기 유사도를 평가 대상 답안의 일관성을 평가하는 유사도 평가 결과로 출력하는 모듈을 포함할 수 있다.

이때, 상기 유사도는, 상기 거리 비교 모듈로부터 전달 받은 거리의 차에 반비례할 수 있다.

상술한 과제의 해결 수단으로 본 발명의 실시예에 따른, RDF 기반의 문장 온톨로지를 이용한 문장의 일관성 평가 방법은 특정 주제에 대하여 작성된 평가 대상 답안에 포함된 하나 이상의 문장의 의미와, 그 의미 관계를 구조화하여 문장 온톨로지를 생성하는 단계와, 상기 특정 주제에 관련하여 수집된 하나 이상의 정보와 상기 정보간의 관계를 구조화하도록 기 구축된 도메인 온톨로지를 도메인 온톨로지 DB에서 검색하는 단계와, 상기 문장 온톨로지와 상기 도메인 온톨로지를 비교하여 유사도를 산출하는 단계와 상기 유사도를 기준으로 상기 평가 대상 답안의 특정 주제에 대한 일관성을 평가하는 단계를 포함한다.

여기서, 상기 문장 온톨로지를 생성하는 단계는, 평가 대상 답안에 포함된 하나 이상의 문장을 분리하는 단계와, 상기 분리된 각 문장을 형태소 단위로 분리하는 단계와, 상기 형태소 분석 모듈로부터 전달 받은 형태소에 해당 품사를 태깅하고, 상기 형태소에 태깅된 품사 정보를 기반으로 각 문장의 구문 구조를 분석하는 단계와, 각 문장의 구문 구조를 기반으로 각 문장의 술어 및 논항 요소를 추출하여 RDF 트리플을 생성하는 단계와, 상기 각 문장의 RDF 트리플의 각 문장의 의미 관계에 따라서 연결하여 문장 온톨로지를 생성하는 단계를 포함할 수 있다.

한편, 상술한 과제의 해결 수단으로 본 발명의 실시예에 따른, RDF 기반의 문장 온톨로지를 이용한 문장의 일관성 평가 방법에 있어서, 유사도는 상기 검색된 도메인 온톨로지에 저장된 RDF 트리플간의 거리와, 상기 평가 대상 답안의 문장 온톨로지에 포함된 RDF 트리플간의 거리의 차에 반비례하여 감소할 수 있다.

아울러, 일관성은 상기 유사도의 평균 값인 것을 특징으로 할 수 있다.

한편, 본 발명의 상술한 RDF 기반의 문장 온톨로지를 이용한 문장의 일관성 평가 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체를 더 제공할 수 있다.

본 발명에 따르면, 특정 주제에 대하여 작성된 평가 대상 답안에 대한 쓰기 평가를 수행하는데 있어서, 평가 대상 답안의 의미 분석을 기반으로 문장이 일관성 있게 작성되어 있는 지를 평가할 수 있다.

특히, 본 발명은 평가 대상 답안에 포함된 문장의 술어-논항 정보를 기반으로 생성한 RDF 트리플을 통하여 문장의 의미를 구조화하고, 문장 관계에 따라서 RDF 트리플을 연결하여 문장 온톨로지를 생성하고, 이를 상기 주제에 대하여 기 구축된 도메인 온톨로지와 비교함으로써, 쓰기 평가에 있어서 특정 주제에 대한 문장의 일관성을 자동으로 평가할 수 있는 우수한 효과가 있다.

도 1은 본 발명의 실시 예에 따른 RDF 기반의 문장 온톨로지를 이용한 일관성 평가 장치를 개략적으로 도시한 구성도이다.
도 2는 본 발명에 있어서의 도메인 온톨로지와 문장 온톨로지를 설명하기 위한 도면이다.
도 3은 본 발명의 실시 예에 따른 RDF 기반의 문장 온톨로지를 이용한 일관성 평가 장치에 있어서, 문장 온톨로지 생성부의 상세 구성을 나타낸 블록도이다.
도 3은 본 발명의 일 실시 예에 따른 RDF 기반의 문장 온톨로지를 이용한 일관성 평가 장치에 있어서, 일관성 평가부의 상세 구성을 나타낸 블록도이다.
도 4는 본 발명의 RDF 기반의 문장 온톨로지를 이용한 일관성 평가 방법을 설명하기 위한 순서도이다.

이하 본 발명의 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 또한, 도면 전체에 걸쳐 동일한 구성 요소들은 가능한 한 동일한 도면 부호로 나타내고 있음에 유의하여야 한다.

이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위한 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.

통상적으로 온톨로지(ontology)의 사전적 의미는 "공유된 개념화(shared conceptualization)에 대한 정형화되고 명시적인 명세(formal and explicit specification)"로서, 특정 분야의 특정 정보와 관련된 용어와 용어 사이의 관계를 계측적으로 정의한 집합으로 정의된다.

본 발명은 이러한 온톨로지 개념은 문장의 의미를 구조화하여 나타내는데 적용한 것으로서, 본 발명에 있어서, 문장 온톨로지는 평가 대상 답안에 포함된 문장들의 의미 및 관계를 구조화하여 나타낸 것으로 정의되며, 도메인 온톨로지는, 특정 주제와 관련된 하나 이상의 정보 및 그 관계를 구조화하여 나타낸 것으로 정의한다.

상술한 문장 온톨로지 및 도메인 온톨로지는 동일한 방법으로 구축될 수 있는데, 다만, 도메인 온톨로지는 특정 주제에 대한 정형화된 자연어 문장들을 수집하고, 이렇게 정형화된 자연어 문장들을 기반으로 미리 구축될 수 있다.

본 발명은 이러한 문장 온톨로지 및 도메인 온톨로지를 구성하는데 있어서, 자원 서술 체계(Resource Description Framework, 이하 "RDF"라 한다.)를 이용한다. 상기 RDF는 인터넷과 웹 상의 메타데이터(데이터에 대한 정의나 설명)를 지원하기 위한 기반구조를 제공하기 위하여 월드 와이드 웹 컨소시엄(W3C)에 의해 개발되고 있는 규격을 의미하나, 본 발명에 있어서는, 단일 문장의 의미를 구조화하여 나타내기 위해서 이용된다.

이와 같은 RDF 기반의 문장 온톨로지를 이용한 일관성 평가를 위한 장치 또는 방법에 대하여 이하에서 더 구체적으로 설명한다.

도 1은 본 발명의 일 실시 예에 따른 RDF 기반의 문장 온톨로지를 이용한 일관성 평가 장치의 구성을 나타내는 도면이다.

도 1을 참조하면, 본 발명에 따른 일관성 평가 장치(10)는 문장 온톨로지 생성부(100), 도메인 온톨로지 DB(200) 및 일관성 평가부(300)로 구성될 수 있다.

본 발명의 실시 예에 있어서, 문장 온톨로지 생성부(100)는 특정 주제에 대하여 피 평가자가 작성한 답안(이하, 평가 대상 답안이라 함)에 포함된 하나 이상의 문장을 분석하여, 상기 문장들의 의미 및 관계를 구조화한 문장 온톨로지를 생성하기 위한 수단이다.

구체적으로, 상기 문장 온톨로지 생성부(100)는 상기 평가 대상 답안에 포함된 하나 이상의 문장을 각각, 형태소 단위로 분리한 후, 분리된 형태소들에 대하여 각 단어의 문법적 성질을 나타내는 품사를 태깅하고, 태깅된 품사에 기초하여 각 문장의 구문(syntax) 구조를 분석한다. 더하여, 상기 문장 온톨로지 생성부(100)는 분석된 구문 구조를 탐색하여 각 문장의 술어를 추출하고, 추출된 술어의 문법형태에 따른 논항 구조를 기반으로 상기 술어에서 필요로 하는 논항 요소들을 추출한다. 이어서, 상기 문장 온톨로지 생성부(100)는 상기 추출한 술어 및 논항 요소들을 이용하여 각 문장의 의미를 표현하는 RDF 트리플을 생성하고, 이렇게 생성된 각 문장의 RDF 트리플을 각 문장의 순서 및 관계에 근거하여 연결함으로써 상기 평가 대상 답안의 각 문장의 의미 및 관계를 구조화한 문장 온톨로지를 생성한다.

또한, 본 발명의 실시예에 있어서, 도메인 온톨로지 DB(200)는 하나 이상의 주제에 대하여, 해당 주제와 관련된 다양한 정보 및 그 관계를 정형화하여 기 구축된 하나 이상의 도메인 온톨로지를 저장하는 구성이다. 예를 들어, 상기 도메인 온톨로지 DB(200)은, 쓰기 평가에 포함된 각 문제들과 관련된 주제에 대한 도메인 온톨로지를 저장한다. 더 구체적으로 설명하면, 상기 하나 이상의 도메인 온톨로지는, 주어진 주제와 관련된 하나 이상의 정보를 수집하고, 수집된 정보 간의 관계를 추출하여, 상기 수집된 정보를 연결하여 구조화함에 의해 생성된다. 이때, 각 정보는 RDF 구조로 정의될 수 있다.

도 2(a)는 본 발명에 적용된 도메인 온톨로지 DB의 구조를 예시한 도면으로서, 이를 참조하면, 도메인 온톨로지는 특정 주제(주제 1)과 관련된 정보들(A~M)이 수집될 때, 이러한 정보들 A~M을 각각 노드로 정의하고, 각 정보들의 관계에 따라서 상기 노드들을 트리 구조로 연결하여 정의한 것으로서, 여기서 각 노드(정보)들(A~M)은 RDF 구조로 표현될 수 있다.

한편, 도메인 온톨로지 DB(200)는 평가 대상 답안과 관련하여 주어진 문제에 대하여, 기 작성된 모법 답안으로부터 생성될 수도 있다. 한편, 도 2의 (a)는 도메인 온톨로지의 개념을 설명하기 위한 것일 뿐이며, 실질적으로 도메인 온톨로지는 특정 주제와 관련된 정보를 표현하는 하나 이상의 노드와, 상기 하나 이상의 노드 간의 관계를 정의할 수 있다면, 그래프, 매핑 테이블 등 다양한 형태의 데이터 구조로 저장될 수 있다.

다시 도 1을 참조하면, 본 발명의 일관성 평가 장치(10)를 구성하는 마지막 구성 요소인, 일관성 평가부(300)는 문장 온톨로지 생성부(100)에 의하여 생성된 평가 대상 답안의 문장 온톨로지와 평가 대상 답안에 대응하는 주제에 대하여 기 구축된 도메인 온톨로지를 비교하여, 상기 도메인 온톨로지와의 유사도를 기준으로 평가 대상 답안의 일관성을 평가한다. 이를 위하여, 일관성 평가부(300)는 도메인 온톨로지 DB(200)로부터 상기 평가 대상 답안과 대응하는 도메인 온톨로지를 검색하여 추출할 수 있다.

한편, 통상적으로 문장의 일관성(coherence)은, 문장을 구성하는 단어나 문구가 서로 논리적인 연관성을 가지고 논리적인 순서에 따라서 서술되는 것을 의미한다. 문장 내의 특정 주제나 문구를 강조하고 각 문장간에 적절한 주종 관계를 설정함으로써 문장의 일관성을 높일 수 있다.

특히, 본 발명에 있어서 문장의 일관성(coherence)은 쓰기 평가에 있어서 특정 주제에 대하여 피 평가자가 작성한 평가 대상 답안이 주어진 주제에 대하여 얼마나 관련성이 높은 내용을, 얼마나 논리 정연하게 기술하고 있는지에 따라 판별하기 위한 요소이다. 예를 들어, "A=C"라는 관계의 증명에 있어서, 단순히 "A=C"라고 작성된 문장보다, "A=B, B=C, 따라서 A=C"의 3단 논법에 따라 작성된 문장의 일관성이 높게 평가되어야 할 것이다.

따라서, 본 발명에 있어서 상기 일관성 평가부(300)은 평가 대상 답안의 문장 온톨로지와 도메인 온톨로지의 유사도를 비교하고, 그 유사도에 따라서 상기 평가 대상 답안의 일관성을 평가할 수 있다. 상기 일관성 평가부(300)의 구체적인 일관성 평가 방법은 이후 도 4를 참조하여 설명하기로 한다.

다음으로, 도 3은 본 발명의 일 실시예에 따른 일관성 평가 장치에 있어서, 문장 온톨로지 생성부(100)의 상세 구성을 나타내는 도면이다.

도 3을 참조하면, 본 발명에 따른 문장 온톨로지 생성부(100)는 문장 분리 모듈(110), 형태소 분리 모듈(120), 구문 구조 생성 모듈(130), RDF 생성 모듈(140), 온톨로지 생성 모듈(150)을 포함한다.

본 발명에서 평가하고자 하는 평가 대상 답안은, 통상 하나 이상의 문장으로 구성될 수 있다. 따라서, 상기 문장 분리 모듈(110)은 평가 대상 답안을 하나 이상의 단위 문장으로 분리한다. 더 구체적으로, 문서에 입력된 마침표(.), 물음표 (?), 또는 느낌표(!) 와 공백(NULL) 또는 줄바꿈(ENTER)이 순서대로 입력된 경우, 한 문장이 끝나는 것으로 인식할 수 있다. 아울러, 인용부호(?, ", -)로 묶인 경우도 한 문장이 끝나는 것으로 인식할 수 있다.

한편, 더 정확한 문장분리를 위하여, 약어와 함께 사용되는 마침표(.)에 의한 문장종료를 방지하기 위한 문장분리예외사전을 더 포함할 수 있다. 예를 들어, "DR. PARK"과 같이 약어에서 사용되는 마침표(.)에 의한 문장 종료를 방지하기 위하여, "DR."를 문장분리예외사전에 입력하여둘 수 있다.

한편, 형태소 분리 모듈(110)은 입력된 평가 대상 문서를 분리된 개별적인 문장을 형태소 단위로 분리한다. 여기서, 형태소는 한 언어 내에서 의미를 내포하고 있는 가장 작은 단위로서 더 이상 분석하면 뜻을 잃어버리는 언어의 단위로 이해하여야 할 것이다. 한편, 더 정확한 형태소 분석을 위하여 고유명사사전을 둘 수 있다.

구문 구조 생성 모듈(130)는 형태소 분석 모듈(110)로부터 전달 받은 각 형태소에 품사를 태깅하고, 태깅된 품사 정보를 기반으로 구문 구조를 분석한다. 더 구체적으로, 각 문장의 주어, 술어, 목적어, 보어 등의 구문의 구성 요소를 분석하는 할 수 있다. 이때, 구문 분석 모듈(130)은 문장의 구조를 분석하기 위하여 문법사전을 이용할 수 있다. 한편, 본 발명의 일 실시예에 있어서, 구문 구조의 분석 결과는, 트리 형태로 나타낼 수 있다.

RDF 생성 모듈(140)은 구문 구조 생성 모듈(120)로부터 전달 받은 구문 구조로부터 문장의 기본이 되는 술어를 추출하고, 추출된 술어가 문장을 구성하는데 필요한 논항(용어) 요소를 추출하여, 술어를 기준으로 각 논항을 연결한 구조의 RDF 트리플을 생성한다. 여기서, 술어는 명제에 있어서 주어에 대해 주장되는 개념을 말한다. 특히, 본 발명의 실시예에 있어서는, 일반적으로 형용사 또는 동사가 술어에 해당하며, 술어는 주어와 목적어(보어)와의 관계를 나타내는 것으로 이해할 수 있다. 또한, 한 문장 안에는 하나 이상의 형용사 및 동사에 존재할 수 있으며, 이 경우, 상기 RDF 생성 모듈(230)은 문장의 각 형태소간의 관계를 분석함으로써, 해당 문장의 술어를 추출할 수 있다. 또한, 논항은 술어에 의해서 관계 지어지는 용어를 말하는 것으로, 한 문장 안에서 주어, 목적어, 보어 등으로 이해할 수 있다.

온톨로지 생성 모듈(150)은 RDF 생성 모듈(140)로부터 전달 받은 RDF 트리플의 각 구성 요소를 단어의 원형으로 변환하여 문장 온톨로지를 생성한다. 여기서, 저장 방법은 하나 이상의 RDF 트리플을 저장하는 문장 온톨로지의 자료 저장 형태에 따라 달라 질 수 있다. 더 구체적으로, 매핑 테이블, 그래프, 트리 등 RDF의 술어-논항 구조를 저장하기 적합한 자료구조는 물론, 차후 기술의 발달로 생성될 새로운 형식의 자료구조도 포함할 수 있다.

한편, 상기의 설명에 있어서, 여러 문장에서 분리된 하나의 문장을 RDF로 변환하여 문장 온톨로지에 저장하는 것으로 설명 하였으나, 평가 대상 문서가 종료될 때까지 개별적 문장 모두 상기의 절차를 반복하여 문장 온톨로지에 저장하는 것을 이해하여야 한다.

도 4은 본 발명의 일 실시예에 따른 일관성 평가부(300)의 구성을 나타내는 도면이다.

본 발명에 따른 일관성 평가부(300)는 앞서 설명한 바와 같이, 문장 온톨로지 생성부(100)에서 생성한 문장 온톨로지와 대응하는 주제의 도메인 온톨로지를 비교하여 그 유사도를 산출하고, 산출된 유사도를 기준으로 일관성을 평가하기 위한 것이다. 여기서, 문장 온톨로지와 도메인 온톨로지의 유사도는, 대응하는 노드의 거리 정보를 비교함에 의해 이루어질 수 있으며, 이를 위하여, 본 발명에 따른 일관성 평가부(300)는 거리 비교 모듈(310) 및 유사도 평가 모듈(320)을 포함할 수 있다.

거리 비교 모듈(310)은 문장 온톨로지 생성부(100)가 생성한 문장 온톨로지의 각 노드와의 거리와, 동일 주제에 대응하는 기 구축된 도메인 온톨로지에 있어서 상기 문장 온톨로지의 노드와 대응하는 노드들의 거리를 비교한다. 이를 위하여, 상기 거리 비교 모듈(310)은 문장 온톨로지를 구성하는 각 노드에 대응하는 노드가 도메인 온톨로지를 구성하는 노드 중에서 검색할 수 있다.

예를 들어, 도 2의 (a)에 도시된 바와 같이 특정 주제(주제 1)에 대하여 도메인 온톨로지가 구축되어 있으며, 도 2의 (b)에 도시된 바와 같이, 평가 대상 문장의 문장 온톨로지가 추출되었다고 가정한다. 여기서, 알파벳A~M으로 표시된 노드는 상기 도메인 온톨로지 및 문장 온톨로지를 구성하는 특정 정보 또는 의미를 표시하는 것이고, 노드와 노드를 연결한 선분은 노드 간의 관계를 표시한다. 여기서, 도메인 온톨로지는 노드 A~M을 포함하고 있으며, 이때, 문장 온톨로지는 상기 도메인 온톨로지의 노드 중에서 A, D, H, I 4개의 노드만으로 구성된 것임을 알 수 있다.

구체적으로 살펴보면, 상기 거리 비교 모듈(310)은 도메인 온톨로지의 노드와 노드간의 거리를 기준으로 문장 온톨로지의 노드와 노드 간의 거리 정보를 비교하게 된다. 여기서, 거리 정보는 도메인 온톨로지에서 검출되는 기준 거리에 대비되는 문장 온톨로지의 거리 차이를 포함할 수 있다. 즉, 2(a)를 참조하면, 문장 온톨로지에 있어서 노드 A, H 간 거리는 1인데 반해, 도메인 온톨로지에서는 "A-D-H"의 관계로 거리가 2가된다. 따라서 그 거리의 차이가 "1"이 된다. 이와 같이, 도메인 온톨로지와 동일하다. 반면에, 문장 온톨로지에 있어서 노드 H와 I의 거리는, 문장 온톨로지에서 "H-I" 관계로 1인데 반해, 도메인 온톨로지에서 노드 H와 I의 거리는"H-K-L-I"의 관계로 3임을 알 수 있으며, 따라서 그 거리의 차이가 "2"가 된다.

한편, 상기의 예시는 거리의 차이를 비교하는 방식을 서술하기 위한 위한 것으로, 도메인 온톨로지 및 문장 온톨로지의 저장 방법에 따라, 메핑 테이블간 링크 회수에 의한 거리 산정, 그래프에서 노드간 최단 거리 탐색에 대한 거리 산정과 같이 개별적인 온톨로지 시스템의 자료 구조에 따라 다양한 용어간 거리 탐색이 이루어 질 수 있다.

유사도 평가 모듈(320)은 거리 비교 모듈(310)로부터 전달 받은 거리 정보를 바탕으로, 평가대상답안의 일관성을 판단하게 된다. 더 구체적으로, 노드 간 거리의 차이가 작을 수록, 문장 온톨로지는 도메인 온톨로지와 유사도가 높으며, 따라서, 특정 주제에 대한 일관성이 매우 높다고 평가할 수 있다. 반면에, 노드간 거리의 차이가 클수록, 평가 대상 답안 논리적인 비약 또는 비논리적인 순서로 작성된 것으로서, 유사도가 작아지며, 일관성이 매우 낮다고 평가할 수 있다. 즉, 도 2의 (a)에 도시된 도메인 온톨로지를 기준으로, 주제 1에 관련된 평가 대상 답안 중에서, "A-I"관계로 작성된 평가 대상 답안은, "A-D-H-I"관계 및 순서로 작성된 평가대상답안보다, 도메인 온톨로지와의 유사도가 낮고, 결과적으로 일관성이 낮은 것으로 평가 할 수 있다.

아울러, 본 발명에 있어서, 일관성 평가부(300)는 상기 일관성 평가 결과를 설정된 범위의 숫자로 점수화하여 출력할 수 있다. 이를 위하여, 일관성 평가부(300)는 상기 유사도 평가 모듈(320)에서 산출된 유사도를 설정된 범위(예를 들어, 0~1)의 점수로 변환할 수 있다.

또한, 본 발명의 일 실시예에 있어서 일관성을 하기의 [수학식 1] 과 같이 표현될 수 있다.

상기 [수학식 1]에 있어서, n은 총 입력된 RDF 트리플 숫자, m은 자연수, r은 상기 거리 비교 모듈에 따라 계산된 도메인 온톨로지와 문장 온톨로지의 거리차, k는 유사도 계수를 나타낸다. 여기서, 유사도 계수 K는 거리의 증가에 따라 일관성을 감소시키는 비율로 설명할 있으며, 사용자의 선택에 따라 평가 계수 값은 0 ~ 1 사이에서 선택될 수 있다. 예를 들면, 도메인 온톨로지를 기준으로 한 문장 온톨로지에 저장된 3개의 노드 간의 거리차가 각각 0, 1, 2이고, 평가 계수가 0.8인 경우, 거리 차가 0일 때의 유사도는 1(=0.8⁰)이고, 거리 차가 1일때의 유사도는 0.8(=0.8¹) 이고, 거리 차가 2일 때의 유사도는 0.64(=0.8²)이다. 따라서, 산출된 3개의 유사도의 평균을 구하면 0.81이고, 따라서, 피 평가자의 평가 대상 문서의 일관성은 0.81로 설정될 수 있을 것이다. 즉, 도메인 온톨로지에 저장된 RDF 트리플의 상호 관계와 문장 온톨로지에 저장된 RDF 트리플의 일치도가 높을수록 일관성이 높은 것으로 평가 될 수 있을 것이다.

상술한 [수학식 1]은 본 발명에 따른 일관성 산출 과정을 설명하기 위한 예시일뿐이며 본 발명을 한정하기 위한 것은 아니다.

도 5 및 도 6은 본 발명에 따른 RDF 기반의 문장 온톨로지를 이용한 일관성 평가 방법을 설명하기 위한 순서도이다.

도 5를 참조하면, 문장 온톨로지 생성부(100)는 S101단계에서 평가 대상 답안을 입력을 받고, S103단계에서 평가 대상 문서에서 서술된 정보를 토대로 문장 온톨로지를 추출한다. 더 구체적으로, 평가 대상 답안에 포함된 하나 이상의 문장을 각각, 형태소 단위로 분리한 후, 분리된 형태소들에 대하여 각 단어의 문법적 성질을 나타내는 품사를 태깅하고, 태깅된 품사에 기초하여 각 문장의 구문(syntax) 구조를 분석한다. 더하여, 상기 문장 온톨로지 생성부(100)는 분석된 구문 구조를 탐색하여 각 문장의 술어를 추출하고, 추출된 술어의 문법형태에 따른 논항 구조를 기반으로 상기 술어에서 필요로 하는 논항 요소들을 추출한다. 이어서, 상기 문장 온톨로지 생성부(100)는 상기 추출한 술어 및 논항 요소들을 이용하여 각 문장의 의미를 표현하는 RDF 트리플을 생성하고, 이렇게 생성된 각 문장의 RDF 트리플을 각 문장의 순서 및 관계에 근거하여 연결함으로써 상기 평가 대상 답안의 각 문장의 의미 및 관계를 구조화한 문장 온톨로지를 생성한다.

S105단계에서, 일관성 평가부(300)는 도메인 온톨로지에서 문장 온톨로지와 대응하는 주제의 도메인 온톨로지를 검색한다. 여기서, 도메인 온톨로지는 하나 이상의 주제에 대하여, 해당 주제와 관련된 다양한 정보 및 그 관계를 정형화하여 기 구축된 하나 이상의 도메인 온톨로지를 저장하는 구성으로, 일성관 평가에 앞서, 특정 정보로부터 수집된 RDF 트리플을 저장한 문장 온톨로지를 말한다.

S105단계에서 문장 온톨로지와 도메인 온톨로지의 유사도를 비교한다. 더 구체적으로, 도 6을 참조하면, S201단계에서, 일관성 평가부(300)는 문장 온톨로지를 구성하는 각 노드와 대응하는 도메인 온톨로지 노드를 추출하고, S203단계에서 각 노드간 거리를 비교한다. 예를 들어, 도 2를 참조하면, 문장 온톨로지의 A노드와 대응하는 노드를 도메인 온톨로지에서 검색하고, 문장 온톨로지의 H노드와 대응하는 노드를 도메인 온톨로지에서 검색하여 두 노드간 거리를 비교한다. 즉 문장 온톨로지에서 A노드와 B노드의 거리는 1에 해당하나, 도메인 온톨로지에서 A노드와 H노드는 거리 2에 해당됨으로, A노드와 B노드의 거리의 차는 1이 되며, 동일한 방식으로 문장 온톨로지의 H노드와 I노드의 거리는 1에 해당하며, 도메인 온톨로지에서 H노드와 I노드의 거리는 3으로, 노드간 거리 차이는 2가 된다.

S205 단계에서, 일관성 평가부(300)는 거리 정보에 기초하여 유사도를 산출한다. 노드와 노드간 거리의 차이가 없는 경우에는 도메인 온톨로지와 문장 온톨로지의 유사도가 매우 높으나, 거리의 차이가 커지는 경우, 도메인 온톨로지와 문장 온톨로지의 유사도는 점차 감소하기 때문이다. 본 발명의 일 실시예에 따르면, 각 노드의 유사도는 이하의 [수학식 2]와 같이 표현될 수 있다.

[수학식 2]를 참조하면, k는 유사도 계수를 나타내며, r은 노드 탐색에 의하여 도출된 노드의 거리 차이에 해당한다. 이때, 유사도 계수 k는 노드가 거리 차이가 증가함에 따라서 감소되는 비율을 의미하며, 0 ~ 1사이의 값을 가질 수 있다.

한편, 이와 같은 노드간 거리를 측정하는 방법으로, 그래프 형태의 자료 구조에 있어서 최단 거리 탐색방법, 트리 형태의 자료 구조에 있어서는 노드 검색 방법이 이용될 수 있다.

다시 도 5를 참조하면, S109단계에서, 일관성 평가부(300)는 유사도에 근거하여 일관성을 평가하게 된다. 상기 [수학식 1]을 참조하면, 문장 온톨로지와 도메인 온톨로지의 거리 차이에 따라서 산출된 하나 이상의 유사도의 평균값을 일관성 평가의 결과로 삼을 수 있다. 이는, 도메인 온톨로지가 쓰기 평가에 있어서 논리 정연하게 일관되어 기술되어 있음으로, 노드와 노드간 거리가 커진다는 것은 논리적인 비약이 존재하거나, 통일성이 결여된 것으로 볼 수 있기 때문이다.

본 발명은 언어 평가 분야 특히 쓰기 또는 작문에 대한 평가 분야에 적용될 수 있는 것으로, 자연어 문장으로부터 술어-논항 관계에 추출하여, RDF를 기반으로 문장의 의미를 구조화된 데이터로 나타낸 문장 온톨로지를 구축할 수 있도록 하며, 이를 통해 언어 영역에서의 작문 또는 쓰기 자동 평가를 가능하게 하는 우수한 효과가 있는 것으로서, 산업상 이용가능성이 있다.

10: 일관성 평가 장치 100: 문장 온톨로지 생성부
110: 문장 분리 모듈 120: 형태소 분리 모듈
130: 구문 구조 생성 모듈 140: RDF 생성 모듈
150: 온톨로지 생성 모듈(150) 200: 도메인 온톨로지 DB
300: 일관성 평가부 310: 거리 비교 모듈
320: 유사도 평가 모듈

Claims

특정 주제와 관련되어 작성된 평가 대상 답안에 포함된 하나 이상의 문장을 분석하여, 각 문장의 의미 및 관계를 구조화하여 문장 온톨로지를 생성하는 문장 온톨로지 생성부;
하나 이상의 주제에 각각 대응하고, 대응하는 주제와 관련된 하나 이상의 정보 및 그 관계를 구조화하여 정의하는 하나 이상의 도메인 온톨로지를 저장하는 도메인 온톨로지 DB; 및
상기 도메인 온톨로지 DB로부터 상기 평가 대상 답안과 대응하는 주제의 도메인 온톨로지를 추출하고, 상기 추출한 도메인 온톨로지와 상기 평가 대상 답안의 문장 온톨로지를 비교하고, 상기 도메인 온톨로지와 문장 온톨로지의 유사도에 근거하여 일관성을 평가하는 일관성 평가부;
를 포함하는 RDF 기반의 문장 온톨로지를 이용한 문장의 일관성 평가 장치.
제 1 항에 있어서,
상기 문장 온톨로지 생성부는,
평가 대상 답안에 포함된 하나 이상의 문장을 분리하는 문장 분리 모듈;
상기 분리된 각 문장을 형태소 단위로 분리하는 형태소 분석 모듈;
상기 형태소 분석 모듈로부터 전달 받은 형태소에 해당 품사를 태깅하고, 상기 형태소에 태깅된 품사 정보를 기반으로 각 문장의 구문 구조를 분석하는 구문 분석 모듈;
각 문장의 구문 구조를 기반으로 각 문장의 술어 및 논항 요소를 추출하여 RDF 트리플로 정의한 RDF 생성 모듈; 및
상기 각 문장의 RDF 트리플의 각 문장의 의미 관계에 따라서 연결하여 문장 온톨로지를 생성하는 온톨로지 생성 모듈;
을 포함하는 것을 특징으로 하는 RDF 기반의 문장 온톨로지를 이용한 문장의 일관성 평가 장치.
제 1 항에 있어서,
상기 일관성 평가부는,
상기 도메인 온톨로지 DB로부터 평가 대상 답안과 대응하는 도메인 온톨로지를 추출하고, 상기 추출된 도메인 온톨로지와 대비되는, 상기 평가 대상 답안의 문장 온톨로지에 포함된 노드 간의 거리의 차를 구하는 거리 비교 모듈; 및
상기 거리 비교 모듈로부터 전달 받은 거리의 차이에 따라 도메인 온톨로지와 문장 온톨로지의 유사도를 산출하고, 상기 유사도를 평가 대상 답안의 일관성 평가 결과로 출력하는 유사도 평가 모듈;
을 포함하는 것을 특징으로 하는 RDF 기반의 문장 온톨로지를 이용한 문장의 일관성 평가 장치.
제 3 항에 있어서,
상기 유사도는,
상기 거리 비교 모듈로부터 전달 받은 거리의 차에 반비례하는 것을 특징으로 하는 RDF 기반의 문장 온톨로지를 이용한 문장의 일관성 평가 장치.
특정 주제에 대하여 작성된 평가 대상 답안에 포함된 하나 이상의 문장의 의미와, 그 의미 관계를 구조화하여 문장 온톨로지를 생성하는 단계;
상기 특정 주제에 관련하여 수집된 하나 이상의 정보와 상기 정보간의 관계를 구조화하도록 기 구축된 도메인 온톨로지를 도메인 온톨로지 DB에서 검색하는 단계;
상기 문장 온톨로지와 상기 도메인 온톨로지를 비교하여 유사도를 산출하는 단계;
상기 유사도를 기준으로 상기 평가 대상 답안의 특정 주제에 대한 일관성을 평가하는 단계;
를 포함하는 RDF 기반의 문장 온톨로지를 이용한 문장의 일관성 평가 방법.
제 5 항에 있어서,
문장 온톨로지를 생성하는 단계는,
평가 대상 답안에 포함된 하나 이상의 문장을 분리하는 단계;
상기 분리된 각 문장을 형태소 단위로 분리하는 단계;
상기 형태소 분석 모듈로부터 전달 받은 형태소에 해당 품사를 태깅하고, 상기 형태소에 태깅된 품사 정보를 기반으로 각 문장의 구문 구조를 분석하는 단계;
각 문장의 구문 구조를 기반으로 각 문장의 술어 및 논항 요소를 추출하여 RDF 트리플을 생성하는 단계; 및
상기 각 문장의 RDF 트리플의 각 문장의 의미 관계에 따라서 연결하여 문장 온톨로지를 생성하는 단계;
를 포함하는 것을 특징으로 하는 RDF 기반의 문장 온톨로지를 이용한 문장의 일관성 평가 방법.
제 5 항에 있어서,
상기 유사도는,
상기 검색된 도메인 온톨로지에 저장된 RDF 트리플간의 거리와, 상기 평가 대상 답안의 문장 온톨로지에 포함된 RDF 트리플간의 거리의 차에 반비례하여 감소하는 것을 특징으로 하는 RDF 기반의 문장 온톨로지를 이용한 문장의 일관성 평가 방법.
제 7 항에 있어서,
상기 일관성은,
상기 유사도의 평균 값인 것을 특징으로 하는 RDF 기반의 문장 온톨로지를 이용한 문장의 일관성 평가 방법.
제5항 내지 제8항 중 어느 한 항에 기재된 RDF 기반의 문장 온톨로지를 이용한 문장의 일관성 평가 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.