KR101782465B1

KR101782465B1 - 설화 데이터 내 서사정보 추출 시스템 및 방법

Info

Publication number: KR101782465B1
Application number: KR1020160069322A
Authority: KR
Inventors: 김판구; 이은지; 김정인; 고병규; 고미아; 백남주
Original assignee: 조선대학교산학협력단; (주)위치스
Priority date: 2016-06-03
Filing date: 2016-06-03
Publication date: 2017-09-29

Abstract

본 발명은 설화 데이터 내 서사정보 추출 시스템에 관한 것으로서, 외부 서버로부터 설화 데이터를 수집하는 수집부; 상기 수집부로부터 수집된 설화 데이터를 분석 및 필터링하여 설화 데이터 내에 포함된 명사를 추출하는 명사추출부; 상기 명사추출부로부터 추출된 명사 중 유의미한 서사정보 명사를 선정하는 명사선정부; 및 상기 명사선정부로부터 선정된 각 서사정보 명사들에 대한 관계 정의 및 토픽맵을 도출을 통해 각 서사정보 명사들의 관계를 시각화시키는 관계형성부; 를 포함하는 것을 특징으로 한다.
또한, 본 발명은 설화 데이터 내 서사정보 추출 방법에 관한 것으로서, 외부 서버로부터 설화 데이터를 수집하는 제1단계; 상기 제1단계로부터 수집된 설화 데이터를 분석 및 필터링하여 설화 데이터 내에 포함된 명사를 추출하는 제2단계; 상기 제2단계로부터 추출된 명사 중 유의미한 서사정보 명사를 선정하는 제3단계; 및 상기 제3단계로부터 선정된 각 서사정보 명사들에 대한 관계 정의 및 토픽맵을 도출을 통해 각 서사정보 명사들의 관계를 시각화시키는 제4단계; 를 포함하는 것을 특징으로 한다.
이에 의해, 스토리제작 초기단계에 많은 인력과 시간이 소모되는 자료의 수집 및 분류를 자동화하고, 분류된 객체에 대한 관계도 형성을 통해 스토리 저작에 있어 시간적, 인적 부담을 줄일 수 있다.
또한, 한글 데이터 처리를 이용하여 설화 스토리 내 인물, 사건, 배경에 관한 데이터를 자동 추출하고 인물 간 관계도를 시각화 및 스토리 저작을 원하는 작가에게 기존 데이터의 전반적인 구성을 시각화하여 제공함으로써 스토리 저작의 효율성을 극대화시킬 수 있다.
또한, 영화, 드라마, 소설 등의 다양한 분야에서 광범위하게 활용이 가능하고, 국내외 설화에 대한 원천자료 데이터 베이스 구축 기반을 마련할 수 있다.

Description

설화 데이터 내 서사정보 추출 시스템 및 방법{System for Extraction of Narrative Information and the Method in Tale Data}

본 발명은 설화 데이터 내 서사정보 추출 시스템 및 방법에 관한 것으로서, 보다 상세하게는, 기존 설화 데이터를 가공하여, 설화 내 인물, 사건, 배경을 기반으로 각 객체간 관계를 형성하고, 이를 시각화할 수 있는 설화 데이터 내 서사정보 추출 시스템 및 방법에 관한 것이다.

최근 스토리가 지닌 무한의 부가가치가 새로운 창출의 핵심적인 요인으로 떠오르면서 청중을 몰입시키고 내용전개에 흥미를 유발시키게 만드는 기법인 스토리텔링이 문화산업에 있어서 중요한 기술로 주목을 받고 있다.

스토리텔링이란 스토리(Story)와 텔링(Telling)의 합성어로 상대방에게 알리고자 하는 바를 재미있고 생생한 이야기로 설득력 있게 전달하고자 하는 행위라고 할 수 있다.

특히 인간과 컴퓨터간의 상호작용(HCI, Human-Computer Interaction)을 통한 스토리텔링 저작 도구 시스템을 활용하여 스토리를 창작하는 사례가 늘어나고 있다.

스토리텔링 저작 도구는 스토리를 창작하는데 있어서 사용되는 컴퓨터 소프트웨어를 가리키지만 단지 컴퓨터 프로그래밍 기술에 의해 구현된 것이 아니라 인문학적 이론인 서사학과 창작 이론의 결합을 통한 스토리 구조 분석 기반의 종합적인 연구에 의해 구현된다.

스토리텔링 저작을 위한 다양한 시스템은 미국의 드라마티카 프로(Dramatica Pro), 파일널 드래프트(Final Draft) 및 국내의 스토리 헬퍼(Story Helper) 등이 있지만, 전술한 시스템들에서는 인물, 사건 및 배경이 되는 설화에 대한 서사 구조, 이야기를 이루는 객체 간의 관계도 형성 등에 관한 것은 언급하고 있지 않다는 문제점이 있었다.

대한민국 공개특허공보 공개번호 제10-2011-0047087호(2011.05.06.공개)

본 발명은 상기 문제점을 개선하기 위하여 창작된 것으로써, 본 발명의 목적은, 스토리제작 초기단계에 많은 인력과 시간이 소모되는 자료의 수집 및 분류를 자동화하고, 분류된 객체에 대한 관계도 형성을 통해 스토리 저작에 있어 시간적, 인적 부담을 줄일 수 있는 설화 데이터 내 서사정보 추출 시스템 및 방법을 제공하는 데 있다.

본 발명의 또 다른 목적은, 한글 데이터 처리를 이용하여 설화 스토리 내 인물, 사건, 배경에 관한 데이터를 자동 추출하고 인물 간 관계도를 시각화 및 스토리 저작을 원하는 작가에게 기존 데이터의 전반적인 구성을 시각화하여 제공함으로써 스토리 저작의 효율성을 극대화시킬 수 있는 설화 데이터 내 서사정보 추출 시스템 및 방법을 제공하는 데 있다.

상기 목적은 본 발명에 따라, 외부 서버로부터 설화 데이터를 수집하는 제1단계; 상기 제1단계로부터 수집된 설화 데이터를 분석 및 필터링하여 설화 데이터 내에 포함된 명사를 추출하는 제2단계; 상기 제2단계로부터 추출된 명사 중 유의미한 서사정보 명사를 선정하는 제3단계; 및 상기 제3단계로부터 선정된 각 서사정보 명사들에 대한 관계 정의 및 토픽맵을 도출을 통해 각 서사정보 명사들의 관계를 시각화시키는 제4단계; 를 포함하는 설화 데이터 내 서사정보 추출 방법에 의해 달성될 수 있다.

여기서, 상기 제2단계는, 상기 수집된 설화 데이터에 포함된 특수문자를 제거하는 제2-1단계; 상기 특수문자가 제거된 설화 데이터를 POS(Part-Of-Speech) 태깅을 통해 품사별로 분류하는 제2-2단계; 및 상기 품사별로 분류된 설화 데이터 중 미리 정의된 패턴을 가지는 명사를 추출하는 제2-3단계; 를 포함한다.

또한, 상기 제2-1단계는 특수문자 중 대괄호, 중괄호, 소괄호, 큰따옴표, 작은따옴표에 대해 식별기호를 부가하여 해당 특수문자에 대한 특수성을 지정하는 단계 및 문장 구분을 위하여 마침표를 제거하지 않는 단계를 더 포함한다.

여기서, 상기 제3단계는, 상기 제2단계를 통해 추출된 명사의 출현 빈도수를 측정하여 서사정보 후보 명사를 추출하는 제3-1단계; 상기 제3-1단계에서 추출된 서사정보 후보 명사 중 둘 이상의 품사를 가지는 서사정보 후보 명사들의 불용어 명사 목록을 정의하는 제3-2단계; 및 상기 제3-2단계에서 적용된 불용어 명사 목록을 바탕으로 상기 제3-1단계에서 추출된 서사정보 후보 명사를 필터링하여 서사정보 명사를 선정하는 제3-3단계; 를 포함한다.

또한, 상기 제3-3단계는 선정된 서사정보 명사 중 출현 빈도수가 1 이하인 서사정보 명사를 제거하는 단계를 더 포함한다.

여기서, 상기 제4단계는, 상기 3단계를 통해 선정된 서사정보 명사들을 영웅 서사구조 기반의 관계 모델링을 통해 토픽 타입을 분류 및 정의하는 제4-1단계; 상기 분류 및 정의된 토픽 타입에 대하여 서사정보 명사를 맵핑하는 제4-2단계; 상기 맵핑된 서사정보 명사에 대해 내부DB 또는 외부DB를 참조하여 개별 토픽에 대한 개념을 확장하는 제4-3단계; 상기 확장된 개념을 가지는 개별 토픽 간의 관계성을 구축하는 제4-4단계; 및 상기 관계성이 구축된 토픽을 토픽 타입에 따라 토픽맵 형태로 시각화시키는 제4-5단계; 를 포함한다.

또한, 상기 제4-4단계는 개별 토픽 간에 대한 인물관계, 사건관계, 배경관계를 구축하고 상기 인물관계, 사건관계, 배경관계가 결합된 연계관계를 구축하는 단계이다.

한편, 상기 목적은 본 발명에 따라, 외부 서버로부터 설화 데이터를 수집하는 수집부; 상기 수집부로부터 수집된 설화 데이터를 분석 및 필터링하여 설화 데이터 내에 포함된 명사를 추출하는 명사추출부; 상기 명사추출부로부터 추출된 명사 중 유의미한 서사정보 명사를 선정하는 명사선정부; 및 상기 명사선정부로부터 선정된 각 서사정보 명사들에 대한 관계 정의 및 토픽맵을 도출을 통해 각 서사정보 명사들의 관계를 시각화시키는 관계형성부; 를 포함하는 설화 데이터 내 서사정보 추출 시스템에 의해서도 달성될 수 있다.

여기서, 상기 명사추출부는, 상기 수집된 설화 데이터에 포함된 특수문자를 제거하는 특수문자제거부분; 상기 특수문자가 제거된 설화 데이터를 POS(Part-Of-Speech) 태깅을 통해 품사별로 분류하는 POS태깅부분; 및 상기 품사별로 분류된 설화 데이터 중 미리 정의된 패턴을 가지는 명사를 추출하는 명사추출부분; 을 포함한다.

또한, 상기 특수문자제거부분은 특수문자 중 대괄호, 중괄호, 소괄호, 큰따옴표, 작은따옴표에 대해 식별기호를 부가하여 해당 특수문자에 대한 특수성을 지정하는 특수성지정부분을 더 포함한다.

여기서, 상기 명사선정부는, 상기 명사추출부로부터 추출된 명사의 출현 빈도수를 측정하여 서사정보 후보 명사를 추출하는 후보명사추출부분; 상기 서사정보 후보 명사 중 둘 이상의 품사를 가지는 서사정보 후보 명사들의 불용어 명사 목록을 정의하는 불용어정의부분; 상기 불용어 명사 목록을 바탕으로 상기 후보명사추출부분으로부터 추출된 서사정보 후보 명사를 필터링하여 서사정보 명사를 선정하는 명사선정부분; 을 포함한다.

또한, 상기 명사선정부분은 선정된 서사정보 명사 중 출현 빈도수가 1 이하인 서사정보 명사를 제거하도록 마련될 수 있다.

여기서, 상기 관계형성부는, 상기 명사선정부를 통해 선정된 서사정보 명사들을 영웅 서사구조 기반의 관계 모델링을 통해 토픽 타입을 분류 및 정의하는 토픽분류부분; 상기 분류 및 정의된 토픽 타입에 대하여 서사정보 명사를 맵핑하는 맵핑부분; 상기 맵핑된 서사정보 명사에 대해 내부DB 또는 외부DB를 참조하여 개별 토픽에 대한 개념을 확장하는 확장부분; 상기 확장된 개념을 가지는 개별 토픽 간의 관계성을 구축하는 관계성구축부분; 및 상기 관계성이 구축된 토픽을 토픽 타입에 따라 토픽맵 형태로 시각화시키는 시각화부분; 을 포함한다.

또한, 상기 관계성구축부분은 개별 토픽 간에 대한 인물관계, 사건관계, 배경관계를 구축하고 상기 인물관계, 사건관계, 배경관계가 결합된 연계관계를 구축하도록 마련될 수 있다.

본 발명에 의해, 스토리제작 초기단계에 많은 인력과 시간이 소모되는 자료의 수집 및 분류를 자동화하고, 분류된 객체에 대한 관계도 형성을 통해 스토리 저작에 있어 시간적, 인적 부담을 줄일 수 있다.

또한, 한글 데이터 처리를 이용하여 설화 스토리 내 인물, 사건, 배경에 관한 데이터를 자동 추출하고 인물 간 관계도를 시각화 및 스토리 저작을 원하는 작가에게 기존 데이터의 전반적인 구성을 시각화하여 제공함으로써 스토리 저작의 효율성을 극대화시킬 수 있다.

또한, 영화, 드라마, 소설 등의 다양한 분야에서 광범위하게 활용이 가능하고, 국내외 설화에 대한 원천자료 데이터 베이스 구축 기반을 마련할 수 있다.

도 1 은 본 발명에 따른 설화 데이터 내 서사정보 추출 시스템의 구성을 나타낸 블럭도이며,
도 2 는 본 발명에 따른 설화 데이터 내 서사정보 추출 시스템의 사용자 UI를 나타낸 도면이며,
도 3 은 본 발명에 따른 설화 데이터 내 서사정보 추출 시스템의 추출된 서사정보 목록 결과를 나타낸 도면이며,
도 4 는 '지하국 대적 퇴치' 설화에 대한 개념 모델링을 나타낸 도면이며,
도 5 는 '지하국 대적 퇴치' 설화에 대한 토픽맵 기반의 서사정보를 나타낸 도면이며,
도 6 내지 도 8 은 '지하국 대적 퇴치' 설화에 대한 객체 시각화를 통해 생성된 인물 관계, 배경 관계, 사건 관계를 나타낸 도면이며,
도 9 는 도 6 내지 도 8 의 관계들을 종합하여 생성된 서사정보 관계를 나타낸 도면이며,
도 10 은 본 발명에 따른 설화 데이터 내 서사정보 추출 방법에 대한 흐름도이며,
도 11 은 본 발명에 따른 설화 데이터 내 서사정보 추출 방법의 제2단계 과정에 대한 흐름도이며,
도 12 는 본 발명에 따른 설화 데이터 내 서사정보 추출 방법의 제3단계 과정에 대한 흐름도이며,
도 13 은 본 발명에 따른 설화 데이터 내 서사정보 추출 방법의 제4단계 과정에 대한 흐름도이며,
도 14 은 본 발명에 따른 설화 데이터 내 서사정보 추출 시스템의 블럭도이다.

이하, 첨부된 도면을 참조하여 본 발명의 구성을 상세히 설명하기로 한다.

이에 앞서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 또는 "전달된다"등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.

즉, 본 명세서 및 청구범위에 사용된 용어는 사전적인 의미로 한정 해석되어서는 아니되며, 발명자는 자신의 발명을 최선의 방법으로 설명하기 위해 용어의 개념을 적절히 정의할 수 있다는 원칙에 입각하여, 본 발명의 기술적 사상에 부합되는 의미와 개념으로 해석되어야 한다.

따라서, 본 명세서에 기재된 실시예 및 도면에 도시된 구성은 본 발명의 바람직한 실시예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 표현하는 것은 아니므로, 본 출원 시점에 있어 이들을 대체할 수 있는 다양한 균등물과 변형예들이 존재할 수 있음을 이해하여야 한다.

-설화데이터 내 서사정보 자동 추출 시스템-

도 14 에서와 같이, 본 발명에 따른 설화데이터 내 서사정보 자동 추출 시스템(100)은, 외부 서버로부터 설화 데이터를 수집하는 수집부(10); 상기 수집부(10)로부터 수집된 설화 데이터를 분석 및 필터링하여 설화 데이터 내에 포함된 명사를 추출하는 명사추출부(20); 상기 명사추출부(20)로부터 추출된 명사 중 유의미한 서사정보 명사를 선정하는 명사선정부(30); 및 상기 명사선정부(30)로부터 선정된 각 서사정보 명사들에 대한 관계 정의 및 토픽맵을 도출을 통해 각 서사정보 명사들의 관계를 시각화시키는 관계형성부(40); 를 포함한다.

여기서, 상기 명사추출부(20)는, 상기 수집된 설화 데이터에 포함된 특수문자를 제거하는 특수문자제거부분(22); 상기 특수문자가 제거된 설화 데이터를 POS(Part-Of-Speech) 태깅을 통해 품사별로 분류하는 POS태깅부분(24); 및 상기 품사별로 분류된 설화 데이터 중 미리 정의된 패턴을 가지는 명사를 추출하는 명사추출부분(26); 을 포함한다.

또한, 상기 특수문자제거부분(22)은 특수문자 중 대괄호, 중괄호, 소괄호, 큰따옴표, 작은따옴표에 대해 식별기호를 부가하여 해당 특수문자에 대한 특수성을 지정하는 특수성지정부분(21)을 더 포함한다.

여기서, 상기 명사선정부(30)는, 상기 명사추출부(20)로부터 추출된 명사의 출현 빈도수를 측정하여 서사정보 후보 명사를 추출하는 후보명사추출부분(32); 상기 서사정보 후보 명사 중 둘 이상의 품사를 가지는 서사정보 후보 명사들의 불용어 명사 목록을 정의하는 불용어정의부분(34); 상기 불용어 명사 목록을 바탕으로 상기 후보명사추출부분(32)으로부터 추출된 서사정보 후보 명사를 필터링하여 서사정보 명사를 선정하는 명사선정부분(36); 을 포함한다.

또한, 상기 명사선정부분(36)은 선정된 서사정보 명사 중 출현 빈도수가 1 이하인 서사정보 명사를 제거하도록 마련될 수 있다.

여기서, 상기 관계형성부(40)는, 상기 명사선정부(30)를 통해 선정된 서사정보 명사들을 영웅 서사구조 기반의 관계 모델링을 통해 토픽 타입을 분류 및 정의하는 토픽분류부분(42); 상기 분류 및 정의된 토픽 타입에 대하여 서사정보 명사를 맵핑하는 맵핑부분(44); 상기 맵핑된 서사정보 명사에 대해 내부DB 또는 외부DB를 참조하여 개별 토픽에 대한 개념을 확장하는 확장부분(46); 상기 확장된 개념을 가지는 개별 토픽 간의 관계성을 구축하는 관계성구축부분(48); 및 상기 관계성이 구축된 토픽을 토픽 타입에 따라 토픽맵 형태로 시각화시키는 시각화부분(49); 을 포함한다.

또한, 상기 관계성구축부분(48)은 개별 토픽 간에 대한 인물관계, 사건관계, 배경관계를 구축하고 상기 인물관계, 사건관계, 배경관계가 결합된 연계관계를 구축하도록 마련될 수 있다.

-설화데이터 내 서사정보 자동 추출 방법-

한편, 도 10 내지 도 13 을 참조하면, 설화데이터 내 서사정보 자동 추출 방법은, 외부 서버로부터 설화 데이터를 수집하는 제1단계(S10); 상기 제1단계(S10)로부터 수집된 설화 데이터를 분석 및 필터링하여 설화 데이터 내에 포함된 명사를 추출하는 제2단계(S20); 상기 제2단계(S20)로부터 추출된 명사 중 유의미한 서사정보 명사를 선정하는 제3단계(S30); 및 상기 제3단계(S30)로부터 선정된 각 서사정보 명사들에 대한 관계 정의 및 토픽맵을 도출을 통해 각 서사정보 명사들의 관계를 시각화시키는 제4단계(S40); 를 포함하는 설화 데이터 내 서사정보 추출 방법에 의해 달성될 수 있다.

여기서, 상기 제2단계(S20)는, 상기 수집된 설화 데이터에 포함된 특수문자를 제거하는 제2-1단계(S22); 상기 특수문자가 제거된 설화 데이터를 POS(Part-Of-Speech) 태깅을 통해 품사별로 분류하는 제2-2단계(S24); 및 상기 품사별로 분류된 설화 데이터 중 미리 정의된 패턴을 가지는 명사를 추출하는 제2-3단계(S26); 를 포함한다.

또한, 상기 제2-1단계(S22)는 특수문자 중 대괄호, 중괄호, 소괄호, 큰따옴표, 작은따옴표에 대해 식별기호를 부가하여 해당 특수문자에 대한 특수성을 지정하는 단계 및 문장 구분을 위하여 마침표를 제거하지 않는 단계를 더 포함한다.

여기서, 상기 제3단계(S30)는, 상기 제2단계를 통해 추출된 명사의 출현 빈도수를 측정하여 서사정보 후보 명사를 추출하는 제3-1단계(S32); 상기 제3-1단계(S32)에서 추출된 서사정보 후보 명사 중 둘 이상의 품사를 가지는 서사정보 후보 명사들의 불용어 명사 목록을 정의하는 제3-2단계(S34); 및 상기 제3-2단계(S34)에서 적용된 불용어 명사 목록을 바탕으로 상기 제3-1단계(S32)에서 추출된 서사정보 후보 명사를 필터링하여 서사정보 명사를 선정하는 제3-3단계(S36); 를 포함한다.

또한, 상기 제3-3단계(S36)는 선정된 서사정보 명사 중 출현 빈도수가 1 이하인 서사정보 명사를 제거하는 단계를 더 포함한다.

여기서, 상기 제4단계(S40)는, 상기 3단계(S30)를 통해 선정된 서사정보 명사들을 영웅 서사구조 기반의 관계 모델링을 통해 토픽 타입을 분류 및 정의하는 제4-1단계(S42); 상기 분류 및 정의된 토픽 타입에 대하여 서사정보 명사를 맵핑하는 제4-2단계(S44); 상기 맵핑된 서사정보 명사에 대해 내부DB 또는 외부DB를 참조하여 개별 토픽에 대한 개념을 확장하는 제4-3단계(S46); 상기 확장된 개념을 가지는 개별 토픽 간의 관계성을 구축하는 제4-4단계(S48); 및 상기 관계성이 구축된 토픽을 토픽 타입에 따라 토픽맵 형태로 시각화시키는 제4-5단계(S49); 를 포함한다.

또한, 상기 제4-4단계(S48)는 개별 토픽 간에 대한 인물관계, 사건관계, 배경관계를 구축하고 상기 인물관계, 사건관계, 배경관계가 결합된 연계관계를 구축하는 단계이다.

-서사정보 자동 추출 시스템 및 인터페이스 정의-

이하에서는, 한국어로 작성된 설화 텍스트를 자연어 처리(NLP, Natural Language Process) 기법을 활용한 서사정보 자동 추출 시스템 설계 및 구현을 위한 전체적인 시스템 구성도와 개발 환경에 대해 기술하고, 사용자 인터페이스를 보여준다.

도 1 은 본 발명에 따른 설화데이터 내 서사정보 자동 추출 시스템의 구성도이다. 시스템 구성도는 크게 입력받은 설화 텍스트로부터 한국어 자연어 처리 기법을 활용하여 명사를 추출하는 단계, 추출된 명사로부터 서사정보 후보명사를 추출하기 위해 TF 알고리즘을 적용하는 단계, 마지막으로 입력된 설화 텍스트로부터 인물, 사건, 배경의 추출된 서사정보 목록을 보여주는 단계로 이루어진다.

서사정보 자동 추출 시스템의 구축을 위한 개발환경은 표 1 과 같다. 컴퓨터 CPU는 Intel(R) Core(TM) i7 2.93GHz 환경에서 Java 기반으로 구현하였으며, 인터페이스 설계를 위해 Eclipse 플러그인 Window Builder를 이용하여 레이아웃을 구성하였고, 텍스트 처리를 위해 한나눔 형태소 분석기의 품사 태그를 이용하였다.

항목	사양
CPU	Intel(R) Core(TM) i7 2.93GHz
RAM	4.00GB
운영체제	윈도우7 Enterprise K
개발 툴	Java, Eclipse, Window Builder
분석기	한나눔 형태소 분석기

도 2 는 본 발명에 따른 서사정보 자동 추출 시스템의 사용자 인터페이스를 보여준다. 사용자 인터페이스는 시스템 구성도의 흐름과 같이 입력받은 설화 텍스트로부터 명사를 추출하는 부분과 추출된 명사 중에서 서사정보의 후보들을 추출하는 부분과 서사정보에 대한 목록을 보여주는 부분으로 구성된다.

이하에서는 입력받은 설화 텍스트로부터 서사정보를 추출하기 위한 전처리(Pre-processing) 과정을 도 2 를 참조하여 설화 내 명사를 추출하는 방법에 대하여 기술한다. 명사를 추출하는 이유는 다양한 품사 중에서 서사정보를 구성하고 있는 단어에 대한 품사가 주로 명사에 분포되어 있기 때문이다. 이에 설화 텍스트 내 명사 추출을 위해 모든 자연어 처리 기법에서 이루어지는 특수문자 제거 방법과 해당 단어별 품사 처리를 위한 POS(Part-Of-Speech) Tagging 과정에 대해 설명하고 서사정보 추출을 위한 명사 패턴을 정의하여 추출한다.

1. 특수문자 제거 및 POS(Part-Of-Speech) Tagging

모든 언어에서 사용되는 특수문자의 종류는 매우 다양하다. 대화 내용을 나타내기 위해 큰따옴표(“ ”)를 사용하고, 문장의 맥락을 구성하기 위해 마침표(.), 쉼표(,) 등을 사용한다. 하지만, 이러한 특수기호들은 자연어 처리에서 큰 걸림돌이 되기 때문에 본 발명에서도 본격적인 한국어 처리를 하기 위해 특수문자를 제거한다. 제거할 특수 문자는 “*, +, $, |, !, #, %, &, @, ,, , ", ', \ , [, ], /, <, >, ^, {, }”이다. 특수문자 제거 시 주의할 사항은 제거할 특수문자를 정의할 때 대부분 대괄호([ ]) 안에 제거할 문자를 정의하지만 JAVA 함수에서 사용되는 대, 중, 소괄호와 큰따옴표, 작은따옴표는 반드시 앞에 역슬러쉬(\)를 포함하여 그 특수성을 지정해주어야 한다.

전체 텍스트 내에 특수문자를 제거 후 각 단어별 품사를 파악하기 위한 POS Tagging 과정을 진행한다. 한국어 자연어 처리에 있어서 매우 다양한 품사들이 존재하는데, 문맥적으로 특정 품사를 보조해주는 역할을 하는 품사들이 존재하기 때문에 영어와 달리 매우 어려운 점이 존재한다.

본 발명에서는 한나눔 형태소 분석기를 통해 본 과정을 진행한다. 한나눔 형태소 분석기를 이용하는 이유는 타 분석기와 달리 특정 명사에 대한 품사 종류를 나타낼 수 있는 경우에 수에 따라 최대한 많이 보여줌으로써 연구자들이 사용할 수 있는 범위를 확대시켜 놓았기 때문이다. 또한 체계적으로 정리된 단어-품사 관계를 제공함으로써 본 발명에서 사용하고자 하는 불용어 처리에 도움을 줄 수 있다.

설화 텍스트에 대한 POS Tagging 과정은 먼저 설화 텍스트 원문을 입력받을 때, 모든 기호를 제거하여 하나의 문장형태로 데이터를 수정한다. 그리고 앞서 정의한 특수문자를 제거하는데, 마침표는 문장의 끝을 구분하여야 함으로 제거 하지 않는다. 최종적인 POS Tagging은 한나눔 분석기 함수에 기반하여 데이터가 가공되는데 각각의 품사 별로 작성된 기반데이터를 통해 Tagging과정을 거치게 되며 본 발명에서 처리하는 품사 태깅 과정은 표 2와 같다.

지하국대적퇴치 설화 원문	옛날 아귀 귀신이라는 큰 도적이 있었다. 그는 종종 이 세상에서 나와서 세상을 요란하게 하고 예쁜 여자를 납치해 가기도 하였다.…
특수문자 제거	옛날 아귀 귀신이라는 큰 도적이 있었다. 그는 종종 이 세상에서 나와서 세상을 요란하게 하고 예쁜 여자를 납치해 가기도 하였다.…
POS Tagging	옛날/ncn 아귀/ncn 귀신/ncn+이/jp+라/ef+는/etm 크/paa+ㄴ/etm 도적/ncn+이/jcc 있/px+었/ep+다/ef 그/npp+는/jxc 종종/mag 이/mmd	세상/ncn+에서/jca 나오/pvg+아/ecx 세상/ncn+을/jco 요란/ncps+하/xsms+게/ecs 하/pvg+고/ecc 예쁘/paa+ㄴ/etm 여자/ncn+를/jco 납치/ncpa+하/xsva+어/ecx 가/px+기/etn+도/jxc 하/pvg+었/ep+다/ef

2. 서사정보 추출을 위한 명사 패턴 정의 및 추출

앞서 설명한 POS Tagging까지의 과정이 완료되면, 설화 텍스트 내 명사를 추출하기 위해 명사를 나타내는 품사의 종류를 파악하여 해당 품사만 선별해 내는 과정을 거친다. 현재 한나눔 형태소 분석기에서 정의하고 있는 명사 형태소의 구성은 ncpa(동작성 명사), ncps(상태성 명사), ncn(비서술성 명사), ncr(직위 명사), ncpa(성), nqpb(이름), nqpc(성+이름), nqq(기타 일반), nbu(단위성 의존명사), nbn(비단위성 의존명사)와 같다. 위 명사 형태소 구성에서 동일 패턴을 분석한 결과 다음과 같은 패턴을 갖는 것을 확인할 수 있었다.

○ nc + n, r, pa, ps 일반 명사 및 동작, 상태성 명사
○ nq + pb, pc, q 기타 명사 및 고유명사의 성 또는 이름
○ nb + n, u 단위성, 비단위성 의존명사

따라서 표 3에서 정의한 3가지 패턴을 기반으로 명사만을 추출하며, 이 과정을 통해 추출한 명사는 총 382개이며, 그 결과는 아래의 표 4 와 같다.

옛날, 아귀, 귀신, 도적, 그, 세상, 세상, 요란, 여자, 납치, 때, 아귀, 귀신, 임금님, 세, 공주, 납치, 임금님, 신하, 귀, 계획, 신통, 계책, 말, 사람, 사람, 무신, 나, 자신, 일, 임금님, 저, 집, 대, 국록, 저, 생명, 은혜, 공주, 님, 임금님, 이, 허락, 세, 공주, 중, 막내, 공주, 결혼, 무신, 하인, 아귀, 귀신, 소굴, 출발, 천하, 귀신, 소굴, 곳, 수, 하루, 산모퉁이, 피곤, 몸, 잡시 , 동안, 잠, 꿈, 머리, 노인, 다음, 말, 나, 산, 산신령, 너, 아귀, 귀신, 소굴, 산, 쪽, 중, 산, 이상, 한, 바위

…

-서사정보 추출을 위한 TF 알고리즘 활용 방법-

이하에서는 설화 내 서사정보 목록을 추출하기 위해 도 2 의 서사정보 후보를 추출하는 알고리즘 활용 방법에 대해 기술한다. 서사정보의 후보 명사를 추출하는 방법으로는 TF(Term Frequency)를 활용한다. 이때 추출된 서사정보의 후보에서 해당 명사들 중 한가지만의 품사만을 갖지 않는 명사가 있기 때문에 불용어 명사 목록을 정의하여 입력된 설화 텍스트로부터 서사정보 목록을 추출한다.

1. TF(Term Frequency) 값을 이용한 서사정보 후보 추출

본 발명에서는 자연어 처리 분야에서 많이 사용되는 TF(Term Frequency)값을 활용하여 서사정보 후보를 추출하고자 한다. TF값은 일반적인 문서 내 출현하는 특정단어의 빈도수를 통해 해당 단어의 중요성을 판별하는데 많이 사용되는 기법으로 이를 사용하여 서사정보 데이터를 추출한다. 이러한 서사정보 추출을 위해 TF값을 사용하는 이유는 스토리의 핵심요소인 서사정보를 구성하고 있는 단어는 명사 품사를 가지고 있으며, 스토리의 주체가 되는 인물, 흐름을 나타내는 사건 및 배경은 타 명사보다 그 출현빈도가 크기 때문에 TF값을 활용한다.

TF값 추출은 배열 내 들어있는 단어들끼리 비교하여 기존에 측정했던 단어일 경우에는 다음 단어로 넘어가서 재비교 후 새로운 단어일 경우만 Count값을 늘려주면서 단어에 대한 TF값을 계산하는 방식을 채택한다.

TF값 계산을 통하여 추출해 낸 단어별 TF값은 다음 표 5 와 같으며, 기존 382개의 명사 중 115개의 명사를 서사정보 후보로 추출하였다. 최종적으로 중복 처리된 명사를 바탕으로 재필터링 과정을 거치게 된다. 재필터링 하는 이유는 명사만을 추출하였더라도 해당 명사가 한가지의 품사만을 갖지 않는 단어가 존재하기 때문에 재필터링 과정을 수행하여 설화 내 서사정보를 추출하기 위함이다.

명사	TF값	명사	TF값	명사	TF값	명사	TF값
공주 무신 도적 귀신 말 사람 임금님 공주들	17 15 10 9 9 9 9 8	아귀 그 하인들 산 세상 수 일 저	7 6 6 5 5 5 5 5	술 위 줄 구멍 노인 막내 바위 집	4 4 4 4 4 4 4 4	광주리 그것 나 다음 때 머리 몸 물 …	3 3 3 3 3 3 3 3 …

2. 불용어 명사 목록 정의

앞서 추출된 서사정보의 후보 명사 중에서 한 가지 품사만을 갖지 않는 명사들을 제거하는 과정을 위해 표 6 과 같이 불용어 명사 목록을 정의한다.

번호	불용어 명사
1	가구
2	가닥
3	가락
4	가량
5	가리
6	가마

904	힝

추출된 명사와 함께 정의된 태그를 포함한 불용어 명사를 제거함으로써 원하는 서사정보 추출이 가능하게 된다. 표 7 은 명사에 정의된 불용어의 태그와 단어의 개수를 보여준다. 예를 들어 표 5에서 ‘그것’의 경우 명사 품사 이외에 지시대명사를 나타내는 태그인 'npd'의 품사를 지니므로 표 7의 정의된 태그를 이용하여 불용어 명사를 제거하는 과정이 필요하다.

태그명 (단어개수)	설명	태그명 (단어개수)	설명
xsnu(25)	명사 파생 접미사	xsms(2)	형용사 파생 접미사
xsnca(1)	명사 파생 접미사	xsmn(6)	형용사 파생 접미사
xsncc(26)	명사 파생 접미사	xsam(1)	부사 파생 접미사
xsna(8)	명사 파생 접미사	xsas(1)	부사 파생 접미사
xsns(2)	명사 파생 접미사	ii(208)	감탄사
xsnp(7)	명사 파생 접미사	nbn(70)	비단위성 의존명사
xsnx(14)	명사 파생 접미사	nbu(388)	단위성 의존명사
xsvv(7)	동사 파생 접미사	nbs(10)	비단위성 의존명사
xsva(5)	동사 파생 접미사	npp(78)	인칭대명사
xsvn(1)	동사 파생 접미사	npd(44)	지시대명사

3. 불용어 태그를 이용한 TF별 명사 재추출

이하에서는 표 7에서 정의된 불용어 태그를 바탕으로 TF값을 계산하여 추출된 단어들을 재분류함으로써 서사정보를 구성하는 명사에 대한 목록을 추출한다.

이와 같이 불용어 제거 단계를 통해 최종 추출된 서사정보 명사는 표 8 과 같으며, 추출된 서사정보 명사는 총 41개의 명사를 확인할 수 있고, 단순 출현 명사를 제거하기 위해 TF값이 1이하인 데이터는 삭제하였다.

명사	TF	명사	TF	명사	TF
공주 무신 도적 귀신 임금님 공주들 아귀 하인들 산 세상 구멍 노인 막내 바위	17 15 10 9 9 8 7 6 5 5 4 4 4 4	집 광주리 다음 머리 몸 소굴 수박 칭찬 하인 결혼 귀 나무 나뭇잎 납치	4 3 3 3 3 3 3 3 3 2 2 2 2 2	대감님 동정 땅 마음 목 물동이 비늘 소원 아가씨 옆구리 의심 잠 치맛자락	2 2 2 2 2 2 2 2 2 2 2 2 2

도 3 은 본 발명에 따른 서사정보 추출 시스템의 추출된 서사정보 목록 결과를 나타낸 도면으로, 본 발명에서 제안한 방법을 통해 설화 텍스트 중 하나인 ‘지하국 대적 퇴치’ 설화를 바탕으로 서사정보 자동 추출 시스템의 결과를 보여준다.

좌측의 입력된 설화 텍스트에 대한 내용을 기반으로 설화 내 명사를 추출하는 단계, 서사정보 후보를 추출하는 단계를 통하여 우측의 서사정보 목록을 나타낸다.

표 9 는 본 발명에서 구현한 서사정보 자동 추출 시스템의 처리 과정을 통해 얻은 결과를 나타내며 서사정보인 인물, 사건, 배경의 3요소로 ‘지하국 대적 퇴치’ 설화 데이터를 분류한 결과를 나타낸다.

인물	배경	사건
공주	산	칭찬	애기
무신	세상	결혼	요란
도적	소굴	납치	은혜
귀신	공중	동정	응답
임금님	굴	소원	이야기
공주들	꿈	의심	조사
아귀	꿈속	계책	죽음
하인들	산모퉁이	계획	출발
노인	세계	대답	피곤
막내	옛날	명령	허락
하인	오랜만	방법	혼인
대감님	우물곁	병환	약속
아가씨	천하	아양	야단

-토픽맵 기반 객체 시각화-

이하에서는 설화 텍스트로부터 추출된 서사정보를 중심으로 인물간의 관계 및 사건, 배경에 대한 정보를 토픽맵으로 표현하고자 한다. 이를 위해 영웅 서사구조 기반의 관계 모델을 활용하여 토픽맵으로 구축하였으며, 설화 텍스트 정보를 시각화함으로써 스토리텔링 저작 지원을 위한 효율적인 정보를 제공하고자 그 응용방안을 제시하고자 한다.

1. 서사정보를 이용한 토픽맵 구축

본 발명에서 추출된 서사정보에 대한 시각화를 표현하기 위해 도 4 와 같은 개념 모델링을 도출하였다. 지식층에는 인물, 사건, 배경 토픽 타입이 존재하며, 인물 토픽 타입 중심으로 주인공, 조력자, 적대자 토픽간의 관계가 설정되어 있고, 사건 토픽 타입 중심으로 영웅 서사구조의 사건정보인 출발, 전개, 귀환 토픽간의 관계가 설정되어 있다. 또한, 배경 토픽 타입 중심으로 현실세계, 초현실세계 토픽간의 관계가 설정되어 있으며, 추출된 서사정보 인스턴스는 각 토픽에 따라 연계 타입을 갖고 있다.

이러한 토픽은 각각의 정보층에 있는 이미지 파일, URL, 특정 데이터베이스 내 레코드를 참조하며 토픽 및 인스턴스에 대한 부가적인 정보를 확장할 수 있다. 예를 들어 인물에 대한 구체적인 속성인 이름, 나이, 성별, 인물 이미지 등의 정보를 인물 데이터베이스 및 웹 상에 존재하는 해당 정보를 참조함으로써 구체적인 설화 데이터에 대한 시각화를 표현할 수 있다.

표 10 은 도 4 의 개념 모델링을 토대로 토픽맵 구현을 위한 구성요소를 도출하였다. 토픽 타입으로는 인물을 포함하는 요소로써 주인공, 조력자, 적대자등과 같은 토픽으로 구성요소를 도출하였으며 인물간의 관계에 따라 적대관계, 조력관계 등의 연계타입을 도출하였다. 또한, 정보층으로부터 설화에 대한 줄거리 및 인물 이미지, 배경 이미지 등의 외부 리소스를 어커런스 타입으로 도출하였다.

토픽타입	인스턴스	연계타입	인스턴스
인물	무신	적대관계	주인공 - 적대자
사건	하인	조력관계	주인공 - 조력자
배경	아귀	일상세계	출발 - 일상세계
주인공	산신령	모험에의 소명	출발 모험에의 소명
조력자	문지기	소명의 거부	출발 정신적 스승 만남
적대자	공주	정신적 스승 만남	출발 첫 관문의 통과
출발	산	첫 관문 통과	전개 시험, 협력자, 적대자
전개	산모퉁이	시험, 협력자, 적대자	전개 - 시련
회귀	바위	동굴 깊은 곳으로 진입	전개 - 보상
현실세계	땅 속	시련	회귀 귀환의 길
초현실세계	…	보상	회귀 - 부활
		귀환의 길	회귀 영약을 가지고 귀환
		영약을 가지고 귀환	…

본 발명에서는 설화 텍스트에 대한 시각화를 표현함으로써 실험 결과에 따른 응용방안 제시를 위해 최종적으로 토픽맵 편집기 도구인 온토피아에서 개발한 옴니게이터(Omnigator)도구를 이용하여 토픽, 어소시에이션, 어커런스에 대한 입력 및 편집함으로써 디자인을 구현하였다.

도 5 는 구현된 설화 데이터 기반의 토픽맵을 나타내며 표 10의 설화 데이터 구성요소를 기반으로 구축하였다. 설화 데이터의 토픽 타입인 인물, 사건, 배경과 주인공, 조력자, 적대자, 출발, 전개, 귀환, 현실세계, 초현실세계의 토픽은 계층적 구조를 가지고 있으며, 인물 관계 및 배경 관계, 사건 관계를 통하여 각 요소들 간의 의미적 관계를 형성하고 있다. 또한 인물의 구체적인 속성을 표현하기 위해 각 인물에 따른 내부 및 외부 어커런스 참조를 지정하여 시각화 된 설화 데이터를 표현할 수 있다. 예를 들어 ‘지하국대적퇴치’ 설화에서 아귀라는 인물은 단지 주인공의 적대자로써 스토리의 사건을 전개하지만 단지 표면적인 텍스트상의 정보뿐만 아니라 스토리의 새로운 창작에 대한 발상을 위해 아귀 귀신에 대한 구체적인 설명을 어커런스를 통해 표현할 수 있도록 하며, 이러한 설화 데이터의 시각화를 토픽맵과 접목하여 스토리텔링 저작 지원을 위한 수단으로 표현할 수 있다.

2. 토픽 및 관계 생성

구현된 서사정보 자동 추출 시스템의 서사정보 추출 결과와 표 10 의 시각화 구성요소를 기반으로 스토리텔링 서사구조 모델의 영웅 서사구조 관계모델을 활용하여 실질적인 토픽 간의 관계설정을 기술한다. 인물 데이터는 인물의 유형에 따라 적대관계, 조력관계로 관계성을 구축하였으며, 인물과 사건의 관계는 출발, 전개, 귀환 단계의 하위구조에서 인물이 등장하는 사건과 관계성을 구축하였다. 또한, 인물과 사건이 존재하는 공간적 장소인 배경과 관계성을 구축함으로써 설화 텍스트에 대한 서사정보를 시각화 할 수 있었다. 도 6 내지 도 8 은 영웅 서사구조에서 정의한 관계 모델을 바탕으로 ‘지하국 대적 퇴치’ 설화에서 추출된 데이터를 바탕으로 관계를 생성한 도면이다.

도 6 은 토픽맵을 이용하여 인물 관계를 표현한 도면이다. 인물 토픽 타입에는 인물의 유형에 따라 주인공, 조력자, 적대자 토픽이 존재하며 주인공을 중심으로 인물간의 관계를 적대관계, 조력관계로 설정하였다. 주인공 토픽에는 지하국대적퇴치 설화에서 주인공으로 분류된 무신 인스턴스가 존재하고, 적대자 토픽에는 문지기, 하인, 아귀 인스턴스가 존재한다. 또한, 조력자 토픽에는 산신령, 임금, 공주 인스턴스를 갖는다.

배경 토픽 타입은 도 7 과 같이 현실세계 토픽과 초현실세계 토픽으로 생성하였다. 현실세계 토픽으로는 산, 산모퉁이, 바위 등과 같이 설화 내 등장하는 현실공간에 대한 인스턴스를 갖는다. 초현실세계 토픽으로는 꿈, 아귀소굴, 땅 속등과 같이 설화에서 등장하는 가상적인 공간으로써 주인공이 초현실세계로 여행을 하면서 인물들이 존재하는 공간적인 요소에 대한 인스턴스를 갖는다.

사건 토픽 타입은 크게 출발, 전개, 귀환의 토픽으로 이루어져 있다.(도 8 참조) 이러한 토픽 분류는 본 발명에서 대상으로 삼은 ‘지하국 대적 퇴치’ 설화뿐만 아니라 모든 영웅 서사구조 기반의 설화에 대한 스토리의 구조적 접근이 가능하기 때문이다. 먼저, 출발 토픽은 일상세계, 모험에의 소명, 소명의 거부, 정신적 스승과 만남, 첫 관문 통과의 토픽을 가지고 있으며, 각 단계마다 등장하는 인물과 인물이 존재하는 공간적 요소인 배경 토픽의 인스턴스와 관계가 설정되어 있다.

또한, 전개 토픽 타입은 시련, 동굴 깊은 곳으로 진입, 보상 토픽을 가지고 있으며, 귀환 토픽 타입은 귀환의 길, 부활, 영약을 가지고 귀환의 토픽을 갖으며 인물 및 배경 인스턴스를 모두 포함하고 있다.

또한, 최종적으로 서사정보간의 관계를 생성함으로써 스토리 내 핵심요소인 인물, 사건, 배경간의 유기적인 결합을 위한 연계타입(Association)을 정의하도록 한다.(도 9 참조) 먼저 인물과 사건 토픽 타입의 연계타입을 ‘발생하다’, 사건과 배경의 연계타입은 ‘전개하다’, 인물과 배경의 연계타입을 ‘존재하다’로 관계성을 구축하였다.

이러한 토픽맵 기반의 관계설정을 이용한 시각화는 설화 텍스트로부터 추출된 스토리 내 서사정보 데이터를 가공할 수 있으며, 스토리를 구성하는 각 요소(인물, 사건, 배경)간의 의미적 관계를 생성할 수 있다. 이에 스토리 저작을 위한 작가들에게 보다 효율적인 스토리텔링 저작에 대한 응용방안으로 활용할 수 있음을 나타내고 있다.

전술한 바와 같이 본 발명에 따른 서사정보 추출 시스템은, 스토리제작 초기단계에 많은 인력과 시간이 소모되는 자료의 수집 및 분류를 자동화하고, 분류된 객체에 대한 관계도 형성을 통해 스토리 저작에 있어 시간적, 인적 부담을 줄일 수 있다.

100 : 서사정보 추출 시스템
10 : 수집부
20 : 명사추출부
21 : 특수성지정부분 22 : 특수문자제거부분
24 : POS태깅부분 26 : 명사추출부분
30 : 명사선정부
32 : 후보명사추출부분 34 : 불용어정의부분
36 : 명사선정부분
40 : 관계형성부
42 : 토픽분류부분 44 : 맵핑부분
46 : 확장부분 48 : 관계성구축부분
49 : 시각화부분

Claims

수집부에서 외부 서버로부터 설화 데이터를 수집하는 제1단계;
상기 제1단계로부터 수집된 설화 데이터를 분석 및 필터링하여 명사추출부에서 설화 데이터 내에 포함된 명사를 추출하는 제2단계;
명사 선정부에서 상기 제2단계로부터 추출된 명사 중 유의미한 서사정보 명사를 선정하는 제3단계; 및
관계 형성부에서 상기 제3단계로부터 선정된 각 서사정보 명사들에 대한 관계 정의 및 토픽맵을 도출을 통해 각 서사정보 명사들의 관계를 시각화시키는 제4단계; 를 포함하며,
상기 제4단계는,
토픽분류부분에서 상기 3단계를 통해 선정된 서사정보 명사들을 영웅 서사구조 기반의 관계 모델링을 통해 토픽 타입을 분류 및 정의하는 제4-1단계;
맵핑부분에서 상기 분류 및 정의된 토픽 타입에 대하여 서사정보 명사를 맵핑하는 제4-2단계;
확장부분에서 상기 맵핑된 서사정보 명사에 대해 내부DB 또는 외부DB를 참조하여 개별 토픽에 대한 개념을 확장하는 제4-3단계;
관계성 구축부분에서 상기 확장된 개념을 가지는 개별 토픽 간의 관계성을 구축하는 제4-4단계; 및
시각화부분에서 상기 관계성이 구축된 토픽을 토픽 타입에 따라 토픽맵 형태로 시각화시키는 제4-5단계; 를 포함하는 것을 특징으로 하는
설화 데이터 내 서사정보 추출 방법.
제1항에 있어서,
상기 제2단계는,
특수문자 제거부분에서 상기 수집된 설화 데이터에 포함된 특수문자를 제거하는 제2-1단계;
POS 태깅부분에서 상기 특수문자가 제거된 설화 데이터를 POS(Part-Of-Speech) 태깅을 통해 품사별로 분류하는 제2-2단계; 및
명사추출부분에서 상기 품사별로 분류된 설화 데이터 중 미리 정의된 패턴을 가지는 명사를 추출하는 제2-3단계; 를 포함하는 것을 특징으로 하는
설화 데이터 내 서사정보 추출 방법.
제2항에 있어서,
상기 제2-1단계는 특수성 지정부분에서 특수문자 중 대괄호, 중괄호, 소괄호, 큰따옴표, 작은따옴표에 대해 식별기호를 부가하여 해당 특수문자에 대한 특수성을 지정하는 단계 및 문장 구분을 위하여 마침표를 제거하지 않는 단계를 더 포함하는 것을 특징으로 하는
설화 데이터 내 서사정보 추출 방법.
제1항에 있어서,
상기 제3단계는,
후보명사 추출부분에서 상기 제2단계를 통해 추출된 명사의 출현 빈도수를 측정하여 서사정보 후보 명사를 추출하는 제3-1단계;
불용어 정의부분에서, 상기 제3-1단계에서 추출된 서사정보 후보 명사 중 둘 이상의 품사를 가지는 서사정보 후보 명사들의 불용어 명사 목록을 정의하는 제3-2단계; 및
명사선정부분에서, 상기 제3-2단계에서 적용된 불용어 명사 목록을 바탕으로 상기 제3-1단계에서 추출된 서사정보 후보 명사를 필터링하여 서사정보 명사를 선정하는 제3-3단계; 를 포함하는 것을 특징으로 하는
설화 데이터 내 서사정보 추출 방법.
제4항에 있어서,
상기 제3-3단계는 선정된 서사정보 명사 중 출현 빈도수가 1 이하인 서사정보 명사를 제거하는 단계를 더 포함하는 것을 특징으로 하는
설화 데이터 내 서사정보 추출 방법.
삭제
제1항에 있어서,
상기 제4-4단계는 개별 토픽 간에 대한 인물관계, 사건관계, 배경관계를 구축하고 상기 인물관계, 사건관계, 배경관계가 결합된 연계관계를 구축하는 단계인 것을 특징으로 하는
설화 데이터 내 서사정보 추출 방법.
외부 서버로부터 설화 데이터를 수집하는 수집부;
상기 수집부로부터 수집된 설화 데이터를 분석 및 필터링하여 설화 데이터 내에 포함된 명사를 추출하는 명사추출부;
상기 명사추출부로부터 추출된 명사 중 유의미한 서사정보 명사를 선정하는 명사선정부; 및
상기 명사선정부로부터 선정된 각 서사정보 명사들에 대한 관계 정의 및 토픽맵을 도출을 통해 각 서사정보 명사들의 관계를 시각화시키는 관계형성부; 를 포함하며,
상기 관계형성부는,
상기 명사선정부를 통해 선정된 서사정보 명사들을 영웅 서사구조 기반의 관계 모델링을 통해 토픽 타입을 분류 및 정의하는 토픽분류부분;
상기 분류 및 정의된 토픽 타입에 대하여 서사정보 명사를 맵핑하는 맵핑부분;
상기 맵핑된 서사정보 명사에 대해 내부DB 또는 외부DB를 참조하여 개별 토픽에 대한 개념을 확장하는 확장부분;
상기 확장된 개념을 가지는 개별 토픽 간의 관계성을 구축하는 관계성구축부분; 및
상기 관계성이 구축된 토픽을 토픽 타입에 따라 토픽맵 형태로 시각화시키는 시각화부분; 을 포함하는 것을 특징으로 하는
설화 데이터 내 서사정보 추출 시스템.
제8항에 있어서,
상기 명사추출부는,
상기 수집된 설화 데이터에 포함된 특수문자를 제거하는 특수문자제거부분;
상기 특수문자가 제거된 설화 데이터를 POS(Part-Of-Speech) 태깅을 통해 품사별로 분류하는 POS태깅부분; 및
상기 품사별로 분류된 설화 데이터 중 미리 정의된 패턴을 가지는 명사를 추출하는 명사추출부분; 을 포함하는 것을 특징으로 하는
설화 데이터 내 서사정보 추출 시스템.
제9항에 있어서,
상기 특수문자제거부분은 특수문자 중 대괄호, 중괄호, 소괄호, 큰따옴표, 작은따옴표에 대해 식별기호를 부가하여 해당 특수문자에 대한 특수성을 지정하는 특수성지정부분을 더 포함하는 것을 특징으로 하는
설화 데이터 내 서사정보 추출 시스템.
제8항에 있어서,
상기 명사선정부는,
상기 명사추출부로부터 추출된 명사의 출현 빈도수를 측정하여 서사정보 후보 명사를 추출하는 후보명사추출부분;
상기 서사정보 후보 명사 중 둘 이상의 품사를 가지는 서사정보 후보 명사들의 불용어 명사 목록을 정의하는 불용어정의부분;
상기 불용어 명사 목록을 바탕으로 상기 후보명사추출부분으로부터 추출된 서사정보 후보 명사를 필터링하여 서사정보 명사를 선정하는 명사선정부분; 을 포함하는 것을 특징으로 하는
설화 데이터 내 서사정보 추출 시스템.
제11항에 있어서,
상기 명사선정부분은 선정된 서사정보 명사 중 출현 빈도수가 1 이하인 서사정보 명사를 제거하는 것을 특징으로 하는
설화 데이터 내 서사정보 추출 시스템.
삭제
제8항에 있어서,
상기 관계성구축부분은 개별 토픽 간에 대한 인물관계, 사건관계, 배경관계를 구축하고 상기 인물관계, 사건관계, 배경관계가 결합된 연계관계를 구축하는 것을 특징으로 하는
설화 데이터 내 서사정보 추출 시스템.