KR101265467B1

KR101265467B1 - 블로그 문서에서의 경험 문장 추출 방법 및 동사 분류 방법

Info

Publication number: KR101265467B1
Application number: KR1020100130178A
Authority: KR
Inventors: 맹성현; 박근찬; 정윤재
Original assignee: 한국과학기술원
Priority date: 2010-12-17
Filing date: 2010-12-17
Publication date: 2013-05-16
Also published as: KR20120068519A

Abstract

본 발명은 블로그 문서에 기록된 문장에서 사용자의 경험을 나타내는 문장을 추출하는 방법과, 활동동사와 상태동사를 분류하는 방법에 관한 것으로서, 본 발명의 블로그 문서에서의 경험 문장 추출 방법은 문법적 자질들을 기반으로 하는 기계학습 방법 알고리즘을 이용하여 문장 분류기를 생성하는 단계 및 상기 문장 분류기를 이용하여 블로그 문서 내에서 사용자의 실제 경험을 나타내는 문장인 경험문장과, 경험을 나타내지 않는 문장인 비경험 문장을 분류하는 단계를 포함한다. 본 발명에 의하면, 블로그 문서 내 문장들을 경험 문장과 비 경험 문장으로 분류함으로써, 문서 내 실제 사용자가 행하거나 사용자에게 일어난 경험들을 추출할 수 있는 효과가 있다.

Description

블로그 문서에서의 경험 문장 추출 방법 및 동사 분류 방법 {Method for extracting experience and classifying verb in blog}

본 발명은 블로그 문서에 기록된 문장에서 사용자의 경험을 나타내는 문장을 추출하는 방법과, 활동동사와 상태동사를 분류하는 방법에 관한 것으로서, 더욱 상세하게는 시제, 서법, 상, 법성, 경험자, 동사 클래스 등의 문법적 자질들을 이용하여 블로그 텍스트의 문자들을 경험 문장과 비경험 문장으로 분류하는 방법에 관한 것이다.

웹 문서는 사실, 의견, 경험 등 다양한 정보를 담고 있다. 특히, 경험은 의사 결정을 할 때나 문제 해결을 할 때 중요하게 작용한다. 웹 문서의 한 종류인 블로그는 뉴스 기사, 홈페이지 등의 다른 웹 문서와 달리 풍부한 사용자 경험을 담고 있는 특징을 가진다.

정보 추출 (information extraction) 분야에서 블로그로부터 사용자 경험을 마이닝하는 방법론들이 존재한다. 이 방법론들은 자연어 처리 기술 및 기계학습 기술을 이용하여 블로그 문서로부터 “누가, 어디서, 언제, 무엇을, 왜” 등의 속성 (attribute)을 추출하여 경험을 구조화하여 저장하는 것을 목적으로 한다.

하지만, 종래 정보 추출 방법론을 이용하면 다음과 같은 문제점이 발생한다. 가령, “Probably, she will laugh and dance in his funeral”와 같은 문장이 블로그 문서에 있다면 “She, Funeral, Laugh and dance” 라는 구조화된 경험이 추출된다. 예시 문장에서 보다시피 실제로 일어난 경험이 아님에도 불구하고 경험으로 추출되는 문제를 가진다. 이는 블로그 문서에 존재하는 모든 텍스트를 경험이라고 가정하기 때문이다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 블로그 문서내 실제 일어난 경험을 표현한 문장과 그렇지 않은 문장 (비경험 문장)을 다양한 문법적 자질들을 이용해 자동 분류하여 실제 사용자가 행하거나 일어난 경험을 추출하는 방법을 제공하는 것을 그 목적으로 한다.

또한, 본 발명에서는 경험 추출에 있어 중요한 역할을 하는 활동(activity) 동사를 벤들러(Vendler)의 동사 이론에 기반하여 다양한 통계적 자질들을 이용해 자동으로 분류하는 방법을 제공하는 것을 그 다른 목적으로 한다.

이와 같은 목적을 달성하기 위한 본 발명의 블로그 문서에서의 경험 문장 추출 방법은 문법적 자질들을 기반으로 하는 기계학습 방법 알고리즘을 이용하여 문장 분류기를 생성하는 단계 및 상기 문장 분류기를 이용하여 블로그 문서 내에서 사용자의 실제 경험을 나타내는 문장인 경험문장과, 경험을 나타내지 않는 문장인 비경험 문장을 분류하는 단계를 포함한다.

상기 문장 분류기를 생성하는 단계는, 주어진 학습 데이터로부터 문법적 자질들을 추출하는 단계 및 추출된 문법적 자질들을 기반으로 하는 기계학습 방법 알고리즘을 이용하여 문장을 분류하기 위한 문장 분류기를 생성하는 단계를 포함할 수 있다.

상기 기계학습 방법 알고리즘은 SVM(Support Vector Machine) 알고리즘인 것이 바람직하다.

상기 학습 데이터로부터 문법적 자질들을 추출하는 단계는, 상기 학습 데이터에 포함된 문장으로부터 시제(時制, tense)를 추출하는 단계와, 상기 문장으로부터 서법(敍法, mood)을 추출하는 단계와, 상기 문장으로부터 상(相, aspect)을 추출하는 단계와, 상기 문장으로부터 법성(法性, modality)을 추출하는 단계와, 상기 문장으로부터 경험자(experiencer)를 추출하는 단계와, 상기 문장으로부터 동사 클래스를 추출하는 단계를 포함하여 이루어질 수 있다.

상기 시제를 추출하는 단계는 품사(part of speech) 태깅을 이용하여 시제를 추출하는 것일 수 있다.

상기 서법을 추출하는 단계는 문장부호와 문장 내 품사 순서를 이용하여 서법을 추출하는 것일 수 있다.

상기 상을 추출하는 단계는 품사 태깅을 이용하여 상을 추출하는 것일 수 있다.

상기 법성을 추출하는 단계는 품사 태깅과 법성 동사 사전을 이용하여 법성을 추출하는 것일 수 있다.

상기 경험자를 추출하는 단계는 파싱(parsing)과 개체명 인식기(named entity recognizer)를 이용하여 경험자를 추출하는 것일 수 있다.

상기 동사 클래스를 추출하는 단계는 활동(activity) 동사 사전을 이용하여 동사 클래스를 추출하는 것일 수 있다.

상기 문장 분류기를 이용하여 블로그 문서 내에서 사용자의 실제 경험을 나타내는 문장인 경험문장과, 경험을 나타내지 않는 문장인 비경험 문장을 분류하는 단계는, 상기 블로그 문서의 텍스트를 전처리하는 단계와, 상기 전처리된 블로그 문서에서 문법적 자질들을 추출하는 단계와, 상기 추출된 문법적 자질들을 기반으로 상기 문장 분류기를 이용하여 상기 경험문장과 비경험 문장으로 분류하는 단계를 포함하여 이루어질 수 있다.

상기 블로그 문서의 텍스트를 전처리하는 단계는, 상기 블로그 문서에 대하여 HTML 파싱 및 문장 토큰화 과정을 거치는 것일 수 있다.

상기 전처리된 블로그 문서에서 문법적 자질들을 추출하는 단계는, 문법적 자질을 추출하고자 하는 문장에 대해 품사를 태깅하는 단계와, 상기 문법적 자질을 추출하고자 하는 문장에 대해 파싱하는 단계와, 상기 문법적 자질을 추출하고자 하는 문장에 대해 개체명을 인식하는 단계와, 문법적 자질을 추출하기 위한 사전을 로드하는 단계와, 상기 사전을 이용하여 문장에서 시제, 상, 서법, 법성, 경험자, 동사 클래스 자질을 추출하는 단계를 포함하여 이루어질 수 있다.

본 발명에서 블로그 문서에서의 동사 분류 방법은 통계적 자질들을 기반으로 하는 기계학습 방법 알고리즘을 이용하여 동사 분류기를 생성하는 단계 및 상기 동사 분류기를 이용하여 블로그 문서 내에서 사람의 행위, 활동을 나타내는 활동(activity) 동사와, 사람의 감정, 인지를 나타내는 상태(state) 동사를 분류하는 단계를 포함한다.

상기 동사 분류기를 생성하는 단계는, 활동 동사와 상태 동사를 포함하는 학습동사 셋(set)으로부터 통계적 자질들을 추출하는 단계 및 추출된 통계적 자질들을 기반으로 하는 기계학습 방법 알고리즘을 이용하여 동사를 분류하기 위한 동사 분류기를 생성하는 단계를 포함할 수 있다.

상기 통계적 자질들을 추출하는 단계는, 주어진 동사에 대하여 검색엔진에 적합한 쿼리를 생성하는 단계와, 상기 쿼리에 대한 통계적 수치를 검색엔진으로부터 추출하는 단계를 포함할 수 있다.

상기 쿼리를 생성하는 단계는, 벤들러(Vendler) 동사이론 테스트 패턴을 이용하여 쿼리를 생성하는 것일 수 있다.

상기 쿼리에 대한 통계적 수치를 검색엔진으로부터 추출하는 단계는, 검색엔진 API와 정규식을 이용하여 통계적 수치를 추출하는 것일 수 있다.

본 발명에 의하면, 블로그 문서 내 문장들을 경험 문장과 비 경험 문장으로 분류함으로써, 문서 내 실제 사용자가 행하거나 사용자에게 일어난 경험들을 추출할 수 있는 효과가 있다.

또한, 본 발명에서는, 블로그 문서 내 문장에 사용된 동사를 활동 동사와 상태동사로 분류함으로써, 블로그 사용자가 직접 행한 동작을 구분하여 보다 정확한 정보를 수집할 수 있는 효과가 있다.

예를 들어, 본 발명의 방법을 이용하면, 여행과 관련된 블로그의 경우, 기존 상업적인 정보가 아닌 실제 사용자들의 특정 장소에서의 경험을 추출할 수 있으며, 제품과 관련된 블로그의 경우, 실제 제품을 사용해본 사용자들의 경험을 추출할 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 경험 문장 분류기 생성을 나타낸 개념도.
도 2는 본 발명의 일 실시예에 따른 경험 문장 분류 과정을 나타낸 개념도.
도 3은 본 발명의 일 실시예에 따른 경험 문장 분류를 위한 문법적 자질 추출 과정을 도시한 흐름도.
도 4는 본 발명의 일 실시예에 따른 활동 동사 분류기 생성을 나타낸 개념도.
도 5는 본 발명의 일 실시예에 따른 활동 동사 분류 과정을 나타낸 개념도.
도 6은 본 발명의 일 실시예에 따른 활동 동사 분류를 위한 통계적 자질 추출 과정을 도시한 흐름도.

이하, 첨부된 도면을 참조해서 본 발명의 실시예를 상세히 설명하면 다음과 같다. 우선 각 도면의 구성 요소들에 참조 부호를 부가함에 있어서, 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 그리고, 본 발명을 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

본 발명은 블로그 문서 내 텍스트에서 사용자의 경험을 추출하는 방법에 관한 것으로서, 다양한 문법적 자질들을 이용하여 블로그 내 문장을 경험 문장과 비 경험 문장으로 분류한다. 즉 종래의 경험 추출 방법과 달리 실제 사용자가 행하거나 일어난 경험을 추출한다. 아래의 문장들은 종래의 기술에 의하면 경험으로 추출되지만 본 발명에 의하면 경험으로 추출 되지 않는 예이다. 보는 바와 같이 아래의 문장들은 실제 일어난 경험이 아닌 가설, 의문, 명령 등이다.

(1) If Jason arrives on time, I’ll buy him a drink.

(2) Probably, she will laugh and dance in his funeral.

(3) Can anyone explain what is going on here?

(4) Don’t play soccer on the roads!

본 발명에서 정의하는 경험이란 사용자가 실제로 수행한 활동 혹은 사용자에게 일어난 사건을 의미한다. 본 발명에서 정의하는 대표적인 경험 문장은 아래의 예와 같다.

(1) I ran with my wife 3 times a week until wemoved to Washington, D.C.

(2) Jane and I hopped on a bus into the city center.

(3) We went to a restaurant near the central park.

도 1은 본 발명의 일 실시예에 따른 경험 문장 분류기 생성을 나타낸 개념도이다.

도 1을 참조하면, 본 발명에 의한 문장 분류기 생성은, 학습데이터(101), 문법적 자질 추출부(102), SVM 학습부(103), 문장 분류기(104)를 포함하여 구성된다.

학습데이터(101)는 경험 문장과 비경험 문장으로 이루어진다. 실제 블로그 문서 데이터에서 대량의 문장들을 샘플링하여 다수의 평가자로부터 각 문장에 대해 실제 경험을 나타낸 문장인지 아닌지에 대해 태깅을 한다. 각 문장에 대해 과반수 이상의 평가자가 태깅한 결과를 학습데이터로 사용한다.

문법적 자질 추출부(102)는 주어진 문장으로부터 문장 분류에 필요한 문법적 자질들을 추출한다. 본 발명에서 고려하는 문법적 자질은 시제 (時制, tense), 서법 (敍法, mood), 상 (相, aspect), 법성 (法性, modality), 경험자 (experiencer), 동사 클래스의 여섯 가지 자질이다.

SVM 학습부(103)는 문법적 자질 추출부(102)에서 학습데이터로(101)부터 추출된 자질들을 SVM(Support Vector Machine) 알고리즘을 이용하여 문장 분류기(104)를 생성한다. 본 발명에서 기계학습 방법을 차용한 것은 규칙 기반의 방법론이 블로그 문서 내 문장의 다양성을 전부 망라할 수 없기 때문이다. 반면, 기계학습 방법론은 처음 본 문장에 대해서도 어느 정도 예측가능하다.

문장 분류기(104)는 학습데이터(101)을 통해 학습된 분류기로 주어진 문장에 대해 해당 문장이 경험을 나타내는 문장인지 아닌지를 판별한다.

도 2는 본 발명에 따른 경험 문장 분류 과정을 나타낸 개념도이다. 이에 나타낸 바와 같이 본 발명에 따른 경험 문장 분류 과정은 블로그 문서 데이터(201), 문서 가공부(202), 문법적 자질 추출부(102), 문장 분류기(104), 경험 문장(203), 비경험 문장(204)를 포함한다.

블로그 문서 데이터(201)는 실제 웹에서 수집한 대량의 블로그 문서이다.

문서 가공부(202)는 블로그 문서의 텍스트를 전처리(preprocess)한다. 블로그 문서는 HTML 형태의 문서로 본 발명에서 분류하고자 하는 블로그 문서 내 텍스트를 추출하기 위해서 HTML 파싱과 문장 토큰화 과정을 거친다. HTML 파싱과 문장 토큰화를 위해 당해 분야에 널리 이용되는 다양한 라이브러리를 사용할 수 있다.

경험 문장(203)과 비경험 문장(204)은 블로그 문서 데이터가 문서 가공부(202)에서 전처리 되고, 문법적 자질 추출부(102)에서 추출된 문법적 자질들이 기 생성한 문장 분류기(104)에 의해 분류된 결과이다.

본 발명에 따른 문법적 자질 추출부(102)의 자질 추출 방법에 대해 도 3을 참고하여 설명하면 다음과 같다.

도 3은 본 발명의 일 실시예에 따른 경험 문장 분류를 위한 문법적 자질 추출 과정을 도시한 흐름도이다.

도 3을 참조하면, 먼저, 문법적 자질을 추출하고자 하는 문장에 대해 품사를 태깅한다(S301). S301 단계에서 품사 태깅은 해당 분야에 널리 이용되는 다양한 라이브러리를 사용할 수 있다. 태깅된 품사 정보는 여섯 가지 문법적 자질 추출을 위한 기본 정보를 제공한다.

다음, 문법적 자질을 추출하고자 하는 문장에 대해 파싱을 한다(S302). S302 단계에서 파싱은 해당 분야에 널리 이용되는 다양한 라이브러리를 사용할 수 있다. 파싱에 의해 추출된 문장 구조, 문장 내 의존성 정보는 경험자, 동사 클래스 자질 추출을 위한 정보를 제공한다.

다음, 문법적 자질을 추출하고자 하는 문장에 대해 개체명 인식을 한다(S303). S303 단계에서 개체명 인식은 해당 분야에 널리 이용되는 다양한 라이브러리를 사용할 수 있다. 일반적으로 개체명 인식은 지명, 사람 이름, 회사 및 제품 이름을 인식하는 것을 말한다. 추출된 개체명은 경험자 자질 추출을 위한 정보로 제공된다.

다음, 문법적 자질 추출을 위한 사전을 로드한다(S304). 본 발명의 일 실시예에서 법성을 나타내는 표현을 수집한 사전과 활동 동사를 수집한 사전을 로드할 수 있다. 활동 동사 사전의 생성 및 수집 방법에 대한 설명은 후술하기로 한다.

본 발명에서 정의하는 경험이란 실제 사용자가 수행하거나 일어난 경험이기에 사용자의 활동과 관련한 표현이 필요하다(예를 들어, Run, swim, walk 등). 반대로 상태와 관련한 표현은 경험으로 고려하지 않는다(예를 들어, “I love this place”, “I know him” 등).

활동 동사 사전은 동사 클래스 자질 추출을 위한 정보를 제공한다. 법성 동사 사전은 법성을 나타내는 표현을 수집한 사전이다. 법성 사전은 가능성, 허락, 의도 등 본 동사의 성질을 바꾸는 법조 동사(예를 들어, Can, will, must, may)와 그에 준하는 표현들(예를 들어, Have to, need to)을 수집한 사전이다. 본 발명에서 법성 사전은 법성 자질 추출을 위한 정보를 제공하는 역할을 한다.

다음, 시제 및 상 자질을 추출한다(S305). 시제 및 상은 경험 문장 분류의 중요한 자질이다. 가령, “I will run tomorrow”과 “I am going to run tomorrow”와 같은 예의 경우, 미래 시제와 진행형 상에 의해 해당 문장은 비 경험이 된다. 문장 내 동사의 시제와 상은 상기 태깅된 품사 정보를 이용해 추출한다.

다음, 서법 자질을 추출한다(S306). 서법은 경험 문장 분류의 중요한 자질이다. 가령, “Go to school!”과 “Did she come to school?”와 같은 예의 경우, 서법이 명령문이고 의문문이기 때문에 비 경험 문장이 된다. 서법은 문장 내 시작하는 품사가 무엇인지 그리고 문장 종결 부호가 명령문인지 의문문인지 평서문인지를 고려하여 규칙기반으로 추정한다.

다음, 법성 자질을 추출한다(S307). 법성은 경험 문장 분류의 중요한 자질이다. 가령, “She might be there”와 같은 예의 경우, 법조 동사 will에 의해 문장의 법성이 변화하였기 때문에 비 경험 문장이 된다. 법성은 문장 내 법성 사전에 기록된 표현이 존재하는지를 검색(Look up)하여 추정한다.

다음, 경험자 자질을 추출한다(S308). 경험자 또한 경험 문장 분류의 중요 자질이다. 가령, “Golden leaves were swept out of the streets”와 같은 예의 경우, 문장의 주체 즉 경험자가 없기 때문에 비 경험 문장이 된다. 경험자는 파싱에 의해 제공되는 문장의 주체 정보, 품사 정보, 그리고 개체명 인식에 의해 제공되는 사람 이름을 고려하여 규칙기반으로 추정한다.

마지막으로, 동사 클래스 자질을 추출한다(S309). 동사 클래스 또한 경험 문장 분류의 중요 자질이다. 동사 클래스는 활동 동사와 상태 동사의 두 클래스를 의미한다. 가령, “I know that theory”와 같은 예의 경우, “know”라는 상태 동사 때문에 해당 문장은 비 경험 문장이 된다. 어떤 이론을 안다는 것은 실제 사용자가 행하거나 일어난 활동이 아니기 때문이다. 동사 클래스는 문장 내 동사가 본 발명에서 구축한 활동 동사 사전에 표현이 존재하는지를 검색(Look up)하여 추정한다.

이제 본 발명의 다른 실시예인 블로그 문서에서의 동사 분류 방법을 도 4 내지 도 6을 참조하여 설명하기로 한다.

도 4는 본 발명의 일 실시예에 따른 활동 동사 분류기 생성을 나타낸 개념도이다.

도 4를 참조하면, 본 발명에 의한 동사 분류기 생성은, 학습동사 셋(401), 통계적 자질 추출부(402), SVM 학습부(103), 동사 분류기(403)를 포함하여 구성된다.

학습동사 셋(Set)(401)은 소수의 활동 동사와 상태 동사로 이루어진다. 활동 동사와 상태 동사는 벤들러(Vendler)의 저서에 수록된 대표적인 활동 동사 및 상태 동사의 예이며, 아래 표 1에 그 예시를 제안하였다. 아래 표 1에서 보다시피 활동 동사는 사람의 행위, 활동을 나타내며, 상태 동사는 감정, 인지 상태를 나타낸다.

활동 동사	상태 동사
Run, Swim, Walk, Paint (picture), Build (house)	Like, Know, Believe, Recognize, Realize

벤들러(Vendler)는 활동 동사와 상태 동사를 쉽게 분류하기 위한 방법으로 몇 가지 테스트를 소개하였다. 테스트들은 모든 활동 동사 및 상태 동사에 적용되지 않지만 대체로 적용 가능하다. 본 발명에서 사용한 테스트는 다음과 같다.

(1)Progressive: 상태 동사는 진행형으로 쓰일 경우 어색하다.

A. John is running. (○)

B. John is liking. (X)

(2) Force: 상태 동사는 동사 “force”의 보어로 쓰일 경우 어색하다.

A. John forced harry to run. (○)

B. John forced harry to know. (X)

(3) Stop: 상태 동사는 동사 “stop”의 보어로 쓰일 경우 어색하다.

A. John stopped running. (○)

B. John stopped knowing. (X)

(4) For: 상태 동사는 시간 절 “for”와 같이 쓰일 경우 어색하다.

A. John ran for an hour. (○)

B. John realized for an hour. (X)

(5) Carefully: 상태 동사는 부사 “carefully”와 같이 쓰일 경우 어색하다.

A. John runs carefully. (○)

B. John knows carefully. (X)

통계적 자질 추출부(402)는 주어진 동사로부터 상기 소개한 동사 분류 테스트들을 이용하여 동사 분류에 필요한 통계적 자질들을 검색 엔진을 통해 추출한다. 상기 소개한 테스트들은 언어학적 관점의 테스트로써, 사람이 읽었을 때 어색함을 알 수 있는 것이다. 본 발명에서는 다음과 같은 가정을 바탕으로 검색엔진을 이용하여 테스트들을 통계화한다. 사람이 읽었을 때 어색한 표현을 검색엔진에 질의하였을 때 검색 결과가 적을 것이다. 통계적 자질 추출 방법에 대한 상세한 설명은 후술하기로 한다.

SVM 학습부(103)는 통계적 자질 추출부(402)에서 학습동사 셋(401)로부터 추출된 자질들을 SVM(Support Vector Machine)알고리즘을 이용하여 동사 분류기(403)를 생성한다. 본 발명에서 SVM 알고리즘을 차용한 수치적 자질 기반의 분류 작업은 뛰어난 성능을 보인다.

동사 분류기(403)는 학습동사셋(401)을 통해 학습된 분류기로 주어진 동사에 대해 해당 동사가 활동 동사인지 상태 동사인지를 판별한다.

도 5는 본 발명의 일 실시예에 따른 활동 동사 분류 과정을 나타낸 개념도이다.

도 5에 도시된 바와 같이, 본 발명에 따른 활동 동사 분류 과정은 미분류 동사(501), 통계적 자질 추출부(402), 동사 분류기(403), 활동 동사(502), 상태 동사(503)를 포함한다.

미 분류 동사(501)는 활동 동사와 상태 동사로 분류되지 않은 동사 및 동사구이다. 예를 들어, 동사 및 동사구는 해당 분야의 저명한 전자 사전인 워드넷(WordNet)으로부터 모든 동사와 동사구를 수집할 수 있다.

활동 동사(502)와 상태 동사(503)는 미 분류 동사(501)가 통계적 자질 추출부(402)에서 추출된 통계적 자질들이 기 구축한 동사 분류기(403)에 의해 분류된 결과이다.

본 발명에 따른 통계적 자질 추출부(402)의 자질 추출 방법에 대해 도 6을 참고하여 설명하면 다음과 같다.

도 6은 본 발명의 일 실시예에 따른 활동 동사 분류를 위한 통계적 자질 추출 과정을 도시한 흐름도이다.

도 6을 참조하면, 먼저 통계적 자질을 추출하고자 하는 동사에 대해 5가지 쿼리를 생성한다(S601). 주어진 동사를 θ 라고 했을 때, 쿼리는 상기 소개한 벤들러(vendler)의 동사 분류 테스트를 이용하여 아래의 표 2와 같이 자동 생성한다.

테스트	쿼리
Progressive	“(be OR am OR is OR are OR was OR were OR been) θ의 진행형”
Force	“(force OR forces OR forcing OR forced) to θ”
Persuade	“(persuade OR persuades OR persuading OR persuaded) to θ”
Stop	“(stop OR stops OR stopped) θ의 진행형”
For	“θ for an hour” OR “θ for a minute” OR “θ for a day”
Carefully	“θ carefully”

다음, 각 미 분류 동사(501)에 대해 상기 표 2의 다섯 가지 쿼리를 생성하여 질의하고 검색결과를 반환한다(S602). 본 발명의 일 실시예에서 수천 개의 동사를 자동으로 질의, 반환하기 위해 검색엔진의 API를 쓰거나 해당 분야에 널리 이용되는 크롤링(crawling) 방법을 사용할 수 있다.

다음, 반환된 결과가 HTML 형태의 웹 페이지이므로 전처리 과정으로 HTML 파싱을 수행한다(S603).

다음, 동사 분류에 필요한 통계적 자질을 추출하기 위해 반환 결과에 대해 문장 토큰화(S604), 품사 태깅(S605), 파싱(S606)을 하여 기본적인 통계 정보를 얻을 수 있도록 전처리한다.

다음, 검색 결과에서 세 가지 기본 수치를 추출한다(S607). 본 발명의 일 실시예에서 세 가지 기본 수치는 hit count, candidate sentence count, correct sentence count일 수 있다.

Hit count는 해당 쿼리에 대한 결과 페이지수를 의미한다. Hit count는 검색 결과 페이지에서 정규식을 이용하여 실제 값만을 추출한다.

Candidate sentence count는 검색 결과 내 문장 중 분류하고자 하는 동사를 포함한 문장의 개수를 의미하며 간단히 문장 안에 해당 동사가 있는지 없는지를 세어서 계산한다.

Correct sentence count는 분류하고자 하는 동사를 포함한 문장(candidate sentence) 중에서 실제로 의도한 테스트를 만족하는 문장의 개수를 의미한다. 가령, “Is building an artifact?”와 같은 예의 경우, “Is building” 부분이 표면상으론 Progressive 테스트를 만족하는 것 같지만 해당 문장에서 building은 동사가 아닌 명사 “building”으로 쓰였기에 의도한 테스트를 만족하지 않는 경우이다. Correct sentence count는 파싱정보와 품사정보를 이용하여 규칙 기반으로 계산한다.

다음, 상기 검색 결과 수치를 이용하여 통계적 수치를 계산한다(S608). Hit count를

, candidate sentence count를

, correct sentence count를

라고 할 때 (여기서, i는 테스트의 종류, θ는 동사를 의미한다), 다음의 세 가지 통계적 수치를 아래의 수학식 1, 수학식 2, 수학식 3을 이용해 계산한다(S608).

[수학식 1]

Absolute hit ratio:

[수학식 2]

Relative hit ratio:

[수학식 3]

Valid ratio:

여기서, *은 와일드 카드이며 모든 단어를 의미하고 φ 은 아무 테스트도 하지 않음을 의미한다.

와일드 카드를 질의하게 되면 검색 엔진은 자동으로 와일드 카드 자리에 모든 단어를 매칭한다. 즉, H_φ(θ) 의 경우 동사 θ 를 테스트 쿼리를 생성하지 않고 동사자체를 검색 엔진에 질의했을 때 hit count을 의미하며, H_i(*) 의 경우, i번째 테스트에 대해 모든 단어가 매칭된 hit count를 의미한다.

Absolute hit ratio는 동사간 통계 수치의 절대적인 비교를 위해 계산한다. Relative hit ratio는 한 동사 내 해당 테스트의 가중치를 상대 비교해 보기 위해 계산한다. Valid hit ratio는 실제로 동사 분류 테스트를 만족하는 문장의 비율을 계산한다. 각 동사에 대하여 5가지 테스트에 대해 각각 3가지 통계적 수치를 계산한다. 계산된 통계적 수치를 이용해 동사 분류기 학습 및 동사 분류에 이용한다.

이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.

101 학습 데이터 102 문법적 자질 추출부
103 SVM 학습부 104 문장 분류기
201 블로그 문서 데이터 202 문서 가공부
203 경험 문장 204 비경험 문장
401 학습동사 셋 402 통계적 자질 추출부
403 동사분류기 502 활동 동사
503 상태 동사

Claims

문법적 자질들을 기반으로 하는 기계학습 방법 알고리즘을 이용하여 문장 분류기를 생성하는 단계; 및
상기 문장 분류기를 이용하여 블로그 문서 내에서 사용자의 실제 경험을 나타내는 문장인 경험문장과, 경험을 나타내지 않는 문장인 비경험문장을 분류하는 단계로서, 상기 블로그 문서의 텍스트를 전처리하는 단계와,
전처리된 상기 블로그 문서에서 문법적 자질들을 추출하는 단계와,
추출된 상기 문법적 자질들을 기반으로 상기 문장 분류기를 이용하여 상기 블로그 문서 내에서 경험문장과 비경험문장을 분류하는 단계를 포함하는 상기 문장 분류기를 이용하여 경험문장과 비경험문장을 분류하는 단계를 포함하는 것을 특징으로 하는 블로그 문서에서의 경험 문장 추출 방법.
제1항에 있어서,
상기 문장 분류기를 생성하는 단계는,
주어진 학습 데이터로부터 문법적 자질들을 추출하는 단계; 및
추출된 문법적 자질들을 기반으로 하는 기계학습 방법 알고리즘을 이용하여 문장을 분류하기 위한 문장 분류기를 생성하는 단계를 포함하는 것을 특징으로 하는 블로그 문서에서의 경험 문장 추출 방법.
제1항에 있어서,
상기 기계학습 방법 알고리즘은 SVM(Support Vector Machine) 알고리즘인 것을 특징으로 하는 블로그 문서에서의 경험 문장 추출 방법.
제2항에 있어서,
상기 학습 데이터로부터 문법적 자질들을 추출하는 단계는,
상기 학습 데이터에 포함된 문장으로부터 시제(時制, tense)를 추출하는 단계와,
상기 문장으로부터 서법(敍法, mood)을 추출하는 단계와,
상기 문장으로부터 상(相, aspect)을 추출하는 단계와,
상기 문장으로부터 법성(法性, modality)을 추출하는 단계와,
상기 문장으로부터 경험자(experiencer)를 추출하는 단계와,
상기 문장으로부터 동사 클래스를 추출하는 단계를 포함하여 이루어지는 것을 특징으로 하는 블로그 문서에서의 경험 문장 추출 방법.
제4항에 있어서,
상기 시제를 추출하는 단계는 품사(part of speech) 태깅을 이용하여 시제를 추출하는 것을 특징으로 하는 블로그 문서에서의 경험 문장 추출 방법.
제4항에 있어서,
상기 서법을 추출하는 단계는 문장부호와 문장 내 품사 순서를 이용하여 서법을 추출하는 것을 특징으로 하는 블로그 문서에서의 경험 문장 추출 방법.
제4항에 있어서,
상기 상을 추출하는 단계는 품사 태깅을 이용하여 상을 추출하는 것을 특징으로 하는 블로그 문서에서의 경험 문장 추출 방법.
제4항에 있어서,
상기 법성을 추출하는 단계는 품사 태깅과 법성 동사 사전을 이용하여 법성을 추출하는 것을 특징으로 하는 블로그 문서에서의 경험 문장 추출 방법.
제4항에 있어서,
상기 경험자를 추출하는 단계는 파싱(parsing)과 개체명 인식기(named entity recognizer)를 이용하여 경험자를 추출하는 것을 특징으로 하는 블로그 문서에서의 경험 문장 추출 방법.
제4항에 있어서,
상기 동사 클래스를 추출하는 단계는 활동(activity) 동사 사전을 이용하여 동사 클래스를 추출하는 것을 특징으로 하는 블로그 문서에서의 경험 문장 추출 방법.
삭제
제1항에 있어서,
상기 블로그 문서의 텍스트를 전처리하는 단계는,
상기 블로그 문서에 대하여 HTML 파싱 및 문장 토큰화 과정을 거치는 것을 특징으로 하는 블로그 문서에서의 경험 문장 추출 방법.
제1항에 있어서,
상기 전처리된 블로그 문서에서 문법적 자질들을 추출하는 단계는,
문법적 자질을 추출하고자 하는 문장에 대해 품사를 태깅하는 단계와,
상기 문법적 자질을 추출하고자 하는 문장에 대해 파싱하는 단계와,
상기 문법적 자질을 추출하고자 하는 문장에 대해 개체명을 인식하는 단계와,
문법적 자질을 추출하기 위한 사전을 로드하는 단계와,
상기 사전을 이용하여 문장에서 시제, 상, 서법, 법성, 경험자, 동사 클래스 자질을 추출하는 단계를 포함하여 이루어지는 것을 특징으로 하는 블로그 문서에서의 경험 문장 추출 방법.
사람의 행위, 활동을 나타내는 활동(activity) 동사와, 사람의 감정, 인지를 나타내는 상태(state) 동사를 포함하는 학습동사 셋(set)으로부터 통계적 자질들을 추출하는 단계와;
상기 통계적 자질들을 기반으로 하는 기계학습 방법 알고리즘을 이용하여 동사 분류기를 생성하는 단계; 및
상기 동사 분류기를 이용하여 블로그 문서 내에 주어진 동사가 활동 동사인지 상태 동사인지를 판별하는 단계를 포함하는 블로그 문서에서의 동사 분류 방법.
삭제
제14항에 있어서,
상기 통계적 자질들을 추출하는 단계는,
상기 주어진 동사에 대하여 상기 통계적 자질들을 추출하기 위한 검색 쿼리를 생성하는 단계와,
상기 쿼리에 대한 통계적 수치를 검색엔진으로부터 추출하는 단계를 포함하는 것을 특징으로 하는 블로그 문서에서의 동사 분류 방법.
제16항에 있어서,
상기 쿼리를 생성하는 단계는, 벤들러(Vendler) 동사이론 테스트 패턴을 이용하여 쿼리를 생성하는 것을 특징으로 하는 블로그 문서에서의 동사 분류 방법.
제16항에 있어서,
상기 쿼리에 대한 통계적 수치를 검색엔진으로부터 추출하는 단계는, 검색엔진 API와 정규식을 이용하여 통계적 수치를 추출하는 것을 특징으로 하는 블로그 문서에서의 동사 분류 방법.
제14항에 있어서,
상기 기계학습 방법 알고리즘은 SVM(Support Vector Machine) 알고리즘인 것을 특징으로 하는 블로그 문서에서의 동사 분류 방법.