KR101265467B1 - 블로그 문서에서의 경험 문장 추출 방법 및 동사 분류 방법 - Google Patents

블로그 문서에서의 경험 문장 추출 방법 및 동사 분류 방법 Download PDF

Info

Publication number
KR101265467B1
KR101265467B1 KR1020100130178A KR20100130178A KR101265467B1 KR 101265467 B1 KR101265467 B1 KR 101265467B1 KR 1020100130178 A KR1020100130178 A KR 1020100130178A KR 20100130178 A KR20100130178 A KR 20100130178A KR 101265467 B1 KR101265467 B1 KR 101265467B1
Authority
KR
South Korea
Prior art keywords
sentence
extracting
verb
experience
grammatical
Prior art date
Application number
KR1020100130178A
Other languages
English (en)
Other versions
KR20120068519A (ko
Inventor
맹성현
박근찬
정윤재
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020100130178A priority Critical patent/KR101265467B1/ko
Publication of KR20120068519A publication Critical patent/KR20120068519A/ko
Application granted granted Critical
Publication of KR101265467B1 publication Critical patent/KR101265467B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 블로그 문서에 기록된 문장에서 사용자의 경험을 나타내는 문장을 추출하는 방법과, 활동동사와 상태동사를 분류하는 방법에 관한 것으로서, 본 발명의 블로그 문서에서의 경험 문장 추출 방법은 문법적 자질들을 기반으로 하는 기계학습 방법 알고리즘을 이용하여 문장 분류기를 생성하는 단계 및 상기 문장 분류기를 이용하여 블로그 문서 내에서 사용자의 실제 경험을 나타내는 문장인 경험문장과, 경험을 나타내지 않는 문장인 비경험 문장을 분류하는 단계를 포함한다. 본 발명에 의하면, 블로그 문서 내 문장들을 경험 문장과 비 경험 문장으로 분류함으로써, 문서 내 실제 사용자가 행하거나 사용자에게 일어난 경험들을 추출할 수 있는 효과가 있다.

Description

블로그 문서에서의 경험 문장 추출 방법 및 동사 분류 방법 {Method for extracting experience and classifying verb in blog}
본 발명은 블로그 문서에 기록된 문장에서 사용자의 경험을 나타내는 문장을 추출하는 방법과, 활동동사와 상태동사를 분류하는 방법에 관한 것으로서, 더욱 상세하게는 시제, 서법, 상, 법성, 경험자, 동사 클래스 등의 문법적 자질들을 이용하여 블로그 텍스트의 문자들을 경험 문장과 비경험 문장으로 분류하는 방법에 관한 것이다.
웹 문서는 사실, 의견, 경험 등 다양한 정보를 담고 있다. 특히, 경험은 의사 결정을 할 때나 문제 해결을 할 때 중요하게 작용한다. 웹 문서의 한 종류인 블로그는 뉴스 기사, 홈페이지 등의 다른 웹 문서와 달리 풍부한 사용자 경험을 담고 있는 특징을 가진다.
정보 추출 (information extraction) 분야에서 블로그로부터 사용자 경험을 마이닝하는 방법론들이 존재한다. 이 방법론들은 자연어 처리 기술 및 기계학습 기술을 이용하여 블로그 문서로부터 “누가, 어디서, 언제, 무엇을, 왜” 등의 속성 (attribute)을 추출하여 경험을 구조화하여 저장하는 것을 목적으로 한다.
하지만, 종래 정보 추출 방법론을 이용하면 다음과 같은 문제점이 발생한다. 가령, “Probably, she will laugh and dance in his funeral”와 같은 문장이 블로그 문서에 있다면 “She, Funeral, Laugh and dance” 라는 구조화된 경험이 추출된다. 예시 문장에서 보다시피 실제로 일어난 경험이 아님에도 불구하고 경험으로 추출되는 문제를 가진다. 이는 블로그 문서에 존재하는 모든 텍스트를 경험이라고 가정하기 때문이다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 블로그 문서내 실제 일어난 경험을 표현한 문장과 그렇지 않은 문장 (비경험 문장)을 다양한 문법적 자질들을 이용해 자동 분류하여 실제 사용자가 행하거나 일어난 경험을 추출하는 방법을 제공하는 것을 그 목적으로 한다.
또한, 본 발명에서는 경험 추출에 있어 중요한 역할을 하는 활동(activity) 동사를 벤들러(Vendler)의 동사 이론에 기반하여 다양한 통계적 자질들을 이용해 자동으로 분류하는 방법을 제공하는 것을 그 다른 목적으로 한다.
이와 같은 목적을 달성하기 위한 본 발명의 블로그 문서에서의 경험 문장 추출 방법은 문법적 자질들을 기반으로 하는 기계학습 방법 알고리즘을 이용하여 문장 분류기를 생성하는 단계 및 상기 문장 분류기를 이용하여 블로그 문서 내에서 사용자의 실제 경험을 나타내는 문장인 경험문장과, 경험을 나타내지 않는 문장인 비경험 문장을 분류하는 단계를 포함한다.
상기 문장 분류기를 생성하는 단계는, 주어진 학습 데이터로부터 문법적 자질들을 추출하는 단계 및 추출된 문법적 자질들을 기반으로 하는 기계학습 방법 알고리즘을 이용하여 문장을 분류하기 위한 문장 분류기를 생성하는 단계를 포함할 수 있다.
상기 기계학습 방법 알고리즘은 SVM(Support Vector Machine) 알고리즘인 것이 바람직하다.
상기 학습 데이터로부터 문법적 자질들을 추출하는 단계는, 상기 학습 데이터에 포함된 문장으로부터 시제(時制, tense)를 추출하는 단계와, 상기 문장으로부터 서법(敍法, mood)을 추출하는 단계와, 상기 문장으로부터 상(相, aspect)을 추출하는 단계와, 상기 문장으로부터 법성(法性, modality)을 추출하는 단계와, 상기 문장으로부터 경험자(experiencer)를 추출하는 단계와, 상기 문장으로부터 동사 클래스를 추출하는 단계를 포함하여 이루어질 수 있다.
상기 시제를 추출하는 단계는 품사(part of speech) 태깅을 이용하여 시제를 추출하는 것일 수 있다.
상기 서법을 추출하는 단계는 문장부호와 문장 내 품사 순서를 이용하여 서법을 추출하는 것일 수 있다.
상기 상을 추출하는 단계는 품사 태깅을 이용하여 상을 추출하는 것일 수 있다.
상기 법성을 추출하는 단계는 품사 태깅과 법성 동사 사전을 이용하여 법성을 추출하는 것일 수 있다.
상기 경험자를 추출하는 단계는 파싱(parsing)과 개체명 인식기(named entity recognizer)를 이용하여 경험자를 추출하는 것일 수 있다.
상기 동사 클래스를 추출하는 단계는 활동(activity) 동사 사전을 이용하여 동사 클래스를 추출하는 것일 수 있다.
상기 문장 분류기를 이용하여 블로그 문서 내에서 사용자의 실제 경험을 나타내는 문장인 경험문장과, 경험을 나타내지 않는 문장인 비경험 문장을 분류하는 단계는, 상기 블로그 문서의 텍스트를 전처리하는 단계와, 상기 전처리된 블로그 문서에서 문법적 자질들을 추출하는 단계와, 상기 추출된 문법적 자질들을 기반으로 상기 문장 분류기를 이용하여 상기 경험문장과 비경험 문장으로 분류하는 단계를 포함하여 이루어질 수 있다.
상기 블로그 문서의 텍스트를 전처리하는 단계는, 상기 블로그 문서에 대하여 HTML 파싱 및 문장 토큰화 과정을 거치는 것일 수 있다.
상기 전처리된 블로그 문서에서 문법적 자질들을 추출하는 단계는, 문법적 자질을 추출하고자 하는 문장에 대해 품사를 태깅하는 단계와, 상기 문법적 자질을 추출하고자 하는 문장에 대해 파싱하는 단계와, 상기 문법적 자질을 추출하고자 하는 문장에 대해 개체명을 인식하는 단계와, 문법적 자질을 추출하기 위한 사전을 로드하는 단계와, 상기 사전을 이용하여 문장에서 시제, 상, 서법, 법성, 경험자, 동사 클래스 자질을 추출하는 단계를 포함하여 이루어질 수 있다.
본 발명에서 블로그 문서에서의 동사 분류 방법은 통계적 자질들을 기반으로 하는 기계학습 방법 알고리즘을 이용하여 동사 분류기를 생성하는 단계 및 상기 동사 분류기를 이용하여 블로그 문서 내에서 사람의 행위, 활동을 나타내는 활동(activity) 동사와, 사람의 감정, 인지를 나타내는 상태(state) 동사를 분류하는 단계를 포함한다.
상기 동사 분류기를 생성하는 단계는, 활동 동사와 상태 동사를 포함하는 학습동사 셋(set)으로부터 통계적 자질들을 추출하는 단계 및 추출된 통계적 자질들을 기반으로 하는 기계학습 방법 알고리즘을 이용하여 동사를 분류하기 위한 동사 분류기를 생성하는 단계를 포함할 수 있다.
상기 통계적 자질들을 추출하는 단계는, 주어진 동사에 대하여 검색엔진에 적합한 쿼리를 생성하는 단계와, 상기 쿼리에 대한 통계적 수치를 검색엔진으로부터 추출하는 단계를 포함할 수 있다.
상기 쿼리를 생성하는 단계는, 벤들러(Vendler) 동사이론 테스트 패턴을 이용하여 쿼리를 생성하는 것일 수 있다.
상기 쿼리에 대한 통계적 수치를 검색엔진으로부터 추출하는 단계는, 검색엔진 API와 정규식을 이용하여 통계적 수치를 추출하는 것일 수 있다.
상기 기계학습 방법 알고리즘은 SVM(Support Vector Machine) 알고리즘인 것이 바람직하다.
본 발명에 의하면, 블로그 문서 내 문장들을 경험 문장과 비 경험 문장으로 분류함으로써, 문서 내 실제 사용자가 행하거나 사용자에게 일어난 경험들을 추출할 수 있는 효과가 있다.
또한, 본 발명에서는, 블로그 문서 내 문장에 사용된 동사를 활동 동사와 상태동사로 분류함으로써, 블로그 사용자가 직접 행한 동작을 구분하여 보다 정확한 정보를 수집할 수 있는 효과가 있다.
예를 들어, 본 발명의 방법을 이용하면, 여행과 관련된 블로그의 경우, 기존 상업적인 정보가 아닌 실제 사용자들의 특정 장소에서의 경험을 추출할 수 있으며, 제품과 관련된 블로그의 경우, 실제 제품을 사용해본 사용자들의 경험을 추출할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 경험 문장 분류기 생성을 나타낸 개념도.
도 2는 본 발명의 일 실시예에 따른 경험 문장 분류 과정을 나타낸 개념도.
도 3은 본 발명의 일 실시예에 따른 경험 문장 분류를 위한 문법적 자질 추출 과정을 도시한 흐름도.
도 4는 본 발명의 일 실시예에 따른 활동 동사 분류기 생성을 나타낸 개념도.
도 5는 본 발명의 일 실시예에 따른 활동 동사 분류 과정을 나타낸 개념도.
도 6은 본 발명의 일 실시예에 따른 활동 동사 분류를 위한 통계적 자질 추출 과정을 도시한 흐름도.
이하, 첨부된 도면을 참조해서 본 발명의 실시예를 상세히 설명하면 다음과 같다. 우선 각 도면의 구성 요소들에 참조 부호를 부가함에 있어서, 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 그리고, 본 발명을 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
본 발명은 블로그 문서 내 텍스트에서 사용자의 경험을 추출하는 방법에 관한 것으로서, 다양한 문법적 자질들을 이용하여 블로그 내 문장을 경험 문장과 비 경험 문장으로 분류한다. 즉 종래의 경험 추출 방법과 달리 실제 사용자가 행하거나 일어난 경험을 추출한다. 아래의 문장들은 종래의 기술에 의하면 경험으로 추출되지만 본 발명에 의하면 경험으로 추출 되지 않는 예이다. 보는 바와 같이 아래의 문장들은 실제 일어난 경험이 아닌 가설, 의문, 명령 등이다.
(1) If Jason arrives on time, I’ll buy him a drink.
(2) Probably, she will laugh and dance in his funeral.
(3) Can anyone explain what is going on here?
(4) Don’t play soccer on the roads!
본 발명에서 정의하는 경험이란 사용자가 실제로 수행한 활동 혹은 사용자에게 일어난 사건을 의미한다. 본 발명에서 정의하는 대표적인 경험 문장은 아래의 예와 같다.
(1) I ran with my wife 3 times a week until wemoved to Washington, D.C.
(2) Jane and I hopped on a bus into the city center.
(3) We went to a restaurant near the central park.
도 1은 본 발명의 일 실시예에 따른 경험 문장 분류기 생성을 나타낸 개념도이다.
도 1을 참조하면, 본 발명에 의한 문장 분류기 생성은, 학습데이터(101), 문법적 자질 추출부(102), SVM 학습부(103), 문장 분류기(104)를 포함하여 구성된다.
학습데이터(101)는 경험 문장과 비경험 문장으로 이루어진다. 실제 블로그 문서 데이터에서 대량의 문장들을 샘플링하여 다수의 평가자로부터 각 문장에 대해 실제 경험을 나타낸 문장인지 아닌지에 대해 태깅을 한다. 각 문장에 대해 과반수 이상의 평가자가 태깅한 결과를 학습데이터로 사용한다.
문법적 자질 추출부(102)는 주어진 문장으로부터 문장 분류에 필요한 문법적 자질들을 추출한다. 본 발명에서 고려하는 문법적 자질은 시제 (時制, tense), 서법 (敍法, mood), 상 (相, aspect), 법성 (法性, modality), 경험자 (experiencer), 동사 클래스의 여섯 가지 자질이다.
SVM 학습부(103)는 문법적 자질 추출부(102)에서 학습데이터로(101)부터 추출된 자질들을 SVM(Support Vector Machine) 알고리즘을 이용하여 문장 분류기(104)를 생성한다. 본 발명에서 기계학습 방법을 차용한 것은 규칙 기반의 방법론이 블로그 문서 내 문장의 다양성을 전부 망라할 수 없기 때문이다. 반면, 기계학습 방법론은 처음 본 문장에 대해서도 어느 정도 예측가능하다.
문장 분류기(104)는 학습데이터(101)을 통해 학습된 분류기로 주어진 문장에 대해 해당 문장이 경험을 나타내는 문장인지 아닌지를 판별한다.
도 2는 본 발명에 따른 경험 문장 분류 과정을 나타낸 개념도이다. 이에 나타낸 바와 같이 본 발명에 따른 경험 문장 분류 과정은 블로그 문서 데이터(201), 문서 가공부(202), 문법적 자질 추출부(102), 문장 분류기(104), 경험 문장(203), 비경험 문장(204)를 포함한다.
블로그 문서 데이터(201)는 실제 웹에서 수집한 대량의 블로그 문서이다.
문서 가공부(202)는 블로그 문서의 텍스트를 전처리(preprocess)한다. 블로그 문서는 HTML 형태의 문서로 본 발명에서 분류하고자 하는 블로그 문서 내 텍스트를 추출하기 위해서 HTML 파싱과 문장 토큰화 과정을 거친다. HTML 파싱과 문장 토큰화를 위해 당해 분야에 널리 이용되는 다양한 라이브러리를 사용할 수 있다.
경험 문장(203)과 비경험 문장(204)은 블로그 문서 데이터가 문서 가공부(202)에서 전처리 되고, 문법적 자질 추출부(102)에서 추출된 문법적 자질들이 기 생성한 문장 분류기(104)에 의해 분류된 결과이다.
본 발명에 따른 문법적 자질 추출부(102)의 자질 추출 방법에 대해 도 3을 참고하여 설명하면 다음과 같다.
도 3은 본 발명의 일 실시예에 따른 경험 문장 분류를 위한 문법적 자질 추출 과정을 도시한 흐름도이다.
도 3을 참조하면, 먼저, 문법적 자질을 추출하고자 하는 문장에 대해 품사를 태깅한다(S301). S301 단계에서 품사 태깅은 해당 분야에 널리 이용되는 다양한 라이브러리를 사용할 수 있다. 태깅된 품사 정보는 여섯 가지 문법적 자질 추출을 위한 기본 정보를 제공한다.
다음, 문법적 자질을 추출하고자 하는 문장에 대해 파싱을 한다(S302). S302 단계에서 파싱은 해당 분야에 널리 이용되는 다양한 라이브러리를 사용할 수 있다. 파싱에 의해 추출된 문장 구조, 문장 내 의존성 정보는 경험자, 동사 클래스 자질 추출을 위한 정보를 제공한다.
다음, 문법적 자질을 추출하고자 하는 문장에 대해 개체명 인식을 한다(S303). S303 단계에서 개체명 인식은 해당 분야에 널리 이용되는 다양한 라이브러리를 사용할 수 있다. 일반적으로 개체명 인식은 지명, 사람 이름, 회사 및 제품 이름을 인식하는 것을 말한다. 추출된 개체명은 경험자 자질 추출을 위한 정보로 제공된다.
다음, 문법적 자질 추출을 위한 사전을 로드한다(S304). 본 발명의 일 실시예에서 법성을 나타내는 표현을 수집한 사전과 활동 동사를 수집한 사전을 로드할 수 있다. 활동 동사 사전의 생성 및 수집 방법에 대한 설명은 후술하기로 한다.
본 발명에서 정의하는 경험이란 실제 사용자가 수행하거나 일어난 경험이기에 사용자의 활동과 관련한 표현이 필요하다(예를 들어, Run, swim, walk 등). 반대로 상태와 관련한 표현은 경험으로 고려하지 않는다(예를 들어, “I love this place”, “I know him” 등).
활동 동사 사전은 동사 클래스 자질 추출을 위한 정보를 제공한다. 법성 동사 사전은 법성을 나타내는 표현을 수집한 사전이다. 법성 사전은 가능성, 허락, 의도 등 본 동사의 성질을 바꾸는 법조 동사(예를 들어, Can, will, must, may)와 그에 준하는 표현들(예를 들어, Have to, need to)을 수집한 사전이다. 본 발명에서 법성 사전은 법성 자질 추출을 위한 정보를 제공하는 역할을 한다.
다음, 시제 및 상 자질을 추출한다(S305). 시제 및 상은 경험 문장 분류의 중요한 자질이다. 가령, “I will run tomorrow”과 “I am going to run tomorrow”와 같은 예의 경우, 미래 시제와 진행형 상에 의해 해당 문장은 비 경험이 된다. 문장 내 동사의 시제와 상은 상기 태깅된 품사 정보를 이용해 추출한다.
다음, 서법 자질을 추출한다(S306). 서법은 경험 문장 분류의 중요한 자질이다. 가령, “Go to school!”과 “Did she come to school?”와 같은 예의 경우, 서법이 명령문이고 의문문이기 때문에 비 경험 문장이 된다. 서법은 문장 내 시작하는 품사가 무엇인지 그리고 문장 종결 부호가 명령문인지 의문문인지 평서문인지를 고려하여 규칙기반으로 추정한다.
다음, 법성 자질을 추출한다(S307). 법성은 경험 문장 분류의 중요한 자질이다. 가령, “She might be there”와 같은 예의 경우, 법조 동사 will에 의해 문장의 법성이 변화하였기 때문에 비 경험 문장이 된다. 법성은 문장 내 법성 사전에 기록된 표현이 존재하는지를 검색(Look up)하여 추정한다.
다음, 경험자 자질을 추출한다(S308). 경험자 또한 경험 문장 분류의 중요 자질이다. 가령, “Golden leaves were swept out of the streets”와 같은 예의 경우, 문장의 주체 즉 경험자가 없기 때문에 비 경험 문장이 된다. 경험자는 파싱에 의해 제공되는 문장의 주체 정보, 품사 정보, 그리고 개체명 인식에 의해 제공되는 사람 이름을 고려하여 규칙기반으로 추정한다.
마지막으로, 동사 클래스 자질을 추출한다(S309). 동사 클래스 또한 경험 문장 분류의 중요 자질이다. 동사 클래스는 활동 동사와 상태 동사의 두 클래스를 의미한다. 가령, “I know that theory”와 같은 예의 경우, “know”라는 상태 동사 때문에 해당 문장은 비 경험 문장이 된다. 어떤 이론을 안다는 것은 실제 사용자가 행하거나 일어난 활동이 아니기 때문이다. 동사 클래스는 문장 내 동사가 본 발명에서 구축한 활동 동사 사전에 표현이 존재하는지를 검색(Look up)하여 추정한다.
이제 본 발명의 다른 실시예인 블로그 문서에서의 동사 분류 방법을 도 4 내지 도 6을 참조하여 설명하기로 한다.
도 4는 본 발명의 일 실시예에 따른 활동 동사 분류기 생성을 나타낸 개념도이다.
도 4를 참조하면, 본 발명에 의한 동사 분류기 생성은, 학습동사 셋(401), 통계적 자질 추출부(402), SVM 학습부(103), 동사 분류기(403)를 포함하여 구성된다.
학습동사 셋(Set)(401)은 소수의 활동 동사와 상태 동사로 이루어진다. 활동 동사와 상태 동사는 벤들러(Vendler)의 저서에 수록된 대표적인 활동 동사 및 상태 동사의 예이며, 아래 표 1에 그 예시를 제안하였다. 아래 표 1에서 보다시피 활동 동사는 사람의 행위, 활동을 나타내며, 상태 동사는 감정, 인지 상태를 나타낸다.
활동 동사 상태 동사
Run, Swim, Walk,
Paint (picture), Build (house)
Like, Know, Believe,
Recognize, Realize
벤들러(Vendler)는 활동 동사와 상태 동사를 쉽게 분류하기 위한 방법으로 몇 가지 테스트를 소개하였다. 테스트들은 모든 활동 동사 및 상태 동사에 적용되지 않지만 대체로 적용 가능하다. 본 발명에서 사용한 테스트는 다음과 같다.
(1)Progressive: 상태 동사는 진행형으로 쓰일 경우 어색하다.
A. John is running. (○)
B. John is liking. (X)
(2) Force: 상태 동사는 동사 “force”의 보어로 쓰일 경우 어색하다.
A. John forced harry to run. (○)
B. John forced harry to know. (X)
(3) Stop: 상태 동사는 동사 “stop”의 보어로 쓰일 경우 어색하다.
A. John stopped running. (○)
B. John stopped knowing. (X)
(4) For: 상태 동사는 시간 절 “for”와 같이 쓰일 경우 어색하다.
A. John ran for an hour. (○)
B. John realized for an hour. (X)
(5) Carefully: 상태 동사는 부사 “carefully”와 같이 쓰일 경우 어색하다.
A. John runs carefully. (○)
B. John knows carefully. (X)
통계적 자질 추출부(402)는 주어진 동사로부터 상기 소개한 동사 분류 테스트들을 이용하여 동사 분류에 필요한 통계적 자질들을 검색 엔진을 통해 추출한다. 상기 소개한 테스트들은 언어학적 관점의 테스트로써, 사람이 읽었을 때 어색함을 알 수 있는 것이다. 본 발명에서는 다음과 같은 가정을 바탕으로 검색엔진을 이용하여 테스트들을 통계화한다. 사람이 읽었을 때 어색한 표현을 검색엔진에 질의하였을 때 검색 결과가 적을 것이다. 통계적 자질 추출 방법에 대한 상세한 설명은 후술하기로 한다.
SVM 학습부(103)는 통계적 자질 추출부(402)에서 학습동사 셋(401)로부터 추출된 자질들을 SVM(Support Vector Machine)알고리즘을 이용하여 동사 분류기(403)를 생성한다. 본 발명에서 SVM 알고리즘을 차용한 수치적 자질 기반의 분류 작업은 뛰어난 성능을 보인다.
동사 분류기(403)는 학습동사셋(401)을 통해 학습된 분류기로 주어진 동사에 대해 해당 동사가 활동 동사인지 상태 동사인지를 판별한다.
도 5는 본 발명의 일 실시예에 따른 활동 동사 분류 과정을 나타낸 개념도이다.
도 5에 도시된 바와 같이, 본 발명에 따른 활동 동사 분류 과정은 미분류 동사(501), 통계적 자질 추출부(402), 동사 분류기(403), 활동 동사(502), 상태 동사(503)를 포함한다.
미 분류 동사(501)는 활동 동사와 상태 동사로 분류되지 않은 동사 및 동사구이다. 예를 들어, 동사 및 동사구는 해당 분야의 저명한 전자 사전인 워드넷(WordNet)으로부터 모든 동사와 동사구를 수집할 수 있다.
활동 동사(502)와 상태 동사(503)는 미 분류 동사(501)가 통계적 자질 추출부(402)에서 추출된 통계적 자질들이 기 구축한 동사 분류기(403)에 의해 분류된 결과이다.
본 발명에 따른 통계적 자질 추출부(402)의 자질 추출 방법에 대해 도 6을 참고하여 설명하면 다음과 같다.
도 6은 본 발명의 일 실시예에 따른 활동 동사 분류를 위한 통계적 자질 추출 과정을 도시한 흐름도이다.
도 6을 참조하면, 먼저 통계적 자질을 추출하고자 하는 동사에 대해 5가지 쿼리를 생성한다(S601). 주어진 동사를 θ 라고 했을 때, 쿼리는 상기 소개한 벤들러(vendler)의 동사 분류 테스트를 이용하여 아래의 표 2와 같이 자동 생성한다.
테스트 쿼리
Progressive “(be OR am OR is OR are OR was OR were OR been) θ의 진행형”
Force “(force OR forces OR forcing OR forced) to θ”
Persuade “(persuade OR persuades OR persuading OR persuaded) to θ”
Stop “(stop OR stops OR stopped) θ의 진행형”
For “θ for an hour” OR “θ for a minute” OR “θ for a day”
Carefully “θ carefully”
다음, 각 미 분류 동사(501)에 대해 상기 표 2의 다섯 가지 쿼리를 생성하여 질의하고 검색결과를 반환한다(S602). 본 발명의 일 실시예에서 수천 개의 동사를 자동으로 질의, 반환하기 위해 검색엔진의 API를 쓰거나 해당 분야에 널리 이용되는 크롤링(crawling) 방법을 사용할 수 있다.
다음, 반환된 결과가 HTML 형태의 웹 페이지이므로 전처리 과정으로 HTML 파싱을 수행한다(S603).
다음, 동사 분류에 필요한 통계적 자질을 추출하기 위해 반환 결과에 대해 문장 토큰화(S604), 품사 태깅(S605), 파싱(S606)을 하여 기본적인 통계 정보를 얻을 수 있도록 전처리한다.
다음, 검색 결과에서 세 가지 기본 수치를 추출한다(S607). 본 발명의 일 실시예에서 세 가지 기본 수치는 hit count, candidate sentence count, correct sentence count일 수 있다.
Hit count는 해당 쿼리에 대한 결과 페이지수를 의미한다. Hit count는 검색 결과 페이지에서 정규식을 이용하여 실제 값만을 추출한다.
Candidate sentence count는 검색 결과 내 문장 중 분류하고자 하는 동사를 포함한 문장의 개수를 의미하며 간단히 문장 안에 해당 동사가 있는지 없는지를 세어서 계산한다.
Correct sentence count는 분류하고자 하는 동사를 포함한 문장(candidate sentence) 중에서 실제로 의도한 테스트를 만족하는 문장의 개수를 의미한다. 가령, “Is building an artifact?”와 같은 예의 경우, “Is building” 부분이 표면상으론 Progressive 테스트를 만족하는 것 같지만 해당 문장에서 building은 동사가 아닌 명사 “building”으로 쓰였기에 의도한 테스트를 만족하지 않는 경우이다. Correct sentence count는 파싱정보와 품사정보를 이용하여 규칙 기반으로 계산한다.
다음, 상기 검색 결과 수치를 이용하여 통계적 수치를 계산한다(S608). Hit count를
Figure 112010083573528-pat00001
, candidate sentence count를
Figure 112010083573528-pat00002
, correct sentence count를
Figure 112010083573528-pat00003
라고 할 때 (여기서, i는 테스트의 종류, θ는 동사를 의미한다), 다음의 세 가지 통계적 수치를 아래의 수학식 1, 수학식 2, 수학식 3을 이용해 계산한다(S608).
[수학식 1]
Absolute hit ratio:
Figure 112010083573528-pat00004
[수학식 2]
Relative hit ratio:
Figure 112010083573528-pat00005
[수학식 3]
Valid ratio:
Figure 112010083573528-pat00006
여기서, *은 와일드 카드이며 모든 단어를 의미하고 φ 은 아무 테스트도 하지 않음을 의미한다.
와일드 카드를 질의하게 되면 검색 엔진은 자동으로 와일드 카드 자리에 모든 단어를 매칭한다. 즉, Hφ(θ) 의 경우 동사 θ 를 테스트 쿼리를 생성하지 않고 동사자체를 검색 엔진에 질의했을 때 hit count을 의미하며, Hi(*) 의 경우, i번째 테스트에 대해 모든 단어가 매칭된 hit count를 의미한다.
Absolute hit ratio는 동사간 통계 수치의 절대적인 비교를 위해 계산한다. Relative hit ratio는 한 동사 내 해당 테스트의 가중치를 상대 비교해 보기 위해 계산한다. Valid hit ratio는 실제로 동사 분류 테스트를 만족하는 문장의 비율을 계산한다. 각 동사에 대하여 5가지 테스트에 대해 각각 3가지 통계적 수치를 계산한다. 계산된 통계적 수치를 이용해 동사 분류기 학습 및 동사 분류에 이용한다.
이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.
101 학습 데이터 102 문법적 자질 추출부
103 SVM 학습부 104 문장 분류기
201 블로그 문서 데이터 202 문서 가공부
203 경험 문장 204 비경험 문장
401 학습동사 셋 402 통계적 자질 추출부
403 동사분류기 502 활동 동사
503 상태 동사

Claims (19)

  1. 문법적 자질들을 기반으로 하는 기계학습 방법 알고리즘을 이용하여 문장 분류기를 생성하는 단계; 및
    상기 문장 분류기를 이용하여 블로그 문서 내에서 사용자의 실제 경험을 나타내는 문장인 경험문장과, 경험을 나타내지 않는 문장인 비경험문장을 분류하는 단계로서, 상기 블로그 문서의 텍스트를 전처리하는 단계와,
    전처리된 상기 블로그 문서에서 문법적 자질들을 추출하는 단계와,
    추출된 상기 문법적 자질들을 기반으로 상기 문장 분류기를 이용하여 상기 블로그 문서 내에서 경험문장과 비경험문장을 분류하는 단계를 포함하는 상기 문장 분류기를 이용하여 경험문장과 비경험문장을 분류하는 단계를 포함하는 것을 특징으로 하는 블로그 문서에서의 경험 문장 추출 방법.
  2. 제1항에 있어서,
    상기 문장 분류기를 생성하는 단계는,
    주어진 학습 데이터로부터 문법적 자질들을 추출하는 단계; 및
    추출된 문법적 자질들을 기반으로 하는 기계학습 방법 알고리즘을 이용하여 문장을 분류하기 위한 문장 분류기를 생성하는 단계를 포함하는 것을 특징으로 하는 블로그 문서에서의 경험 문장 추출 방법.
  3. 제1항에 있어서,
    상기 기계학습 방법 알고리즘은 SVM(Support Vector Machine) 알고리즘인 것을 특징으로 하는 블로그 문서에서의 경험 문장 추출 방법.
  4. 제2항에 있어서,
    상기 학습 데이터로부터 문법적 자질들을 추출하는 단계는,
    상기 학습 데이터에 포함된 문장으로부터 시제(時制, tense)를 추출하는 단계와,
    상기 문장으로부터 서법(敍法, mood)을 추출하는 단계와,
    상기 문장으로부터 상(相, aspect)을 추출하는 단계와,
    상기 문장으로부터 법성(法性, modality)을 추출하는 단계와,
    상기 문장으로부터 경험자(experiencer)를 추출하는 단계와,
    상기 문장으로부터 동사 클래스를 추출하는 단계를 포함하여 이루어지는 것을 특징으로 하는 블로그 문서에서의 경험 문장 추출 방법.
  5. 제4항에 있어서,
    상기 시제를 추출하는 단계는 품사(part of speech) 태깅을 이용하여 시제를 추출하는 것을 특징으로 하는 블로그 문서에서의 경험 문장 추출 방법.
  6. 제4항에 있어서,
    상기 서법을 추출하는 단계는 문장부호와 문장 내 품사 순서를 이용하여 서법을 추출하는 것을 특징으로 하는 블로그 문서에서의 경험 문장 추출 방법.
  7. 제4항에 있어서,
    상기 상을 추출하는 단계는 품사 태깅을 이용하여 상을 추출하는 것을 특징으로 하는 블로그 문서에서의 경험 문장 추출 방법.
  8. 제4항에 있어서,
    상기 법성을 추출하는 단계는 품사 태깅과 법성 동사 사전을 이용하여 법성을 추출하는 것을 특징으로 하는 블로그 문서에서의 경험 문장 추출 방법.
  9. 제4항에 있어서,
    상기 경험자를 추출하는 단계는 파싱(parsing)과 개체명 인식기(named entity recognizer)를 이용하여 경험자를 추출하는 것을 특징으로 하는 블로그 문서에서의 경험 문장 추출 방법.
  10. 제4항에 있어서,
    상기 동사 클래스를 추출하는 단계는 활동(activity) 동사 사전을 이용하여 동사 클래스를 추출하는 것을 특징으로 하는 블로그 문서에서의 경험 문장 추출 방법.
  11. 삭제
  12. 제1항에 있어서,
    상기 블로그 문서의 텍스트를 전처리하는 단계는,
    상기 블로그 문서에 대하여 HTML 파싱 및 문장 토큰화 과정을 거치는 것을 특징으로 하는 블로그 문서에서의 경험 문장 추출 방법.
  13. 제1항에 있어서,
    상기 전처리된 블로그 문서에서 문법적 자질들을 추출하는 단계는,
    문법적 자질을 추출하고자 하는 문장에 대해 품사를 태깅하는 단계와,
    상기 문법적 자질을 추출하고자 하는 문장에 대해 파싱하는 단계와,
    상기 문법적 자질을 추출하고자 하는 문장에 대해 개체명을 인식하는 단계와,
    문법적 자질을 추출하기 위한 사전을 로드하는 단계와,
    상기 사전을 이용하여 문장에서 시제, 상, 서법, 법성, 경험자, 동사 클래스 자질을 추출하는 단계를 포함하여 이루어지는 것을 특징으로 하는 블로그 문서에서의 경험 문장 추출 방법.
  14. 사람의 행위, 활동을 나타내는 활동(activity) 동사와, 사람의 감정, 인지를 나타내는 상태(state) 동사를 포함하는 학습동사 셋(set)으로부터 통계적 자질들을 추출하는 단계와;
    상기 통계적 자질들을 기반으로 하는 기계학습 방법 알고리즘을 이용하여 동사 분류기를 생성하는 단계; 및
    상기 동사 분류기를 이용하여 블로그 문서 내에 주어진 동사가 활동 동사인지 상태 동사인지를 판별하는 단계를 포함하는 블로그 문서에서의 동사 분류 방법.
  15. 삭제
  16. 제14항에 있어서,
    상기 통계적 자질들을 추출하는 단계는,
    상기 주어진 동사에 대하여 상기 통계적 자질들을 추출하기 위한 검색 쿼리를 생성하는 단계와,
    상기 쿼리에 대한 통계적 수치를 검색엔진으로부터 추출하는 단계를 포함하는 것을 특징으로 하는 블로그 문서에서의 동사 분류 방법.
  17. 제16항에 있어서,
    상기 쿼리를 생성하는 단계는, 벤들러(Vendler) 동사이론 테스트 패턴을 이용하여 쿼리를 생성하는 것을 특징으로 하는 블로그 문서에서의 동사 분류 방법.
  18. 제16항에 있어서,
    상기 쿼리에 대한 통계적 수치를 검색엔진으로부터 추출하는 단계는, 검색엔진 API와 정규식을 이용하여 통계적 수치를 추출하는 것을 특징으로 하는 블로그 문서에서의 동사 분류 방법.
  19. 제14항에 있어서,
    상기 기계학습 방법 알고리즘은 SVM(Support Vector Machine) 알고리즘인 것을 특징으로 하는 블로그 문서에서의 동사 분류 방법.
KR1020100130178A 2010-12-17 2010-12-17 블로그 문서에서의 경험 문장 추출 방법 및 동사 분류 방법 KR101265467B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100130178A KR101265467B1 (ko) 2010-12-17 2010-12-17 블로그 문서에서의 경험 문장 추출 방법 및 동사 분류 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100130178A KR101265467B1 (ko) 2010-12-17 2010-12-17 블로그 문서에서의 경험 문장 추출 방법 및 동사 분류 방법

Publications (2)

Publication Number Publication Date
KR20120068519A KR20120068519A (ko) 2012-06-27
KR101265467B1 true KR101265467B1 (ko) 2013-05-16

Family

ID=46687178

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100130178A KR101265467B1 (ko) 2010-12-17 2010-12-17 블로그 문서에서의 경험 문장 추출 방법 및 동사 분류 방법

Country Status (1)

Country Link
KR (1) KR101265467B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017122872A1 (ko) * 2016-01-15 2017-07-20 단국대학교 산학협력단 전자 출판물에 대한 정보를 생성하는 장치 및 방법

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101243054B1 (ko) * 2012-07-06 2013-03-13 한국과학기술정보연구원 웹 검색 기반 용어 인식 방법 및 장치
KR102440180B1 (ko) * 2020-12-22 2022-09-02 연세대학교 원주산학협력단 Cdm 패킷을 이용하여 개인정보 노출 여부를 결정하는 방법 및 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100996997B1 (ko) 2010-03-05 2010-11-25 경북대학교 산학협력단 사용자 맞춤 블로거 분석 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100996997B1 (ko) 2010-03-05 2010-11-25 경북대학교 산학협력단 사용자 맞춤 블로거 분석 시스템 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017122872A1 (ko) * 2016-01-15 2017-07-20 단국대학교 산학협력단 전자 출판물에 대한 정보를 생성하는 장치 및 방법
KR101781597B1 (ko) * 2016-01-15 2017-09-25 단국대학교 산학협력단 전자 출판물에 대한 정보를 생성하는 장치 및 방법

Also Published As

Publication number Publication date
KR20120068519A (ko) 2012-06-27

Similar Documents

Publication Publication Date Title
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及系统
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
El-Beltagy et al. KP-Miner: A keyphrase extraction system for English and Arabic documents
KR101005337B1 (ko) 웹 문서에서의 의견 추출 및 분석 장치 및 그 방법
Al-Kabi et al. An opinion analysis tool for colloquial and standard Arabic
US20160350288A1 (en) Multilingual embeddings for natural language processing
Guy et al. Extracting and ranking travel tips from user-generated reviews
Suzuki et al. Question classification using HDAG kernel
CN106503192A (zh) 基于人工智能的命名实体识别方法及装置
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
Khan et al. Sentiment classification using sentence-level lexical based
CN103995853A (zh) 基于关键句的多语言情感数据处理分类方法及系统
Nandi et al. Bangla news recommendation using doc2vec
Bayot et al. Age and gender classification of tweets using convolutional neural networks
Verberne et al. Automatic thematic classification of election manifestos
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
KR101652433B1 (ko) Sns 문서에서 추출된 토픽을 기반으로 파악된 감정에 따른 개인화 광고 제공 방법
KR101265467B1 (ko) 블로그 문서에서의 경험 문장 추출 방법 및 동사 분류 방법
da Rocha et al. A text as unique as a fingerprint: Text analysis and authorship recognition in a Virtual Learning Environment of the Unified Health System in Brazil
Ye et al. Feature extraction of travel destinations from online Chinese-language customer reviews
Ma et al. An Introduction to Entity Recommendation and Understanding.
Patel et al. Influence of Gujarati STEmmeR in supervised learning of web page categorization
Fernandez et al. Computing the linguistic-based cues of fake news in the philippines towards its detection
Kisilevich et al. What do you think about this photo? A novel approach to opinion and sentiment analysis of photo comments
Balaji et al. Finding related research papers using semantic and co-citation proximity analysis

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160427

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180425

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190429

Year of fee payment: 7