KR20110062896A - 지역 정보 검색 장치 및 방법 - Google Patents

지역 정보 검색 장치 및 방법 Download PDF

Info

Publication number
KR20110062896A
KR20110062896A KR1020090119762A KR20090119762A KR20110062896A KR 20110062896 A KR20110062896 A KR 20110062896A KR 1020090119762 A KR1020090119762 A KR 1020090119762A KR 20090119762 A KR20090119762 A KR 20090119762A KR 20110062896 A KR20110062896 A KR 20110062896A
Authority
KR
South Korea
Prior art keywords
user
experience
blog
region
document
Prior art date
Application number
KR1020090119762A
Other languages
English (en)
Other versions
KR101110026B1 (ko
Inventor
맹성현
정윤재
박근찬
장관
장혜주
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020090119762A priority Critical patent/KR101110026B1/ko
Publication of KR20110062896A publication Critical patent/KR20110062896A/ko
Application granted granted Critical
Publication of KR101110026B1 publication Critical patent/KR101110026B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 지역 정보 검색 장치 및 방법에 관한 것으로서, 본 발명의 지역 검색 방법은 지역 명칭을 기반으로 해당 지역과 사용자에 관련된 문서를 수집하는 문서 수집 단계, 상기 수집된 문서로부터 사용자의 해당 지역에서의 경험을 추출하는 사용자 경험 추출 단계, 상기 수집된 문서로부터 사용자의 특성을 파악하는 사용자 특성 파악 단계, 상기 사용자의 특성을 기반으로 동일한 경험을 수행하는 사람들의 집단과 공간을 군집화하는 단계, 상기 군집화된 집단과 공간으로부터 사용자의 특성 정보 및 공간의 특성 정보를 파악하는 특성 파악 단계, 상기 사용자 특성 정보 및 상기 공간 특성 정보를 기반으로 해당 지역에서의 사용자 경험 및 상기 경험이 발생하는 지역을 검색하는 지역 검색 단계를 포함한다.
지역 정보, 검색, 마이닝, 공간, 경험, 추출, 군집화, 준 지도학습.

Description

지역 정보 검색 장치 및 방법 {Apparatus and method for searching local information}
본 발명은 지역 정보 검색 장치 및 방법에 관한 것으로서, 더욱 상세하게는 준 지도학습 클러스터링(semi-supervised clustering) 기법을 사용한 블로그 공간 상에 기록된 사용자 경험 및 지역 정보 마이닝 장치 및 방법에 관한 것이다.
지역 검색은 최근 주목을 받고 있는 새로운 검색 서비스이다. 현재 지역 검색은 주로 단순히 지역의 주소에 따라 지도 상의 위치를 검색하거나 관련 정보를 제공해 주는데 머무르고 있지만, 사용자의 지역에 대한 태그 정보에 기반을 두어 해당 지역과 관련된 사진을 제공하거나 사용자들에게 인기 있는 활동을 제공하는 등 보다 사용자에게 유용한 정보들을 제공해주기 위한 노력이 계속되고 있다.
위와 같은 목적을 충족시키기 위해, 현존하는 지역 검색 서비스들은 주로 사용자들에 의해 직접 기록된 태그를 이용한다. 그러나 사용자들에 의해 직접 기록된 태그 정보는 사용자의 참여가 충분히 이루어 지지 않을 경우 의미 있는 정보가 될 수 없으며, 중장년층 또는 노인층과 같이 직접적인 참여도가 낮은 사용자들 사이에서 발생하는 활동은 쉽게 찾아낼 수 없다.
한편, 관광지 등의 특정 지역에서 주로 발생하는 사용자의 경험을 웹상의 문서에서 마이닝(mining)하려는 연구들이 시도되고 있다. 그러나 이는 불특정 다수에 의해 주로 발생하는 사람들의 경험을 찾아내는데 주로 초점을 맞추어져 있어, 특정 집단의 사람들(예를 들어, 20대 층)에 의해 주로 이루어지는 활동을 구별해 낼 수 없으며, 비슷한 유형의 지역(예를 들어, 쇼핑몰)에서 주로 발생하는 활동 역시 구별해 내지 못하는 문제점이 존재한다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 블로그 등의 웹 문서에 기록된 특정 지역에서의 사람들의 경험과 저자의 사용자 정보를 마이닝하고 이러한 정보를 기반으로 특정 경험이 주로 발생한 사용자와 공간을 군집화하여, 해당 군집의 특성을 파악함으로써 특정 경험이 주로 발생한 지역의 유형과 해당 경험를 주로 수행한 사람들의 유형을 파악하는 지역 검색 방법을 제공하는데 그 목적이 있다.
또한, 본 발명은 특정 공간과 특정 사용자 집단 또는 특정 경험 등을 검색어로 하여, 특정 경험이 주로 발생하는 공간 및 그러한 경험을 수행한 사용자 유형, 또는 특정 유형의 사용자 사이에서 특정 경험이 주로 발생하는 공간 등을 검색할 수 있는 지역 검색 장치를 제공하는데 그 다른 목적이 있다.
이와 같은 목적을 달성하기 위한 본 발명의 지역 검색 방법은 지역 명칭을 기반으로 해당 지역과 사용자에 관련된 문서를 수집하는 문서 수집 단계, 상기 수집된 문서로부터 사용자의 해당 지역에서의 경험을 추출하는 사용자 경험 추출 단계, 상기 수집된 문서로부터 사용자의 특성을 파악하는 사용자 특성 파악 단계, 상기 사용자의 특성을 기반으로 동일한 경험을 수행하는 사람들의 집단과 공간을 군집화하는 단계, 상기 군집화된 집단과 공간으로부터 사용자의 특성 정보 및 공간의 특성 정보를 파악하는 특성 파악 단계, 상기 사용자 특성 정보 및 상기 공간 특성 정보를 기반으로 해당 지역에서의 사용자 경험 및 상기 경험이 발생하는 지역을 검색하는 지역 검색 단계를 포함한다.
상기 문서 수집 단계는, 상기 지역 명칭을 검색 키워드로 하여 검색 엔진을 통해 블로그 문서를 수집하는 것일 수 있다.
상기 문서 수집 단계는, 상기 지역 명칭으로 검색된 블로그 문서를 작성한 저자의 다른 블로그 문서를 수집하는 것일 수 있다.
상기 사용자 경험 추출 단계는, 상기 지역 명칭으로 검색된 문서에서 사용자의 행동이 표현된 문장을 추출하고, 추출된 문장을 이용하여 사용자의 경험을 추출하는 것일 수 있다. 이때, 상기 사용자 경험 추출 단계는, 상기 추출된 문장의 주체가 상기 검색된 문서의 저자인지 여부와, 상기 추출된 문장 내의 경험 요소를 식별하여 상기 사용자의 경험을 추출할 수 있다.
상기 사용자 특성 파악 단계는, 상기 수집된 문서로부터 사용자의 연령대, 성별 및 직업을 분류하여 사용자의 특성을 파악하는 것일 수 있다.
상기 군집화 단계는, 사용자의 경험 횟수를 지도 데이터(supervised data)로 하는 준 지도학습 클러스트링(semi-supervised clustering) 기법을 사용하여 군집화하는 것일 수 있다.
상기 특성 파악 단계는, 해당 지역의 사용자 군집 특성을 파악할 수 있도록 사용자 및 공간의 특성 정보를 추출하는 것일 수 있다.
상기 특성 파악 단계는, 연관 규칙 학습(association rule learning) 방법을 사용하여 사용자 및 공간의 특성 정보를 파악하는 것일 수 있다.
상기 지역 검색 단계는, 해당 지역의 사용자 군집에서 발생하는 경험을 검색어로 하여 경험 발생 지역을 검색하는 것일 수 있다.
상기 지역 검색 단계는, 상기 사용자 특성 정보와 경험을 검색어로 하여 경험 발생 지역을 검색하는 것일 수 있다.
본 발명의 지역 검색 장치는 지역과 사용자에 관련된 블로그 문서를 수집하기 위한 블로그 문서 수집부, 상기 수집된 블로그 문서에서 블로그 문서 저자의 경험이 기록된 문장을 추출하고, 이를 구조화된 형태로 저장하기 위한 사용자 경험 추출부, 상기 수집된 블로그 문서로부터 사용자의 특성을 추정하여 분류하기 위한 사용자 특성 추정부, 상기 사용자 특성 추정부에서 추정한 사용자 특성 정보를 속성으로 하고, 상기 사용자 경험 추출부로부터 추출한 사용자 경험에 대하여 해당 경험이 발생한 지역 특성과 상기 사용자 특성을 기반으로 군집을 만들고, 해당 군집을 표현하는 특성을 추출하기 위한 지역-사용자 군집 및 특성 파악부 및 상기 사용자 특성을 포함하는 용어를 검색어로 하여 관련된 사용자 경험을 검색하거나, 해당 경험이 발생한 지역을 검색하기 위한 블로그 검색부를 포함한다.
상기 블로그 문서 수집부는, 미리 설정된 초기 지역명을 검색어로 하여 블로그 검색 엔진을 통해 해당 지역에 관련된 블로그 문서와, 해당 블로그 문서를 작성한 사용자의 블로그 문서를 수집하는 것일 수 있다.
지역명을 저장하기 위한 지역명 DB(database)를 더 포함하고, 상기 블로그 검색 엔진을 통하여 수집된 블로그 문서 중에서 개체명 인식기를 통하여 지역명으 로 판단된 구문을 상기 지역명 DB에 저장하는 것일 수 있다.
상기 사용자 경험 추출부는, 상기 수집된 블로그 문서에서 기 구축된 사용자의 경험을 표현하는 어휘가 포함되어 있는지 여부를 판단하여 사용자의 경험을 추출하는 것일 수 있다.
상기 사용자 경험 추출부는, 상기 수집된 블로그 문서에서 문장 내의 동사의 시제(tense), 서법(mood), 태(voice), 상(aspect) 및 법성(modality)을 포함하는 문법적 자질을 특성으로 하여 사용자의 경험이 표현된 문장인지 여부를 문장 단위로 범주화하는 것일 수 있다.
상기 사용자 특성 추정부는, 상기 수집된 블로그 문서에서 사용된 어휘적 자질 및 이모티콘 사용여부를 포함하는 분류기준으로 사용자의 특성을 추정하여 분류하는 것일 수 있다.
상기 사용자 특성 추정부는, 사용자의 특성을 성별, 나이 대 및 직업군을 포함하는 특성으로 분류하는 것일 수 있다.
상기 사용자 경험 추출부는, 자연어처리 도구를 이용하여 특정 지역과 관련된 블로그 문서를 문장 별로 분할하고, 분할된 문장을 인간 활동 핵심어가 문장 내에 존재하는지 여부를 확인하고, 분할된 문장 내에 인간 활동 핵심어가 포함되어 있으면 해당 문장이 블로그 문서 저자의 경험인지 여부를 확인하고, 저자의 경험으로 분류된 문장에 대해 자연어 처리 도구를 이용하여 사용자의 경험요소를 추출하는 것일 수 있다.
상기 사용자 경험 추출부는 인간 활동 핵심어가 저장된 인간 활동 핵심어 사 전을 더 포함하고, 상기 사용자 경험 추출부는 상기 인간 활동 핵심어 사전에 등록된 인간 활동 핵심어를 이용하여 상기 인간 활동 핵심어가 문장 내에 존재하는지 여부를 확인하는 것일 수 있다.
상기 사용자 경험 추출부는 저자 관련 여부 핵심어가 저장된 저자 관련 여부 핵심어 사전을 더 포함하고, 상기 사용자 경험 추출부는 상기 저자 관련 여부 핵심어 사전에 등록된 저자 관련 여부 핵심어를 이용하여 해당 문장이 블로그 문서 저자의 경험인지 여부를 확인하는 것일 수 있다.
상기 사용자 경험 추출부는 상기 사용자 경험 요소를 저장하기 위한 사용자 경험 DB를 더 포함할 수 있다.
상기 사용자 경험 추출부는, 인간 활동 핵심어의 존재 여부 및 문법적 자질을 기반으로 기계학습 방법을 사용한 의사 결정 트리 분류기를 통해 상기 문장이 특정 지역에서의 사용자 경험을 표현하고 있는지 여부를 판단하는 것일 수 있다.
상기 사용자 특성 추정부는, 상기 수집된 블로그 문서에 존재하는 모든 용어에 대하여 발생 빈도수를 추출하고, 추출된 발생 빈도수를 정규화하고, 정규화된 발생 빈도수를 나이브 베이스(Naive Bayes) 학습 방법에 의해 사용자의 특성을 분류하는 것일 수 있다.
상기 지역-사용자 군집 및 특성 파악부는, 상기 사용자 경험 중에서 특정 활동을 설정하고, 설정된 특정 활동에 관련된 사용자 경험을 선택하고, 선택된 사용자 경험에 저장된 속성을 추출하여 이를 짝으로 하는 항목을 생성하고, 각각의 짝에 대한 해당행위의 빈도수를 지도 데이터(supervised data)로 하는 준 지도학습 클러스터링(semi-supervised clustering) 방법을 사용하여 군집을 형성하고, 상기 군집 내의 각 항목으로 표현되는 군집의 특성을 파악하는 것일 수 있다.
상기 지역-사용자 군집 및 특성 파악부는 상기 군집 특성을 저장하기 위한 활동 DB를 더 포함할 수 있다. 이때, 본 발명의 일 실시예에서 연관 규칙 학습(association rule learning) 방법 중 아프리오리(apriori) 알고리즘을 이용하여 군집의 특성을 파악할 수 있다.
본 발명에 의하면, 특정 공간과 특정 사용자 사이에서 주로 벌어지는 경험을 검색함에 있어서, 웹 상에 기록된 사용자의 경험을 추출하고, 해당 기록을 한 저자의 특성을 마이닝하며, 이 사용자 정보와 공간의 정보를 이용하여 특정 경험이 주로 발생하는 지역-사용자 집단을 군집화하고 이들의 특성을 파악함으로써, 특정 지역에서 다양한 사용자 사이에서 벌어질 수 있는 경험 및 그러한 경험이 벌어지는 지역을 정확히 검색할 수 있도록 하는 효과가 있다.
본 발명은 사용자의 일상적인 경험이 기록되어 있는 블로그와 같은 웹 환경에서 사용자의 경험을 추출하고 사용자의 특성을 파악하여 특정 경험에 대해 사용자와 지역의 특성을 군집화하고 해당 군집의 특성을 파악함으로써, 특정 지역에서 특정 사람들 사이에 주로 벌어지는 경험을 마이닝할 수 있도록 한다. 즉 종래의 지 역 검색 방법과는 달리 블로그 상에 기록된 사용자의 경험을 자연어처리 기법을 이용하여 추출하고, 사용자의 특성을 블로그 글에서 주로 사용되는 언어적 자질을 이용하여 추정하며, 지역의 특성과 추정된 사용자의 특성을 기반으로, 주로 발생하는 사용자 경험에 대해 준 지도학습 클러스터링 방법을 통해 군집화한 후 해당 군집의 특성을 파악함으로써, 특정 사용자 그룹 내에서 특정 지역에서 활발히 벌어지는 경험을 마이닝하여 검색에서 활용할 수 있도록 한다.
이하, 첨부된 도면을 참조해서 본 발명의 실시예를 상세히 설명하면 다음과 같다. 우선 각 도면의 구성 요소들에 참조 부호를 부가함에 있어서, 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 그리고, 본 발명을 설명함에 있어, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 본 발명의 일 실시예에 따른 지역 정보 검색 장치의 구조를 도시한 블록도이다.
도 1을 참조하면, 본 발명의 지역 정보 검색 장치는 블로그 문서 수집부(110), 사용자 경험 추출부(120), 사용자 특성 추정부(130), 지역-사용자 군집 및 특성 파악부(140), 블로그 검색부(150)를 포함한다.
블로그 문서 수집부(110)는 지역과 사용자에 관련된 블로그 문서를 수집하는 역할을 한다.
사용자 경험 추출부(120)는 수집된 블로그 문서에서 블로그 문서 저자의 경험이 기록된 문장을 추출하고, 이를 구조화된 형태로 저장하는 역할을 한다.
사용자 특성 추정부(130)는 수집된 블로그 문서로부터 사용자의 특성을 추정하여 분류하는 역할을 한다. 본 발명의 일 실시예에서 사용자 특성 추정부(130)는 수집된 블로그 문서에서 사용된 어휘적 자질 및 이모티콘 사용여부를 포함하는 분류기준으로 사용자의 특성을 추정하여 분류할 수 있다.
지역-사용자 군집 및 특성 파악부(140)는 사용자 특성 추정부(130)에서 추정한 사용자 특성 정보를 속성으로 하고, 사용자 경험 추출부(120)로부터 추출한 사용자 경험에 대하여 해당 경험이 발생한 지역 특성과 사용자 특성을 기반으로 군집을 만들고, 해당 군집을 표현하는 특성을 추출하는 역할을 한다 .
블로그 검색부(150)는 사용자 특성을 포함하는 용어를 검색어로 하여 관련된 사용자 경험을 검색하거나, 해당 경험이 발생한 지역을 검색하는 역할을 한다.
도 2는 본 발명의 일 실시예에 따른 블로그 문서를 수집하는 과정을 도시한 흐름도이다.
도 2를 참조하면, 먼저 블로그 문서 수집부(110)를 통해 지역에 관련된 블로그 문서와 해당 문서 저자의 모든 블로그 문서를 수집한다. 이를 위해 먼저 초기 지역명을 설정한다(210). 초기 지역명은은 지역명 DB(220)에 입력되고 일반 블로그 검색 엔진(230)을 통하여 지역명과 관련된 블로그 문서(240)를 수집한다. 수집한 블로그 문서의 모든 글은 블로그 문서 DB(250)에 저장되고, 저자 블로그 문서 수집 엔진(260)을 통해 블로그 사이트로부터 저자가 작성한 모든 블로그 문서를 수집한다(270). 수집된 문서로부터 개체명 인식기를 통해 지역명으로 판단되는 어구를 판단하며(280), 이를 다시 지역명 DB(220)에 입력한다. 지역명 DB에 블로그 검색 엔진(230)을 통해 검색되지 않은 지역명이 존재하지 않을 때까지 위 과정을 반복한다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 블로그 문서로부터 사용자 경험을 추출하는 과정을 설명하기 위한 도면이다.
도 3 및 도 4를 참조하면, 수집된 문서의 모든 문장은 사용자 경험 추출부(120)을 통해 사람들의 지역에서의 사용자 경험 경험을 포함하고 있는 문장인지 아닌지를 판단한다.
먼저 특정 지역과 관련되어 있는 블로그 문서(310)에서부터 자연어처리 도구를 통해 문서를 문장 별로 분할한다(320).
분할된 문장은 먼저 인간 활동 핵심어 사전(380)에 등록된 인간 활동 핵심어가 문장 내에 존재하고 있는지 여부를 점검한다(330). 인간 활동 핵심어는 인간의 활동을 표현하는 어휘(특히 동사 위주)로 구성되어 있다. 그 후 자연어처리 도구를 통해 문장의 동사가 표현하고 있는 시제(時制, tense), 서법(敍法, mood), 태(態, voice), 상(相, aspect), 그리고 법성(法性, modality) 등의 문법적 자질을 추출한다(420). 인간 활동 핵심어의 존재 여부, 그리고 다른 문법적 자질을 기반으로 기계학습 방법을 사용한 의사 결정 트리 분류기(430)를 통해 문장이 지역에서의 사용자 경험을 표현하고 있는지 판단한다(440). 인간의 경험이 표현되어 있다고 판단되 는 문장에 대하여는 다시 저자의 경험인지를 판단하기 위해 저자 관련 여부 핵심어 사전(370)에 등록되어 있는 “나”, “우리” 등과 같은 핵심어가 문장에 표현되어 있는지를 점검하며(340), 이러한 키워드가 포함되어 있는 경우 저자의 경험임을 판단한다.
저자의 경험이라고 분류된 문장에 대해 문장 내에 존재하는 인간 활동 핵심어와 관련된 대상을 자연어 처리 도구를 사용하여 판단하며 이는 사용자의 경험 요소가 된다(350). 위 과정을 통해 추출된 내용은 “지역 - 사용자(저자) - 사용자 경험 요소”의 형태로 경험 DB(360)에 저장된다.
도 5는 본 발명의 일 실시예에 따른 블로그 문서로부터 사용자 특성을 파악하는 방법을 설명하기 위한 도면이다.
도 5를 참조하면, 수집한 블로그 문서는 사용자에 따라 해당 사용자가 작성한 블로그 문서가 분류되어 있다. 사용자 특성 추정부(130)은 해당 문서를 통해 사용자가 가지고 있는 성별, 나이 대, 직업군을 분류해 낸다. 각 블로그 사용자 별로 저장된 블로그 문서(510)으로부터, 존재하는 모든 용어에 대하여 해당 용어의 발생 빈도수를 추출해 낸다(520). 각 사용자 마다 자신의 작성한 블로그의 문서 수와 문서의 길이가 다르기 때문에 각 용어의 발생 수를 0.0~1.0 사이의 값으로 정규화 한다(530).
아래의 [수학식 1]은 각각의 값에 대한 정규화 방법을 나타낸 것으로 c는 실제 사용자의 블로그 문서에서 발생한 용어 t의 발생 빈도수이며, N은 사용자의 전 체 블로그에서 발생한 모든 용어의 빈도수, nc는 정규화된 용어 t의 빈도수이다.
Figure 112009075040919-PAT00001
각 용어의 정규화된 빈도수는 나이브 베이스(Naive Bayes) 학습 방법에 의해 각각 성별, 나이 대, 직업군으로의 범주에 따라 학습되며, 학습된 분류기에 따라 사용자의 성별과 나이, 직업군이 분류된다(550).
사용자 경험 추출부(120)과 사용자 특성 추정부(130)을 통해 블로그 공간에 사용자에 의해 기록된 사용자 경험은 도 6과 같은 형태로 저장된다. 개개의 사용자 경험은 블로그에 기록된 사용자의 활동 뿐만 아니라, 사용자 활동이 벌어진 지역명과 해당 지역의 공간적 속성, 기능적 속성을 포함하며, 활동을 수행한 사용자의 성별, 나이대, 그리고 직업군 정보를 포함하고 있다.
도 6은 본 발명의 일 실시예에 따른 블로그 문서로부터 추출된 사용자 경험을 저장하기 위한 저장 객체 개념도이고, 도 7은 본 발명의 일 실시예에 따른 사용자 경험으로부터 활동에 따른 지역유형과 사용자 유형을 군집화하고 그 특성을 나타내는 과정을 설명하기 위한 개념도이다.
도 6 및 도 7을 참조하면, 지역-사용자 군집 및 특성 파악부(140)는 도 6과 같은 형태로 저장되어 있는 사용자의 경험으로부터, 도 7에 도시된 바와 같이 특정 지역으로부터 특정 사람들 사이에서 활발히 벌어지는 활동을 마이닝(mining)한다.
도 8은 본 발명의 일 실시예에 따른 사용자 경험으로부터 활동에 따른 지역유형과 사용자 유형을 군집화하고 그 특성을 나타내는 과정을 설명하기 위한 흐름도이다.
도 8을 참조하면, 사용자 경험 DB(710)에 기록된 사용자 경험 중 특정 활동을 설정하고(S810), 해당 활동에 관련된 사용자 경험만을 선택한다(S820). 선택된 사용자 경험에 저장된 지역명, 지역의 공간적 속성, 기능적 속성 및 활동을 수행한 사용자의 성별, 나이대, 직업군을 추출하여 이를 짝으로 하는 [지역명, 공간적 속성, 기능적 속성, 성별, 나이대, 직업군] 항목을 만든다(S830). 그 후 각각의 짝에 대한 해당 행위의 빈도수를 지도 데이터(supervised data)로 하는 준 지도학습 클러스터링(semi-supervised clustering) 방법을 사용하여 앞의 짝들의 군집을 형성한다(S840).
아래의 [수학식 2]와 [수학식 3]은 앞서 기술한 준 지도학습 클러스터링 도중에 지도 데이터와 일치하지 않는 항목에 대한 페널티 함수(penalty function)이다. [수학식 2]는 두 항목 xi, xj가 활동 a에 대해서 유사한 활동 빈도수를 가지지 않는 경우에 대한 페널티 함수로 freq(a, x)는 행위 a에 대하여 항목 x가 몇 번이나 발생하는지에 대한 빈도수를 나타낸다. 상수 w는 이 경우에 대한 가중치이며, φD는 xi, xj 사이의 벡터 공간 상의 거리이다. A는 모든 사용자 활동의 집합을 말한다.
Figure 112009075040919-PAT00002
[수학식 3]은 두 항목 xi, xj가 활동 a에 대해서 유사한 빈도수를 가질 경우에 대한 페널티 함수로 상수 w는 이 경우에 대한 가중치를 말하며 φDmax는 모든 항목 사이의 벡터 공간 상의 최대 거리이다.
Figure 112009075040919-PAT00003
[수학식 4]는 클러스터링 과정 상 클러스터링 과정 상의 오브젝티브 함수(objective function)으로 해당 함수의 변동 값을 최소화하는 방향으로 클러스터링이 수행된다. 활동 a에 대하여 D는 항목 xi와 xi가 포함된 군집의 중심점 사이의 벡터 공간 상의 거리를 의미하며, X는 모든 항목의 집합이고 Z는 상수이다.
Figure 112009075040919-PAT00004
[수학식 2] 내지 [수학식4]를 사용하여 K 평균(K-mean) 클러스터링 기법을 사용하여 활동 a에 대하여 빈번한 활동을 보이는 항목의 군집을 추출해 낸다.
이후 준 지도학습 클러스터링(840)을 통해 파악된 항목 군집에 대하여 군집 내의 각 항목으로 표현되는 군집의 특성을 파악한다(850). 이 과정에서는 연관 규칙 학습(association rule learning) 방법 중 아프리오리(Apriori) 알고리즘을 사용한다.
위 과정을 통해 특정 활동에 대하여 빈번한 활동을 나타내는 지역유형-사용자 유형이 [지역 유형-사용자 유형-활동] DB(720)에 저장된다(860).
도 9는 본 발명의 일 실시예에 따른 지역 정보 검색 방법을 설명하기 위한 흐름도이다.
도 9를 참조하면, 지역 명칭을 기반으로 해당 지역과 사용자에 관련된 문서를 수집한다(S901). 본 발명에서 S901 단계는, 지역 명칭을 검색 키워드로 하여 검색 엔진을 통해 블로그 문서를 수집하는 것일 수 있다. 본 발명에서 S901 단계는 지역 명칭으로 검색된 블로그 문서를 작성한 저자의 다른 블로그 문서를 수집하는 것일 수 있다.
수집된 문서로부터 사용자의 해당 지역에서의 경험을 추출한다(S903). 본 발명에서 S903 단계는, 지역 명칭으로 검색된 문서에서 사용자의 행동이 표현된 문장을 추출하고, 추출된 문장을 이용하여 사용자의 경험을 추출하는 것일 수 있다. 본 발명에서 S903 단계는, 추출된 문장의 주체가 검색된 문서의 저자인지 여부와, 추출된 문장 내의 경험 요소를 식별하여 사용자의 경험을 추출하는 것일 수 있다.
다음, 수집된 문서로부터 사용자의 특성을 파악한다(S905). 본 발명에서 S905 단계는 수집된 문서로부터 사용자의 연령대, 성별 및 직업을 분류하여 사용자의 특성을 파악하는 것일 수 있다.
사용자의 특성을 기반으로 동일한 경험을 수행하는 사람들의 집단과 공간을 군집화한다(S907). 본 발명에서 S907 단계는 사용자의 경험 횟수를 지도 데이터(supervised data)로 하는 준 지도학습 클러스트링(semi-supervised clustering) 기법을 사용하여 군집화하는 것일 수 있다.
군집화된 집단과 공간으로부터 사용자의 특성 정보 및 공간의 특성 정보를 파악한다(S909). 본 발명에서 S909 단계는 해당 지역의 사용자 군집 특성을 파악할 수 있도록 사용자 및 공간의 특성 정보를 추출하는 것일 수 있다. 본 발명에서 S909 단계는 연관 규칙 학습(association rule learning) 방법을 사용하여 사용자 및 공간의 특성 정보를 파악하는 것일 수 있다.
사용자 특성 정보 및 공간 특성 정보를 기반으로 해당 지역에서의 사용자 경험 및 경험이 발생하는 지역을 검색한다(S911). 본 발명에서 S911 단계는 해당 지역의 사용자 군집에서 발생하는 경험을 검색어로 하여 경험 발생 지역을 검색할 수 있다. 본 발명에서 S911 단계는 사용자 특성 정보와 경험을 검색어로 하여 경험 발생 지역을 검색하는 것일 수 있다.
이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 본 발명이 속하는 기술분야에서 통 상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.
도 1은 본 발명의 일 실시예에 따른 지역 정보 검색 장치의 구조를 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 블로그 문서를 수집하는 과정을 도시한 흐름도이다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 블로그 문서로부터 사용자 경험을 추출하는 과정을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 블로그 문서로부터 사용자 특성을 파악하는 방법을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 블로그 문서로부터 추출된 사용자 경험을 저장하기 위한 저장 객체 개념도이다.
도 7은 본 발명의 일 실시예에 따른 사용자 경험으로부터 활동에 따른 지역유형과 사용자 유형을 군집화하고 그 특성을 나타내는 과정을 설명하기 위한 개념도이다.
도 8은 본 발명의 일 실시예에 따른 사용자 경험으로부터 활동에 따른 지역유형과 사용자 유형을 군집화하고 그 특성을 나타내는 과정을 설명하기 위한 흐름도이다.
도 9는 본 발명의 일 실시예에 따른 지역 정보 검색 방법을 설명하기 위한 흐름도이다.
*도면의 주요 부분에 대한 부호의 설명*
110 블로그 문서 수집부 120 사용자 경험 추출부
130 사용자 특성 추정부 140 지역-사용자 군집 및 특성 파악부
150 블로그 검색부

Claims (27)

  1. 지역 명칭을 기반으로 해당 지역과 사용자에 관련된 문서를 수집하는 문서 수집 단계;
    상기 수집된 문서로부터 사용자의 해당 지역에서의 경험을 추출하는 사용자 경험 추출 단계;
    상기 수집된 문서로부터 사용자의 특성을 파악하는 사용자 특성 파악 단계;
    상기 사용자의 특성을 기반으로 동일한 경험을 수행하는 사람들의 집단과 공간을 군집화하는 단계;
    상기 군집화된 집단과 공간으로부터 사용자의 특성 정보 및 공간의 특성 정보를 파악하는 특성 파악 단계; 및
    상기 사용자 특성 정보 및 상기 공간 특성 정보를 기반으로 해당 지역에서의 사용자 경험 및 상기 경험이 발생하는 지역을 검색하는 지역 검색 단계를 포함하는 지역 정보 검색 방법.
  2. 제1항에 있어서,
    상기 문서 수집 단계는,
    상기 지역 명칭을 검색 키워드로 하여 검색 엔진을 통해 블로그 문서를 수집하는 것임을 특징으로 하는 지역 정보 검색 방법.
  3. 제2항에 있어서,
    상기 문서 수집 단계는,
    상기 지역 명칭으로 검색된 블로그 문서를 작성한 저자의 다른 블로그 문서를 수집하는 것을 특징으로 하는 지역 정보 검색 방법.
  4. 제1항에 있어서,
    상기 사용자 경험 추출 단계는,
    상기 지역 명칭으로 검색된 문서에서 사용자의 행동이 표현된 문장을 추출하고, 추출된 문장을 이용하여 사용자의 경험을 추출하는 것을 특징으로 하는 지역 정보 검색 방법.
  5. 제4항에 있어서,
    상기 사용자 경험 추출 단계는,
    상기 추출된 문장의 주체가 상기 검색된 문서의 저자인지 여부와, 상기 추출된 문장 내의 경험 요소를 식별하여 상기 사용자의 경험을 추출하는 것을 특징으로 하는 지역 정보 검색 방법.
  6. 제1항에 있어서,
    상기 사용자 특성 파악 단계는,
    상기 수집된 문서로부터 사용자의 연령대, 성별 및 직업을 분류하여 사용자의 특성을 파악하는 것을 특징으로 하는 지역 정보 검색 방법.
  7. 제1항에 있어서,
    상기 군집화 단계는,
    사용자의 경험 횟수를 지도 데이터(supervised data)로 하는 준 지도학습 클러스트링(semi-supervised clustering) 기법을 사용하여 군집화하는 것을 특징으로 하는 지역 정보 검색 방법.
  8. 제1항에 있어서,
    상기 특성 파악 단계는, 해당 지역의 사용자 군집 특성을 파악할 수 있도록 사용자 및 공간의 특성 정보를 추출하는 것임을 특징으로 하는 지역 정보 검색 방법.
  9. 제1항에 있어서,
    상기 특성 파악 단계는, 연관 규칙 학습(association rule learning) 방법을 사용하여 사용자 및 공간의 특성 정보를 파악하는 것임을 특징으로 하는 지역 정보 검색 방법.
  10. 제1항에 있어서,
    상기 지역 검색 단계는,
    해당 지역의 사용자 군집에서 발생하는 경험을 검색어로 하여 경험 발생 지역을 검색하는 것을 특징으로 하는 지역 정보 검색 방법.
  11. 제1항에 있어서,
    상기 지역 검색 단계는,
    상기 사용자 특성 정보와 경험을 검색어로 하여 경험 발생 지역을 검색하는 것을 특징으로 하는 지역 정보 검색 방법.
  12. 지역과 사용자에 관련된 블로그 문서를 수집하기 위한 블로그 문서 수집부;
    상기 수집된 블로그 문서에서 블로그 문서 저자의 경험이 기록된 문장을 추출하고, 이를 구조화된 형태로 저장하기 위한 사용자 경험 추출부;
    상기 수집된 블로그 문서로부터 사용자의 특성을 추정하여 분류하기 위한 사용자 특성 추정부;
    상기 사용자 특성 추정부에서 추정한 사용자 특성 정보를 속성으로 하고, 상기 사용자 경험 추출부로부터 추출한 사용자 경험에 대하여 해당 경험이 발생한 지역 특성과 상기 사용자 특성을 기반으로 군집을 만들고, 해당 군집을 표현하는 특성을 추출하기 위한 지역-사용자 군집 및 특성 파악부; 및
    상기 사용자 특성을 포함하는 용어를 검색어로 하여 관련된 사용자 경험을 검색하거나, 해당 경험이 발생한 지역을 검색하기 위한 블로그 검색부를 포함하는 지역 정보 검색 장치.
  13. 제12항에 있어서,
    상기 블로그 문서 수집부는, 미리 설정된 초기 지역명을 검색어로 하여 블로그 검색 엔진을 통해 해당 지역에 관련된 블로그 문서와, 해당 블로그 문서를 작성한 사용자의 블로그 문서를 수집하는 것을 특징으로 하는 지역 정보 검색 장치.
  14. 제13항에 있어서,
    지역명을 저장하기 위한 지역명 DB(database)를 더 포함하고,
    상기 블로그 검색 엔진을 통하여 수집된 블로그 문서 중에서 개체명 인식기를 통하여 지역명으로 판단된 구문을 상기 지역명 DB에 저장하는 것을 특징으로 하는 지역 정보 검색 장치.
  15. 제12항에 있어서,
    상기 사용자 경험 추출부는,
    상기 수집된 블로그 문서에서 기 구축된 사용자의 경험을 표현하는 어휘가 포함되어 있는지 여부를 판단하여 사용자의 경험을 추출하는 것을 특징으로 하는 지역 정보 검색 장치.
  16. 제12항에 있어서,
    상기 사용자 경험 추출부는,
    상기 수집된 블로그 문서에서 문장 내의 동사의 시제(tense), 서법(mood), 태(voice), 상(aspect) 및 법성(modality)을 포함하는 문법적 자질을 특성으로 하여 사용자의 경험이 표현된 문장인지 여부를 문장 단위로 범주화하는 것을 특징으로 하는 지역 정보 검색 장치.
  17. 제12항에 있어서,
    상기 사용자 특성 추정부는,
    상기 수집된 블로그 문서에서 사용된 어휘적 자질 및 이모티콘 사용여부를 포함하는 분류기준으로 사용자의 특성을 추정하여 분류하는 것을 특징으로 하는 지역 정보 검색 장치.
  18. 제12항에 있어서,
    상기 사용자 특성 추정부는,
    사용자의 특성을 성별, 나이 대 및 직업군을 포함하는 특성으로 분류하는 것을 특징으로 하는 지역 정보 검색 장치.
  19. 제12항에 있어서,
    상기 사용자 경험 추출부는,
    자연어처리 도구를 이용하여 특정 지역과 관련된 블로그 문서를 문장 별로 분할하고, 분할된 문장을 인간 활동 핵심어가 문장 내에 존재하는지 여부를 확인하고, 분할된 문장 내에 인간 활동 핵심어가 포함되어 있으면 해당 문장이 블로그 문서 저자의 경험인지 여부를 확인하고, 저자의 경험으로 분류된 문장에 대해 자연어 처리 도구를 이용하여 사용자의 경험요소를 추출하는 것을 특징으로 하는 지역 정보 검색 장치.
  20. 제19항에 있어서,
    상기 사용자 경험 추출부는 인간 활동 핵심어가 저장된 인간 활동 핵심어 사전을 더 포함하고,
    상기 사용자 경험 추출부는 상기 인간 활동 핵심어 사전에 등록된 인간 활동 핵심어를 이용하여 상기 인간 활동 핵심어가 문장 내에 존재하는지 여부를 확인하는 것을 특징으로 하는 지역 정보 검색 장치.
  21. 제19항에 있어서,
    상기 사용자 경험 추출부는 저자 관련 여부 핵심어가 저장된 저자 관련 여부 핵심어 사전을 더 포함하고,
    상기 사용자 경험 추출부는 상기 저자 관련 여부 핵심어 사전에 등록된 저자 관련 여부 핵심어를 이용하여 해당 문장이 블로그 문서 저자의 경험인지 여부를 확인하는 것을 특징으로 하는 지역 정보 검색 장치.
  22. 제19항에 있어서,
    상기 사용자 경험 추출부는 상기 사용자 경험 요소를 저장하기 위한 사용자 경험 DB를 더 포함하는 것을 특징으로 하는 지역 정보 검색 장치.
  23. 제19항에 있어서,
    상기 사용자 경험 추출부는, 인간 활동 핵심어의 존재 여부 및 문법적 자질을 기반으로 기계학습 방법을 사용한 의사 결정 트리 분류기를 통해 상기 문장이 특정 지역에서의 사용자 경험을 표현하고 있는지 여부를 판단하는 것을 특징으로 하는 지역 정보 검색 장치.
  24. 제12항에 있어서,
    상기 사용자 특성 추정부는,
    상기 수집된 블로그 문서에 존재하는 모든 용어에 대하여 발생 빈도수를 추출하고, 추출된 발생 빈도수를 정규화하고, 정규화된 발생 빈도수를 나이브 베이스(Naive Bayes) 학습 방법에 의해 사용자의 특성을 분류하는 것을 특징으로 하는 지역 정보 검색 장치.
  25. 제12항에 있어서,
    상기 지역-사용자 군집 및 특성 파악부는,
    상기 사용자 경험 중에서 특정 활동을 설정하고, 설정된 특정 활동에 관련된 사용자 경험을 선택하고, 선택된 사용자 경험에 저장된 속성을 추출하여 이를 짝으로 하는 항목을 생성하고, 각각의 짝에 대한 해당행위의 빈도수를 지도 데이터(supervised data)로 하는 준 지도학습 클러스터링(semi-supervised clustering) 방법을 사용하여 군집을 형성하고, 상기 군집 내의 각 항목으로 표현되는 군집의 특성을 파악하는 것을 특징으로 하는 지역 정보 검색 장치.
  26. 제25항에 있어서,
    상기 지역-사용자 군집 및 특성 파악부는 상기 군집 특성을 저장하기 위한 활동 DB를 더 포함하는 것을 특징을 하는 지역 정보 검색 장치.
  27. 제25항에 있어서,
    연관 규칙 학습(association rule learning) 방법 중 아프리오리(apriori) 알고리즘을 이용하여 군집의 특성을 파악하는 것을 특징으로 하는 지역 정보 검색 장치.
KR1020090119762A 2009-12-04 2009-12-04 지역 정보 검색 장치 및 방법 KR101110026B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090119762A KR101110026B1 (ko) 2009-12-04 2009-12-04 지역 정보 검색 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090119762A KR101110026B1 (ko) 2009-12-04 2009-12-04 지역 정보 검색 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20110062896A true KR20110062896A (ko) 2011-06-10
KR101110026B1 KR101110026B1 (ko) 2012-02-29

Family

ID=44396997

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090119762A KR101110026B1 (ko) 2009-12-04 2009-12-04 지역 정보 검색 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101110026B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150112272A (ko) * 2014-03-27 2015-10-07 전자부품연구원 상황 기반 서비스 기술
KR20150116970A (ko) * 2014-04-08 2015-10-19 에스케이플래닛 주식회사 콘텐츠 재생 장치를 이용한 사용자 특성 기반의 광고 제공 장치 및 방법
WO2019112117A1 (ko) * 2017-12-05 2019-06-13 (주)아크릴 텍스트 콘텐츠 작성자의 메타정보를 추론하는 방법 및 컴퓨터 프로그램
CN112784165A (zh) * 2021-01-29 2021-05-11 北京百度网讯科技有限公司 关联关系预估模型的训练方法以及预估文件热度的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020011543A (ko) * 2000-08-02 2002-02-09 박진형 여행 일정 자동 생성 및 실시간 맞춤형 여행 정보의 제공방법 및 시스템
KR100625217B1 (ko) * 2004-07-23 2006-09-20 권용진 모바일 기반의 지리정보 검색 및 조회 시스템
KR100769247B1 (ko) * 2005-12-06 2007-10-22 히크(주) 여행정보 시스템을 이용한 여행정보 제공방법
KR20070076963A (ko) * 2006-01-20 2007-07-25 (주)넷피아닷컴 지역정보 제공 시스템 및 그 방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150112272A (ko) * 2014-03-27 2015-10-07 전자부품연구원 상황 기반 서비스 기술
US10055688B2 (en) 2014-03-27 2018-08-21 Korea Electronics Technology Institute Context based service technology
KR20150116970A (ko) * 2014-04-08 2015-10-19 에스케이플래닛 주식회사 콘텐츠 재생 장치를 이용한 사용자 특성 기반의 광고 제공 장치 및 방법
WO2019112117A1 (ko) * 2017-12-05 2019-06-13 (주)아크릴 텍스트 콘텐츠 작성자의 메타정보를 추론하는 방법 및 컴퓨터 프로그램
CN112784165A (zh) * 2021-01-29 2021-05-11 北京百度网讯科技有限公司 关联关系预估模型的训练方法以及预估文件热度的方法

Also Published As

Publication number Publication date
KR101110026B1 (ko) 2012-02-29

Similar Documents

Publication Publication Date Title
Rangel et al. A low dimensionality representation for language variety identification
US8452798B2 (en) Query and document topic category transition analysis system and method and query expansion-based information retrieval system and method
KR101713831B1 (ko) 문서추천장치 및 방법
Schmid et al. E-mail authorship attribution using customized associative classification
Mensikova et al. Ensemble sentiment analysis to identify human trafficking in web data
Whitney et al. Don’t want to get caught? don’t say it: The use of emojis in online human sex trafficking ads
CN104794161A (zh) 对网络舆情监控的方法
KR102334236B1 (ko) 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용
Sheshasaayee et al. Comparison of classification algorithms in text mining
CN110941953A (zh) 一种兼顾可解释性的网络虚假评论的自动识别方法及系统
Kumar et al. Multimodal sentiment analysis using speech signals with machine learning techniques
CN107506472A (zh) 一种学生浏览网页分类方法
Eke et al. The significance of global vectors representation in sarcasm analysis
KR101110026B1 (ko) 지역 정보 검색 장치 및 방법
JP4879775B2 (ja) 辞書作成方法
Trisal et al. K-RCC: A novel approach to reduce the computational complexity of KNN algorithm for detecting human behavior on social networks
Trivedi et al. Capturing user sentiments for online Indian movie reviews: A comparative analysis of different machine-learning models
JP4606349B2 (ja) 話題画像抽出方法及び装置及びプログラム
JP4539616B2 (ja) 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
KR101265467B1 (ko) 블로그 문서에서의 경험 문장 추출 방법 및 동사 분류 방법
Suresh et al. A fuzzy based hybrid hierarchical clustering model for twitter sentiment analysis
JP2015170062A (ja) 文書集合分析装置、文書集合分析方法、文書集合分析プログラム
Aneja et al. Detecting fake news with machine learning
Priyadarshini LeDoCl: A Semantic Model for Legal Documents Classification using Ensemble Methods
Bekkali et al. Web search engine-based representation for Arabic tweets categorization

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160104

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee