KR20130113250A - 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템 - Google Patents

대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템 Download PDF

Info

Publication number
KR20130113250A
KR20130113250A KR1020120035683A KR20120035683A KR20130113250A KR 20130113250 A KR20130113250 A KR 20130113250A KR 1020120035683 A KR1020120035683 A KR 1020120035683A KR 20120035683 A KR20120035683 A KR 20120035683A KR 20130113250 A KR20130113250 A KR 20130113250A
Authority
KR
South Korea
Prior art keywords
sentence
subject
propensity
inclination
score
Prior art date
Application number
KR1020120035683A
Other languages
English (en)
Other versions
KR101351555B1 (ko
Inventor
이재희
배성환
Original Assignee
주식회사 알에스엔
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 알에스엔 filed Critical 주식회사 알에스엔
Priority to KR1020120035683A priority Critical patent/KR101351555B1/ko
Publication of KR20130113250A publication Critical patent/KR20130113250A/ko
Application granted granted Critical
Publication of KR101351555B1 publication Critical patent/KR101351555B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Abstract

본 발명은 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템에 관한 것으로, 더욱 상세하게는 컴퓨터 시스템과 인터넷을 통한 대용량의 데이터에 대한 검색 환경에서 신속, 정확한 검색 결과를 위한 텍스트 마이닝을 수행하기 위하여 필요한 분류(Category)를 전자문서에서 자동으로 추출하여 선정하기 위한 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템에 관한 것이다.
본 발명인 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템은,
단어를 추출하기 위한 형태소분석부(110)와,
문장의 끝에 사용될 수 있는 단어나 문자 부호 정보를 저장하고 있는 문장끝문자정보디비(120)와,
상기 문장끝문자정보디비를 참조하여 문장의 끝에 존재하는 단어나 문자부호가 위치한 곳까지의 문자열을 한 문장으로 정의하는 문장정의부(130)를 포함하여 구성되는 문장단위추출수단(100)과;
단어별 성향 정보를 저장하고 있는 성향단어사전디비(210)와,
단어가 연속으로 쓰일 경우의 의미가 반전되는 반전 성향 정보를 저장하는 반전성향단어사전디비(220)와,
주어 정확도 점수와 성향 정확도 점수를 저장하고 있는 정확도점수정보디비(230)와,
문장단위추출수단에 의해 추출된 문장의 정보에서 문장의 주어와 성향을 판단한 후, 성향단어사전디비와 반전성향단어사전디비 및 정확도점수정보디비를 참조하여 주어 정확도 점수와 성향 정확도 점수를 계산하기 위한 정확도점수계산부(240)를 포함하여 구성되는 문장주어및성향추출수단(200)과;
문장주어및성향추출수단에서 추출된 문장들의 주어와 성향정보를 참조하여 문서 전체에서 각각의 문장의 길이가 차지하고 있는 비율, 문서 전체에서 문장의 위치에 따른 가중치, 동일한 주어와 성향이 있을 경우의 가중치를 계산하여,
문서 전체에서 가장 높은 점수를 얻은 문장의 주어와 성향 정보를 추출하기 위한 문서전체주어및성향추출수단(300)과;
상기 문서전체주어및성향추출수단에서 도출된 문서의 주어와 문서 전체의 성향 단어를 분류 데이터로 선정하기 위한 분류데이터선정수단(400);을 포함하여 구성되는 것을 특징으로 한다.
본 발명을 통해 컴퓨터 시스템과 인터넷을 통한 대용량의 데이터에 대한 검색 환경에서 신속, 정확한 검색 결과를 위한 텍스트 마이닝을 수행하기 위하여 필요한 분류(Category)를 전자문서에서 자동으로 추출하여 선정함으로써, 텍스트 마이닝 작업에서 정확도를 높이기 위한 분류(Category) 데이터를 제공할 수 있게 된다.
또한, 정확한 분류(Category)를 이용하여 수많은 데이터에서 사용자가 원하는 데이터를 정확하게 검색할 수 있게 된다.

Description

대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템{classification-extraction system based meaning for text-mining of large data.}
본 발명은 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템에 관한 것으로, 더욱 상세하게는 컴퓨터 시스템과 인터넷을 통한 대용량의 데이터에 대한 검색 환경에서 신속, 정확한 검색 결과를 위한 텍스트 마이닝을 수행하기 위하여 필요한 분류(Category)를 전자문서에서 자동으로 추출하여 선정하기 위한 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템에 관한 것이다.
오늘날 컴퓨터 시스템의 발달과 인터넷망의 초고속화 또는 Mobile 기기의 무선 인터넷 사용 증가로 인하여 기업의 업무활동 또는 개인의 취미 활동 등과 같은 일상 생활 대부분의 정보가 데이터화되어 쌓이게 된다.
그러한 데이터를 효율적으로 관리하기 위하여 검색 기술은 필수라 할 수 있다.
이렇듯 중요도가 높아지고 있는 검색 기술이지만 기존의 키워드 기반 정보 검색은 정보의 기하급수적인 증가로 인하여 제 역할을 못하고 있는 상황이다.
많은 기업들이 시멘틱(Semantic) 검색, 감성분석(Sentiment Analysis) 검색, 사용자 경험(User Experience) 검색 등을 개발하여 서비스 중이거나 개발중에 있다.
이런 검색 기술들에 텍스트 마이닝은 필수로 사용되는 기술이며 많은 분류(Category) 추출 방법이 사용되고 있다.
기존의 분류(Category) 추출 방법은 첫째로 사람이 직접 문서를 보고 특정 키워드를 선택하여 분류로 지정하는 방법이 있는데, 이는 작업자의 주관에 따라 달라질 수 있으며 현재와 같이 데이터량이 많아져 분류 또한 수시로 변하며 추가되고 있는 상황에 대응하기에는 문제가 있는 방법이다.
둘째로 문서에 있는 키워드를 단순 추출하여 분류로 사용하는 방법인데 이는 정확도가 많이 떨어지기 때문에 관련없는 분류를 추출할 가능성이 높으므로 문제가 있다.
없음.
따라서 본 발명은 상기와 같은 종래 기술의 문제점을 감안하여 제안된 것으로서, 본 발명의 목적은 컴퓨터 시스템과 인터넷을 통한 대용량의 데이터에 대한 검색 환경에서 신속, 정확한 검색 결과를 위한 텍스트 마이닝을 수행하기 위하여 필요한 분류(Category)를 전자문서에서 자동으로 추출하여 선정하도록 하는데 있다.
본 발명이 해결하고자 하는 과제를 달성하기 위하여,
본 발명의 일실시예에 따른 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템은,
단어를 추출하기 위한 형태소분석부(110)와,
문장의 끝에 사용될 수 있는 단어나 문자 부호 정보를 저장하고 있는 문장끝문자정보디비(120)와,
상기 문장끝문자정보디비를 참조하여 문장의 끝에 존재하는 단어나 문자부호가 위치한 곳까지의 문자열을 한 문장으로 정의하는 문장정의부(130)를 포함하여 구성되는 문장단위추출수단(100)과;
단어별 성향 정보를 저장하고 있는 성향단어사전디비(210)와,
단어가 연속으로 쓰일 경우의 의미가 반전되는 반전 성향 정보를 저장하는 반전성향단어사전디비(220)와,
주어 정확도 점수와 성향 정확도 점수를 저장하고 있는 정확도점수정보디비(230)와,
문장단위추출수단에 의해 추출된 문장의 정보에서 문장의 주어와 성향을 판단한 후, 성향단어사전디비와 반전성향단어사전디비 및 정확도점수정보디비를 참조하여 주어 정확도 점수와 성향 정확도 점수를 계산하기 위한 정확도점수계산부(240)를 포함하여 구성되는 문장주어및성향추출수단(200)과;
문장주어및성향추출수단에서 추출된 문장들의 주어와 성향정보를 참조하여 문서 전체에서 각각의 문장의 길이가 차지하고 있는 비율, 문서 전체에서 문장의 위치에 따른 가중치, 동일한 주어와 성향이 있을 경우의 가중치를 계산하여,
문서 전체에서 가장 높은 점수를 얻은 문장의 주어와 성향 정보를 추출하기 위한 문서전체주어및성향추출수단(300)과;
상기 문서전체주어및성향추출수단에서 도출된 문서의 주어와 문서 전체의 성향 단어를 분류 데이터로 선정하기 위한 분류데이터선정수단(400);을 포함하여 구성되어 본 발명의 과제를 해결하게 된다.
이상의 구성 및 작용을 지니는 본 발명에 따른 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템은,
컴퓨터 시스템과 인터넷을 통한 대용량의 데이터에 대한 검색 환경에서 신속, 정확한 검색 결과를 위한 텍스트 마이닝을 수행하기 위하여 필요한 분류(Category)를 전자문서에서 자동으로 추출하여 선정함으로써, 텍스트 마이닝 작업에서 정확도를 높이기 위한 분류(Category) 데이터를 제공할 수 있게 된다.
또한, 정확한 분류(Category)를 이용하여 수많은 데이터에서 사용자가 원하는 데이터를 정확하게 검색할 수 있게 된다.
도 1은 본 발명의 일실시예에 따른 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템의 전체 구성도이다.
도 2는 본 발명의 일실시예에 따른 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템의 문장단위추출수단 블록도이다.
도 3은 본 발명의 일실시예에 따른 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템의 문장주어및성향추출수단 블록도이다.
상기 과제를 달성하기 위한 본 발명의 일실시예에 따른 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템은,
단어를 추출하기 위한 형태소분석부(110)와,
문장의 끝에 사용될 수 있는 단어나 문자 부호 정보를 저장하고 있는 문장끝문자정보디비(120)와,
상기 문장끝문자정보디비를 참조하여 문장의 끝에 존재하는 단어나 문자부호가 위치한 곳까지의 문자열을 한 문장으로 정의하는 문장정의부(130)를 포함하여 구성되는 문장단위추출수단(100)과;
단어별 성향 정보를 저장하고 있는 성향단어사전디비(210)와,
단어가 연속으로 쓰일 경우의 의미가 반전되는 반전 성향 정보를 저장하는 반전성향단어사전디비(220)와,
주어 정확도 점수와 성향 정확도 점수를 저장하고 있는 정확도점수정보디비(230)와,
문장단위추출수단에 의해 추출된 문장의 정보에서 문장의 주어와 성향을 판단한 후, 성향단어사전디비와 반전성향단어사전디비 및 정확도점수정보디비를 참조하여 주어 정확도 점수와 성향 정확도 점수를 계산하기 위한 정확도점수계산부(240)를 포함하여 구성되는 문장주어및성향추출수단(200)과;
문장주어및성향추출수단에서 추출된 문장들의 주어와 성향정보를 참조하여 문서 전체에서 각각의 문장의 길이가 차지하고 있는 비율, 문서 전체에서 문장의 위치에 따른 가중치, 동일한 주어와 성향이 있을 경우의 가중치를 계산하여,
문서 전체에서 가장 높은 점수를 얻은 문장의 주어와 성향 정보를 추출하기 위한 문서전체주어및성향추출수단(300)과;
상기 문서전체주어및성향추출수단에서 도출된 문서의 주어와 문서 전체의 성향 단어를 분류 데이터로 선정하기 위한 분류데이터선정수단(400);을 포함하여 구성되는 것을 특징으로 한다.
이때, 상기 문서전체주어및성향추출수단(300)은,
문서 전체에서 문장의 주어와 성향이 추출된 비율을 계산하는 것을 특징으로 한다.
이때, 상기 문서전체주어및성향추출수단(300)은,
문장 각각의 주어 점수를 비교하여 문장의 주어점수가 관리자에 의해 설정된 점수 이상의 것 중에서 가장 높은 점수를 가지고 있는 문장의 주어를 문서 전체의 주어로 선정하는 것을 특징으로 한다.
이때, 상기 분류데이터선정수단(400)은,
문서 전체의 성향 점수가 관리자가 설정한 점수 이상일 경우에 주어와 함께 성향 단어를 분류 데이터로 사용하는 것을 특징으로 한다.
이하, 본 발명에 의한 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템의 실시예를 통해 상세히 설명하도록 한다.
본 발명의 대용량 데이터에서 원하는 데이터를 신속 정확하게 검색하기 위해서는 정확한 분류(Category)설정, 핵심 키워드 추출, 문서 연관도 추출, 키워드 연관도 추출 등의 작업이 필요한데 이중 정확한 분류(Category) 설정을 위해 문서에서 정확하게 분류(Category)를 추출해 내는 것이 가장 중요하다.
형태소분석부를 사용하여 추출된 데이터에서 명사와 형용사나 동사의 순서, 하나의 명사에 대한 긍정/부정 형용사의 출현빈도, 명사의 출현 빈도를 분석하여 해당 문서의 주어와 긍정/부정 성향을 선발해 조합함으로써 분류(Category)를 만들 수 있게 된다.
도 1은 본 발명의 일실시예에 따른 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템의 전체 구성도이다.
도 1에 도시한 바와 같이, 본 발명인 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템(1000)은,
문장단위추출수단(100)과; 문장주어및성향추출수단(200)과; 문서전체주어및성향추출수단(300)과; 분류데이터선정수단(400);을 포함하여 구성된다.
즉, 본 발명은 검색을 위한 전 단계인 데이터 마이닝에서 전자문서를 분류하기 위한 분류(Category)를 자동으로 추출하여 사람의 개입 없이도 전자문서를 정확하게 분류할 수 있도록 하는 시스템을 제안하고 있다.
상기 과정에서 문서 전체 또는 문장에서 주어의 위치와 다음에 오는 형용사나 동사의 성향을 파악하여 명사의 출현빈도와 함께 공식에 대입하여 점수로 환산하여 저장된다.
문서 전체의 점수 환산 작업이 완료되면 정확도를 측정하여 일정점수 이상의 단어 또는 문장이 분류(Category) 추출되어 사용할 수 있는 형태로 저장된다.
도 2는 본 발명의 일실시예에 따른 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템의 문장단위추출수단 블록도이다.
도 2에 도시한 바와 같이, 상기 문장단위추출수단(100)은,
단어를 추출하기 위한 형태소분석부(110)와,
문장의 끝에 사용될 수 있는 단어나 문자 부호 정보를 저장하고 있는 문장끝문자정보디비(120)와,
상기 문장끝문자정보디비를 참조하여 문장의 끝에 존재하는 단어나 문자부호가 위치한 곳까지의 문자열을 한 문장으로 정의하는 문장정의부(130)를 포함하여 구성되게 된다.
즉, 전자문서에서 문장 단위를 추출하기 위하여 먼저 상기 형태소분석부(110)에 의해 모든 단어를 추출한 후, 상기 문장정의부(130)에서 문장의 끝에 사용되는 단어(하다, 했다, 한다, 니다, 니까, 었다, 된다 등)나 끝점 등의 문자 부호(. , ? , !)를 추출하여 해당 단어나 문자부호가 위치한 곳까지의 문자열을 한 문장으로 정의하게 된다.
이를 위하여 문장의 끝에 올 수 있는 단어와 문자부호는 미리 정의되어 있어야 하며, 정의된 정보는 상기 문장끝문자정보디비(120)에 저장되어 관리하게 된다.
추출된 문장의 정보에 명사, 수사, 조사, 동사, 형용사, 관형사, 부사, 감탄사의 정보, 문서에서 문장의 위치, 문장의 길이, 전체 문서의 길이, 전체 문장의 수가 포함되어 있어야 한다.
여기에서 문자의 끝에 올 수 있는 단어를 정의한 이유는 전자문서가 인터넷에서 사용되는 문서이기 때문에 책이나 신문과는 다른 일반적이지 않은 비정형의 문서가 많기 때문이다.
문자 설명
.
끝점 : 문장부호 가운데 마침표의 하나로 가로쓰기에 사용된다. 서술이나 명령, 청유 등을 나타내는 문장의 끝이나 아라비아 숫자로 연월일을 표시할 때, 표시문자의 다음, 준말을 나타낼 때 쓰인다.
?
물음표 : 문장부호 가운데 마침표의 하나로 물음이나 의심 또는 반어, 의문, 가벼운 감탄, 빈정거림 따위를 나타낼 때 쓰인다.
!
느낌표 : 문장부호 가운데 마침표의 하나로 감탄이나 놀람, 부름, 명령 등 강한 느낌을 나타낼 때 쓰인다.

고리점 : 문장부호 가운데 마침표의 하나로 세로쓰기에 사용된다. 문장이 끝났음을 알리거나 아라비아 숫자만으로 연월일을 표시할 때, 또는 준말을 나타낼 때 쓰인다.
……
말줄임표 : 글에서 말을 줄일 때 쓰인다. 인터넷에서는 끝점3개 또는 3개 이상으로 표현 되는 경우가 많다.
하다
(사람이나 동물이 어떤 일을)행위로 실현하다. - 했다, 것이다, 한다, 하였다, 있다, 었다, 니다, 혔다, 셨다, 았다, 할까, 을까, 웠다, 없다, 준다, 좋다, 싫다, 니까, 졌다 등으로 대부분의 문장에서 마지막에 쓰인다.
상기 표 1은 문장의 끝에 사용될 수 있는 문자를 나타낸 것으로서, 상기 문장끝문자정보디비에 저장되어 관리된다.
도 3은 본 발명의 일실시예에 따른 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템의 문장주어및성향추출수단 블록도이다.
도 3에 도시한 바와 같이, 상기 문장주어및성향추출수단(200)은,
단어별 성향 정보를 저장하고 있는 성향단어사전디비(210)와,
단어가 연속으로 쓰일 경우의 의미가 반전되는 반전 성향 정보를 저장하는 반전성향단어사전디비(220)와,
주어 정확도 점수와 성향 정확도 점수를 저장하고 있는 정확도점수정보디비(230)와,
문장단위추출수단에 의해 추출된 문장의 정보에서 문장의 주어와 성향을 판단한 후, 성향단어사전디비와 반전성향단어사전디비 및 정확도점수정보디비를 참조하여 주어 정확도 점수와 성향 정확도 점수를 계산하기 위한 정확도점수계산부(240)를 포함하여 구성되는 것을 특징으로 한다.
문장단위추출수단에서 추출된 문장의 정보에 명사, 수사, 조사, 동사, 형용사, 관형사, 부사, 감탄사 정보가 있으므로 이를 이용해 정확도점수계산부에서 아래와 같은 처리 과정을 거쳐 문장의 주어와 성향을 판단하며, 주어 정확도 점수와, 성향 정확도 점수를 10점 만점의 형태로 상기 정확도점수정보디비(230)에 저장한다.
상기 정확도점수정보디비에는 관리자가 설정한 점수를 저장하게 되므로 점수 수정이 가능하다.
이를 위해 단어별 성향을 검색할 수 있는 성향단어사전디비(210)과 단어가 연속으로 쓰일 경우 의미가 반전되는 반전성향단어사전디비(220)를 미리 구축해 사용할 수 있도록 해야 한다.
첫째, 문장의 시작부분(처음과 처음의 3개 단어 이내)에 명사가 조사, 수사, 동사, 형용사, 관형사, 부사, 감탄사와 함께 사용되었을 경우에는 문장의 주어로 판단한다.(정확도 점수 10점)
둘째, 문장의 시작부분(처음과 처음의 3개 단어 이내)에 명사가 없을 경우에는 문장 전체에서 명사가 조사, 수사, 동사, 형용사, 관형사, 부사, 감탄사와 함께 쓰인 경우를 찾아 주어로 판단한다.(정확도 점수 9점)
세째, 문장 전체에서 명사가 조사, 수사, 동사, 형용사, 관형사, 부사, 감탄사와 함께 쓰인 경우가 다수일 경우 주어가 여러 개인 문장으로 판단한다.(정확도 점수 8점)
네째, 문장 전체에서 명사가 조사, 수사, 동사, 형용사, 관형사, 부사, 감탄사와 함께 쓰인 경우가 없을 경우 단독으로 사용된 명사를 주어로 판단한다.(정확도 점수 7점)
다섯째, 문장 전체에서 단독으로 사용된 명사가 다수일 경우 주어가 여러 개인 문장으로 판단한다.(정확도 점수 6점)
여섯째, 문장 전체에서 명사가 없을 경우에 문장의 시작부분(처음과 처음의 3개 단어 이내)에 형용사나 동사가 조사, 수사, 관형사, 부사, 감탄사와 함께 쓰인 경우를 찾아 주어로 판단한다.(정확도 점수 5점)
일곱째, 문장의 시작부분(처음과 처음의 3개 단어 이내)에 형용사나 동사가 없을 경우 문장 전체에서 형용사나 동사가 조사, 수사, 관형사, 부사, 감탄사와 함께 쓰인 경우를 찾아 주어로 판단한다.(정확도 점수 4점)
여덟째, 문장 전체에서 형용사나 동사가 조사, 수사, 관형사, 부사, 감탄사와 함께 쓰인 경우가 다수일 경우 주어가 여러 개인 문장으로 판단한다.(정확도 점수 3점)
아홉째, 문장 전체에 명사, 형용사, 동사가 없을 경우 정확도에 많은 문제가 생길 수 있으므로 판단을 하지 않는다.
열째, 문장에서 주어가 추출된 경우 문장 전체에서 형용사나 동사를 추출하는데 주어와 인접한 정도를 함께 추출한다.
열한번째, 문장에서 주어가 추출된 경우 문장 전체에서 형용사나 동사가 없으면 성향 판단을 하지 않는다.
열두번째, 문장에서 형용사나 동사가 추출된 경우 성향단어사전에서 추출된 모든 형용사나 동사의 성향을 찾아 형용사나 동사의 성향을 판단한다.
열세번째, 문장에서 형용사나 동사의 성향이 판단된 경우 형용사나 동사가 같이 쓰일 경우, 의미가 반전되는 단어와 함께 쓰였는지 반전성향단어사전에서 찾아 성향을 수정한다.
열네번째, 문장에서 형용사나 동사의 성향이 판단되었고 성향이 수정이 완료 되었을 경우 문장의 주어와의 인접한 정도를 확인해 점수로 환산한다.
열다섯번째, 문장의 주어와 인접한 형용사나 동사의 성향에 대한 정확도 점수의 가중치를 주어 전체 문장의 성향을 판단한다.
점수 조건
10 문장에서 주어의 바로 이전 또는 바로 다음의 단어가 형용사나 동사인 경우 (주어와 형용사나 동사의 사이에 조사, 수사, 관형사, 부사가 있어도 같은 경우로 처리한다.)
9 문장에서 주어와 형용사나 동사의 사이에 1개의 명사, 형용사, 동사, 감탄사가 있을 경우 (주어와 형용사나 동사의 사이에 조사, 수사, 관형사, 부사가 있어도 같은 경우로 처리한다.)
8 문장에서 주어와 형용사나 동사의 사이에 2개의 명사, 형용사, 동사, 감탄사가 있을 경우 (주어와 형용사나 동사의 사이에 조사, 수사, 관형사, 부사가 있어도 같은 경우로 처리한다.)
7 문장에서 주어와 형용사나 동사의 사이에 3개의 명사, 형용사, 동사, 감탄사가 있을 경우 (주어와 형용사나 동사의 사이에 조사, 수사, 관형사, 부사가 있어도 같은 경우로 처리한다.)
6 문장에서 주어와 형용사나 동사의 사이에 4개의 명사, 형용사, 동사, 감탄사가 있을 경우 (주어와 형용사나 동사의 사이에 조사, 수사, 관형사, 부사가 있어도 같은 경우로 처리한다.)
5 문장에서 주어와 형용사나 동사의 사이에 5개의 명사, 형용사, 동사, 감탄사가 있을 경우 (주어와 형용사나 동사의 사이에 조사, 수사, 관형사, 부사가 있어도 같은 경우로 처리한다.)
4 문장에서 주어와 형용사나 동사의 사이에 6개의 명사, 형용사, 동사, 감탄사가 있을 경우 (주어와 형용사나 동사의 사이에 조사, 수사, 관형사, 부사가 있어도 같은 경우로 처리한다.)
3 문장에서 주어와 형용사나 동사의 사이에 7개의 명사, 형용사, 동사, 감탄사가 있을 경우 (주어와 형용사나 동사의 사이에 조사, 수사, 관형사, 부사가 있어도 같은 경우로 처리한다.)
2 문장에서 주어와 형용사나 동사의 사이에 8개의 명사, 형용사, 동사, 감탄사가 있을 경우 (주어와 형용사나 동사의 사이에 조사, 수사, 관형사, 부사가 있어도 같은 경우로 처리한다.)
1 문장에서 주어와 형용사나 동사의 사이에 9개의 명사, 형용사, 동사, 감탄사가 있을 경우 (주어와 형용사나 동사의 사이에 조사, 수사, 관형사, 부사가 있어도 같은 경우로 처리한다.)
0 문장에서 주어와 형용사나 동사의 사이에 10개 이상의 명사, 형용사, 동사, 감탄사가 있을 경우 (주어와 형용사나 동사의 사이에 조사, 수사, 관형사, 부사가 있어도 같은 경우로 처리한다.)
상기 문서전체주어 및 성향추출수단(300)은 문장주어 및 성향추출수단에서 추출된 문장들의 주어와 성향정보를 참조하여 문서 전체의 길이에서 각각의 문장의 길이가 차지하고 있는 비율, 문서 전체에서 문장의 위치에 따른 가중치, 동일한 주어와 성향이 있을 경우의 가중치를 계산하여, 문서 전체에서 가장 높은 점수를 얻은 문장의 주어와 성향 정보를 추출하게 된다.
대상은 문장에서 주어가 추출된 문장으로 한다.
이때, 상기 문서 전체의 주어와 성향정보를 추출하는데 필요한 조건은 하기와 같다.
즉, 문서 전체의 길이에서 문장의 길이가 차지하는 비율과, 동일한 주어와 성향이 있을 경우의 가중치, 문서 전체에서 문장의 위치에 따른 가중치, 문서 전체에서 문장의 주어와 성향이 추출된 비율 등이 조건이 된다.
상기 동일한 주어와 성향이 있을 경우의 가중치의 경우, 주어는 동일한 주어가 있을 경우에 동일한 주어의 수에 10을 곱한 값이 가중치가 되고, 성향은 주어의 성향에 따라 +, - 로 계산한 결과가 된다.
또한, 상기 문서 전체에서 문장의 위치에 따른 가중치는 200자 이내의 글일 경우에 문서의 앞부분(1/3 이하)에 문장이 위치할 경우 2, 뒷부분에 위치할 경우 1이 된다.
200자 초과의 글일 경우에 문서의 뒷부분(2/3 초과)에 위치할 경우 2, 앞부분에 위치할 경우 1이 된다.
짧은 글일 경우에 문서의 앞부분에 주요내용이 위치하고, 긴 글일 경우 뒷부분에 주요내용이 위치하는 특성이 있기 때문이다.
그러나, 인터넷 전자문서의 특성상 형식이 없는 경우가 많기 때문에 가중치를 적게 설정한다.
상기 문서전체주어 및 성향추출수단(300)에서 문장의 주어 점수 계산 방법은 하기의 수식1과 같다.
[수식1]
((T/S)*100)+((A/G)*(D*100))+(L*10) = 문장의 주어 점수
T : 문서 전체의 길이
S : 문장의 길이
L : 문서 전체에서 문장의 위치에 따른 가중치
G : 동일한 주어와 성향이 있을 경우의 가중치
A : 문서 전체에서 문장의 주어와 성향이 추출된 문장의 수
D : 문장의 주어 정확도
이때, 문장 각각의 주어 점수를 비교하여 문장의 주어점수가 관리자에 의해 설정된 점수 예를 들어, 관리자가 60점으로 설정하게 되면 60점 이상의 것중에서 가장 높은 점수를 가지고 있는 문장의 주어가 문서 전체의 주어로 선정된다.
상기 설정된 점수와 점수 계산 수식들은 문서전체주어및성향추출수단에 데이터베이스를 구성하여 해당 데이터베이스에 저장하여 관리하게 된다.
이렇게, 전체 문서의 주어로 선정된 값을 가지고 문서 전체의 성향 점수를 계산하여 문서의 의미를 파악하게 된다.
또한, 문서전체주어 및 성향추출수단(300)의 문서 전체 성향 점수 계산 방법은 하기의 수식2와 같다.
[수식2]
((((N*20)+(O*10))/10)*100) = 문서 전체의 성향 점수
D : 성향의 정확도
N : 주어로 선정된 문장과 같은 주어가 추출된 문장의 성향을 하나씩 부여하되, 긍정 성향일 경우에 +D , 부정 성향일 경우에 -D 로 계산하여 나온값이며, 음수와 양수 모두 나올 수 있다.
O : 주어로 선정된 문장 이외의 문장에서 추출된 문장의 성향을 하나씩 부여하되, 긍정 성향일 경우 +D, 부정 성향일 경우 -D 하여 나온값이며, 음수와 양수 모두 나올 수 있다.
상기 설정된 점수와 점수 계산 수식들은 문서전체주어및성향추출수단에 데이터베이스를 구성하여 해당 데이터베이스에 저장하여 관리하게 된다.
상기 수식2는 바람직한 실시예이다.
상기와 같은 처리 과정을 통해 도출된 문서의 주어와 문서 전체의 성향 점수를 이용하여 문서에서 말하고자 하는 의미를 파악하여 분류(Category)로 사용할 수 있다.
즉, 분류데이터선정수단(400)는 문서전체주어및성향추출수단에서 도출된 문서의 주어와 문서 전체의 성향 단어를 분류 데이터로 선정하게 되는 것이다.
또한, 문서 전체의 성향점수가 관리자가 설정한 점수 이상일 경우에 예를 들어 50점으로 설정하게 되면 50점 이상일 경우 주어와 함께 성향단어가 사용될 수 있다.
상기 설정된 점수와 분류 데이터 정보들은 분류데이터선정수단에 데이터베이스를 구성하여 해당 데이터베이스에 저장하여 관리하게 된다.
한편, 성향단어로 사용될 수 있는 형용사나 동사의 기준으로는 첫째, 문서 전체의 주어와 함께 같은 문장에서 사용된 형용사나 동사가 문서 전체의 성향과 같을 경우 사용될 수 있으며, 둘째, 같은 문장에서 문서 전체의 주어와 함께 사용된 형용사나 동사가 문서 전체의 성향과 같을 경우가 아니면 문서 전체의 형용사나 동사 중에서 문서 전체의 성향과 같고, 성향 정확도가 가장 높은 단어가 사용될 수 있다.
또한, 다수의 형용사나 동사가 둘째의 결과에 해당할 경우에 주어가 사용된 문장에서 가장 가까운 형용사나 동사가 문서의 성향 단어로 사용될 수 있다.
따라서, 추출된 문서 전체의 주어 또는 주어 및 성향 단어를 분류(Category) 데이터로 사용할 수 있으며, 이를 통해 대용량의 데이터에서 보다 정확하고 신속하게 사용자가 원하는 데이터를 검색할 수 있게 된다.
이상에서와 같은 내용의 본 발명이 속하는 기술분야의 당업자는 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시된 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구 범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100 : 문장단위추출수단
200 : 문장주어및성향추출수단
300 : 문서전체주어및성향추출수단
400 : 분류데이터선정수단
1000 : 의미기반 분류 추출시스템

Claims (4)

  1. 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템에 있어서,
    단어를 추출하기 위한 형태소분석부(110)와,
    문장의 끝에 사용될 수 있는 단어나 문자 부호 정보를 저장하고 있는 문장끝문자정보디비(120)와,
    상기 문장끝문자정보디비를 참조하여 문장의 끝에 존재하는 단어나 문자부호가 위치한 곳까지의 문자열을 한 문장으로 정의하는 문장정의부(130)를 포함하여 구성되는 문장단위추출수단(100)과;
    단어별 성향 정보를 저장하고 있는 성향단어사전디비(210)와,
    단어가 연속으로 쓰일 경우의 의미가 반전되는 반전 성향 정보를 저장하는 반전성향단어사전디비(220)와,
    주어 정확도 점수와 성향 정확도 점수를 저장하고 있는 정확도점수정보디비(230)와,
    문장단위추출수단에 의해 추출된 문장의 정보에서 문장의 주어와 성향을 판단한 후, 성향단어사전디비와 반전성향단어사전디비 및 정확도점수정보디비를 참조하여 주어 정확도 점수와 성향 정확도 점수를 계산하기 위한 정확도점수계산부(240)를 포함하여 구성되는 문장주어및성향추출수단(200)과;
    문장주어및성향추출수단에서 추출된 문장들의 주어와 성향정보를 참조하여 문서 전체에서 각각의 문장의 길이가 차지하고 있는 비율, 문서 전체에서 문장의 위치에 따른 가중치, 동일한 주어와 성향이 있을 경우의 가중치를 계산하여,
    문서 전체에서 가장 높은 점수를 얻은 문장의 주어와 성향 정보를 추출하기 위한 문서전체주어및성향추출수단(300)과;
    상기 문서전체주어및성향추출수단에서 도출된 문서의 주어와 문서 전체의 성향 단어를 분류 데이터로 선정하기 위한 분류데이터선정수단(400);을 포함하여 구성되는 것을 특징으로 하는 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템.
  2. 제 1항에 있어서,
    상기 문서전체주어및성향추출수단(300)은,
    문서 전체에서 문장의 주어와 성향이 추출된 비율을 계산하는 것을 특징으로 하는 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템.
  3. 제 1항에 있어서,
    상기 문서전체주어및성향추출수단(300)은,
    문장 각각의 주어 점수를 비교하여 문장의 주어점수가 관리자에 의해 설정된 점수 이상의 것 중에서 가장 높은 점수를 가지고 있는 문장의 주어를 문서 전체의 주어로 선정하는 것을 특징으로 하는 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템.
  4. 제 1항에 있어서,
    상기 분류데이터선정수단(400)은,
    문서 전체의 성향 점수가 관리자가 설정한 점수 이상일 경우에 주어와 함께 성향 단어를 분류 데이터로 사용하는 것을 특징으로 하는 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템.
KR1020120035683A 2012-04-05 2012-04-05 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템 KR101351555B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120035683A KR101351555B1 (ko) 2012-04-05 2012-04-05 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120035683A KR101351555B1 (ko) 2012-04-05 2012-04-05 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템

Publications (2)

Publication Number Publication Date
KR20130113250A true KR20130113250A (ko) 2013-10-15
KR101351555B1 KR101351555B1 (ko) 2014-01-16

Family

ID=49633920

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120035683A KR101351555B1 (ko) 2012-04-05 2012-04-05 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템

Country Status (1)

Country Link
KR (1) KR101351555B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210102832A (ko) * 2020-02-11 2021-08-20 넥스트브이피유 (상하이) 코포레이트 리미티드 이미지 텍스트 방송 방법 및 이의 기기, 전자 회로 및 저장 매체
KR20220122424A (ko) * 2021-02-26 2022-09-02 주식회사 페스타 이벤트간 유사성 측정을 통한 새로운 이벤트의 수요 예측 방법 및 장치
US11776286B2 (en) 2020-02-11 2023-10-03 NextVPU (Shanghai) Co., Ltd. Image text broadcasting

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100731283B1 (ko) * 2005-05-04 2007-06-21 주식회사 알에스엔 질의어에 따른 대량문서기반 성향 분석시스템

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210102832A (ko) * 2020-02-11 2021-08-20 넥스트브이피유 (상하이) 코포레이트 리미티드 이미지 텍스트 방송 방법 및 이의 기기, 전자 회로 및 저장 매체
US11776286B2 (en) 2020-02-11 2023-10-03 NextVPU (Shanghai) Co., Ltd. Image text broadcasting
KR20220122424A (ko) * 2021-02-26 2022-09-02 주식회사 페스타 이벤트간 유사성 측정을 통한 새로운 이벤트의 수요 예측 방법 및 장치

Also Published As

Publication number Publication date
KR101351555B1 (ko) 2014-01-16

Similar Documents

Publication Publication Date Title
US8380489B1 (en) System, methods, and data structure for quantitative assessment of symbolic associations in natural language
CN102622338B (zh) 一种短文本间语义距离的计算机辅助计算方法
Liu et al. Literature retrieval based on citation context
WO2023029420A1 (zh) 一种电力用户诉求筛选方法、系统、电子设备和存储介质
US9639522B2 (en) Methods and apparatus related to determining edit rules for rewriting phrases
JP5379138B2 (ja) 領域辞書の作成
US10002188B2 (en) Automatic prioritization of natural language text information
Saloot et al. An architecture for Malay Tweet normalization
CN108509490B (zh) 一种网络热点话题发现方法及系统
CN110134799B (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
US20180039889A1 (en) Surfacing unique facts for entities
Sleeman et al. Entity type recognition for heterogeneous semantic graphs
Tran et al. Balancing novelty and salience: Adaptive learning to rank entities for timeline summarization of high-impact events
Cao et al. Machine learning based detection of clickbait posts in social media
KR101377447B1 (ko) 태그간 의미 분석을 이용한 다중 문서 요약 방법 및 시스템
JPWO2014002775A1 (ja) 同義語抽出システム、方法および記録媒体
US20160140234A1 (en) Method and Computer Server System for Receiving and Presenting Information to a User in a Computer Network
CN109213998A (zh) 中文错字检测方法及系统
Kallimani et al. Summarizing news paper articles: experiments with ontology-based, customized, extractive text summary and word scoring
CN106126605A (zh) 一种基于用户画像的短文本分类方法
Sukumar et al. Semantic based sentence ordering approach for multi-document summarization
KR101351555B1 (ko) 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템
CN112597768B (zh) 文本审核方法、装置、电子设备、存储介质及程序产品
Yilahun et al. Entity extraction based on the combination of information entropy and TF-IDF
Kerremans et al. Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20181031

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20191031

Year of fee payment: 7