KR101762670B1 - 정형 데이터와 연관된 비정형 텍스트 데이터 연결 장치 및 방법 - Google Patents

정형 데이터와 연관된 비정형 텍스트 데이터 연결 장치 및 방법 Download PDF

Info

Publication number
KR101762670B1
KR101762670B1 KR1020130130315A KR20130130315A KR101762670B1 KR 101762670 B1 KR101762670 B1 KR 101762670B1 KR 1020130130315 A KR1020130130315 A KR 1020130130315A KR 20130130315 A KR20130130315 A KR 20130130315A KR 101762670 B1 KR101762670 B1 KR 101762670B1
Authority
KR
South Korea
Prior art keywords
data
keyword
unit
unstructured
context
Prior art date
Application number
KR1020130130315A
Other languages
English (en)
Other versions
KR20150049580A (ko
Inventor
박원주
이경하
조기성
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020130130315A priority Critical patent/KR101762670B1/ko
Publication of KR20150049580A publication Critical patent/KR20150049580A/ko
Application granted granted Critical
Publication of KR101762670B1 publication Critical patent/KR101762670B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/282Hierarchical databases, e.g. IMS, LDAP data stores or Lotus Notes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 정형화된 데이터에 연관된 비정형 데이터 연결 장치로, 정형화된 데이터를 자원 서술 체계 형태의 정형데이터로 변환하고, 이를 분석하여 상기 정형 데이터로부터 키워드를 추출하는 정형화 데이터 키워드 추출부와, 상기 정형 데이터 키워드 추출부에 의해 추출된 키워드를 기반으로 정형 데이터와 연관성이 있는 비정형 텍스트 데이터 집합을 수집하는 비정형 텍스트 데이터 수집부와, 상기 수집된 비정형 텍스트 데이터 집합에서 주제어 용어집을 기반으로 비정형 텍스트 데이터의 문맥을 추출하고, 추출된 문맥을 기반으로 역인덱스를 생성하고, 정형 데이터와 비정형 데이터를 의미적으로 연결하는 데이터 연결부를 포함한다.

Description

정형 데이터와 연관된 비정형 텍스트 데이터 연결 장치 및 방법{Apparatus and Method for Connecting Unstructured Data related to Structured Data}
본 발명은 데이터 처리 장치 및 방법에 관한 것으로, 비정형 텍스트 데이터의 문맥을 추출하여 정형 데이터와 의미적으로 연결하는 장치 및 방법에 관한 것이다.
최근 정부 및 지방자치단체의 공공 데이터 개방 및 활용 방안에 대한 연구가 활발히 진행중이고, 범람하는 웹 정보뿐만 아니라 실시간으로 급격히 누적되는 SNS 정보를 활용하고자 하는 연구도 활발히 진행중이다.
IT 측면으로는 클라우드 및 빅데이터 처리 기술의 발전, 데이터 저장 기술 발달 등으로 정형화된 데이터 및 비정형화된 데이터를 포함하는 신규 응용 서비스를 개발하고자 하는 노력이 지속적으로 이루어지고 있다. 또한, 이질적인 데이터들 간의 상호 의미 관계를 파악하고, 상호 운용성과 매시업을 가능하게 하는 플랫폼 기술 개발이 한창이다.
특히, 실시간으로 업데이트되고 있는 비정형 텍스트 데이터는 기업체에게 제공되어 사용자의 구매 의사 분석 또는 고객 확보를 위한 목적으로 이용될 수 있고, 정부 기구 또는 지방 자치 단체에 제공되어 인구 유입/유출 분석, 복지 서비스 제공을 위한 목적으로 이용될 수 있다.
그런데, 종래에는 응용 서비스 개발자가 정부, 지방 자치체, 기업체 등으로부터 공공 데이터와 같은 정형화된 데이터를 제공받고, 이를 각 서비스 목적에 맞게 변환시킨 후 제공하였다. 그런데, 이러한 종래의 방법은 데이터 이용자가 정형데이터 및 비정형 텍스트 데이터를 각각 수집 및 변환하여 저장하고, 저장된 문서를 각각 분석하여 문서 간의 유사도, 상호 참조도 등을 분석하여 서비스를 제공하여야 하므로, 서비스 확장에 한계가 있다.
또한, 선행특허로서 “문서 간의 유사도 계산 시스템 및 방법”(한국 공개특허 10-2011-00122013)은 주로 학술 정보 검색 서비스를 위한 기술로서 문서 간의 유사도를 계산하는 시스템 및 방법의 경우 논문 간의 참고문헌 관계를 이용하여 논문 간의 유사도 계산 시스템 및 방법이다. 이는 주어진 논문에 대한 유사 학술 정보를 검색하기 위한 시스템 및 방법으로서, 논문 등의 형식 등에서 문서의 하단에 주어진 참고문헌의 직/간접적인 링크를 기반으로 문서 간의 유사도를 측정한다. 이 방법은 논문들 간이 유사도 계산을 위하여서는 용이할지는 모르나, 참고문헌이 미비한 정형 데이터의 경우에는 접근하기 어려운 방법이다.
또한 다른 선행 특허로서, '문서간 유사도 산출 시스템 및 방법'(한국공개특허 10-2010-0064297)의 경우, 제 1문서의 데이터와 제 2문서의 데이터의 형태소를 분석하여 각각 2개 이상의 같은 수로 데이터 그룹을 분리한 후, 같은 종류의 그룹내에서 문서간 유사도를 그룹별로 비교한 후, 비교 결과를 종합하여 문서 간 유사도를 산출한다. 그러나, 이는 데이터 그룹 간의 비교를 종합하여 유사도를 산출하는 방식으로, 특히 동일 문서의 종류(논문 vs 논문) 등의 경우가 아니면 동일 수의 데이터 그룹화, 데이터 그룹간의 비교 및 유사도 계산이 어렵다.
본 발명은 급증하는 정형 데이터의 활용 범위를 확장시키고, 최신 데이터와의 연관성을 제공하기 위해, 자원 서술 체계(RDF) 형태로 변환/공개된 정형데이터를 기반으로 비정형 텍스트 데이터를 수집하고, 비정형 텍스트 데이터를 의미에 따라 연결하는 장치 및 방법을 제공한다.
본 발명은 정형화된 데이터에 연관된 비정형 데이터 연결 장치로, 정형화된 데이터를 자원 서술 체계 형태의 정형데이터로 변환하고, 이를 분석하여 상기 정형 데이터로부터 키워드를 추출하는 정형화 데이터 키워드 추출부와, 상기 정형 데이터 키워드 추출부에 의해 추출된 키워드를 기반으로 정형 데이터와 연관성이 있는 비정형 텍스트 데이터 집합을 수집하는 비정형 텍스트 데이터 수집부와, 상기 수집된 비정형 텍스트 데이터 집합에서 주제어 용어집을 기반으로 비정형 텍스트 데이터의 문맥을 추출하고, 추출된 문맥을 기반으로 역인덱스를 생성하고, 정형 데이터와 비정형 데이터를 의미적으로 연결하는 데이터 연결부를 포함한다.
본 발명은 공공 링크드 데이터(LOD)와 같은 한정된 정형 데이터의 이용자가 웹, SNS, 뉴스, 논문, 이메일, 휴대 전화 등의 비정형 데이터와 연관성 데이터를 제공받음으로써, 공공 링크드 데이터의 활용도를 증가시킬 수 있다. 또한, 웹, SNS, 뉴스 등의 최신의 데이터와 연결함으로써, 실시간으로 갱신할 수 없는 정형 데이터의 한계를 극복할 수 있다.
본 발명은 일반적으로 공개되어있는 정형 데이터만 있을 경우, 원하는 응용 서비스에 관련된 방대한 비정형 텍스트 데이터를 기계 가독한 정보 형태로 손쉽게 생산하고 획득하여, 데이터 서비스 활성화를 통한 수익성 고취 등을 기대할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 정형 데이터와 연관된 비정형 텍스트 데이터 연결 장치의 구성도이다.
도 2는 본 발명의 일 실시 예에 따른 정형 데이터 키워드 추출부의 구성도이다.
도 3은 본 발명의 일 실시 예에 따른 비정형 텍스트 데이터 의미 연결부의 구성도이다.
도 4는 키워드를 기반으로 수집된 비정형 텍스트 데이터(문서) 집합은 주제어 기반으로 문맥을 추출한 후, 주제어를 중심의 역인덱스 형태로 저장한 형태의 개념도이다.
도 5는 본 발명에 따라 자원 서술 체계 형태의 정형 데이터에서 비정형 텍스트 데이터의 문맥을 추출하고, 추출된 문맥을 기반으로 의미적으로 연결하기 위한 예시도이다.
도 6은 본 발명의 일 실시 예에 따른 정형 데이터와 연관된 비정형 텍스트 데이터 연결 방법을 설명하기 위한 순서도이다.
도 7은 본 발명의 일 실시 예에 따른 정형 데이터 키워드 추출 과정을 설명하기 위한 순서도이다.
도 8은 본 발명의 일 실시 예에 따른 비정형 텍스트 데이터 의미 연결 과정을 설명하기 위한 순서도이다.
이하, 첨부된 도면을 참조하여 기술되는 바람직한 실시 예를 통하여 본 발명을 당업자가 용이하게 이해하고 재현할 수 있도록 상세히 기술하기로 한다.
본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명 실시 예들의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.
명세서 전반에 걸쳐 사용되는 용어들은 본 발명 실시 예에서의 기능을 고려하여 정의된 용어들로서, 사용자 또는 운용자의 의도, 관례 등에 따라 충분히 변형될 수 있는 사항이므로, 이 용어들의 정의는 본 발명의 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 본 발명의 일 실시 예에 따른 정형 데이터와 연관된 비정형 텍스트 데이터 연결 장치의 구성도이다.
도 1을 참조하면, 정형 데이터와 연관된 비정형 텍스트 데이터 연결 장치는 정형 데이터 키워드 추출부(100), 비정형 텍스트 데이터 수집부(200) 및 비정형 텍스트 데이터 의미 연결부(300)를 포함한다.
정형 데이터 키워드 추출부(100)는 정형 데이터를 자원 서술 체계(Resource Description Framework : RDF)형 정형 데이터로 변환한 후, 변환된 정형 데이터를 분석하여 주요 키워드를 추출한다. 예컨대, 대규모의 박물관의 경우, 정형화 데이터로서 박물관에 있는 물품, 지도, 행사 정보 등이 제공되는데, 이러한 박물관 정보를 자원 서술 체계(RDF)형 정형데이터로 변환한 후 분석하여 박물관 위치, 전시물 등의 주요 키워드로 추출한다. 이에 대해서는 하기의 도 2를 참조하여 상세히 살펴보기로 한다.
비정형 데이터 수집부(200)는 정형 데이터 키워드 추출부(100)에 의해 추출된 키워드를 기반으로 정형 데이터와 연관성이 있어 의미상 연결할 수 있는 비정형 텍스트 데이터 집합을 수집한다. 예컨대, 비정형 텍스트 데이터로 박물관과 관련된 전시 물품에 대한 백과사전 정보, 최근 뉴스, 탐방자의 방문 후기 등이 있을 수 있는데, 비정형 데이터 수집부(200)는 정형 데이터 키워드 추출부(100)에 의해 추출된 키워드를 기반으로 웹, 블로그, 뉴스 정보 등의 비정형 텍스트 데이터 또는 문서 데이터를 수집한다.
비정형 텍스트 데이터 의미 연결부(300)는 수집된 비정형 텍스트 데이터 집합에서 주제어 용어집을 기반으로 비정형 텍스트 데이터의 문맥을 추출하고, 이 추출된 결과를 문맥 중심으로 역인덱스를 생성하고, 정형 데이터와 비정형 데이터를 의미적으로 연결한다. 본 발명의 일 실시 예에 따라, 비정형 텍스트 데이터의 문맥을 추출하기 위하여 특정 주제어 용어집 활용함으로써, 방대한 비정형 텍스트 데이터에서 사용자나 서비스가 원하는 목적에 따라 특화된 문맥을 추출할 수 있다. 이에 대해서는 하기의 도 3을 참조하여 상세히 살펴보기로 한다.
도 2는 본 발명의 일 실시 예에 따른 정형 데이터 키워드 추출부의 구성도이다.
도 2를 참조하면, 정형 데이터 키워드 추출부(100)는 텍스트 전처리부(110), 형태소 분석부(120), 불용어 제거부(130), 키워드 추출부(140)를 포함한다
텍스트 전처리부(110)는 정형 데이터에 포함된 문장의 끝을 표시하는 구두점을 뺀 나머지 구두점들을 제거한다. 또한, 텍스트 전처리부(110)는 정형 데이터에서 웹, SNS, 블로그, 이메일 등의 비정형 데이터에서 빈번하게 나타나는 이모티콘과 같은 특수 문자를 제거하고, 의미적 연결을 수행하는 언어(한국어)외의 외국어는 제거한다.
형태소 분석부(120)는 텍스트 전처리부(110)를 통하여 출력된 텍스트 데이터 형태의 정형 데이터를 형태소 단위로 분석한 후, 각 형태소의 품사와 함께 출력함으로써, 키워드 추출의 기초 과정을 수행한다.
키워드 추출부(140)는 문서의 의미를 나타낸다고 판단되는 키워드를 추출하는데, 형태소 분석된 데이터 문서 안에서 두 개 이상의 형태소를 붙여 하나의 키워드로 추출한다. 특히, 본 발명의 실시 예에 따라, 한국어의 특성에 따라 하나의 형태소로 구성된 [일반명사], [고유명사] 및 두 개의 형태소로 구성된 “[일반명사, 일반명사], [일반명사, 고유명사], [고유명사, 일반명사], [형용사, 일반명사], [형용사, 고유명사], [동사, 일반명사], [동사, 고유명사]의 패턴에 해당하는 연속키워드를 추출하여 키워드로 추출한다. 이때, 명사들 사이에 나타나는 조사나 동사 또는 형용사와 명사들 사이에 나타나는 전성 어미를 제거한다.
부가적으로, 불용어 제거부(130)는 일반명사나 고유명사에서 문서의 도메인과 관계없는 불용어 리스트(135)를 참고하여, 패턴에 의해 추출된 키워드 리스트(135)에서 불용어를 제거할 수도 있다. 여기서, 불용어 리스트(135)는 문서의 도메인에 관계없이 문서의 의미가 관계없는 것으로 보이는 리스트을 생성하거나, 문서의 도메인에 맞게 문서의 의미가 관계없는 것으로 보이는 불용어 리스트가 생성되어 적용될 수 있다.
도 3은 본 발명의 일 실시 예에 따른 비정형 텍스트 데이터 의미 연결부의 구성도이다.
도 3을 참조하면, 비정형 텍스트 데이터 의미 연결부(300)는 텍스트 전처리부(310), 형태소 분석부(320), 불용어 제거부(330), 주제어 용어집(340), 주제어 빈도 가중치 계산부(350), 비정형 텍스트 데이터 문맥 추출부(360), 역인덱스 생성부(370), 문맥 기반 의미 연결 생성 리스트 저장부(380) 및 랭킹 계산부(390)를 포함한다.
텍스트 전처리부(310), 형태소 분석부(320) 및 불용어 제거부(330)는 도 2에 도시된 텍스트 전처리부(210), 형태소 분석부(220) 및 불용어 제어부(230)과 그 기능이 동일하므로, 여기서는 상세한 설명을 생략하기로 한다.
그런데, 형태소 분석부(220)는 비정형 텍스트 데이터의 처리함에 있어, 웹 데이터에서 빈번하게 나타나는 신조어, 통신 용어 등의 사용자 사전을 추가하여 형태소 분석기의 성능을 향상시킨다. 특히, 통신 언어에서 글자 수의 제약으로 흔히 일어나는 약어 사용의 증가는 형태소 분석에서 사용되는 단어 사전을 무력화시킬 수 있음으로 통신언어 말뭉치 분석을 통한 약어사전 구축, 단어 내 음운 생략 현상의 규칙들을 일반화환 규칙 기반 처리, 약어 현상 등을 학습시킨 기계학습을 통한 알고리즘 접근 등의 방식을 이용한다.
주제어 용어집(340)은 특정 해당 분야의 사람들만이 주로 이용하는 전문 용어만을 모아놓은 사전의 형태를 말한다. 일반적인 어휘에 비하여 의미가 특화되는 경우가 많으므로, 사용자나 응용 서비스는 특정 주제어 용어집을 활용하면 비정형 텍스트 데이터의 문맥의 정확성을 향상시킬 수 있다. 기술적으로 주제어 용어집은 다양한 형태로 제공될 수 있다. 따라서, 본 발명에서는 사용자나 서비스의 목적으로 용어집을 구축하여 활용할 수도 있고, 기존에 구축된 용어집의 형태를 제한하지 않으며, API를 제공하여 기존 용어집과 연동할 수 있다.
주제어 빈도 가중치 계산부(350)는 수집된 비정형 텍스트 데이터 집합을 주제어 용어집(Corpus)을 기초로 각 비정형 텍스트 문서의 문맥을 추출할 때, 주제어의 다음 빈도에 따라 가중치를 차별화하여 계산한다. 여기서, 주제어의 빈도 가중치는 비정형 텍스트 문서에서 주제어가 출현된 빈도수, 비정형 텍스트 문서의 길이, 주제어가 출현한 비정형 텍스트 문서의 수, 비정형 텍스트 문서가 포함한 주제어의 수 등을 포함할 수 있으며, 본 발명은 가중치 계산부에 필요한 계수를 제한하지 않는다.
비정형 텍스트 데이터 문맥 추출부(360)는 주제어 용어집(340) 및 주제어 빈도 가중치 계산부(350)의 연산 결과에 따라 수집된 비정형 텍스트 데이터의 문맥을 추출한다. 이미 주제어 용어집을 기반으로 비정형 텍스트 데이터(문서)의 주제어 출현 등에 따라 문서의 주제가 추출되고, 더 나아가 주제어의 빈도 가중치에 따라 문맥이 추출된 후, 각 비정형 텍스트 데이터를 주제어로 대표하는 과정이다. 예컨대, 역사, 유물 등 박물관과 관련된 용어집 또는 지역 정보, 활동 정보 등 박물관과 관련되지 않은 용어집을 참고하여 비정형 텍스트 데이터의 문맥을 추출한다.
역인덱스 생성부(370)는 정형 데이터와 비정형 텍스트 데이터를 정형 데이터의 키워드를 중심으로 비정형 텍스트 데이터 문맥 역인덱스를 생성하고 저장한다.
도 4는 키워드를 기반으로 수집된 비정형 텍스트 데이터(문서) 집합은 주제어 기반으로 문맥을 추출한 후, 주제어를 중심의 역인덱스 형태로 저장한 형태의 개념도인데, 역인덱스 생성부(370)는 도 4와 같이 키워드를 기반으로 수집된 비정형 텍스트 데이터(문서) 집합은 주제어 기반으로 문맥을 추출하고, 주제어 중심의 역인덱스 형태로 저장한다.
문맥 기반 의미 연결 생성부(380)는 자원 서술 체계(RDF)로 저장된 정형 데이터를 문맥이 추출된 비정형 텍스트와 주제어(의미적)로 연결한다. 이와 같은 지식은 응용 서비스의 개발자의 목적에 따라 순위화하여 응용 서비스에 제공함으로써 기본 박물관 정보 외에 다양한 부가가치가 향상된 데이터가 서비스될 수 있다.
이를 위해, 응용 서비스 제공 랭킹 계산부(390)는 주제어를 중심으로 역인덱스 파일이 생성된 비정형 텍스트 데이터를 응용 서비스 목적에 따라 랭킹을 계산하여 순위화 결과를 제공한다. 예컨대, 키워드 A를 기반으로 수집된 비정형 텍스트 데이터를 주제어 n개로 역인덱스 파일로 생성되어 있다. 이는 응용 서비스의 목적에 따라 날짜, 관련된 키워드의 수, 연결된 주제어의 수 또는 제한되지 않은 그 외의 변수(환경, 성능, 서비스 대상)에 따라 순위를 연산하여 응용서비스에 제공한다.
도 5는 본 발명에 따라 자원 서술 체계 형태의 정형 데이터에서 비정형 텍스트 데이터의 문맥을 추출하고, 추출된 문맥을 기반으로 의미적으로 연결하기 위한 예시도이다.
도 5를 참조하면, 비정형 텍스트 데이터에서 추출된 문맥은 직접적으로 자원 서술 체계 형태의 속성(Property)일 수 있다. 또한, 주제어 용어집을 참고함으로써 주제어, 주제어의 상위 주제어가 이 인스턴스의 속성으로 적용될 수도 있다. 속성이 정의된 비정형 텍스트 데이터의 URI는 새로운 객체 인스턴스로 연결함으로써, 정형 데이터와 의미적으로 연결된다.
도 6은 본 발명의 일 실시 예에 따른 정형 데이터와 연관된 비정형 텍스트 데이터 연결 방법을 설명하기 위한 순서도이다.
도 6을 참조하면, S610에서 정형 데이터 키워드 추출부(100)는 정형화된 데이터를 자원 서술 체계(RDF)형 정형데이터로 변환한 후, 분석하여 주요 키워드를 추출한다. 예컨대, 대규모의 박물관의 경우, 정형화 데이터로서 박물관에 있는 물품, 지도, 행사 정보 등이 제공되는데, 이러한 박물관 정보를 자원 서술 체계(RDF)형 정형데이터로 변환한 후 분석하여 박물관 위치, 전시물 등의 주요 키워드로 추출한다. 이에 대해서는 하기의 도 7를 참조하여 상세히 살펴보기로 한다.
S620에서 비정형 데이터 수집부(200)는 정형 데이터에서 추출된 키워드를 기반으로 정형 데이터와 연관성이 있어 의미적으로 연결할 수 있는 비정형 텍스트 데이터 집합을 수집한다. 예컨대, 비정형 텍스트 데이터로 박물관과 관련된 전시 물품에 대한 백과사전 정보, 최근 뉴스, 탐방자의 방문 후기 등이 있을 수 있는데, 비정형 데이터 수집부(200)는 정형 데이터 키워드 추출부(100)에 의해 추출된 키워드를 기반으로 웹, 블로그, 뉴스 정보 등의 비정형 텍스트 데이터 또는 문서 데이터를 수집한다.
S630에서 비정형 텍스트 데이터 의미 연결부(300)는 수집된 비정형 텍스트 데이터 집합에서 주제어 용어집을 기반으로 비정형 텍스트 데이터의 문맥을 추출하고, 이 추출된 결과를 문맥 중심으로 역인덱스를 생성하고, 정형 데이터와 비정형 데이터를 의미적으로 연결한다. 본 발명의 일 실시 예에 따라, 비정형 텍스트 데이터의 문맥을 추출하기 위하여 특정 주제어 용어집 활용함으로써, 방대한 비정형 텍스트 데이터에서 사용자나 서비스가 원하는 목적에 따라 특화된 문맥을 추출할 수 있다. 이에 대해서는 하기의 도 8을 참조하여 상세히 살펴보기로 한다.
도 7은 본 발명의 일 실시 예에 따른 정형 데이터 키워드 추출 과정의 순서도이다.
도 7을 참조하면, S710에서, 텍스트 전처리부(110)는 정형 데이터에 포함된 문장의 끝을 표시하는 구두점을 뺀 나머지 구두점들을 제거한다. 또한, 텍스트 전처리부(110)는 정형 데이터에서 웹, SNS, 블로그, 이메일 등의 비정형 데이터에서 빈번하게 나타나는 이모티콘과 같은 특수 문자를 제거하고, 의미적 연결을 수행하는 언어(한국어)외의 외국어는 제거한다.
S720에서, 형태소 분석부(120)는 텍스트 전처리부(110)를 통하여 출력된 텍스트 데이터 형태의 정형 데이터를 형태소 단위로 분석한 후, 각 형태소의 품사와 함께 출력함으로써, 키워드 추출의 기초 과정을 수행한다.
S730에서, 불용어 제거부(130)는 일반명사나 고유명사에서 문서의 도메인과 관계없는 불용어 리스트를 참고하여, 패턴에 의해 추출된 키워드 리스트(135)에서 불용어를 제거할 수도 있다. 여기서, 불용어 리스트(135)는 문서의 도메인에 관계없이 문서의 의미가 관계없는 것으로 보이는 리스트을 생성하거나, 문서의 도메인에 맞게 문서의 의미가 관계없는 것으로 보이는 불용어 리스트가 생성되어 적용될 수 있다.
S740에서, 키워드 추출부(140)는 문서의 의미를 나타낸다고 판단되는 키워드를 추출하는데, 형태소 분석된 데이터 문서 안에서 두 개 이상의 형태소를 붙여 하나의 키워드로 추출한다. 특히, 본 발명의 실시 예에 따라, 한국어의 특성에 따라 하나의 형태소로 구성된 [일반명사], [고유명사] 및 두 개의 형태소로 구성된 “[일반명사, 일반명사], [일반명사, 고유명사], [고유명사, 일반명사], [형용사, 일반명사], [형용사, 고유명사], [동사, 일반명사], [동사, 고유명사]의 패턴에 해당하는 연속키워드를 추출하여 키워드로 추출한다. 이때, 명사들 사이에 나타나는 조사나 동사 또는 형용사와 명사들 사이에 나타나는 전성 어미를 제거한다.
도 8은 본 발명의 일 실시 예에 따른 비정형 텍스트 데이터 의미 연결 과정을 설명하기 위한 순서도이다.
도 8을 참조하면, S810, S820 및 S830은 도 7에 도시된 S710, S720 및 S730과 각각 동일하므로, 여기서는 상세한 설명을 생략하기로 한다.
S840에서, 주제어 빈도 가중치 계산부(350)는 수집된 비정형 텍스트 데이터 집합을 주제어 용어집(Corpus)을 기초로 각 비정형 텍스트 문서의 문맥을 추출할 때, 주제어의 다음 빈도에 따라 가중치를 차별화하여 계산한다. 여기서, 주제어의 빈도 가중치는 비정형 텍스트 문서에서 주제어가 출현된 빈도수, 비정형 텍스트 문서의 길이, 주제어가 출현한 비정형 텍스트 문서의 수, 비정형 텍스트 문서가 포함한 주제어의 수 등을 포함할 수 있으며, 본 발명은 가중치 계산부에 필요한 계수를 제한하지 않는다.
S850에서, 비정형 텍스트 데이터 문맥 추출부(360)는 주제어 용어집(340) 및 주제어 빈도 가중치 계산부(350)의 연산 결과에 따라 수집된 비정형 텍스트 데이터의 문맥을 추출한다. 이미 주제어 용어집을 기반으로 비정형 텍스트 데이터(문서)의 주제어 출현 등에 따라 문서의 주제가 추출되고, 더 나아가 주제어의 빈도 가중치에 따라 문맥이 추출된 후, 각 비정형 텍스트 데이터를 주제어로 대표하는 과정이다. 예컨대, 역사, 유물 등 박물관과 관련된 용어집 또는 지역 정보, 활동 정보 등 박물관과 관련되지 않은 용어집을 참고하여 비정형 텍스트 데이터의 문맥을 추출한다.
S860에서, 역인덱스 생성부(370)는 정형 데이터와 비정형 텍스트 데이터를 정형 데이터의 키워드를 중심으로 비정형 텍스트 데이터 문맥 역인덱스를 생성하고 저장한다.
S870에서, 문맥 기반 의미 연결 생성부(380)는 자원 서술 체계(RDF)로 저장된 정형 데이터를 문맥이 추출된 비정형 텍스트와 주제어(의미적)로 연결한다.
이와 같은 지식은 응용 서비스의 개발자의 목적에 따라 순위화하여 응용 서비스에 제공함으로써 기본 박물관 정보 외에 다양한 부가가치가 향상된 데이터가 서비스될 수 있다.
S880에서, 응용 서비스 제공 랭킹 계산부(390)는 주제어를 중심으로 역인덱스 파일이 생성된 비정형 텍스트 데이터를 응용 서비스 목적에 따라 랭킹을 계산하여 순위화 결과를 제공한다.

Claims (10)

  1. 정형화된 데이터를 자원 서술 체계 형태의 정형데이터로 변환하고, 이를 분석하여 상기 자원 서술 체계 형태의 정형 데이터로부터 키워드를 추출하는 정형 데이터 키워드 추출부와,
    상기 정형 데이터 키워드 추출부에 의해 추출된 키워드를 기반으로 상기 자원 서술 체계 형태의 정형 데이터와 연관성이 있는 비정형 텍스트 데이터 집합을 수집하는 비정형 텍스트 데이터 수집부와,
    상기 수집된 비정형 텍스트 데이터 집합에서 주제어 용어집을 기반으로 비정형 텍스트 데이터의 문맥을 추출하고, 추출된 문맥을 기반으로 역인덱스를 생성하고, 상기 자원 서술 체계 형태의 정형 데이터와 비정형 데이터를 의미적으로 연결하는 비정형 텍스트 데이터 의미 연결부를 포함함을 특징으로 하는 정형화된 데이터에 연관된 비정형 데이터 연결 장치.
  2. 제 1항에 있어서, 상기 정형 데이터 키워드 추출부는
    상기 자원 서술 체계 형태의 정형 데이터에 포함된 문장의 끝을 표시하는 구두점을 뺀 나머지 구두점들을 제거하는 텍스트 전처리부와,
    상기 텍스트 전처리부를 통하여 출력된 텍스트 데이터 형태의 정형 데이터를 형태소 단위로 분석한 후, 각 형태소의 품사와 함께 출력하는 형태소 분석부와,
    상기 형태소 분석된 데이터 문서 안에서 두 개 이상의 형태소를 붙여 하나의 키워드로 추출하는 키워드 추출부를 포함함을 특징으로 하는 비정형 데이터 연결 장치.
  3. 제 2항에 있어서, 상기 텍스트 전처리부는
    상기 자원 서술 체계 형태의 정형 데이터에서 이모티콘과 같은 특수 문자를 제거하고, 의미적 연결을 수행하는 언어 외의 외국어는 제거함을 특징으로 하는 비정형 데이터 연결 장치.
  4. 제 1항에 있어서, 상기 정형 데이터 키워드 추출부는
    일반명사나 고유명사에서 문서의 도메인과 관계없는 불용어 리스트를 참고하여, 패턴에 의해 추출된 키워드 리스트에서 불용어를 제거하는 불용어 제거부를 더 포함함을 특징으로 하는 비정형 데이터 연결 장치.
  5. 제 1항에 있어서, 상기 비정형 텍스트 데이터 의미 연결부는
    상기 비정형 데이터에 포함된 문장의 끝을 표시하는 구두점을 뺀 나머지 구두점들을 제거하는 텍스트 전처리부와,
    상기 텍스트 전처리부를 통하여 출력된 텍스트 데이터 형태의 비정형 데이터를 형태소 단위로 분석한 후, 각 형태소의 품사와 함께 출력하는 형태소 분석부와,
    일반명사나 고유명사에서 문서의 도메인과 관계없는 불용어 리스트를 참고하여, 패턴에 의해 추출된 키워드 리스트에서 불용어를 제거하는 불용어 제거부와,
    수집된 비정형 텍스트 데이터 집합을 주제어 용어집(Corpus)을 기초로 각 비정형 텍스트 문서의 문맥을 추출할 때, 상기 비정형 텍스트 문서에서 주제어가 출현된 빈도수, 상기 비정형 텍스트 문서의 길이, 주제어가 출현한 비정형 텍스트 문서의 수 및 상기 비정형 텍스트 문서가 포함한 주제어의 수에 따라 가중치를 차별화하여 계산하는 주제어 빈도 가중치 계산부와,
    상기 주제어 빈도 가중치 계산부의 연산 결과에 따라 수집된 비정형 텍스트 데이터의 문맥을 추출하는 비정형 텍스트 데이터 문맥 추출부와,
    상기 자원 서술 체계 형태의 정형 데이터와 비정형 텍스트 데이터를 상기 자원 서술 체계 형태의 정형 데이터의 키워드를 중심으로 비정형 텍스트 데이터 문맥 역인덱스를 생성하고 저장하는 역인덱스 생성부와,
    자원 서술 체계로 저장된 정형 데이터를 문맥이 추출된 비정형 텍스트와 주제어로 연결하는 문맥 기반 의미 연결 생성부와,
    주제어를 중심으로 역인덱스 파일이 생성된 비정형 텍스트 데이터를 응용 서비스 목적에 따라 랭킹을 계산하는 응용 서비스 제공 랭킹 게산부를 포함함을 특징으로 하는 비정형 데이터 연결 장치.
  6. 제 5항에 있어서, 상기 형태소 분석부는
    각 형태소의 품사와 함께 출력하는 비정형 텍스트 데이터의 처리함에 있어, 웹 데이터에서 빈번하게 나타나는 신조어, 통신 용어를 포함하는 사용자 사전을 추가하여 형태소를 분석함을 특징으로 하는 비정형 데이터 연결 장치.
  7. 정형화된 데이터를 자원 서술 체계 형태의 정형데이터로 변환하고, 이를 분석하여 상기 자원 서술 체계 형태의 정형 데이터로부터 키워드를 추출하는 단계와,
    상기 자원 서술 체계 형태의 정형 데이터로부터 키워드를 추출하는 단계에서 추출된 키워드를 기반으로 상기 자원 서술 체계 형태의 정형 데이터와 연관성이 있는 비정형 텍스트 데이터 집합을 수집하는 단계와,
    상기 수집된 비정형 텍스트 데이터 집합에서 주제어 용어집을 기반으로 비정형 텍스트 데이터의 문맥을 추출하고, 추출된 문맥을 기반으로 역인덱스를 생성하고, 상기 자원 서술 체계 형태의 정형 데이터와 비정형 데이터를 의미적으로 연결하는 단계를 포함함을 특징으로 하는 정형화된 데이터에 연관된 비정형 데이터 연결 방법.
  8. 제 7항에 있어서, 상기 자원 서술 체계 형태의 정형 데이터로부터 키워드를 추출하는 단계는
    상기 자원 서술 체계 형태의 정형 데이터에 포함된 문장의 끝을 표시하는 구두점을 뺀 나머지 구두점들을 제거하는 단계와,
    상기 제거하는 단계를 통하여 출력되는 텍스트 데이터 형태의 정형 데이터를 형태소 단위로 분석한 후, 각 형태소의 품사와 함께 출력하는 단계와,
    상기 형태소 분석된 데이터 문서 안에서 두 개 이상의 형태소를 붙여 하나의 키워드로 추출하는 단계 포함함을 특징으로 하는 비정형 데이터 연결 방법.
  9. 제 8항에 있어서, 상기 자원 서술 체계 형태의 정형 데이터로부터 키워드를 추출하는 단계는
    일반명사나 고유명사에서 문서의 도메인과 관계없는 불용어 리스트를 참고하여, 패턴에 의해 추출된 키워드 리스트에서 불용어를 제거하는 단계를 더 포함함을 특징으로 하는 비정형 데이터 연결 방법.
  10. 제 7항에 있어서, 상기 연결하는 단계는
    상기 비정형 데이터에 포함된 문장의 끝을 표시하는 구두점을 뺀 나머지 구두점들을 제거하는 단계와,
    상기 제거하는 단계를 통해 출력되는 텍스트 데이터 형태의 비정형 데이터를 형태소 단위로 분석한 후, 각 형태소의 품사와 함께 출력하는 단계와,
    일반명사나 고유명사에서 문서의 도메인과 관계없는 불용어 리스트를 참고하여, 패턴에 의해 추출된 키워드 리스트에서 불용어를 제거하는 단계와,
    수집된 비정형 텍스트 데이터 집합을 주제어 용어집(Corpus)을 기초로 각 비정형 텍스트 문서의 문맥을 추출할 때, 상기 비정형 텍스트 문서에서 주제어가 출현된 빈도수, 상기 비정형 텍스트 문서의 길이, 주제어가 출현한 비정형 텍스트 문서의 수 및 상기 비정형 텍스트 문서가 포함한 주제어의 수에 따라 가중치를 차별화하여 계산하는 단계와,
    상기 가중치 계산 결과에 따라 수집된 비정형 텍스트 데이터의 문맥을 추출하는 단계와,
    상기 자원 서술 체계 형태의 정형 데이터와 비정형 텍스트 데이터를 상기 자원 서술 체계 형태의 정형 데이터의 키워드를 중심으로 비정형 텍스트 데이터 문맥 역인덱스를 생성하고 저장하는 단계와,
    자원 서술 체계로 저장된 정형 데이터를 문맥이 추출된 비정형 텍스트와 주제어로 연결하는 단계와,
    주제어를 중심으로 역인덱스 파일이 생성된 비정형 텍스트 데이터를 응용 서비스 목적에 따라 랭킹을 계산하는 단계를 포함함을 특징으로 하는 비정형 데이터 연결 방법.
KR1020130130315A 2013-10-30 2013-10-30 정형 데이터와 연관된 비정형 텍스트 데이터 연결 장치 및 방법 KR101762670B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130130315A KR101762670B1 (ko) 2013-10-30 2013-10-30 정형 데이터와 연관된 비정형 텍스트 데이터 연결 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130130315A KR101762670B1 (ko) 2013-10-30 2013-10-30 정형 데이터와 연관된 비정형 텍스트 데이터 연결 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20150049580A KR20150049580A (ko) 2015-05-08
KR101762670B1 true KR101762670B1 (ko) 2017-08-04

Family

ID=53387641

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130130315A KR101762670B1 (ko) 2013-10-30 2013-10-30 정형 데이터와 연관된 비정형 텍스트 데이터 연결 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101762670B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210017632A (ko) * 2019-08-09 2021-02-17 주식회사 한화 텍스트 및 키워드 마이닝을 통한 디버깅을 수행하는 장치 및 그 방법
WO2021261882A1 (ko) * 2020-06-23 2021-12-30 삼성전자 주식회사 전자 장치 및 전자 장치에서 신조어 기반 문장 변환 방법
US11573790B2 (en) 2019-12-05 2023-02-07 International Business Machines Corporation Generation of knowledge graphs based on repositories of code
WO2023074943A1 (ko) * 2021-10-26 2023-05-04 (주) 글루시스 사물 인터넷 환경에서 비정형 데이터 활용을 위한 정형 데이터 베이스 구성 및 그 사용 방법
US11954424B2 (en) 2022-05-02 2024-04-09 International Business Machines Corporation Automatic domain annotation of structured data

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101700327B1 (ko) * 2016-01-05 2017-01-26 (주)미소정보기술 빅데이터의 분석 결과를 제공하기 위한 방법, 서버 및 컴퓨터 판독 가능한 기록 매체
KR101644429B1 (ko) * 2016-02-17 2016-08-10 한국과학기술정보연구원 비정형 텍스트 추출 성능 향상을 위한 시스템 및 방법
KR102170206B1 (ko) * 2018-12-27 2020-10-26 에스케이 주식회사 키워드와 관계 정보를 이용한 정보 검색 시스템 및 방법
KR102549640B1 (ko) * 2022-09-30 2023-06-30 국민건강보험공단 특정 비급여 항목을 키워드에 기초하여 식별하는 방법, 장치 및 시스템

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210017632A (ko) * 2019-08-09 2021-02-17 주식회사 한화 텍스트 및 키워드 마이닝을 통한 디버깅을 수행하는 장치 및 그 방법
KR102243258B1 (ko) 2019-08-09 2021-04-21 주식회사 한화 텍스트 및 키워드 마이닝을 통한 디버깅을 수행하는 장치 및 그 방법
US11573790B2 (en) 2019-12-05 2023-02-07 International Business Machines Corporation Generation of knowledge graphs based on repositories of code
WO2021261882A1 (ko) * 2020-06-23 2021-12-30 삼성전자 주식회사 전자 장치 및 전자 장치에서 신조어 기반 문장 변환 방법
WO2023074943A1 (ko) * 2021-10-26 2023-05-04 (주) 글루시스 사물 인터넷 환경에서 비정형 데이터 활용을 위한 정형 데이터 베이스 구성 및 그 사용 방법
US11954424B2 (en) 2022-05-02 2024-04-09 International Business Machines Corporation Automatic domain annotation of structured data

Also Published As

Publication number Publication date
KR20150049580A (ko) 2015-05-08

Similar Documents

Publication Publication Date Title
KR101762670B1 (ko) 정형 데이터와 연관된 비정형 텍스트 데이터 연결 장치 및 방법
Bengfort et al. Applied text analysis with Python: Enabling language-aware data products with machine learning
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
US9448995B2 (en) Method and device for performing natural language searches
Gracia et al. The apertium bilingual dictionaries on the web of data
JP2014120053A (ja) 質問応答装置、方法、及びプログラム
Najar et al. Opinion mining and sentiment analysis for Arabic on-line texts: application on the political domain
Wijeratne et al. Natural language processing for government: Problems and potential
González et al. Siamese hierarchical attention networks for extractive summarization
KR101532252B1 (ko) 소셜 네트워크 정보 수집 및 분석 시스템
JP2017201478A (ja) キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム
JP5193798B2 (ja) 辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体
Mangairkarasi et al. Semantic based text summarization using universal networking language
RU2563148C2 (ru) Система и метод семантического поиска
KR101757222B1 (ko) 한글 문장에 대한 의역 문장 생성 방법
KR101476225B1 (ko) 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
RU2662699C2 (ru) Исчерпывающая автоматическая обработка текстовой информации
CN114970516A (zh) 数据增强方法及装置、存储介质、电子设备
US11017172B2 (en) Proposition identification in natural language and usage thereof for search and retrieval
Estiri et al. Improvement of an abstractive summarization evaluation tool using lexical-semantic relations and weighted syntax tags in Farsi language
EP3611636A1 (en) Information processing device and information processing method
JP5308918B2 (ja) キーワード抽出方法、キーワード抽出装置およびキーワード抽出プログラム
Elyasir et al. Opinion mining framework in the education domain
Naithani et al. Text-based analysis of COVID-19 comments using natural language processing
Hernandez et al. FEEL: Framework for the integration of Entity Extraction and Linking systems

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant