KR20150049580A - 정형 데이터와 연관된 비정형 텍스트 데이터 연결 장치 및 방법 - Google Patents
정형 데이터와 연관된 비정형 텍스트 데이터 연결 장치 및 방법 Download PDFInfo
- Publication number
- KR20150049580A KR20150049580A KR1020130130315A KR20130130315A KR20150049580A KR 20150049580 A KR20150049580 A KR 20150049580A KR 1020130130315 A KR1020130130315 A KR 1020130130315A KR 20130130315 A KR20130130315 A KR 20130130315A KR 20150049580 A KR20150049580 A KR 20150049580A
- Authority
- KR
- South Korea
- Prior art keywords
- data
- unstructured text
- keyword
- text data
- unit
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/282—Hierarchical databases, e.g. IMS, LDAP data stores or Lotus Notes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 정형화된 데이터에 연관된 비정형 데이터 연결 장치로, 정형화된 데이터를 자원 서술 체계 형태의 정형데이터로 변환하고, 이를 분석하여 상기 정형 데이터로부터 키워드를 추출하는 정형화 데이터 키워드 추출부와, 상기 정형 데이터 키워드 추출부에 의해 추출된 키워드를 기반으로 정형 데이터와 연관성이 있는 비정형 텍스트 데이터 집합을 수집하는 비정형 텍스트 데이터 수집부와, 상기 수집된 비정형 텍스트 데이터 집합에서 주제어 용어집을 기반으로 비정형 텍스트 데이터의 문맥을 추출하고, 추출된 문맥을 기반으로 역인덱스를 생성하고, 정형 데이터와 비정형 데이터를 의미적으로 연결하는 데이터 연결부를 포함한다.
Description
본 발명은 데이터 처리 장치 및 방법에 관한 것으로, 비정형 텍스트 데이터의 문맥을 추출하여 정형 데이터와 의미적으로 연결하는 장치 및 방법에 관한 것이다.
최근 정부 및 지방자치단체의 공공 데이터 개방 및 활용 방안에 대한 연구가 활발히 진행중이고, 범람하는 웹 정보뿐만 아니라 실시간으로 급격히 누적되는 SNS 정보를 활용하고자 하는 연구도 활발히 진행중이다.
IT 측면으로는 클라우드 및 빅데이터 처리 기술의 발전, 데이터 저장 기술 발달 등으로 정형화된 데이터 및 비정형화된 데이터를 포함하는 신규 응용 서비스를 개발하고자 하는 노력이 지속적으로 이루어지고 있다. 또한, 이질적인 데이터들 간의 상호 의미 관계를 파악하고, 상호 운용성과 매시업을 가능하게 하는 플랫폼 기술 개발이 한창이다.
특히, 실시간으로 업데이트되고 있는 비정형 텍스트 데이터는 기업체에게 제공되어 사용자의 구매 의사 분석 또는 고객 확보를 위한 목적으로 이용될 수 있고, 정부 기구 또는 지방 자치 단체에 제공되어 인구 유입/유출 분석, 복지 서비스 제공을 위한 목적으로 이용될 수 있다.
그런데, 종래에는 응용 서비스 개발자가 정부, 지방 자치체, 기업체 등으로부터 공공 데이터와 같은 정형화된 데이터를 제공받고, 이를 각 서비스 목적에 맞게 변환시킨 후 제공하였다. 그런데, 이러한 종래의 방법은 데이터 이용자가 정형데이터 및 비정형 텍스트 데이터를 각각 수집 및 변환하여 저장하고, 저장된 문서를 각각 분석하여 문서 간의 유사도, 상호 참조도 등을 분석하여 서비스를 제공하여야 하므로, 서비스 확장에 한계가 있다.
또한, 선행특허로서 “문서 간의 유사도 계산 시스템 및 방법”(한국 공개특허 10-2011-00122013)은 주로 학술 정보 검색 서비스를 위한 기술로서 문서 간의 유사도를 계산하는 시스템 및 방법의 경우 논문 간의 참고문헌 관계를 이용하여 논문 간의 유사도 계산 시스템 및 방법이다. 이는 주어진 논문에 대한 유사 학술 정보를 검색하기 위한 시스템 및 방법으로서, 논문 등의 형식 등에서 문서의 하단에 주어진 참고문헌의 직/간접적인 링크를 기반으로 문서 간의 유사도를 측정한다. 이 방법은 논문들 간이 유사도 계산을 위하여서는 용이할지는 모르나, 참고문헌이 미비한 정형 데이터의 경우에는 접근하기 어려운 방법이다.
또한 다른 선행 특허로서, '문서간 유사도 산출 시스템 및 방법'(한국공개특허 10-2010-0064297)의 경우, 제 1문서의 데이터와 제 2문서의 데이터의 형태소를 분석하여 각각 2개 이상의 같은 수로 데이터 그룹을 분리한 후, 같은 종류의 그룹내에서 문서간 유사도를 그룹별로 비교한 후, 비교 결과를 종합하여 문서 간 유사도를 산출한다. 그러나, 이는 데이터 그룹 간의 비교를 종합하여 유사도를 산출하는 방식으로, 특히 동일 문서의 종류(논문 vs 논문) 등의 경우가 아니면 동일 수의 데이터 그룹화, 데이터 그룹간의 비교 및 유사도 계산이 어렵다.
본 발명은 급증하는 정형 데이터의 활용 범위를 확장시키고, 최신 데이터와의 연관성을 제공하기 위해, 자원 서술 체계(RDF) 형태로 변환/공개된 정형데이터를 기반으로 비정형 텍스트 데이터를 수집하고, 비정형 텍스트 데이터를 의미에 따라 연결하는 장치 및 방법을 제공한다.
본 발명은 정형화된 데이터에 연관된 비정형 데이터 연결 장치로, 정형화된 데이터를 자원 서술 체계 형태의 정형데이터로 변환하고, 이를 분석하여 상기 정형 데이터로부터 키워드를 추출하는 정형화 데이터 키워드 추출부와, 상기 정형 데이터 키워드 추출부에 의해 추출된 키워드를 기반으로 정형 데이터와 연관성이 있는 비정형 텍스트 데이터 집합을 수집하는 비정형 텍스트 데이터 수집부와, 상기 수집된 비정형 텍스트 데이터 집합에서 주제어 용어집을 기반으로 비정형 텍스트 데이터의 문맥을 추출하고, 추출된 문맥을 기반으로 역인덱스를 생성하고, 정형 데이터와 비정형 데이터를 의미적으로 연결하는 데이터 연결부를 포함한다.
본 발명은 공공 링크드 데이터(LOD)와 같은 한정된 정형 데이터의 이용자가 웹, SNS, 뉴스, 논문, 이메일, 휴대 전화 등의 비정형 데이터와 연관성 데이터를 제공받음으로써, 공공 링크드 데이터의 활용도를 증가시킬 수 있다. 또한, 웹, SNS, 뉴스 등의 최신의 데이터와 연결함으로써, 실시간으로 갱신할 수 없는 정형 데이터의 한계를 극복할 수 있다.
본 발명은 일반적으로 공개되어있는 정형 데이터만 있을 경우, 원하는 응용 서비스에 관련된 방대한 비정형 텍스트 데이터를 기계 가독한 정보 형태로 손쉽게 생산하고 획득하여, 데이터 서비스 활성화를 통한 수익성 고취 등을 기대할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 정형 데이터와 연관된 비정형 텍스트 데이터 연결 장치의 구성도이다.
도 2는 본 발명의 일 실시 예에 따른 정형 데이터 키워드 추출부의 구성도이다.
도 3은 본 발명의 일 실시 예에 따른 비정형 텍스트 데이터 의미 연결부의 구성도이다.
도 4는 키워드를 기반으로 수집된 비정형 텍스트 데이터(문서) 집합은 주제어 기반으로 문맥을 추출한 후, 주제어를 중심의 역인덱스 형태로 저장한 형태의 개념도이다.
도 5는 본 발명에 따라 자원 서술 체계 형태의 정형 데이터에서 비정형 텍스트 데이터의 문맥을 추출하고, 추출된 문맥을 기반으로 의미적으로 연결하기 위한 예시도이다.
도 6은 본 발명의 일 실시 예에 따른 정형 데이터와 연관된 비정형 텍스트 데이터 연결 방법을 설명하기 위한 순서도이다.
도 7은 본 발명의 일 실시 예에 따른 정형 데이터 키워드 추출 과정을 설명하기 위한 순서도이다.
도 8은 본 발명의 일 실시 예에 따른 비정형 텍스트 데이터 의미 연결 과정을 설명하기 위한 순서도이다.
도 2는 본 발명의 일 실시 예에 따른 정형 데이터 키워드 추출부의 구성도이다.
도 3은 본 발명의 일 실시 예에 따른 비정형 텍스트 데이터 의미 연결부의 구성도이다.
도 4는 키워드를 기반으로 수집된 비정형 텍스트 데이터(문서) 집합은 주제어 기반으로 문맥을 추출한 후, 주제어를 중심의 역인덱스 형태로 저장한 형태의 개념도이다.
도 5는 본 발명에 따라 자원 서술 체계 형태의 정형 데이터에서 비정형 텍스트 데이터의 문맥을 추출하고, 추출된 문맥을 기반으로 의미적으로 연결하기 위한 예시도이다.
도 6은 본 발명의 일 실시 예에 따른 정형 데이터와 연관된 비정형 텍스트 데이터 연결 방법을 설명하기 위한 순서도이다.
도 7은 본 발명의 일 실시 예에 따른 정형 데이터 키워드 추출 과정을 설명하기 위한 순서도이다.
도 8은 본 발명의 일 실시 예에 따른 비정형 텍스트 데이터 의미 연결 과정을 설명하기 위한 순서도이다.
이하, 첨부된 도면을 참조하여 기술되는 바람직한 실시 예를 통하여 본 발명을 당업자가 용이하게 이해하고 재현할 수 있도록 상세히 기술하기로 한다.
본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명 실시 예들의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.
명세서 전반에 걸쳐 사용되는 용어들은 본 발명 실시 예에서의 기능을 고려하여 정의된 용어들로서, 사용자 또는 운용자의 의도, 관례 등에 따라 충분히 변형될 수 있는 사항이므로, 이 용어들의 정의는 본 발명의 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 본 발명의 일 실시 예에 따른 정형 데이터와 연관된 비정형 텍스트 데이터 연결 장치의 구성도이다.
도 1을 참조하면, 정형 데이터와 연관된 비정형 텍스트 데이터 연결 장치는 정형 데이터 키워드 추출부(100), 비정형 텍스트 데이터 수집부(200) 및 비정형 텍스트 데이터 의미 연결부(300)를 포함한다.
정형 데이터 키워드 추출부(100)는 정형 데이터를 자원 서술 체계(Resource Description Framework : RDF)형 정형 데이터로 변환한 후, 변환된 정형 데이터를 분석하여 주요 키워드를 추출한다. 예컨대, 대규모의 박물관의 경우, 정형화 데이터로서 박물관에 있는 물품, 지도, 행사 정보 등이 제공되는데, 이러한 박물관 정보를 자원 서술 체계(RDF)형 정형데이터로 변환한 후 분석하여 박물관 위치, 전시물 등의 주요 키워드로 추출한다. 이에 대해서는 하기의 도 2를 참조하여 상세히 살펴보기로 한다.
비정형 데이터 수집부(200)는 정형 데이터 키워드 추출부(100)에 의해 추출된 키워드를 기반으로 정형 데이터와 연관성이 있어 의미상 연결할 수 있는 비정형 텍스트 데이터 집합을 수집한다. 예컨대, 비정형 텍스트 데이터로 박물관과 관련된 전시 물품에 대한 백과사전 정보, 최근 뉴스, 탐방자의 방문 후기 등이 있을 수 있는데, 비정형 데이터 수집부(200)는 정형 데이터 키워드 추출부(100)에 의해 추출된 키워드를 기반으로 웹, 블로그, 뉴스 정보 등의 비정형 텍스트 데이터 또는 문서 데이터를 수집한다.
비정형 텍스트 데이터 의미 연결부(300)는 수집된 비정형 텍스트 데이터 집합에서 주제어 용어집을 기반으로 비정형 텍스트 데이터의 문맥을 추출하고, 이 추출된 결과를 문맥 중심으로 역인덱스를 생성하고, 정형 데이터와 비정형 데이터를 의미적으로 연결한다. 본 발명의 일 실시 예에 따라, 비정형 텍스트 데이터의 문맥을 추출하기 위하여 특정 주제어 용어집 활용함으로써, 방대한 비정형 텍스트 데이터에서 사용자나 서비스가 원하는 목적에 따라 특화된 문맥을 추출할 수 있다. 이에 대해서는 하기의 도 3을 참조하여 상세히 살펴보기로 한다.
도 2는 본 발명의 일 실시 예에 따른 정형 데이터 키워드 추출부의 구성도이다.
도 2를 참조하면, 정형 데이터 키워드 추출부(100)는 텍스트 전처리부(110), 형태소 분석부(120), 불용어 제거부(130), 키워드 추출부(140)를 포함한다
텍스트 전처리부(110)는 정형 데이터에 포함된 문장의 끝을 표시하는 구두점을 뺀 나머지 구두점들을 제거한다. 또한, 텍스트 전처리부(110)는 정형 데이터에서 웹, SNS, 블로그, 이메일 등의 비정형 데이터에서 빈번하게 나타나는 이모티콘과 같은 특수 문자를 제거하고, 의미적 연결을 수행하는 언어(한국어)외의 외국어는 제거한다.
형태소 분석부(120)는 텍스트 전처리부(110)를 통하여 출력된 텍스트 데이터 형태의 정형 데이터를 형태소 단위로 분석한 후, 각 형태소의 품사와 함께 출력함으로써, 키워드 추출의 기초 과정을 수행한다.
키워드 추출부(140)는 문서의 의미를 나타낸다고 판단되는 키워드를 추출하는데, 형태소 분석된 데이터 문서 안에서 두 개 이상의 형태소를 붙여 하나의 키워드로 추출한다. 특히, 본 발명의 실시 예에 따라, 한국어의 특성에 따라 하나의 형태소로 구성된 [일반명사], [고유명사] 및 두 개의 형태소로 구성된 “[일반명사, 일반명사], [일반명사, 고유명사], [고유명사, 일반명사], [형용사, 일반명사], [형용사, 고유명사], [동사, 일반명사], [동사, 고유명사]의 패턴에 해당하는 연속키워드를 추출하여 키워드로 추출한다. 이때, 명사들 사이에 나타나는 조사나 동사 또는 형용사와 명사들 사이에 나타나는 전성 어미를 제거한다.
부가적으로, 불용어 제거부(130)는 일반명사나 고유명사에서 문서의 도메인과 관계없는 불용어 리스트(135)를 참고하여, 패턴에 의해 추출된 키워드 리스트(135)에서 불용어를 제거할 수도 있다. 여기서, 불용어 리스트(135)는 문서의 도메인에 관계없이 문서의 의미가 관계없는 것으로 보이는 리스트을 생성하거나, 문서의 도메인에 맞게 문서의 의미가 관계없는 것으로 보이는 불용어 리스트가 생성되어 적용될 수 있다.
도 3은 본 발명의 일 실시 예에 따른 비정형 텍스트 데이터 의미 연결부의 구성도이다.
도 3을 참조하면, 비정형 텍스트 데이터 의미 연결부(300)는 텍스트 전처리부(310), 형태소 분석부(320), 불용어 제거부(330), 주제어 용어집(340), 주제어 빈도 가중치 계산부(350), 비정형 텍스트 데이터 문맥 추출부(360), 역인덱스 생성부(370), 문맥 기반 의미 연결 생성 리스트 저장부(380) 및 랭킹 계산부(390)를 포함한다.
텍스트 전처리부(310), 형태소 분석부(320) 및 불용어 제거부(330)는 도 2에 도시된 텍스트 전처리부(210), 형태소 분석부(220) 및 불용어 제어부(230)과 그 기능이 동일하므로, 여기서는 상세한 설명을 생략하기로 한다.
그런데, 형태소 분석부(220)는 비정형 텍스트 데이터의 처리함에 있어, 웹 데이터에서 빈번하게 나타나는 신조어, 통신 용어 등의 사용자 사전을 추가하여 형태소 분석기의 성능을 향상시킨다. 특히, 통신 언어에서 글자 수의 제약으로 흔히 일어나는 약어 사용의 증가는 형태소 분석에서 사용되는 단어 사전을 무력화시킬 수 있음으로 통신언어 말뭉치 분석을 통한 약어사전 구축, 단어 내 음운 생략 현상의 규칙들을 일반화환 규칙 기반 처리, 약어 현상 등을 학습시킨 기계학습을 통한 알고리즘 접근 등의 방식을 이용한다.
주제어 용어집(340)은 특정 해당 분야의 사람들만이 주로 이용하는 전문 용어만을 모아놓은 사전의 형태를 말한다. 일반적인 어휘에 비하여 의미가 특화되는 경우가 많으므로, 사용자나 응용 서비스는 특정 주제어 용어집을 활용하면 비정형 텍스트 데이터의 문맥의 정확성을 향상시킬 수 있다. 기술적으로 주제어 용어집은 다양한 형태로 제공될 수 있다. 따라서, 본 발명에서는 사용자나 서비스의 목적으로 용어집을 구축하여 활용할 수도 있고, 기존에 구축된 용어집의 형태를 제한하지 않으며, API를 제공하여 기존 용어집과 연동할 수 있다.
주제어 빈도 가중치 계산부(350)는 수집된 비정형 텍스트 데이터 집합을 주제어 용어집(Corpus)을 기초로 각 비정형 텍스트 문서의 문맥을 추출할 때, 주제어의 다음 빈도에 따라 가중치를 차별화하여 계산한다. 여기서, 주제어의 빈도 가중치는 비정형 텍스트 문서에서 주제어가 출현된 빈도수, 비정형 텍스트 문서의 길이, 주제어가 출현한 비정형 텍스트 문서의 수, 비정형 텍스트 문서가 포함한 주제어의 수 등을 포함할 수 있으며, 본 발명은 가중치 계산부에 필요한 계수를 제한하지 않는다.
비정형 텍스트 데이터 문맥 추출부(360)는 주제어 용어집(340) 및 주제어 빈도 가중치 계산부(350)의 연산 결과에 따라 수집된 비정형 텍스트 데이터의 문맥을 추출한다. 이미 주제어 용어집을 기반으로 비정형 텍스트 데이터(문서)의 주제어 출현 등에 따라 문서의 주제가 추출되고, 더 나아가 주제어의 빈도 가중치에 따라 문맥이 추출된 후, 각 비정형 텍스트 데이터를 주제어로 대표하는 과정이다. 예컨대, 역사, 유물 등 박물관과 관련된 용어집 또는 지역 정보, 활동 정보 등 박물관과 관련되지 않은 용어집을 참고하여 비정형 텍스트 데이터의 문맥을 추출한다.
역인덱스 생성부(370)는 정형 데이터와 비정형 텍스트 데이터를 정형 데이터의 키워드를 중심으로 비정형 텍스트 데이터 문맥 역인덱스를 생성하고 저장한다.
도 4는 키워드를 기반으로 수집된 비정형 텍스트 데이터(문서) 집합은 주제어 기반으로 문맥을 추출한 후, 주제어를 중심의 역인덱스 형태로 저장한 형태의 개념도인데, 역인덱스 생성부(370)는 도 4와 같이 키워드를 기반으로 수집된 비정형 텍스트 데이터(문서) 집합은 주제어 기반으로 문맥을 추출하고, 주제어 중심의 역인덱스 형태로 저장한다.
문맥 기반 의미 연결 생성부(380)는 자원 서술 체계(RDF)로 저장된 정형 데이터를 문맥이 추출된 비정형 텍스트와 주제어(의미적)로 연결한다. 이와 같은 지식은 응용 서비스의 개발자의 목적에 따라 순위화하여 응용 서비스에 제공함으로써 기본 박물관 정보 외에 다양한 부가가치가 향상된 데이터가 서비스될 수 있다.
이를 위해, 응용 서비스 제공 랭킹 계산부(390)는 주제어를 중심으로 역인덱스 파일이 생성된 비정형 텍스트 데이터를 응용 서비스 목적에 따라 랭킹을 계산하여 순위화 결과를 제공한다. 예컨대, 키워드 A를 기반으로 수집된 비정형 텍스트 데이터를 주제어 n개로 역인덱스 파일로 생성되어 있다. 이는 응용 서비스의 목적에 따라 날짜, 관련된 키워드의 수, 연결된 주제어의 수 또는 제한되지 않은 그 외의 변수(환경, 성능, 서비스 대상)에 따라 순위를 연산하여 응용서비스에 제공한다.
도 5는 본 발명에 따라 자원 서술 체계 형태의 정형 데이터에서 비정형 텍스트 데이터의 문맥을 추출하고, 추출된 문맥을 기반으로 의미적으로 연결하기 위한 예시도이다.
도 5를 참조하면, 비정형 텍스트 데이터에서 추출된 문맥은 직접적으로 자원 서술 체계 형태의 속성(Property)일 수 있다. 또한, 주제어 용어집을 참고함으로써 주제어, 주제어의 상위 주제어가 이 인스턴스의 속성으로 적용될 수도 있다. 속성이 정의된 비정형 텍스트 데이터의 URI는 새로운 객체 인스턴스로 연결함으로써, 정형 데이터와 의미적으로 연결된다.
도 6은 본 발명의 일 실시 예에 따른 정형 데이터와 연관된 비정형 텍스트 데이터 연결 방법을 설명하기 위한 순서도이다.
도 6을 참조하면, S610에서 정형 데이터 키워드 추출부(100)는 정형화된 데이터를 자원 서술 체계(RDF)형 정형데이터로 변환한 후, 분석하여 주요 키워드를 추출한다. 예컨대, 대규모의 박물관의 경우, 정형화 데이터로서 박물관에 있는 물품, 지도, 행사 정보 등이 제공되는데, 이러한 박물관 정보를 자원 서술 체계(RDF)형 정형데이터로 변환한 후 분석하여 박물관 위치, 전시물 등의 주요 키워드로 추출한다. 이에 대해서는 하기의 도 7를 참조하여 상세히 살펴보기로 한다.
S620에서 비정형 데이터 수집부(200)는 정형 데이터에서 추출된 키워드를 기반으로 정형 데이터와 연관성이 있어 의미적으로 연결할 수 있는 비정형 텍스트 데이터 집합을 수집한다. 예컨대, 비정형 텍스트 데이터로 박물관과 관련된 전시 물품에 대한 백과사전 정보, 최근 뉴스, 탐방자의 방문 후기 등이 있을 수 있는데, 비정형 데이터 수집부(200)는 정형 데이터 키워드 추출부(100)에 의해 추출된 키워드를 기반으로 웹, 블로그, 뉴스 정보 등의 비정형 텍스트 데이터 또는 문서 데이터를 수집한다.
S630에서 비정형 텍스트 데이터 의미 연결부(300)는 수집된 비정형 텍스트 데이터 집합에서 주제어 용어집을 기반으로 비정형 텍스트 데이터의 문맥을 추출하고, 이 추출된 결과를 문맥 중심으로 역인덱스를 생성하고, 정형 데이터와 비정형 데이터를 의미적으로 연결한다. 본 발명의 일 실시 예에 따라, 비정형 텍스트 데이터의 문맥을 추출하기 위하여 특정 주제어 용어집 활용함으로써, 방대한 비정형 텍스트 데이터에서 사용자나 서비스가 원하는 목적에 따라 특화된 문맥을 추출할 수 있다. 이에 대해서는 하기의 도 8을 참조하여 상세히 살펴보기로 한다.
도 7은 본 발명의 일 실시 예에 따른 정형 데이터 키워드 추출 과정의 순서도이다.
도 7을 참조하면, S710에서, 텍스트 전처리부(110)는 정형 데이터에 포함된 문장의 끝을 표시하는 구두점을 뺀 나머지 구두점들을 제거한다. 또한, 텍스트 전처리부(110)는 정형 데이터에서 웹, SNS, 블로그, 이메일 등의 비정형 데이터에서 빈번하게 나타나는 이모티콘과 같은 특수 문자를 제거하고, 의미적 연결을 수행하는 언어(한국어)외의 외국어는 제거한다.
S720에서, 형태소 분석부(120)는 텍스트 전처리부(110)를 통하여 출력된 텍스트 데이터 형태의 정형 데이터를 형태소 단위로 분석한 후, 각 형태소의 품사와 함께 출력함으로써, 키워드 추출의 기초 과정을 수행한다.
S730에서, 불용어 제거부(130)는 일반명사나 고유명사에서 문서의 도메인과 관계없는 불용어 리스트를 참고하여, 패턴에 의해 추출된 키워드 리스트(135)에서 불용어를 제거할 수도 있다. 여기서, 불용어 리스트(135)는 문서의 도메인에 관계없이 문서의 의미가 관계없는 것으로 보이는 리스트을 생성하거나, 문서의 도메인에 맞게 문서의 의미가 관계없는 것으로 보이는 불용어 리스트가 생성되어 적용될 수 있다.
S740에서, 키워드 추출부(140)는 문서의 의미를 나타낸다고 판단되는 키워드를 추출하는데, 형태소 분석된 데이터 문서 안에서 두 개 이상의 형태소를 붙여 하나의 키워드로 추출한다. 특히, 본 발명의 실시 예에 따라, 한국어의 특성에 따라 하나의 형태소로 구성된 [일반명사], [고유명사] 및 두 개의 형태소로 구성된 “[일반명사, 일반명사], [일반명사, 고유명사], [고유명사, 일반명사], [형용사, 일반명사], [형용사, 고유명사], [동사, 일반명사], [동사, 고유명사]의 패턴에 해당하는 연속키워드를 추출하여 키워드로 추출한다. 이때, 명사들 사이에 나타나는 조사나 동사 또는 형용사와 명사들 사이에 나타나는 전성 어미를 제거한다.
도 8은 본 발명의 일 실시 예에 따른 비정형 텍스트 데이터 의미 연결 과정을 설명하기 위한 순서도이다.
도 8을 참조하면, S810, S820 및 S830은 도 7에 도시된 S710, S720 및 S730과 각각 동일하므로, 여기서는 상세한 설명을 생략하기로 한다.
S840에서, 주제어 빈도 가중치 계산부(350)는 수집된 비정형 텍스트 데이터 집합을 주제어 용어집(Corpus)을 기초로 각 비정형 텍스트 문서의 문맥을 추출할 때, 주제어의 다음 빈도에 따라 가중치를 차별화하여 계산한다. 여기서, 주제어의 빈도 가중치는 비정형 텍스트 문서에서 주제어가 출현된 빈도수, 비정형 텍스트 문서의 길이, 주제어가 출현한 비정형 텍스트 문서의 수, 비정형 텍스트 문서가 포함한 주제어의 수 등을 포함할 수 있으며, 본 발명은 가중치 계산부에 필요한 계수를 제한하지 않는다.
S850에서, 비정형 텍스트 데이터 문맥 추출부(360)는 주제어 용어집(340) 및 주제어 빈도 가중치 계산부(350)의 연산 결과에 따라 수집된 비정형 텍스트 데이터의 문맥을 추출한다. 이미 주제어 용어집을 기반으로 비정형 텍스트 데이터(문서)의 주제어 출현 등에 따라 문서의 주제가 추출되고, 더 나아가 주제어의 빈도 가중치에 따라 문맥이 추출된 후, 각 비정형 텍스트 데이터를 주제어로 대표하는 과정이다. 예컨대, 역사, 유물 등 박물관과 관련된 용어집 또는 지역 정보, 활동 정보 등 박물관과 관련되지 않은 용어집을 참고하여 비정형 텍스트 데이터의 문맥을 추출한다.
S860에서, 역인덱스 생성부(370)는 정형 데이터와 비정형 텍스트 데이터를 정형 데이터의 키워드를 중심으로 비정형 텍스트 데이터 문맥 역인덱스를 생성하고 저장한다.
S870에서, 문맥 기반 의미 연결 생성부(380)는 자원 서술 체계(RDF)로 저장된 정형 데이터를 문맥이 추출된 비정형 텍스트와 주제어(의미적)로 연결한다.
이와 같은 지식은 응용 서비스의 개발자의 목적에 따라 순위화하여 응용 서비스에 제공함으로써 기본 박물관 정보 외에 다양한 부가가치가 향상된 데이터가 서비스될 수 있다.
S880에서, 응용 서비스 제공 랭킹 계산부(390)는 주제어를 중심으로 역인덱스 파일이 생성된 비정형 텍스트 데이터를 응용 서비스 목적에 따라 랭킹을 계산하여 순위화 결과를 제공한다.
Claims (1)
- 정형화된 데이터를 자원 서술 체계 형태의 정형데이터로 변환하고, 이를 분석하여 상기 정형 데이터로부터 키워드를 추출하는 정형화 데이터 키워드 추출부와,
상기 정형 데이터 키워드 추출부에 의해 추출된 키워드를 기반으로 정형 데이터와 연관성이 있는 비정형 텍스트 데이터 집합을 수집하는 비정형 텍스트 데이터 수집부와,
상기 수집된 비정형 텍스트 데이터 집합에서 주제어 용어집을 기반으로 비정형 텍스트 데이터의 문맥을 추출하고, 추출된 문맥을 기반으로 역인덱스를 생성하고, 정형 데이터와 비정형 데이터를 의미적으로 연결하는 비정형 텍스트 데이터 의미 연결부를 포함함을 특징으로 하는 정형화된 데이터에 연관된 비정형 데이터 연결 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130130315A KR101762670B1 (ko) | 2013-10-30 | 2013-10-30 | 정형 데이터와 연관된 비정형 텍스트 데이터 연결 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130130315A KR101762670B1 (ko) | 2013-10-30 | 2013-10-30 | 정형 데이터와 연관된 비정형 텍스트 데이터 연결 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20150049580A true KR20150049580A (ko) | 2015-05-08 |
KR101762670B1 KR101762670B1 (ko) | 2017-08-04 |
Family
ID=53387641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130130315A KR101762670B1 (ko) | 2013-10-30 | 2013-10-30 | 정형 데이터와 연관된 비정형 텍스트 데이터 연결 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101762670B1 (ko) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101644429B1 (ko) * | 2016-02-17 | 2016-08-10 | 한국과학기술정보연구원 | 비정형 텍스트 추출 성능 향상을 위한 시스템 및 방법 |
KR101700327B1 (ko) * | 2016-01-05 | 2017-01-26 | (주)미소정보기술 | 빅데이터의 분석 결과를 제공하기 위한 방법, 서버 및 컴퓨터 판독 가능한 기록 매체 |
KR20200080571A (ko) * | 2018-12-27 | 2020-07-07 | 에스케이 주식회사 | 키워드와 관계 정보를 이용한 정보 검색 시스템 및 방법 |
KR102549640B1 (ko) * | 2022-09-30 | 2023-06-30 | 국민건강보험공단 | 특정 비급여 항목을 키워드에 기초하여 식별하는 방법, 장치 및 시스템 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102243258B1 (ko) * | 2019-08-09 | 2021-04-21 | 주식회사 한화 | 텍스트 및 키워드 마이닝을 통한 디버깅을 수행하는 장치 및 그 방법 |
US11573790B2 (en) | 2019-12-05 | 2023-02-07 | International Business Machines Corporation | Generation of knowledge graphs based on repositories of code |
US12056437B2 (en) | 2020-06-23 | 2024-08-06 | Samsung Electronics Co., Ltd. | Electronic device and method for converting sentence based on a newly coined word |
KR20210158270A (ko) * | 2020-06-23 | 2021-12-30 | 삼성전자주식회사 | 전자 장치 및 전자 장치에서 신조어 기반 문장 변환 방법 |
KR20230059601A (ko) * | 2021-10-26 | 2023-05-03 | (주) 글루시스 | 사물 인터넷 환경에서 비정형 데이터 활용을 위한 정형 데이터 베이스 구성 및 그 사용 방법 |
US11954424B2 (en) | 2022-05-02 | 2024-04-09 | International Business Machines Corporation | Automatic domain annotation of structured data |
-
2013
- 2013-10-30 KR KR1020130130315A patent/KR101762670B1/ko active IP Right Grant
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101700327B1 (ko) * | 2016-01-05 | 2017-01-26 | (주)미소정보기술 | 빅데이터의 분석 결과를 제공하기 위한 방법, 서버 및 컴퓨터 판독 가능한 기록 매체 |
KR101644429B1 (ko) * | 2016-02-17 | 2016-08-10 | 한국과학기술정보연구원 | 비정형 텍스트 추출 성능 향상을 위한 시스템 및 방법 |
KR20200080571A (ko) * | 2018-12-27 | 2020-07-07 | 에스케이 주식회사 | 키워드와 관계 정보를 이용한 정보 검색 시스템 및 방법 |
KR102549640B1 (ko) * | 2022-09-30 | 2023-06-30 | 국민건강보험공단 | 특정 비급여 항목을 키워드에 기초하여 식별하는 방법, 장치 및 시스템 |
Also Published As
Publication number | Publication date |
---|---|
KR101762670B1 (ko) | 2017-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101762670B1 (ko) | 정형 데이터와 연관된 비정형 텍스트 데이터 연결 장치 및 방법 | |
US9448995B2 (en) | Method and device for performing natural language searches | |
AU2012235939B2 (en) | Real-time automated interpretation of clinical narratives | |
Gracia et al. | The apertium bilingual dictionaries on the web of data | |
JP6676109B2 (ja) | 発話文生成装置とその方法とプログラム | |
WO2013088287A1 (en) | Generation of natural language processing model for information domain | |
JP2014120053A (ja) | 質問応答装置、方法、及びプログラム | |
Najar et al. | Opinion mining and sentiment analysis for Arabic on-line texts: application on the political domain | |
Satapathy et al. | Phonsenticnet: A cognitive approach to microtext normalization for concept-level sentiment analysis | |
González et al. | Siamese hierarchical attention networks for extractive summarization | |
CN114970516A (zh) | 数据增强方法及装置、存储介质、电子设备 | |
KR101532252B1 (ko) | 소셜 네트워크 정보 수집 및 분석 시스템 | |
Ahmad et al. | Urdu speech and text based sentiment analyzer | |
Mangairkarasi et al. | Semantic based text summarization using universal networking language | |
RU2563148C2 (ru) | Система и метод семантического поиска | |
KR101757222B1 (ko) | 한글 문장에 대한 의역 문장 생성 방법 | |
KR101476225B1 (ko) | 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 | |
Ezhilarasi et al. | Designing the neural model for POS tag classification and prediction of words from ancient stone inscription script | |
US11017172B2 (en) | Proposition identification in natural language and usage thereof for search and retrieval | |
Narayanasamy et al. | Effective Preprocessing and Normalization Techniques for COVID‐19 Twitter Streams with POS Tagging via Lightweight Hidden Markov Model | |
Naithani et al. | Text-based analysis of COVID-19 comments using natural language processing | |
Perera et al. | Realtext-lex: a lexicalization framework for RDF triples | |
EP3611636A1 (en) | Information processing device and information processing method | |
Hathout et al. | Acquisition and enrichment of morphological and morphosemantic knowledge from the French Wiktionary | |
Hernandez et al. | FEEL: Framework for the integration of Entity Extraction and Linking systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
AMND | Amendment | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant |