WO2017142109A1 - 비정형 텍스트 추출 성능 향상을 위한 시스템 및 방법 - Google Patents

비정형 텍스트 추출 성능 향상을 위한 시스템 및 방법 Download PDF

Info

Publication number
WO2017142109A1
WO2017142109A1 PCT/KR2016/001645 KR2016001645W WO2017142109A1 WO 2017142109 A1 WO2017142109 A1 WO 2017142109A1 KR 2016001645 W KR2016001645 W KR 2016001645W WO 2017142109 A1 WO2017142109 A1 WO 2017142109A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
information
time
module
extraction
Prior art date
Application number
PCT/KR2016/001645
Other languages
English (en)
French (fr)
Inventor
선충녕
송사광
조민희
신성호
임형준
조민수
성원경
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Publication of WO2017142109A1 publication Critical patent/WO2017142109A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

본 발명은 비정형 텍스트 추출 성능 향상을 위한 시스템 및 방법에 관한 것으로서, 수집된 비정형 텍스트를 언어 분석하여, 이벤트 키워드, 이벤트가 발생한 시간정보 또는 공간정보를 추출하고, 상기 이벤트 키워드에 시간정보 또는 공간정보를 매핑시켜 추출 지식 후보들을 생성하는 비정형 데이터 처리부, 시공간 연계 정형 데이터를 이용하여 상기 비정형 데이터 처리부에서 생성된 추출 지식 후보들의 유효성을 판단하는 필터부를 포함한다.

Description

비정형 텍스트 추출 성능 향상을 위한 시스템 및 방법
본 발명은 비정형 텍스트 추출 성능 향상을 위한 시스템 및 방법에 관한 것으로서, 더욱 상세하게는 실제 발생하는 현상을 나타내는 시간정보 또는 공간정보를 이용하여 텍스트 정보 추출 결과를 검증하는 비정형 텍스트 추출 성능 향상을 위한 시스템 및 방법에 관한 것이다.
최근에는 웹 뉴스 또는 비정형 텍스트에서 정보를 추출하여 주제를 요약하거나 핵심적인 사건 혹은 이벤트를 추출하는 연구가 진행되고 있다. 여기서 일반적인 의미의 '이벤트'는 문제가 되거나 관심을 끌만한 사건을 말하는 반면, 디지털 정보처리를 위한 정보추출(Information Extraction) 관점에서의 '이벤트'는 주어진 문서에서 언급하는 핵심 사건이나 주제를 나타내는 정보로서, 정보추출 대상을 의미한다.
한편, 자연어에 대한 텍스트 정보 추출은 자연어로 작성된 문서 집합에서 원하는 정보를 선택하여 구조화된 표현으로 생성하는 데 사용되는 기술이며, 최근 급증하는 웹 환경과 소셜 네트워크와 연결되어 그 중요성이 강조되고 있다.
그러나, 자연어의 다양한 표현, 사람들이 사용하는 다양한 은유 또는 비유적 표현들로 인해 효과적인 텍스트 정보 추출 기술이 있더라도 실제 현상과 연계되는 사실을 추출하는 것은 어려운 문제로 있다.
또한, 텍스트 정보 추출 기술이 텍스트 자체에 포함된 정보의 분석에만 의존하고 있기 때문에 추출된 결과에 대한 검증이나 신뢰도를 측정하기 불가능한 단점이 있었다.
본 발명의 목적은 실제 발생하는 현상을 나타내는 시간정보 또는 공간정보를 이용하여 텍스트 정보 추출 결과를 검증하는 비정형 텍스트 추출 성능 향상을 위한 시스템 및 방법을 제공하는 것이다.
본 발명의 일 측면에 따르면, 수집된 비정형 텍스트를 언어 분석하여, 이벤트 키워드, 이벤트가 발생한 시간정보 또는 공간정보를 추출하고, 상기 이벤트 키워드에 시간정보 또는 공간정보를 매핑시켜 추출 지식 후보들을 생성하는 비정형 데이터 처리부, 시공간 연계 정형 데이터를 이용하여 상기 비정형 데이터 처리부에서 생성된 추출 지식 후보들의 유효성을 판단하는 필터부를 포함하는 비정형 텍스트 추출 성능 향상을 위한 시스템이 제공된다.
상기 비정형 텍스트 추출 성능 향상을 위한 시스템은 정형 데이터를 수집하고, 상기 수집된 정형 데이터를 표준화하여 시공간 연계 정형 데이터를 생성하는 정형 데이터 처리부를 더 포함할 수 있다.
상기 정형 데이터 처리부는, 시계열 정형 데이터와 일반 정형 데이터를 수집하는 수집모듈, 상기 시계열 정형 데이터와 일반 정형 데이터를 표준화하는 필터모듈, 상기 표준화된 시계열 정형 데이터와 일반 정형 데이터를 실측의 시공간 좌표 평면상의 값으로 오류를 정정하는 추정모듈, 상기 오류 정정된 시계열 정형 데이터와 일반 정형 데이터를 시공간 좌표상의 모든 점에 대한 데이터로 확장하는 확장모듈, 상기 시공간으로 확장된 시공간 연계 정형 데이터를 분산 병렬 저장하는 저장모듈을 포함할 수 있다.
상기 비정형 데이터 처리부는, 정보원으로부터 비정형 텍스트를 수집하는 수집모듈, 상기 수집된 비정형 텍스트를 언어 분석하여, 이벤트 키워드, 이벤트가 발생한 시간정보 또는 공간정보를 추출하는 추출모듈, 상기 추출된 시간정보 또는 공간정보를 구체화하는 분석모듈, 상기 이벤트 키워드에 상기 구체화된 시간정보 또는 공간정보를 매핑시켜 추출 지식 후보들을 생성하는 연계모듈을 포함할 수 있다.
상기 수집모듈이 비정형 텍스트의 수집 상황 데이터를 수집한 경우, 상기 분석 모듈은, 상기 수집상황 메타 데이터에 포함된 시간정보를 이용하여 상기 추출된 시간정보를 절대적인 시간정보로 변환하는 시간정보 분석모듈, 상기 수집상황 메타 데이터에 포함된 공간정보를 이용하여 상기 추출된 공간정보를 구체화하는 공간정보 분석모듈을 포함할 수 있다.
상기 필터부는, 상기 추출 지식 후보들에 맞는 전제조건 모델을 이용하여 추출 지식 후보들의 유효성을 판단하는 필터모듈을 포함할 수 있다.
또한, 상기 필터부는 시공간 연계 정형 데이터와 과거 이력 정보를 이용하여 전제조건을 결정하는 조건모델 학습모듈을 더 포함할 수 있다.
본 발명의 다른 측면에 따르면, (a) 비정형 텍스트를 수집하는 단계, (b) 상기 수집된 비정형 텍스트를 언어 분석하여, 이벤트 키워드, 이벤트가 발생한 시간정보 또는 공간정보를 추출하는 단계, (c) 상기 이벤트 키워드에 시간정보 또는 공간정보를 매핑시켜 추출 지식 후보들을 생성하는 단계, (d) 시공간 연계 정형 데이터를 이용하여 상기 생성된 추출 지식 후보들의 유효성을 판단하는 단계를 포함하는 비정형 텍스트 추출 성능 향상을 위한 방법이 제공된다.
상기 (a)단계에서 비정형 텍스트와 그 비정형 텍스트의 수집 상황 데이터를 수집한 경우, 상기 (c) 단계는, 상기 수집상황 메타 데이터에 포함된 시간정보를 이용하여 상기 추출된 시간정보를 절대적인 시간정보로 변환하고, 상기 수집상황 메타 데이터에 포함된 공간정보를 이용하여 상기 추출된 공간정보를 구체화하는 단계, 상기 이벤트 키워드에 상기 구체화된 시간정보 또는 공간정보를 매핑시켜 추출 지식 후보들을 생성하는 단계를 포함할 수 있다.
상기 시공간 연계 정형 데이터는, 시계열 정형 데이터와 일반 정형 데이터를 표준화하고, 상기 표준화된 시계열 정형 데이터와 일반 정형 데이터를 실측의 시공간 좌표 평면상의 값으로 오류를 정정하며, 상기 오류 정정된 시계열 정형 데이터와 일반 정형 데이터를 시공간 좌표상의 모든 점에 대한 데이터로 확장하여 생성된 것을 특징으로 할 수 있다.
상기 (d)단계는, 기 구축된 전제조건 모델중에서 상기 추출 지식 후보들의 유효성 판단을 위한 전제조건 모델을 결정하는 단계, 상기 결정된 전제조건 모델을 이용하여 상기 추출 지식 후보들의 유효성을 판단하고, 유효하지 않은 추출 지식 후보들을 제거하는 단계를 포함할 수 있다.
상기 전제조건 모델은 시공간 연계 정형 데이터와 과거 이력 정보를 이용한 기계학습 방법을 활용하여 생성된 것을 특징으로 할 수 있다.
본 발명에 따르면, 실제 발생하는 현상을 나타내는 시간정보 또는 공간정보를 이용하여 텍스트 정보 추출 결과를 검증할 수 있다.
또한, 부적절하게 사용되는 텍스트나 소셜 데이터들을 제거하고, 실제 상황에 맞는 이벤트만을 추출할 수 있다.
한편, 본 발명의 효과는 이상에서 언급한 효과들로 제한되지 않으며, 이하에서 설명할 내용으로부터 통상의 기술자에게 자명한 범위 내에서 다양한 효과들이 포함될 수 있다.
도 1은 본 발명의 실시예에 따른 비정형 텍스트 추출 성능 향상을 위한 시스템을 나타낸 도면이다.
도 2는 도 1에 도시된 비정형 데이터 처리부의 구성을 구체적으로 나타낸 블럭도이다.
도 3은 도 1에 도시된 필터부의 구성을 구체적으로 나타낸 블럭도이다.
도 4는 도 1에 도시된 정형 데이터 처리부의 구성을 구체적으로 나타낸 블럭도이다.
도 5는 본 발명의 실시예에 따른 비정형 텍스트 추출 성능 향상을 위한 방법을 나타낸 순서도이다.
도 6은 본 발명의 실시예에 따른 시공간 연계 정형 데이터를 생성하는 방법을 나타낸 순서도이다.
이하, 첨부된 도면들을 참조하여 본 발명에 따른 ' 비정형 텍스트 추출 성능 향상을 위한 시스템 및 방법'을 상세하게 설명한다. 설명하는 실시 예들은 본 발명의 기술 사상을 당업자가 용이하게 이해할 수 있도록 제공되는 것으로 이에 의해 본 발명이 한정되지 않는다. 또한, 첨부된 도면에 표현된 사항들은 본 발명의 실시 예들을 쉽게 설명하기 위해 도식화된 도면으로 실제로 구현되는 형태와 상이할 수 있다.
한편, 이하에서 표현되는 각 구성부는 본 발명을 구현하기 위한 예일 뿐이다. 따라서, 본 발명의 다른 구현에서는 본 발명의 사상 및 범위를 벗어나지 않는 범위에서 다른 구성부가 사용될 수 있다.
또한, 각 구성부는 순전히 하드웨어 또는 소프트웨어의 구성만으로 구현될 수도 있지만, 동일 기능을 수행하는 다양한 하드웨어 및 소프트웨어 구성들의 조합으로 구현될 수도 있다. 또한, 하나의 하드웨어 또는 소프트웨어에 의해 둘 이상의 구성부들이 함께 구현될 수도 있다.
또한, 어떤 구성요소들을 '포함'한다는 표현은, '개방형'의 표현으로서 해당 구성요소들이 존재하는 것을 단순히 지칭할 뿐이며, 추가적인 구성요소들을 배제하는 것으로 이해되어서는 안 된다.
도 1은 본 발명의 실시예에 따른 비정형 텍스트 추출 성능 향상을 위한 시스템을 나타낸 도면, 도 2는 도 1에 도시된 비정형 데이터 처리부의 구성을 구체적으로 나타낸 블럭도, 도 3은 도 1에 도시된 필터부의 구성을 구체적으로 나타낸 블럭도, 도 4는 도 1에 도시된 정형 데이터 처리부의 구성을 구체적으로 나타낸 블럭도이다.
도 1을 참조하면, 비정형 텍스트 추출 성능 향상을 위한 시스템(100)은 비정형 데이터 처리부(110) 및 필터부(120)를 포함한다.
비정형 데이터 처리부(110)는 비정형 데이터를 수집하고, 수집된 비정형 데이터를 언어 분석하여, 이벤트가 발생한 시간정보 또는 공간정보를 추출하고, 이벤트 키워드에 시간정보 또는 공간정보를 매핑시켜 추출 지식 후보들을 생성한다. 이때, 비정형 데이터 처리부(110)는 비정형 데이터와 그 비정형 데이터의 수집 상황 데이터를 수집할 수 있다. 이 경우, 비정형 데이터 처리부(110)는 비정형 데이터가 수집된 수집상황 메타 데이터를 고려하여, 상기 추출된 시간정보 또는 공간정보를 구체화하고, 이벤트 키워드에 상기 구체화된 시간정보 또는 공간정보를 매핑시켜 추출 지식 후보들을 생성할 수 있다.
이러한, 비정형 데이터 처리부(110)에 대해 도 2를 참조하면, 비정형 데이터 처리부(110)는 수집모듈(111), 추출모듈(112), 시간정보 분석모듈(113), 공간정보 분석모듈(114), 연계모듈(115)을 포함한다.
수집모듈(111)은 비정형 텍스트 또는 비정형 데이터와 그 비정형 데이터의 수집상황 메타 데이터를 수집한다.
즉, 수집모듈(111)은 다양한 정보원으로부터 텍스트 형식의 문서 데이터를 비정형 텍스트로 수집한다. 이때, 수집모듈(111)은 다양한 정보원(예컨대, 뉴스, 블로그, 트위터 및 페이스북과 같은 SNS(Social Networking Service) 등을 포함하는 소셜 웹 미디어)으로부터 비정형 텍스트를 수집할 수 있다.
또한, 수집모듈(111)은 정보원에 비정형 텍스트가 게시된 시간, 위치정보 등을 포함하는 수집상황 메타데이터를 수집한다.
추출모듈(112)은 수집모듈(111)에서 수집된 비정형 텍스트를 언어 분석하여, 이벤트 키워드, 이벤트가 발생한 시간정보 또는 공간정보를 추출한다.
추출모듈(112)은 형태소 분석(Morphology Analysis)과 개체명 인식(Named Entity Recognition, NER) 중 적어도 하나를 수행하여 문서 데이터를 언어 분석(Linguistic Analysis)한다. 이때, 추출모듈(112)은 형태소 분석과 개체명 인식 전에 오탈자, 띄어쓰기 오류, 동의어 처리 등의 전처리를 수행할 수 있다.
그런 후, 추출모듈(112)은 언어 분석된 문서 데이터로부터 이벤트 키워드를 추출한다. 이벤트 키워드는 명사일 수 있고, 추출모듈(112)은 형태소 분석 및 개체명 인식의 수행 결과를 이용하여 문장으로부터 이벤트 키워드를 추출할 수 있다. 이때, 이벤트 키워드는 자연재해(예를 들어, 지진, 산불 등), 질병(예를 들어, 구제역, 신종플루 등), 사건/사고(예를 들어, 비행기 추락사고 등) 등이 될 수 있다. 또한, 이벤트 키워드는 문서 데이터 및 문장에서 이벤트의 주체(주어) 또는 객체에 어떤 사건 또는 사고가 발생한 경우가 될 수도 있다.
추출모듈(112)은 이벤트 키워드가 추출되면, 이벤트 문장에서 이벤트 시간 정보를 추출한다. 예컨대, 추출모듈(112)은 언어 분석된 문서 데이터에서 날짜를 나타내는 명사 어휘를 인식하여 이벤트 시간 정보를 추출할 수 있다. 구체적으로, 추출모듈(112)은 언어 분석된 문장에서 <DT_DAY>, <DT_OTHERS>, <TI_DURATION>등과 같은 시간 개체명이 태깅된 어휘들(예를 들어, 0월 0일, 00일, 글피, 모레) 즉, 년, 월, 일, 시, 기간 등 날짜나 기간을 표현하는 어휘를 인식하여 이벤트 시간 정보를 추출할 수 있다. 이를 위해, 날짜 및 시간을 나타내는 어휘 정보(태깅 정보)는 미리 저장되어 있을 수 있다. 추출모듈(112)은 이벤트 문장에서 이벤트 시간 정보가 추출되면, 추출된 이벤트 시간 정보를 정규화할 수 있다. 예컨대, 추출모듈(112)은 추출된 이벤트 시간 정보인 2010년 11월 30일을 2010-11-30과 같은 형태로 정규화할 수 있다. 여기서, 정규화 형태는 사전에 기 설정될 수 있으며, YYYY-MM-DD, YY-MM-DD 및 MM-DD-YY 등과 같이 다양한 형태 중 하나로 기 설정될 수 있다.
또한, 추출모듈(112)은 이벤트 키워드가 추출되면, 이벤트 문장에서 이벤트 위치 정보를 추출한다. 구체적으로, 추출모듈(112)은 언어 분석된 문서 데이터에서 지역을 나타내는 명사 어휘를 인식하여 이벤트 위치 정보를 추출할 수 있다. 예컨대, 추출모듈(112)은 언어 분석된 이벤트 문장에서 <LCP_PROVINCE>, <LCP_CITY>, <LCP_COUNTY>등과 같은 장소와 관련된 개체명 어휘들을 대상으로, 주로 도, 시/군, 동/면/읍, 리의 지역 명칭을 가진 어휘들을 인식하여 이벤트 위치 정보를 추출할 수 있다. 이를 위해, 지역 및 위치를 나타내는 명사 정보(지역 어휘 정보)는 미리 저장되어 있을 수 있다. 추출모듈(112)은 이벤트 문장에서 이벤트 위치 정보가 추출되면, 추출된 이벤트 위치 정보를 정규화할 수 있다. 예컨대, 추출모듈(112)은 추출된 이벤트 위치 정보인 서울/강남구/대치동을 지역코드 또는 GPS 좌표 중 적어도 하나의 형태로 정규화할 수 있다. 이때, 지역 코드는 도/시/면에 따라 할당된 숫자의 조합이고, GPS 좌표는 X, Y 형태의 절대적인 좌표이다. 이 지역 코드 및 GPS 좌표에 관한 정보는 기 저장되어 이벤트 위치 정보가 정규화될 시 이용될 수 있다.
시간정보 분석모듈(113)은 수집모듈(111)을 통해 수집된 수집상황 메타 데이터에 포함된 시간정보를 이용하여 추출모듈(112)에서 추출된 시간정보를 절대적인 시간정보로 변환한다. 즉, 추출모듈(112)에서 추출된 이벤트 시간정보로는 시간이 불명료할 수 있는데, 이를 해결하기 위해 시간정보 분석모듈(113)은 해당 문서 데이터가 게시된 시간 메타정보를 이용하여 이벤트가 발생한 시간정보를 절대적인 시간정보로 변환한다. 예컨대, 이벤트 문장에서 날짜를 나타내는 어휘는 30일이지만, 몇 년, 몇 월의 30일인지 불명료하다. 이때, 시간정보 분석모듈(113)은 이벤트 문장이 포함된 문서 데이터가 미디어에 게시된 날짜 정보(기사 보도 날짜)인 2016년 1월 5일을 고려하여 이벤트 문장에서 뜻하는 30일은 2016년 1월 30일임을 유추하여 이벤트 시간 정보로 절대적인 시간정보로 변환할 수 있다.
공간정보 분석모듈(114)은 수집상황 메타 데이터에 포함된 공간 메타정보를 이용하여 추출모듈(112)에서 추출된 위치정보를 구체화한다. 즉, 추출모듈(112)에서 추출된 위치정보로는 이벤트가 발생한 위치가 불명료할 수 있는데, 이를 해결하기 위해, 공간정보 분석모듈(114)은 해당 문서 데이터가 게시된 공간 메타정보를 이용하여 이벤트가 발생한 위치정보를 구체화할 수 있다.
연계모듈(115)은 추출모듈(112)에서 추출된 이벤트 키워드에 시간정보 분석모듈(113)에서 구체화된 시간정보 또는 공간정보 분석모듈(114)에서 구체화된 공간정보를 매핑시켜 추출 지식 후보들을 생성한다.
필터부(120)는 시공간 연계 정형 데이터를 이용하여 비정형 데이터 처리부(110)에서 생성된 추출 지식 후보들의 유효성을 판단하고, 그 판단결과에 따라 추출 지식을 필터링하여 데이터베이스(130)에 저장한다. 즉, 필터부(120)는 시공간 연계 정형 데이터를 이용하여 비정형 데이터로부터 추출된 추출 지식 후보들의 타당성을 검증하고, 타당하지 않은 추출 지식 후보를 제거한다.
이러한 필터부(120)에 대해 도 3을 참조하면, 필터부(120)는 필터모듈(122)을 포함할 수 있다.
필터모듈(122)은 비정형 데이터 처리부(110)에서 생성된 추출 지식 후보들에 맞는 전제조건 모델을 이용하여 추출 지식 후보들의 유효성을 판단한다. 여기서, 전제조건 모델은 추출 지식 후보의 타당성을 검증하기 위해 시공간 연계 정형 데이터와 과거 이력 정보를 근거로 학습된 모델일 수 있다.
따라서, 필터부(120)는 전제조건 모델을 학습하는 조건모델 학습모듈(121)을 더 포함할 수 있다.
조건모델 학습모듈(121)은 시공간 연계 정형 데이터와 과거 이력 정보를 이용하여 전제조건 모델을 학습한다. 이때, 조건모델 학습모듈(121)은 전문가의 지식을 활용하여 전제조건 모델을 학습하거나, 과거 이력 정보를 이용한 기계학습 방법을 활용하여 전제조건 모델을 학습할 수 있다.
예를 들어, “A지역은 지대가 낮으므로, 최소한 50mm의 비가 내려야 하천이 넘쳐 홍수가 난다”, "B지역은 산악지역이고 수원이 없기 때문에 비가 아무리 와도 홍수가 나지 않는다"의 경우 전제조건 모델을 학습하는 방법에 대해 설명하기로 한다.
먼저, 전문가의 지식을 활용하는 경우에 대해 설명하기로 한다.
이 경우 조건모델 학습모듈(121)은 전문가의 지식을 그대로 규칙으로 생성한다. 즉, 정형데이터에서 지형정보와 강수량정보를 활용하면, "A지역은 50mm이상일 때 홍수 가능"을 전제조건으로 설정할 수 있다.
다음으로, 과거 이력 정보를 이용한 기계학습 방법을 활용하는 경우에 대해 설명하기로 한다.
이 경우, 조건모델 학습모듈(121)은 기계학습을 이용하여 시공간 연계 정형데이터와 과거 이력 정보를 지역별로 학습하고, 그 학습된 결과를 활용하여 전제조건을 결정한다. A지역 특성정보는 '해발 50m, 저수지부터의 평균거리 1km 이내, 폭 10m 이상의 하천과의 거리 300m 내외', B 지역 특성정보는 '해발 800m, 인근 10km 이내 수원 없음, 폭 5m 이상의 하천 없음'으로 설정되어 있고, A지역 과거 이력 정보는 '강우량이 50-100m로 사흘동안 내렸을 때 이틀째부터 홍수, 강우량이 150m로 1시간 내렸을 때 홍수'라고 하여 설명하기로 한다.
이 경우, 조건모델 학습모듈(121)은 시계열 정형 정보(분당 강수량 추이, 하천수위변화 등)와 위치특성정보(각 위치별 폭 5m이상의 하천과의 거리, 수량 1t이상의 저수지와의 거리 등)를 정형 정보로 넣고, decision tree와 같이 규칙을 학습하는 방법을 이용하여 전제조건을 결정한다.
이러한 조건모델 학습모듈(121)은 개체 전제조건 모델과 이벤트 전제조건 모델을 학습할 수 있다.
개체 전제조건 모델은 대상이 되는 개체의 종류와 요청되는 특성에 따라 단어 자체가 가질 수 있는 의미를 특정한 의미로 한정하는데 활용되는 모델이다. 개체는 사람, 지명, 조직명 등 일반적으로 구체적인 대상을 지칭한다.
예를 들어, “산사태가 발생한 우면산뿐만 아니라 인근의 구룡산, 청계산 등의 정비도 시급하다”라는 문장이 있을 때, 종래의 텍스트 처리에는 “우면산”, “구룡산”, “청계산”이 추출되면 정답으로 끝나지만, 실제 정비가 시급한 곳을 찾으려면 그곳들의 물리적인 위치가 필요하다. 우면산은 1곳이지만 청계산은 전국에 4곳, 구룡산은 6곳이 존재한다. 이때 문장에는 ‘인근’이라는 지역 관련 정보를 포함하고 있기 때문에 거리상 3곳이 가까이 있어야 한다. 전문가 지식으로 전제조건이 <인근, 근처 등이 산이라는 대상에 대해서는 반경 10km 내외> 라고 정의되어 있다면, 이것에 의해 청계산, 구룡산 모두 서울특별시 서초구 근처에 존재하는 산으로 결정된다. 이와 같이 개체 전제조건 모델은 대상이 되는 개체의 종류와 요청되는 특성에 따라서 단어 자체가 가질 수 있는 의미를 특정한 의미로 한정하는데 활용되는 모델이다.
이벤트 전제조건 모델은 관련 정보들을 활용하여 특별한 이벤트 상황을 파악하는 모델일 수 있다. 특정 이벤트, 예를 들어 “홍수”라는 상황이 있다면 홍수가 발생하기 위한 최소한의 조건, 예컨대, 강우량 100mm 이상, 강의 수위 xx m 등의 내용을 정형 데이터로부터 파악하여, “대전 집이 홍수가 났대”라고 했을 때 ‘홍수’는 '대전'이라는 상황에서 봤을 때 '대전'에 '홍수'가 난 것이 아닌 개인적인 이벤트임을 추측할 수 있다. 이렇게 관련 정보들을 활용하여 특별한 이벤트 상황을 파악하는 모델이 이벤트 전제조건 모델이다.
이처럼 필터부(120)는 과거에 관측되고 정리된 정보들을 학습 데이터로 이용하여 추출 지식 후보들의 대상인 개체 및 이벤트의 전제조건 모델을 기계학습 방법으로 학습하고, 학습된 모델을 이용하여 부적절한 추출 지식 후보들을 제거한다.
상기와 같이 구성된 비정형 텍스트 추출 성능 향상을 위한 시스템(100)은 시공간 연계 정형 데이터를 생성하기 위한 정형 데이터 처리부(140)를 더 포함할 수 있다.
정형 데이터 처리부(140)는 정형 데이터를 수집하고, 수집된 정형 데이터를 표준화하여 시공간 연계 정형 데이터를 생성한다.
이러한 정형 데이터 처리부(140)에 대해 도 4를 참조하면, 정형 데이터 처리부(140)는 수집모듈(141), 필터모듈(142), 추정모듈(143), 확장모듈(144), 저장모듈(145)을 포함한다.
수집모듈(141)은 시계열 정형 데이터와 일반 정형 데이터를 수집한다. 여기서, 시계열 정형 데이터는 시간에 따라 변화하는 정형 수치 데이터로, 예컨대, 강우량, 풍속, 유동 인구수 등을 포함할 수 있다. 시계열 정형 데이터는 시간에 따라 변화하므로, 수집모듈(141)은 일정 시간 간격을 두고 시계열 정형 데이터를 수집할 수 있다. 일반 정형 데이터는 자주 변동되지 않은 정형 수치 데이터로, 예컨대, 건물위치, 도로경로 등을 포함할 수 있다. 수집모듈(141)은 기 설정된 일정 주기로 일반 정형 데이터의 변동 여부를 검사하고, 변동시 업데이트를 위해 수집할 수 있다.
수집모듈(141)은 사회/공공 기관(예컨대, 기상청, 보건 복지부 등)에서 공개된 데이터 베이스(기상 DB, 질병 관련 DB, 자연재해 DB) 등으로부터 정형 데이터를 수집할 수 있다.
필터모듈(142)은 시계열 정형 데이터와 일반 정형 데이터를 표준화한다. 즉, 필터모듈(142)은 시계열 정형 데이터와 일반 정형 데이터에서 비정상적인 부분들을 탐지 및 제거하고, 다양한 단위 및 기준들을 표준화한다. 예를 들면, 시계열 정형 데이터에서 특정 값이 비정상으로 높은 경우, 필터모듈(142)은 그 특정 값을 제거할 수 있다.
추정모듈(143)은 필터모듈(142)에서 표준화된 시계열 정형 데이터와 일반 정형 데이터를 실측의 시공간 좌표 평면상의 값으로 오류를 정정한다. 즉, 필터모듈(142)에서 표준화된 시계열 정형 데이터와 일반 정형 데이터가 기 정의된 표준 좌표와 불일치한 경우, 추정모듈(143)은 불일치한 데이터에 대한 시공간 좌표 평면상의 값을 추정하여, 오류를 정정한다. 예를 들어, 일부 관측 값의 경우 실측값과 좌표 평면 사이에 불일치가 있을 수 있는데, 이런 경우 추정모듈(143)은 시공간 좌표 평면상의 값을 추정하여 오류를 정정한다.
확장모듈(144)은 추정모듈(143)에서 오류 정정된 시계열 정형 데이터와 일반 정형 데이터를 시공간 좌표상의 모든 점에 대한 데이터로 확장한다. 즉, 시계열 정형 데이터와 일반 정형 데이터는 모든 위치 및 시간에 대해 필요한 정보를 다 제공하는 것은 불가능하기 때문에, 확장모듈(144)은 비정형 데이터로부터 추출된 추출 지식 후보와 연계시키기 위해 시공간 좌표상의 모든 점에 대한 수치 데이터로 확장한다.
저장모듈(145)은 확장모듈(144)에서 시공간으로 확장된 시공간 연계 정형 데이터를 분산 병렬 저장한다.
한편, 비정형 데이터 처리부(110), 필터부(120), 정형 데이터 처리부(140) 각각은 컴퓨팅 장치상에서 프로그램을 실행하기 위해 필요한 프로세서 등에 의해 각각 구현될 수 있다. 이처럼 비정형 데이터 처리부(110), 필터부(120), 정형 데이터 처리부(140)는 물리적으로 독립된 각각의 구성에 의해 구현될 수도 있고, 하나의 프로세서 내에서 기능적으로 구분되는 형태로 구현될 수도 있다.
도 5는 본 발명의 실시예에 따른 비정형 텍스트 추출 성능 향상을 위한 방법을 나타낸 순서도이다.
도 5를 참조하면, 시스템은 정보원으로부터 비정형 텍스트와 수집상황 메타 데이터를 수집한다(S502).
시스템은 수집된 비정형 데이터를 언어 분석하여(S504), 이벤트 키워드, 이벤트가 발생한 시간정보 또는 공간정보를 추출한다(S506). 즉, 시스템은 형태소 분석과 개체명 인식을 수행하여 문서 데이터를 언어 분석하고, 언어 분석된 문서 데이터로부터 이벤트 키워드, 이벤트가 발생한 시간정보 또는 공간정보를 추출한다.
그런 후, 시스템은 비정형 데이터가 수집된 수집상황 메타 데이터를 고려하여, 상기 추출된 시간정보 또는 공간정보를 구체화한다(S508). 즉, 시스템은 언어 분석된 문서 데이터로부터 추출된 시간정보의 불명료를 해소하기 위해, 수집상황 메타 데이터에 포함된 시간 메타정보를 이용하여 추출된 시간정보를 절대적인 시간정보로 변환한다. 또한, 시스템은 언어 분석된 문서 데이터로부터 추출된 공간정보의 불명료를 해소하기 위해, 수집상황 메타 데이터에 포함된 공간 메타정보를 이용하여 추출된 공간정보를 구체화한다.
그 후, 시스템은 이벤트 키워드에 상기 구체화된 시간정보 또는 공간정보를 매핑시켜 추출 지식 후보들을 생성한다(S510).
그런 후, 시스템은 시공간 연계 정형 데이터를 이용하여 추출 지식 후보들의 유효성을 판단하고(S512), 그 판단결과에 따라 추출 지식을 필터링한다(S514).
도 6은 본 발명의 실시예에 따른 시공간 연계 정형 데이터를 생성하는 방법을 나타낸 순서도이다.
도 6을 참조하면, 시스템은 시계열 정형 데이터와 일반 정형 데이터를 수집한다(S602). 즉, 시스템은 시간에 따라 변화하는 시계열 정형 데이터와 자주 변동되지 않은 일반 정형 데이터를 기 정의된 데이터베이스로부터 수집한다.
그런 후, 시스템은 시계열 정형 데이터와 일반 정형 데이터를 표준화하고(S604), 표준화된 시계열 정형 데이터와 일반 정형 데이터를 실측의 시공간 좌표 평면상의 값으로 오류를 정정한다(S606).
그런 후, 시스템은 오류 정정된 시계열 정형 데이터와 일반 정형 데이터를 시공간 좌표상의 모든 점에 대한 데이터로 확장하고(S608), 시공간으로 확장된 시공간 연계 정형 데이터를 분산 병렬 저장한다(S610).
이러한 비정형 텍스트 추출 성능 향상을 위한 방법은 프로그램으로 작성 가능하며, 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 비정형 텍스트 추출 성능 항상을 위한 방법에 관한 프로그램은 전자장치가 읽을 수 있는 정보저장매체(Readable Media)에 저장되고, 전자장치에 의하여 읽혀지고 실행될 수 있다.
이와 같이, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 실시 형태로 실시될 수 있다는 것을 인지할 수 있을 것이다. 따라서 이상에서 기술한 실시 예들은 예시적인 것일 뿐이며, 그 범위를 제한해놓은 한정적인 것이 아닌 것으로 이해해야만 한다. 또한, 도면에 도시된 순서도들은 본 발명을 실시함에 있어서 가장 바람직한 결과를 달성하기 위해 예시적으로 도시된 순차적인 순서에 불과하며, 다른 추가적인 단계들이 제공되거나, 일부 단계가 삭제될 수 있음은 물론이다.
본 명세서에서 기술한 기술적 특징과 이를 실행하는 구현물은 디지털 전자 회로로 구현되거나, 본 명세서에서 기술하는 구조 및 그 구조적인 등가물 등을 포함하는 컴퓨터 소프트웨어, 펌웨어 또는 하드웨어로 구현되거나, 이들 중 하나 이상의 조합으로 구현 가능하다. 또한 본 명세서에서 기술한 기술적 특징을 실행하는 구현물은 컴퓨터 프로그램 제품, 다시 말해 처리 시스템의 동작을 제어하기 위하여 또는 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령어에 관한 모듈로서 구현될 수도 있다.
컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조성물 또는 이들 중 하나 이상의 조합일 수 있다.
또한, 본 명세서에서 기술한 "컴퓨터에서 판독 가능한 매체"는 프로그램 실행을 위해 명령어를 프로세서로 제공하는데 기여하는 모든 매체를 포함한다. 구체적으로 데이터 스토리지 디바이스, 광디스크, 자기 디스크 등과 같은 비휘발성 매체, 동적 메모리 등과 같은 휘발성 매체와 데이터를 전송하는 동축 케이블, 구리 와이어, 광섬유 등과 같은 전송 매체를 포함하지만 이에 한정되지는 않는다.
이와 같이, 본 명세서는 그 제시된 구체적인 용어에 의해 본 발명을 제한하려는 의도가 아니다. 따라서, 이상에서 기술한 실시 예를 참조하여 본 발명을 상세하게 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 범위를 벗어나지 않으면서도 본 실시 예들에 대한 개조, 변경 및 변형을 가할 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 권리범위에 포함되는 것으로 해석되어야 한다.

Claims (13)

  1. 수집된 비정형 텍스트를 언어 분석하여, 이벤트 키워드, 이벤트가 발생한 시간정보 또는 공간정보를 추출하고, 상기 이벤트 키워드에 시간정보 또는 공간정보를 매핑시켜 추출 지식 후보들을 생성하는 비정형 데이터 처리부; 및
    시공간 연계 정형 데이터를 이용하여 상기 비정형 데이터 처리부에서 생성된 추출 지식 후보들의 유효성을 판단하는 필터부;
    를 포함하는 비정형 텍스트 추출 성능 향상을 위한 시스템.
  2. 제1항에 있어서,
    정형 데이터를 수집하고, 상기 수집된 정형 데이터를 표준화하여 시공간 연계 정형 데이터를 생성하는 정형 데이터 처리부;를 더 포함하는 비정형 텍스트 추출 성능 향상을 위한 시스템.
  3. 제2항에 있어서,
    상기 정형 데이터 처리부는,
    시계열 정형 데이터와 일반 정형 데이터를 수집하는 수집모듈;
    상기 시계열 정형 데이터와 일반 정형 데이터를 표준화하는 필터모듈;
    상기 표준화된 시계열 정형 데이터와 일반 정형 데이터를 실측의 시공간 좌표 평면상의 값으로 오류를 정정하는 추정모듈;
    상기 오류 정정된 시계열 정형 데이터와 일반 정형 데이터를 시공간 좌표상의 모든 점에 대한 데이터로 확장하는 확장모듈; 및
    상기 시공간으로 확장된 시공간 연계 정형 데이터를 분산 병렬 저장하는 저장모듈을 포함하는 것을 특징으로 하는 비정형 텍스트 추출 성능 향상을 위한 시스템.
  4. 제1항에 있어서,
    상기 비정형 데이터 처리부는,
    정보원으로부터 비정형 텍스트를 수집하는 수집모듈;
    상기 수집된 비정형 텍스트를 언어 분석하여, 이벤트 키워드, 이벤트가 발생한 시간정보 또는 공간정보를 추출하는 추출모듈;
    상기 추출된 시간정보 또는 공간정보를 구체화하는 분석모듈; 및
    상기 이벤트 키워드에 상기 구체화된 시간정보 또는 공간정보를 매핑시켜 추출 지식 후보들을 생성하는 연계모듈을 포함하는 것을 특징으로 하는 비정형 텍스트 추출 성능 향상을 위한 시스템.
  5. 제4항에 있어서,
    상기 수집모듈이 비정형 텍스트의 수집 상황 데이터를 수집한 경우,
    상기 분석 모듈은, 상기 수집상황 메타 데이터에 포함된 시간정보를 이용하여 상기 추출된 시간정보를 절대적인 시간정보로 변환하는 시간정보 분석모듈;
    상기 수집상황 메타 데이터에 포함된 공간정보를 이용하여 상기 추출된 공간정보를 구체화하는 공간정보 분석모듈을 포함하는 것을 특징으로 하는 비정형 텍스트 추출 성능 향상을 위한 시스템.
  6. 제1항에 있어서,
    상기 필터부는,
    상기 추출 지식 후보들에 맞는 전제조건 모델을 이용하여 추출 지식 후보들의 유효성을 판단하는 필터모듈을 포함하는 것을 특징으로 하는 비정형 텍스트 추출 성능 향상을 위한 시스템.
  7. 제6항에 있어서
    시공간 연계 정형 데이터와 과거 이력 정보를 이용하여 전제조건을 결정하는 조건모델 학습모듈을 더 포함하는 것을 특징으로 하는 비정형 텍스트 추출 성능 향상을 위한 시스템.
  8. (a) 비정형 텍스트를 수집하는 단계;
    (b) 상기 수집된 비정형 텍스트를 언어 분석하여, 이벤트 키워드, 이벤트가 발생한 시간정보 또는 공간정보를 추출하는 단계;
    (c) 상기 이벤트 키워드에 시간정보 또는 공간정보를 매핑시켜 추출 지식 후보들을 생성하는 단계; 및
    (d) 시공간 연계 정형 데이터를 이용하여 상기 생성된 추출 지식 후보들의 유효성을 판단하는 단계;
    를 포함하는 비정형 텍스트 추출 성능 향상을 위한 방법.
  9. 제8항에 있어서,
    상기 (a)단계에서 비정형 텍스트와 그 비정형 텍스트의 수집 상황 데이터를 수집한 경우,
    상기 (c) 단계는,
    상기 수집상황 메타 데이터에 포함된 시간정보를 이용하여 상기 추출된 시간정보를 절대적인 시간정보로 변환하고, 상기 수집상황 메타 데이터에 포함된 공간정보를 이용하여 상기 추출된 공간정보를 구체화하는 단계;
    상기 이벤트 키워드에 상기 구체화된 시간정보 또는 공간정보를 매핑시켜 추출 지식 후보들을 생성하는 단계를 포함하는 것을 특징으로 하는 비정형 텍스트 추출 성능 향상을 위한 시스템.
  10. 제8항에 있어서,
    상기 시공간 연계 정형 데이터는,
    시계열 정형 데이터와 일반 정형 데이터를 표준화하고, 상기 표준화된 시계열 정형 데이터와 일반 정형 데이터를 실측의 시공간 좌표 평면상의 값으로 오류를 정정하며, 상기 오류 정정된 시계열 정형 데이터와 일반 정형 데이터를 시공간 좌표상의 모든 점에 대한 데이터로 확장하여 생성된 것을 특징으로 하는 비정형 텍스트 추출 성능 향상을 위한 방법.
  11. 제8항에 있어서,
    상기 (d)단계는,
    기 구축된 전제조건 모델중에서 상기 추출 지식 후보들의 유효성 판단을 위한 전제조건 모델을 결정하는 단계; 및
    상기 결정된 전제조건 모델을 이용하여 상기 추출 지식 후보들의 유효성을 판단하고, 유효하지 않은 추출 지식 후보들을 제거하는 단계를 포함하는 것을 특징으로 하는 비정형 텍스트 추출 성능 향상을 위한 방법.
  12. 제11항에 있어서,
    상기 전제조건 모델은
    시공간 연계 정형 데이터와 과거 이력 정보를 이용한 기계학습 방법을 활용하여 생성된 것을 특징으로 하는 비정형 텍스트 추출 성능 향상을 위한 방법.
  13. 제8항 내지 제12항 중 어느 한 항에 있어서,
    상기 비정형 텍스트 추출 성능 향상을 위한 방법을 컴퓨터에서 실행시키기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한 기록 매체.
PCT/KR2016/001645 2016-02-17 2016-02-18 비정형 텍스트 추출 성능 향상을 위한 시스템 및 방법 WO2017142109A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020160018386A KR101644429B1 (ko) 2016-02-17 2016-02-17 비정형 텍스트 추출 성능 향상을 위한 시스템 및 방법
KR10-2016-0018386 2016-02-17

Publications (1)

Publication Number Publication Date
WO2017142109A1 true WO2017142109A1 (ko) 2017-08-24

Family

ID=56713527

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2016/001645 WO2017142109A1 (ko) 2016-02-17 2016-02-18 비정형 텍스트 추출 성능 향상을 위한 시스템 및 방법

Country Status (4)

Country Link
US (1) US20170235784A1 (ko)
JP (1) JP6300889B2 (ko)
KR (1) KR101644429B1 (ko)
WO (1) WO2017142109A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101746825B1 (ko) * 2016-10-31 2017-06-14 주식회사 뉴스젤리 데이터 집단을 파싱 가능한 형태로 변환하여 희망 데이터 영역을 추출하는 방법
KR102091240B1 (ko) 2016-11-23 2020-03-20 한국전자통신연구원 결정적 및 비결정적 지식 처리의 융합을 위한 데이터 처리 장치 및 방법
CN108573039B (zh) * 2018-04-04 2022-03-11 烟台海颐软件股份有限公司 一种基于多源时空数据组配的目标辨识方法与系统
KR102243372B1 (ko) * 2019-01-30 2021-04-22 경기대학교 산학협력단 설비 오류 발생 패턴 추출 장치 및 방법
CN110245352A (zh) * 2019-06-18 2019-09-17 北京智合大方科技有限公司 一种舆情热词分析方法及装置
US11797590B2 (en) 2020-09-02 2023-10-24 Microsoft Technology Licensing, Llc Generating structured data for rich experiences from unstructured data streams
KR20240019993A (ko) 2022-08-05 2024-02-14 (주)메인라인 비정형 텍스트 분석을 위한 정보 추출 시스템 및 그 방법
CN115618817B (zh) * 2022-09-21 2024-03-08 上海柯林布瑞信息技术有限公司 医疗文本时间数据规范化处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090091623A (ko) * 2008-02-25 2009-08-28 주식회사 이씨오피스 웹문서에서 비즈니스정보 자동수집 시스템 및 그 운용방법
KR20140038206A (ko) * 2012-09-20 2014-03-28 한국전자통신연구원 비정형 데이터의 실시간 이벤트 처리 장치 및 방법
KR20150034896A (ko) * 2013-09-26 2015-04-06 삼성전자주식회사 검색 장소에 대한 관련 정보를 제공하는 전자 장치 및 방법
KR20150059208A (ko) * 2013-11-21 2015-06-01 한국전자통신연구원 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치 및 그 방법
KR101542195B1 (ko) * 2014-03-28 2015-08-05 주식회사 솔트룩스 비정형 데이터로부터 특성을 추출하여 지식 베이스를 구축하는 시스템 및 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5659122B2 (ja) * 2011-10-13 2015-01-28 株式会社日立製作所 意思決定支援方法、およびシステム
US9262438B2 (en) * 2013-08-06 2016-02-16 International Business Machines Corporation Geotagging unstructured text
JP6145000B2 (ja) * 2013-08-30 2017-06-07 セコム株式会社 災害情報提供システム
JP6242651B2 (ja) * 2013-10-03 2017-12-06 株式会社日立製作所 早期状況把握方法、および装置
JP6154908B2 (ja) * 2013-10-09 2017-06-28 株式会社日立製作所 情報処理システム
KR101762670B1 (ko) * 2013-10-30 2017-08-04 한국전자통신연구원 정형 데이터와 연관된 비정형 텍스트 데이터 연결 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090091623A (ko) * 2008-02-25 2009-08-28 주식회사 이씨오피스 웹문서에서 비즈니스정보 자동수집 시스템 및 그 운용방법
KR20140038206A (ko) * 2012-09-20 2014-03-28 한국전자통신연구원 비정형 데이터의 실시간 이벤트 처리 장치 및 방법
KR20150034896A (ko) * 2013-09-26 2015-04-06 삼성전자주식회사 검색 장소에 대한 관련 정보를 제공하는 전자 장치 및 방법
KR20150059208A (ko) * 2013-11-21 2015-06-01 한국전자통신연구원 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치 및 그 방법
KR101542195B1 (ko) * 2014-03-28 2015-08-05 주식회사 솔트룩스 비정형 데이터로부터 특성을 추출하여 지식 베이스를 구축하는 시스템 및 방법

Also Published As

Publication number Publication date
JP2017146961A (ja) 2017-08-24
US20170235784A1 (en) 2017-08-17
JP6300889B2 (ja) 2018-03-28
KR101644429B1 (ko) 2016-08-10

Similar Documents

Publication Publication Date Title
WO2017142109A1 (ko) 비정형 텍스트 추출 성능 향상을 위한 시스템 및 방법
US20180293978A1 (en) Performing semantic analyses of user-generated textual and voice content
US9286291B2 (en) Disambiguation of dependent referring expression in natural language processing
CN110516256A (zh) 一种中文命名实体提取方法及其系统
Malmasi et al. Location mention detection in tweets and microblogs
US20190147034A1 (en) Predicting style breaches within textual content
US20230409626A1 (en) Method and apparatus for acquiring poi state information
AU2021218244A1 (en) Machine learning modeling for protection against online disclosure of sensitive data
CN104516727A (zh) 更改资源文件中的资源的方法和系统
WO2018131955A1 (ko) 디지털 컨텐츠를 분석하는 방법
WO2023125589A1 (zh) 突发事件的监测方法及装置
CN102467501A (zh) 一种从新闻列表页抽取新闻记录元数据的方法及系统
CN113886830A (zh) 一种基于人工智能的信息安全评分系统构建方法
Heeringa et al. Measuring syntactical variation in Germanic texts
US8990170B2 (en) Method and apparatus for detecting an address update
WO2020213785A1 (ko) 발화 패턴의 무한성 개선을 위한 딥러닝 기반의 텍스트 문장 자동 생성시스템
Zhai A multi-level analytic framework for disaster situational awareness using Twitter data
CN112183060B (zh) 多轮对话系统的指代消解方法
Navarro et al. GPLSIUA: Combining temporal information and topic modeling for cross-document event ordering
Lorini et al. SMDRM: A Platform to Analyze Social Media for Disaster Risk Management in Near Real Time.
WO2011049313A2 (ko) 표현 및 설명 추출을 위한 문서 처리 장치 및 방법
US11475222B2 (en) Automatically extending a domain taxonomy to the level of granularity present in glossaries in documents
JP4971845B2 (ja) 翻訳装置及び翻訳プログラム
CN110738054B (zh) 识别邮件中酒店信息的方法、系统、电子设备及存储介质
Cheng et al. MTNER: a corpus for Mongolian tourism named entity recognition

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16890701

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16890701

Country of ref document: EP

Kind code of ref document: A1