KR102546536B1

KR102546536B1 - 비정형 데이터 기반 교통 위험 탐지 시스템 및 방법

Info

Publication number: KR102546536B1
Application number: KR1020210046969A
Authority: KR
Inventors: 김민정; 정경용; 백지원; 강지수
Original assignee: 경기대학교 산학협력단
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2023-06-22
Also published as: KR20220141000A

Abstract

본 발명은 비정형 데이터에서 교통 위험을 탐지하는 기술에 관한 것으로, 보다 상세하게는 교통 관련 데이터를 크롤링하여 사용자 경로를 기반으로 탐지된 교통 위험 정보를 제공하는 비정형 데이터 기반 교통 위험 탐지 시스템 및 방법에 관한 것이다. 본 발명의 일 실시 예에 따르면, 비정형 텍스트 데이터를 감성 유사도 가중치 기반으로 분석하여 교통 정보를 포함하고 있는 문서를 효과적으로 분류하고, 새로운 위험을 탐지하여 교통 위험과 관련된 유의미한 정보를 제공할 수 있다.

Description

비정형 데이터 기반 교통 위험 탐지 시스템 및 방법{SYSTEM AND METHOD FOR DETECTING TRAFFIC EMERGING RISK BASED IN-STRUCTED DATA}

본 발명은 비정형 데이터에서 교통 위험을 탐지하는 기술에 관한 것으로, 보다 상세하게는 교통 관련 데이터를 크롤링하여 사용자 경로를 기반으로 탐지된 교통 위험 정보를 제공하는 비정형 데이터 기반 교통 위험 탐지 시스템 및 방법에 관한 것이다.

교통 수단의 발전으로 이용하는 사람들이 많아 짐에 따라 교통량이 증가하며 교통 체증, 교통 사고 등이 빈번하게 발생하고 있다. 이에 따라 교통 사고로 인한 사망자의 증가와 함께 다양한 사고를 처리하기 위한 사회적 비용도 높아지고 있다. 교통 사고는 우발적으로 발생하며 주변 환경요인의 영향을 많이 받기 때문에 정확하게 분석하기 어렵지만, 교통 데이터 분석을 통한 사전적인 위험 관리가 필요하다.

한편 정보통신의 발전으로 미디어 매체와 SNS를 통해서 방대한 양의 비정형 데이터가 실시간으로 생성되고 있다. 비정형 데이터는 텍스트, 이미지 및 멀티미디어 등의 다양한 형태로 존재하며 각 데이터의 특성에 따른 마이닝 방법이 필요하다. 그 중에서 비정형 텍스트 데이터의 분석을 위한 텍스트 마이닝과 오피니언 마이닝에 대한 연구가 활발하게 진행되고 있다. 텍스트 마이닝은 전처리된 텍스트 데이터에서 연관 규칙, 군집 분석, 분류를 이용하여 새로운 의미 있는 정보를 추출하는 기술이다. 오피니언 마이닝은 사람들의 의견을 분석하여 유용한 정보를 추출하는 기술이다. 오피니언 마이닝은 감성 정보를 활용하여 텍스트가 포함하고 있는 감성을 객관적으로 분석 가능한 수치로 변환할 수 있다. 또한 오피니언 마이닝은 긍정, 중립, 부정에 따라 의견을 분류하여 의사결정이 활용할 수 있다.

최근 실시간 스트림 텍스트 데이터에서 교통 관련 정보를 추출하기 위한 텍스트 마이닝 기반의 분석 연구가 진행되고 있다. 실시간 스트림 데이터는 교통 위험 판단이 가능한 단어와 문장 등 다양한 텍스트 정보로 구성될 수 있다. 하지만 방대한 텍스트 데이터 중 교통 관련 정보만 추출하는 어려움이 존재한다. 또한 수집되는 실시간 교통 정보 비정형 텍스트는 예측 불가능한 우발적인 교통 정보를 포함하고 있는 시계열 데이터이다. 이와 같은 교통 정보들은 발생 직후에는 그 위험도가 매우 높지만 시간이 지남에 따라 사고가 처리되면 위험도가 점점 낮아져 사라진다. 즉, 실시간으로 변화하는 교통 이벤트 발생에 따른 위험도를 고려해야 한다. 따라서 지능형 교통 시스템(Intelligent Transportation Systems, ITSs)에서 인공지능을 통한 비정형 텍스트 데이터 분석의 가치와 중요성이 높아지고 있다.

1. 한국 공개특허공보 제10-2019-0052112호 “감성 정보 제공을 위한 뉴스 기사의 감성 정보 레이블링 방법”(공개일자: 2020년 11월 11일)

본 발명은 비정형 텍스트 데이터를 워드 임베딩을 이용한 감성 유사도 가중치 기반으로 분석하고, 시계열 가중치를 적용하여 교통 위험을 탐지하는 비정형 데이터 기반 교통 위험 탐지 시스템 및 방법을 제공한다.

본 발명의 일 측면에 따르면, 탐지하는 비정형 데이터 기반 교통 위험 탐지 시스템을 제공한다.

본 발명의 일 실시예에 따른 탐지하는 비정형 데이터 기반 교통 위험 탐지 시스템은 비정형 데이터를 크롤링하는 수집부, 비정형 데이터를 전처리하여 단어를 추출하는 전처리부, 단어에서 중요 단어를 추출하고, 감성 유사도 가중치를 산출하는 추출부, 감성 유사도 가중치를 이용해 교통 위험 문서를 분류하는 분류부 및 교통 위험 문서를 제공하는 정보 제공부를 포함할 수 있다.

본 발명의 다른 일 측면에 따르면, 탐지하는 비정형 데이터 기반 교통 위험 탐지 방법 및 이를 실행하는 컴퓨터 프로그램이 기록된 컴퓨터가 판독 가능한 기록매체를 제공한다.

본 발명의 일 실시 예에 따른 탐지하는 비정형 데이터 기반 교통 위험 탐지 법 및 이를 실행하는 컴퓨터 프로그램이 저장된 기록매체는 사용자 경로에 기반한 비정형 데이터를 수집하는 단계, 비정형 데이터에서 불용어를 제거하고 형태소 분석을 수행하는 단계, 추출한 중요 단어를 기반으로 교통 관련 정보를 포함한 교통 문서를 분류하는 단계, 감성 사전을 이용하여 중요 단어의 극성 값을 추출하는 단계, 감성 유사도 가중치를 기반으로 교통 위험 문서를 분류하는 단계 및 교통 위험 문서를 사용자 경로를 기반으로 제공하는 단계를 포함할 수 있다.

본 발명의 일 실시 예에 따르면, 비정형 텍스트 데이터를 감성 유사도 가중치 기반으로 분석하여 교통 정보를 포함하고 있는 문서를 효과적으로 분류하고, 새로운 위험을 탐지하여 교통 위험과 관련된 유의미한 정보를 제공할 수 있다.

본 발명의 일 실시 예에 따르면, 사용자의 예상 이동 경로 및 시간에 따라 변화하는 교통 위험도를 탐지하고 제공하므로 교통 위험에 대해 대비할 수 있다.

도 1 내지 도 3은 본 발명의 일 실시 예에 따른 비정형 데이터 기반 교통 위험 탐지 시스템을 설명하기 위한 도면들.
도4 내지 도 8은 본 발명의 일 실시 예에 따른 비정형 데이터 기반 교통 위험 탐지 방법을 설명한 도면들.
도 9는 본 발명의 일 실시 예에 따른 비정형 데이터 기반 교통 위험 탐지 시스템의 예시 화면.
도 10 내지 도 13은 본 발명의 일 실시 예에 따른 비정형 데이터 기반 교통 위험 탐지 시스템의 성능을 평가한 실험 결과 도면들.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서 및 청구항에서 사용되는 단수 표현은, 달리 언급하지 않는 한 일반적으로 "하나 이상"을 의미하는 것으로 해석되어야 한다.

이하, 본 발명의 바람직한 실시 예를 첨부도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

도 1 내지 도 3은 본 발명의 일 실시 예에 따른 비정형 데이터 기반 교통 위험 탐지 시스템을 설명하기 위한 도면들이다.

도 1을 참조하면, 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 수집부(100), 전처리부(200), 추출부(300), 분류부(400), 교통 위험 정보 생성부(500) 및 정보 제공부(600)를 포함한다.

수집부(100)는 인터넷에서 데이터를 크롤링하여 비정형 데이터를 수집한다. 예를 들면, 수집부(100)는 정확한 뉴스 데이터를 크롤링할 수 있다. 수집부(100)는 정제된 뉴스 텍스트를 사용하여 데이터의 질을 높이고 분류의 정확도를 향상시킬 수 있다. 획득부(100)는 다양한 카테고리의 비정형 텍스트 데이터를 검증된 뉴스 사이트에서 크롤링하여 수집한다.

전처리부(200)는 수집한 비정형 텍스트 데이터에서 불용어를 제거하고 형태소 분석을 하여 단어를 추출한다. 전처리부(200)은 명사뿐만 아니라 의미를 가지는 형용사 또는 동사 등을 포함하여 형태소 분석을 한다.

추출부(300)는 문서 내 중요 단어를 추출하고, 감성 유사도 가중치를 산출한다.

도 2를 참조하면, 추출부(300)는 단어 추출부(310), 극성 값 추출부(320), 유사도 추출부(330) 및 가중치 추출부(340)를 포함한다.

단어 추출부(310)는 문서 내 단어들의 중요도를 판단하고 중요 단어를 추출한다. 예를 들면, 단어 추출부(310)는 중요 단어 추출을 위해 단어 빈도-역 문서 빈도(TF-IDF, Term Frequency - Inverse Document Frequency) 가중치 행렬을 구성할 수 있다. 단어 빈도-역 문서 빈도(TF-IDF)는 단어 빈도에 역 문서 빈도를 곱함으로써 단순히 많이 나오는 단어들의 가중치를 감소시켜 의미 있는 중요 단어를 추출할 수 있다.

단어 추출부(310)는 문서에 추출한 중요 단어들을 통해 문서 라벨링을 한다. 자세히 설명하면, 단어 추출부(310)는 추출한 중요 단어 정보를 이용해 해당 문서가 교통 관련 문서인지 아닌지 라벨링하여 분류한다. 단어 추출부(310)는 교통 관련 문서만을 분류하여 교통 위험도를 판단할 수 있도록 한다.

극성 값 추출부(320)는 교통 관련 문서의 중요 단어들의 감성 분석을 통해 감성 극성 값을 추출한다. 극성 값 추출부(320)는 추출한 중요 단어들을 감성 사전을 기반으로 극성 값을 추출한다. 감성 사전으로 이용한 단어의 감성 분석(Sentiment Analysis)은 텍스트가 내포하고 있는 긍정과 부정의 정도에 대한 극성 값(Polarity)을 수치로 표현하여, 텍스트의 감정 상태를 정량화하여 판단하는 것이다. 감성 사전은 텍스트가 내포하고 있는 긍부정 값을 수치화 하여 구축된 것으로 도 6에 자세히 설명하도록 한다.

유사도 추출부(330)는 감성 사전에 단어가 존재하지 않는 경우에도 긍부정도의 극성 값을 산출할 수 있도록 유사도 사전을 구축한다.

단어에는 형태는 서로 다르지만 뜻이 같은 다수의 이음동의어가 존재한다. 유사도 추출부(330)는 수집된 문서에서 추출한 중요 단어가 감성 사전에 존재하지 않는다면, 단어 간의 의미적 유사성을 찾아 이음동의어로 대치할 수 있다.

유사도 추출부(330)는 단어 간의 유사도(Similarity)를 산출하기 위해 워드 임베딩 방법 기반으로 추출된 중요 단어를 백터화하고, 유사도 결과를 통해 유사도 사전을 구축한다. 워드 임베딩은 문장 내의 맥락을 통해 문장에 등장하는 단어들의 의미를 유추하고, 벡터(vector) 값으로 변환한다. 유사도 추출부(330)는 유사도 사전을 구축할 때 불용어 처리를 하지 않고, 학습 단어의 다양성을 위해 교통 문서만을 사용하여 학습하지 않고 경제, 정치, 사회 등의 여러 분야와 관련된 문서들을 사용할 수 있다. 워드 임베딩은 비슷한 위치에 존재하는 단어들은 유사한 의미를 가진다는 분포 가설을 근거하여 단어 간의 의미를 유추한다. 예를 들면, 유사도 추출부(330)는 워드 임베딩 방법인 Word2Vec 기반으로 단어 간의 의미를 유추하고, 유사도를 산출하여 유사도 사전을 구축할 수 있다.

유사도 추출부(330)는 중요 단어가 감성 사전에 존재하지 않아도 유사도 기반 대치를 통해 유의미한 관계를 갖는 단어를 도출할 수 있다. 즉, 유사도 추출부(330)는 추출한 중요 단어가 감성 사전에 없는 경우 유의미한 관계를 갖는 단어들 중에서 유사도가 높은 단어를 도출하여 대치할 수 있도록 한다.

유사도 추출부(330)가 대치한 단어에 대한 극성 값을 극성 값 추출부(320)에서 산출한다. 이때 유사도 추출부(330)는 대치된 단어와 중요 단어 간의 유사한 정도만큼만 대치하기 위해 유사도에 따른 가중치를 부여하도록 한다.

도 3을 참조하면, 가중치 추출부(340)는 중요 단어 가중치 행렬, 유사도, 극성 값 및 시간 가중치 중 어느 하나 이상을 이용하여 단어의 감성 유사도 가중치(SSW, Sentiment Similarity Weight)를 생성하고, 문서에 존재하는 단어들의 감성 유사도 가중치 합을 통해 문서의 감성 유사도 가중치를 도출한다.

가중치 추출부(340)는 감성 사전에 없는 중요 단어의 극성 값을 대치 단어의 유사도와 극성 값을 이용해 도출할 수 있다. 감성 사전에 없는 중요 단어를 유사도 사전에서 대치할 때 가장 유사도가 높은 대치 단어의 극성 값을 채택하면, 단어 간의 의미적 요소와 유사성을 고려하지 않아 가중치에 영향을 줄 수 있다. 가중치 추출부(340)는 중요 단어와 대치 단어의 유사도를 고려하여 단어의 대치가 가능하다. 가중치 추출부(340)는 대치 단어의 극성 값과 유사도를 곱하여 유사한 정도만큼만 대치할 수 있도록 한다. 즉, 가중치 추출부(340)는 중요 단어와 대치 단어 간의 유사도에 따라 단어의 극성 값을 고려하여 감성 유사도 가중치를 산출할 수 있다.

수학식 1을 참조하면, 문서가 포함하고 있는 명사, 동사, 형용사 각각의 단어들에 대한 단어 감성 유사도 가중치(WSSW, Word Sentiment Similarity Weight)를 산출할 수 있다. 가중치 산출부(340)는 중요 단어가 감성 사전 내에서 존재하는지 여부에 따라 다르게 적용한다.

수학식 2는 가중치 추출부(340)가 단어 감정 유사도 가중치를 통해 문서의 감정 유사도 가중치를 산출하는 식이다.

감성 유사도 가중치(SSW)는 문서에서 추출된 명사, 형용사, 동사 들의 가중치인 단어 감정 유사도 가중치(WSSW)를 더한 값에 추출된 총 단어의 개수를 나눈다. n은 단어의 개수이고, 가중치 추출부(340)는 수학식 2를 통해 각 문서들마다 추출된 중요 단어들의 개수가 다르기 때문에 균등한 값을 도출할 수 있다.

가중치 추출부(340)는 시간 가중치를 이용해 돌발적인 교통 이벤트 발생에 대한 시간에 따라 변화하는 위험도를 표현한다. 예를 들면, 시간 가중치는 1에서 6까지의 정수로 표현하고, 교통 이벤트 발생 직후 가중치는 6으로 설정하고, 4시간마다 1씩 감소하여 24시간이 지나면 1로 시간 가중치가 더 이상 감성 유사도 가중치에 영향을 미치지 않게 설정할 수 있다.

다시 도 1을 참조하면, 분류부(400)는 문서의 감성 유사도 가중치를 이용해 교통 위험도를 탐지할 수 있다. 분류부(400)는 추출된 중요 단어를 기반으로 교통 관련 문서와 교통과 관련이 없는 문서로 분류하여 라벨링한다.

분류부(400)는 교통 안전 또는 위험 정보를 포함한 교통 위험(Emerging Risk) 문서 또는 교통 안전 또는 위험 정보가 없는 교통 위험 미탐지(Non-Emerging Risk) 문서로 분류하여 라벨링할 수 있다. 자세히 설명하면, 분류부(400)는 문서 내 단어의 극성 값과 중요도를 기반으로 교통 안전 관련 정보 또는 교통 위험 탐지 정보를 분류할 수 있다.

분류부(400)는 교통 사고, 교통 체증 등의 교통 안전과 관련한 정보가 있는 교통 문서들을 분류하고 수집할 수 있다. 예를 들면, 분류부(400)는 서포트 벡터 머신(SVM, Support Vector Machine) 알고리즘 기반으로 각 문서의 단어 빈도-역 문서 빈도(TF-IDF) 행렬에 따른 코사인 유사도와 감성 유사도 가중치를 이용해 문서를 분류할 수 있다.

교통 위험 정보 생성부(500)는 감성 유사도 가중치를 이용해 교통 위험(Emerging Risk) 문서를 분류하여 교통 위험 정보를 생성한다.

정보 제공부(600)는 사용자의 이동 경로 및 시간에 따른 교통 위험(Emerging Risk) 정보를 제공한다.

도4는 내지 도 8은 본 발명의 일 실시 예에 따른 비정형 데이터 기반 교통 위험 탐지 방법을 설명한 도면들이다. 이하 설명하는 각 과정은 비정형 데이터 기반 교통 위험 탐지 시스템을 구성하는 각 기능부가 수행하는 과정이나, 본 발명의 간결하고 명확한 설명을 위해 각 단계의 주체를 비정형 데이터 기반 교통 위험 탐지 시스템으로 통칭하도록 한다.

S410단계에서 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 사용자 경로에 기반한 교통 관련 문서들을 크롤링한다. 예를 들면 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 날짜, 시간, 위치 정보를 포함한 문서를 뉴스 사이트에서 크롤링할 수 있다. 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 교통관련 뉴스로 분류된 데이터뿐만 아니라 다양한 카테고리의 비정형 데이터를 검증된 뉴스 사이트에서 크롤링하여 수집한다. 비정형 데이터는 날짜, 시간, 위치 등의 정보를 포함한다.

S420단계에서 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 수집한 비정형 데이터인 문서에서 불용어를 제거하고 형태소 분석을 수행한다. 이때 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 명사, 형용사 및 동사 등 불용어를 제외한 단어에 대한 형태소 분석을 수행하고 단어를 추출한다. 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 중요 단어를 추출한다. 예를 들면 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 단어 빈도-역 문서 빈도(TF-IDF)를 이용해 중요 단어를 추출하고 중요 단어 가중치 행렬을 생성한다.

S430단계에서 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 추출한 중요 단어를 기반으로 문서를 교통관련 문서인지 아닌지 라벨링하고 분류한다. 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 다양한 카테고리의 문서들을 수집하여 교통 정보를 포함한 교통 관련 문서인지 아닌지를 문서 내 중요 단어를 도출하여 다시 판단하고, 재 분류한다. 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 중요 단어 기반으로 분류하므로 카테고리가 교통은 아니지만 실질적인 교통 관련 내용을 포함한 교통 문서를 정확하게 분류할 수 있다.

S440단계에서 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 교통 문서 내의 중요 단어가 감성 사전에 존재하는지 확인한다.

감성 사전에 중요 단어가 존재하면, S450단계에서 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 감성 사전에서 중요 단어의 극성 값을 도출한다.

감성 사전에 중요 단어가 존재하지 않으면, S445단계에서 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 유사도 사전을 통해 중요 단어와 유의미한 관계에 있는 유사 단어를 도출하여 대치한다. 예를 들면 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 Word2Vec 일고리즘을 이용해 문서 내의 맥락을 통해 단어 뜻을 유추하고, 중요 단어와 유사한 의미를 가진 대치(imputation)를 도출할 수 있다. 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 유사도에 따라 중요 단어를 대치하도록 한다.

S450 단계에서 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 대치 단어의 극성 값을 도출할 때 중요 단어와의 유사도를 고려한다. 예를 들면 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 대치 단어의 극성 값에 유사도를 곱하여 유사한 만큼만 가중치를 부여하여 극성 값을 산출할 수 있다.

S460 단계에서 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 시간 가중치를 이용해 돌발적인 교통 이벤트 발생에 대한 시간에 따라 변화하는 위험도를 표현한다. 예를 들면, 시간 가중치는 1에서 6까지의 정수로 표현하고, 교통 이벤트 발생 직후 가중치는 6으로 설정하고, 4시간마다 1씩 감소하여 24시간이 지나면 1로 시간 가중치가 더 이상 감성 유사도 가중치에 영향을 미치지 않게 설정할 수 있다.

S470 단계에서 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 산출된 단어의 극성 값, 유사도, 시간 가중치를 고려하여 단어의 감성 유사도 가중치를 산출한다. 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 단어의 감성 유사도 가중치(WSSW)를 이용해 문서의 감성 유사도 가중치(SSW)를 산출한다.

S480 단계에서 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 감성 유사도 가중치에 따라 교통 안전 또는 위험 정보를 포함하는 교통 위험(Emerging Risk) 문서인지 아닌지를 분류한다.

S490 단계에서 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 사용자의 이동 경로에 따른 교통 위험(Emerging Risk) 정보를 생성하여 제공한다. 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 분류된 교통 위험 문서를 기반으로 교통 위험 정보를 생성한다.

도 5는 본 발명의 일 실시 예에 따른 비정형 데이터 기반 교통 위험 탐지 시스템(10)의 프로세스 예시이다.

도 5를 참조하면, S5101 단계에서 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 크롤링하여 비정형 데이터를 수집한다.

S5102 단계에서 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 수집한 비정형 데이터의 형태소를 분석한다. 이때 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 명사뿐만 아니라 형용사 또는 동사를 포함하여 형태소를 분석한다.

S5103 단계에서 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 명사, 형용사 또는 동사를 포함한 단어를 추출한다.

S5104 단계에서 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 추출한 단어를 기반으로 중요 단어 가중치 행렬을 구성한다. 예를 들면, 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 단어 빈도-역 문서 빈도(TD-IDF)를 이용해 중요 단어 가중치 행렬을 구성할 수 있다.

S520 단계에서 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 중요 단어 가중치 행렬을 이용해 중요 단어를 추출하고 교통 관련 및 비 관련으로 문서를 분류하여 라벨링한다.

S530 단계에서 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 워드 임베딩 방법을 이용해 유사도 사전에서 대치 단어를 도출한다. S430 단계는 추출한 단어가 감성 사전에 없는 경우 유사도 사전을 이용해 유의미한 관계에 있는 유사 단어를 대치하기 위해 수행된다.

S540 단계에서 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 중요 단어의 극성 값을 기반으로 문서의 감성 유사도 가중치를 산출하고, 교통 안전 또는 위험 정보를 포함한 교통 위험 문서인지 아닌지 분류한다.

도6는 본 발명의 일 실시 예에 따른 비정형 데이터 기반 교통 위험 탐지 시스템이 이용하는 감성 사전을 설명하기 위한 도면이다.

최근에 감성 사전 구축을 위해 머신 러닝과 딥 러닝을 이용한 지도학습 방법이 자주 사용되고 있다. 지도 학습은 사용자가 부여한 라벨을 통해 학습하며 이를 통해 답을 유추한다. 이과 같이 문서의 긍부정도를 라벨로 부여함으로써 분류기는 스스로 학습하고, 결과를 판단한다. 예를 들면 감성 사전 기반 모듈은 TextBlob, VADER(Valnace Aware Dictionary and sEntiment Reasnoer, SentiWordNet 등을 이용할 수 있다.

도 6을 참조하면, S610 단계에서 감성 사전은 텍스트 데이터를 수집하고 전처리하는 단계를 거친다. 이때 감정 사전은 불용어를 제거하고 형태소를 분석한다.

S620 단계에서 감성 사전은 형태소를 분석할 때 명사뿐만 아니라 감성 어휘가 많은 동사 또는 형용사도 추출하여 사용한다. 감성 사전은 형태소를 분석한 단어의 감성 정도를 파악하여 긍정(Positive), 중립(Neutrality) 및 부정(Negative)으로 분류하고 정량화하여 저장한다.

도 7의 예시는 Word2Vec 기반 워드 임베딩을 한 결과로 고차원의 벡터 공간을 2차원으로 차원 축소하여 시각화한 결과이다. x축과 y축은 단어의 벡터 좌표 값이다.

도 7을 참조하면, 단어를 벡터화한 결과 Set1, Set2, Set3는 의미적으로 유사한 단어들이 군집되어 있다. 이는 각각 damage, crash, vehicle을 의미하고, 군집된 단어는 유사도가 높을 수록 근접한 곳에 위치한다. 유사도 추출부(330)는 유사도 사전을 워드 임베딩을 통해 구축할 수 있다.

유사도 추출부(330)는 감정 사전에 존재하지 않는 중요 단어를 유사도 사전에서 단어를 도출하고 대치할 수 있다. 유사도 사전은 의미적으로 유사한 단어들의 군집 내에도 유사한 정도가 단어마다 상이하다. 따라서 유사도 추출부(330)는 일정 값 이상의 유사도를 가지는 단어들만 대치를 수행한다. 유사도 추출부(330)는 대치 임계 값을 설정하여 문서 내의 중요 단어들과 가장 높은 유사도를 가지는 단어와의 유사성을 비교한다. 유사도 추출부(330)는 유사도를 0.1씩 줄여가면서 중요 단어와 유사도 값이 가장 높은 단어와 유의미한 상관 관계를 가지는지 판단할 수 있다.

표 1은 대치 임계 값(Threshold)에 따른 단어와 유사도 값이 가장 높은 단어가 의미적으로 일치할 확률을 나타낸다.

대치 임계 값	1.0	0.9	0.8	0.7	0.6	0.5	0.4
유사 확률	1.0	0.875	0.812	0.794	0.628	0.211	0.193

표 1을 참조하면, 대치 임계 값이 0.5시점에서 컷 오프(cut-off)된다. 따라서, 유사도 추출부(330)는 대부분의 단어 간의 유사도가 0.5이하일 때는 의미적으로 일치하지 않는다고 판단하여 대치 임계 값을 0.5로 설정할 수 있다.

도 8은 본 발명의 일 실시 예에 따른 비정형 데이터 기반 교통 위험 탐지 시스템이 감성 유사도 가중치를 고려하여 문서를 분류하는 예시이다.

도 8을 참조하면, 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 수집한 문서에서 추출한 중요 단어들에 대한 가중치, 유사도, 극성 값을 통해 단어 감성 유사도 가중치를 산출하고, 평균을 구하여 문서의 감성 유사도 가중치를 산출한다. 예를 들면, 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 중요 단어 가중치를 단어 빈도-역 문서 빈도를 이용해 구성할 수 있다.

비정형 데이터 기반 교통 위험 탐지 시스템(10)은 문서 단어 행렬(DTM, Document Term Matrix)과 감성 유사도 가중치를 결합하여 학습데이터를 구성하고, SVM(Support Vector Machine) 이진 분류기를 통해 학습한다. 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 감성 유사도 가중치를 이용하여 교통 안전 관련 정보 또는 교통 위험 탐지 정보를 포함하는 교통 위험 (Emerging Risk) 문서를 분류할 수 있다. 예를 들면 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 고속도로 개통, 교통 안전법 개정과 같은 교통 정보를 포함하고 있지만 위험이 탐지되지 않는다면 교통 위험 미탐지(Non-Emerging Risk) 문서로 분류한다. 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 교통 위험 (Emerging Risk) 문서를 기반으로 교통 위험 정보를 생성한다.

도 9는 본 발명의 일 실시 예에 따른 비정형 데이터 기반 교통 위험 탐지 시스템에 제공하는 정보 예시 화면이다.

도 9를 참조하면, 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 사용자의 이동 경로를 기반으로 교통 안전 또는 위험 정보를 탐지하고, 제공한다.

비정형 데이터 기반 교통 위험 탐지 시스템(10)은 문서를 수집할 사이트의 URL, 날짜, 페이지 수 등을 설정하여 문서를 크롤링한다.

비정형 데이터 기반 교통 위험 탐지 시스템(10)은 크롤링된 문서에서 불용어를 제거하고 형태소를 분석하는 전처리 과정을 수행한다.

비정형 데이터 기반 교통 위험 탐지 시스템(10)은 전처리된 문서의 중요 단어 가중치를 산출하고, 감성 유사도 가중치와 결합하여 문서를 분류한다. 예를 들면, 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 중요 단어 가중치를 단어 빈도-역 문서 빈도(TF-IDF)를 기반으로 구성할 수 있다.

비정형 데이터 기반 교통 위험 탐지 시스템(10)은 사용자의 출발지와 목적지를 확인하고 이동 경로에 포함되는 교통 정보 문서의 위치(Location)와 개수를 지도에 표현하고 제공할 수 있다. 또한 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 추출한 중요 단어를 기반으로 각 경로에 대한 간단한 정보를 제공할 수 있다. 예를 들면, 도 9의 예시와 같이 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 경기도청에서 광명시청까지의 경로에서 4개 구간에 총 265개의 교통 위험 문서를 탐지하였다. 추출된 교통 위험 문서들의 중요 단어를 기반으로 위험 요소들을 확인할 수 있다. 비정형 데이터 기반 교통 위험 탐지 시스템(10)이 수원광명 고속도로 구간을 132개의 교통 위험 문서를 탐지하여 가장 위험성이 높다고 판단한 예시이다.

도 10 내지 도 13은 본 발명의 일 실시 예에 따른 비정형 데이터 기반 교통 위험 탐지 시스템의 성능을 평가한 실험 결과 도면들이다.

도 10을 참조하면, 비정형 데이터 기반 교통 위험 탐지 시스템(10)는 단어 간 유사도를 산출할 때 코사인 유사도를 이용해 맨하튼 유사도 또는 유클리디언 유사도 보다 정확도가 높다.

코사인 유사도는 벡터 사이의 방향성을 통해 다차원 공간에서 유사도를 측정함으로 문서 안에서의 전체적인 단어의 맥락을 고려하여 측정할 수 있다. 반면, 맨하튼과 유클리디언 유사도는 각도 기반 코사인 유사도에 비해 거리 기반으로 단순히 단어의 빈도만을 고려하여 판단하기 때문에 자연어 처리에 한계가 있다.

도 11을 참조하면, 비정형 데이터 기반 교통 위험 탐지 시스템(10)는 서포트 벡터 머신(SVM, Support Vector Machine) 분류 모델로 학습하여 분류 정확도가 KNN 모델 또는 Naive Bayers 모델보다 높다.

SVM 분류 모델을 이용한 비정형 데이터 기반 교통 위험 탐지 시스템(10)은 정확도(accuracy), 정밀도(Precision), 재현율(Recall) 및 F-measure(정밀도와 재현율의 조화 평균)의 모든 측면에서 높은 평가를 나온다.

도 12를 참조하면, 비정형 데이터 기반 교통 위험 탐지 시스템(10)에서 감성 유사도 가중치를 적용한 SVM 모델이 일반적인 SVM 모델보다 우수하게 평가되었다.

도 13을 참조하면, 감성 유사도 가중치를 적용한 비정형 데이터 기반 교통 위험 탐지 시스템(10)이 기존 SVM 분류 모델보다 ROC Curve를 확인한 결과 분류 성능이 더 우수한 것을 알 수 있다.

상술한 비정형 데이터 기반 교통 위험 탐지 방법은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.

이상에서, 본 발명의 실시 예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시 예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.

도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시 예 들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.

이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

10: 비정형 데이터 기반 교통 위험 탐지 시스템
100: 수집부
200: 전처리부
300: 추출부
310: 단어 추출부
320: 극성 값 추출부
330: 유사도 추출부
340: 가중치 추출부
400: 분류부
500: 교통 위험 정보 생성부
600: 정보 제공부

Claims

비정형 데이터 기반 교통 위험 탐지 시스템에 있어서,
비정형 데이터를 크롤링하는 수집부;
상기 비정형 데이터를 전처리하여 단어를 추출하는 전처리부;
상기 단어에서 중요 단어를 추출하고, 감성 유사도 가중치를 산출하는 추출부;
상기 감성 유사도 가중치를 이용해 교통 위험 정보를 생성하는 교통 위험 정보 생성부; 및
상기 교통 위험 정보를 제공하는 정보 제공부를 포함하되,
상기 추출부는
단어 빈도-역 문서 빈도 행렬을 이용해 중요 단어를 추출하는 단어 추출부;
교통 관련 문서에서 추출한 중요 단어들을 감성 사전을 기반으로 극성 값을 추출하는 극성 값 추출부;
감성 사전에 단어가 존재하지 않는 경우 유사도 사전을 이용하여 유사도가 높은 단어를 도출하는 유사도 추출부 및
중요 단어 가중치 행렬, 유사도, 극성 값 및 시간 가중치 중 어느 하나 이상을 이용하여 단어의 감성 유사도 가중치를 산출하는 가중치 추출부를 포함하고,
상기 유사도 사전은
단어 간의 유사도를 산출하기 위하 워드 임베딩 방법 기반으로 추출된 중요 단어를 벡터화하고, 유사도 결과를 통해 구축되고,
구축할 때 불용어 처리를 하지 않고, 학습 단어의 다양성을 위해 교통문서만을 사용하여 학습하지 않고 다른 분야의 문서들도 학습하고,
상기 유사도 추출부는
중요 단어가 감성 사전에 존재하지 않아도 유사도 사전을 이용하여 유사도 기반 대치를 통해 유사도가 높은 단어를 도출하고,
상기 가중치 추출부는
감성 사전에 없는 중요 단어의 극성 값을 유사도 사전에서 도출한 대치 단어의 유사도와 극성 값을 이용해 산출하고,
돌발적인 교통 이벤트 발생에 대한 시간에 따라 변화하는 위험도를 표현하는 시간 가중치를 이용하고,
중요 단어 가중치 행렬, 유사도, 극성 값 및 시간 가중치 중 어느 하나 이상을 이용하여 단어의 감성 유사도 가중치를 산출하고,
상기 단어의 감성 유사도 가중치를 통해 문서의 감성 유사도 가중치를 산출하고,
상기 문서의 감성 유사도 가중치는
각 문서들마다 추출된 중요 단어들의 개수가 다르기 때문에 균등한 값을 도출하는
[수학식 2]

를 이용하고,
문서 단어 행렬과 상기 감성 유사도 가중치를 결합하여 학습데이터를 구성하여 학습하는 비정형 데이터 기반 교통 위험 탐지 시스템.
제1항에 있어서,
상기 전처리부는
불용어를 제거하고, 의미를 가지는 단어의 형태소 분석을 이용해 단어를 추출하는 비정형 데이터 기반 교통 위험 탐지 시스템.
제1 항에 있어서,
상기 추출부는
단어 빈도-역 문서 빈도 행렬을 이용해 중요 단어를 추출하는 비정형 데이터 기반 교통 위험 탐지 시스템.
제1항에 있어서,
상기 추출부는
감성 사전을 이용해 단어의 극성 값을 도출하는 비정형 데이터 기반 교통 위험 탐지 시스템.
제1항에 있어서
상기 정보 제공부는
사용자의 경로 기반으로 상기 교통 위험 정보를 제공하는 비정형 데이터 기반 교통 위험 탐지 시스템.
비정형 데이터 기반 교통 위험 탐지 시스템이 수행하는 비정형 데이터 기반 교통 위험 탐지 방법에 있어서,
사용자 경로에 기반한 비정형 데이터를 수집하는 단계;
상기 비정형 데이터에서 불용어를 제거하고 형태소 분석을 수행하는 단계;
추출한 중요 단어를 기반으로 교통 관련 정보를 포함한 교통 문서를 분류하는 단계;
감성 사전을 이용하여 상기 중요 단어의 극성 값을 추출하는 단계;
감성 유사도 가중치를 기반으로 교통 위험 문서를 분류하는 단계; 및
상기 교통 위험 문서를 상기 사용자 경로를 기반으로 제공하는 단계를 포함하되,
상기 중요 단어는 단어 빈도-역 문서 빈도 행렬을 이용해 추출하고,
교통 관련 문서에서 추출한 중요 단어들을 감성 사전을 기반으로 극성 값을 추출하고,
상기 중요 단어가 상기 감성 사전에 존재하지 않는 경우 유사도 사전을 이용하여 유사도 기반 대치를 통해 유사도가 높은 대치 단어를 도출하고,
상기 대치 단어의 유사도와 극성 값을 이용해 상기 중요 단어의 극성 값을 산출하고,
돌발적인 교통 이벤트 발생에 대한 시간에 따라 변화하는 위험도를 표현하는 시간 가중치를 이용하고,
중요 단어 가중치 행렬, 유사도, 극성 값 및 시간 가중치 중 어느 하나 이상을 이용하여 단어의 감성 유사도 가중치를 산출하고,
상기 단어의 감성 유사도 가중치를 통해 문서의 감성 유사도 가중치를 산출하고,
상기 문서의 감성 유사도 가중치는
각 문서들마다 추출된 중요 단어들의 개수가 다르기 때문에 균등한 값을 도출하는
[수학식 2]

를 이용하고,
상기 유사도 사전은
단어 간의 유사도를 산출하기 위하 워드 임베딩 방법 기반으로 추출된 중요 단어를 벡터화하고, 유사도 결과를 통해 구축되고,
구축할 때 불용어 처리를 하지 않고, 학습 단어의 다양성을 위해 교통문서 만을 사용하여 학습하지 않고 다른 분야의 문서들도 학습하고,
문서 단어 행렬과 상기 감성 유사도 가중치를 결합하여 학습데이터를 구성하여 학습하는 비정형 데이터 기반 교통 위험 탐지 방법.
삭제
삭제
제6항의 비정형 데이터 기반 교통 위험 탐지 방법을 실행하는 컴퓨터가 판독 가능한 기록매체에 기록된 컴퓨터 프로그램.