KR102387665B1 - 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별시스템 및 선별방법 - Google Patents
재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별시스템 및 선별방법 Download PDFInfo
- Publication number
- KR102387665B1 KR102387665B1 KR1020210007858A KR20210007858A KR102387665B1 KR 102387665 B1 KR102387665 B1 KR 102387665B1 KR 1020210007858 A KR1020210007858 A KR 1020210007858A KR 20210007858 A KR20210007858 A KR 20210007858A KR 102387665 B1 KR102387665 B1 KR 102387665B1
- Authority
- KR
- South Korea
- Prior art keywords
- disaster
- class
- message
- information
- message information
- Prior art date
Links
- 238000012216 screening Methods 0.000 title claims abstract description 35
- 238000013480 data collection Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 47
- 230000000694 effects Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000013473 artificial intelligence Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 238000003012 network analysis Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 description 13
- 238000003058 natural language processing Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000012795 verification Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 연산기능을 가진 제어서버(10) 및 소셜미디어 상의 메시지 정보가 저장된 데이터베이스(20)가 네트워크로 연결되고, 제어서버가 상기 메시지 정보를 분석하는 재난정보 선별시스템으로서, 제어서버(10)는 소셜미디어에서 메시지를 수집하는 데이터 수집부(100); 수집된 메시지 정보를 학습하여, 메시지에 포함된 단어 간의 벡터값인 재난가중치를 산출하고, 산출된 재난 가중치를 이용하여 메시지를 기 설정된 클래스 별로 분류하는 클래스 분류부(200); 동일 클래스로 분류된 메시지 정보를 주제별로 군집하는 주제 군집부(300); 및 동일 주제 군집에 속하는 메시지 정보간의 신뢰도 점수를 산출하는 신뢰도 산출부(400)를 포함하는 것을 특징으로 하는 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별시스템이다.
Description
본 발명은 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별시스템 및 선별방법에 관한 것이다.
자연어(Natural Language)란 우리가 일상 생활에서 사용하는 언어를 의미한다. 자연어 처리(NLP: Natural Language Processing)란 이러한 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 것을 의미한다.
자연어 처리는 음성 인식, 내용 요약, 번역, 사용자의 감성 분석, 텍스트 분류 작업(스팸 메일 분류, 뉴스 기사 카테고리 분류), 질의 응답 시스템, 챗봇과 같은 곳에서 사용되고 있다.
자연어처리 과제(개체명 인식, 문서 분류, 문서 요약 등)를 수행하기 위해서 다양한 딥러닝 모델들이 제안되고 있다.
재난 상황에서 트위터(twitter) 등의 소셜미디어(social media)의 정보를 가지고 실시간 재난 대응에 적극적으로 활용하기 위해서는 방대한 정보에서 필요한 정보만을 분류하는 기술이 필요하다.
2018년 구글(Google)은 인공지능(AI) 언어모델 BERT(Bidirectional Encoder Representations from Transformers)를 공개하였다. BERT는 언어표현 사전학습의 새로운 방법으로 위키피디아(Wikipedia)와 같은 큰 텍스트 코퍼스(corpus)를 이용하여 범용목적의 언어 이해(language understanding)' 모델을 훈련시키는 것과 그 모델에 관심 있는 실제의 자연 언어 처리 태스크(질문·응답 등)에 적용하는 것이다
BERT는 NLP(자연어처리) 사전 훈련 언어 모델이며, 특정 분야에 국한된 기술이 아니라 모든 자연어 처리 분야에서 좋은 성능을 내는 범용 언어모델이다.
BERT는 구글의 셀프 어텐션 신경망 모델인 트랜스포머(Transformer)로 되어있다. 그리고 미리 사전훈련(pre-training)을 한 후 여러 가지 자연어 문제에 파인튜닝(fine-tuning)만 하여 공통으로 적용이 가능한 특징이 있다.
하지만, 구글이 대량의 텍스트를 통해서 도출한 BERT의 사전 학습 가중치는 본 발명에서 파악하고자 하는 '재난 피해 정보'를 분류하는 데에 최적화된 값이 아니라는 문제점이 있다.
즉, 재난 시에 수집된 트위터 등의 소셜 미디어 정보를 BERT를 통해 분류하여도 재난에 특화되지 않아서, 재난정보를 정확하게 분류하지 못하는 문제점이 있다.
이에, 본 발명은 최근 가짜 뉴스(fake news)가 매우 증가한 현실에서, 시급을 다투는 재난 상황에서 신뢰도 높은 메시지 정보를 도출하여 이를 활용하고자 한다.
본 발명에 따른 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별시스템 및 선별방법은 다음과 같은 해결과제를 가진다.
첫째, 재난 상황에 따른 재난 가중치를 산출하여, 메시지의 재난상황 분석 정확성을 증가시키고자 한다.
둘째, 실시간 재난 대응을 위해, 메시지 정보에서 재난 피해에 대한 정보를 시간에 따라 주제 별로 군집하고자 한다.
셋째, 군집된 메시지 정보의 신뢰도를 평가하고자 한다.
넷째, 신뢰도 높은 메시지 정보를 도출하여 활용하고자 한다.
본 발명의 해결과제는 이상에서 언급한 것들에 한정되지 않으며, 언급되지 아니한 다른 해결과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명은 연산기능을 가진 제어서버 및 소셜미디어 상의 메시지 정보가 저장된 데이터베이스가 네트워크로 연결되고, 제어서버가 상기 메시지 정보를 분석하는 재난정보 선별시스템으로서, 제어서버는 소셜미디어에서 메시지를 수집하는 데이터 수집부; 수집된 메시지 정보를 학습하여, 메시지에 포함된 단어 간의 벡터값인 재난가중치를 산출하고, 산출된 재난 가중치를 이용하여 메시지를 기 설정된 클래스 별로 분류하는 클래스 분류부; 동일 클래스로 분류된 메시지 정보를 주제별로 군집하는 주제 군집부; 및 동일 주제 군집에 속하는 메시지 정보간의 신뢰도 점수를 산출하는 신뢰도 산출부를 포함한다.
본 발명에 있어서, 상기 클래스 분류부는 인공지능 BERT 모델을 이용하며, 각 클래스의 학습데이터로 사용될 메시지 정보를 선정하는 학습데이터 선정부; BERT 모델의 학습방식을 결정하는 하이퍼 파라미터를 결정하는 하이퍼 파라미터 결정부; 및 상기 하이퍼 파라미터로 학습되어 산출된 재난 가중치를 통해 각 클래스에 속할 확률을 예측하여 클래스를 분류하는 확률 예측부를 포함한다.
본 발명에 있어서, 상기 클래스 분류부에서 분류되는 클래스는 사상자 클래스, 대피 및 구조 클래스, 인프라 및 산업활동 관련 클래스, 행방불명ㆍ유랑 및 고립 클래스, 도움ㆍ기부 및 대비 클래스, 및 기타 정보 클래스로 분류될 수 있다.
본 발명에 있어서, 상기 학습데이터 선정부에서 각 클래스에 속하는 메시지의 개수는 기 설정된 값을 초과하고, 포함된 메시지의 개수가 최대인 클래스의 메시지 개수는 포함된 메시지의 개수가 최소인 클래스의 메시지 개수의 기 설정된 배수값을 초과하지 않는 것이 가능하다.
본 발명에 있어서, 상기 하이퍼 파라미터 결정부는 에폭(epoch)과 학습률(learning rate)을 기 설정된 값으로 고정하고, 시퀀스 길이(sequence length)와 배치 사이즈(batch size)의 값을 각각 변동시키면서, 검정데이터의 정확도가 가장 높은 값을 산출하는 제1 단계를 구비할 수 있다.
본 발명에 있어서, 상기 하이퍼 파라미터 결정부는 제1 단계 후에, 상기 산출된 시퀀스 길이(sequence length)와 배치 사이즈(batch size) 값으로 고정하고, 학습률(learning rate)은 기 설정된 값으로 고정하고, 에폭(epoch)을 변동시키면서, 검정데이터의 정확도가 가장 높은 값을 산출하는 제2 단계를 구비할 수 있다.
본 발명에 있어서, 상기 하이퍼 파라미터 결정부는 시퀀스 길이(sequence length)는 128, 배치 사이즈(batch size)는 32, 에폭(epoch)은 4 및 학습률(learning rate)은 1e-4로 결정할 수 있다.
본 발명에 있어서, 상기 확률 예측부는 상기 재난 가중치를 통해 각 메시지가 각 클래스에 해당될 확률을 softmax 함수를 이용하여 예측할 수 있다.
본 발명에 있어서, 상기 클래스 분류부는 각 메시지를 상기 확률 예측부에서 각 클래스별로 산출된 확률 예측값이 가장 큰 클래스로 분류할 수 있다.
본 발명에 있어서, 상기 주제 군집부는 각 클래스로 분류된 메시지를 TF-IDF 벡터화를 통해 메시지와 단어의 행렬 및 각 메시지 간의 행렬을 구하여, 각 메시지 간의 코사인 유사도를 측정하여 주제별로 군집할 수 있다.
본 발명에 있어서, 상기 신뢰도 산출부는 네트워크 분석을 사용하며, 네트워크의 노드는 각 메시지이고, 네트워크의 엣지는 상기 주제 군집부에서 산출되는 코사인 유사도가 기 설정된 값 이상일때 생기는 연결선인 것이 바람직하다.
본 발명에 있어서, 상기 신뢰도 산출부는 각 노드에 연결된 엣지의 코사인 유사도 합이 최대인 메시지를 대표 메시지로 결정할 수 있다.
본 발명에 있어서, 상기 신뢰도 산출부에서 결정된 대표 메시지를 기 설정된 단말로 송신하는 메시지 송신부를 더 구비할 수 있다.
본 발명은 연산기능을 가진 제어서버 및 소셜미디어 상의 메시지 정보가 저장된 데이터베이스가 네트워크로 연결되고, 제어서버가 상기 메시지 정보를 분석하는 재난정보 선별 방법으로서, 제어서버는 제어서버의 데이터 수집부가 소셜미디어에서 메시지를 수집하는 S100 단계; 제어서버의 클래스 분류부가 수집된 메시지 정보를 학습하여, 메시지에 포함된 단어 간의 벡터값인 재난가중치를 산출하고, 산출된 재난 가중치를 이용하여 메시지를 기 설정된 클래스 별로 분류하는 S200 단계; 제어서버의 주제 군집부가 동일 클래스로 분류된 메시지 정보를 주제별로 군집하는 S300 단계; 및 제어서버의 신뢰도 산출부가 동일 주제 군집에 속하는 메시지 정보간의 신뢰도 점수를 산출하는 S400 단계를 수행할 수 있다.
본 발명에 있어서, S200 단계는 상기 클래스 분류부가 인공지능 BERT 모델을 이용하며 수행되며, 학습데이터 선정부가 각 클래스의 학습데이터로 사용될 메시지 정보를 선정하는 S210 단계; 하이퍼 파라미터 결정부가 BERT 모델의 학습방식을 결정하는 하이퍼 파라미터를 결정하는 S220 단계; 및 확률 예측부가 상기 하이퍼 파라미터로 학습되어 산출된 재난 가중치를 통해 각 클래스에 속할 확률을 예측하여 클래스를 분류하는 S230 단계를 포함한다.
본 발명은 하드웨어와 결합되어, 본 발명에 따른 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별방법을 컴퓨터에 의해 실행시키기 위하여 컴퓨터가 판독 가능한 기록매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다.
본 발명에 따른 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별시스템 및 선별방법은 다음과 같은 효과를 가진다.
첫째, 재난 상황에 따른 재난 가중치를 산출하여, 메시지의 재난상황 분석 정확성을 증가시키는 효과가 있다.
둘째, 실시간 재난 대응을 위해, 메시지 정보에서 재난 피해에 대한 정보를 시간에 따라 주제 별로 군집하는 효과가 있다.
셋째, 군집된 메시지 정보의 신뢰도를 평가하는 효과가 있다.
넷째, 신뢰도 높은 메시지 정보를 도출하여 활용하는 효과가 있다.
본 발명의 효과는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명에 따른 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별시스템의 구성도이다.
도 2는 본 발명에 따른 클래스 분류부의 세부 구성도이다.
도 3은 본 발명에 따른 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별방법의 순서도이다.
도 4는 본 발명에 따른 클래스 분류방법의 세부 순서도이다.
도 5는 본 발명에 따른 재난정보 선별방법을 도식화한 순서도이다.
도 6은 본 발명에서 BERT 모델을 활용하는 것을 나타내는 도면이다.
도 7 및 도 8은 본 발명에 따른 본 발명에 따른 신뢰도 산출부에서 코사인 유사도를 이용하여 트위터의 중심도와 신뢰도 점수를 산출하는 것을 나타낸다.
도 2는 본 발명에 따른 클래스 분류부의 세부 구성도이다.
도 3은 본 발명에 따른 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별방법의 순서도이다.
도 4는 본 발명에 따른 클래스 분류방법의 세부 순서도이다.
도 5는 본 발명에 따른 재난정보 선별방법을 도식화한 순서도이다.
도 6은 본 발명에서 BERT 모델을 활용하는 것을 나타내는 도면이다.
도 7 및 도 8은 본 발명에 따른 본 발명에 따른 신뢰도 산출부에서 코사인 유사도를 이용하여 트위터의 중심도와 신뢰도 점수를 산출하는 것을 나타낸다.
이하, 첨부한 도면을 참조하여, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 설명한다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 이해할 수 있는 바와 같이, 후술하는 실시예는 본 발명의 개념과 범위를 벗어나지 않는 한도 내에서 다양한 형태로 변형될 수 있다. 가능한 한 동일하거나 유사한 부분은 도면에서 동일한 도면부호를 사용하여 나타낸다.
본 명세서에서 사용되는 전문용어는 단지 특정 실시예를 언급하기 위한 것이며, 본 발명을 한정하는 것을 의도하지는 않는다. 여기서 사용되는 단수 형태들은 문구들이 이와 명백히 반대의 의미를 나타내지 않는 한 복수 형태들도 포함한다.
본 명세서에서 사용되는 "포함하는"의 의미는 특정 특성, 영역, 정수, 단계, 동작, 요소 및/또는 성분을 구체화하며, 다른 특정 특성, 영역, 정수, 단계, 동작, 요소, 성분 및/또는 군의 존재나 부가를 제외시키는 것은 아니다.
본 명세서에서 사용되는 기술용어 및 과학용어를 포함하는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 일반적으로 이해하는 의미와 동일한 의미를 가진다. 사전에 정의된 용어들은 관련기술문헌과 현재 개시된 내용에 부합하는 의미를 가지는 것으로 추가 해석되고, 정의되지 않는 한 이상적이거나 매우 공식적인 의미로 해석되지 않는다.
본 발명은 구글의 BERT 모델을 활용하는 기술이며, 다만, BERT 모델은 재난 상황에 특화된 재난 가중치가 없어서 재난 관련 메시지 분석에서 정확성이 부족하므로, 새로운 재난 가중치를 도출하여 재난 메시지 분석의 정확성을 증가시키는 것이 특징이다.
이에, 본 발명은 BERT 모델이 재난 피해 정보를 높은 성능으로 분류할 수 있도록 기존의 구글 사전 학습 가중치 대신에 새로운 재난 가중치를 제안하였다.
본 발명의 타당성은 2017년에 발생된 허리캐인 하비(Hurricane Harvey) 당시에 미국에서 공유됐던 트위터(twitter) 자료를 통해 검증하였다. 실시간으로 피해 정보를 효율적으로 파악하기 위해서는 BERT를 통해 클래스가 분류된 피해 정보를 다시 주제 별로 군집한다. 본 발명은 각 클래스로 분류된 재난 피해 정보를 신뢰도 있는 정보로 주제 별로 요약해서 제공하기 위해 TF-IDF 기반으로 코사인 유사도 점수에 따라 트위터를 주제별로 군집하였다. 그 후, 군집된 트위터를 가중치 중심성(weighted degree centralility)에 따라 제공하였다.
이를 단계별로 정리하면, 도 5와 같이 도식화할 수 있다.
본 발명은 도 5에 도시된 바와 같이, BERT 모델, 클러스터링 기법 및 네트워크 이론을 통합하여 실시간으로 재난 피해와 관련된 소셜미디어(트위터 등) 정보를 요약해주는 기술이다.
도 5를 살펴보면, 본 기술은 세 가지 단계로 구성되어 있다. 먼저 Step 1은 으로 실시간으로 공유되는 소셜미디어(트위터) 정보를 6개 클래스로 분류한다. Step 2는 6개 클래스로 분류된 소셜미디어(트위터) 정보를 주제 별로 군집화한다. Step 3는 군집화된 그룹을 신뢰도가 높은 순서로 배열하는 과정이다. 해당 세 개의 과정을 통해서 최종 결과물로 신뢰도가 높은 순서로 배열된 주제 별로 요약된 트위터 집합이 생성된다.
참고로, 도 6은 본 발명에서 BERT 모델을 활용하는 것을 나타내는 도면이다.
이하에서는 도면을 참고하여 본 발명을 설명하고자 한다. 참고로, 도면은 본 발명의 특징을 설명하기 위하여, 일부 과장되게 표현될 수도 있다. 이 경우, 본 명세서의 전 취지에 비추어 해석되는 것이 바람직하다.
도 1은 본 발명에 따른 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별시스템의 구성도이다.
본 발명은 연산기능을 가진 제어서버(10) 및 소셜미디어 상의 메시지 정보가 저장된 데이터베이스(20)가 네트워크로 연결되고, 제어서버가 상기 메시지 정보를 분석하는 것으로서, 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별시스템이다.
본 발명에 따른 제어서버(10)는 소셜미디어에서 메시지를 수집하는 데이터 수집부(100); 수집된 메시지 정보를 학습하여, 메시지에 포함된 단어 간의 벡터값인 재난가중치를 산출하고, 산출된 재난 가중치를 이용하여 메시지를 기 설정된 클래스 별로 분류하는 클래스 분류부(200); 동일 클래스로 분류된 메시지 정보를 주제별로 군집하는 주제 군집부(300); 및 동일 주제 군집에 속하는 메시지 정보간의 신뢰도 점수를 산출하는 신뢰도 산출부(400)를 포함한다.
먼저, 본 발명에 따른 데이터 수집부(100)를 설명한다.
다양한 형태의 소셜미디어 사이트에서 생성되는 메시지를 크롤링, API, Aggregator 등 다양한 데이터 수집기술을 활용하여 수집할 수 있다.
한편, 본 발명에 따른 소셜미디어(social media)는 소셜 네트워크(social network) 기반에서 개인의 생각이나 의견, 경험, 정보 등을 서로 공유하고 타인과의 관계를 생성 또는 확장시킬 수 있는 개방화된 온라인 플랫폼(onlone platform)을 의미한다. 트위터, 인스타그램, 블로그, 페이스북, 카카오톡 등의 다양한 형태를 포함할 수 있다. 다만, 본 명세서에서는 트위터(twitter)를 예시로 설명하고자 한다.
다음으로, 본 발명에 따른 클래스 분류부(200)를 설명한다.
본 발명에 따른 클래스 분류부(200)는 수집된 메시지 정보를 학습하여, 메시지에 포함된 단어 간의 벡터값인 재난가중치를 산출하고, 산출된 재난 가중치를 이용하여 메시지를 기 설정된 클래스 별로 분류할 수 있다.
클래스 분류부(200)는 인공지능 BERT 모델을 이용하며, 각 클래스의 학습데이터로 사용될 메시지 정보를 선정하는 학습데이터 선정부(210); BERT 모델의 학습방식을 결정하는 하이퍼 파라미터를 결정하는 하이퍼 파라미터 결정부(220); 및
하이퍼 파라미터로 학습되어 산출된 재난 가중치를 통해 각 클래스에 속할 확률을 예측하여 클래스를 분류하는 확률 예측부(230)를 포함한다.
클래스 분류부(200)에서 분류되는 클래스는 아래 표 1과 같이, 사상자 클래스, 대피 및 구조 클래스, 인프라 및 산업활동 관련 클래스, 행방불명ㆍ유랑 및 고립 클래스, 도움ㆍ기부 및 대비 클래스, 및 기타 정보 클래스로 분류될 수 있다(아래 표 2 참조).
본 발명은 소셜미디어(트위터)에서 재난 피해 정보를 분류하기 위해서, 2018년 구글이 발표한 딥러닝 모델인 BERT를 활용하였다. 다만, 구글은 대량의 텍스트를 이용하여 BERT의 사전 학습 가중치를 제안했지만, 이는 트위터에서 재난 피해 정보를 수집하는 데에 적합하지 않았다.
이에, 본 발명은 트위터에서 재난 피해 정보를 효과적으로 분류할 수 있도록 BERT의 가중치를 도출하는 방법을 제안하였다.
보다 구체적으로 설명하면, 구글은 대량의 언어 데이터 [BooksCorpus (800M words) 와 English Wikipedia (2,500M words)]를 이용 해서 BERT의 사전 학습 가중치를 정하였다. 하지만, 구글에서 제안한 사전 학습 가중치가 재난 피해 정보를 효과적으로 분류할 수 있도록 선정된 값이 아니기 때문에, 재난 피해 정보를 효과적으로 분류할 수 없었다.
이에, 본 발명은 재난 피해 정보를 높은 성능으로 분류할 수 있는 가중치(이를 '재난 가중치'라고 호칭함)를 도출하기 위해서, 1) 학습 데이터와 2) 최적의 하이퍼 파라미터라는 2가지 사항을 결합시켰다.
그 후 결정된 하이퍼 파라미터를 BERT 모델에 적용하여, 단어 간의 벡터값인 재난 가중치를 산출하였다.
이하에서는, 클래스 분류부(200)의 학습데이터 선정부(210)를 설명한다.
학습데이터 선정부(210)는 각 클래스의 학습데이터로 사용될 메시지 정보를 선정한다.
트위터의 문헌적 특성을 반영하고 다양한 재난 피해 정보에 대한 맥락을 BERT가 학습할 수 있도록 학습 데이터를 선정하였다. 학습 데이터는 2011년부터 2019년까지 재난 피해를 서술한 트위터를 수집하여 BERT 모델을 학습시켰다.
재난 피해를 서술한 트위터에 대한 자세한 설명은 표 1에 서술되어 있다. 표 1의 클래스 별 데이터의 수는 BERT가 특정 클래스에 치우쳐서 학습되지 않도록 선정되었다.
재난 피해에 대한 클래스는 표 2에 따른 6개의 클래스로 구분된다. 6개 클래스는 재난 상황에서 사회, 경제적으로 큰 피해를 발생시키는 인명 피해, 인프라 피해, 산업 활동 피해와 관련되어 있다.
다양한 재난 사례에 대해서 6개 클래스에 대한 정보를 높은 성능으로 분류하기 위해서는 BERT 모델이 다양한 재난 정보를 통해 학습이 되어야 한다.
본 발명은 2011~2019 사이에 공유된 트위터 정보들에서 BERT 모델이 다양한 문맥 표현을 학습할 수 있도록 데이터를 선정하였다.
학습 데이터로 사용된 재난의 이름은 표 1에 서술되어 있다. 6개 클래스에 해당하는 데이터의 수는 표 2에 기재되어 있다. BERT 모델이 인명 피해, 인프라 피해, 산업 활동 피해에 대한 다양한 표현을 학습하고 특정 클래스에 치우쳐서 학습되지 않도록 학습 데이터를 선정하였다.
본 발명에 따른 학습데이터 선정부(210)는 각 클래스에 속하는 메시지의 개수는 기 설정된 값을 초과하고, 포함된 메시지의 개수가 최대인 클래스의 메시지 개수는 포함된 메시지의 개수가 최소인 클래스의 메시지 개수의 기 설정된 배수를 초과하지 않는 것이 바람직하다.
본 발명에 있어서, 상기 기 설정된 메시지 개수 값은 150개이고, 기 설정된 배수값은 2.5배인 것이 가능하다.
아래 표 3의 예시와 같이, 학습데이터의 수가 가장 많은 “사상자 (Dead, injured)”의 데이터의 수가 학습데이터의 수가 가장 적은 “행방불명, 유랑, 고립 (Missing, Displaced, Trapped)”의 2.5배를 초과한다. 이 경우 BERT는 “행방불명, 유랑, 고립 (Missing, Displaced, Trapped)”에 나오는 표현들은 거의 학습하지 못하는 문제점이 발생될 수 있다.
아래 표 4의 예시와 같이, 인프라 및 산업활동 관련 (Infrastructure, Industrial-activity-related)”의 트위터 수가 기 설정값인 150개 이상이 아니므로 학습데이터가 적절하게 선정된 것이 아니므로, 재 선정하게 된다.
이하에서는, 클래스 분류부(200)의 하이퍼 파라미터 결정부(220)를 설명한다. 하이퍼 파라미터 결정부(220)는 BERT 모델의 학습방식을 결정하는 하이퍼 파라미터를 결정한다.
이는 종래의 BERT 모델과 차별화 되는 기술요소이다.
구글이 제안한 “BERT-Base, Uncased”라는 사전 가중치를 재난 메시지 분석에 적용될 수 있도록 단어 사이의 벡터 값을 조정하여 새로운 가중치(재난 가중치)를 도출한다. 벡터값(재난 가중치)을 조정하는 과정에서 인공지능 BERT 모델의 학습 방식을 결정하는 요소가 하이퍼 파라미터이다.
하이퍼 파라미터 결정부(220)는 다음과 같이 제1 단계 및 제2 단계로 수행될 수 있다.
제1 단계의 경우, 에폭(epoch)과 학습률(learning rate)을 기 설정된 값으로 고정하고, 시퀀스 길이(sequence length)와 배치 사이즈(batch size)의 값을 각각 변동시키면서, 검정데이터의 정확도가 가장 높은 값을 산출한다.
제2 단계의 경우, 제1 단계에서 산출된 시퀀스 길이(sequence length)와 배치 사이즈(batch size) 값으로 고정하고, 학습률(learning rate)은 기 설정된 값으로 고정하고, 에폭(epoch)을 변동시키면서, 검정데이터의 정확도가 가장 높은 값을 산출한다.
일 실시예로서, 하이퍼 파라미터를 결정하기 위해서 설정한 소프트웨어 및 패키지 설정은 다음과 같다.
GeForce RTX 2080Ti,
python version : 3.6.10,
Ubuntu 16.04.6 LTS,
tensorflow== 1.13.1 ,
keras == 2.3.1,
keras-bert == 0.83.0
본 발명에 따른 재난 가중치를 도출하기 위하여, BERT가 학습되는 과정에서 결정해야 하는 하이퍼 파라미터의 종류는 시퀀스 길이(sequence length), 배치 사이즈(batch size), 에폭(Epoch) 및 학습률(learning rate)이다.
시퀀스 길이(sequence length)는 입력 토큰의 최대 길이를 나타낸다. 배치 사이즈(batch size)는 한 번의 반복에서 사용되는 학습 데이터의 수이다. 에폭(Epoch)은 전체 데이터 세트를 훈련하기 위한 반복 횟수이다. 학습률(learning rate)은 손실 함수의 최소값으로 이동하면서 각 반복에서 단계 크기를 결정하는 최적화 알고리즘의 튜닝 매개 변수이다.
주어진 GPU (GeForce RTX 2080Ti) 환경에서 시퀀스 길이(sequence length)에 대응하는 최대 배치 사이즈(batch size)는 다음과 같다.
주어진 조건에서 가장 좋은 성능을 보이는 BERT를 도출하기 위해서 시퀀스 길이(sequence length), 배치 사이즈(batch size), 에폭(Epoch) 및 학습률(learning rate)의 조합을 바꿔가며 실험을 진행하였다.
학습데이터로 사용된 2,435개 데이터 중에서 20%를 검증 데이터로 사용하여 하이퍼 파라미터의 조합에 따른 모델의 성능을 평가하였다.
하이퍼 파라미터의 최고 조합을 선정하기 위해서 검증데이터의 정확도(accuracy)와 손실(loss)을 기준으로 하였다.
검증데이터의 정확도(accuracy)가 높고 손실이 작을수록 인공지능 모델의 성능이 우수하다.
손실(loss)은 인공지능 모델의 예측값과 참값 사이의 차이를 의미한다. 두 값 사이의 차이가 작을수록 인공지능의 모델의 성능이 우수한 것이다. 손실을 계산할 때 사용한 손실 함수는 sparse categorical crossentropy이다.
제1 단계의 일 실시예로서, 에폭(epoch)과 학습률(learning rate)는 고정하고 시퀀스 길이(sequence length)와 배치 사이즈(batch size)의 조합을 변경하며 표 5와 같이 실험을 진행하였습니다. 그 결과 E4 사례의 결과가 검증 손실이 작고, 검증데이터의 정확도가 높았다.
제1 단계에서, 해당 데이터에 대해서 시퀀스 길이(sequence length)가 128, 배치 사이즈(batch size)가 32일 때 최고의 성능을 보였다.
그 후, 제2 단계의 일 실시예로서, 시퀀스 길이(sequence length)와 배치 사이즈(batch size)가 각각 128과 32로 고정된 상태에서, 에폭(epoch)의 변화에 따라 모델의 성능 변화를 확인하기 위해 표 6과 같이 실험을 설계했습니다. 실험 결과 C2 사례의 경우일 때, 검증데이터의 정확도가 가장 높았다.
제1 단계와 제2 단계의 각 실험을 통해 트위터에서 재난 피해 정보를 분류하는 데 있어서 최적의 하이퍼 파라미터는 다음 표 7과 같이 결정되었다. 이러한 하이퍼 파라미터를 이용하여, 본 발명에 따른 재난 가중치(단어와 단어 사이의 가중치)를 얻었다.
종래 구글 BERT 모델이 제시한 것은 단어와 단어 사이의 가중치일 뿐이며, 이는 단어와 단어가 함께 등장할 확률을 정한 것이 불과하다. 즉 어떤 조합으로 단어가 배열될 때 해당 트위터가 특정 클래스에 속하는지는 예측할 수 없는 문제점이 있다.
하지만, 본 발명은 해당 트위터가 본 발명에 따른 6개 클래스 중 어떤 특정 클래스에 속하는지 확률적으로 예측할 수 있는 점에서 종래의 구글 BERT 모델과 차이가 있다.
본 발명은 예를 들어, Oil prices rise as refineries shut down #pic라는 트위터가 인프라 및 산업활동 관련으로 분류될 수 있도록 [oil], [price], [rise], …,[#pic] 사이의 단어 가중치를 재산정하였다. 즉 종래 구글의 사전 가중치가 아닌, 본 발명에 따른 새로운 재난 가중치를 산정하였다.
예를 들어, 표 8의 tweet 1과 tweet 2는 모두 참값이 모두 “인프라 및 산업활동 관련”인 문장이다.
이 문장들에서 [oil], [price], [rise]라는 단어는 “인프라 및 산업활동 관련”이라고 예측할 때 중요한 단어들이다. 왜냐하면 tweet 1에도 등장하고 tweet 2에도 등장하기 때문이다.
하지만, [news], [as], [breaking]이라는 단어는 “인프라 및 산업활동 관련”으로 예측할 때 도움이 되지 않는 단어들이다.
종래 구글 BERT의 사전가중치에서는 [oil]과 [news]가 같이 등장할 확률을 0.5으로 [oil]과 [rise]가 등장할 확률을 0.6으로 산정했다고 한다면, 본 발명은 주어진 트위터가 “인프라 및 산업활동 관련”으로 분류될 수 있도록 [oil]과 [news]가 같이 등장 등장할 확률을 0.2로 낮추고 [oil]과 [rise]가 등장할 확률을 0.7으로 재산정하게 되는 방식이다.
이하에서는, 클래스 분류부(200)의 확률 예측부(230)를 설명한다. 확률 예측부(230)는 결정된 하이퍼 파라미터로 학습되어 산출되는 재난 가중치를 통해 각 클래스에 속할 확률을 예측하여 클래스를 분류한다.
본 발명에 따른 확률 예측부(230)는 재난 가중치를 통해 각 메시지가 각 클래스에 해당될 확률을 softmax 함수를 이용하여 예측할 수 있다.
본 발명에 따른 클래스 분류부(200)는 각 메시지를 상기 확률 예측부(230)에서 각 클래스별로 산출된 확률 예측값이 가장 큰 클래스로 분류할 수 있다.
확률 예측부(230)는 softmax 함수를 이용하여, 본 발명에 따른 재난 가중치를 통해 Oil prices rise as refineries shut down #pic라는 트위터가 “사상자”, “대피, 구조”, “인프라 및 산업활동 관련”, “행방불명, 유랑, 고립”, “도움, 기부, 대비”, “기타 정보” 에 예측될 확률을 각각 구하게 된다.
일 실시예로서, Oil prices rise as refineries shut down #pic라는 트위터가 각 클래스에 예측될 확률이 표 9와 같이 나타날 수 있다.
해당 값 중 확률이 가장 높은 값이 해당 트위터의 예측값이 된다.
정리하면, 종래 구글 BERT모델은 단지 단어와 단어 사이의 가중치만을 선정하였으나, 본 발명은 구글 가중치와는 다른 새로운 재난 가중치를 산정하여, 해당 단어들의 조합들이 모였을 때 특정 클래스에 예측될 수 있도록 하였다.
한편, 본 발명은 새로운 재난 가중치를 검증하는 구성을 구비할 수 있다.
검증의 일 실시예로서, 학습데이터와 하이퍼 파라미터를 통해 얻은 단어와 단어 사이의 가중치가 새로운 데이터에도 높은 성능으로 작동하는지 검증하기 위해 2017년 Hurricane Harvey 상황 당시에 14:44부터 14:54까지 공유된 트위터 데이터를 사용하였다.
검증 데이터로 사용된 4,992개의 데이터는 시간대 별로 6개 클래스에 대해서 표 10과 같은 분포를 보인다.
검증 데이터에 대한 예시는 아래 표 11과 같다.
6개 클래스에 대해서 다양한 데이터 분포에 따른 실험에 대해 BERT 모델의 성능을 평가하기 위해서 7개의 실험을 진행하였다.
7개의 실험은 4,992개의 데이터에서 6개 클래스에 대해 데이터를 랜덤하게 추출하는 실험으로, 랜덤하게 추출하는 데이터의 수를 20, 30, 50, 100, 200, 500, 1000로 정하였다. "Dead, Injured"의 총 개수는 7 개이므로 "Dead, Injured"에서 5 개의 데이터를 랜덤으로 추출하였다. "Missing, Displaced, Trapped"의 총 개수는 19 이므로 15 개의 데이터를 랜덤으로 추출하였다.
랜덤으로 추출하는 데이터 수는 특정 클래스의 총 수를 초과하지 않는 랜덤 추출의 가장 높은 값으로 결정되었다.
예를 들어, "Found, Evacuated, Rescued"의 총 갯수는 167이므로 Random 200, Random 500 및 Random 1000에서 100의 데이터를 랜덤하게 추출하였다. 텍스트 분류의 성능을 평가하기 위해서 7 개의 테스트에 대한 precision, recall, F1 score를 계산하였다.
한 번의 랜덤 실험에 대해 평균 10 회의 실험을 진행하였다. 표 12에 랜덤 실험의 F1 score가 나타나 있다. 모든 실험에 대해 재난 피해 정보를 F1 score, 0.85이상으로 분류하였다.
다음으로, 본 발명에 따른 주제 군집부(300)를 설명한다. 주제 군집부(300)는 동일 클래스로 분류된 메시지 정보를 주제별로 군집할 수 있다.
주제 군집부(300)는 각 클래스로 분류된 메시지를 TF-IDF 벡터화를 통해 메시지와 단어의 행렬 및 각 메시지 간의 행렬을 구하여, 각 메시지 간의 코사인 유사도를 측정하여 주제별로 군집할 수 있다.
전술한 클래스 분류부(200)에서 BERT 모델을 통해 6개 클래스로 분류된 소셜미디어(트위터) 정보를 얻었다. 각 클래스에서 분류된 소셜미디어(트위터) 정보들을 주제 별로 군집하기 위해서, 본 발명은 TF-IDF(Term Frequency - Inverse Document Frequency) 벡터화(vactorization)를 통해 소셜미디어(트위터) 정보 간 코사인 유사도(cosine similarity)를 측정하였다.
클래스 분류부(200)에서 사전학습데이터와 하이퍼파라미티터를 통해 얻은 단어와 단어 사이의 가중치를 사용해서, 트위터 메시지를 인공지능 모델 BERT로 분류한 일 실시예는 표 13으로 나타낼 수 있다.
본 발명에 따른 주제 군집부(300)는 클래스로 분류된 트위터들을 주제 별로 군집화하는 단계이다. 표 13의 예시에서 같은 클래스로 분류된 4개 트위터 메시지(표 14)에 대해서 설명해보고자 한다.
먼저, 단어 행렬을 구한다. 단어 행렬은 트위터에서 등장한 단어 간의 TF-IDF 값을 도출하는 과정이다.
다음으로, 문서 행렬을 구한다. 앞에서 얻은 단어 행렬과 단어행렬의 전치행렬의 곱을 구하면 트위터와 트위터 사이의 코사인 유사도 값이 표 16과 같이 산출될 수 있다.
본 발명에서는 트위터와 트위터 사이의 코사인 유사도 값이 기 설정된 값(예로, 0.5) 이상이면 같은 주제를 나타내는 트위터 메시지로 분류할 수 있다. 문서 행렬 가중치를 보면 트위터 1과 트위터 2 사이의 코사인 유사도가 0.78이고, 트위터 3과 트위터 4가 코사인 유사도가 0.88로 같은 주제의식을 보인다.
아래 표 17에서, 트위터 1과 트위터 2는 Energy hub에 위협이 가해진 상황이라는 동일 주제에 관한 것이므로 같은 군집으로 이루어 질 수 있고, 트위터 3과 트위터 4는 유가(Oil price)가 올라간 상황이라는 동일 주제에 관한 것이므로 또한 같은 군집으로 이루어 질 수 있을 것입니다.
이하에서는, 본 발명에 따른 신뢰도 산출부(400)를 설명한다. 신뢰도 산출부(400)는 동일 주제 군집에 속하는 메시지 정보간의 신뢰도 점수를 산출한다.
신뢰도 산출부(400)는 네트워크 분석을 사용하며, 네트워크의 노드는 각 메시지이고, 네트워크의 엣지는 상기 주제 군집부(300)에서 산출되는 코사인 유사도가 기 설정된 값 이상일때 생기는 연결선이다.
신뢰도 산출부(400)는 각 노드에 연결된 엣지의 코사인 유사도 합이 최대인 메시지를 대표 메시지로 결정할 수 있다.
주제 군집부(300)를 통해, “Infrastructure, Industrial activity related”라는 동일 클래스에 분류된 정보는 주제 별로 다음 표 18과 같이 2개의 그룹으로 군집화될 수 있다.
본 발명에서, 트윗의 중심도는 네트워크 이론에서 연결 중심성을 의미하며, 트윗의 중심도를 신뢰도 점수로 정의한다.
네트워크의 중심도를 구하는 방법을 예시로 먼저 설명하고자 한다.
도 7과 같은 네트워크가 만들어졌다고 하면 tweet N+2의 중심도는 연결된 엣지의 코사인 유사도 값을 합한 값이 된다(0.5+0.78+0.6 = 1.88).
만약, 코사인 유사도가 기 설정된 값(예로, 0.5) 미만인 경우는 네트워크의 연결이 만들어지지 않는다. 따라서, 코사인 유사도가 0.5 이상인 집합만을 같은 군집으로 본다. 도 8의 경우, Tweet 1과 tweet2의 중심도는 0.78이 된다.
각 트위터에 대해서 같은 방식으로 중심도를 구하고 가장 중심도가 높은 순서대로 정보를 제공한다. 중심도는 신뢰도를 나타내는 지표기 때문에, 중심도가 가장 높은 정보가 가장 신뢰도 있는 정보이다.
본 발명은 신뢰도 산출부(400)에서 결정된 대표 메시지를 기 설정된 단말(30)로 송신하는 메시지 송신부(500)를 더 구비할 수 있다.
동일 주제에 속한 재난 상황 메시지 중에서 가장 신뢰할 수 있는 정보를 우선적으로 재난 관리 단말에게 제공할 수 있다. 재난 관리 단말은 재난관리 제어컴퓨터일수도 있고, 재난관리자의 휴대폰일 수도 있을 것이다.
한편, 본 발명은 재난정보 선별방법으로 구현될 수도 있다. 다만, 전술한 재난정보 선별시스템과 실질적으로 동일한 발명으로서 발명의 카테고리가 상이하다. 따라서, 공통되는 구성은 설명을 생략하고, 요지 위주로 설명하고자 한다.
도 2는 본 발명에 따른 클래스 분류부의 세부 구성도이다. 도 3은 본 발명에 따른 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별방법의 순서도이다.
본 발명은 연산기능을 가진 제어서버(10) 및 소셜미디어 상의 메시지 정보가 저장된 데이터베이스(20)가 네트워크로 연결되고, 제어서버가 상기 메시지 정보를 분석하는 재난정보 선별 방법으로서, 제어서버(10)는 제어서버(10)의 데이터 수집부(100)가 소셜미디어에서 메시지를 수집하는 S100 단계; 제어서버(10)의 클래스 분류부(200)가 수집된 메시지 정보를 학습하여, 메시지에 포함된 단어 간의 벡터값인 재난가중치를 산출하고, 산출된 재난 가중치를 이용하여 메시지를 기 설정된 클래스 별로 분류하는 S200 단계; 제어서버(10)의 주제 군집부(300)가 동일 클래스로 분류된 메시지 정보를 주제별로 군집하는 S300 단계; 및 제어서버(10)의 신뢰도 산출부(400)가 동일 주제 군집에 속하는 메시지 정보간의 신뢰도 점수를 산출하는 S400 단계를 수행하는 것을 특징으로 하는 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별방법이다(도 3 참조).
도 4에 도시된 바와 같이, 본 발명에 따른 S200 단계는 상기 클래스 분류부(200)가 인공지능 BERT 모델을 이용하며 수행되며, 학습데이터 선정부(210)가 각 클래스의 학습데이터로 사용될 메시지 정보를 선정하는 S210 단계; 하이퍼 파라미터 결정부(220)가 BERT 모델의 학습방식을 결정하는 하이퍼 파라미터를 결정하는 S220 단계; 및 확률 예측부(230)가 상기 하이퍼 파라미터로 학습되어 산출된 재난 가중치를 통해 각 클래스에 속할 확률을 예측하여 클래스를 분류하는 S230 단계를 포함한다.
한편, 본 발명은 컴퓨터프로그램으로 구현될 수도 있다. 구체적으로 본 발명은 하드웨어와 결합되어, 본 발명에 따른 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별방법을 컴퓨터에 의해 실행시키기 위하여 컴퓨터가 판독 가능한 기록매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다.
본 발명의 실시예에 따른 방법들은 다양한 컴퓨터수단을 통하여 판독 가능한 프로그램 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CDROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
본 명세서에서 설명되는 실시예와 첨부된 도면은 본 발명에 포함되는 기술적 사상의 일부를 예시적으로 설명하는 것에 불과하다. 따라서, 본 명세서에 개시된 실시예들은 본 발명의 기술적 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이므로, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아님은 자명하다. 본 발명의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시 예는 모두 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
10 : 제어서버 20 : 데이터베이스
30 : 단말 100 : 데이터 수집부
200 : 클래스 분류부 210 : 학습데이터 선정부
220 : 하이퍼 파라미터 결정부 230 : 확률 예측부
300 : 주제 군집부 400 : 신뢰도 산출부
500 : 메시지 송신부
30 : 단말 100 : 데이터 수집부
200 : 클래스 분류부 210 : 학습데이터 선정부
220 : 하이퍼 파라미터 결정부 230 : 확률 예측부
300 : 주제 군집부 400 : 신뢰도 산출부
500 : 메시지 송신부
Claims (16)
- 연산기능을 가진 제어서버 및 소셜미디어 상의 메시지 정보가 저장된 데이터베이스가 네트워크로 연결되고, 제어서버가 상기 메시지 정보를 분석하는 재난정보 선별시스템으로서, 제어서버는
소셜미디어에서 메시지를 수집하는 데이터 수집부; 수집된 메시지 정보를 학습하여, 메시지에 포함된 단어 간의 벡터값인 재난가중치를 산출하고, 산출된 재난 가중치를 이용하여 메시지를 기 설정된 클래스 별로 분류하는 클래스 분류부; 동일 클래스로 분류된 메시지 정보를 주제별로 군집하는 주제 군집부; 및 동일 주제 군집에 속하는 메시지 정보간의 신뢰도 점수를 산출하는 신뢰도 산출부를 포함하며,
상기 클래스 분류부는 인공지능 BERT 모델을 이용하며, 각 클래스의 학습데이터로 사용될 메시지 정보를 선정하는 학습데이터 선정부; BERT 모델의 학습방식을 결정하는 하이퍼 파라미터를 결정하는 하이퍼 파라미터 결정부; 및 상기 하이퍼 파라미터로 학습되어 산출된 재난 가중치를 통해 각 클래스에 속할 확률을 예측하여 클래스를 분류하는 확률 예측부를 포함하며,
상기 학습데이터 선정부에서 각 클래스에 속하는 메시지의 개수는 기 설정된 값을 초과하고, 포함된 메시지의 개수가 최대인 클래스의 메시지 개수는 포함된 메시지의 개수가 최소인 클래스의 메시지 개수의 기 설정된 배수값을 초과하지 않는 것을 특징으로 하는 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별시스템. - 삭제
- 청구항 1에 있어서,
상기 클래스 분류부에서 분류되는 클래스는 사상자 클래스, 대피 및 구조 클래스, 인프라 및 산업활동 관련 클래스, 행방불명ㆍ유랑 및 고립 클래스, 도움ㆍ기부 및 대비 클래스, 및 기타 정보 클래스로 분류되는 것을 특징으로 하는 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별시스템 - 삭제
- 청구항 1에 있어서,
상기 하이퍼 파라미터 결정부는
에폭(epoch)과 학습률(learning rate)을 기 설정된 값으로 고정하고,
시퀀스 길이(sequence length)와 배치 사이즈(batch size)의 값을 각각 변동시키면서, 검정데이터의 정확도가 가장 높은 값을 산출하는 제1 단계를 구비하는 것을 특징으로 하는 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별시스템. - 청구항 5에 있어서,
상기 하이퍼 파라미터 결정부는 제1 단계 후에,
상기 산출된 시퀀스 길이(sequence length)와 배치 사이즈(batch size) 값으로 고정하고,
학습률(learning rate)은 기 설정된 값으로 고정하고, 에폭(epoch)을 변동시키면서, 검정데이터의 정확도가 가장 높은 값을 산출하는 제2 단계를 구비하는 것을 특징으로 하는 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별시스템. - 청구항 6에 있어서,
상기 하이퍼 파라미터 결정부는
시퀀스 길이(sequence length)는 128, 배치 사이즈(batch size)는 32, 에폭(epoch)은 4 및 학습률(learning rate)은 1e-4로 결정하는 것을 특징으로 하는 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별시스템. - 청구항 1에 있어서,
상기 확률 예측부는
상기 재난 가중치를 통해 각 메시지가 각 클래스에 해당될 확률을 softmax 함수를 이용하여 예측하는 것을 특징으로 하는 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별시스템. - 청구항 8에 있어서,
상기 클래스 분류부는 각 메시지를 상기 확률 예측부에서 각 클래스별로 산출된 확률 예측값이 가장 큰 클래스로 분류하는 것을 특징으로 하는 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별시스템. - 청구항 1에 있어서,
상기 주제 군집부는
각 클래스로 분류된 메시지를 TF-IDF 벡터화를 통해 메시지와 단어의 행렬 및 각 메시지 간의 행렬을 구하여, 각 메시지 간의 코사인 유사도를 측정하여 주제별로 군집하는 것을 특징으로 하는 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별시스템. - 청구항 10에 있어서,
상기 신뢰도 산출부는 네트워크 분석을 사용하며,
네트워크의 노드는 각 메시지이고,
네트워크의 엣지는 상기 주제 군집부에서 산출되는 코사인 유사도가 기 설정된 값 이상일때 생기는 연결선인 것을 특징으로 하는 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별시스템. - 청구항 11에 있어서,
상기 신뢰도 산출부는
각 노드에 연결된 엣지의 코사인 유사도 합이 최대인 메시지를 대표 메시지로 결정하는 것을 특징으로 하는 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별시스템. - 청구항 12에 있어서,
상기 신뢰도 산출부에서 결정된 대표 메시지를 기 설정된 단말로 송신하는 메시지 송신부를 더 구비하는 것을 특징으로 하는 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별시스템. - 연산기능을 가진 제어서버 및 소셜미디어 상의 메시지 정보가 저장된 데이터베이스가 네트워크로 연결되고, 제어서버가 상기 메시지 정보를 분석하는 재난정보 선별 방법으로서, 제어서버는
제어서버의 데이터 수집부가 소셜미디어에서 메시지를 수집하는 S100 단계; 제어서버의 클래스 분류부가 수집된 메시지 정보를 학습하여, 메시지에 포함된 단어 간의 벡터값인 재난가중치를 산출하고, 산출된 재난 가중치를 이용하여 메시지를 기 설정된 클래스 별로 분류하는 S200 단계; 제어서버의 주제 군집부가 동일 클래스로 분류된 메시지 정보를 주제별로 군집하는 S300 단계; 및 제어서버의 신뢰도 산출부가 동일 주제 군집에 속하는 메시지 정보간의 신뢰도 점수를 산출하는 S400 단계를 수행하며,
S200 단계는 상기 클래스 분류부가 인공지능 BERT 모델을 이용하며 수행되며, 학습데이터 선정부가 각 클래스의 학습데이터로 사용될 메시지 정보를 선정하는 S210 단계; 하이퍼 파라미터 결정부가 BERT 모델의 학습방식을 결정하는 하이퍼 파라미터를 결정하는 S220 단계; 및 확률 예측부가 상기 하이퍼 파라미터로 학습되어 산출된 재난 가중치를 통해 각 클래스에 속할 확률을 예측하여 클래스를 분류하는 S230 단계를 포함하며,
상기 학습데이터 선정부에서 각 클래스에 속하는 메시지의 개수는 기 설정된 값을 초과하고, 포함된 메시지의 개수가 최대인 클래스의 메시지 개수는 포함된 메시지의 개수가 최소인 클래스의 메시지 개수의 기 설정된 배수값을 초과하지 않는 것을 특징으로 하는 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별방법. - 삭제
- 하드웨어와 결합되어, 청구항 14에 따른 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별방법을 컴퓨터에 의해 실행시키기 위하여 컴퓨터가 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210007858A KR102387665B1 (ko) | 2021-01-20 | 2021-01-20 | 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별시스템 및 선별방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210007858A KR102387665B1 (ko) | 2021-01-20 | 2021-01-20 | 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별시스템 및 선별방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102387665B1 true KR102387665B1 (ko) | 2022-04-15 |
Family
ID=81212271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210007858A KR102387665B1 (ko) | 2021-01-20 | 2021-01-20 | 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별시스템 및 선별방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102387665B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102617316B1 (ko) * | 2023-09-07 | 2023-12-27 | (주)바이브컴퍼니 | 딥러닝을 이용한 이벤트 기반의 재난 발생 탐지방법 및 시스템 |
KR102623120B1 (ko) * | 2022-12-28 | 2024-01-10 | 대한민국 | 소셜 미디어 대상 재난 안전 관심 주제 탐지 시스템 및 방법 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150046793A (ko) * | 2013-10-21 | 2015-05-04 | 대한민국(국민안전처 국립재난안전연구원장) | 소셜미디어를 이용한 재난 감지 시스템 |
KR101685334B1 (ko) | 2015-05-12 | 2016-12-12 | 대한민국 | 키워드 관련도 기반의 재난 이슈별 재난 탐지 기술 및 이를 이용한 재난대처 방법 |
KR20170034206A (ko) * | 2015-09-18 | 2017-03-28 | 아주대학교산학협력단 | 크로스 미디어 분석에 기반한 소셜 미디어 텍스트의 주제 카테고리 자동 분류 방법 및 그 장치 |
KR101732819B1 (ko) * | 2015-12-07 | 2017-05-08 | 이동규 | 빅데이터 기반 재난 예측 및 감지 플랫폼 시스템과 그 방법 |
KR102124935B1 (ko) * | 2019-12-10 | 2020-06-22 | 한국건설기술연구원 | 크라우드 소싱을 활용한 재난 모니터링 시스템, 재난 모니터링 방법 및 이를 수행하기 위한 컴퓨터 프로그램 |
KR102203355B1 (ko) * | 2020-01-21 | 2021-01-18 | 김종호 | 상품 체험에 따른 체험정보 추출 시스템 및 방법 |
-
2021
- 2021-01-20 KR KR1020210007858A patent/KR102387665B1/ko active IP Right Grant
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150046793A (ko) * | 2013-10-21 | 2015-05-04 | 대한민국(국민안전처 국립재난안전연구원장) | 소셜미디어를 이용한 재난 감지 시스템 |
KR101685334B1 (ko) | 2015-05-12 | 2016-12-12 | 대한민국 | 키워드 관련도 기반의 재난 이슈별 재난 탐지 기술 및 이를 이용한 재난대처 방법 |
KR20170034206A (ko) * | 2015-09-18 | 2017-03-28 | 아주대학교산학협력단 | 크로스 미디어 분석에 기반한 소셜 미디어 텍스트의 주제 카테고리 자동 분류 방법 및 그 장치 |
KR101732819B1 (ko) * | 2015-12-07 | 2017-05-08 | 이동규 | 빅데이터 기반 재난 예측 및 감지 플랫폼 시스템과 그 방법 |
KR102124935B1 (ko) * | 2019-12-10 | 2020-06-22 | 한국건설기술연구원 | 크라우드 소싱을 활용한 재난 모니터링 시스템, 재난 모니터링 방법 및 이를 수행하기 위한 컴퓨터 프로그램 |
KR102203355B1 (ko) * | 2020-01-21 | 2021-01-18 | 김종호 | 상품 체험에 따른 체험정보 추출 시스템 및 방법 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102623120B1 (ko) * | 2022-12-28 | 2024-01-10 | 대한민국 | 소셜 미디어 대상 재난 안전 관심 주제 탐지 시스템 및 방법 |
KR102617316B1 (ko) * | 2023-09-07 | 2023-12-27 | (주)바이브컴퍼니 | 딥러닝을 이용한 이벤트 기반의 재난 발생 탐지방법 및 시스템 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kaur et al. | A proposed sentiment analysis deep learning algorithm for analyzing COVID-19 tweets | |
CN111444709B (zh) | 文本分类方法、装置、存储介质及设备 | |
Snyder et al. | Interactive learning for identifying relevant tweets to support real-time situational awareness | |
Santhoshkumar et al. | Earlier detection of rumors in online social networks using certainty-factor-based convolutional neural networks | |
Dsouza et al. | Sentimental analysis of student feedback using machine learning techniques | |
Chanda | Efficacy of BERT embeddings on predicting disaster from twitter data | |
KR102387665B1 (ko) | 재난 가중치를 이용하여 소셜미디어의 재난 메시지 정보를 분석하는 재난정보 선별시스템 및 선별방법 | |
Naaz et al. | Sequence classification of tweets with transfer learning via bert in the field of disaster management | |
Narayanaswamy | Exploiting BERT and RoBERTa to improve performance for aspect based sentiment analysis | |
Samonte et al. | Sentence-level sarcasm detection in English and Filipino tweets | |
Nguyen et al. | An ensemble of shallow and deep learning algorithms for Vietnamese sentiment analysis | |
Jayakody et al. | Sentiment analysis on product reviews on twitter using Machine Learning Approaches | |
Dasari et al. | A stacking ensemble approach for identification of informative tweets on twitter data | |
US20230281728A1 (en) | Social Media Content Filtering For Emergency Management | |
El-Alfy et al. | Empirical study on imbalanced learning of Arabic sentiment polarity with neural word embedding | |
Dhanalakshmi et al. | Sentiment analysis using VADER and logistic regression techniques | |
Asinthara et al. | Classification of disaster tweets using machine learning and deep learning techniques | |
Yenkikar et al. | Sentimlbench: Benchmark evaluation of machine learning algorithms for sentiment analysis | |
Maceda et al. | Categorization of earthquake-related tweets using machine learning approaches | |
Torres, Carmen Vaca | Cross-lingual perspectives about crisis-related conversations on Twitter | |
Yelmen et al. | A novel hybrid approach for sentiment classification of Turkish tweets for GSM operators | |
Ullah et al. | Unveiling the Power of Deep Learning: A Comparative Study of LSTM, BERT, and GRU for Disaster Tweet Classification | |
Susmitha et al. | Sentimental Analysis on Twitter Data using Supervised Algorithms | |
KR102155692B1 (ko) | 소셜 네트워크 서비스 메시지의 감정 분석을 위한 POS(part of speech) 특징기반의 감정 분석 방법 및 이를 수행하는 감정 분석 장치 | |
Kumar et al. | ‘A novel approach for detection of fake news using long short term memory (LSTM) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |