KR102001375B1 - 금융뉴스 스팸구별 장치 및 그 방법 - Google Patents
금융뉴스 스팸구별 장치 및 그 방법 Download PDFInfo
- Publication number
- KR102001375B1 KR102001375B1 KR1020190018965A KR20190018965A KR102001375B1 KR 102001375 B1 KR102001375 B1 KR 102001375B1 KR 1020190018965 A KR1020190018965 A KR 1020190018965A KR 20190018965 A KR20190018965 A KR 20190018965A KR 102001375 B1 KR102001375 B1 KR 102001375B1
- Authority
- KR
- South Korea
- Prior art keywords
- spam
- unit
- document
- sentence
- news
- Prior art date
Links
Images
Classifications
-
- G06F17/2705—
-
- G06F17/2755—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Transfer Between Computers (AREA)
Abstract
본 발명은 광고성 문구를 등록하고 해당 문구를 검색하여 구분하는 방식이 아닌, 광고성 스팸들을 학습한 인공지능 시스템이 실시간으로 수신되는 뉴스가 정상적인 기사에 광고가 포함된 것인지, 정상적인 기사는 없는 온전한 광고성 스팸인지 여부를 실시간으로 구분하는 금융뉴스 스팸 구별 장치 및 그 방법에 관한 것이다.본 발명에 따른 금융뉴스 스팸 구별 장치는 언론사들로부터 실시간으로 수신 또는 발생되는 뉴스 데이터를 수집하는 빅데이터 수집부;상기 빅데이터 수집부에서 수집된 뉴스 데이터의 HTML 구조를 분석하여 필요한 정보만을 파싱하는 텍스트 전처리부;상기 파싱된 뉴스 데이터의 원본 텍스트에 대하여 형태소 분석을 수행하여 불용어를 제거하고, 문서를 문장 수준으로 분할하는 자연어 처리부;상기 자연어 처리부에서 형태소 분석된 문서를 문장 단위로 딥러닝 예측모델 및 규칙을 활용하여 준정상영역과 준광고영역을 분할하고, 준정상영역에 있는 문장의 스팸여부를 파악하여 스팸성을 분류하는 문장 단위 분석부; 및문서 단위로 딥러닝 예측모델을 활용하여 상기 문장 단위 분석부에서 분류된 스팸성을 가지는 문장을 다시 문서기반 스팸여부 파악을 통해 문서전체 내용에 대하여 스팸성을 분류하는 문서 단위 분석부를 포함할 수 있다.
Description
본 발명은 수십여개의 국내 언론사들에게서 실시간으로 수신되는 일 평균 1만여 개의 기사 중 뉴스를 가장한 광고성 스팸 기사를 인공지능 기술을 이용하여 실시간으로 구별해주는 금융뉴스 스팸 구별 장치 및 그 방법에 관한 것이다.
모든 증권사는 각 사의 온라인 트레이딩 매체를 통해 고객에게 실시간으로 뉴스를 제공한다. 그런데 그 뉴스 중 상당한 양의 뉴스가 실제 뉴스가 아닌 광고성 스팸이다.
특히, 시장에서 개인투자자들에게 관심이 많은 코스닥 종목들의 경우 해당 기업의 기사가 매일 매일 만들어질 수 없기 때문에 당일 수신되는 모든 뉴스가 정상 기사내용은 없는 100% 광고성 스팸뉴스인 경우도 많다.
따라서, 이렇게 누적된 스팸성 광고 뉴스로 인해서 정상적인 뉴스의 양보다 스팸성 광고가 많아 정상적인 기사의 뉴스 히스토리를 찾기 어려운 실정이다.
따라서, 본 발명은 언론사로부터 실시간으로 뉴스가 수신되면 정상 기사내용이 없는 스팸성 광고 뉴스인지 여부를 구분하여 정상기사가 포함된 뉴스이면 온라인 매체에 제공하고, 정상기사가 아닌 광고성 스팸이면 온라인 매체에서 제공하지 않도록 하기 위한 것이다.
현재 광고성 스팸뉴스를 구분하는 방법으로 광고성 문구들을 이용한 검색 방식을 이용하고 있다. 그러나, 광고성 문구들을 이용한 검색방식으로 광고성 스팸을 구분하려다 보니 광고성 문구들이 정상기사에도 모두 포함되어 있어, 이러한 검색방식으로는 광고성 스팸뉴스를 구분할 수 없다. 이러한 문제점을 해결하기 위해, 실시간으로 수신되는 뉴스의 제목이 아닌 뉴스 내용을 실시간으로 분석하는 검색방식을 이용하게 되면, 분석해야 하는 내용이 너무 커지게 되어 그 구분이 불가능하게 된다.
특히, 스팸성 광고의 특징은 광고성 문장들(주식담보대출, 종목추천 등)이 모든 뉴스, 특히 정상 뉴스의 머리말, 꼬리말, 기사 중간 중간에 포함되어 있으며,뉴스 하나에서 차지하는 광고 문장의 비중이 실제 기사의 내용 비중보다 높은 경우가 많다.
이처럼, 오늘날 지속적으로 광고성 뉴스의 형태가 발전함에 따라서 극소수의 단어, 문장만으로 스팸뉴스가 생성되고 있다. 특히, 정상 문장과 스팸 문장을 동시에 일반 뉴스처럼 보이도록 교묘하게 둔감시킴으로써, 스팸 구분이 점점 어려워지고 있는 실정이다.
따라서, 정상 기사는 없는 스팸성 광고인지 스팸성 광고가 포함된 정상기사인지를 기존 검색기술로 구분하기는 더더욱 불가능한 문제점이 있다.
본 발명의 목적은 광고성 문구를 등록하고 해당 문구를 검색하여 구분하는 방식이 아닌, 광고성 스팸들을 학습한 인공지능 시스템이 실시간으로 수신되는 뉴스가 정상적인 기사에 광고가 포함된 것인지, 정상적인 기사는 없는 온전한 광고성 스팸인지 여부를 실시간으로 구분하는 금융뉴스 스팸 구별 장치 및 그 방법을 제공하는 것이다.
또한 본 발명의 목적은 단순한 광고성 스팸들의 나열이 아닌 정상 기사처럼 작성된 스팸 광고까지도 인공지능 시스템이 구분할 수 있는 금융뉴스 스팸 구별 장치 및 그 방법을 제공하는 것이다.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
본 발명에 따른금융뉴스 스팸 구별 장치는 언론사들로부터 실시간으로 수신 또는 발생되는 뉴스 데이터를 수집하는 빅데이터 수집부;상기 빅데이터 수집부에서 수집된 뉴스 데이터의 HTML 구조를 분석하여 필요한 정보만을 파싱하는 텍스트 전처리부;상기 파싱된 뉴스 데이터의 원본 텍스트에 대하여 형태소 분석을 수행하여 불용어를 제거하고, 문서를 문장 수준으로 분할하는 자연어 처리부;상기 자연어 처리부에서 형태소 분석된 문서를 문장 단위로 딥러닝(Character Level Convolutional Neural Network: CL-CNN) 예측모델 및 규칙을 활용하여 준정상영역과 준광고영역을 분할하고, 준정상영역에 있는 문장의 스팸여부를 파악하여 스팸성을 분류하는 문장 단위 분석부; 및문서 단위로 딥러닝 예측모델을 활용하여 상기 문장 단위 분석부에서 분류된 스팸성을 가지는 문장을 다시 문서기반 스팸여부 파악을 통해 문서전체 내용에 대하여 스팸성을 분류하는 문서 단위 분석부를 포함할 수 있다.
또한, 상기 문장 단위 분석부는형태소 분석된 문서를 문장 단위로 딥러닝 예측모델을 활용하여 스팸여부를 파악하는 제1 필터부와,미리 정의된 규칙을 이용하여 문서에서 스팸 문자의 위치, 스팸 패턴 등을 활용하여 규칙기반으로 스팸여부를 파악하는 규칙 필터부를 포함할 수 있다.
또한, 상기 문장 단위의 딥러닝은 제1 휴먼 티칭(Human Teaching)과 자동화 티칭(Automatic Teaching) 방식을 병합하여 데이터를 셔플링(suffling)을 수행하는 것으로,상기 제1 휴먼 티칭(Human Teaching)은 문장의 스팸여부를 레이블링(labeled data)하여 학습데이터로 만들어줌으로써 지도학습을 유도하는 방법이다.
또한, 상기 문서 단위 분석부는 문장 단위 분석부에서 분류된 문장을 문서 단위로 딥러닝 예측모델을 활용하여 스팸여부를 파악하는 제2 필터부를 포함할 수 있다.
또한, 상기 문서 단위의 딥러닝은 제2 휴먼 티칭(Human Teaching) 방식을 수행하는 것으로,상기 제2 휴먼 티칭(Human Teaching)은 문서의 의미가 스팸여부를 레이블링(labeled data)하여 학습데이터로 만들어줌으로써 지도학습을 유도하는 방법이다.
또한, 상기 문서 단위 분석부는상기 문장 단위 분석부에서 계산된 문장기반 스팸확률과 상기 문서 단위 분석부에서 계산된 문서기반 스팸확률을 결합하여, 이항 신호 점수(Binomial Signum Score(BSS))를 계산하고, 상기 계산된 BSS를 이용하여 수신된 뉴스 원본 데이터에 스팸태깅 데이터를 생성하여 뉴스 수신 메인 서버로 전송할 수 있다.
본 발명에 따른 금융뉴스 스팸 구별 방법은 (A) 빅데이터 수집부를 통해 복수의 언론사들로부터 실시간으로 수신되거나 발생되는 뉴스 데이터를 수집하는 단계;(B) 텍스트 전처리부를 통해 상기 수집된 뉴스 데이터의 HTML 구조를 분석하여 HTML 코드가 제거된 텍스트 대상에서 필요한 정보만을 파싱하는 단계;(C) 자연어 처리부를 통해 상기 파싱된 뉴스 데이터의 원본 텍스트에 대하여 형태소 분석을 수행하여 불용어를 제거하고, 문서를 문장 수준으로 분할하는 단계;(D) 문장 단위 분석부를 통해 상기 형태소 분석된 문서를 문장 단위로 딥러닝(Character Level Convolutional Neural Network: CL-CNN) 예측모델 및 규칙을 활용하여 준정상영역과 준광고영역을 분할하고, 준정상영역에 있는 문장의 스팸여부를 파악하여 스팸성을 분류하는 단계; 및 (E) 문서 단위 분석부를 통해 문서 단위로 딥러닝 예측모델을 활용하여 상기 문장 단위 분석부에서 분류된 스팸성을 가지는 문장을 다시 문서기반 스팸여부 파악을 통해 문서전체 내용에 대하여 스팸성을 분류하는 단계를 포함할 수 있다.
또한, 상기 (D) 단계는 제1 휴먼 티칭(Human Teaching)과 자동화 티칭(Automatic Teaching) 방식을 병합하여 데이터를 셔플링(suffling)을수행하며,상기 제1 휴먼 티칭(Human Teaching)은 미리 스팸문장을 학습데이터로 만들어 지도학습 유도하는 방법일 수 있다.
또한, 상기 (E) 단계는 제2 휴먼 티칭(Human Teaching) 방식을 수행하는 것으로,상기 제2 휴먼 티칭(Human Teaching)은 문서의 의미가 스팸을 나타내는 뉴스 및 정상 뉴스를 함께 학습하는 방법일 수 있다.
또한, 상기 문장 단위 분석부에서 계산된 문장기반 스팸확률과 상기 문서 단위 분석부(525)에서 계산된 문서기반 스팸확률을 결합하여, 이항 신호 점수(Binomial Signum Score(BSS))를 계산하는 단계와,상기 계산된 BSS를 이용하여 수신된 뉴스 원본 데이터에 스팸태깅 데이터를 생성하여 뉴스 수신 메인 서버로 전송하는 단계를 더 포함할 수 있다.
본 발명에 따는 금융뉴스 스팸 구별 장치 및 그 방법은광고성 스팸들을 학습한 인공지능 시스템이 실시간으로 수신되는 뉴스가 정상적인 기사에 광고가 포함된 것인지, 정상적인 기사는 없는 온전한 광고성 스팸인지 여부를 효과적으로 구분해 낼 수 있는 효과가 있다.
또한, 본 발명의 목적은 정상 문장과 스팸 문장을 동시에 일반 뉴스처럼 보이도록 교묘하게 둔감시켜, 단순한 광고성 스팸들의 나열이 아닌 정상 기사처럼 작성된 스팸 광고까지도 스팸 기사인지 여부를 판단할 수 있도록 하는 효과가 있다.
상술한 효과와 더불어 본 발명의 구체적인 효과는 이하 발명을 실시하기 위한 구체적인 사항을 설명하면서 함께 기술한다.
도 1은 본 발명의 실시예에 따른 금융뉴스 서비스를 제공하는 전체 시스템을 나타낸 구성도이다.
도 2는 도 1에서 금융뉴스 스팸 구별부의 구성을 상세히 나타낸 블록도이다.
도 3은 도 2에서 문장 단위 분석부의 구성을 상세히 나타낸 블록도이다.
도 4는 도 2에서 문서 단위 분석부의 구성을 상세히 나타낸 블록도이다.
도 5는 본 발명의 실시예에 따른 금융뉴스 스팸 구별 방법을 설명하기 위한 흐름도이다.
도 2는 도 1에서 금융뉴스 스팸 구별부의 구성을 상세히 나타낸 블록도이다.
도 3은 도 2에서 문장 단위 분석부의 구성을 상세히 나타낸 블록도이다.
도 4는 도 2에서 문서 단위 분석부의 구성을 상세히 나타낸 블록도이다.
도 5는 본 발명의 실시예에 따른 금융뉴스 스팸 구별 방법을 설명하기 위한 흐름도이다.
전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다. 도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용된다.
이하에서어떤 구성요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 상기 구성요소들은 서로 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성요소 사이에 다른 구성요소가 "개재"되거나, 각 구성요소가 다른 구성요소를 통해 "연결", "결합" 또는 "접속"될 수도 있는 것으로 이해되어야 할 것이다.
이하에서는, 본 발명의 몇몇 실시예에 따른 금융뉴스 스팸 구별 장치 및 그 방법을 설명하도록 한다.
도 1은 본 발명의 실시예에 따른 금융뉴스 서비스를 제공하는 전체 시스템을 나타낸 구성도이다.
도 1에서 도시하고 있는 것과 같이, 전체 시스템은 시황정보 및 뉴스정보를 제공하는 복수의 시황제공 업체 및 뉴스제공 업체를 포함하는 복수개의 언론사들(100)과, 언론사들(100)로부터 실시간으로 수신되는 기사를 수신하고, 이를 인터넷 상의 IT 서버(600)를 통해 고객에게 실시간으로 뉴스를 제공하는 뉴스 수신 메인 서버(200)와, 언론사들(100)로부터 실시간 수신되는 기사를 수신하여 빅데이터화하는 빅데이터 서버(300)를 포함한다. 이때, 빅데이터 서버(300)는 금융뉴스 스팸 구별장치(520)를 통해 미리 저장된 스팸 학습 자료(510)를 이용한 빅데이터를 분석하여 수신된 기사 중 뉴스를 가장한 광고성 스팸 기사를 인공지능 기능을 이용하여 스팸뉴스 필터링을 수행한다. 그리고 빅데이터 서버(300)는 스팸뉴스 필터링을 통해 실시간으로 구별된 스팸태깅 데이터를 뉴스 수신 메인 서버(200)로 제공하는 빅데이터 서버(300)를 포함한다.
도 2는도 1에서 금융뉴스 스팸 구별장치의 구성을 상세히 나타낸 블록도이다.
도 2에서 도시하고 있는 것과 같이, 금융뉴스 스팸 구별장치(520)는 빅데이터 수집부(521), 텍스트 전처리부(522), 자연어 처리부(523), 문장 단위 분석부(524), 문서 단위 분석부(525)를 포함한다.
상기금융뉴스 스팸 구별장치(520)는 뉴스의 데이터마이닝을 통한 분석을 수행하기 위한 소프트웨어(애플리케이션)가 설치되어 실행될 수 있으며, 빅데이터 수집부(521), 텍스트 전처리부(522), 자연어 처리부(523), 문장 단위 분석부(524), 문서 단위 분석부(525)의 구성은 상기 금융뉴스 스팸 구별장치(520)에서 실행되는 상기 뉴스의 데이터마이닝을 통한분석을 수행하기 위한 소프트웨어에 의해 제어될 수 있다.
상기금융뉴스 스팸 구별장치(520)는 별도의 단말이거나 또는 단말의 일부 모듈일 수 있다. 또한, 빅데이터 수집부(521), 텍스트 전처리부(522), 자연어 처리부(523), 문장 단위 분석부(524), 문서 단위 분석부(525)의 구성은 하나의 통합 모듈로 형성되거나, 둘 이상의 모듈로 이루어 질 수 있다. 그러나, 이와 반대로 각 구성은 별도의 모듈로 이루어질 수도 있다.
상기금융뉴스 스팸 구별장치(520)는 이동성을 갖거나 고정될 수 있다. 상기 금융뉴스 스팸 구별장치(520)는 서버(server) 또는 엔진(engine) 형태일수 있으며, 디바이스(device), 기구(apparatus), 단말(terminal), UE(user equipment), MS(mobile station),무선기기(wireless device), 휴대기기(handheld device) 등 다른 용어로 불릴 수 있다.
상기 금융뉴스 스팸 구별장치(520)는 운영체제(Operation System; OS), 즉 시스템을 기반으로 다양한 소프트웨어를 실행하거나 제작할 수 있다. 상기 운영체제는 소프트웨어가 장치의 하드웨어를 사용할 수 있도록 하기 위한 시스템 프로그램으로서, 안드로이드 OS, iOS, 윈도우 모바일 OS, 바다 OS, 심비안 OS, 블랙베리 OS 등 모바일 컴퓨터 운영체제 및윈도우 계열, 리눅스 계열, 유닉스 계열, MAC, AIX, HP-UX 등 컴퓨터 운영체제를 모두 포함할 수 있다.
상기 빅데이터 수집부(521)는 언론사들(100)로부터 실시간으로 수신되는 뉴스 데이터를 수집한다. 빅데이터 수집부(521)는웹 페이지를 방문하여 주기적으로 또는 특정 기간의 뉴스 데이터를 수집한다. 또는, 빅데이터 수집부(521)는 특정 기업별에 관한 뉴스를 수집할 수 있으며, 뉴스는 방송 뉴스, 중앙일간지, 지역신문, 주요 언론사 및 온라인 매체 등을 소스로 할 수 있다.예를 들어, 사용자가 지정한 여러 언론사들로부터 뉴스 데이터를 수집할 수 있고, URL, page 번호 등과 같은 정보를 이용하여 해당 웹 페이지에 지속적으로 방문하여 데이터를 수집할 수 있다.
상기 텍스트 전처리부(522)는빅데이터 수집부(521)에서 수집된 뉴스 데이터의 HTML 구조를 분석하여 필요한 정보만을 파싱한다. 예를 들어, HTML 구조의 공통요소 부분은 자동으로 탐지하고, class, id 등의 속성 태그를 이용하여 DOM(DocumentObject Model) 트리(Tree) 내에서 해당 노드가 어떠한 의미를 지니는지를 자동으로 추론하여 실제 수집하고자 하는 내용을 자동으로 수집한다. 즉, 빅데이터 분석 환경에서는 보다 다양한 종류의 소스(Source)로부터 데이터를 수집 및 분석해야 하므로, 웹 크롤링(WebCrawling) 및 HTML 파싱(Parsing) 기술에 대한 필요성이 높아지고 있다.그리고 상기 텍스트 전처리부(522)에 의해 전처리된 정보는 전처리 데이터베이스에 저장될 수 있다.
그리고 상기 자연어 처리부(523)는 텍스트 전처리부(522)에서 파싱된 뉴스 데이터의 원본 텍스트에 대하여 형태소 정보를 분석한다. 이때, 형태소 정보 분석은 상기 파싱된 뉴스 데이터의 원본 텍스트로부터 의미를 갖는 최소 단어를 추출하여단어별 빈도 목록을 구축한다. 이는 수집하여 필터링한 뉴스 콘텐트를 자연어 처리 기반으로 의미관계를 분석하고 감성분석을 통하여 구조화 정보로 생성하기 위함이다.
상기 자연어 처리부(523)는 API 및 멀티쓰레드 형태소 분석 모듈을 이용하여 형태소 분석을 수행하여, 불용어(조사, 어미, 부호 등)를 제거하고, 문서를 문장 수준으로 분할할 수 있다. 이때, 상기 자연어 처리부(523)는 API 및 멀티쓰레드 형태소 분석 모듈과 통신을 하는데, 이때 통신하는 패킷은 스팸학습 자료(510)에 정의된 클래스를 이용하며 이 클래스는 크롤링된 페이지의 정보를 알 수 있는 인식자와 같은 메타데이터및 뉴스 데이터에 대한 정보를 포함할 수 있다. 스팸학습 자료(510)는 분석의 품질 향상을 위해 별도로 약 10만 단어의 사전(금융, 스팸 등)을 구축하고, 일별 업데이터를 통해 최신의 워드 임베딩(word embedding)를 유지한다.
워드임베딩이란, 단어간의 의미 연관성을 거리 단위로 표현한 것으로, 단어 벡터와 문장, 문서의 내적을 최종 학습벡터로 표현한다. 그리고 형태소(morpheme)란, 의미의 기능을 부여하는, 언어의 형태론적 수준에서의 최소단위로 정의된다. 형태소가 다른 형태소와의 구체적인 결합으로 실현되었을 때는 이형태(異形態: allomorph)라고 한다.
상기 문장 단위 분석부(524)는자연어 처리부(523)에서 형태소 분석된 문서를 문장 단위로 딥러닝(Character Level Convolutional Neural Network: CL-CNN) 예측모델 및 규칙을 활용하여 준정상영역과 준광고영역을 분할하고, 준정상영역에 있는 문장의 스팸여부를 파악하여 스팸성을 분류한다.이때, 준정상영역은 스팸인 문장을 소수 포함할 수 있는 1개 이상의 복수개의 문단으로 정의하며, 준광고영역은 정상인 문장을 소수 포함할 수 있는 1개 이상의 복수개의 문단으로 정의한다.
이를 위해, 상기 문장 단위 분석부(524)는 도 3에서 도시하고 있는 것과 같이, 형태소 분석된 문서를 문장 단위로 딥러닝 예측모델을 활용하여 스팸여부를 파악하는 제1 필터부(524a)와, 미리 정의된 규칙을 이용하여 문서에서 스팸 문자의 위치, 스팸 패턴 등을 활용하여 규칙기반으로 스팸여부를 파악하는 규칙 필터부(524b)를 포함한다.
이때, 문장 단위의 딥러닝은 제1 휴먼 티칭(Human Teaching)과 자동화 티칭(Automatic Teaching) 방식을 병합하여 데이터를 셔플링(suffling)을 수행한다. 예로서 일별 약 20만 문장 내외를 학습할 수 있다.
제1 휴먼 티칭(Human Teaching)은 미리 스팸문장을 학습데이터로 만들어 지도학습 유도하는 방식이다. 예로서, 스팸 문장으로 "증권사와 제휴를 통한 최저금리 제공"로 학습데이터를 만들 수 있다.그리고 자동화 티칭(Automatic Teaching)은 스팸 학습 자료(510)에 등록된 단어를 포함하는 문장을 스팸문장으로 판단하는 방식이다. 예로서, 스팸 등록된 단어("xxx")가 포함된 스팸 문장으로 "xxx스탁론 수수료 폐지"를 말할 수 있다.그리고 데이터 셔플링(suffling)은 정상 문서에 대비하여 스팸 문서의 양은 매우 적으므로, 최적의 조합을 자동 구성하여 학습할 수 있다.
상기 문장 단위 분석부(524)에서 문장의 스팸여부를 파악하여 스팸성을 분류하는 방식을 좀 더 상세히 설명하면 다음과 같다.
먼저, 문장분할 파라미터 θ=(0,1,2,…,L)이고, 각 문장의 벡터표현 S={S0,S1,S2,…,SL}일때 준정상영역(ST1,θ) 및 준광고영역(ST2,θ)은 다음 수학식 1 및 수학식 2와 같이 정의한다.
그리고 우선 영역의 분할을 위한 문장의 최소 시작점을 찾기 위해 HTML코드를 포함한 문서를 딥러닝(Character Level Convolutional Neural Network: CL-CNN)을 통해 4분류한다. 이후 문서내에서 준광고영역이 시작되는 문장의 백분위 위치를 레이블링하여 학습시켜 다음 수학식 3과 같이, φ로 표현한다. 이때, 레이블링되는 문장의 백분위 위치는 HTML코드가 제거된 위치로 한다.
π는 준광고성영역 백분위 위치(φ)와,문장의 총 갯수(L)의 곱으로 다음 수학식 4와 같이 정의한다.
다음으로임의의 문장분할 파라미터 θ에 대하여 준정상영역(ST1,θ) 및 준광고영역(ST2,θ)의 각 중심점간의 엔트로피를 최소화하기 위하여 k-평균 알고리즘의 클러스터 중심을 사용한다. 이때 각 클러스터의 중심을 재계산하며 클러스터 k가 변하지 않을 때 반복을 중지한다. 이후 클러스터 중심점을 활용하여 각 영역을 분할하는 최적의 파라미터 θ*는 다음 수학식 5와 같이 계산한다.
그리고 뉴스자체의 의미가 스팸성 단어들의 조합이 아닌 경우에도 스팸을 정확하게 구분해 내고자 문장기반 스팸확률을 다음 수학식 6 내지 수학식 11을 이용하여 계산한다.
이때 k,l,m,n은 각 영역에서의 문장의 수를 의미한다. k,l이 ST1,θ*에 속하는 문장의 수이고 m,n이 ST2,θ*에 속하는 문장의 수 일 때, k,m은 총 문장의 수, l,n은 스팸 문장의 수를 나타낸다.
특히 준정상영역에서의 임의의 단어 w이 사전 Df에 속할 경우 준정상영역에서의 스팸확률 pk와 준광고영역에서의 스팸확률 pm은 0에서 1사이의 파라미터 α와 β에 따라 문장기반 스팸확률 G(w,k,l,m,n)을 0으로 만들어 주어 스팸이 아닌 문서를 스팸으로 오분류할 가능성을 제거한다.
스팸관련 파라미터는 단어 w가 사전 Df에 속한 문서들을 대상으로 오분류 된 문서를 정분류할 수 있도록 준정상영역 스팸 확률의 최대치(α)와, 준광고영역 스팸확률의 최소치(β)를 정의한다.
한편, 문장의 정상성은 딥러닝(CNN) 기반 예측모델 C1(Ω)과, 스팸사전() 기반 정상성 평가식C2(Ω)의 결합함수로 다음 수학식 12를이용하여 계산한다. 이때 변수 Ω는 문장들의 단어문서행렬(T)과 word2vec 모델의 feature vector 행렬(W)의 곱으로 정의한다.
그리고 상기 문서 단위 분석부(525)는 문서 단위로 딥러닝(Character Level Convolutional Neural Network: CL-CNN) 예측모델을 활용하여 문장 단위 분석부(524)에서 분류된 스팸성을 가지는 문장을 다시 문서기반 스팸여부 파악을 통해 문서전체 내용에 대하여 스팸성을 분류한다.
이를 위해, 상기 문서 단위 분석부(525)는 도 4에서 도시하고 있는 것과 같이, 문장 단위 분석부(524)에서 분류된 문장을 문서 단위로 딥러닝 예측모델을 활용하여 스팸여부를 파악하는 제2 필터부(525a)를 포함한다.
이때, 문서 단위의 딥러닝은 제2 휴먼 티칭(Human Teaching) 방식을 수행한다. 예로서, 약 1만건의 문서의 스팸여부를 미리 태깅하여 학습시켜줌으로써 사람이 의도한 대로 AI가 스팸구분을 하는지 확인한다.
제2 휴먼 티칭(Human Teaching)은 문서의 의미가 스팸을 나타내는 뉴스 및 정상 뉴스를 약 5:5 비율로 함께 학습하는 방식이다. 예로서, 스팸 등록된 단어("xx")가 포함된 스팸 문서로, "눈앞으로 다가온 4차 혁명 ? 일반인들 수준으로 저평가 종목을 찾기 ? 한편 xx봇은 저렴한 ?"과 같이 스팸뉴스와 정상 뉴스의 비율이 약 5:5인 경우를 말한다.
상기 문서 단위 분석부(525)에서 문서의 스팸여부를 파악하여 스팸성을 분류하는 방식을 좀 더 상세히 설명하면 다음과 같다.
문서 단위 분석부(525)는 문서의 스팸확률을 다음 수학식 13을 이용하여 문서기반 딥러닝(Character Level Convolutional Neural Network: CL-CNN) 예측모델을 사용하여 계산한다.
그리고 금융뉴스 스팸 구별장치(520)는 상기 문장 단위 분석부(524)에서 계산된 문장기반 스팸확률과 상기 문서 단위 분석부(525)에서 계산된 문서기반 스팸확률을 결합하여, 다음 수학식14를 이용하여 이항 신호 점수(Binomial Signum Score(BSS))를 계산한다.
이렇게 계산된 BSS를 이용하여 수신된 뉴스 원본 데이터에 스팸태깅 데이터를 생성하여 뉴스 수신 메인 서버(200)로 전송한다.
이와 같이 구성된 본 발명에 따른 금융뉴스 스팸 구별 장치의 동작을 첨부한 도면을 참조하여 상세히 설명하면 다음과 같다. 도 1 또는 도 2와 동일한 참조부호는 동일한 기능을 수행하는 동일한 부재를 지칭한다.
도 5는 본 발명의 실시예에 따른 금융뉴스 스팸 구별 방법을 설명하기 위한 흐름도이다.
도 5를 참조하여 설명하면, 먼저 빅데이터 수집부(521)를 통해 복수의 언론사들(100)로부터 실시간으로 수신되거나 발생되는 뉴스 데이터를 수집한다(S10).
이어서, 텍스트 전처리부(522)를 통해 상기수집된 뉴스 데이터의 HTML 구조를 분석하여 HTML 코드가 제거된 텍스트 대상에서 필요한 정보만을 파싱한다(S20).
그리고 자연어 처리부를 통해 상기 파싱된 뉴스 데이터의 원본 텍스트에 대하여 형태소 분석을 수행하여 불용어(조사, 어미, 부호 등)를 제거하고, 문서를 문장 수준으로 분할한다(S30).
다음으로문장 단위 분석부(524)를 통해 상기 형태소 분석된 문서를 문장 단위로 딥러닝(Character Level Convolutional Neural Network: CL-CNN) 예측모델 및 규칙을 활용하여 준정상영역과 준광고영역을 분할하고, 준정상영역에 있는 문장의 스팸여부를 파악하여 스팸성을 분류한다(S40).
이때, 문장 단위의 딥러닝은 제1 휴먼 티칭(Human Teaching)과 자동화 티칭(Automatic Teaching) 방식을 병합하여 데이터를 셔플링(suffling)을 수행한다. 예로서 일별 약 20만 문장 내외를 학습할 수 있다.
준정상영역 및 준광고영역의 분할은 상기 수학식 1 및 수학식 2와 같이 정의할 수 있다. 그리고 임의의 문장분할 파라미터 θ에 대하여 준정상영역(ST1,θ) 및 준광고영역(ST2,θ)의 각 중심점간의 엔트로피를 최소화하기 위하여 k-평균 알고리즘의 클러스터 중심을 사용한다. 이때 각 클러스터의 중심을 재계산하며 클러스터 k가 변하지 않을 때 반복을 중지한다. 이후 클러스터 중심점을 활용하여 각 영역을 분할하는 최적의 파라미터 θ*는 상기 수학식 5와 같이 계산한다.
그리고 뉴스자체의 의미가 스팸성 단어들의 조합이 아닌 경우에도 스팸을 정확하게 구분해 내고자 문장기반 스팸확률을 상기수학식 6 내지 수학식 11을 이용하여 계산한다. 한편, 문장의 정상성은 딥러닝(CN-CNN) 기반 예측모델 C1(Ω)과, 사전기반 정상성 평가식C2(Ω)의 결합함수로 상기 수학식12를 이용하여 계산한다.
다음으로, 문서 단위 분석부를 통해 문서 단위로 딥러닝(Character Level Convolutional Neural Network: CNN) 예측모델을 활용하여 문장 단위 분석부에서 분류된 스팸성을 가지는 문장을 다시 문서기반 스팸여부 파악을 통해 문서전체 내용에 대하여 스팸성을 분류한다(S50).
이때, 문서 단위의 딥러닝은 제2 휴먼 티칭(Human Teaching) 방식을 수행한다. 제2 휴먼 티칭(Human Teaching)은 문서의 의미가 스팸을 나타내는 뉴스 및 정상 뉴스를 함께 학습하는 방식이다.그리고문서의 스팸확률은 상기 수학식 13을 이용하여 문서기반 딥러닝(CNN) 예측모델을 사용하여 계산한다.
이어서, 금융뉴스 스팸 구별장치(520)는 문장 단위 분석부(524)에서 계산된 문장기반 스팸확률과 상기 문서 단위 분석부(525)에서 계산된 문서기반 스팸확률을 결합하여, 상기 수학식 14를 이용하여 이항 신호 점수(Binomial Signum Score(BSS))를 계산한다. 그리고 이렇게 계산된 BSS를 이용하여 수신된 뉴스 원본 데이터에 스팸태깅 데이터를 생성하여 뉴스 수신 메인 서버(200)로 전송한다(S60).
이상과 같이 본 발명에 대해서 예시한 도면을 참조로 하여 설명하였으나, 본 명세서에 개시된 실시 예와 도면에 의해 본 발명이 한정되는 것은 아니며, 본 발명의 기술사상의 범위 내에서 통상의 기술자에 의해 다양한 변형이 이루어질 수 있음은 자명하다. 아울러 앞서 본 발명의 실시 예를 설명하면서 본 발명의 구성에 따른 작용 효과를 명시적으로 기재하여 설명하지 않았을 지라도, 해당 구성에 의해 예측 가능한 효과 또한 인정되어야 함은 당연하다.
100:언론사 200: 뉴스 수신 메인 서버
300: 빅데이터 서버 400: 빅데이터 DB
500: 빅데이터 분석 시스템 510: 스팸 학습 자료
520: 금융뉴스 스팸 구별장치 521: 빅데이터 수집부
522: 텍스트 전처리부 523: 자연어 처리부
524: 문장 단위 분석부 524a: 제1 필터부
524b: 규칙 필터부 525: 문서 단위 분석부
525a: 제2 필터부
300: 빅데이터 서버 400: 빅데이터 DB
500: 빅데이터 분석 시스템 510: 스팸 학습 자료
520: 금융뉴스 스팸 구별장치 521: 빅데이터 수집부
522: 텍스트 전처리부 523: 자연어 처리부
524: 문장 단위 분석부 524a: 제1 필터부
524b: 규칙 필터부 525: 문서 단위 분석부
525a: 제2 필터부
Claims (10)
- 언론사들로부터 실시간으로 수신 또는 발생되는 뉴스 데이터를 수집하는 빅데이터 수집부;
상기 빅데이터 수집부에서 수집된 뉴스 데이터의 HTML 구조를 분석하여 필요한 정보만을 파싱하는 텍스트 전처리부;
상기 파싱된 뉴스 데이터의 원본 텍스트에 대하여 형태소 분석을 수행하여 불용어를 제거하고, 문서를 문장 수준으로 분할하는 자연어 처리부;
상기 자연어 처리부에서 형태소 분석된 문서를 문장 단위로 딥러닝(Character Level Convolutional Neural Network: CL-CNN) 예측모델 및 규칙을 활용하여 준정상영역과 준광고영역을 분할하고, 준정상영역에 있는 문장의 스팸여부를 파악하여 스팸성을 분류하는 문장 단위 분석부; 및
문서 단위로 딥러닝 예측모델을 활용하여 상기 문장 단위 분석부에서 분류된 스팸성을 가지는 문장을 다시 문서기반 스팸여부 파악을 통해 문서전체 내용에 대하여 스팸성을 분류하는 문서 단위 분석부를 포함하고,
상기 문장 단위 분석부는
총 문장의 수 및 스팸 문장의 수를 이용하여 준정상영역에서의 임의의 단어가 미리 금융단어 및 스팸단어가 저장되어 있는 사전에 속할 경우 준정상영역에서의 스팸확률과 준광고영역에서의 스팸확률을 계산하고, 상기 문서 단위 분석부는
상기 문장 단위 분석부에서 상기 계산된 문장기반 스팸확률과 상기 문서 단위 분석부에서 문서기반 딥러닝(Character Level Convolutional Neural Network: CL-CNN) 예측모델을 사용하여 계산된 문서기반 스팸확률을 결합하여, 이항 신호 점수(Binomial Signum Score(BSS))를 계산하고, 상기 계산된 BSS를 이용하여 수신된 뉴스 원본 데이터에 스팸태깅 데이터를 생성하여 뉴스 수신 메인 서버로 전송하는 금융뉴스 스팸 구별 장치.
- 제1 항에 있어서,
상기 문장 단위 분석부는
형태소 분석된 문서를 문장 단위로 딥러닝 예측모델을 활용하여 스팸여부를 파악하는 제1 필터부와,
미리 정의된 규칙을 이용하여 문서에서 스팸 문자의 위치, 스팸 패턴 등을 활용하여 규칙기반으로 스팸여부를 파악하는 규칙 필터부를 포함하는 금융뉴스 스팸 구별 장치.
- 제2 항에 있어서,
상기 문장 단위의 딥러닝은 제1 휴먼 티칭(Human Teaching)과 자동화 티칭(Automatic Teaching) 방식을 병합하여 데이터를 셔플링(suffling)을 수행하는 것으로,
상기 제1 휴먼 티칭(Human Teaching)은 문장의 스팸여부를 레이블링(labeled data)하여 학습데이터로 만들어줌으로써 지도학습을 유도하는 방법인 금융뉴스 스팸 구별 장치.
- 제1 항에 있어서,
상기 문서 단위 분석부는 문장 단위 분석부에서 분류된 문장을 문서 단위로 딥러닝 예측모델을 활용하여 스팸여부를 파악하는 제2 필터부를 포함하는 금융뉴스 스팸 구별 장치.
- 제4 항에 있어서,
상기 문서 단위의 딥러닝은 제2 휴먼 티칭(Human Teaching) 방식을 수행하는 것으로,
상기 제2 휴먼 티칭(Human Teaching)은 문서의 스팸여부를 레이블링(labeled data)하여 학습데이터로 만들어줌으로써 지도학습을 유도하는 방법인 금융뉴스 스팸 구별 장치.
- 삭제
- (A) 빅데이터 수집부를 통해 복수의 언론사들로부터 실시간으로 수신되거나 발생되는 뉴스 데이터를 수집하는 단계;
(B) 텍스트 전처리부를 통해 상기 수집된 뉴스 데이터의 HTML 구조를 분석하여 HTML 코드가 제거된 텍스트 대상에서 필요한 정보만을 파싱하는 단계;
(C) 자연어 처리부를 통해 상기 파싱된 뉴스 데이터의 원본 텍스트에 대하여 형태소 분석을 수행하여 불용어를 제거하고, 문서를 문장 수준으로 분할하는 단계;
(D) 문장 단위 분석부를 통해 상기 형태소 분석된 문서를 문장 단위로 딥러닝(Character Level Convolutional Neural Network: CL-CNN) 예측모델 및 규칙을 활용하여 준정상영역과 준광고영역을 분할하고, 총 문장의 수 및 스팸 문장의 수를 이용하여 준정상영역에서의 임의의 단어가 미리 금융단어 및 스팸단어가 저장되어 있는 사전에 속할 경우 준정상영역에서의 스팸확률과 준광고영역에서의 스팸확률을 계산하여 준정상영역에 있는 문장의 스팸여부를 파악하여 스팸성을 분류하는 단계;
(E) 문서 단위 분석부를 통해 문서기반 딥러닝(Character Level Convolutional Neural Network: CL-CNN) 예측모델을 사용하여 문서기반 스팸확률을 계산하여 상기 문장 단위 분석부에서 분류된 스팸성을 가지는 문장을 다시 문서기반 스팸여부 파악을 통해 문서전체 내용에 대하여 스팸성을 분류하는 단계;
(F) 상기 문장 단위 분석부에서 계산된 문장기반 스팸확률과 상기 문서 단위 분석부(525)에서 계산된 문서기반 스팸확률을 결합하여, 이항 신호 점수(Binomial Signum Score(BSS))를 계산하는 단계;
(G) 상기 계산된 BSS를 이용하여 수신된 뉴스 원본 데이터에 스팸태깅 데이터를 생성하여 뉴스 수신 메인 서버로 전송하는 단계를 포함하는 금융뉴스 스팸 구별 방법.
- 제7 항에 있어서,
상기 (D) 단계는 제1 휴먼 티칭(Human Teaching)과 자동화 티칭(Automatic Teaching) 방식을 병합하여 데이터를 셔플링(suffling)을 수행하며,
상기 제1 휴먼 티칭(Human Teaching)은 미리 스팸문장을 학습데이터로 만들어 지도학습 유도하는 방법인 금융뉴스 스팸 구별 방법.
- 제7 항에 있어서,
상기 (E) 단계는 제2 휴먼 티칭(Human Teaching) 방식을 수행하는 것으로,
상기 제2 휴먼 티칭(Human Teaching)은 문서의 의미가 스팸을 나타내는 뉴스 및 정상 뉴스를 함께 학습하는 방식인 금융뉴스 스팸 구별 방법.
- 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190018965A KR102001375B1 (ko) | 2019-02-19 | 2019-02-19 | 금융뉴스 스팸구별 장치 및 그 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190018965A KR102001375B1 (ko) | 2019-02-19 | 2019-02-19 | 금융뉴스 스팸구별 장치 및 그 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102001375B1 true KR102001375B1 (ko) | 2019-07-18 |
Family
ID=67469250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190018965A KR102001375B1 (ko) | 2019-02-19 | 2019-02-19 | 금융뉴스 스팸구별 장치 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102001375B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021172699A1 (ko) * | 2020-02-27 | 2021-09-02 | 주식회사 와들 | 이미지로부터 추출한 텍스트 블록의 중요도 판단 시스템 및 그 방법 |
KR20210150788A (ko) * | 2020-06-04 | 2021-12-13 | 주식회사 웨이커 | 뉴스 긍정도 분석을 위한 인공신경망 학습 모델 및 장치 |
KR102472447B1 (ko) * | 2022-06-13 | 2022-11-30 | (주)유알피시스템 | 머신러닝을 이용한 복합 문서내 특정 콘텐츠 자동 차단 시스템 및 방법 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4033093B2 (ja) * | 2003-09-18 | 2008-01-16 | 富士ゼロックス株式会社 | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
KR20160002199A (ko) * | 2014-06-30 | 2016-01-07 | 경일대학교산학협력단 | 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템 |
KR20170060958A (ko) * | 2015-11-25 | 2017-06-02 | 고려대학교 산학협력단 | 금융 사기 방지 방법 및 시스템 |
KR20170083419A (ko) * | 2016-01-08 | 2017-07-18 | 마우키스튜디오 주식회사 | 레이블링되지 않은 다수의 학습 데이터를 이용하여 딥 러닝의 모델을 트레이닝하는 방법 및 이를 수행하는 딥 러닝 시스템 |
-
2019
- 2019-02-19 KR KR1020190018965A patent/KR102001375B1/ko active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4033093B2 (ja) * | 2003-09-18 | 2008-01-16 | 富士ゼロックス株式会社 | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
KR20160002199A (ko) * | 2014-06-30 | 2016-01-07 | 경일대학교산학협력단 | 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템 |
KR20170060958A (ko) * | 2015-11-25 | 2017-06-02 | 고려대학교 산학협력단 | 금융 사기 방지 방법 및 시스템 |
KR20170083419A (ko) * | 2016-01-08 | 2017-07-18 | 마우키스튜디오 주식회사 | 레이블링되지 않은 다수의 학습 데이터를 이용하여 딥 러닝의 모델을 트레이닝하는 방법 및 이를 수행하는 딥 러닝 시스템 |
Non-Patent Citations (6)
Title |
---|
공종환, 가천대학교 석사학위 논문, SNS 환경에서 신뢰도 기반 악성데이터 확산모델 연구 (2014) * |
권영만 외, 경헙기법을 사용한 sns 스팸의 클러스터링에 관한 연구, JIIBC v14(6) pp.7-12 (2014) * |
김도우, Doc2Vec을 활용한 CNN 기반 한국어 신문 기사 분류에 관한 연구, 서강대학교 석사학위 논문 (2017.01.05.) 1부. * |
김준홍 외, 인스타그램 기반의 전이학습과 게시글 메타 정보를 활용한 페이스북 스팸 게시글 판별, KIIE 저널, pp.192-202 (2017.07) * |
신삼신, 스팸현황 종합 모네터링 시스템을 통한 스팸방지 대응체계 구축방안, pp.72-90, Internet & Security Focus 2013 8월호 * |
현윤진 외, 텍스트 분석의 신뢰성 확보를 위한 스팸 데이터 식별 방안, 한국통신학회논문지 42(2) pp.493-504 (2017.02.) 1부.* * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021172699A1 (ko) * | 2020-02-27 | 2021-09-02 | 주식회사 와들 | 이미지로부터 추출한 텍스트 블록의 중요도 판단 시스템 및 그 방법 |
KR20210150788A (ko) * | 2020-06-04 | 2021-12-13 | 주식회사 웨이커 | 뉴스 긍정도 분석을 위한 인공신경망 학습 모델 및 장치 |
KR102466428B1 (ko) * | 2020-06-04 | 2022-11-11 | 주식회사 웨이커 | 뉴스 긍정도 분석을 위한 인공신경망 학습 모델 및 장치 |
KR102472447B1 (ko) * | 2022-06-13 | 2022-11-30 | (주)유알피시스템 | 머신러닝을 이용한 복합 문서내 특정 콘텐츠 자동 차단 시스템 및 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108885623B (zh) | 基于知识图谱的语意分析系统及方法 | |
Imran et al. | Coordinating human and machine intelligence to classify microblog communications in crises. | |
CN106960030B (zh) | 基于人工智能的推送信息方法及装置 | |
US20130159277A1 (en) | Target based indexing of micro-blog content | |
Alamsyah et al. | Dynamic large scale data on twitter using sentiment analysis and topic modeling | |
KR102001375B1 (ko) | 금융뉴스 스팸구별 장치 및 그 방법 | |
CN108305180B (zh) | 一种好友推荐方法及装置 | |
Vallejos et al. | Mining social networks to detect traffic incidents | |
CN111522919A (zh) | 一种文本处理方法、电子设备和存储介质 | |
CN112188312A (zh) | 用于确定新闻的视频素材的方法和装置 | |
KR102126911B1 (ko) | KeyplayerRank를 이용한 소셜 미디어상의 주제별 키플레이어 탐지 방법 | |
CN113051911A (zh) | 提取敏感词的方法、装置、设备、介质及程序产品 | |
JP2024095962A (ja) | 非定型データから個人情報を探知し露出危険度を測定する方法 | |
Kergosien et al. | Are opinions expressed in land-use planning documents? | |
CN117473512A (zh) | 基于网络测绘的漏洞风险评估方法 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN113157871B (zh) | 应用人工智能的新闻舆情文本处理方法、服务器及介质 | |
Fernandes et al. | Automated disaster news collection classification and geoparsing | |
CN113076453B (zh) | 域名分类方法、设备及计算机可读存储介质 | |
KR101838089B1 (ko) | 복지서비스 발굴을 위한 빅데이터 사례 기반 감성 오피니언 추출 및 평가 시스템 및 그 방법 | |
CN112732908B (zh) | 试题新颖度评估方法、装置、电子设备和存储介质 | |
KR20210137596A (ko) | 자연어 처리에 기반한 빅데이터 금융 분석 방법 | |
St Chifu et al. | Web harvesting and sentiment analysis of consumer feedback | |
CN116049385B (zh) | 一种生成信创产业研究报告的方法、装置和设备及平台 | |
KR20200084460A (ko) | 기계학습을 위한 학습 데이터를 생성하는 방법 및 장치, 생성된 학습 데이터를 이용한 소셜 미디어 분석 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |