KR102213763B1

KR102213763B1 - 자연어 처리와 딥러닝 네트워크를 이용하여 선별된 기사를 제공하는 방법 및 기사 분류 시스템

Info

Publication number: KR102213763B1
Application number: KR1020200123717A
Authority: KR
Inventors: 임하늬; 안용섭; 이영서; 이주영; 김태성; 양세연
Original assignee: 주식회사 로아인텔리전스
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2021-02-08
Anticipated expiration: 2040-09-24
Also published as: KR102358191B1; KR102358189B1; KR102358194B1; KR102358195B1; KR102358192B1

Abstract

자연어 처리와 딥러닝 네트워크를 이용하여 선별된 기사를 제공하는 방법 및 기사 분류 시스템이 제공된다. 기사 분류 시스템은, 복수의 기사들을 수집하고, 딥러닝 뉴럴 네트워크(deep learning neural network) 및 자연어 처리(NLP, natural language processing)를 이용하여 상기 기사들 각각에 대응하는 중요도를 산출하고 산출된 중요도에 따라 상기 기사들을 분류하거나 정렬함으로써 기사 분류 서비스를 제공하는 서비스 제공 서버; 상기 서비스 제공 서버로부터 상기 기사들을 제공받아 상기 기사들을 열람하는 단말; 및 상기 서비스 제공 서버로부터 상기 기사들을 수신하고, 순환 신경망과 합성곱 신경망을 함께 이용하여 상기 기사들 각각과 대응하는 적어도 하나의 주제에 상응하는 주제 가중치를 산출하는 딥러닝 뉴럴 네트워크 서버를 포함할 수 있다.

Description

자연어 처리와 딥러닝 네트워크를 이용하여 선별된 기사를 제공하는 방법 및 기사 분류 시스템{Article classification system and Method for providing selected articles using natural language processing and deep learning networks}

본 발명은 기사를 선별하는 방법 및 기사를 분류하는 시스템에 관한 것이다. 자세하게는, 자연어 처리와 딥러닝 네트워크를 이용하여 기사를 선별하는 방법 및 이를 이용하는 기사 분류 시스템에 관한 것이다.

현대에는, 정보통신기술(ICT, Information&Communications Technologies)의 발전에 따라서 검색 서비스 산업이 나날이 성장하고 있다. 한편, 기업의 입장에서 기업과 관련된 기사를 분류하는 다양한 솔루션이 필요로 하는 실정이다.

한편, 인간의 뇌를 모방하는 뉴럴 네트워크(neural network)가 고안되어 컴퓨터 스스로 외부 데이터를 조합, 분석하여 학습하는 딥러닝(deep learning) 기술이 발전함에 따라, AI(Artificial Intelligence, 인공지능)가 획기적으로 도약하였고, 이에 따라 컴퓨터가 인간을 대체해 방대한 양의 데이터를 분석하고, 사물이나 데이터를 군집화하거나 분류할 수 있다.

본 발명이 해결하고자 하는 과제는, 기업과 관련된 기사들을 효과적으로 분류하고 정렬할 수 있는 기사 분류 시스템을 제공하는 데 있다.

본 개시의 과제들은 이상에서 언급한 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상기 과제를 해결하기 위한 본 발명의 일 실시예에 따른 기사 분류 시스템은, 복수의 기사들을 수집하고, 딥러닝 뉴럴 네트워크(deep learning neural network) 및 자연어 처리(NLP, natural language processing)를 이용하여 상기 기사들 각각에 대응하는 중요도를 산출하고 산출된 중요도에 따라 상기 기사들을 분류하거나 정렬함으로써 기사 분류 서비스를 제공하는 서비스 제공 서버; 상기 서비스 제공 서버로부터 상기 기사들을 제공받아 상기 기사들을 열람하는 단말; 및 상기 서비스 제공 서버로부터 상기 기사들을 수신하고, 순환 신경망과 합성곱 신경망을 함께 이용하여 상기 기사들 각각과 대응하는 적어도 하나의 주제에 상응하는 주제 가중치를 산출하는 딥러닝 뉴럴 네트워크 서버를 포함할 수 있다.

상기 서비스 제공 서버는, 상기 기사들 각각에서 키워드들을 추출하고, 추출된 키워드들을 상기 자연어 처리함으로써 상기 기사들 각각에 대응하는 적어도 하나의 주제와 대상 기업을 결정할 수 있다.

상기 적어도 하나의 주제는, 기업의 상장, 기업의 합병, 기업의 투자, 기업의 상품 출시, 기업의 실적, 기업의 업무제휴, 및 기업의 사장이나 임원급 인사 처리 중 적어도 하나를 포함할 수 있다.

상기 서비스 제공 서버는, 상기 적어도 하나의 주제에 대하여 미리 설정된 주제 점수와 상기 딥러닝 뉴럴 네트워크 서버에 의해 산출된 상기 주제 가중치를 결정하고, 상기 대상 기업에 대하여 미리 설정된 기업 점수와 동적으로 설정되는 기업 가중치를 결정할 수 있다.

상기 서비스 제공 서버는, 상기 기업 가중치와 상기 주제 가중치를 기초로, 아래의 수학식에 기초하여 상기 중요도를 산출하되,

상기 수학식에서, ArticleP는 기사들 각각에 대응하는 상기 중요도이고, FirmV는 상기 기업 점수이고, Wf는 상기 기업 가중치이며, SubVi는 i번째 주제에 대하여 미리 설정된 상기 주제 점수이고, Wsubi는 i번째 주제에 대하여 결정된 상기 주제 가중치이고, n은 상기 적어도 하나의 주제의 개수일 수 있다.

상기 서비스 제공 서버는, 상기 대상 기업과 대응하는 회사 규모, 상기 기사들 중에서 상기 대상 기업에 대한 기사들의 개수, 및 상기 대상 기업이 속하는 산업군과 기술군 중 적어도 하나에 기초하여 상기 기업 가중치를 산출할 수 있다.

상기 딥러닝 뉴럴 네트워크 서버는, 상기 서비스 제공 서버로부터 제1 기사 및 제1 기사와 대응하는 상기 적어도 하나의 제1 주제를 수신하고, 상기 적어도 하나의 제1 주제와 대응하는 상기 주제 가중치를 결정할 수 있다.

상기 딥러닝 뉴럴 네트워크 서버는, 상기 적어도 하나의 제1 주제와 대응하도록 미리 결정된 복수의 제1 키워드들 중에서 상기 제1 기사에 포함된 상기 제1 키워드들과 각각 대응하는 보조 가중치들을 결정하는 순환 신경망; 상기 순환 신경망에서 출력된 상기 보조 가중치들을 이미지 형태의 데이터인 보조 가중치 이미지로 변환하는 이미지 변환부; 및 상기 보조 가중치 이미지를 입력받아 상기 적어도 하나의 제1 주제와 대응하는 주제 가중치를 결정하는 합성곱 신경망을 포함할 수 있다.

본 발명의 실시예에 따르면, 기사에 포함된 키워드들을 기반으로 주제와 대상 기업을 결정한 후, 주제와 대상 기업에 따른 가중치를 동적으로 부여함으로써, 기업과 관련된 기사를 효과적으로 분류하고 정렬할 수 있다.

따라서, 기사들을 제공받아 열람하는 사용자의 가독성과 유저 편의성이 향상될 수 있다.

실시예들에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.

도 1은 본 발명의 일 실시예에 따른 기사 분류 시스템을 개략적으로 나타낸 개념도이다.
도 2는 본 발명의 일 실시예에 따른 서비스 제공 서버를 개략적으로 나타낸 블록도이다.
도 3은 도 1에 따른 딥러닝 뉴럴 네트워크 서버의 구성을 나타낸 도면이다.
도 4는 일 실시예에 따른 보조 가중치 이미지를 나타낸 도면이다.
도 5 내지 도 6은 일 실시예에 따른 서비스 제공 서버에서 단말에 제공하는 기사들의 분류와 정렬 방법을 예시적으로 나타낸 도면이다.
도 7은 도 1에 따른 딥러닝 뉴럴 네트워크 기반의 기사 분류 시스템을 구현하기 위한 하드웨어를 예시적으로 나타낸 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

비록 제1, 제2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명한다. 도면상의 동일한 구성 요소에 대해서는 동일하거나 유사한 참조 부호를 사용한다.

도 1은 본 발명의 일 실시예에 따른 기사 분류 시스템을 개략적으로 나타낸 개념도이다.

기사 분류 시스템(1)은 딥러닝 뉴럴 네트워크(deep learning neural network) 및 자연어 처리(NLP, natural language processing)를 이용하여 기사의 중요도를 산출하고 산출된 중요도에 따라 기사를 분류할 수 있다. 일 실시예로, 기사 분류 시스템(1)은 기사에 포함된 키워드들을 추출하고, 추출된 키워드들을 기반으로 기사에 포함된 적어도 하나의 주제와 기사가 다루고 있는 대상 기업을 결정하고, 결정된 적어도 하나의 주제와 대상 기업마다 미리 설정된 점수와 동적으로 결정되는 가중치를 부여하여 기사(Article)에 대한 중요도를 산출하고 중요도를 기초로 기사를 분류할 수 있다. 예를 들어, 기사는 기업에 관련된 기사이고, 기사 분류 시스템(1)은 기업에 대한 기사의 중요도를 바탕으로 기사를 분류할 수 있다.

도 1을 참조하면, 기사 분류 시스템(1)은 복수의 기사들을 수집하고, 딥러닝 뉴럴 네트워크 서버(200)와 연동하여 수집한 기사들 각각에 대한 중요도를 산출하고, 산출된 중요도를 기반으로 기사들을 분류하거나 정렬하는 서비스 제공 서버(100), 중요도를 산출하는 데 필요한 인자(parameter)에 해당하는 가중치를 결정하는 딥러닝 뉴럴 네트워크 서버(200) 및 서비스 제공 서버(100)로부터 기사들을 중요도에 따라 제공받는 단말(300)을 포함할 수 있다.

여기서, 서비스 제공 서버(100), 딥러닝 뉴럴 네트워크 서버(200) 및 단말(300)은 네트워크(Network)를 통해 서로 연결될 수 있다. 네트워크는 서비스 제공 서버(100), 딥러닝 뉴럴 네트워크 서버(200) 및 단말(300) 등과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.

다만, 도 1에 도시된 구성요소들은, 딥러닝 뉴럴 네트워크 기반의 기사 분류 시스템(1)을 구현하는데 필수적인 것은 아니어서, 본 명세서 상에서 설명되는 딥러닝 뉴럴 네트워크 기반의 기사 분류 시스템(1)은 위에서 열거된 구성요소들 보다 많거나, 또는 적은 구성요소들을 가질 수 있다.

서비스 제공 서버(100)는, 딥러닝 뉴럴 네트워크 기반의 기사 분류 서비스를 제공하는 웹사이트를 구현할 수 있다. 서비스 제공 서버(100)는, 외부의 공개된 언론사 운영 서버를 포함하는 공개 서버와 통신하여 다수의 기사들을 수집하거나, 관리자로부터 다수의 기사들을 입력받을 수 있다.

서비스 제공 서버(100)는, 입력받거나 수집한 다수의 기사들 각각에 대하여 키워드들을 추출하고, 추출된 키워드들을 자연어 처리(Natural Language Processing, NLP)함으로써 기사들 각각에 대한 적어도 하나의 주제와 기사들이 다루고 있는 대상 기업을 결정할 수 있다. 예를 들어, 자연어 처리는, 자연어 처리를 구현할 수 있는 프레임워크(framework) 또는 알고리즘인 파이썬의 NTLK(Python NLTK), 샌포드의 코어NLP(Sanford CoreNLP), 아파치의 오픈NLP(Apache OpenNLP), 마이크로소프트의 튜링((Turing), 또는 BERT, GPT-2 등을 이용하여 구현될 수 있다.

서비스 제공 서버(100)는, 결정된 적어도 하나의 주제에 대하여 미리 설정된 주제 점수와 동적으로 설정되는 주제 가중치를 부여하고, 대상 기업에 대하여 미리 설정된 기업 점수와 동적으로 설정되는 기업 가중치를 부여할 수 있다. 주제 점수와 주제 가중치, 기업 점수와 기업 가중치에 기반하여 다수의 기사들 각각에 대한 중요도를 산출할 수 있다.

예를 들어, 서비스 제공 서버(100)는, 주제 점수와 주제 가중치, 기업 점수와 기업 가중치를 이용하여 기사별 중요도를 다음의 수학식 1에 따라 산출할 수 있다.

수학식 1을 참조하면, 기사별 중요도(ArticleP)는, 대상 기업마다 미리 설정된 기업 점수(FirmV)와 대상 기업마다 동적으로 결정되는 기업 가중치(Wf), i번째 주제에 대하여 미리 설정된 주제 점수(SubVi), i번째 주제에 대하여 동적으로 결정된 주제 가중치(Wsubi)를 이용하여 산출될 수 있다. 수학식 1에서 n은 기사에서 결정된 주제들의 개수일 수 있다. 예시적으로, 기업 점수(FirmV)는 첫번째부터 n번째 주제 점수(SubVi)들의 총 합산값과 동일하도록 미리 설정될 수 있다.

서비스 제공 서버(100)는, 적어도 하나의 주제와 대상 기업마다 동적으로 설정되는 가중치를 결정하기 위하여, 딥러닝 뉴럴 네트워크 서버(200)와 통신할 수 있다. 예를 들어, 서비스 제공 서버(100)는, 기사별로 결정된 적어도 하나의 주제 및 적어도 하나의 주제와 대응하는 기사를 딥러닝 뉴럴 네트워크 서버(200)에 전송하고, 딥러닝 뉴럴 네트워크 서버(200)로부터 적어도 하나의 주제와 상응하는 가중치들을 수신할 수 있다.

딥러닝 뉴럴 네트워크 서버(200)는, 순환 신경망(RNN, recurrent neural network)과 합성곱 신경망(CNN, convolutional neural network)을 이용하여, 전송받은 기사의 적어도 하나의 주제에 각각 상응하는 주제 가중치들을 결정하고, 결정된 주제 가중치들을 서비스 제공 서버(100)에 전송할 수 있다.

단말(300)은, 딥러닝 뉴럴 네트워크 기반의 기사 분류 서비스와 관련된 어플리케이션을 구동하는 장치로서, 서비스 제공 서버(100)에 접속하여 복수의 기사들을 열람할 수 있다. 이때, 단말(300)은, 서비스 제공 서버(100)로부터 기사별로 산출된 중요도에 따라 기사들을 정렬하거나 주제와 대상 기업별로 분류된 기사들을 제공받을 수 있다.

단말(300)은, 휴대용 단말인 스마트폰, 디지털방송용 단말기, 휴대폰, PDA(personal digital assistants), PMP(portable multimedia player), 네비게이션, 태블릿 PC(tablet PC), 웨어러블 디바이스(wearable device) 및 스마트 글라스(smart glass) 등을 포함할 수 있다.

단말(300)은 사용자에게 분류 결과에 따른 출력을 표시할 수 있는 표시부(310)를 포함할 수 있다. 표시부(310)는 시각적 그래픽, 영상, 텍스트 등을 디스플레이하는 음극선관, 플라즈마, LCD, LED, OLED 또는 터치 스크린과 같은 디스플레이 패널과 같은 형태일 수 있다. 실시예에 따라, 단말(300)은 표시부(310)를 통해 디스플레이되는 GUI(Graphical User Interface)를 통해 상호작용 및 통신을 용이하게 한다. GUI는 사용자의 정보를 사용자 제어 인터페이스에 제공하기 위해 디스플레이 영역(display area)들을 터치하거나 가리키는 것에 의해 단말(300)과 사용자가 상호작용할 수 있게 한다.

도 2는 본 발명의 일 실시예에 따른 서비스 제공 서버를 개략적으로 나타낸 블록도이다.

도 2를 참조하면, 서비스 제공 서버(100)는 제어부(110), 통신부(120), 기사 수집부(130), 저장부(140), 자연어 처리부(150), 기업 가중치 산출부(160), 주제 가중치 결정부(170), 및 분류 엔진(180)을 포함할 수 있다.

제어부(110)는 통신부(120), 기사 수집부(130), 저장부(140), 자연어 처리부(150), 기업 가중치 산출부(160), 주제 가중치 결정부(170), 및 분류 엔진(180)를 제어할 수 있다. 예를 들어, 제어부(110)는 프로세서(processor)에 대응하는 하드웨어 구성으로서 운영 체제를 구현할 수 있고, 명령어, 소프트웨어 코드, 실행파일(executable file), 애플리케이션 등으로 알려져 있는 컴퓨터 프로그램을 실행할 수 있다.

통신부(120)는 통신 네트워크에 접속하여, 단말(300) 및 딥러닝 뉴럴 네트워크 서버(200)와 데이터를 송수신할 수 있다. 통신부(120)는 유선 또는 무선의 통신 네트워크에 연결될 수 있고, 서버, 라우터, 스위치, 무선 수신기 및 송신기 등은 물론, 전기 전도성 케이블 또는 광 케이블을 포함할 수 있다.

기사 수집부(130)는, 통신부(120)를 통해 기사를 제공하는 외부 서버에 접속하여 기업과 관련된 복수의 기사들을 수집하고, 수집된 기사들을 저장부(140)에 저장할 수 있다. 예를 들어, 기사 수집부(130)는, 기사를 제공하는 외부 서버에 접속하여 기사들을 획득하고, HTML 태그요소의 분석과 HTML 파싱 등을 수행하여 기사들로부터 키워드들을 추출하고, 추출된 키워드들이 미리 설정된 기업의 명칭, 약칭, 호칭 중 적어도 하나와 대응하는 경우, 기업과 관련된 기사로 결정하여 저장부(140)에 저장할 수 있다.

저장부(140)는 기사 수집부(130)에서 수집된 기사들을 저장할 수 있다. 저장부(140)는 RAM(Random Access Memory), ROM(Read Only Memory), 플래시 드라이브, 플로피 디스크, 하드 디스크, 콤팩트 디스크(CDROM), DVD(Digital Video Disc) 등과 같은 광 저장 매체, 또는 이들의 조합을 포함할 수 있다.

자연어 처리부(150)는, 저장부(140)에 저장된 기사들에 대하여 문맥 분석(context analsys) 및/또는 형태소 분석 등을 수행함으로써 기사들 각각에 대응하는 적어도 하나의 주제와 대상 기업을 결정할 수 있다.

예를 들어, 적어도 하나의 주제는, 기업의 상장, 기업의 합병, 기업의 투자, 기업의 상품 출시, 기업의 실적, 기업의 업무제휴, 및 기업의 사장이나 임원급 인사 처리 중 적어도 하나를 포함할 수 있다.

자연어 처리부(150)는, 적어도 하나의 주제와 대상 기업을 결정하기 위한 수단으로 저장부(140)에 미리 구축된 데이터 사전을 이용할 수 있다. 적어도 하나의 주제와 대상 기업을 결정하기 위한 수단으로 자연어 처리부(150)는, 저장부(140)에 저장된 기사들 각각에서 데이터 사전에 기반한 키워드들을 추출할 수 있다. 또한, 자연어 처리부(150)는, 추출된 키워드들과 대응하는 유사 키워드들을 데이터 사전에 기초하여 결정할 수도 있다.

데이터 사전은 특정한 업종이나, 기업(기관) 또는 기업의 계열사에서 사용하는 용어나 단어를 포함할 수 있다. 데이터 사전에 포함되는 용어 또는 단어는 표준화된 것(즉, 표준화되어 등록된 것)으로서 표준 용어 또는 표준 단어일 수 있다. 데이터 사전은 복수의 데이터 사전들로 구성된 다중 데이터 사전일 수 있다. 또한, 데이터 사전에 포함된 복수의 용어들 각각은 약어일 수 있다. 상기 약어는 예컨대, 영문 용어를 축약한 약어일 수 있다. 일례로, "코드"라는 단어(용어)는 CD, CDE, CE 또는 CODE의 약어로 표현될 수 있다.

기업 가중치 산출부(160)는, 자연어 처리부(150)에서 결정된 대상 기업과 대응하는 기업 가중치를 산출할 수 있다. 기업 가중치 산출부(160)는, 대상 기업과 대응하는 회사 규모, 저장부(140)에 수집된 기사들 중에서 대상 기업에 대한 기사들의 개수, 대상 기업이 속하는 산업군이나 기술군에 기초하여 기업 가중치를 산출할 수 있다. 회사 규모를 결정하기 위하여 기업 가중치 산출부(160)는, 코스피, 코스닥 등의 공시 서비스를 통해 제공되는 주식 평가액, 매출액 등을 획득하여 참조할 수 있다.

주제 가중치 결정부(170)는, 자연어 처리부(150)에서 결정된 적어도 하나의 주제와 기사들을 딥러닝 뉴럴 네트워크 서버(200)에 전송하고, 딥러닝 뉴럴 네트워크 서버(200)로부터 주제별로 결정된 주제 가중치들을 수신함으로써 주제 가중치들을 결정할 수 있다.

분류 엔진(180)은, 기업 가중치 산출부(160)에서 산출된 기업 가중치와 주제 가중치 결정부(170)에서 산출된 주제별 주제 가중치들을 상기 수학식 1에 대입함으로써 기사들 각각에 대응하는 중요도를 결정하고, 결정된 중요도에 따라 기사들을 분류하거나 정렬하여 단말(300)에 제공할 수 있다.

도 3은 도 1에 따른 딥러닝 뉴럴 네트워크 서버의 구성을 나타낸 도면이다. 도 4는 일 실시예에 따른 보조 가중치 이미지를 나타낸 도면이다.

도 3을 참조하면, 딥러닝 뉴럴 네트워크 서버(200)는, 서비스 제공 서버(100)로부터 수신된 적어도 하나의 주제와 대응하는 복수의 키워드들을 결정하고, 결정된 키워드들 중 기사에 포함된 적어도 하나의 키워드와 각각 대응(또는 키워드와 1:1로 대응)하는 보조 가중치들을 결정하는 순환 신경망(RNN, recurrent neural network, 210), 순환 신경망(210)에서 출력된 적어도 하나의 키워드와 각각 대응하는 보조 가중치들을 이미지 형태의 데이터로 변환하는 이미지 변환부(220), 및 이미지화된 보조 가중치들을 입력받아 적어도 하나의 주제에 각각 대응하는 주제 가중치들을 결정하는 합성곱 신경망(CNN, convolutional neural network, 230)을 포함할 수 있다.

순환 신경망(210)은, 입력층, 은닉층, 및 출력층을 포함할 수 있고, 은닉층에 포함된 은닉 노드들 사이에 순환 엣지를 포함할 수 있다. 순환 신경망(210)은 적어도 하나의 주제와 각각 대응하는 키워드들을 결정하고, 결정된 키워드들 각각과 대응하는 보조 가중치들을 결정할 수 있다. 여기서, 적어도 하나의 주제와 각각 대응하는 키워드들은, 주제와 관련하여 미리 설정된 용어일 수 있다. 예를 들어, 주제가 기업의 실적이면, 기업의 실적과 대응하는 키워드들은, 어닝 서프라이즈, 어닝 쇼크 등을 포함할 수 있다.

순환 신경망(210)이 키워드들과 각각 대응하는 보조 가중치들을 결정하기 위한 학습 데이터를 생성하기 위하여 본 발명의 일 실시예에서는 다음과 같이 학습 데이터를 생성할 수 있다.

먼저, 딥러닝 뉴럴 네트워크 서버(200)는, 서비스 제공 서버(100)로부터 학습용 기사들을 수신할 수 있다. 학습용 기사들 각각은 사용자에 의해 미리 초기 중요도가 설정될 수 있다. 이때, 초기 중요도는 학습용 기사들에 대한 댓글의 개수, 호감(좋아요) 표시의 개수, 학습용 기사들과 동일하거나 유사한 내용을 갖는 다른 기사들의 갯수 등에 기초하여 설정될 수 있다. 제공받은 학습용 기사들 각각에서 적어도 하나의 주제와 대응하는 각각 대응하는 키워드들을 추출할 수 있다. 다음으로, 딥러닝 뉴럴 네트워크 서버(200)는, 기사들마다 특정 주제와 대응하는 키워드들이 사용된 횟수들 중에서 각 키워드가 차지하는 비율을, 특정 주제와 대응하는 키워드들 각각에 대하여 산출할 수 있다.

예를 들어, 딥러닝 뉴럴 네트워크 서버(200)는, 학습용 기사들 중 임의의 기사 a에서 특정 주제와 대응하는 키워드들 중 임의의 키워드 k가 차지하는 횟수의 비율을 산출할 수 있다.

상기 수학식 2를 참조하면, j는 임의의 기사 a에서 추출된 특정 주제와 대응하는 키워드들의 갯수이고, fka는 임의의 기사 a에서 키워드 k가 사용된 횟수이고, fa는 임의의 기사 a에서, 특정 주제와 대응하는 키워드들이 사용된 횟수들 중에서, 키워드 k가 사용된 횟수가 차지하는 비율일 수 있다.

다음으로, 딥러닝 뉴럴 네트워크 서버(200)는, 학습용 기사들마다 미리 설정된 초기 중요도와 앞서 산출된 각 키워드가 차지하는 비율 사이의 선형회귀분석을 수행함으로써 임의의 기사 a에서 키워드 각각에 대응하는 보조 가중치를 산출할 수 있다.

예를 들어, 딥러닝 뉴럴 네트워크 서버(200)는, 다음의 수학식 3을 이용하여 특정 주제와 대응하는 키워드들 각각의 보조 가중치들을 산출할 수 있다.

수학식 3을 참조하면, fa는 수학식 2에 따른 비율이고, ya는 기사 a에 대한 초기 중요도로서 0과 1 사이의 실수일 수 있고, α_k, β_k는 선형회귀분석에 따라 결정되는 계수들이고, ε_ka는 선형회귀분석에 따른 오차상수일 수 있다. 수학식 3에서, 선형회귀분석에 따라 결정되는 계수들 중 β_k가 키워드 k에 대한 보조 가중치가 될 수 있다.

즉, 수학식 1 내지 3에 따라 학습용 기사들 각각에서 주제별 키워드들에 대응하는 보조 가중치들을 결정하고, 순환 신경망(210)에서 주제에 따른 키워드들 각각의 보조 가중치들을 학습하도록 할 수 있다. 따라서, 순환 신경망(210)은 기사 및 기사에 대응하는 주제를 입력받으면, 주제에 대응하는 키워드들 각각에 대응하는 보조 가중치들을 출력할 수 있다.

이미지 변환부(220)는, 주제에 대응하는 키워드들 각각에 대응하는 보조 가중치들을 기초로 보조 가중치 이미지를 생성할 수 있다. 합성곱 신경망(230)은 매우 많은 연구가 진행되어 입력된 이미지에 대응하는 결과값을 추정하는 데 매우 용이하지만 입력 데이터가 이미지 형태로 제약된다.

본 발명의 일 실시예에 따른 이미지 변환부(220)는, 합성곱 신경망(230)이 키워드들 각각에 대응하는 보조 가중치들로부터 주제에 대응하는 하나의 가중치를 도출할 수 있도록 보조 가중치 이미지를 생성하여 합성곱 신경망(230)에 입력할 수 있다.

도 4를 참조하면, 임의의 기사 a에서 특정 주제와 대응하는 키워드 1 내지 6에 대하여 산출된 보조 가중치들을 이미지로 변환함으로써 보조 가중치 이미지를 확인할 수 있다.

도 4에서, 키워드들 1 내지 6은 각각 순환 신경망(210)에 의해 보조 가중치가 산출되며, 여기서 산출된 보조 가중치들은 미리 설정된 p(p는 2 이상의 자연수)개의 단계를 갖도록 양자화될 수 있다.

이미지 변환부(220)는, 양자화된 보조 가중치의 단계들을 p개의 화소들로 구성된 열(column)과 대응시키고, 하나의 행에 있는 화소들을 특정 주제와 대응하는 q(p는 1 이상의 자연수) 개의 키워드들 각각과 대응시켜, p×q 의 크기를 갖는 격자형 이미지인, 보조 가중치 이미지를 생성할 수 있다. 이때, 보조 가중치의 단계들과 대응하는 열의 화소들은 도 4에서와 같이 검은색(또는 화소값 0)과 대응하는 화소값을 가질 수 있고, 보조 가중치의 단계들과 대응하지 않는 나머지 열의 화소들은 도 4에서와 같이 흰색(또는 최대 화소값)과 대응하는 화소값을 가질 수 있다.

합성곱 신경망(230)은, 보조 가중치 이미지를 입력받고, 입력받은 보조 가중치 이미지에 대응하는 주제 가중치를 출력할 수 있다. 이러한 동작이 가능하도록, 합성곱 신경망(230)은 미리 보조 가중치 이미지에 따른 주제 가중치를 학습 자료로서 학습할 수 있다.

예를 들어, 딥러닝 뉴럴 네트워크 서버(200)는, 서비스 제공 서버(100)로부터 수신한 학습용 기사들 각각에서, 앞선 수학식 1 내지 3에 기초하여 키워드별 보조 가중치를 결정한 후, 키워드별 보조 가중치를 도 4에서와 같이 학습용 보조 가중치 이미지로 표현할 수 있다.

다음으로, 딥러닝 뉴럴 네트워크 서버(200)는, 보조 가중치 이미지에 대응하는 주제 가중치를 아래 수학식 4를 이용하여 결정할 수 있다.

수학식 4에서, j는 임의의 기사 a에서 특정 주제와 대응하는 키워드들의 갯수이고, βk는 키워드 k에 대응하는 보조 가중치이고, fa는 수학식 2에 따른 비율이고, αk는 수학식 3에 따른 선형회귀분석에 따라 결정되는 계수일 수 있다. 따라서, 딥러닝 뉴럴 네트워크 서버(200)는, 수학식 4를 통해 임의의 기사 a에서 보조 가중치 이미지에 대응하는 특정 주제의 주제 가중치(Wsubi)를 결정할 수 있다.

딥러닝 뉴럴 네트워크 서버(200)는, 수학식 4에 따라 결정된 주제 가중치를 합성곱 신경망(230)의 결과값으로, 주제 가중치에 대응하는 보조 가중치 이미지를 합성곱 신경망(230)의 입력값으로 입력하고, 입력값과 결과값 사이의 오차가 최소화되도록 합성곱 신경망(230)을 학습시킬 수 있다. 이러한 학습의 결과로, 합성곱 신경망(230)은 보조 가중치 이미지를 입력받으면, 보조 가중치 이미지에 대응하는 주제 가중치를 출력할 수 있다.

딥러닝 뉴럴 네트워크 서버(200)는, 서비스 제공 서버(100)로부터 수신한 기사들 및 기사들과 대응하는 적어도 하나의 주제에 대하여 상술한 동작들을 반복할 수 있다.

예를 들어, 임의의 기사 a로부터 2개의 주제가 결정된 경우, 딥러닝 뉴럴 네트워크 서버(200)는, 기사 a에 대응하는 2개의 주제 각각에 대응하는 2개의 주제 가중치들을 결정하기 위하여 2개의 주제 각각에 대해 기사 a로부터 보조 가중치를 산출하고, 산출된 보조 가중치를 보조 가중치 이미지로 변환하고, 보조 가중치 이미지로부터 주제 가중치를 결정하는 동작을 2번 수행할 수 있다.

도 5 내지 도 6은 일 실시예에 따른 서비스 제공 서버에서 단말에 제공하는 기사들의 분류와 정렬 방법을 예시적으로 나타낸 도면이다.

도 5를 참조하면, 단말(300)은 서비스 제공 서버(100)에 특정 기업에 대한 기사들을 요청하는 기업 검색을 요청할 수 있고, 서비스 제공 서버(100)는, 특정 기업에 대응하는 기사들을 리스트화하여 단말(300)에 제공할 수 있다.

예를 들어, 도 5에서와 같이 단말(300)이 기업 검색을 선택하고, 특정 기업 명칭 등을 입력하면, 서비스 제공 서버(100)는 단말(300)에서 입력된 특정 기업 명칭과 대응하는 대상 기업을 갖는 기사들을 선별하고, 선별된 기사들을 중요도에 따라 정렬하여 단말(300)에 표시할 수 있다.

이때, 서비스 제공 서버(100)는 대상 기업에 대하여 산출된 기업 가중치의 순서로 기사들을 정렬하여 단말(300)에 표시할 수도 있으며, 기업 가중치를 산출하는 인자가 되는, 회사 규모, 대상 기업이 속하는 산업군이나 기술군에 따라 기사들을 정렬하여 단말(300)에 표시할 수도 있다.

도 6을 참조하면, 단말(300)은, 서비스 제공 서버(100)에 특정 주제에 대한 기사들을 요청하는 주제별 검색을 요청할 수 있고, 서비스 제공 서버(100)는, 특정 주제에 대응하는 기사들을 리스트화하여 단말(300)에 제공할 수 있다.

예를 들어, 도 6에서와 같이 단말(300)이 주제별 검색을 선택하고, 기업 상장을 검색을 위한 주제로 입력하면, 서비스 제공 서버(100)는, 기업의 상장을 주제로 갖는 기사들을 선별하고, 선별된 기사들을 중요도에 따라 정렬하여 단말(300)에 표시할 수 있다.

도 7은 도 1에 따른 딥러닝 뉴럴 네트워크 기반의 기사 분류 시스템을 구현하기 위한 하드웨어를 예시적으로 나타낸 도면이다.

도 7을 참조하면, 딥러닝 뉴럴 네트워크 기반의 기사 분류 시스템(1)에 포함된 서비스 제공 서버(100), 딥러닝 뉴럴 네트워크 서버(200), 및 단말(300) 중 적어도 하나는 도 7에 도시된 하드웨어 구성요소들을 포함할 수 있다. 이하에서는 서비스 제공 서버(100)를 예로 들어 설명하지만, 딥러닝 뉴럴 네트워크 서버(200), 및 단말(300)도 아래의 설명이 적용될 수 있다.

예를 들어, 서비스 제공 서버(100)는, 적어도 하나의 프로세서(101), 상기 적어도 하나의 프로세서(101)가 적어도 하나의 동작(operation)을 수행하도록 지시하는 명령어들(instructions)을 저장하는 메모리(102)를 포함할 수 있다.

적어도 하나의 동작은 도 1 내지 도 6을 참조하여 설명한 서비스 제공 서버(100)의 동작들 중 적어도 하나를 포함할 수 있다.

여기서 적어도 하나의 프로세서(101)는 중앙 처리 장치(central processing unit, CPU), 그래픽 처리 장치(graphics processing unit, GPU), 또는 본 발명의 실시예들에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 메모리(102)는 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(102)는 읽기 전용 메모리(read only memory, ROM) 및 랜덤 액세스 메모리(random access memory, RAM) 중에서 적어도 하나로 구성될 수 있다.

또한, 서비스 제공 서버(100)는, 무선 네트워크를 통해 통신을 수행하는 송수신 장치(transceiver, 103)를 포함할 수 있다. 또한, 서비스 제공 서버(100)는 입력 인터페이스 장치(105), 출력 인터페이스 장치(106), 저장 장치(104) 등을 더 포함할 수 있다. 서비스 제공 서버(100)에 포함된 각각의 구성 요소들은 버스(bus, 107)에 의해 연결되어 서로 통신을 수행할 수 있다.

이상, 첨부된 도면을 참조하여 본 발명의 기술적 사상에 따른 실시 예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해하여야 한다.

1: 기사 분류 시스템 100: 서비스 제공 서버
110: 제어부 120: 통신부
130: 기사 수집부 140: 저장부
150: 자연어 처리부 160: 기업 가중치 산출부
170: 주제 가중치 결정부 180: 분류 엔진
200: 딥러닝 뉴럴 네트워크 서버
300: 단말 310: 표시부

Claims

복수의 기사들을 수집하고, 딥러닝 뉴럴 네트워크(deep learning neural network) 및 자연어 처리(NLP, natural language processing)를 이용하여 상기 기사들 각각에 대응하는 중요도를 산출하고 산출된 중요도에 따라 상기 기사들을 분류하거나 정렬함으로써 기사 분류 서비스를 제공하는 서비스 제공 서버;
상기 서비스 제공 서버로부터 상기 기사들을 제공받아 상기 기사들을 열람하는 단말; 및
상기 서비스 제공 서버로부터 상기 기사들을 수신하고, 순환 신경망과 합성곱 신경망을 함께 이용하여 상기 기사들 각각과 대응하는 적어도 하나의 주제에 상응하는 주제 가중치를 산출하는 딥러닝 뉴럴 네트워크 서버를 포함하되,
상기 서비스 제공 서버는,
상기 기사들 각각에서 키워드들을 추출하고, 추출된 키워드들을 상기 자연어 처리함으로써 상기 기사들 각각에 대응하는 적어도 하나의 주제와 대상 기업을 결정하고,
상기 적어도 하나의 주제는,
기업의 상장, 기업의 합병, 기업의 투자, 기업의 상품 출시, 기업의 실적, 기업의 업무제휴, 및 기업의 사장이나 임원급 인사 처리를 모두 포함하고,
상기 딥러닝 뉴럴 네트워크 서버는,
상기 서비스 제공 서버로부터 제1 기사 및 제1 기사와 대응하는 적어도 하나의 제1 주제를 수신하고, 상기 적어도 하나의 제1 주제와 대응하는 상기 주제 가중치를 결정하고,
상기 딥러닝 뉴럴 네트워크 서버는,
상기 적어도 하나의 제1 주제와 대응하도록 미리 결정된 복수의 제1 키워드들 중에서 상기 제1 기사에 포함된 상기 제1 키워드들과 각각 대응하는 보조 가중치들을 결정하는 순환 신경망;
상기 순환 신경망에서 출력된 상기 보조 가중치들을 이미지 형태의 데이터인 보조 가중치 이미지로 변환하는 이미지 변환부; 및
상기 보조 가중치 이미지를 입력받아 상기 적어도 하나의 제1 주제와 대응하는 주제 가중치를 결정하는 합성곱 신경망을 포함하되,
상기 이미지 변환부는,
상기 보조 가중치들 각각을 미리 설정된 p(상기 p는 2 이상의 자연수) 개의 단계들로 양자화하고, 양자화된 상기 보조 가중치들의 단계들을 상기 p개의 화소들로 구성된 열과 대응시키고, 하나의 행에 있는 상기 화소들을 q(상기 q는 1 이상의 자연수)개의 상기 제1 키워드들 각각과 대응시켜 p×q 의 크기를 갖는 격자형 이미지인 상기 보조 가중치 이미지를 생성하는, 기사 분류 시스템.
삭제
삭제
◈청구항 4은(는) 설정등록료 납부시 포기되었습니다.◈

청구항 1에서,
상기 서비스 제공 서버는,
상기 적어도 하나의 주제에 대하여 미리 설정된 주제 점수와 상기 딥러닝 뉴럴 네트워크 서버에 의해 산출된 상기 주제 가중치를 결정하고, 상기 대상 기업에 대하여 미리 설정된 기업 점수와 동적으로 설정되는 기업 가중치를 결정하는, 기사 분류 시스템.
◈청구항 5은(는) 설정등록료 납부시 포기되었습니다.◈

청구항 4에서,
상기 서비스 제공 서버는,
상기 기업 가중치와 상기 주제 가중치를 기초로, 아래의 수학식에 기초하여 상기 중요도를 산출하되,

상기 수학식에서, ArticleP는 기사들 각각에 대응하는 상기 중요도이고, FirmV는 상기 기업 점수이고, Wf는 상기 기업 가중치이며, SubVi는 i번째 주제에 대하여 미리 설정된 상기 주제 점수이고, Wsubi는 i번째 주제에 대하여 결정된 상기 주제 가중치이고, n은 상기 적어도 하나의 주제의 개수인, 기사 분류 시스템.
◈청구항 6은(는) 설정등록료 납부시 포기되었습니다.◈

청구항 5에서,
상기 서비스 제공 서버는,
상기 대상 기업과 대응하는 회사 규모, 상기 기사들 중에서 상기 대상 기업에 대한 기사들의 개수, 및 상기 대상 기업이 속하는 산업군과 기술군 중 적어도 하나에 기초하여 상기 기업 가중치를 산출하는, 기사 분류 시스템.
삭제
삭제