KR102322899B1 - 딥러닝 nlp 모델을 활용한 뉴스 긍정도 분석 솔루션 및 장치 - Google Patents

딥러닝 nlp 모델을 활용한 뉴스 긍정도 분석 솔루션 및 장치 Download PDF

Info

Publication number
KR102322899B1
KR102322899B1 KR1020200067619A KR20200067619A KR102322899B1 KR 102322899 B1 KR102322899 B1 KR 102322899B1 KR 1020200067619 A KR1020200067619 A KR 1020200067619A KR 20200067619 A KR20200067619 A KR 20200067619A KR 102322899 B1 KR102322899 B1 KR 102322899B1
Authority
KR
South Korea
Prior art keywords
sentence
score
news
word
sentences
Prior art date
Application number
KR1020200067619A
Other languages
English (en)
Inventor
황규종
김도영
김민철
김준휘
김지원
도용남
전창환
정은철
최용승
Original Assignee
주식회사 웨이커
황규종
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 웨이커, 황규종 filed Critical 주식회사 웨이커
Priority to KR1020200067619A priority Critical patent/KR102322899B1/ko
Priority to PCT/KR2021/006968 priority patent/WO2021246812A1/ko
Application granted granted Critical
Publication of KR102322899B1 publication Critical patent/KR102322899B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

본 개시는 뉴스 기사를 분석하는 방법 및 상기 방법을 수행하는 전자 장치에 관한 것이다. 일 실시 예에 의하면, 뉴스 기사를 분석하는 방법은 상기 뉴스 기사 내 미리 저장된 금융 단어 또는 인물 단어를 포함하는 문장을 식별하는 단계; 상기 식별된 문장 중 일부의 문장을, 상기 뉴스 기사에 대한 점수를 출력하도록 학습되는 신경망 모델에 입력함으로써, 상기 신경망 모델로부터 제1 뉴스 점수를 획득하는 단계; 상기 식별된 문장 중 일부의 문장을 사전 학습 모델에 입력함으로써, 상기 사전 학습 모델로부터 제2 뉴스 점수를 획득하는 단계; 및 상기 제1 뉴스 점수 및 제2 뉴스 점수에 기초하여, 상기 뉴스 기사의 금융 성향에 관한 종합 평가 점수를 결정하는 단계; 를 포함할 수 있다.

Description

딥러닝 NLP 모델을 활용한 뉴스 긍정도 분석 솔루션 및 장치 {SOLUTION AND APPRATUS FOR NEWS POSITIVE TENDENCY ANALYSIS USING DEEP LEARNING NLP MODEL}
본 개시는 뉴스 기사를 분석하는 방법 및 장치에 관한 것이다. 보다 상세하게는 금융 분야의 뉴스 기사를 분석하는 방법 및 장치에 관한 것이다.
인터넷 기술이 발달함에 따라 신문, 방송, 잡지와 같은 언론 매체들은 오프라인 상의 인쇄 매체가 아닌, 인터넷을 통하여 뉴스 기사들을 전달하고 있다. 또한, 인터넷을 통하여 국내의 정치, 경제, 사회 문화 전반을 비롯한 뉴스들뿐만 아니라, 세계 각국의 정치, 경제, 금융 분야의 뉴스들이 기사화되고 있다.
특히, 갈수록 성장하는 세계 경제의 발달과 함께 금융 분야의 뉴스 기사들에 대한 정보 역시 인터넷 상에 넘쳐나고 있다. 이러한 금융 분야의 뉴스 기사들은, 해당 금융 이슈들에 대한 긍정적인 측면과 부정적인 측면을 모두 다룬다.
인터넷이 발달함에 따라 생산되는 대량의 뉴스 기사들을 처리하기 위한, 데이터 처리 기술들이 개발되고 있으나, 일반적인 뉴스 데이터 처리 기술들은 대량의 뉴스 기사들을 객관적으로 평가하고, 분석하는데 여전히 많은 한계를 가지고 있다.
따라서, 대량의 인터넷 뉴스 기사들을 정확하고 객관적으로 평가하기 위한 방법 및 장치 기술에 대한 개발이 요구되고 있다.
한국공개특허 제10-2009-0047646호
일 실시 예에 따르면, 뉴스 기사를 분석하는 방법 및 장치가 제공될 수 있다.
일 실시 예에 의하면 복수의 뉴스 기사 분석 모델을 이용하여 뉴스 기사를 분석하는 방법 및 장치가 제공될 수 있다.
상술한 기술적 과제를 달성하기 위한 본 개시의 일 실시 예에 따라, 상기 뉴스 기사 내 미리 저장된 금융 단어 또는 인물 단어를 포함하는 문장을 식별하는 단계; 상기 식별된 문장 중 일부의 문장을, 상기 뉴스 기사에 대한 점수를 출력하도록 학습되는 신경망 모델에 입력함으로써, 상기 신경망 모델로부터 제1 뉴스 점수를 획득하는 단계; 상기 식별된 문장 중 일부의 문장을 사전 학습 모델에 입력함으로써, 상기 사전 학습 모델로부터 제2 뉴스 점수를 획득하는 단계; 및 상기 제1 뉴스 점수 및 제2 뉴스 점수에 기초하여, 상기 뉴스 기사의 금융 성향에 관한 종합 평가 점수를 결정하는 단계; 를 포함하는 뉴스 기사를 분석하는 방법이 제공될 수 있다.
또한, 상기 기술적 과제를 해결하기 위한 본 개시의 또 다른 실시 예에 따라, 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 하나 이상의 인스트럭션들을 실행하는 적어도 하나의 프로세서; 를 포함하고, 상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 뉴스 기사 내 미리 저장된 금융 단어 또는 인물 단어를 포함하는 문장을 식별하고, 상기 식별된 문장 중 일부의 문장을, 상기 뉴스 기사에 대한 점수를 출력하도록 학습되는 신경망 모델에 입력함으로써, 상기 신경망 모델로부터 제1 뉴스 점수를 획득하고, 상기 식별된 문장 중 일부의 문장을 사전 학습 모델에 입력함으로써, 상기 사전 학습 모델로부터 제2 뉴스 점수를 획득하고, 상기 제1 뉴스 점수 및 제2 뉴스 점수에 기초하여, 상기 뉴스 기사의 금융 성향에 관한 종합 평가 점수를 결정하는, 뉴스 기사를 분석하는 장치가 제공될 수 있다.
또한, 상기 기술적 과제를 해결하기 위한 본 개시의 또 다른 실시 예에 따라, 상기 뉴스 기사 내 미리 저장된 금융 단어 또는 인물 단어를 포함하는 문장을 식별하는 단계; 상기 식별된 문장 중 일부의 문장을, 상기 뉴스 기사에 대한 점수를 출력하도록 학습되는 신경망 모델에 입력함으로써, 상기 신경망 모델로부터 제1 뉴스 점수를 획득하는 단계; 상기 식별된 문장 중 일부의 문장을 사전 학습 모델에 입력함으로써, 상기 사전 학습 모델로부터 제2 뉴스 점수를 획득하는 단계; 및 상기 제1 뉴스 점수 및 제2 뉴스 점수에 기초하여, 상기 뉴스 기사의 금융 성향에 관한 종합 평가 점수를 결정하는 단계; 를 포함하는 뉴스 기사를 분석하는 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체가 제공될 수 있다.
일 실시 예에 의하면, 금융 분야의 뉴스 기사를 효과적으로 평가 및 분석할 수 있다.
일 실시 예에 의하면, 뉴스 기사를 분석하기 위한 복수의 모델을 이용하여 객관적으로 뉴스 기사를 평가할 수 있다.
도 1은 일 실시 예에 따른 뉴스 기사를 분석하는 방법을 개략적으로 설명하기 위한 도면이다.
도 2는 일 실시 예에 따른 뉴스 기사를 분석하는 방법의 흐름도이다.
도 3은 일 실시 예에 따라 전자 장치에 미리 저장되는 금융 단어 리스트 및 인물 가중치 리스트를 설명하기 위한 도면이다.
도 4는 일 실시 예에 따라 전자 장치가, 뉴스 기사 내에서 문장을 추출하고, 추출된 문장을 이용하여 요약 데이터를 생성하는 과정을 설명하기 위한 도면이다.
도 5는 일 실시 예에 따라 전자 장치가, 신경망 모델을 이용하여 제1 뉴스 점수를 획득하는 방법을 설명하기 위한 도면이다.
도 6은 일 실시 예에 따라 전자 장치가, 사전 학습 모델을 이용하여 제2 뉴스 점수를 획득하는 방법의 흐름도이다.
도 7은 일 실시 예에 따라 전자 장치가, 미리 설정된 수의 문장을 전처리 하는 과정을 나타내는 흐름도이다.
도 8은 일 실시 예에 따라 전자 장치가, 문장 별로 결정되는 문장 가중치를 결정하기 위해, 이용하는, 문장 가중치 요소들을 설명하기 위한 도면이다.
도 9는 일 실시 예에 따라 전자 장치가, 제1 뉴스 점수 및 제2 뉴스 점수에 기초하여 종합 평가 점수를 결정하는 방법을 나타내는 흐름도이다.
도 10은 또 다른 실시 예에 따라 전자 장치가 뉴스 기사를 분석하는 방법을 나타내는 흐름도이다.
도 11은 일 실시 예에 따른 전자 장치의 블록도이다.
도 12는 일 실시 예에 따른 서버의 블록도이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 개시에 대해 구체적으로 설명하기로 한다.
본 개시에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
또한, 본 명세서에서, 어떤 막(또는 층)이 다른 막(또는 층) 또는 기판 상에 있다고 언급되는 경우에 그것은 다른 막(또는 층) 또는 기판 상에 직접 형성될 수 있거나 또는 그들 사이에 제 3의 막(또는 층)이 개재될 수도 있다 또한, 도면들에 있어서, 구성들의 크기 및 두께 등은 명확성을 위하여 과장된 것이다. 본 명세서의 다양한 실시예들에서 제1, 제2, 제3 등의 용어가 다양한 영역, 막들(또는 층들) 등을 기술하기 위해서 사용되었지만, 이들 영역, 막들이 이 같은 용어들에 의해서 한정되어서는 안 된다. 이들 용어들은 단지 어느 소정 영역 또는 막(또는 층)을 다른 영역 또는 막(또는 층)과 구별시키기 위해서 사용되었을 뿐이다. 따라서, 어느 한 실시예에의 제1막질로 언급된 막질이 다른 실시예에서는 제2막질로 언급될 수도 있다. 여기에 설명되고 예시되는 각 실시예는 그것의 상보적인 실시예도 포함한다. 본 명세서에서 '및/또는' 이란 표현은 전후에 나열된 구성요소들 중 적어도 하나를 포함하는 의미로 사용된다. 명세서 전체에 걸쳐서 동일한 참조번호로 표시된 부분들은 동일한 구성요소들을 나타낸다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
아래에서는 첨부한 도면을 참고하여 본 개시의 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
도 1은 일 실시 예에 따른 뉴스 기사를 분석하는 방법을 개략적으로 설명하기 위한 도면이다.
일 실시 예에 의하면, 전자 장치(1000)는 전자 장치와 연결된 외부 디바이스로부터 뉴스 기사(101)를 획득하고, 획득된 뉴스 기사에 대한 종합 평가 점수(112)를 결정할 수 있다. 예를 들어, 전자 장치(1000)는 외부 디바이스로부터 뉴스 기사(101)에 관한 텍스트 데이터, 이미지 데이터 또는 영상 데이터들을 획득하고, 획득된 뉴스 기사에 대한 데이터를 이용하여, 상기 뉴스 기사에 대한 종합 평가 점수(112)를 출력할 수 있다.
일 실시 예에 의하면, 전자 장치(1000)는 적어도 하나의 뉴스 기사를 분석하기 위한 뉴스 기사 분석 모델을 이용하여 뉴스 기사(101)에 대한 종합 평가 점수를 결정할 수 있다. 일 실시 예에 의하면, 뉴스 기사 분석 모델은 신경망 모델(102) 또는 사전 학습 모델(104) 중 적어도 하나를 포함할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 미리 학습된 가중치에 따른 신경망 모델이 출력하는 제1 뉴스 점수(106) 및 미리 저장된 단어들의 점수에 따라 사전 학습 모델이 출력하는 제2 뉴스 점수(108)를 이용하여, 뉴스 기사(101)에 대한 종합 평가 점수(110)를 결정할 수 있다.
일 실시 예에 의하면, 종합 평가 점수(110)는 상기 뉴스 기사에 포함된 금융 단어 또는 인물 단어 중 적어도 하나에 기초하여, 상기 뉴스 기사가 나타내는 금융 성향을 숫자로 나타낸 값일 수 있다. 일 실시 예에 의하면, 종합 평가 점수(110)는 신경망 모델(102) 내 레이어들 및 상기 레이어들 간의 연결 강도에 관한 가중치(weight)가 수정 및 갱신되거나, 사전 학습 모델(104)이 이용하는 금융 단어 리스트 및 인물 가중치 리스트 내 단어 점수 또는 인물 가중치들이 변경될 경우 달라질 수 있다.
일 실시 예에 의하면, 전자 장치(1000)는 적어도 하나의 뉴스 기사 분석 모델을 이용하여, 뉴스 기사에 관한 데이터를 처리하기 위한, AI 프로그램이 탑재되고 음성 인식 기능을 포함하는 스마트폰, 태블릿 PC, 스마트 TV, 휴대폰, 미디어 플레이어, 서버, 마이크로 서버, 기타 모바일 또는 비모바일 컴퓨팅 장치일 수 있으나, 이에 제한되지 않는다.
또한, 일 실시 예에 의하면, 전자 장치(1000)는 서버(2000)와 연동함으로써, 뉴스 기사(101)에 대한 종합 평가 점수(112)를 결정할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 서버(2000)와 통신할 수 있는 통신 모듈을 포함할 수 있다. 예를 들어, 서버(2000)는 네트워크를 통하여 전자 장치(1000)와 연결됨으로써, 전자 장치와 데이터를 송수신할 수 있는 기타 컴퓨팅 장치를 포함할 수 있다. 또한, 일 실시 예에 의하면, 서버 장치(2000)는 웨어러블 디바이스를 관리하기 위한 W-BMS(Wearable Business Management Server)일 수 있다.
일 실시 예에 의하면, 서버(2000)는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN), 부가가치 통신망(Value Added Network; VAN), 이동 통신망(mobile radio communication network), 위성 통신망 및 이들의 상호 조합을 포함하고, 도 1에 도시된 각 네트워크 구성 주체가 서로 원활하게 통신을 할 수 있도록 하는 포괄적인 의미의 데이터 통신망이며, 유선 인터넷, 무선 인터넷 및 모바일 무선 통신망을 포함할 수 있다.
도 2는 일 실시 예에 따른 뉴스 기사를 분석하는 방법의 흐름도이다.
S210에서, 전자 장치(1000)는 뉴스 기사 내 미리 저장된 금융 단어 또는 인물 단어를 포함하는 문장을 식별할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 금융 단어 및 금융 단어 별 단어 점수를 매칭함으로써 금융 단어 리스트를 생성하고, 생성된 금융 단어 리스트를 저장할 수 있다. 또한, 전자 장치(1000)는 인물 단어 및 인물 단어 별 인물 단어 가중치를 매칭함으로써 인물 가중치 리스트를 생성하고, 생성된 인물 가중치 리스트를 저장할 수 있다. 일 실시 예에 의하면, 인물 단어는, 금융(financing)분야와 관련되는 것으로 미리 결정될 수 있다. 일 실시 예에 의하면, 인물 단어는 미리 설정된 기간 동안, 공개된 금융 분야 기사 내 해당 인물 단어의 게재 횟수가 소정의 임계치 이상인지 여부에 기초하여 결정될 수 있다.
S220에서, 전자 장치(1000)는 식별된 문장 중 일부 문장을 뉴스 기사에 대한 점수를 출력하도록 학습되는 신경망 모델에 입력함으로써, 신경망 모델로부터 제1 뉴스 점수를 획득할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 미리 설정된 기간 동안의 뉴스 기사를 이용하여 학습 데이터를 생성하고, 생성된 학습 데이터에 기초하여 신경망 모델을 미리 학습시킬 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 서버로부터 미리 학습된 신경망 모델을 획득할 수도 있다.
S230에서, 전자 장치(1000)는 식별된 문장 중 일부의 문장을 사전 학습 모델에 입력함으로써, 사전 학습 모델로부터 제2 뉴스 점수를 획득할 수 있다. 일 실시 예에 의하면, 사전 학습 모델은 사전(dictionary)을 이용하여 기사 내 소정의 단어를 식별하고, 식별된 단어에 할당되는 단어 점수에 기초하여, 제2 뉴스 점수를 출력할 수 있다.
S240에서, 전자 장치(1000)는 제1 뉴스 점수 및 제2 뉴스 점수에 기초하여 뉴스 기사의 금융 성향에 관한 종합 평가 점수를 결정할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 사전 학습 모델로부터 제2 뉴스 점수 외에, 제2 뉴스 점수의 신뢰 정도에 관한 확률 값인 중립 지수를 획득할 수 있다. 전자 장치(1000)는 중립 지수 값에 기초하여, 제1 뉴스 점수 및 제2 뉴스 점수에 적용될 평가 가중치를 결정하고, 결정된 평가 가중치에 따라 제1 뉴스 점수 및 제2 뉴스 점수를 가중합함으로써 종합 평가 점수를 결정할 수 있다.
도 3은 일 실시 예에 따라 전자 장치에 미리 저장되는 금융 단어 리스트 및 인물 가중치 리스트를 설명하기 위한 도면이다.
일 실시 예에 의하면, 전자 장치(1000)는 금융 단어 및 금융 단어 별 단어 점수를 매칭함으로써 금융 단어 리스트(310)를 생성할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 미리 설정된 금융 단어들에 대한 전문가들의 전문가 평가 점수를 획득할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 복수의 전문가들로부터, 특정 금융 단어에 대한 전문가 평가 점수를 획득하고, 획득된 전문가 평가 점수에 기초하여 단어 점수 벡터를 생성할 수 있다. 일 실시 예에 의하면, 단어 점수 벡터는 각 전문가의 평가 점수를 벡터 원소로 포함할 수 있다. 전자 장치(1000)는 단어 점수 벡터 내 원소들의 평균 및 표준 편차를 식별할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 금융 단어들을 표제어 형태로 변환하고, 표제어 형태로 변환된 금융 단어와 상기 금융 단어 별 단어 점수를 매칭함으로써 금융 단어 리스트(310)를 생성할 수도 있다.
예를 들어, 전자 장치(1000)는 5명의 금융 전문가들로부터 'competent'에 대한 사용자 평가 점수로써, 각각 2점, 2점, 3점, 2점, 1점을 획득하고, 금융 전문가들로부터 획득된 각 전문가 평가 점수를 벡터 원소로 하는 단어 벡터 점수 {2,2,3,2,1}을 생성할 수 있다. 전자 장치(1000)는 상기 생성된 단어 벡터 점수의 벡터 원소의 평균 및 표준 편차를 각각 2 및 0.632456으로 식별할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)가 획득하는 전문가 평가 점수는 -5 내지 5사이의 값을 포함할 수 있으나, 이에 한정되는 것은 아니다.
일 실시 예에 의하면, 전자 장치(1000)가 획득한 전문가 평가 점수는 해당 단어에 대한 각 전문가들의 긍정적 또는 부정적 정도를 나타내는 지표 값일 수 있다. 일 실시 예에 의하면, 전자 장치(1000)가 획득한 전문가 평가 점수는 다음과 같은 긍정적 또는 부정적 정도를 나타낼 수 있다. 예를 들어, -5 내지 5사이의 전문가 평가 점수는 다음과 같이, 금융 단어에 대한 긍정적 또는 부정적 정도를 나타낼 수 있다 (예컨대, -5: 극도로 안좋은, -4: 매우 안좋은, -3: 안 좋은, -2: 조금 안좋은, -1: 애매하게 안좋은, 0: 보통, 1: 애매하게 좋은, 2: 조금 좋은, 3: 좋은, 4: 매우 좋은, 5: 극도로 좋은). 하지만, 이에 한정되는 것은 아니며, 금융 단어에 대한 전문가들의 평가 점수의 범위는 달라질 수 있다.
일 실시 예에 의하면, 전자 장치(1000)는 복수의 금융 전문가들로부터 소정의 인물 단어에 대한 평가 점수를 획득할 수 있다. 전자 장치(1000)는 복수의 금융 전문가들로부터 획득된, 상기 인물 단어에 대한 평가 점수에 기초하여 인물 단어 가중치를 생성할 수 있다. 일 실시 예에 의하면, 인물 단어 별 가중치는 벡터형태로 표현될 수 있다. 전자 장치(1000)는 인물 단어 및 상기 인물 단어 별 인물 단어 가중치를 매칭함으로써 인물 가중치 리스트(320)를 생성할 수 있다.
예를 들어, 전자 장치(1000)는 5명의 금융 전문가들로부터 버크셔 해서웨이의 회장인, 'Warren Edward Buffet'에 대한 평가 점수를 각각 획득하고, 획득된 평가 점수에 기초하여 인물 가중치를 생성할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)가 획득하는 인물 단어에 대한 전문가 평가 점수는 -5 내지 5 사이의 값을 포함할 수 있다. 그러나, 이에 한정되는 것은 아니며, 전자 장치(1000)가 획득하는 인물 단어에 대한 전문가 평가 점수의 범위는 달라질 수 있다. 전자 장치(1000)는 상술한 금융 단어 리스트(310) 및 인물 가중치 리스트(320)를 전자 장치 내 메모리에 미리 저장할 수 있다.
도 4는 일 실시 예에 따라 전자 장치가, 뉴스 기사 내에서 문장을 추출하고, 추출된 문장을 이용하여 요약 데이터를 생성하는 과정을 설명하기 위한 도면이다.
일 실시 예에 의하면, 전자 장치(1000)는 뉴스 기사를 획득하고, 획득된 뉴스 기사 내 각각의 문장을 식별할 수 있다. 예를 들어, 전자 장치(1000)는 미리 설정된 금융 단어 및 인물 단어를 포함하는 문장을 뉴스 기사에서 식별할 수 있다. 예를 들어, 전자 장치(1000)는 뉴스 기사(410)를 획득하고, 획득된 뉴스 기사(410) 내 소정의 금융 단어 또는 인물 단어 중 적어도 하나를 포함하는 문장 1 내지 문장 6을 식별할 수 있다.
일 실시 예에 의하면, 전자 장치(1000)는 뉴스 기사에 포함된 문장을 식별하고, 식별된 문장 각각의 기사 내 위치 정보를 식별할 수 있다. 전자 장치(1000)는 식별된 문장이 뉴스 기사 내에서 몇 번째 문장인지 여부를 식별할 수 있다. 전자 장치(1000)는 식별된 문장의 위치 정보에 기초하여, 뉴스 기사 내 첫 문장 및 뉴스 기사 내 마지막 문장을 식별할 수도 있다.
일 실시 예에 의하면, 전자 장치(1000)는 뉴스 기사에서 식별되는 문장 중, 소정의 문장을 추출할 수 있다. 예를 들어, 전자 장치(1000)는 뉴스 기사(410)에서 추출된 문장들 중, 문장 1 내지 4 및 문장 6을 추출할 수 있다. 전자 장치(1000)는 뉴스 기사 내 소정의 금융 단어 또는 인물 단어 중 적어도 하나를 포함하는 문장 중, 일부 문장을 추출하고, 추출된 일부 문장을 추출하여 요약 뉴스 기사(420)를 생성할 수 있다.
일 실시 예에 의하면, 전자 장치(1000)는 금융 단어 또는 상기 인물 단어를 포함하는 문장, 뉴스 기사 내 첫 문장 및 상기 뉴스 기사 내 마지막 문장 중, 점수 산정 대상이 되는 기 설정된 수의 문장을 추출하고, 추출된 기 설정된 수의 문장을 이용하여 요약 뉴스 기사(420)를 생성할 수도 있다. 전자 장치(1000)는 요약 뉴스 기사를 인코딩함으로써 요약 데이터(430)를 생성할 수 있다.
일 실시 예에 의하면, 전자 장치(1000)는 요약된 뉴스 기사에 대한 텍스트 데이터를 요약 데이터(430)로 생성할 수도 있다. 또 다른 실시 예에 의하면, 전자 장치(1000)는 요약 뉴스 기사를 인코딩함으로써 상기 요약 뉴스 기사를 이진화된 데이터로 변환함으로써 요약 데이터(430)를 생성할 수도 있다.
도 5는 일 실시 예에 따라 전자 장치가, 신경망 모델을 이용하여 제1 뉴스 점수를 획득하는 방법을 설명하기 위한 도면이다.
일 실시 예에 의하면, 전자 장치(1000)는 도 4에서 상술한 과정에 따라 생성된 요약 데이터(502)를 신경망 모델(510)에 입력하고, 상기 신경망 모델(510)로부터 출력되는 제1 뉴스 점수(512)를 획득할 수 있다. 일 실시 예에 의하면, 신경망 모델(510)은 적어도 하나의 노드들을 포함하는 적어도 하나의 레이어들 및 상기 레이어들의 연결 강도에 관한 가중치를 포함할 수 있다.
일 실시 예에 의하면, 전자 장치(1000)가 이용하는 신경망 모델은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 역시 이에 한정되는 것은 아니다.
일 실시 예에 의하면, 전자 장치(1000)는 전자 장치와 연결된 외부 디바이스로부터 미리 설정된 주기에 따라 뉴스 기사를 획득하고, 획득된 뉴스 기사로부터 학습 데이터를 생성할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 학습 데이터 외에, 획득된 뉴스 기사들로부터 검증 데이터를 더 생성할 수도 있다. 전자 장치(1000)는 학습 데이터에 기초하여 신경망 모델을 학습 시키고, 학습 데이터를 상기 신경망 모델로부터 입력함으로써 출력되는 신경망 모델의 출력 값과, 검증 데이터를 상기 신경망 모델로부터 입력함으로써 출력되는 신경망 모델의 출력 값의 차이(예컨대 손실 loss)가 작아지도록, 상기 신경망 모델을 학습(train)시킬 수 있다.
전자 장치(1000)가 신경망 모델을 학습 시키는 동작은, 상기 신경망 모델 내 레이어들 및 상기 레이어들의 연결 강도에 관한 가중치들을 수정 및 갱신하는 동작에 대응될 수 있다. 전자 장치(1000)는 학습이 완료된 신경망 모델(510)에, 소정의 뉴스 기사로부터 획득된 요약 데이터를 입력함으로써, 제1 뉴스 점수(512)를 획득할 수 있다.
또한, 일 실시 예에 의하면, 전자 장치(1000)는 외부 디바이스로부터 수신된 뉴스 기사 내 복수의 문장을 식별하고, 식별된 문장 중 추출된 일부의 문장을 전 처리하며, 전 처리된 일부 문장을 학습된 신경망 모델(510)에 입력함으로써, 상기 신경망 모델로부터 제1 뉴스 점수를 획득할 수 있다.
도 6은 일 실시 예에 따라 전자 장치가, 사전 학습 모델을 이용하여 제2 뉴스 점수를 획득하는 방법의 흐름도이다.
S610에서, 전자 장치(1000)는 뉴스 기사 내에서 식별된 소정의 문장들 중, 추출된 일부 문장을 전 처리할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)가 추출된 일부 문장을 전 처리 하는 동작은, 도 4에서 상술한 요약 데이터 내 문장들을 전 처리하는 동작에 대응될 수 있다. 후술하는 도 7을 참조하여, 전자 장치(1000)가 추출된 일부 문장을 전 처리하는 동작을 구체적으로 설명하기로 한다.
S620에서, 전자 장치(1000)는 전 처리된 문장 내 부정어구, 부사, 문장 부호, 강조어구, 부정어 또는 인물 단어 중 적어도 하나에 기초하여, 전 처리된 문장 각각에 대한 문장 가중치를 결정할 수 있다. 예를 들어, 전자 장치(1000)는 S610에서, 전 처리된 문장에 포함된 인물 단어에 대하여 미리 할당되어 있는 인물 단어 가중치를, 해당 인물 단어를 포함하는 문장의 가중치로 결정할 수 있다.
일 실시 예에 의하면, 전자 장치(1000)는 전 처리된 문장 내 not, isn't와 같은 부정어구가 포함되는 경우, 해당 부정어구를 포함하는 전 처리된 문장의 문장 가중치에 -1을 곱할 수 있다. 즉, 전자 장치(1000)는 전 처리된 문장 내 not, isn't와 같은 부정어구가 포함되는 경우, 해당 부정어구를 포함하는 전 처리된 문장의 문장 가중치를 음수로 결정할 수 있다.
일 실시 예에 의하면, 전자 장치(1000)는 전 처리된 문장에 포함된 부사에 기초하여 전 처리된 문장 별 문장 가중치를 결정할 수 있다. 예를 들어, 전자 장치(1000)는 전 처리된 문장 내 긍정 부사(예컨대 absolutely, amazingly)가 포함되는 경우, 포함된 긍정 부사의 수에 기초하여 해당 긍정 부사를 포함하는 문장의 문장 가중치에 소정의 가중치 값을 더 할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 전 처리된 문장 내 긍정 부사가 포함되는 경우, 해당 문장의 문장 가중치를 0.3만큼 증가시킬 수 있으나 문장 가중치의 증가 정도는 달라질 수 있다. 또한, 일 실시 예에 의하면, 전자 장치(1000)는 전 처리된 문장 내 긍정 부사가 2개 포함되는 경우 가중치를 0.6만큼 증가시킬 수도 있으나, 이에 한정되는 것은 아니다.
또 다른 실시 예에 의하면, 전자 장치(1000)는 전 처리된 문장 내 부정 부사(예컨대 scarcely, hardly 등)가 포함되는 경우, 포함된 부정 부사의 수에 기초하여, 해당 부정 부사를 포함하는 문장의 문장 가중치에 소정의 가중치 값을 뺄 수 있다. 일 실시 예에 의하면 전자 장치(1000)는 전 처리된 문장 내 부정 부사가 포함되는 경우, 해당 문장의 문장 가중치를 0.3만큼 감소시킬 수 있으나, 이에 한정되는 것은 아니다. 또한, 일 실시 예에 의하면, 전자 장치(1000)는 전 처리된 문장 내 부정 부사가 2개 포함되는 경우, 가중치를 0.6만큼 감소 시킬 수도 있으나, 이에 한정되는 것은 아니다.
일 실시 예에 의하면, 전자 장치(1000)는 전 처리된 문장 내 문장 부호에 기초하여, 해당 문장 내 문장 가중치를 결정할 수 있다. 예를 들어, 전자 장치(1000)는 전 처리된 문장이 강조 목적의 느낌표 문장 부호를 포함하는 경우, 느낌표를 포함하는 문장의 문장 가중치를 증가시킬 수 있다. 일 실시 예에 의하면, 전자 장치가 문장 가중치를 증가시키는 동작은, 소정의 가중치 값을 더하거나, 소정의 스케일에 따른 스케일 값을 곱함으로써, 문장 가중치를 스케일업(scale-up)하는 동작에 대응될 수 있다.
그러나 또 다른 실시 예에 의하면, 전자 장치(1000)는 전 처리된 문장이 물음표 또는 쉼표와 같은 문장 부호를 포함하는 경우, 해당 문장의 문장 가중치를 감소시킬 수 있다. 일 실시 예에 의하면, 전자 장치가 문장 가중치를 감소시키는 동작은, 소정의 가중치 값을 빼거나, 소정의 스케일에 따른 스케일 값을 곱함으로써, 문장 가중치를 스케일다운(scale-down)하는 동작에 대응될 수 있다. 예를 들어, 전자 장치(1000)는 문장 가중치가 0.3인 전 처리된 문장이 느낌표 문장 부호로 끝나는 경우, 문장 가중치 0.3을 50% 스케일 업함으로써, 0.45로 결정할 수 있다.
일 실시 예에 의하면, 전자 장치(1000)는 문장에 강조어구(예컨대 very)가 포함되는 경우, 전 처리된 문장의 가중치를 증가시킬 수 있다. 또 다른 실시 예에 의하면, 전자 장치(1000)는 전 처리된 문장에 부정어(예컨대 never, so, without)가 포함되는 경우, 해당 부정어를 포함하는 전 처리된 문장의 문장 가중치를 크게하거나 작게 할 수 있다.
예를 들어, 전자 장치(1000)는 전 처리된 문장이 1개의 긍정 부사를 포함하고, 느낌표로 종결되며, 부정어구 not을 포함하는 경우, 1개 긍정 부사로 인한 증가된 문장 가중치를 0.3으로 증가시키고, 느낌표로 인하여 문장 가중치를 0.45로 스케일업 하며, 부정어구 not이 포함되었으므로, 스케일업된 문장 가중치 0.45를 -0.45로 변경할 수 있다. 따라서, 전자 장치(1000)는 전 처리된 문장이 1개의 긍정 부사를 포함하고, 느낌표로 종결되며, 부정어구 not을 포함하는 경우, 해당 문장의 문장 가중치를 -0.45로 결정할 수 있다. 그러나, 전자 장치(1000)가 문장 가중치를 증감하는 정도는 이에 한정되는 것은 아니다.
S630에서, 전자 장치(1000)는 전 처리된 문장 각각에 대하여 결정된 문장 가중치를, 전 처리된 문장 내 각 금융 단어들의 단어 점수에 적용함으로써, 전 처리된 문장 각각의 문장 점수를 결정할 수 있다. 예를 들어, 전자 장치(1000)는 전 처리된 문장 내 미리 설정된 단어들을 식별하고, 식별된 단어들 각각에 대하여 할당되는 단어 점수를 합산함으로써, 문장 단어 점수를 결정할 수 있다. 전자 장치(1000)는 문장 단어 점수에, 문장 가중치를 곱함으로써, 최종적으로 문장 점수를 결정할 수 있다.
예를 들어, 하나의 전 처리된 문장에 포함된 금융 단어들의 점수의 합이 0.4이고, 해당 전 처리된 문장이 1개의 긍정 부사를 포함하고, 느낌표로 종결되며, 부정어구 not을 포함하는 경우, 문장 단어 점수 0.4에 -0.45 문장 가중치를 적용함으로써, 전 처리된 문장의 문장 점수는 -0.18로 결정될 수 있다. 또 다른 실시 예에 따라 하나의 전 처리된 문장에 포함된 금융 단어들의 점수의 합이 0.4이고, 해당 전 처리된 문장이 1개의 긍정 부사를 포함하고, 느낌표로 종결되며, 부정어구를 포함하지 않는 경우, 문장 단어 점수 0.4에 0.45 문장 가중치를 적용(예컨대 0.4*0.45)함으로써, 전 처리된 문장의 문장 점수는 0.18로 결정될 수 있다.
또 다른 실시 예에 의하면, 전자 장치(1000)는 전 처리된 문장 각각에 포함된 각 금융 단어들의 단어 점수에 문장 별로 결정된 문장 가중치를 적용한 후, 문장 가중치가 적용된 단어 점수들을 가중합함으로써, 전 처리된 문장의 문장 점수를 결정할 수도 있다.
S640에서, 전자 장치(1000)는 식별된 위치 정보에 기초하여, 전 처리된 문장 각각에 대하여 결정된 문장 점수를 조정할 수 있다. 또한, 일 실시 예에 의하면, 전자 장치(1000)는 전 처리된 문장의 위치 정보 및 상기 전 처리된 문장 내 포함된 접속사에 기초하여, 전 처리된 문장 각각에 대하여 결정된 문장 점수를 조정할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)가 식별된 위치 정보에 기초하여, 전 처리된 문장 각각에 대하여 결정된 문장 점수를 조정하는 동작은, 전자 장치(1000)가 식별된 위치 정보에 기초하여, 전 처리된 문장 각각에 대하여 결정된 문장 가중치를 조정하고, 조정된 문장 가중치를, 전 처리된 문장 각각에 대하여 결정된 문장 점수에 적용하는 동작에 대응될 수 있다.
예를 들어, 전자 장치(1000)는 뉴스 기사 내에서 상기 전 처리된 문장의 위치에 관한 위치 정보를 식별할 수 있다. 전자 장치(1000)는 전 처리된 문장들의 위치 정보에 기초하여, 전 처리된 문장 간의 컨텍스트를 식별하고, 식별된 컨텍스트에 기초하여 전 처리된 문장 각각에 대하여 결정된 문장 점수들을 조정할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)가, 전 처리된 문장의 위치 정보에 기초하여 식별하는 컨텍스트는 전 처리된 문장 사이의 '맥락' 또는 '문맥'을 의미할 수 있다.
예를 들어, 전자 장치(1000)는 전 처리된 문장의 위치 정보에 기초하여, 전 처리된 문장이 연속된 문장인지 여부를 식별할 수 있다. 전자 장치(1000)는 전 처리된 문장들이 연속된 문장인 경우, 전 처리된 문장에 대하여 결정된 문장 가중치 모두에 대하여, 추가 가중치를 더 부여할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 전 처리된 문장이 연속된 문장인 경우, 전 처리된 문장 각각에 대하여 결정된 문장 가중치들을 0.1만큼 증가시킬 수도 있으나, 이에 한정되는 것은 아니다. 전자 장치(1000)는 증가된 문장 가중치들을, 전 처리된 문장 각각에 적용함으로써, 전 처리된 문장 각각의 문장 점수들을 조정할 수 있다.
또한, 일 실시 예에 의하면, 전자 장치(1000)는 전 처리된 문장의 위치 정보 및 상기 전 처리된 문장에 포함된 접속사에 기초하여, 전 처리된 문장 각각에 대하여 문장 점수를 조정할 수 있다. 예를 들어, 전자 장치(1000)는 전 처리된 문장의 위치 정보에 기초하여, 전 처리된 문장이 2개의 연속된 문장인지 여부를 식별하고, 2개의 연속된 문장이 but 접속사로 연결되는 경우, 앞의 전 처리된 문장의 문장 가중치는 감소시키고, but 접속사 이후에 연결되는 뒤의 문장의 문장 가중치를 증가시킬 수도 있다.
일 실시 예에 의하면, 전자 장치(1000)는 2개의 연속된 문장이 but 접속사로 연결되는 경우, 앞의 전 처리된 문장의 문장 가중치는 0.4만큼 감소시키고, but 접속사 이후에 연결되는 뒤의 문장의 문장 가중치는 0.4만큼 증가시킬 수 있다. 전자 장치(1000)는 but 접속사 앞의 전 처리된 문장 내 단어들의 점수의 합에, 0.4만큼 감소된 문장 가중치를 적용함으로써, but 접속사 앞의 전 처리된 문장의 문장 점수를 조정할 수 있다. 또한, 전자 장치(1000)는 but 접속사 뒤의 전 처리된 문장 내 단어들의 점수의 합에 0.4만큼 증가된 문장 가중치를 적용함으로써, but 접속사 뒤의 전 처리된 문장의 문장 점수를 조정할 수 있다.
S650에서, 전자 장치(1000)는 조정된 문장 점수를 이용하여 제2 뉴스 점수를 획득할 수 있다. 예를 들어, 전자 장치(1000)는 전 처리된 문장 각각에 대하여 문장 점수들이 조정되면, 조정된 문장 점수들을 합함으로써, 제2 뉴스 점수를 획득할 수 있다.
도 7은 일 실시 예에 따라 전자 장치가, 미리 설정된 수의 문장을 전처리 하는 과정을 나타내는 흐름도이다.
S720에서, 전자 장치(1000)는 뉴스 기사 식별된 문장들 중, 추출된 일부의 문장을 토큰화(Tokenizing)함으로써, 문장 내 각 단어들을 식별할 수 있다. 도 7에는 도시되지 않았지만, 전자 장치(1000)는 추출된 일부 문장을 토큰화한 후, 토큰화된 일부 문장 내 단어들을 토큰화 하는 과정을 더 수행함으로써, 추출된 문장 내 단어들을 식별할 수도 있다. 일 실시 예에 의하면, 전자 장치(1000)는 문법적으로 더 이상 나눌 수 없는 단위로, 추출된 문장들을 분해함으로써, 문장을 토큰화 할 수 있다. 또한, 전자 장치(1000)는 문장 내 문장 부호, 띄어쓰기 중 적어도 하나에 기초하여, 추출된 문장들을 토큰화하고, 토큰화된 문장으로부터 단어를 식별할 수 있다.
S740에서, 전자 장치(1000)는 식별된 단어들 중, 문장 점수 산정에 사용되지 않는 단어들을 제거할 수 있다. 예를 들어, 전자 장치(1000)는 문장을 토큰화함으로써 식별되는 단어들 중, 문장의 점수 산정에 필요 없는 단어 리스트를 생성해둘 수 있고, 생성된 단어 리스트에 포함된 단어들이 식별되는 경우, 해당 단어들을 제거할 수 있다.
S760에서, 전자 장치(1000)는 문장 점수 산정에 사용되지 않는 단어들을 제거하고 남은 각 문장 내 단어들을 표제어 형태로 변환할 수 있다. 예를 들어, 전자 장치(1000)는 문장 점수 산정에 사용되지 않는 단어들을 제거하고 남은 단어들이 사전에 기재된 표제어 형태가 아닌 경우(예컨대 looks) 사전에 기재된 표제어 형태(예컨대 look)로 남은 단어들을 변환할 수 있다. 전자 장치(1000)는 표제어 형태로 변환된 단어들을 포함하는 문장을 이용하여 문장 별 가중치를 결정하고, 결정된 가중치에 기초하여 문장 별 문장 점수를 결정할 수 있다.
도 8은 일 실시 예에 따라 전자 장치가, 문장 별로 결정되는 문장 가중치를 결정하기 위해, 이용하는, 문장 가중치 요소들을 설명하기 위한 도면이다.
도 8을 참조하면, 전자 장치(1000)가 문장 별 문장 가중치를 결정하기 위해 이용하는 문장 점수 요소(804) 및 각 문장 점수 요소의 요소 내역(806)이 도시된다. 전자 장치(1000)가 이용하는 문장 점수 요소는 소정의 식별 번호(802)에 따라 전자 장치(1000)내 메모리에 미리 저장될 수 있다. 전자 장치(1000)는 도 7의 전 처리과정에 따라 전 처리된 문장 내 부정어구, 부사, 문장 부호, 강조어구, 부정어 또는 인물 단어 중 적어도 하나에 기초하여, 전 처리된 문장 별 문장 가중치를 결정할 수 있다.
일 실시 예에 의하면, 문장 가중치 요소(804)는 부정어구, 부사, 문장 부호, 접속사, 강조어구, 부정어, 인물 단어 중 적어도 하나를 포함할 수 있다. 전자 장치(1000)는 전 처리된 문장에 포함된 문장 가중치 요소에 기초하여 문장 별 문장 가중치를 결정할 수 있다. 그러나, 또 다른 실시 예에 의하면, 상기 문장 가중치 요소를 포함하는 문장에 인접한 다른 문장의 문장 가중치 요소를 변경할 수도 있다. 예를 들어, 전자 장치(1000)는 2개의 연속된 문장이 문장 가중치 요소(804)인 but 접속사로 연결되는 경우(또는 2개의 연속된 문장 중 뒤의 문장이 문장 가중치 요소인 but 접속사를 포함하는 경우), 앞의 전 처리된 문장의 문장 가중치는 0.4만큼 감소시키고, but 접속사 이후에 연결되는 뒤의 문장의 문장 가중치는 0.4만큼 증가시킬 수 있다.
일 실시 예에 의하면, 문장 가중치 요소 중, 부정어구는 요소 내역(806)으로써, not, isn't를 포함할 수 있다. 또한, 일 실시 예에 의하면, 문장 가중치 요소 중, 부사는 긍정 부사 및 부정부사를 포함할 수 있고, 긍정 부사는 absolutely 또는 amazingly를 포함할 수 있으며, 부정 부사는 scarcely 또는 hardly 중 적어도 하나를 포함할 수 있다. 그러나 이에 한정되는 것은 아니다.
일 실시 예에 의하면, 문장 부호는 느낌표, 물음표, 쉼표를 포함할 수 있고, 기타 문장 내 일부 위치에 삽입되어 문장의 의미를 강조하거나, 보조하기 위한 기타 문장 부호들을 더 포함할 수도 있다.
일 실시 예에 의하면, 접속사는 but, however 등을 포함할 수 있으나 이에 한정되는 것은 아니다. 또한, 일 실시 예에 의하면, 강조어구는 very 등을 포함할 수 있고, 부정어는 never, so, without을 포함할 수 있으며, 인물 단어는 도 3에 도시된 인물 가중치 리스트에 도시된 인명을 포함할 수 있다.
도 9는 일 실시 예에 따라 전자 장치가, 제1 뉴스 점수 및 제2 뉴스 점수에 기초하여 종합 평가 점수를 결정하는 방법을 나타내는 흐름도이다.
S920에서, 전자 장치(1000)는 사전 학습 모델로부터 출력된 제2 뉴스 점수를 정규화할 수 있다. 예를 들어, 전자 장치(1000)가 사전 학습 모델로부터 획득할 수 있는 제2 뉴스 점수가 가지는 점수의 분포 패턴은 신경망 모델로부터 획득할 수 있는 제1 뉴스 점수가 가지는 점수의 분포 패턴과 다를 수 있다. 따라서, 전자 장치(1000)는 사전 학습 모델로부터 출력된 제2 뉴스 점수를, 제1 뉴스 점수가 가지는 점수의 분포 패턴에 따라 정규화함으로써, 점수의 분포 패턴을 유사하게 만들 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 제2 뉴스 점수를 -1 내지 1 사이의 점수로 정규화할 수 있다.
S940에서, 전자 장치(1000)는 사전 학습 모델로부터 획득된 중립 지수 값에 기초하여, 제1 뉴스 점수 및 제2 뉴스 점수에 적용될 평가 가중치를 결정할 수 있다. 예를 들어, 전자 장치(1000)는 사전 학습 모델로부터, 뉴스 기사에 대한 제2 뉴스 점수를 획득하는 것에 더하여, 중립 지수를 더 획득할 수도 있다. 또 다른 실시 예에 의하면, 전자 장치(1000)는 제2 뉴스 점수를 획득하는 것에 더하여, 중립 지수, 부정 지수 및 긍정 지수를 더 획득할 수도 있다.
일 실시 예에 의하면, 전자 장치(1000)는 중립 지수가 제1 임계치 보다 작거나 같은 경우, 제1 평가 가중치를 작게하고, 제2 평가 가중치를 크게 결정할 수 있다. 또 다른 실시 예에 의하면, 전자 장치(1000)는 중립 지수가 제2 임계치 보다 크거나 같은 경우, 제1 평가 가중치를 크게하고, 제2 평가 가중치를 작게 결정할 수 있다.
S960에서, 전자 장치(1000)는 결정된 평가 가중치에 따라 제1 뉴스 점수 및 정규화된 제2 뉴스 점수를 가중합함으로써 종합 평가 점수를 결정할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 사전 학습 모델로부터 출력된 중립 지수의 값의 범위에 기초하여, 제1 뉴스 점수 및 제2 뉴스 점수에 적용될 평가 가중치를 서로 다르게 결정하고, 서로 다르게 결정된 가중치를 제1 뉴스 점수 및 제2 뉴스 점수에 적용할 수 있다. 후술하는 도 10을 참조하여, 전자 장치(1000)가 중립 지수의 값에 기초하여, 제1 뉴스 점수 및 제2 뉴스 점수에 적용할 평가 가중치를 결정하고, 결정된 평가 가중치에 따라 제1 뉴스 점수 및 제2 뉴스 점수를 가중합하는 방법을 더 구체적으로 설명하기로 한다.
이하에서는, 전자 장치(1000)가 사전 학습 모델로부터 획득하는 긍정 지수, 부정 지수 및 중립 지수 값에 대하여 구체적으로 설명하기로 한다. 일 실시 예에 의하면, 전자 장치(1000)가 사전 학습 모델로부터 획득하는 중립 지수, 부정 지수 및 긍정 지수는 뉴스 기사로부터 추출된 일부의 문장들 각각에 포함된 단어들이 나타내는 단어 점수의 분포 패턴에 따라 결정될 수 있다. 일 실시 예에 의하면, 중립 지수, 부정 지수 및 긍정 지수의 합은 1일 수 있으나, 이에 한정되는 것은 아니다.
긍정 지수는 뉴스 기사 내 양의 단어 점수를 포함하는 단어들(긍정적 금융 단어들)이, 음의 단어 점수를 포함하는 단어들(부정적 금융 단어들)보다 많이 분포할 경우, 크게 출력될 수 있고, 부정 지수는 뉴스 기사 내 음의 단어 점수를 포함하는 단어들(부정적 금융 단어들)이 양의 단어 점수를 포함하는 단어들(긍정적 금융 단어들)보다 많을 경우, 크게 출력될 수 있다. 또 다른 실시 예에 의하면, 긍정 지수는 뉴스 기사 내 양의 문장 점수를 가지는 문장들의 수가, 음의 문장 점수를 가지는 문장들의 수 보다 많을 경우, 크게 출력될 수 있고, 부정 지수는 뉴스 기사 내 음의 문장 점수를 가지는 문장들의 수가, 양의 문장 점수를 가지는 문장들의 수 보다 많을 경우 크게 출력될 수 있다.
일 실시 예에 의하면, 중립 지수는 사전 학습 모델로부터 출력된 제2 뉴스 점수에 대한 신뢰도 정도를 확률 값으로 나타낸 값일 수 있다. 예를 들어, 중립 지수가 기 설정된 임계치 보다 낮은 경우, 제2 뉴스 점수는 높은 확률로 신뢰할 수 있지만, 중립 지수가 기 설정된 임계치 보다 큰 경우, 제2 뉴스 점수의 신뢰 확률은 낮을 수 있다. 예를 들어, 전자 장치(1000)가 이용하는 사전 학습 모델은, 뉴스 기사로부터 추출된 일부 문장(예컨대 요약 데이터 내 문장들) 각각에 대한 문장 점수들의 분포가 음의 문장 점수 및 양의 문장 점수로 명확하게 분류될 수 있도록 분포되는 경우, 중립 지수를 낮게 결정할 수 있다. 그러나, 전자 장치(1000)가 이용하는 사전 학습 모델은, 뉴스 기사로부터 추출된 일부 문장 각각에 대한 문장 점수들의 분포가 음의 문장 점수 및 양의 문장 점수로 명확하게 구분되지 않는 경우, 중립 지수를 크게 결정할 수 있다. 일 실시 예에 의하면, 중립 지수가 큰 경우, 사전 학습 모델로부터 출력된 제2 뉴스 점수에 대한 신뢰도가 낮을 수 있고, 중립 지수가 작은 경우, 사전 학습 모델로부터 출력된 제2 뉴스 점수에 대한 신뢰도가 높을 수 있다.
일 실시 예에 의하면, 중립 지수는 뉴스 기사 내 추출된 일부 문장 단위를 기준으로 결정될 수도 있다. 일 실시 예에 의하면, 중립 지수는 문장 단위 내 양의 점수를 가지는 단어가 음의 점수를 가지는 단어 보다 많이 포함되는 경우, 또는 문장 단위 내 음의 점수를 가지는 단어가 양의 점수를 가지는 단어 보다 많이 포함되는 경우와 같이, 문장 내 문장 점수의 성향이 명확히 구분되는 경우, 낮게 출력될 수 있다. 그러나, 중립 지수는 문장 단위 내 양의 점수를 가지는 단어 및 음의 점수를 가지는 단어의 수가 비슷한 경우, 또는 해당 문장에 미리 설정된 금융 단어 또는 인물 단어를 포함하는 문장이 없는 경우, 크게 출력될 수 있다.
도 10은 또 다른 실시 예에 따라 전자 장치가 뉴스 기사를 분석하는 방법을 나타내는 흐름도이다.
S1010에서, 전자 장치(1000)는 뉴스 기사 내 미리 저장된 금융 단어 또는 인물 단어를 포함하는 문장을 식별할 수 있다. S1010은 도 2의 S210에 대응될 수 있으므로 구체적인 설명은 생략하기로 한다.
S1012에서, 전자 장치(1000)는 식별된 문장 중 일부 문장을 뉴스 기사에 대한 점수를 출력하도록 미리 학습되는 신경망 모델에 입력함으로써 신경망 모델로부터 제1 뉴스 점수를 획득할 수 있다. S1012는 S220에 대응될 수 있으므로 구체적인 설명은 생략하기로 한다.
S1014에서, 전자 장치(1000)는 식별된 문장 중 일부의 문장을 사전 학습 모델에 입력함으로써, 사전 학습 모델로부터 제2 뉴스 점수 및 중립 지수를 획득할 수 있다. 또 다른 실시 예에 의하면, 전자 장치(1000)는 식별된 문장 중 일부의 문장을 사전 학습 모델에 입력함으로써, 사전 학습 모델로부터, 제2 뉴스 점수, 긍정 지수, 부정 지수 및 중립 지수를 획득할 수도 있다. S1014에서, 전자 장치(1000)가 사전 학습 모델을 이용하여 제2 뉴스 점수를 획득하는 동작은 도 6의 S610 내지 S650에 대응될 수 있으므로 구체적인 설명은 생략하기로 한다.
S1016에서, 전자 장치(1000)는 사전 학습 모델로부터 출력된 중립 지수가 제1 임계치 이하인지 여부를 식별할 수 있다. S1018에서, 전자 장치(1000)는 사전 학습 모델로부터 출력된 중립 지수가 제2 임계치 미만인지 여부를 식별할 수 있다. S1022에서, 전자 장치(1000)는 사전 학습 모델로부터 출력된 중립 지수가 제1 임계치 이하로 식별되는 경우, 상기 중립 지수 값 및 1보다 작은 제1 평가 가중치를 상기 제1 뉴스 점수에 곱한 값과, 1에서 상기 중립 지수 값을 뺀 값 및 1보다 큰 제2 평가 가중치를 정규화된(Normalized) 제2 뉴스 점수에 곱한 값을 합함으로써, 뉴스 기사에 대한 종합 평가 점수(예컨대, 종합 평가 점수 = 제1 평가 가중치*중립 지수 값*제1 뉴스 점수 + 제2 평가 가중치*(1-중립 지수 값)*정규화된 제2 뉴스 점수) 를 결정할 수 있다.
S1024에서, 전자 장치(1000)는 사전 학습 모델로부터 출력된 중립 지수가 제1 임계치보다 크고, 제2 임계치보다 작은 경우, 중립 지수 값을 제1 뉴스 점수에 곱한 값과, 1에서 상기 중립 지수 값을 뺀 값을 정규화된 제2 뉴스 점수에 곱한 값을 합함으로써, 상기 종합 평가 점수(예컨대, 종합 평가 점수 = 중립 지수 값*제1 뉴스 점수 + (1-중립 지수 값)*정규화된 제2 뉴스 점수)를 결정할 수 있다.
S1026에서, 전자 장치(1000)는 사전 학습 모델로부터 출력된 중립 지수가 제2 임계치 보다 크거나 같은 경우, 중립 지수 값 및 1보다 큰 제1 평가 가중치를 상기 제1 뉴스 점수에 곱한 값과, 1에서 상기 중립 지수 값을 뺀 값 및 1보다 작은 제2 평가 가중치를 정규화된 제2 뉴스 점수에 곱한 값을 합함으로써, 상기 종합 평가 점수(예컨대, 종합 평가 점수 = 제1 평가 가중치*중립 지수 값*제1 뉴스 점수 + 제2 평가 가중치*중립 지수 값*정규화된 제2 뉴스 점수)를 결정할 수 있다.
도 11은 일 실시 예에 따른 전자 장치의 블록도이다.
일 실시 예에 따른 전자 장치(1000)는 프로세서(1400) 및 메모리(1402)를 포함할 수 있다. 그러나, 도시된 구성 요소가 모두 필수구성요소인 것은 아니고, 도시된 구성 요소보다 많은 구성 요소에 의해 전자 장치(1000)가 구현될 수도 있고, 그보다 적은 구성 요소에 의해서도 전자 장치(1000)는 구현될 수도 있다. 일 실시 예에 의하면, 전자 장치(1000)는 프로세서(1400) 및 메모리(1402)외에 네트워크 인터페이스(미도시)를 더 포함할 수도 있다.
프로세서(1400)는, 통상적으로 전자 장치(1000)의 전반적인 동작을 제어한다. 일 실시 예에 의하면, 본 개시에 따른 프로세서(1400)는 메모리(1402)에 저장된 프로그램들을 실행함으로써, 도 1 내지 도 10에 기재된 전자 장치(1000)의 기능을 수행할 수 있다. 또한, 프로세서(1400)는 하나 또는 복수의 프로세서로 구성될 수 있고, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU와 같은 그래픽 전용 프로세서 또는 인공지능(AI) 전용 프로세서를 포함할 수 있다. 그러나 이에 한정되는 것은 아니며, 프로세서(1400)는 메모리에 저장된 인스트럭션을 실행함으로써 뉴스 기사를 분석하기 위한 기능을 수행하는 기타 처리 장치를 포함할 수 있다. 일 실시 예에 의하면, 프로세서(1400)가 범용 프로세서, 인공지능 프로세서 및 그래픽 전용 프로세서를 포함하는 경우, 인공지능 프로세서는 범용 프로세서 또는 그래픽 전용 프로세서와 별도의 칩으로 구현될 수도 있다.
일 실시 예에 의하면, 프로세서(1400)가 복수의 프로세서 또는 그래픽 전용 프로세서 또는 인공 지능 전용 프로세서로 구현될 때, 복수의 프로세서 또는 그래픽 전용 프로세서 또는 인공 지능 전용 프로세서 중 적어도 일부는 전자 장치(1000) 및 전자 장치(1000)와 연결된 다른 전자 장치 또는 서버에 탑재될 수도 있다.
예를 들어, 프로세서(1400)는, 메모리(1402)에 저장된 프로그램들을 실행함으로써, 뉴스 기사 내 미리 저장된 금융 단어 또는 인물 단어를 포함하는 문장을 식별하고, 상기 식별된 문장 중 일부의 문장을, 상기 뉴스 기사에 대한 점수를 출력하도록 학습되는 신경망 모델에 입력함으로써, 상기 신경망 모델로부터 제1 뉴스 점수를 획득하고, 상기 식별된 문장 중 일부의 문장을 사전 학습 모델에 입력함으로써, 상기 사전 학습 모델로부터 제2 뉴스 점수를 획득하고, 상기 제1 뉴스 점수 및 제2 뉴스 점수에 기초하여, 상기 뉴스 기사의 금융 성향에 관한 종합 평가 점수를 결정할 수 있다.
일 실시 예에 의하면, 프로세서(1400)는 상기 금융 단어 및 상기 금융 단어 별 단어 점수를 매칭함으로써 금융 단어 리스트를 생성하고, 상기 인물 단어 및 상기 인물 단어 별 인물 단어 가중치를 매칭함으로써 인물 가중치 리스트를 생성하고, 상기 생성된 금융 단어 리스트 및 상기 인물 가중치 리스트를 저장할 수 있다.
일 실시 예에 의하면, 프로세서(1400)는 뉴스 기사에 포함된 문장들 각각의 위치 정보를 식별하고, 상기 식별된 문장의 위치 정보에 기초하여, 뉴스 기사 내 첫 문장 및 상기 뉴스 기사 내 마지막 문장을 식별하고, 상기 금융 단어 또는 상기 인물 단어를 포함하는 문장, 상기 첫 문장 및 상기 마지막 문장 중, 점수 산정 대상이 되는 기 설정된 수의 문장을 추출할 수 있다.
일 실시 예에 의하면, 프로세서(1400)는 추출된 기 설정된 수의 문장을 전처리 하고, 상기 전 처리된 문장을 상기 신경망 모델에 입력하고, 상기 신경망 모델로부터 출력된 제1 뉴스 점수를 획득할 수 있다.
일 실시 예에 의하면, 프로세서(1400)는 상기 추출된 기 설정된 수의 문장을 전처리 하고, 상기 전 처리된 문장 각각에 대하여 결정되는 문장 가중치에 기초하여, 상기 전 처리된 문장 각각의 문장 점수를 결정하고, 상기 식별된 위치 정보에 기초하여, 상기 전 처리된 문장 각각에 대하여 결정된 문장 점수를 조정하고, 상기 조정된 문장 점수를 이용하여 상기 제2 뉴스 점수를 획득할 수 있다. 일 실시 예에 의하면, 프로세서(1400)는 상기 추출된 기 설정된 문장을 토큰화(tokenizing) 함으로써, 문장 내 각 단어를 식별하고, 상기 식별된 각 단어들 중, 상기 문장 점수 산정에 사용되지 않는 단어들을 제거하고, 상기 문장 점수 산정에 사용되지 않는 단어들을 제거하고 남은 각 문장 내 단어들을 표제어 형태로 변환할 수 있다.
메모리(1402)는, 프로세서(1400)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 전자 장치(1000)로 입력되거나 전자 장치(1000)로부터 출력되는 데이터를 저장할 수도 있다. 또한, 메모리(1402)는 사전 학습 모델 및 신경망 모델을 포함하는 복수의 뉴스 기사 분석 모델을 포함할 수 있다. 일 실시 예에 의하면, 메모리(1402)는 신경망 모델의 구성으로써, 신경망을 구성하는 레이어들, 레이어들에 포함된 노드들 및 레이어들의 연결 강도에 관한 가중치들에 대한 정보를 저장할 수 있다.
일 실시 예에 의하면, 메모리(1402)는 도 3에서 상술한 금융 단어 및 상기 금융 단어 별 단어 점수를 포함하는 금융 단어 리스트를 더 저장할 수도 있다. 또한, 메모리(1402)는 미리 설정된 인물 단어 및 인물 단어 별 인물 단어 가중치를 포함하는 인물 가중치 리스트를 더 저장할 수도 있다.
일 실시 예에 의하면, 메모리(1402)는 메모리에 기 저장된 사전 학습 모델 및 신경망 모델이 수정 및 갱신되는 경우, 수정 및 갱신된 사전 학습 모델 및 신경망 모델을 저장할 수도 있다. 메모리(1402)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 그러나, 이에 한정되는 것은 아니며, 기타 뉴스 기사를 분석하기 위한 방법을 수행하기 위한 인스트럭션들, 상기 뉴스 기사를 분석하기 위한 적어도 하나의 인공 지능 모델에 대한 정보를 저장하기 위한 기타 저장 매체일 수 있다.
네트워크 인터페이스(미도시)는 전자 장치(1000)가 외부 디바이스 또는 서버와 송수신하는 데이터를 전달할 수 있다. 예를 들어, 전자 장치(1000)는 네트워크 인터페이스를 통하여 외부 디바이스로부터 뉴스 기사에 관한 데이터를 획득할 수 있다. 또한, 전자 장치(1000)는 네트워크 인터페이스를 통하여 외부 디바이스로부터 신경망 모델 내지 사전 학습 모델에 대한 정보를 수신할 수도 있다. 또한, 전자 장치(1000)는 네트워크 인터페이스를 통하여 뉴스 기사에 대한 분석 결과로써 종합 평가 점수를 외부 디바이스로 출력할 수도 있다.
도 12는 일 실시 예에 따른 서버의 블록도이다.
일 실시 예에 따르면, 서버(2000)는 네트워크 인터페이스(2100), 데이터 베이스(Data Base, 2200) 및 프로세서(2300)를 포함할 수 있다.
네트워크 인터페이스(2100)는 상술한 전자 장치(1000)의 네트워크 인터페이스(미도시)에 대응될 수 있다. 예를 들어, 네트워크 인터페이스(2100)는 전자 장치(1000)로부터 신경망 모델에 대한 정보 또는 사전 학습 모델에 대한 정보를 수신할 수도 있다. 예를 들어, 네트워크 인터페이스(2100)는 인공 신경망의 레이어들 및 레이어들에 포함된 노드에 관한 정보 또는 신경망 내 레이어들의 연결 강도에 관한 가중치 값들을 수신할 수 있다. 또 다른 실시 예에 의하면, 네트워크 인터페이스(2100)는 전자 장치(1000) 또는 전자 장치와 다른 외부 디바이스로부터 뉴스 기사에 대한 데이터를 수신할 수도 있다. 네트워크 인터페이스(2100)는 서버(2000)에 의하여 미리 학습된 신경망 모델에 대한 정보를 전자 장치(1000)로 전송할 수도 있다.
데이터 베이스(2200)는 도 11에 도시된 전자 장치의 메모리(1402)에 대응될 수 있다. 예를 들어, 데이터 베이스(2200)는 프로세서(2300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 전자 장치(1000)로 입력되거나 전자 장치(1000)로부터 출력되는 데이터를 저장할 수도 있다. 또한, 데이터 베이스(2200)는 인공 신경망을 구성하는 레이어들, 레이어들에 포함된 노드들 및 레이어들의 연결 강도에 관한 가중치들에 대한 정보 및 사전 학습 모델에 대한 정보를 더 저장할 수도 있다. 또한, 데이터 베이스(2200)는 전자 장치 또는 상기 전자 장치와 연결되는 외부 디바이스로부터 수신되는 뉴스 기사에 대한 정보들을 더 저장할 수도 있다.
프로세서(2300)는 서버(2000) 내 장치의 전반적인 동작을 제어할 수 있다. 일 실시 예에 의하면, 프로세서(2300)는 도 1 내지 11에서 기재된 전자 장치(1000)가 수행하는 동작의 적어도 일부를 함께 수행할 수 있다.
일 실시예에 따른 상술한 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 개시를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
또한, 상기 일 실시 예에 다른 방법을 수행하도록 하는 프로그램이 저장된 기록매체를 포함하는 컴퓨터 프로그램 장치가 제공될 수 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상에서 본 개시의 실시예에 대하여 상세하게 설명하였지만 본 개시의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 개시의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 개시의 권리범위에 속한다

Claims (20)

  1. 전자 장치가 뉴스 기사를 분석하는 방법에 있어서,
    상기 전자 장치가 상기 뉴스 기사 내 미리 저장된 금융 단어 또는 인물 단어를 포함하는 문장을 식별하는 단계;
    상기 전자 장치가 상기 식별된 문장 중 일부의 문장을, 상기 뉴스 기사에 대한 점수를 출력하도록 학습되는 신경망 모델에 입력함으로써, 상기 신경망 모델로부터 제1 뉴스 점수를 획득하는 단계;
    상기 전자 장치가 상기 식별된 문장 중 일부의 문장을 사전 학습 모델에 입력함으로써, 상기 사전 학습 모델로부터 제2 뉴스 점수를 획득하는 단계; 및
    상기 전자 장치가 상기 제1 뉴스 점수 및 제2 뉴스 점수에 기초하여, 상기 뉴스 기사의 금융 성향에 관한 종합 평가 점수를 결정하는 단계; 를 포함하는, 방법.
  2. 제1항에 있어서, 상기 방법은
    상기 금융 단어 및 상기 금융 단어 별 단어 점수를 매칭함으로써 금융 단어 리스트를 생성하는 단계;
    상기 인물 단어 및 상기 인물 단어 별 인물 단어 가중치를 매칭함으로써 인물 가중치 리스트를 생성하는 단계; 및
    상기 생성된 금융 단어 리스트 및 상기 인물 가중치 리스트를 저장하는 단계; 를 더 포함하는, 방법.
  3. 제1항에 있어서, 상기 방법은
    상기 뉴스 기사에 포함된 문장들 각각의 위치 정보를 식별하는 단계;
    상기 식별된 문장의 위치 정보에 기초하여, 뉴스 기사 내 첫 문장 및 상기 뉴스 기사 내 마지막 문장을 식별하는 단계; 및
    상기 금융 단어 또는 상기 인물 단어를 포함하는 문장, 상기 첫 문장 및 상기 마지막 문장 중, 점수 산정 대상이 되는 기 설정된 수의 문장을 추출하는 단계; 를 더 포함하는, 방법.
  4. 제3항에 있어서, 상기 제1 뉴스 점수를 획득하는 단계는
    상기 추출된 기 설정된 수의 문장을 전처리 하는 단계;
    상기 전 처리된 문장을 상기 신경망 모델에 입력하는 단계; 및
    상기 신경망 모델로부터 출력된 제1 뉴스 점수를 획득하는 단계; 를 포함하는, 방법.
  5. 제3항에 있어서, 상기 제2 뉴스 점수를 획득하는 단계는
    상기 추출된 기 설정된 수의 문장을 전처리 하는 단계;
    상기 전 처리된 문장 각각에 대하여 결정되는 문장 가중치에 기초하여, 상기 전 처리된 문장 각각의 문장 점수를 결정하는 단계;
    상기 식별된 위치 정보에 기초하여, 상기 전 처리된 문장 각각에 대하여 결정된 문장 점수를 조정하는 단계; 및
    상기 조정된 문장 점수를 이용하여 상기 제2 뉴스 점수를 획득하는 단계; 를 포함하는, 방법.
  6. 제5항에 있어서, 상기 기 설정된 수의 문장을 전 처리 하는 단계는
    상기 추출된 기 설정된 문장을 토큰화(tokenizing) 함으로써, 문장 내 각 단어를 식별하는 단계;
    상기 식별된 각 단어들 중, 문장 점수 산정에 사용되지 않는 단어들을 제거하는 단계; 및
    상기 문장 점수 산정에 사용되지 않는 단어들을 제거하고 남은 각 문장 내 단어들을 표제어 형태로 변환하는 단계; 를 포함하는, 방법.
  7. 제5항에 있어서, 상기 제2 뉴스 점수를 획득하는 단계는
    상기 전 처리된 문장 내 부정어구, 부사, 문장 부호, 강조어구, 부정어 또는 상기 인물 단어 중 적어도 하나에 기초하여, 상기 전 처리된 문장 각각에 대한 문장 가중치를 결정하는 단계; 및
    상기 결정된 문장 가중치를, 상기 전 처리된 문장 내 각 금융 단어들의 단어 점수에 적용함으로써, 상기 전 처리된 문장 각각의 문장 점수를 결정하는 단계; 를 포함하는, 방법.
  8. 제5항에 있어서, 상기 전 처리된 문장 각각에 대하여 결정된 문장 점수를 조정하는 단계는
    상기 전 처리된 문장의 위치 정보에 기초하여, 상기 전 처리된 문장 간의 컨텍스트를 식별하는 단계; 및
    상기 식별된 컨텍스트에 기초하여, 상기 전 처리된 문장 각각에 대하여 결정된 문장 점수를 조정하는 단계; 를 포함하는, 방법.
  9. 제1항에 있어서, 상기 방법은
    상기 사전 학습 모델로부터, 상기 식별된 문장 중 일부의 문장에 포함된 단어들의 단어 점수의 분포 패턴에 따라 달라지는 상기 제2 뉴스 점수의 신뢰 정도에 관한 중립 지수를 획득하는 단계; 를 더 포함하고,
    상기 종합 평가 점수를 결정하는 단계는
    상기 제2 뉴스 점수를 정규화 하는 단계;
    상기 중립 지수의 값에 기초하여, 상기 제1 뉴스 점수 및 제2 뉴스 점수에 적용될 평가 가중치를 결정하는 단계; 및
    상기 결정된 평가 가중치에 따라 상기 제1 뉴스 점수 및 상기 정규화된 제2 뉴스 점수를 가중합 함으로써 상기 종합 평가 점수를 결정하는 단계; 를 포함하는, 방법.
  10. 제9항에 있어서, 상기 종합 평가 점수를 결정하는 단계는
    상기 중립 지수 값이 제1 임계치 보다 크고, 제2 임계치 보다 작은 경우, 상기 중립 지수 값을 제1 뉴스 점수에 곱한 값과, 1에서 상기 중립 지수 값을 뺀 값을 상기 정규화된 제2 뉴스 점수에 곱한 값을 합함으로써, 상기 종합 평가 점수를 결정하는 단계; 를 포함하는, 방법.
  11. 제9항에 있어서, 상기 종합 평가 점수를 결정하는 단계는
    상기 중립 지수 값이 제1 임계치 보다 작거나 같은 경우, 상기 중립 지수 값 및 1보다 작은 제1 평가 가중치를 상기 제1 뉴스 점수에 곱한 값과, 1에서 상기 중립 지수 값을 뺀 값 및 1보다 큰 제2 평가 가중치를 상기 정규화된 제2 뉴스 점수에 곱한 값을 합함으로써, 상기 종합 평가 점수를 결정하는 단계; 를 포함하는, 방법.
  12. 제9항에 있어서, 상기 종합 평가 점수를 결정하는 단계는
    상기 중립 지수 값이 제2 임계치 보다 크거나 같은 경우, 상기 중립 지수 값 및 1보다 큰 제1 평가 가중치를 상기 제1 뉴스 점수에 곱한 값과, 1에서 상기 중립 지수 값을 뺀 값 및 1보다 작은 제2 평가 가중치를 정규화된 제2 뉴스 점수에 곱한 값을 합함으로써, 상기 종합 평가 점수를 결정하는 단계; 를 포함하는, 방법.
  13. 제7항에 있어서, 상기 전 처리된 문장 각각에 대한 문장 가중치를 결정하는 단계는
    상기 전 처리된 문장 내 부정 어구가 포함되는 경우, 상기 부정 어구가 포함된 문장에 적용될 가중치를 음수로 결정하는 단계;
    상기 전 처리된 문장 내 긍정 부사가 포함되는 경우, 상기 긍정 부사가 포함된 문장의 가중치를 증가시키고, 상기 전 처리된 문장 내 부정 부사가 포함되는 경우, 상기 부정 부사가 포함된 문장의 가중치를 감소 시키는 단계;
    상기 전 처리된 문장 내 강조 목적의 문장 부호가 포함되는 경우, 상기 문장 부호가 포함된 문장의 가중치를 증가시키고, 상기 전 처리된 문장 내 물음표 또는 쉼표와 같은 문장 부호가 포함되는 경우, 상기 문장 부호가 포함된 문장의 가중치를 감소시키는 단계;
    상기 전 처리된 문장 내 강조어구가 포함되는 경우, 상기 강조어구가 포함된 문장의 가중치를 증가시키는 단계; 및
    상기 전 처리된 문장 내 부정어가 포함되는 경우, 상기 부정어가 포함된 문장의 가중치를 증가시키거나 감소 시키는 단계; 를 포함하는, 방법.
  14. 뉴스 기사를 분석하는 장치에 있어서,
    하나 이상의 인스트럭션을 저장하는 메모리; 및
    상기 하나 이상의 인스트럭션들을 실행하는 적어도 하나의 프로세서; 를 포함하고,
    상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    상기 뉴스 기사 내 미리 저장된 금융 단어 또는 인물 단어를 포함하는 문장을 식별하고,
    상기 식별된 문장 중 일부의 문장을, 상기 뉴스 기사에 대한 점수를 출력하도록 학습되는 신경망 모델에 입력함으로써, 상기 신경망 모델로부터 제1 뉴스 점수를 획득하고,
    상기 식별된 문장 중 일부의 문장을 사전 학습 모델에 입력함으로써, 상기 사전 학습 모델로부터 제2 뉴스 점수를 획득하고,
    상기 제1 뉴스 점수 및 제2 뉴스 점수에 기초하여, 상기 뉴스 기사의 금융 성향에 관한 종합 평가 점수를 결정하는, 장치.
  15. 제14항에 있어서, 상기 적어도 하나의 프로세서는
    상기 금융 단어 및 상기 금융 단어 별 단어 점수를 매칭함으로써 금융 단어 리스트를 생성하고,
    상기 인물 단어 및 상기 인물 단어 별 인물 단어 가중치를 매칭함으로써 인물 가중치 리스트를 생성하고,
    상기 생성된 금융 단어 리스트 및 상기 인물 가중치 리스트를 저장하는, 장치.
  16. 제14항에 있어서, 상기 적어도 하나의 프로세서는
    상기 뉴스 기사에 포함된 문장들 각각의 위치 정보를 식별하고,
    상기 식별된 문장의 위치 정보에 기초하여, 뉴스 기사 내 첫 문장 및 상기 뉴스 기사 내 마지막 문장을 식별하고,
    상기 금융 단어 또는 상기 인물 단어를 포함하는 문장, 상기 첫 문장 및 상기 마지막 문장 중, 점수 산정 대상이 되는 기 설정된 수의 문장을 추출하는, 장치.
  17. 제16항에 있어서, 상기 적어도 하나의 프로세서는
    상기 추출된 기 설정된 수의 문장을 전처리 하고,
    상기 전 처리된 문장을 상기 신경망 모델에 입력하고,
    상기 신경망 모델로부터 출력된 제1 뉴스 점수를 획득하는, 장치.
  18. 제16항에 있어서, 상기 적어도 하나의 프로세서는
    상기 추출된 기 설정된 수의 문장을 전처리 하고,
    상기 전 처리된 문장 각각에 대하여 결정되는 문장 가중치에 기초하여, 상기 전 처리된 문장 각각의 문장 점수를 결정하고,
    상기 식별된 위치 정보에 기초하여, 상기 전 처리된 문장 각각에 대하여 결정된 문장 점수를 조정하고,
    상기 조정된 문장 점수를 이용하여 상기 제2 뉴스 점수를 획득하는, 장치.
  19. 제18항에 있어서, 상기 적어도 하나의 프로세서는
    상기 추출된 기 설정된 문장을 토큰화(tokenizing) 함으로써, 문장 내 각 단어를 식별하고,
    상기 식별된 각 단어들 중, 문장 점수 산정에 사용되지 않는 단어들을 제거하고,
    상기 문장 점수 산정에 사용되지 않는 단어들을 제거하고 남은 각 문장 내 단어들을 표제어 형태로 변환하는, 장치.
  20. 뉴스 기사 내 미리 저장된 금융 단어 또는 인물 단어를 포함하는 문장을 식별하는 단계;
    상기 식별된 문장 중 일부의 문장을, 상기 뉴스 기사에 대한 점수를 출력하도록 학습되는 신경망 모델에 입력함으로써, 상기 신경망 모델로부터 제1 뉴스 점수를 획득하는 단계;
    상기 식별된 문장 중 일부의 문장을 사전 학습 모델에 입력함으로써, 상기 사전 학습 모델로부터 제2 뉴스 점수를 획득하는 단계; 및
    상기 제1 뉴스 점수 및 제2 뉴스 점수에 기초하여, 상기 뉴스 기사의 금융 성향에 관한 종합 평가 점수를 결정하는 단계; 를 포함하는, 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
KR1020200067619A 2020-06-04 2020-06-04 딥러닝 nlp 모델을 활용한 뉴스 긍정도 분석 솔루션 및 장치 KR102322899B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200067619A KR102322899B1 (ko) 2020-06-04 2020-06-04 딥러닝 nlp 모델을 활용한 뉴스 긍정도 분석 솔루션 및 장치
PCT/KR2021/006968 WO2021246812A1 (ko) 2020-06-04 2021-06-03 딥러닝 nlp 모델을 활용한 뉴스 긍정도 분석 솔루션 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200067619A KR102322899B1 (ko) 2020-06-04 2020-06-04 딥러닝 nlp 모델을 활용한 뉴스 긍정도 분석 솔루션 및 장치

Publications (1)

Publication Number Publication Date
KR102322899B1 true KR102322899B1 (ko) 2021-11-05

Family

ID=78507644

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200067619A KR102322899B1 (ko) 2020-06-04 2020-06-04 딥러닝 nlp 모델을 활용한 뉴스 긍정도 분석 솔루션 및 장치

Country Status (1)

Country Link
KR (1) KR102322899B1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090047646A (ko) 2007-11-08 2009-05-13 장남석 기사가치 평가방법
KR20120001053A (ko) * 2010-06-29 2012-01-04 (주)워드워즈 문서 감성 분석 시스템 및 그 방법
KR101458004B1 (ko) * 2013-12-26 2014-11-04 주식회사 코스콤 인공 신경망 모형을 이용한 주가 등락 예측 시스템 및 주가 등락 예측 방법
KR20140133185A (ko) * 2013-05-10 2014-11-19 주식회사 코스콤 소셜 데이터의 분석을 통한 주가 예측 방법 및 이를 적용한 주가 예측 시스템
KR20190102905A (ko) * 2018-02-27 2019-09-04 울산과학기술원 콘텐츠 평점 산출 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090047646A (ko) 2007-11-08 2009-05-13 장남석 기사가치 평가방법
KR20120001053A (ko) * 2010-06-29 2012-01-04 (주)워드워즈 문서 감성 분석 시스템 및 그 방법
KR20140133185A (ko) * 2013-05-10 2014-11-19 주식회사 코스콤 소셜 데이터의 분석을 통한 주가 예측 방법 및 이를 적용한 주가 예측 시스템
KR101458004B1 (ko) * 2013-12-26 2014-11-04 주식회사 코스콤 인공 신경망 모형을 이용한 주가 등락 예측 시스템 및 주가 등락 예측 방법
KR20190102905A (ko) * 2018-02-27 2019-09-04 울산과학기술원 콘텐츠 평점 산출 방법

Similar Documents

Publication Publication Date Title
CN110096570B (zh) 一种应用于智能客服机器人的意图识别方法及装置
WO2021072875A1 (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
US20180157959A1 (en) Intelligent interaction method and intelligent interaction system
CN114580382A (zh) 文本纠错方法以及装置
CN111859940B (zh) 一种关键词提取方法、装置、电子设备及存储介质
US20220300708A1 (en) Method and device for presenting prompt information and storage medium
Nour-Eddine et al. GMM-based Maghreb dialect identification system
CN110968725A (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN115497465A (zh) 语音交互方法、装置、电子设备和存储介质
CN111739537B (zh) 语义识别方法、装置、存储介质及处理器
CN113705207A (zh) 语法错误识别方法及装置
CN117033796A (zh) 基于用户表达偏好的智能回复方法、装置、设备及介质
KR102443629B1 (ko) 딥러닝 nlp 모델을 활용한 뉴스 긍정도 분석 솔루션 및 시스템
KR102322899B1 (ko) 딥러닝 nlp 모델을 활용한 뉴스 긍정도 분석 솔루션 및 장치
CN116910251A (zh) 基于bert模型的文本分类方法、装置、设备及介质
CN113095063A (zh) 一种基于遮蔽语言模型的两阶段情感迁移方法和系统
CN116127049A (zh) 模型训练方法、文本生成方法、终端设备及计算机介质
CN116362242A (zh) 一种小样本槽值提取方法、装置、设备及存储介质
KR102466428B1 (ko) 뉴스 긍정도 분석을 위한 인공신경망 학습 모델 및 장치
CN114974310A (zh) 基于人工智能的情感识别方法、装置、计算机设备及介质
US20200387806A1 (en) Idea generation support device, idea generation support system, and recording medium
KR102215259B1 (ko) 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치
CN113849634A (zh) 用于提升深度模型推荐方案可解释性的方法
CN111967253A (zh) 一种实体消歧方法、装置、计算机设备及存储介质
CN113012685A (zh) 音频识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
GRNT Written decision to grant