KR102597357B1

KR102597357B1 - Ai 기반의 언론기사 감성 분석 방법 및 시스템

Info

Publication number: KR102597357B1
Application number: KR1020230063091A
Authority: KR
Inventors: 박선춘; 위정철
Original assignee: 주식회사 씨지인사이드
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-11-02

Abstract

본 발명은 AI를 이용한 데이터 분석 기술에 관한 것으로, 설정 조건에 부합한 언론 기사 데이터를 수집하여 데이터베이스화하는 수집 단계, 상기 수집 단계에서 수집된 언론 기사 데이터를 자연어 분석기를 이용하여 인공 지능 기반의 언어로 분석해내는 단계, 상기 분석해내는 단계에서의 인공 지능 기반의 언어를 대형 언어 모델에 적용하여 형식 적합 여부를 파악하는 단계 및 상기 파악하는 단계에서 형식 적합한 분석 결과를 정제하여 감성 분석 결과로 도출하는 단계를 포함하는, AI 기반의 언론기사 감성 분석 방법에 의해 텍스트(법률안, 정부 설명 자료 등)를 AI가 분석하고 검토함에 있어 쟁점, 이슈를 추출하여 제공하고 관련 기사, 지식 등을 추천할 수 있어 지능형 검토보고작성 지원 솔루션을 제공할 수 있다.

Description

AI 기반의 언론기사 감성 분석 방법 및 시스템{Method and System for Sentiment Analysis of News Articles based on AI}

실시예는 AI를 이용한 데이터 분석 기술에 관한 것이다.

인터넷 기술이 발달함에 따라 신문, 방송, 잡지와 같은 언론 매체들은 오프라인 상의 인쇄 매체가 아닌, 인터넷을 통하여 뉴스 기사들을 전달하고 있다. 또한, 인터넷을 통하여 국내의 정치, 경제, 사회 문화 전반을 비롯한 뉴스들뿐만 아니라, 세계 각국의 정치, 경제, 금융 분야의 뉴스들이 기사화되고 있다.

특히, 갈수록 성장하는 세계 경제의 발달과 함께 금융 분야의 뉴스 기사들에 대한 정보 역시 인터넷 상에 넘쳐나고 있다. 이러한 금융 분야의 뉴스 기사들은, 해당 금융 이슈들에 대한 긍정적인 측면과 부정적인 측면을 모두 다룬다.

인터넷이 발달함에 따라 생산되는 대량의 뉴스 기사들을 처리하기 위한, 데이터 처리 기술들이 개발되고 있으나, 일반적인 뉴스 데이터 처리 기술들은 대량의 뉴스 기사들을 객관적으로 평가하고, 분석하는데 여전히 많은 한계를 가지고 있다.

따라서, 대량의 인터넷 뉴스 기사들을 정확하고 객관적으로 평가하기 위한 방법 및 장치 기술에 대한 개발이 요구되고 있다.

기존의 감성 사전 활용(Lexicon-based Approach) 방식의 감성 분석 방법은 감성 사전이라고 불리는 사전이나 데이터베이스를 활용하여 기사 내 단어나 구문의 감성을 분석하는 것이다. 각 단어의 긍정, 부정, 중립 등의 감성 점수를 파악하고 이를 기반으로 기사의 감성을 계산하거나 평가할 수 있다.

그러나 감성 어휘 추출 후 감성어 사전이나 어휘 목록과 대조하는 방식은 교착어인 한국어의 특성과 도메인에 따른 단어의 감성 변화 등으로 인해 정확도가 낮아 신뢰도를 담보하기 어렵다는 한계가 있다. 또한, 어휘단위의 분석은 문장 사이의 연관관계나 문맥을 고려한 의미 관계 분석이 불가능하다는 자연어 처리 기술의 한계가 있다.

한국공개특허 제10-2009-0047646호

본 발명은 이 같은 기술적 배경에서 도출된 것으로, 대형 언어 모델을 이용하여 언론기사 감성 분석을 수행하는 AI 기반의 언론기사 감성 분석 방법 및 시스템을 제공함에 그 목적이 있다.

상기의 과제를 달성하기 위한 본 발명은 다음과 같은 구성을 포함한다.

즉 본 발명의 일 실시예에 따른 AI 기반의 언론기사 감성 분석 방법은 설정 조건에 부합한 언론 기사 데이터를 수집하여 데이터베이스화하는 수집 단계, 상기 수집 단계에서 수집된 언론 기사 데이터를 자연어 분석기를 이용하여 인공 지능 기반의 언어로 분석해내는 단계, 상기 분석해내는 단계에서의 인공 지능 기반의 언어를 대형 언어 모델에 적용하여 형식 적합 여부를 파악하는 단계 및 상기 파악하는 단계에서 형식 적합한 분석 결과를 정제하여 감성 분석 결과로 도출하는 단계를 포함한다.

한편, 일 실시예에 따른 AI 기반의 언론기사 감성 분석 시스템은 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 장치로서, 설정 조건에 부합한 언론 기사 데이터를 수집하여 데이터베이스화하는 수집부, 상기 수집부에서 수집된 언론 기사 데이터를 자연어 분석기를 이용하여 인공 지능 기반의 언어로 분석해내는 분석부, 상기 분석부에서 분석된 인공 지능 기반의 언어를 대형 언어 모델에 적용하여 형식 적합 여부를 판단하는 판단부 및 상기 판단부에서 형식 적합한 분석 결과를 정제하여 감성 분석 결과로 도출하는 도출부를 포함한다.

본 발명에 의하면 텍스트(법률안, 정부 설명 자료 등)를 AI가 분석하고 검토함에 있어 쟁점, 이슈를 추출하여 제공하고 관련 기사, 지식 등을 추천할 수 있어 지능형 검토보고작성 지원 솔루션을 제공할 수 있다. 또한, 키워드 중심의 기사 수집 후 AI가 분석하는 현행 모델을 발전시켜서 부서별, 사안별 관련 기사를 텍스트 기반으로 추출 및 수집하여 감성 분석 등을 수행하여 부서별 이슈 기사 추천 및 정책 제안이 가능다는 효과가 도출된다.

본 개시의 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급되지 않은 다른 효과들은 청구범위의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1 은 본 발명의 일 실시예에 따른 AI 기반의 언론기사 감성 분석 시스템의 구성을 설명하기 위한 블록도이다.
도 2 는 일 실시예에 따른 언론 기사 분석 프로세스를 설명하기 위한 예시도이다.
도 3 은 일 실시예에 따른 자연어 분석기 세부 프로세스를 나타낸 흐름도이다.
도 4 는 본 발명의 일 실시예에 따른 서비스 프로세스를 설명하기 위한 예시도이다.
도 5 는 일 실시예에 따른 이슈 추출기 세부 프로세스를 설명하기 위한 예시도이다
도 6 은 일 실시예에 따른 AI 기반의 언론기사 감성 분석 방법의 흐름도이다.
도 7 내지 도 12는 일 실시예에 따른 AI 기반의 언론기사 감성 분석 서비스 결과의 예시도이다.

본 발명에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 발명에서 사용되는 기술적 용어는 본 발명에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명한다.

본 발명의 실시예들에 따른 AI 기반의 언론기사 감성 분석 시스템은 적어도 하나의 컴퓨터 장치에 의해 구현될 수 있으며, 본 발명의 실시예들에 따른 AI 기반의 언론기사 감성 분석 방법은 AI 기반의 언론기사 감성 분석 시스템에 포함되는 적어도 하나의 컴퓨터 장치를 통해 수행될 수 있다. 이때, 컴퓨터 장치에는 본 발명의 일실시예에 따른 컴퓨터 프로그램이 설치 및 구동될 수 있고, 컴퓨터 장치는 구동된 컴퓨터 프로그램의 제어에 따라 본 발명의 실시예들에 따른 AI 기반의 언론기사 감성 분석 방법을 수행할 수 있다. 상술한 컴퓨터 프로그램은 컴퓨터 장치와 결합되어 AI 기반의 언론기사 감성 분석 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장될 수 있다.

일 실시예에 있어서, AI 기반의 언론기사 감성 분석 시스템은 텍스트(법률안, 정부 설명 자료 등)를 AI가 분석하고 검토함에 있어 쟁점, 이슈를 추출하여 제공하고 관련 기사, 지식 등을 추천할 수 있어 지능형 검토보고작성 지원 솔루션을 제공할 수 있다. 또한, 키워드 중심의 기사 수집 후 AI가 분석하는 현행 모델을 발전시켜서 부서별, 사안별 관련 기사를 텍스트 기반으로 추출 및 수집하여 감성 분석 등을 수행하여 부서별 이슈 기사 추천 및 정책 제안이 가능하다.

또한 정부가 제출한 결산, 예산안 자료(텍스트)를 Ai가 분석 후 및 검토함에 있어 쟁점, 이슈를 추출하여 제공하고 관련 규정 및 기사등을 추천하는 지능형 예결산 분석 지원 솔루션을 제공할 수 있다. 뿐만 아니라 텍스트 형식의 질문을 AI가 인식하여 답변을 제공하는 기능을 활용하여 국회법, 국회법 선례, 국회 규칙등을 묻고 답하는 챗봇을 구축하여 국회 업무에 활용하는 것도 가능하다.

일 실시예에 있어서, AI 기반의 언론기사 감성 분석 시스템은 OpenAI사의 GPT-3.5 기반의 ChatGPT API 서비스를 활용하여 언론 기사에 대한 감성분석을 진행할 수 있다. 그러나 이에 한정되는 것은 아니다.

도 1 은 본 발명의 일 실시예에 따른 AI 기반의 언론기사 감성 분석 시스템의 구성을 설명하기 위한 블록도이다.

사용자 단말(20)은 컴퓨터 장치로 구현되는 고정형 단말이거나 이동형 단말일 수 있다. 사용자 단말(20)의 예를 들면, 스마트 폰(Smart Phone), 휴대 단말기(Portable Terminal), 이동 단말기(Mobile Terminal), 폴더블 단말기(Foldable Terminal), 개인 정보 단말기(Personal Digital Assistant: PDA), PMP(Portable Multimedia Player) 단말기, 텔레매틱스(Telematics) 단말기, 내비게이션(Navigation) 단말기, 개인용 컴퓨터(Personal Computer), 노트북 컴퓨터, 슬레이트 PC(Slate PC), 태블릿 PC(Tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(Wearable Device, 예를 들어, 워치형 단말기(Smartwatch), 글래스형 단말기(Smart Glass), HMD(Head Mounted Display) 등 포함), 와이브로(Wibro) 단말기, IPTV(Internet Protocol Television) 단말기, 스마트 TV, 디지털방송용 단말기, AVN(Audio Video Navigation) 단말기, A/V(Audio/Video) 시스템, 플렉시블 단말기(Flexible Terminal), 디지털 사이니지 장치 등과 같은 다양한 단말기에 적용될 수 있다.

일 실시예에 있어서, 사용자 단말(20)은 언론 기사 감성 분석 시스템(10)이 제공하는 분석 서비스를 이용하고자 하는 업무 담당자 또는 개인이 소지하는 단말장치로 구현될 수 있다.

언론사 서버(40)는 복수의 사용자 단말(20) 및 언론기사 감성 분석 시스템(10)과 네트워크(30)를 통해 통신하여 명령, 코드, 파일, 컨텐츠, 서비스 등을 제공하는 컴퓨터 장치 또는 복수의 컴퓨터 장치들로 구현될 수 있다. 예를 들어, 언론사 서버(40)는 네트워크(30)를 통해 접속한 복수의 전자 기기들로 서비스를 제공하는 시스템일 수 있다.

일 실시예에 있어서 언론사 서버(40)는 뉴스 및 다양한 컨텐츠를 제공하기 위해 자체적으로 서버를 구축하거나 호스팅 서비스를 이용하여 운영하는 언론사 자체의 서버를 포괄하도록 해석된다. 언론사 서버(40)는 언론사의 웹사이트, 기사, 댓글, 이미지, 동영상 등의 데이터를 저장하고 관리하며, 사용자들에게 서비스를 제공할 수 있다. 언론사 서버(40)는 언론사가 독자들에게 신속하고 안정적으로 뉴스를 제공하고, 사용자의 요청에 대응하며, 사용자 관리와 컨텐츠 관리 등을 수행하는데 사용된다.

언론사 서버(40)는 Apache, Nginx와 같은 웹 서버 소프트웨어를 사용하여 언론사의 웹 페이지를 호스팅하는 웹 서버, MySQL, PostgreSQL 등의 관계형 데이터베이스를 사용하여 기사, 사용자 정보, 댓글 등의 데이터를 저장하고 관리하는 데이터베이스 서버, 이미지, 동영상, 오디오 파일과 같은 미디어 자료를 저장하고 제공하며, Amazon S3, Google Cloud Storage 등의 클라우드 기반 파일 저장소를 사용할 수도 있는 파일 서버, PHP, Python, Java 등의 프로그래밍 언어를 사용하여 웹 애플리케이션을 실행하고 관리하며, 사용자 인증, 기사 작성, 검색 기능, 댓글 관리 등의 로직을 처리하는 백엔드 서버 등 다양한 구성 요소로 구성될 수 있다.

네트워크(30)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(30)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.

도 1 과 같이 일 실시예에 따른 언론기사 감성 분석 시스템(10)은 통신 인터페이스(110), 메모리(120), 입출력 인터페이스(130) 및 프로세서(140)를 포함한다.

통신 인터페이스(110)는 네트워크를 통해 언론기사 감성 분석 시스템(10)이 다른 장치(일례로, 앞서 설명한 저장 장치들)와 서로 통신하기 위한 기능을 제공할 수 있다. 일례로, 언론기사 감성 분석 시스템(10)의 프로세서(140)가 메모리(120)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이나 명령, 데이터, 파일 등이 통신 인터페이스(110)의 제어에 따라 네트워크를 통해 다른 장치들로 전달될 수 있다.

역으로, 다른 장치로부터의 신호나 명령, 데이터, 파일 등이 네트워크를 거쳐 언론기사 감성 분석 시스템(10)의 통신 인터페이스(110)를 통해 언론기사 감성 분석 시스템(10)으로 수신될 수도 있다. 통신 인터페이스(110)를 통해 수신된 신호나 명령, 데이터 등은 프로세서(140)나 메모리(120)로 전달될 수 있고, 파일 등은 언론기사 감성 분석 시스템(10)이 더 포함할 수 있는 저장 매체(상술한 영구 저장 장치)로 저장될 수 있다.

메모리(120)는 컴퓨터에서 판독 가능한 기록매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브 및 서버와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 여기서 ROM과 디스크 드라이브와 같은 비소멸성 대용량기록장치는 메모리(120)와는 구분되는 별도의 영구 저장 장치로서 언론기사 감성 분석 시스템(10)에 포함될 수도 있다.

또한, 메모리(120)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(120)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 메모리(120)로 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드, SSD, USB 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다.

다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 인터페이스(110)를 통해 메모리(120)에 로딩 될 수도 있다. 예를 들어, 소프트웨어 구성요소들은 네트워크를 통해 수신되는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 언론기사 감성 분석 시스템(10)의 메모리(120)에 로딩될 수 있다.

입출력 인터페이스(130)는 입출력 장치(150)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입출력 장치(150)의 입력 장치는 마이크, 키보드 또는 마우스 등의 장치를, 그리고 출력 장치는 디스플레이, 스피커와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스(130)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 입출력 장치(150)는 언론기사 감성 분석 시스템(10)과 하나의 장치로 구성될 수도 있다.

프로세서(140)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(120) 또는 통신 인터페이스(110)에 의해 프로세서(140)로 제공될 수 있다. 예를 들어 프로세서(140)는 메모리(120)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.

구체적으로 프로세서(140)는 수집부(1410), 분석부(1420), 판단부(1430), 도출부(1440) 및 이슈 추출부(1450)를 포함한다.

도 2 는 일 실시예에 따른 언론 기사 분석 프로세스를 설명하기 위한 예시도이다.

수집부(1410)는 설정 조건에 부합한 언론 기사 데이터를 수집하여 데이터베이스화한다. 일 실시예에 있어서 수집부(1410)는 언론사 API 및 Web Scraping을 통해 수집한 언론기사 데이터를 데이터베이스화하여 저장한다.

일 양상에 있어서, 수집부(1410)는 설정 조건으로 사용자로부터 검색 키워드, 기사 발행 일자, 기사 출처, 언론사, 기사 카테고리 중 적어도 하나를 포함하는 검색 조건을 입력받는다.

수집부(1410)에서 수집되고 데이터베이스에 저장된 언론 기사 데이터는 자연어 분석기 및 ChatGPT등의 대형 언어 모델을 통해 분석될 수 있다. 수집부(1410)는 종합지, 경제지, 지역지, 방송이나 IT 등의 언론사에서 게재되는 언론 기사 데이터를 수집할 수 있다.

분석부(1420)는 수집부(1410)에서 수집된 언론 기사 데이터를 자연어 분석기를 이용하여 인공 지능 기반의 언어로 분석해낸다. 이에 따라 인간과 동일하게 텍스트 전체를 분석후 문맥 등을 전체적으로 고려한 감성 분석 기능을 제공할 수 있다.

추가적으로 일 실시예에 있어서 자연어 분석기는 자연어 추론(NLI: Natural Language Inference) 모델을 이용하여 입력된 문장(카테고리와 연관된 대표 문장)과 대형 언어 모델이 생성한 문장(요약 문장) 사이의 관계를 판정할 수 있다. 여기서, NLI 모델은 한 문장이 다른 문장과 논리적으로 관련이 있는지를 판정하기 위한 모델일 수 있으며, 입력된 문장과 생성된 문장 사이의 관계를 중립 관계(neutral), 함의 관계(entailment), 모순 관계(contradiction)로 분류하여 판정할 수 있다. 구체적으로, 입력된 문장과 생성된 문장이 함의 관계가 아닌 것으로 판정하는 경우, 생성된 요약 문장을 허위로 판정할 수 있다. 예를 들어, 4개의 대표 문장 중 임의의 2개의 문장과 생성된 요약 문장 사이의 관계를 판정하고, 한 번이라도 함의 관계로 판정되면, 대형 언어 모델에 의해 생성된 요약 문장이 진실인 것으로 판정할 수도 있다.

도 3 은 일 실시예에 따른 자연어 분석기 세부 프로세스를 나타낸 흐름도이다.

일 양상에 있어서, 분석부(1420)는 수집부(1410)에서 수집된 언론 기사 데이터들에 대해 내용 및 형식을 분석하여 감성 분석에 적합한 언론 기사 데이터를 필터링하는 필터링부(1422), 및 필터링부(1422)에서 필터링 결과 감성 분석에 부적합한 언론 기사 데이터를 수정 프롬프트(prompt)를 적용하여 텍스트를 재생성하는 재생성부(1424)를 포함한다.

도 3 에서와 같이 분석부(1420)의 필터링부(1422)는 언론 기사의 내용 및 형식을 분석하여 단순 사진기사, 짧은 정보 전달 형식의 기사 등 감성 분석에 적합하지 않은 언론기사를 필터링한다.

일 실시예에 따르면, 필터링부(1422)는 분석부(1420)에 의해 추출된 문장들의 스코어를 판정하여 짧거나 무의미한 문장을 필터링한다. 구체적으로, 필터링부(1422)는 문장의 길이, 문장 내의 카테고리와 연관된 부분의 길이, 중복 형태소 존재 여부, 품사 또는 기호 포함 여부 중 적어도 하나에 기초하여 문장 각각의 스코어를 판정할 수 있다. 스코어는 문장에 담긴 정보가 얼마나 많은지 판단하는데 사용할 수 있고, 필터링부(1422)는 스코어를 이용하여 문장을 필터링 및 정렬할 수 있다. 예를 들어, 소정 기준 이하로 짧은 문장, 카테고리와 연관된 부분이 적은 문장, 무의미한 표현이 반복되는 문장 등과 같은 경우, 필터링부(1422)는 문장에 낮은 스코어를 부여할 수 있다. 이후, 필터링부(1422)는 미리 결정된 임계치 이상의 스코어(예를 들어, 0.55 이상)를 가지는 문장을 클러스터링하도록 필터링하도록 구현될 수 있다.

판단부(1430)는 분석부(1420)에서 분석된 인공 지능 기반의 언어를 대형 언어 모델에 적용하여 형식 적합 여부를 판단한다. 대형 언어 모델은 막대한 양의 텍스트 데이터를 사용하여 훈련된 규모가 큰 인공지능 모델로, 예를들어 예를 들어, GPT (Generative Pre-trained Transformer) 시리즈와 BERT (Bidirectional Encoder Representations from Transformers) 모델을 포함한다. 대형 언어 모델은 더 많은 맥락과 지식을 이용하여 언어 이해와 생성을 개선할 수 있으며, 다양한 응용 분야에서 활용 가능성이 높아지고 있다.

그리고 형식 적합 여부 판단 결과에 따라, 대형 언어 모델이 생성한 텍스트 결과가 형식이나 내용적으로 적합할 경우 정제하여 분석결과 DB에 저장한다. 이때 텍스트 결과에 대한 형식 및 내용에 대한 적합 여부는 사용자에 의해 기 정의된 기준에 의해 판단될 수 있다. 예를 들어 문법에 맞는 요소로 작성되거나, 긍정 또는 부정에 대한 언급 표현이 포함되는 것일 수 있다. 그러나 이에 한정되는 것은 아니다.

그리고 필터링부(1422)에서 필터링 된 언론 기사 내용의 각 문장별 감성분석 점수, 문장의 대상, 문장의 감성 분석 판단 결과 분석을 위한 대형 언어 모델 프롬프트(Prompt)를 작성한다.

그리고 재생성부(1424)는 필터링부(1422)에서 필터링 결과 감성 분석에 부적합한 언론 기사 데이터를 수정 프롬프트(prompt)를 적용하여 텍스트를 재생성한다.

대형 언어모델의 프롬프트(prompt)는 입력 문장을 생성할 때 사용되는 텍스트 템플릿 또는 지시사항을 의미한다.

프롬프트는 사용자가 대형 언어 모델에게 원하는 작업이나 질문을 명확하게 전달하기 위해 사용되는 것으로 예를 들어, "번역해주세요."라는 프롬프트가 명확한 결과를 얻기에 한계가 있을 경우에 기존의 프롬프트 대신 "한국어에서 영어로 번역해주세요."라는 프롬프트로 재생성할 수 있다.

프롬프트는 모델에게 특정한 문맥이나 작업 목적을 제공하여 원하는 출력을 얻을 수 있다.

즉 대형 언어모델은 프롬프트를 통해 입력 문장을 이해하고 그에 따른 응답이나 결과를 생성하기 때문에 프롬프트를 적절하게 작성하면 모델의 출력을 조정하거나 특정한 작업을 수행할 수 있다.

재생성부(1424)는 사전에 정의된 프롬프트 템플릿을 이용하여 응답을 원하는 방향으로 유도하고 원하는 결과를 도출하기 위한 작업을 수행할 수 있다. 즉, 재생성부(1424)는 미리 정의된 템플릿을 이용하여 문장을 생성하고 반환하는 과정을 거쳐 원하는 형태의 출력을 도출하도록 구현될 수 있다.

도출부(1440)는 판단부(1430)에서 형식 적합한 분석 결과를 정제하여 감성 분석 결과로 도출한다.

도 4 는 본 발명의 일 실시예에 따른 서비스 프로세스를 설명하기 위한 예시도이다.

도 4 에서와 같이 먼저 수집부(1410)는 사용자의 검색 조건(검색 키워드, 기사 발행 날짜, 기사 출처, 언론사, 기사 카테고리 등)에 맞는 언론기사 데이터 및 해당 언론기사 분석 결과 데이터를 호출한다.

도출부(1440)는 대형 언어 모델을 이용하여 언론사별 기사를 분류하여 언론사별 감성 분석을 수행하고 그 통계 결과를 도출하여 제공할 수 있다. 또한 언론 기사 카테고리별 감성 분석, 기사 내 텍스트별 감성 분석 및 해석, 기사 요약 기능을 더 수행할 수도 있다. 일 실시예에 있어서 도출부(1440)는 감성 분석 결과 긍정/ 부정에 대한 감성을 수치화하여 제공할 수도 있고, 단계별로 매우 긍정, 긍정, 부정, 매우 부정 중 하나로 결정할 수도 있다.

또한 언론사별 수집된 언론 기사 데이터들 중 감성 분석 평균 평점이 평균 보다 높거나 낮은 언론사를 분석하여 어느 언론사에서 긍정적인 언론 기사를 게재하였는지 여부에 대한 분석 결과를 제공할 수 있다. 즉 언론사별 언론 기사들에 대한 긍정/부정에 대한 감성 정보를 점수화하여 언론사별 언론 기사에 대한 감성 점수의 최고점 및 최저점, 평균 점수를 산출하여 분석 결과로 제공해줄 수 있다.

이슈 추출부(1450)는 수집부(1410)에서 수집된 언론 기사 데이터들에 대해 도출하는 단계에서 도출된 감성 분석 결과에 따라 적어도 하나 이상의 상이한 긍정 단계로 감성별 이슈들을 추출한다.

도 5 는 일 실시예에 따른 이슈 추출기 세부 프로세스를 설명하기 위한 예시도이다. 도 5와 같이 언론 기사 내용과 언론 기사 분석 결과를 취합하여 분석 결과를 감성별 분류할 수 있다. 그리고 감성별 군집 분석 과정을 거쳐 대형 언어 모델에 적용하여 추출된 이슈에 대해 매우 긍정이슈, 긍정이슈, 부정이슈, 매우 부정 이슈 중 하나로 결정할 수 있다.

또한 특정 기간 동안의 기사 전체에서 기업 등의 대응이 필요한 가장 큰 이슈를 추출할 수 있다.

일 실시예에 있어서, 각 감성별로 분류된 데이터를 취합하여 감성별 군집 분석을 진행하고 각 감성별로 대략적인 이슈 클러스터를 생성할 수 있다. 그리고 이슈 클러스터별로 대형 언어 모델을 통해 각 이슈 문장을 추출할 수도 있다.

추가적인 양상에 있어서, 이슈 추출부(1450)는 적어도 하나 이상의 상이한 긍정 단계의 감성별 군집 분석을 진행하여 감성별 이슈 클러스터를 생성하고, 생성된 이슈 클러스터별로 대형 언어 모델을 통해 이슈 문장을 더 추출한다.

클러스터(Cluster)는 비슷한 특성을 가진 데이터를 그룹으로 묶는 데이터 분석 기법으로 데이터의 패턴이나 유사성을 발견하고, 데이터를 구조화하거나 유형을 식별할 수 있다.

클러스터링 알고리즘은 데이터 포인트 간의 유사성을 측정하고 그룹을 형성하는 방법을 결정할 수 있다. 클러스터링 알고리즘은 클러스터링에 사용할 데이터를 수집하고 데이터 정제, 스케일링, 특성 선택등의 전처리를 수행하고, 데이터 포인트 간의 유사성을 측정하여 클러스터를 형성한다.

유사성 측정은 예를 들어 유클리디안 거리, 코사인 유사도, 자카드 계수 등의 측정 방법을 사용할 수 있다.

그리고 K-means, DBSCAN, 계층적 클러스터링들 중 하나의 클러스터링 알고리즘을 사용하여 데이터를 클러스터로 그룹화한다. 추가적으로 생성된 클러스터의 품질을 평가하도록 구현될 수도 있다. 예를 들어 내부 유사성, 외부 유사성, 실루엣 계수 등의 평가 지표를 사용하여 클러스터의 일관성과 분리도를 측정한다. 그리고 각 클러스터의 대표적인 특성이나 패턴을 식별하고 분석 결과를 시각화하여 클러스터링 결과를 해석하고 클러스터의 특성을 이해할 수 있다.

일 실시예에 있어서 분석부(1420) 및 이슈 추출부(1450)는 각 문장을 벡터로 변환하고 완전 연계 클러스터링(complete linkage clustering) 기법을 이용하여 클러스터링을 수행할 수 있다. 쇼핑 관련 뉴스 데이터 리뷰 요약의 경우, 클러스터링으로 묶인 문장이 많을수록 해당 내용이 현재 상품의 주된 내용이라고 판단할 수 있다.

이후, 분석부(1420) 및 이슈 추출부(1450)는 클러스터를 크기를 기준으로 정렬하고, 각 클러스터 별로 한 문장씩 추출하여 총 n 개의 문장을 추출할 수 있다. n은 2 이상의 자연수이며, 속도와 성능을 고려하여 n=4일 수 있다. 대안적으로, 분석부(1420)는 각 클러스터에서 한 문장씩 추출할 수 있다. 분석부(1420) 및 이슈 추출부(1450)는 모든 카테고리에 대하여 상술한 동작을 반복할 수 있다.

일 실시예에 따르면, 대형 언어 모델은 분석부(1420) 및 이슈 추출부(1450)에 의해 추출된 각 카테고리별 대표 문장들(예를 들어, 카테고리별로 4개의 문장)을 수신하여, 문서의 각 카테고리별 요약 문장을 생성할 수 있다. 예를 들어, 대형 언어 모델은 제1 카테고리와 연관된 4개의 대표 문장을 수신하여 하나의 문장으로 요약함으로써, 제1 카테고리와 연관된 요약 문장을 생성할 수 있다. 유사하게, 초대형 언어 모델은 제2 카테고리와 연관된 4개의 대표 문장을 수신하여 하나의 문장으로 요약함으로써, 제2 카테고리와 연관된 요약 문장을 생성할수 있다.

도 6 은 일 실시예에 따른 AI 기반의 언론기사 감성 분석 방법의 흐름도이다.

일 실시예에 따른 AI 기반의 언론기사 감성 분석 방법은, 설정 조건에 부합한 언론 기사 데이터를 수집하여 데이터베이스화한다(S600).

일 양상에 있어서, 수집 단계는 설정 조건으로 사용자로부터 검색 키워드, 기사 발행 일자, 기사 출처, 언론사, 기사 카테고리 중 적어도 하나를 포함하는 검색 조건을 입력받는다.

그리고 수집 단계에서 수집된 언론 기사 데이터를 자연어 분석기를 이용하여 인공 지능 기반의 언어로 분석한다(S610).

일 양상에 있어서 분석하는 단계는 수집 단계에서 수집된 언론 기사 데이터들에 대해 내용 및 형식을 분석하여 감성 분석에 적합한 언론 기사 데이터를 필터링하는 단계, 및 감성 분석에 부적합한 언론 기사 데이터를 수정 프롬프트(prompt)를 적용하여 텍스트 재생성 단계를 포함한다.

그리고 분석해내는 단계에서의 인공 지능 기반의 언어를 대형 언어 모델에 적용하여 형식 적합 여부를 파악한다(S620).

그리고 형식 적합 여부 판단 결과에 따라(S630), 대형 언어 모델이 생성한 텍스트 결과가 형식이나 내용적으로 적합할 경우 파악하는 단계에서 형식 적합한 분석 결과를 정제하여 감성 분석 결과로 도출한다. 그리고 도출된 분석 결과를 정제하여 분석결과 DB에 저장한다(S640). 반면, 대형 언어 모델이 생성한 텍스트 결과가 형식이나 내용적으로 적합하지 않다고 판단될 경우 프롬프트 수정을 수행한다(S635).

수집 단계에서 수집된 언론 기사 데이터들에 대해 상기 도출하는 단계에서 도출된 감성 분석 결과에 따라 적어도 하나 이상의 상이한 긍정 단계로 감성별 이슈들을 추출한다(S650).

이때 이슈 추출 단계는, 적어도 하나 이상의 상이한 긍정 단계의 감성별 군집 분석을 진행하여 감성별 이슈 클러스터를 생성하고, 생성된 이슈 클러스터별로 대형 언어 모델을 통해 이슈 문장을 더 추출할 수 있다.

도 7 내지 도 12는 일 실시예에 따른 AI 기반의 언론기사 감성 분석 서비스 결과의 예시도이다.

일 실시예에 따른 AI 기반의 언론기사 감성 분석 서비스는 단순히 키워드 추출에 그치지 않고 직접 기사 전체에 대한 의미 분석을 통해 긍/부정 감성을 분석해낼 수 있다. 도 7 내지 도 12에 도시된 바와 같이 AI 기반의 언론기사 감성 분석 서비스는 사용자 단말(20)을 통해 뉴스 기사 원문에 대한 총량 분석, 긍부정 단어 파악, 워드맵, 기사별 감성분석, 문장 추출, 이슈 추출, 기사 요약 및 코멘트 작성에 대한 기능을 제공할 수 있다.

구체적으로 도 7은 일 실시예에 따른 AI 기반의 언론기사 감성 분석 서비스를 위해 제공되는 메인 화면의 예시도이다.

도 7에서와 같이 일 실시예에 따른 언론기사 감성 분석 서비스는 특정 기업이나 단체에 대한 언론 기사 데이터를 분석하여 최근 소정의 기간 동안 언론 기사 분석 결과를 긍정/부정에 대한 감성 정보를 제공한다 그리고 언급량 분석에 대한 분석 키워드를 입력받아 입력받은 키워드에 해당하는 언론 기사 데이터에 대한 분석 결과를 제공할 수도 있다.

도 8은 언론 기사의 총량 분석 및 언론사별 분석 결과를 나타낸 것이다. 일자별 언론기사의 총량 및 평점 추이를 그래프화하여 제공함으로써 뉴스의 긍정/부정에 대한 추이를 한눈에 확인할 수 있도록 가독성 높은 형태의 결과를 제공할 수 있다.

또한 도 9 와 같이 언론 기사에 대해 뉴스 카테고리별로 긍정/부정에 대한 감성 분석 결과를 점수화하여 제공해줄 수도 있다.

도 10과 같이 이슈 및 관련 기사 추출 기능을 통해 전체 기사들 중 국회사무처에 가장 영향력 있는 이슈를 긍정/부정에 대한 감성별로 구분하고, 각각의 이슈를 자동 추출하여 제공할 수 있다. 이때 이슈를 추출함과 동시에 관련 뉴스를 더 검색하여 정보제공하도록 구현될 수도 있다. 이에 따라 국회사무처에 관련된 기사 데이터들 중 어떤 이슈에 대한 긍정적인 반응이 높고, 어떤 이슈에 대한 부정적 반응이 높은지에 대한 파악이 용이하도록 할 수 있다.

도 11 및 도 12는 일 실시예에 따른 AI 기반의 언론기사 감성 분석 서비스에 의해 도출된 기사별 감성 분석 결과를 설명하기 위한 예시도이다.

도 11 및 도 12와 같이 언론 기사 각각에 대해 긍정/부정에 대해 수치화된 정보와 함께 기사 원문, 본문 내용에 대한 코멘트 및 그에 대해 도출되는 긍정/부정 영향 점수를 테이블로 나타내서 제공해줄 수 있다. 아울러 기사 요약을 하나의 테이블에 포함시켜서 나타낸다. 이에 따라 전체 뉴스 기사들 중 문장별 또는 문단별 감성 분석 결과를 확인할 수 있고, 이에 따른 최종 긍정/부정에 대한 감성 점수를 제공받음으로써 최종 감성 점수 도출 과정에 대해 단계별로 명확히 확인할 수 있어 서비스 신뢰도를 높일 수 있는효과가 있다.

전술한 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD 와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

10 : 언론기사 감성 분석 시스템 20 : 사용자 단말
30 : 네트워크 40 : 언론사 서버
110 : 통신 인터페이스 120 : 메모리
130 : 입출력 인터페이스 140 : 프로세서

Claims

수집부에 의해, 설정 조건에 부합한 언론 기사 데이터를 수집하여 데이터베이스화하는 수집 단계;
분석부에 의해, 상기 수집 단계에서 수집된 언론 기사 데이터를 자연어 분석기를 이용하여 인공 지능 기반의 언어로 분석해내는 단계;
판단부에 의해, 상기 분석해내는 단계에서의 인공 지능 기반의 언어를 대형 언어 모델에 적용하여 형식 적합 여부를 파악하는 단계; 및
도출부에 의해, 상기 파악하는 단계에서 기 설정된 형식에 맞는 분석 결과를 정제하여 감성 분석 결과로 도출하는 단계;를 포함하며,
상기 분석해내는 단계는,
상기 수집 단계에서 수집된 언론 기사 데이터들에 대해 내용 및 형식을 분석하여 감성 분석에 활용 가능한 언론 기사 데이터를 필터링하는 단계; 및
감성 분석에 활용 불가능한 언론 기사 데이터를 수정 프롬프트(prompt)를 적용하여 텍스트를 재생성하는 텍스트 재생성 단계를 포함하며,
상기 자연어 분석기는,
한 문장이 다른 문장과 논리적으로 관련이 있는지를 판정하기 위한 자연어 추론 모델을 이용하여 카테고리와 연관된 대표 문장인 입력된 문장과 대형 언어 모델이 생성한 요약 문장 사이의 관계를 중립 관계, 함의 관계 및 모순 관계로 분류하여 판정하며, 상기 입력된 문장과 상기 요약 문장이 함의 관계가 아닌 것으로 판정될 때 상기 대형 언어 모델이 생성한 요약 문장을 허위로 판정하는 것을 특징으로 하는 AI 기반의 언론기사 감성 분석 방법.
삭제
제 1 항에 있어서,
상기 수집 단계는,
상기 설정 조건으로 사용자로부터 검색 키워드, 기사 발행 일자, 기사 출처, 언론사 및, 기사 카테고리 중 적어도 하나를 포함하는 검색 조건을 입력받는, AI 기반의 언론기사 감성 분석 방법.
제 1 항에 있어서,
이슈 추출부에 의해, 상기 수집 단계에서 수집된 언론 기사 데이터들에 대해 상기 도출하는 단계에서 도출된 감성 분석 결과에 따라 적어도 하나 이상의 상이한 긍정 단계로 감성별 이슈들을 추출하는 이슈 추출 단계; 를 포함하는 AI 기반의 언론기사 감성 분석 방법.
제 4 항에 있어서,
상기 이슈 추출 단계는,
적어도 하나 이상의 상이한 긍정 단계의 감성별 군집 분석을 진행하여 감성별 이슈 클러스터를 생성하고, 생성된 이슈 클러스터별로 대형 언어 모델을 통해 이슈 문장을 더 추출하는, AI 기반의 언론기사 감성 분석 방법.
설정 조건에 부합한 언론 기사 데이터를 수집하여 데이터베이스화하는 수집부;
상기 수집부에서 수집된 언론 기사 데이터를 자연어 분석기를 이용하여 인공 지능 기반의 언어로 분석해내는 분석부;
상기 분석부에서 분석된 인공 지능 기반의 언어를 대형 언어 모델에 적용하여 형식 적합 여부를 판단하는 판단부; 및
상기 판단부에서 기 설정된 형식에 맞는 분석 결과를 정제하여 감성 분석 결과로 도출하는 도출부;를 포함하며,
상기 분석부는,
상기 수집부에서 수집된 언론 기사 데이터들에 대해 내용 및 형식을 분석하여 감성 분석에 활용 가능한 언론 기사 데이터를 필터링하는 필터링부; 및
상기 필터링부에서 필터링 결과 감성 분석에 활용 불가능한 언론 기사 데이터를 수정 프롬프트(prompt)를 적용하여 텍스트를 재생성하는 재생성부를 포함하며,
상기 자연어 분석기는,
한 문장이 다른 문장과 논리적으로 관련이 있는지를 판정하기 위한 자연어 추론 모델을 이용하여 카테고리와 연관된 대표 문장인 입력된 문장과 대형 언어 모델이 생성한 요약 문장 사이의 관계를 중립 관계, 함의 관계 및 모순 관계로 분류하여 판정하며, 상기 입력된 문장과 상기 요약 문장이 함의 관계가 아닌 것으로 판정될 때 상기 대형 언어 모델이 생성한 요약 문장을 허위로 판정하는 것을 특징으로 하는 AI 기반의 언론기사 감성 분석 시스템.
삭제
제 6 항에 있어서,
상기 수집부는,
상기 설정 조건으로 사용자로부터 검색 키워드, 기사 발행 일자, 기사 출처, 언론사, 기사 카테고리 중 적어도 하나를 포함하는 검색 조건을 입력받는, AI 기반의 언론기사 감성 분석 시스템.
제 6 항에 있어서,
상기 수집부에서 수집된 언론 기사 데이터들에 대해 상기 도출하는 단계에서 도출된 감성 분석 결과에 따라 적어도 하나 이상의 상이한 긍정 단계로 감성별 이슈들을 추출하는 이슈 추출부;를 포함하는 AI 기반의 언론기사 감성 분석 시스템.
제 9 항에 있어서,
상기 이슈 추출부는,
적어도 하나 이상의 상이한 긍정 단계의 감성별 군집 분석을 진행하여 감성별 이슈 클러스터를 생성하고, 생성된 이슈 클러스터별로 대형 언어 모델을 통해 이슈 문장을 더 추출하는, AI 기반의 언론기사 감성 분석 시스템.