KR102368043B1

KR102368043B1 - 사용자 정의 토픽 모델링을 활용한 사용자 관심 뉴스 추천 장치 및 그 방법

Info

Publication number: KR102368043B1
Application number: KR1020210001377A
Authority: KR
Inventors: 김동우; 신기범
Original assignee: 한전케이디엔주식회사
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2022-02-24

Abstract

본 발명의 사용자 관심 뉴스 추천 장치는 과거의 소정 기간 동안 발행된 적어도 하나의 뉴스별로, 각각의 뉴스와 그 뉴스에서 사용된 단어들 간의 관계를 벡터화하는 임베딩 처리부; 사용자 인터페이스부를 통해 적어도 하나의 대표키워드가 입력되면, 그에 응답하여 사용자의 관심토픽을 등록하고, 상기 대표키워드와 상기 임베딩된 단어들 간의 유사도에 의거하여 상기 관심토픽들 각각에 대한 관심토픽 모델을 생성하는 토픽 모델링부; 상기 뉴스 서비스 제공 서버에 새로운 뉴스가 입력될 경우 상기 새로운 뉴스들 각각에 대하여 상기 사용자가 등록한 관심토픽별 점수를 계산하는 스코어링부; 및 상기 스코어링된 점수에 의거하여 사용자에게 추천할 뉴스를 결정하여 상기 사용자 인터페이스부로 전달하는 제어부를 포함하고, 사용자 관심주제에 기반한 지도학습(Supervised) 토픽 모델링을 이용하여 사용자 관심 뉴스를 추천하되, 복합 단어로 스코어링(scoring)함으로써 단어의 중의성에 의한 오류를 회피할 수 있는 장점이 있다.

Description

사용자 정의 토픽 모델링을 활용한 사용자 관심 뉴스 추천 장치 및 그 방법{APPARATUS AND METHOD FOR RECOMMENDING NEWS OF USER INTEREST USING USER-DEFINED TOPIC MODELING}

본 발명은 사용자 관심 뉴스 추천 장치 및 그 방법에 관한 것으로서, 보다 상세하게는, 지도학습 기반 사용자 정의 토픽 모델링을 활용하여 사용자 관심 뉴스를 추천하는 장치 및 그 방법에 관한 것이다.

최근 인터넷 등 통신 기술의 발달로 24시간 뉴스 서비스를 제공하는 포털들이 증가하고 있으며, 각 포털들은 사용자들로부터 많은 클릭을 유도하기 위해, 방대한 뉴스 중에 사용자 별로 관심있는 뉴스를 제공하기 위한 다양한 방법을 개발하고 있다.

이를 위해, 종래에는 로그인한 사용자가 클릭한 뉴스들을 바탕으로 비슷한 뉴스를 추천해주는 내용 기반 필터링이나, 연령대 별로 선호하는 뉴스를 노출시키는 협업 기반 필터링 방식을 이용하여 사용자 맞춤형 뉴스 추천 서비스를 제공하였다. 이와 같은 종래의 뉴스 추천 방식은 사용자의 관심 주제를 정확하게 도출하는 데에 한계가 있었다.

따라서 최근에는 딥 러닝 알고리즘을 이용하여 관심 주제를 정확하게 도출하고자 하는 다양한 기술이 시도되고 있다.

한국공개특허 제 10-2020-0115708 호에는, 국제 경제지표와 뉴스의 복합적인 정보를 활용하여, 석탄가격을 사전에 예측하는 딥 러닝 기반 자원 가격 예측 방법이 개시되어 있다. 상기 특허는 뉴스를 수집하여 NLP(자연어 처리)를 통해 뉴스지표를 생성하고 시기별 중요도를 반영하여 예측의 정확도를 향상시키고, 기존에 인식되고 있는 주요 인자 외에 여러 지표를 수집하여, 매번 영향도가 높은 경제지표를 선정하는 방법으로 시기적 유효성을 유지시키고, 변화된 환경의 예측 모델을 갱신하기 위해서 새로 수집되어 선정된 데이터로부터 예측 모델을 새로 수립하는 정기적 갱신 모델을 적용하고, 딥러닝 기반의 예측 모델을 활용하여 변동폭의 증감을 민감하게 예측하고, 경제지표와 뉴스지표를 복합적으로 활용하여 수개월 이후의 가격변화를 예측함으로써, 수입자원의 가격 변화를 예측하는 방법을 제공한다.

그런데, 상기 특허의 경우, 뉴스를 가공한 뉴스지표 활용시 개별 단어의 벡터만 사용함으로써, 정보의 왜곡이 발생할 수 있는 문제가 있다. 예를 들어,“Stock”이라는 단어를 연료 거래 시장에서는 “재고”라는 의미로 사용하지만, 일반 경제영역에서는 “주식”의 의미로도 사용하므로, 개별 단어의 벡터만 사용하는 상기 특허의 경우 단어의 중의성에 의한 오류를 내포하는 문제가 있다.

한국 공개특허번호 10-2020-0094833호

따라서 본 발명은 사용자 관심주제에 기반한 지도학습(Supervised) 토픽 모델링을 이용하여 사용자 관심 뉴스를 추천하되, 복합 단어로 스코어링(scoring)함으로써 단어의 중의성에 의한 오류를 회피할 수 있는 사용자 관심 뉴스 추천 장치 및 그 방법을 제공하고자 한다.

또한, 본 발명은 뉴스에서 언급된 단어와, 사용자 정의 토픽의 벡터값과, 뉴스에 내포된 토픽 비율을 점수로 계산하여, 이슈화되는 내용을 하이-스코어링 토픽(High-scoring topic)으로 관리함으로써, 사용자 관심 주제 중 새로 이슈화되는 뉴스를 추천할 수 있는 사용자 관심 뉴스 추천 장치 및 그 방법을 제공하고자 한다.

상기 목적을 달성하기 위해, 본 발명에서 제공하는 사용자 관심 뉴스 추천 장치는, 뉴스 서비스 제공 서버에서 제공되는 뉴스들 중 사용자별 관심 뉴스를 추천하기 위한 사용자 관심 뉴스 추천 장치에 있어서, 사용자의 선택정보를 입력받고, 추천뉴스를 사용자에게 표시하는 사용자 인터페이스부; 과거의 소정 기간 동안 발행된 적어도 하나의 뉴스별로, 각각의 뉴스와 그 뉴스에서 사용된 단어들 간의 관계를 벡터화하는 임베딩 처리부; 상기 사용자 인터페이스부를 통해 적어도 하나의 대표키워드가 입력되면, 그에 응답하여 사용자의 관심토픽을 등록하고, 상기 대표키워드와 상기 임베딩된 단어들 간의 유사도에 의거하여 상기 관심토픽들 각각에 대한 관심토픽 모델을 생성하는 토픽 모델링부; 상기 뉴스 서비스 제공 서버에 새로운 뉴스가 입력될 경우 상기 새로운 뉴스들 각각에 대하여 상기 사용자가 등록한 관심토픽별 점수를 계산하는 스코어링부; 및 상기 스코어링된 점수에 의거하여 사용자에게 추천할 뉴스를 결정하여 상기 사용자 인터페이스부로 전달하는 제어부를 포함하는 것을 특징으로 한다.

바람직하게, 상기 장치는 사용자가 등록한 적어도 하나의 관심토픽 정보에 의거하여 생성된 사용자별 관심토픽 정보를 저장/관리하는 관심토픽정보 저장부; 상기 사용자별 관심토픽 정보에 의거하여 생성된 사용자별 뉴스추천정보를 저장/관리하는 추천정보 저장부; 및 통신망을 통해 상기 뉴스 서비스 제공 서버로부터 뉴스를 전달받는 통신 인터페이스부를 더 포함할 수 있다.

바람직하게, 상기 임베딩 처리부는 상기 뉴스별로, 각각의 뉴스에서 사용된 단어들의 상대적인 빈도수를 산출할 수 있다.

바람직하게, 상기 토픽 모델링부는 상기 대표키워드와 상기 임베딩된 단어들 간의 유사도를 산출하고, 상기 유사도가 미리 설정된 제1 기준값 이상인 단어들을 해당 관심토픽의 단어군인 제1 단어군으로 선정하고, 상기 제1 단어군으로 선정된 단어들을 이용하여 상기 관심토픽 모델을 생성할 수 있다.

바람직하게, 상기 토픽 모델링부는 상기 제1 단어군에 포함된 단어들과의 유사도가 미리 설정된 제2 기준값 이상인 단어들을 선정하고, 상기 선정된 적어도 하나의 단어에 의거하여 잠재토픽을 도출할 수 있다.

바람직하게, 상기 스코어링부는 특정 날짜의 뉴스에 대한 임베딩 결과로부터, 사용자가 등록한 관심토픽들 중 어느 하나인 제1 관심토픽에 대한 관심토픽 모델인 제1 관심토픽 모델에 포함된 단어들 각각의 점수를 검출한 후, 상기 단어 점수에 대한 평균을 산출하고, 상기 특정 날짜의 뉴스에 포함된 모든 단어들 중 상기 제1 관심토픽 모델에 포함된 단어들의 포함비율을 산출한 후, 상기 평균값과 상기 비율을 곱하여, 상기 제1 관심토픽에 대한 해당 뉴스의 토픽점수를 계산하는 일련의 과정을 수행하되, 상기 사용자가 등록한 모든 관심토픽들 각각에 대하여 상기 과정을 수행할 수 있다.

한편, 상기 목적을 달성하기 위해, 본 발명에서 제공하는 사용자 관심 뉴스 추천 방법은 뉴스 서비스 제공 서버에서 제공되는 뉴스들 중 사용자별 관심 뉴스를 추천하기 위한 사용자 관심 뉴스 추천 방법에 있어서, 과거의 소정 기간 동안 발행된 적어도 하나의 뉴스별로, 상기 뉴스들 각각과 그 뉴스에서 사용된 단어들 간의 관계를 벡터화하는 임베딩 단계; 사용자의 입력정보에 의거하여 적어도 하나의 관심토픽을 등록하되, 관심토픽별로 적어도 하나의 대표 키워드가 입력되면, 상기 대표키워드와 상기 임베딩된 단어들 간의 유사도에 의거하여 상기 관심토픽들 각각에 대한 관심토픽 모델을 생성하는 토픽 모델링 단계; 상기 뉴스 서비스 제공 서버에 새로운 뉴스가 입력될 경우 상기 새로운 뉴스들 각각에 대하여 상기 사용자가 등록한 관심토픽별 점수를 계산하는 스코어링 단계; 및 상기 스코어링된 점수에 의거하여 사용자에게 뉴스를 추천하는 뉴스 추천단계를 포함하는 것을 특징으로 한다.

바람직하게, 상기 임베딩 단계는 상기 뉴스별로, 각각의 뉴스에서 사용된 단어들의 상대적인 빈도수를 산출할 수 있다.

바람직하게, 상기 토픽 모델링 단계는 상기 대표키워드와 상기 임베딩된 단어들 간의 유사도를 산출하고, 상기 유사도가 미리 설정된 제1 기준값 이상인 단어들을 해당 관심토픽의 단어군인 제1 단어군으로 선정하고, 상기 제1 단어군으로 선정된 단어들을 이용하여 상기 관심토픽 모델을 생성할 수 있다.

바람직하게, 상기 토픽 모델링 단계는 상기 제1 단어군에 포함된 단어들과의 유사도가 미리 설정된 제2 기준값 이상인 단어들을 선정하고, 상기 선정된 적어도 하나의 단어에 의거하여 잠재토픽을 도출하는 잠재토픽 도출 단계를 더 포함할 수 있다.

바람직하게, 상기 스코어링 단계는 특정 날짜의 뉴스에 대한 임베딩 결과로부터, 사용자가 등록한 관심토픽들 중 어느 하나인 제1 관심토픽에 대한 관심토픽 모델인 제1 관심토픽 모델에 포함된 단어들 각각의 점수를 검출한 후, 상기 단어 점수에 대한 평균을 산출하는 토픽점수 산출단계; 상기 특정 날짜의 뉴스에 포함된 모든 단어들 중 상기 제1 관심토픽 모델에 포함된 단어들의 포함비율을 산출하는 토픽비율 산출단계; 및 상기 평균값과 상기 비율을 곱하여, 상기 제1 관심토픽에 대한 해당 뉴스의 토픽점수를 계산하는 토픽점수 산출단계를 포함하고, 상기 스코어링 단계는 상기 사용자가 등록한 모든 관심토픽들 각각에 대하여 수행할 수 있다.

본 발명의 사용자 관심 뉴스 추천 장치 및 그 방법은 사용자 관심주제에 기반한 지도학습(Supervised) 토픽 모델링을 이용하여 사용자 관심 뉴스를 추천하되, 복합 단어로 스코어링(scoring)함으로써 단어의 중의성에 의한 오류를 회피할 수 있는 장점이 있다. 또한, 본 발명은 뉴스에서 언급된 단어, 사용자 정의 토픽의 벡터값 및 뉴스에 내포된 토픽 비율을 점수로 계산하여, 이슈화되는 내용을 하이-스코어링 토픽(High-scoring topic)으로 관리함으로써, 사용자 관심 주제 중 새로 이슈화되는 뉴스를 추천할 수 있는 장점이 있다.

도 1은 본 발명의 일 실시 예에 따른 사용자 관심 뉴스 추천 장치에 대한 개략적인 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 사용자 관심 뉴스 추천 장치의 임베딩 처리 결과를 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시 예에 따른 사용자 관심 뉴스 추천 장치의 토픽 모델링 결과를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시 예에 따른 스코어링 결과를 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시 예에 따른 사용자 관심 뉴스 추천 방법에 대한 개략적인 순서도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 설명하되, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 상세히 설명한다.

그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 한편 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. 또한 상세한 설명을 생략하여도 본 기술 분야의 당업자가 쉽게 이해할 수 있는 부분의 설명은 생략하였다.

명세서 및 청구범위 전체에서, 어떤 부분이 어떤 구성 요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.

도 1은 본 발명의 일 실시 예에 따른 사용자 관심 뉴스 추천 장치에 대한 개략적인 블록도이다. 도 1을 참조하면, 본 발명의 일 실시 예에 따라 뉴스 서비스 제공 서버(미도시)에서 제공되는 뉴스들 중 사용자별로 관심있는 뉴스를 추천하기 위한 사용자 관심 뉴스 추천 장치(100)는 사용자별 관심토픽정보 관리 DB(110)와, 사용자별 뉴스추천정보 관리 DB(120)와, 사용자 인터페이스부(I/F)(130)와, 통신 인터페이스부(I/F)(140)와, 임베딩 처리부(150)와, 토픽 모델링부(160)와, 스코어링부(170)와, 제어부(180)를 포함한다.

사용자별 관심토픽정보 관리 DB(110)는 사용자가 등록한 적어도 하나의 관심토픽 정보에 의거하여 생성된 사용자별 관심토픽 정보를 저장/관리할 수 있다. 즉, 사용자별 관심토픽정보 관리 DB(110)는 사용자가 등록한 적어도 하나의 관심토픽, 상기 관심토픽별로 사용자가 입력한 적어도 하나의 대표키워드 및 상기 관심토픽별로 생성된 관심토픽 모델을 포함한 사용자별 관심토픽 정보를 저장/관리할 수 있다.

사용자별 뉴스추천정보 관리 DB(120)는 사용자별 관심토픽정보에 의거하여 생성된 사용자별 뉴스추천정보를 저장/관리할 수 있다. 즉, 사용자별 뉴스추천정보 관리 DB(120)는 후술될 임베딩 처리부(150), 토픽 모델링부(160) 및 스코어링부(170) 및 제어부(180)에 의해 생성된 사용자별 뉴스추천정보를 저장/관리할 수 있다.

사용자 인터페이스부(I/F)(130)는 사용자와의 인터페이스를 제공한다. 즉, 사용자 인터페이스부(I/F)(130)는 사용자의 선택정보(예컨대, 관심토픽별 대표키워드 등)를 입력받아 제어부(180)로 전달하고, 제어부(180)로부터 추천뉴스를 전달받아, 이를 사용자에게 표시할 수 있다.

통신 인터페이스부(I/F)(140)는 통신망과의 인터페이스를 제공한다. 즉, 통신 인터페이스부(I/F)(140)는 통신망을 통해 상기 뉴스 서비스 제공 서버(미도시)로부터 뉴스를 전달받아 제어부(180)로 전달할 수 있다.

임베딩 처리부(150)는 과거의 소정 기간 동안 발행된 적어도 하나의 뉴스별로, 각각의 뉴스와 그 뉴스에서 사용된 단어들 간의 관계를 벡터화한다. 예를 들어, 임베딩 처리부(150)는 상기 뉴스별로, 각각의 뉴스에서 사용된 단어들의 상대적인 빈도수(TF-IDF)를 산출한다. 이를 위한 계산식이 수학식 1 내지 수학식 3에 예시되어 있다.

이 때,

는 증가빈도,

는 관심단어(term),

는 문서(document),

는 임의의 단어(word),

는 문서집합(예컨대, 1월 1일부터 1월 31일 까지의 뉴스 목록 등),

는 뉴스에서 사용된 단어들의 상대적 빈도수이다.

도 2는 본 발명의 일 실시 예에 따른 사용자 관심 뉴스 추천 장치(100)의 임베딩 처리 결과를 설명하기 위한 도면으로서, 이와 같은 임베딩 처리부(150)의 처리 결과의 예를 도시하고 있다. 도 2를 참조하면, 임베딩 처리부(150)의 처리 결과는 뉴스와 뉴스에서 사용된 단어들 간의 관계를 벡터(연산이 가능한 숫자화된 정보)로 변환한 TDM(Term-Document Matrix) 구조로 나타낼 수 있다.

한편, 임베딩 처리부(150)는 상기 수학식 1 내지 수학식 3에 예시한 바와 같은 TF-IDF 값 이외에도, Word2Vec, ELMo 등의 공지된 다양한 방법을 이용하여 임베딩할 수도 있다.

다시 도 1을 참조하면, 토픽 모델링부(160)는 사용자가 등록한 관심토픽에 대하여 모델링을 수행한다. 즉, 토픽 모델링부(160)들 모델링한 각각에 대한 관심토픽 모델을 생성한다. 이를 위해, 토픽 모델링부(160)는 사용자 인터페이스부(I/F) (130)를 통해 적어도 하나의 대표키워드가 입력되면, 그에 응답하여 사용자의 관심토픽을 등록하고, 상기 대표키워드와 상기 임베딩된 단어들 간의 유사도에 의거하여 상기 관심토픽들 각각에 대한 관심토픽 모델을 생성할 수 있다. 예를 들어, 토픽 모델링부(160)는 상기 대표키워드와 상기 임베딩된 단어들 간의 유사도를 산출하고, 유사도가 높은 단어들, 즉, 상기 유사도가 미리 설정된 제1 기준값 이상인 단어들을 해당 관심토픽의 단어군인 제1 단어군으로 선정한 후, 상기 제1 단어군으로 선정된 단어들을 이용하여 상기 관심토픽 모델을 생성할 수 있다.

도 3은 본 발명의 일 실시 예에 따른 사용자 관심 뉴스 추천 장치(100)의 토픽 모델링 결과를 설명하기 위한 도면으로서, 토픽 모델링부(160)의 처리 결과의 예를 도시하고 있다. 즉, 도 3은 도 2에 예시된 바와 같은 뉴스의 임베딩 결과를 사용자가 등록한 관심토픽과 매핑시켜 관심토픽 모델을 생성하는 예를 도시하고 있다. 도 3을 참조하면, 사용자가 등록한 관심토픽이 2개(TOPIC-01, TOPIC-02)이고, 그 중 하나인 관심토픽(TOPIC-01)에 대한 대표키워드가 Mining(A), Store(B)이고, 나머지 하나인 관심토픽(TOPIC-02)에 대한 대표키워드가 Store(B), Tender(C)인 경우의 예를 도시하고 있다.

한편, 토픽 모델링부(160)는 상기 제1 단어군에 포함된 단어들과의 유사도가 미리 설정된 제2 기준값 이상인 단어들을 선정하고, 상기 선정된 적어도 하나의 단어에 의거하여 잠재토픽을 도출할 수 있다. 이 때, 상기 유사도는 벡터공간 거리(도 2에 예시된 임베딩 결과)로 계산할 수 있으며, 잠재토픽의 결정 기준인 제2 기준값은 상기 관심토픽을 결정하기 위한 기준인 제1 기준값과 같을 수도 다를 수도 있다. 예를 들어, 상기 제1 기준값 및 제2 기준값이 모두 0.5인 경우, 토픽 모델링부(160)는 대표 키워드와의 유사도가 0.5 이상인 단어들의 집합인 제1 단어군을 관심토픽 모델로 결정하고, 상기 제1 단어군에 포함된 단어들과의 유사도가 0.5 이상인 단어들 중 적어도 하나에 의거하여 잠재토픽을 도출할 수 있다. 즉, 상기 잠재토픽은 관심토픽으로부터 파생되는 토픽으로서, 1회 내지 N회 반복 도출이 가능하다. 또한, 상기 잠재토픽의 결정 기준이 되는 유사도는 뉴스의 특성에 따라 달라질 수 있다.

이와 같이, 토픽 모델링부(160)에서 잠재 토픽을 도출함으로써, 사용자가 관심토픽 등록시에 누락하는 정보에 의해 토픽을 재정의하는 과정을 최소화할 수 있다. 즉, 최초 사용자가 관심토픽에서 누락한 내용이 있더라도, 반복적으로 파생되는 잠재토픽에 의해, 이를 커버할 수 있음으로써, 토픽의 재정의 과정이 최소화될 수 있는 것이다.

스코어링부(170)는 뉴스 서비스 제공 서버(미도시)에 새로운 뉴스가 입력될 경우 상기 새로운 뉴스들 각각에 대하여 상기 사용자가 등록한 관심토픽별 토픽점수를 계산한다. 이 때, 관심토픽별 토픽점수는 새롭게 입력된 특정 뉴스와 사용자가 등록한 관심토픽과의 유사도를 나타내기 위한 점수로서, 상기 관심토픽별 토픽점수를 계산하기 위해, 스코어링부(170)는 다음과 같은 일련의 처리를 수행한다.

먼저, 스코어링부(170)는 특정 날짜의 뉴스에 대한 임베딩 결과로부터, 임의의 제1 관심토픽 모델(즉, 사용자가 등록한 관심토픽들 중 어느 하나인 제1 관심토픽에 대하여 생성된 관심토픽 모델)에 포함된 단어들 각각의 점수를 검출한 후, 상기 단어 점수에 대한 평균(

)을 산출한다. 이 때, 상기 단어 점수 평균 값(

)은 한 토픽을 구성하는 여러 단어들의 평균

점수로서, 이를 산출하기 위한 계산식이 수학식 4에 예시되어 있다.

이 때,

는 한 토픽을 구성하는 여러 단어들의 평균

이고,

는 토픽내 단어군의 단어,

는 문서(document),

는 문서집합(예컨대, 1월 1일부터 1월 31일 까지의 뉴스 목록 등)이다.

또한, 스코어링부(170)는 특정 날짜의 뉴스에 포함된 모든 단어들 중 상기 제1 관심토픽 모델에 포함된 단어들의 포함비율(

)을 산출한다. 이 때, 상기 포함비율(

)은 한 뉴스 내에 여러 토픽이 있을 경우 한 토픽이 차지하는 비율을 나타내는 값으로서, 이를 산출하기 위한 계산식이 수학식 5에 예시되어 있다.

마지막으로 스코어링부(170)는 상기 단어 점수 평균 값(

)과 상기 포함비율(

)을 곱하여, 상기 제1 관심토픽에 대한 해당 뉴스의 토픽점수를 계산할 수 있다.

한편, 스코어링부(170)는 상기 사용자가 등록한 모든 관심토픽들 각각에 대하여 상기 일련의 과정을 수행하여 상기 토픽 점수를 산출한다.

도 4는 본 발명의 일 실시 예에 따른 스코어링 결과를 설명하기 위한 도면으로서, 스코어링부(170)의 처리 결과의 예를 도시하고 있다. 즉, 도 4는 벡터 공간의 유사도를 활용하여 뉴스와, 단어와, 토픽간의 관계를 나타낸 도면으로서, 도 4를 참조하면, 2020년 8월 1일부터 2020년 8월 4일간의 뉴스에서, WORD-01 부터 WORD-n까지의 단어들과 토픽-01 및 토픽-02와의 관계를 알 수 있다. 예를 들어, 관심 토픽 중 하나인 TOPIC-02가 WORD-02와 WORD-n의 단어로 구성되었으며, 2020.08.02. 뉴스가 주로 WORD-02와 WORD-n 단어를 사용하여 작성되었을 경우, 2020.08.02.의 뉴스는 TOPIC-02로 분류될 수 있는 것이다.

즉, 전체기간의 뉴스에서 사용된 단어들 중 특정 일자의 뉴스는 일부 단어들만을 사용하여 작성된 뉴스로서, 반복적으로 동시 사용되는 단어는 단어간 유사도가 높은 단어로 도출할 수 있으며, 높은 유사도의 단어는 하나의 TOPIC으로 정의 할 수 있는 것이다.

제어부(180)는 스코어링부(170)에서 뉴스별로 산출된 관심토픽별 토픽점수에 의거하여 사용자에게 추천할 뉴스를 결정하고, 그 결과를 사용자 인터페이스부(I/F)(130)를 통해 사용자에게 제공한다. 이 때, 제어부(180)는 상위 점수로 계산된 토픽을 사용자에게 추천(일별 추천)하되, 이전 단계에서 스코어링된 토픽의 점수를 역순으로 정렬한다. 예를 들어, 3종류의 토픽에 대하여, 스코어링된 점수가 0.5, 0.2, 0.8인 경우, 이를 역순(즉, 내림차순)으로 정렬한 순서로 추천한다. 즉, 점수가 0.8인 토픽을 가장 우선적으로 추천하고, 점수가 0.5인 토픽, 0.2인 토픽을 순차적으로 추천한다.

도 5는 본 발명의 일 실시 예에 따른 사용자 관심 뉴스 추천 방법에 대한 개략적인 순서도이다. 도 1 및 도 5를 참조하면, 본 발명의 일 실시 예에 따라 뉴스 서비스 제공 서버에서 제공되는 뉴스들 중 사용자별 관심 뉴스를 추천하기 사용자 관심 뉴스 추천 방법은 다음과 같다.

먼저, 단계 S110에서는, 임베딩 처리부(150)가 과거의 소정 기간 동안 발행된 적어도 하나의 뉴스별로, 상기 뉴스들 각각과 그 뉴스에서 사용된 단어들 간의 관계를 벡터화한다. 이를 위해, 단계 S110에서, 임베딩 처리부(150)는 상기 뉴스별로, 각각의 뉴스에서 사용된 단어들의 상대적인 빈도수를 산출하고, 그 결과, 뉴스와 뉴스에서 사용된 단어들 간의 관계를 벡터(연산이 가능한 숫자화된 정보)로 변환한 TDM(Term-Document Matrix) 구조로 나타낼 수 있다.

단계 S120에서는, 토픽 모델링부(160)가, 사용자가 등록한 관심토픽에 대하여 모델링을 수행한다. 즉, 단계 S120에서, 토픽 모델링부(160)는 사용자의 입력정보에 의거하여 적어도 하나의 관심토픽을 등록하되, 관심토픽별로 적어도 하나의 대표 키워드가 입력되면, 상기 대표키워드와 상기 임베딩된 단어들 간의 유사도에 의거하여 상기 관심토픽들 각각에 대한 관심토픽 모델을 생성한다. 이를 위해, 단계 S120은 상기 대표키워드와 상기 임베딩된 단어들 간의 유사도를 산출하는 단계, 상기 유사도가 미리 설정된 제1 기준값 이상인 단어들을 해당 관심토픽의 단어군인 제1 단어군으로 선정하는 단계, 상기 제1 단어군으로 선정된 단어들을 이용하여 상기 관심토픽 모델을 생성하는 단계를 수행할 수 있다.

또한, 단계 S120에서, 토픽 모델링부(160)는 상기 제1 단어군에 포함된 단어들과의 유사도가 미리 설정된 제2 기준값 이상인 단어들을 선정하고, 상기 선정된 적어도 하나의 단어에 의거하여 잠재토픽을 도출하는 잠재토픽 도출 단계를 더 포함할 수 있다. 이 때, 상기 유사도는 벡터공간 거리(도 2에 예시된 임베딩 결과)로 계산할 수 있으며, 잠재토픽의 결정 기준인 제2 기준값은 상기 관심토픽을 결정하기 위한 기준인 제1 기준값과 같을 수도 다를 수도 있다. 예를 들어, 상기 제1 기준값 및 제2 기준값이 모두 0.5인 경우, 상기 잠재토픽 도출 단계에서는 대표 키워드와의 유사도가 0.5 이상인 단어들의 집합인 제1 단어군을 관심토픽 모델로 결정하고, 상기 제1 단어군에 포함된 단어들과의 유사도가 0.5 이상인 단어들 중 적어도 하나에 의거하여 잠재토픽을 도출할 수 있다. 즉, 상기 잠재토픽은 관심토픽으로부터 파생되는 토픽으로서, 1회 내지 N회 반복 도출이 가능하다. 또한, 상기 잠재토픽의 결정 기준이 되는 유사도는 뉴스의 특성에 따라 달라질 수 있다.

이와 같이 본 발명의 사용자 관심 뉴스 추천 방법은, 잠재토픽을 도출함으로써 사용자가 관심토픽 등록시에 누락하는 정보에 의해 토픽을 재정의하는 과정을 최소화할 수 있는 장점이 있다. 즉, 최초 사용자가 관심토픽에서 누락한 내용이 있더라도, 반복적으로 파생되는 잠재토픽에 의해, 이를 커버할 수 있음으로써, 토픽의 재정의 과정이 최소화될 수 있는 것이다.

단계 S130에서는, 상기 뉴스 서비스 제공 서버에 새로운 뉴스가 입력될 경우, 스코어링부(170)가 상기 새로운 뉴스들 각각에 대하여 사용자가 등록한 관심토픽별 점수를 계산한다. 이를 위해, 단계 S130은 특정 날짜의 뉴스에 대한 임베딩 결과로부터, 사용자가 등록한 관심토픽들 중 어느 하나인 제1 관심토픽에 대한 관심토픽 모델인 제1 관심토픽 모델에 포함된 단어들 각각의 점수를 검출한 후, 상기 단어 점수에 대한 평균을 산출하는 토픽점수 산출단계; 상기 특정 날짜의 뉴스에 포함된 모든 단어들 중 상기 제1 관심토픽 모델에 포함된 단어들의 포함비율을 산출하는 토픽비율 산출단계; 및 상기 평균값과 상기 비율을 곱하여, 상기 제1 관심토픽에 대한 해당 뉴스의 토픽점수를 계산하는 토픽점수 산출단계를 포함할 수 있다. 한편, 단계 S130에서는, 상기 사용자가 등록한 모든 관심토픽들 각각에 대하여, 상기 일련의 과정들을 반복 수행함으로써, 상기 새로운 뉴스에 대하여, 모든 관심토픽에 대한 토픽점수를 산출할 수 있다.

단계 S140에서는, 상기 단계 S130에서 스코어링된 점수에 의거하여 사용자에게 뉴스를 추천한다. 단계 S140에서는, 상위 점수로 계산된 토픽을 사용자에게 추천(일별 추천)하되, 이전 단계에서 스코어링된 토픽의 점수를 역순으로 정렬한다. 예를 들어, 3종류의 토픽에 대하여, 스코어링된 점수가 0.5, 0.2, 0.8인 경우, 이를 역순(즉, 내림차순)으로 정렬한 순서로 추천한다. 즉, 점수가 0.8인 토픽을 가장 우선적으로 추천하고, 점수가 0.5인 토픽, 0.2인 토픽을 순차적으로 추천한다.

상기와 같이 본 발명은 사용자 관심주제에 기반한 지도학습(Supervised) 토픽 모델링을 이용하여 사용자 관심 뉴스를 추천하되, 복합 단어로 스코어링(scoring)함으로써 단어의 중의성에 의한 오류를 회피할 수 있는 장점이 있다.

이상에서는 본 발명의 실시 예를 설명하였으나, 본 발명의 권리범위는 이에 한정되지 아니하며 본 발명이 실시 예로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 용이하게 변경되어 균등한 것으로 인정되는 범위의 모든 변경 및 수정을 포함한다.

100: 사용자 관심 뉴스 추천 장치 110: 사용자별 관심토픽정보 관리 DB
120: 사용자별 뉴스추천정보 관리 DB 130: 사용자 I/F
140: 통신 I/F 150: 임베딩 처리부
160: 토픽 모델링부 170: 스코어링부
180: 제어부

Claims

뉴스 서비스 제공 서버에서 제공되는 뉴스들 중 사용자별 관심 뉴스를 추천하기 위한 사용자 관심 뉴스 추천 장치에 있어서,
사용자의 선택정보를 입력받고, 추천뉴스를 사용자에게 표시하는 사용자 인터페이스부;
과거의 소정 기간 동안 발행된 적어도 하나의 뉴스별로, 각각의 뉴스와 그 뉴스에서 사용된 단어들 간의 관계를 벡터화하는 임베딩 처리부;
상기 사용자 인터페이스부를 통해 적어도 하나의 대표키워드가 입력되면, 그에 응답하여 사용자의 관심토픽을 등록하고, 상기 대표키워드와 상기 임베딩된 단어들 간의 유사도에 의거하여 상기 관심토픽들 각각에 대한 관심토픽 모델을 생성하는 토픽 모델링부;
상기 뉴스 서비스 제공 서버에 새로운 뉴스가 입력될 경우 상기 새로운 뉴스들 각각에 대하여 상기 사용자가 등록한 관심토픽별 점수를 계산하는 스코어링부; 및
상기 스코어링된 점수에 의거하여 사용자에게 추천할 뉴스를 결정하여 상기 사용자 인터페이스부로 전달하는 제어부를 포함하는 것을 특징으로 하는 사용자 관심 뉴스 추천 장치.
제1항에 있어서,
사용자가 등록한 적어도 하나의 관심토픽 정보에 의거하여 생성된 사용자별 관심토픽 정보를 저장/관리하는 관심토픽정보 저장부;
상기 사용자별 관심토픽 정보에 의거하여 생성된 사용자별 뉴스추천정보를 저장/관리하는 추천정보 저장부; 및
통신망을 통해 상기 뉴스 서비스 제공 서버로부터 뉴스를 전달받는 통신 인터페이스부를 더 포함하는 것을 특징으로 하는 사용자 정의 토픽 모델링을 활용한 사용자 관심 뉴스 추천 장치.
제1항에 있어서, 상기 임베딩 처리부는
상기 뉴스별로, 각각의 뉴스에서 사용된 단어들의 상대적인 빈도수를 산출하는 것을 특징으로 하는 사용자 정의 토픽 모델링을 활용한 사용자 관심 뉴스 추천 장치.
제1항에 있어서, 상기 토픽 모델링부는
상기 대표키워드와 상기 임베딩된 단어들 간의 유사도를 산출하고,
상기 유사도가 미리 설정된 제1 기준값 이상인 단어들을 해당 관심토픽의 단어군인 제1 단어군으로 선정하고,
상기 제1 단어군으로 선정된 단어들을 이용하여 상기 관심토픽 모델을 생성하는 것을 특징으로 하는 사용자 정의 토픽 모델링을 활용한 사용자 관심 뉴스 추천 장치.
제4항에 있어서, 상기 토픽 모델링부는
상기 제1 단어군에 포함된 단어들과의 유사도가 미리 설정된 제2 기준값 이상인 단어들을 선정하고, 상기 선정된 적어도 하나의 단어에 의거하여 잠재토픽을 도출하는 것을 특징으로 하는 사용자 관심 뉴스 추천 장치.
제1항에 있어서, 상기 스코어링부는
특정 날짜의 뉴스에 대한 임베딩 결과로부터, 사용자가 등록한 관심토픽들 중 어느 하나인 제1 관심토픽에 대한 관심토픽 모델인 제1 관심토픽 모델에 포함된 단어들 각각의 점수를 검출한 후, 상기 단어 점수에 대한 평균을 산출하고,
상기 특정 날짜의 뉴스에 포함된 모든 단어들 중 상기 제1 관심토픽 모델에 포함된 단어들의 포함비율을 산출한 후,
상기 평균값과 상기 비율을 곱하여, 상기 제1 관심토픽에 대한 해당 뉴스의 토픽점수를 계산하는 일련의 과정을 수행하되,
상기 사용자가 등록한 모든 관심토픽들 각각에 대하여 상기 과정을 수행하는 것을 특징으로 하는 사용자 관심 뉴스 추천 장치.
뉴스 서비스 제공 서버에서 제공되는 뉴스들 중 사용자별 관심 뉴스를 추천하기 위한 사용자 관심 뉴스 추천 방법에 있어서,
과거의 소정 기간 동안 발행된 적어도 하나의 뉴스별로, 상기 뉴스들 각각과 그 뉴스에서 사용된 단어들 간의 관계를 벡터화하는 임베딩 단계;
사용자의 입력정보에 의거하여 적어도 하나의 관심토픽을 등록하되, 관심토픽별로 적어도 하나의 대표 키워드가 입력되면, 상기 대표키워드와 상기 임베딩된 단어들 간의 유사도에 의거하여 상기 관심토픽들 각각에 대한 관심토픽 모델을 생성하는 토픽 모델링 단계;
상기 뉴스 서비스 제공 서버에 새로운 뉴스가 입력될 경우 상기 새로운 뉴스들 각각에 대하여 상기 사용자가 등록한 관심토픽별 점수를 계산하는 스코어링 단계; 및
상기 스코어링된 점수에 의거하여 사용자에게 뉴스를 추천하는 뉴스 추천단계를 포함하는 것을 특징으로 하는 사용자 관심 뉴스 추천 방법.
제7항에 있어서, 상기 임베딩 단계는
상기 뉴스별로, 각각의 뉴스에서 사용된 단어들의 상대적인 빈도수를 산출하는 것을 특징으로 하는 사용자 정의 토픽 모델링을 활용한 사용자 관심 뉴스 추천 방법.
제7항에 있어서, 상기 토픽 모델링 단계는
상기 대표키워드와 상기 임베딩된 단어들 간의 유사도를 산출하고,
상기 유사도가 미리 설정된 제1 기준값 이상인 단어들을 해당 관심토픽의 단어군인 제1 단어군으로 선정하고,
상기 제1 단어군으로 선정된 단어들을 이용하여 상기 관심토픽 모델을 생성하는 것을 특징으로 하는 사용자 정의 토픽 모델링을 활용한 사용자 관심 뉴스 추천 방법.
제9항에 있어서, 상기 토픽 모델링 단계는
상기 제1 단어군에 포함된 단어들과의 유사도가 미리 설정된 제2 기준값 이상인 단어들을 선정하고, 상기 선정된 적어도 하나의 단어에 의거하여 잠재토픽을 도출하는 잠재토픽 도출 단계를 더 포함하는 것을 특징으로 하는 사용자 관심 뉴스 추천 방법.
제7항에 있어서, 상기 스코어링 단계는
특정 날짜의 뉴스에 대한 임베딩 결과로부터, 사용자가 등록한 관심토픽들 중 어느 하나인 제1 관심토픽에 대한 관심토픽 모델인 제1 관심토픽 모델에 포함된 단어들 각각의 점수를 검출한 후, 상기 단어 점수에 대한 평균을 산출하는 토픽점수 산출단계;
상기 특정 날짜의 뉴스에 포함된 모든 단어들 중 상기 제1 관심토픽 모델에 포함된 단어들의 포함비율을 산출하는 토픽비율 산출단계; 및
상기 평균값과 상기 비율을 곱하여, 상기 제1 관심토픽에 대한 해당 뉴스의 토픽점수를 계산하는 토픽점수 산출단계를 포함하고,
상기 스코어링 단계는
상기 사용자가 등록한 모든 관심토픽들 각각에 대하여 수행하는 것을 특징으로 하는 사용자 관심 뉴스 추천 방법.