KR20210080000A

KR20210080000A - 딥러닝 기반 이미지 자동 태깅을 통한 사용자 맞춤형 뉴스 제공 방법 및 뉴스 제공 서버

Info

Publication number: KR20210080000A
Application number: KR1020190172327A
Authority: KR
Inventors: 정인정; 권태호; 김보미; 김수경
Original assignee: 정인정; 김보미; 김수경; 권태호
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2021-06-30

Abstract

사용자 맞춤형 뉴스 제공 서버 및 뉴스 제공 방법이 제공된다. 뉴스 제공 방법은 소정의 카테고리 별로 기사 데이터를 수집하는 단계와; 상기 기사 데이터의 텍스트를 기반으로 텍스트 마이닝을 통하여 기사의 주요 단어인 텍스트 태그를 추출하는 단계와; 제1 검색 서버를 통하여 상기 태그를 검색하고, 검색 결과에 따른 연관 검색어를 수집하는 단계와; 제2 검색 서버를 통하여 상기 태그와 상기 연관 검색어와 관련된 이미지를 검색하고, 검색된 이미지를 사용하여 이미지 태그를 추출하는 단계와; 사용자의 기사 열람 기호를 고려하여, 상기 태그, 상기 연관 검색어 및 상기 이미지 태그에 특이값 분해 차원 축소 알고리즘을 적용하여 사용자에게 기사를 추천하는 단계를 포함할 수 있다.

Description

딥러닝 기반 이미지 자동 태깅을 통한 사용자 맞춤형 뉴스 제공 방법 및 뉴스 제공 서버{USER ADAPTIVE NEWS SERVICE METHOD AND SERVER BASED ON DEEP LEARNING}

본 발명은 뉴스 제공 방법에 대한 것으로, 보다 구체적으로 딥러닝을 기반으로 하는 사용자 맞춤형 뉴스 제공 방법 및 뉴스 제공 서버에 관한 것이다.

현재 미국에서는 인공지능(AI)을 이용해 많은 시도를 하고 있다. 최근에는 '미국AI 이니셔티브(American AI Initiative)'라고 이름 지어진 행정 명령을 통해 삶의 질을 높이기 위한 목적으로 AI의 연구 개발과 교육 등에 대한 투자를 늘리도록 하였다. 이전에도 미국은 AI를 이용한 '섬리', '펄스', '서카' 등 다양한 기능을 제공하는 뉴스 서비스가 인기를 끌었다.

섬리(Summly)는 400자 내로 뉴스를 요약하는 서비스이고. 펄스(Pulse)는 개인화된 뉴스를 제공하는 서비스이다. 또한, 서카(Circa)는 하나의 토픽에 관한 다양한 관점을 보여주는 어플리케이션이다.

반면, 한국에서는 AI를 이용한 상용화된 뉴스 서비스가 적고, 국내 인공 지능(AI) 산업 기반이 세계 수준에 비해 부족한 실정이다. 따라서, AI 기술 수준도 주요 선진국과 비교했을 때 상당한 격차를 보이며 뒤처지고 있다.

또한, 사용자가 원하지 않아도 자극적인 기사에 노출되는 경향이 있다.

이에, AI를 이용하여 뉴스 사이트 이용에 대한 편리한 서비스를 제공하고, 이를 통해 현대인들이 보다 편리하고 간편하게 뉴스를 소비할 수 있도록 하는 기술 개발이 필요하다.

본 발명이 해결하고자 하는 과제는 CNN 딥 러닝 기술에 기초하여 더욱 정확한 자동 태깅이 가능하며, 태그에 관련된 연관 검색어를 크롤링하여 사용자에게 제공함으로써 더욱 풍부한 태그를 확인 할 수 있도록 하는 사용자 맞춤형 뉴스 제공 방법 및 뉴스 제공 서버를 제공하는 것이다.

또한, 본 발명이 해결하고자 하는 과제는 특이값 분해 (Singular Value Decomposition, SVD) 알고리즘을 이용하여 사용자의 성향에 맞는 기사를 추천함으로써, 사용자들의 기호에 맞는 기사를 찾을 수 있는 사용자 맞춤형 뉴스 제공 방법 및 뉴스 제공 서버를 제공하는 것이다.

또한, 본 발명이 해결하고자 하는 과제는 검색어 랭킹 및 홈 화면 주요 뉴스 등에서 강제적으로 자극적인 기사에 노출되는 것을 피할 수 있는 사용자 맞춤형 뉴스 제공 방법 및 뉴스 제공 서버를 제공하는 것이다.

본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재에 의해 제안되는 실시 예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시 예에 따른 사용자 맞춤형 뉴스 제공 서버는 소정의 카테고리 별로 기사 데이터를 수집하는 기사 수집부와; 상기 기사 데이터의 텍스트를 기반으로 텍스트 마이닝을 통하여 기사의 주요 단어인 텍스트 태그를 추출하는 텍스트 태그 추출부와; 제1 검색 서버를 통하여 상기 태그를 검색하고, 검색 결과에 따른 연관 검색어를 수집하는 검색어 수집부와; 제2 검색 서버를 통하여 상기 태그와 상기 연관 검색어와 관련된 이미지를 검색하고, 검색된 이미지를 사용하여 이미지 태그를 추출하는 이미지 태그 추출부와; 사용자의 기사 열람 기호를 고려하여, 상기 태그, 상기 연관 검색어 및 상기 이미지 태그에 특이값 분해 차원 축소 알고리즘을 적용하여 사용자에게 기사를 추천하는 기사 추천부를 포함할 수 있다.

상기 텍스트 태그 추출부는 TF-IDF(Term Frequency Inverse Document Frequency) 가중치 모델을 이용하여 상기 기사 데이터로부터 태그를 추출할 수 있다.

상기 이미지 태그 추출부는 딥러닝 학습 기반의 이미지 태그 추출 모델인 CNN(Convolution Neural Network)을 이용하여 상기 이미지로부터 태그를 추출할 수 있다.

상기 뉴스 제공 서버는 한국어 기반 문서 요약 알고리즘을 이용하여 기사의 핵심 내용을 요약하는 기사 요약부를 더 포함할 수 있다.

상기 뉴스 제공 서버는 추천 기사, 상기 태그, 상기 연관 검색어 및 요약된 기사 중 적어도 하나를 사용자에게 웹 페이지로 제공하는 웹 제공부를 더 포함할 수 있다.

상기 웹 페이지는 사용자가 상기 태그의 구독을 선택할 수 있는 태그 구독 항목을 포함할 수 있다.

본 발명의 다른 실시예에 따른 사용자 맞춤형 뉴스 제공 방법은 소정의 카테고리 별로 기사 데이터를 수집하는 단계와; 상기 기사 데이터의 텍스트를 기반으로 텍스트 마이닝을 통하여 기사의 주요 단어인 텍스트 태그를 추출하는 단계와; 제1 검색 서버를 통하여 상기 태그를 검색하고, 검색 결과에 따른 연관 검색어를 수집하는 단계와; 제2 검색 서버를 통하여 상기 태그와 상기 연관 검색어와 관련된 이미지를 검색하고, 검색된 이미지를 사용하여 이미지 태그를 추출하는 단계와; 사용자의 기사 열람 기호를 고려하여, 상기 태그, 상기 연관 검색어 및 상기 이미지 태그에 특이값 분해 차원 축소 알고리즘을 적용하여 사용자에게 기사를 추천하는 단계를 포함할 수 있다.

본 발명에 따른 실시 예들에 의하면, 사용자들이 보다 편리하고 간편하게 맞춤형 뉴스를 소비할 수 있도록 하는 사용자 맞춤형 뉴스 제공 방법 및 뉴스 제공 서버가 제공될 수 있다.

또한, 본 발명에 따른 실시 예들에 의하면, CNN 딥러닝 모델과 TF-IDF 알고리즘을 이용한 태그 추출을 통해 기사 데이터를 자동 태깅할 수 있는 사용자 맞춤형 뉴스 제공 방법 및 뉴스 제공 서버가 제공될 수 있다.

또한, 본 발명에 따른 실시 예들에 의하면, 특이값 분해(Singular Value Decomposition, SVD) 알고리즘을 이용하여 사용자의 성향에 맞는 기사를 추천할 수 있는 사용자 맞춤형 뉴스 제공 방법 및 뉴스 제공 서버가 제공될 수 있다.

또한, 본 발명에 따른 실시 예들에 의하면, 검색어 랭킹 및 홈 화면 주요 뉴스 등에서 강제적으로 자극적인 기사에 노출되는 것을 피할 수 있는 사용자 맞춤형 뉴스 제공 방법 및 뉴스 제공 서버가 제공될 수 있다.

도 1은 본 발명의 일 실시 예에 따른 뉴스 제공 서버의 제어 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 웹 페이지를 도시한 도면이다.
도 3은 본 발명의 일 실시 예에 따른 뉴스 제공 방법을 설명하기 위한 제어 흐름도이다.

이하에서는 본 발명의 구체적인 실시 예를 도면을 참조하여 상세히 설명한다. 그러나 본 발명의 기술적 사상이 이하에서 기술되는 실시 예들에 의하여 제한되는 것은 아니며, 또 다른 구성요소의 추가, 변경 및 삭제 등에 의해서 퇴보적인 다른 발명이나 본 발명의 기술적 사상의 범위 내에 포함되는 다른 실시예들을 용이하게 제안할 수 있다.

본 발명에서 사용되는 용어는 가능한 한 현재 해당 기술과 관련하여 널리 사용되는 일반적인 용어를 선택하였으나, 특별한 경우에는 출원인이 임의로 선정한 용어도 있으며 이 경우 해당되는 발명의 설명 부분에서 그 의미를 상세히 기재하였다. 그러므로, 단순한 용어의 명칭이 아닌 용어가 가지는 의미로서 본 발명을 파악하여야 함을 미리 밝혀둔다. 이하에서 기술하는 설명에 있어서, 단어 '포함하는'은 열거된 것과 다른 구성요소들 또는 단계들의 존재를 배제하지 않는다.

도 1은 본 발명의 일 실시 예에 따른 뉴스 제공 서버의 제어 블록도이다.

도시된 바와 같이, 뉴스 제공 서버(100)는 외부의 서버, 즉 제1 검색 서버(200) 및 제2 검색 서버(300)와의 통신을 통하여 기사를 검색하고, 사용자의 기사 구독 패턴을 고려하여 사용자에 적합한 기사를 추천할 수 있다.

이를 위하여 뉴스 제공 서버(100)는 기사 수집부(110), 텍스트 태그 추출부(120), 검색어 수집부(130), 이미지 태그 추출부(140), 기사 추천부(150), 기사 요약부(160) 및 웹 제공부(170)를 포함할 수 있다.

뉴스 제공 서버(100)는 상기 구성을 모두 포함하여 제어하는 컨트롤 서버일 수도 있고, 각 구성들의 데이터 베이스를 제어할 수 있는 데이터 서버일 수도 있다. 상기 기사 수집부(110), 텍스트 태그 추출부(120), 검색어 수집부(130), 이미지 태그 추출부(140), 기사 추천부(150), 기사 요약부(160) 및 웹 제공부(170) 각각은 뉴스 제공 서버(100)와 독립된 데이터 베이스를 포함하여 해당 기능을 수행하기 위한 또는 수행한 결과인 데이터를 저장할 수 있고, 저장된 데이터의 입력 및 출력을 제어하는 컨트롤부를 포함할 수 있다.

제1 검색 서버(200) 및/또는 제2 검색 서버(300)는 뉴스 제공 서버(100)와 독립적인 검색 엔진을 가진 검색 서버일 수 있고, 제1 검색 서버(200) 및 제2 검색 서버(300)는 동일한 사업자가 운영하는 검색 서버일 수도 있고, 서로 다른 서버일 수도 있다.

기사 수집부(110)는 소정의 카테고리 별로 기사 데이터를 수집한다. 본 실시예에 따른 기사 수집부(110)는 데이터 수집을 위한 크롤러를 통하여 생활 문화, IT과학, 사회, 경제, 정치, 스포츠, 연예와 같은 카테고리 별로 기사 제목, 기사 내용, 기사 이미지 등의 기사 데이터를 텍스트 파일의 일종인 CSV(comma-separated variables) 형태로 수집할 수 있다.

텍스트 태그 추출부(120)는 이렇게 수집된 기사 데이터의 텍스트를 기반으로 텍스트 마이닝을 통하여 기사의 주요 단어인 텍스트 태그를 추출한다.

본 실시예에 따르면, 텍스트 태그 추출부(120)는 TF-IDF(Term Frequency Inverse Document Frequency) 가중치 모델을 이용하여 기사 데이터로부터 텍스트 태그를 추출할 수 있으며, KoNLPy으로 기사의 형태소를 분석한 후 TF-IDF을 통해 태그를 추출한다. 텍스트 태그 추출부(120)에서 추출된 텍스트 태그는 연관 검색어 및/또는 이미지 태그를 검색하는 기초가 되므로, 기사 데이터로부터 정확하고 신뢰도 높은 텍스트 태그를 추출하는 것은 매우 중요하다.

추출된 텍스트 태그는 텍스트 태그 추출부(120) 자체 또는 뉴스 제공 서버(100)의 데이터 베이스에 저장될 수 있고, 주기적으로 업데이트 될 수 있다.

텍스트 태그 추출부(120)는 기사의 양이 증가될수록 TF의 값이 무한대로 커지는 점을 고려하여 TF 정규화를 위해 기사 데이터 베이스 작업 완료 후 불린 빈도 (Boolean Frequency), 로그 스케일 빈도 (Logarithmically Scaled Frequency), 증가 빈도 (Augmented Frequency) 중 하나를 적용할 수 있다.

검색어 수집부(130)는 제1 검색 서버(200)를 통하여 태그를 검색하고, 검색 결과에 따른 연관 검색어를 수집할 수 있다. 즉, 검색어 수집부(130)는 기사에서 TF-IDF를 이용해 1차로 추출한 태그들을 기반으로, 제1 검색 서버(200)의 검색 시스템을 이용해 각 태그에 해당하는 연관 검색어를 수집할 수 있다.

즉, 본 실시예에 따를 경우, TF-IDF로 추출한 각 태그의 연관 검색어를 수집함으로써, 기사의 본문에서 추출된 태그와 더불어 '관련 태그' 또한 사용자가 확인할 수 있도록 할 수 있다. 이 태그를 통해 기사의 본문에는 포함되어 있지 않지만 기사 내용과 관련성이 높은 단어를 추가로 추출할 수 있으며, 이를 사용자에게 제공할 수 있다.

따라서, TF-IDF 태그뿐만 아니라 추가적인 연관 단어, 즉 연관 검색어를 활용함으로써 양질의 데이터 집합을 늘릴 수 있다.

제1 검색 서버(200)는 사용자의 검색 점유율이 높고, 많은 검색 결과 데이터를 보유하고 있는 서버인 것이 바람직하며, 특정 용어, 즉 태그에 따른 연관 검색어 제공이 가능한 서버인 것이 바람직하다.

이렇게 수집된 연관 검색어는 검색어 수집부(130) 자체 또는 뉴스 제공 서버(100)의 데이터 베이스에 저장될 수 있고, 실시간으로 또는 주기적으로 업데이트 될 수 있다.

이미지 태그 추출부(140)는 제2 검색 서버(300)를 통하여 태그와 연관 검색어와 관련된 이미지를 검색하고, 검색된 이미지를 사용하여 이미지 태그를 추출할 수 있다.

제2 검색 서버(300)는 이미지 데이터 보유량이 방대하고 이미지 태그를 통하여 용이하게 유사한 이미지 검출이 가능하도록 이미지 카테고리화가 실행되고 있는 서버로 구현되는 것이 바람직하다.

이미지 태그를 추출하기 위하여 이미지 태그 추출부(140)는 제1 검색 서버(200)에서 검색하여 검색 결과로 제공되는 연관 검색어와 이미지를 딥러닝 모델의 학습 데이터로 활용한다. 또한, 이미지 태그 추출부(140)는 기사에 기사 사진이 있을 경우 이미지 태그 추출 모델을 통해 기사 이미지에 자동 태깅한다.

기존의 타 뉴스 사이트들의 경우 기사의 태그를 기자가 직접 달아야 했기 때문에 태그가 없는 기사들도 많고 기사 내용과 상관없는 낚시성 태그가 포함되어 있다는 문제점이 있다.

이를 해결하기 위해 본 발명에서는 텍스트 태그 또는 이미지 태그를 자동으로 추출한다. 상술한 바와 같이 명사의 기사 내 출현 빈도 수뿐만 아니라 TF-IDF(Term Frequency Inverse Document Frequency) 가중치 모델을 이용하여 텍스트 태그를 추출하고, 이와 더불어 이미지 태그 추출부(140)는 딥러닝 기반의 이미지 인식 기법인 CNN(Convolution Neural Network)을 이용하여 뉴스 이미지에서 자동으로 태그를 추출함으로써 기사의 본문 텍스트와 이미지를 모두 고려하여 태그 추출의 정확도를 높일 수 있다.

기사 추천부(150)는 사용자의 기사 열람 기호를 고려하여, 태그, 연관 검색어 및 상기 이미지 태그에 특이값 분해(Singular Value Decomposition, SVD) 차원 축소 알고리즘을 적용하여 사용자에게 기사를 추천할 수 있다.

기사 추천부(150)는 사용자 정보와 기사 내용 및 태그를 통해 사용자 맞춤형 기사를 추천해주는 기능을 실현하기 위하여 협업 필터링(Collaborative Filtering, CF) 알고리즘을 사용할 수 있다.

한편, 이러한 필터링 알고리즘 적용 후 도메인 적용 과정에서 기사 클릭 시 사용자가 읽은 태그가 무한대로 증가되어 라이브러리가 아닌 직접 계산하는 식의 프로그램은 여러 오류를 발생시킬 수 있으므로, 기사 추천부(150)는 사용자, 태그들의 차원을 최대한 줄이고 계산식의 오류를 줄이기 위하여 SVD를 이용할 수 있다.

기존의 타 뉴스 사이트들의 경우 사용자들이 기사를 접하는 방식은 메인 화면의 주요 기사, 기사 카테고리, 언론사 선택, 찾는 기사가 있을 경우 검색을 통한 방법밖에 없었다. 때문에 사용자들이 관심 있는 기사를 찾기 위해서는 많은 시간과 노력을 투자해야 했다.

반면, 본 실시예에 따른 기사 추천부(150)는 추출한 태그를 SVD 차원 축소 알고리즘을 이용하여 사용자의 기사 구독 패턴과 기사 데이터를 분석하고 사용자가 흥미를 가질 만한 기사를 예측하여 추천한다. 이를 통하여 사용자는 관심 있는 기사를 더 쉽게 더 많이 접할 수 있다.

기사 요약부(160)는 한국어 기반 문서 요약 알고리즘(Lexrankr)을 이용하여 기사의 핵심 내용을 요약하고, 이를 사용자에게 제공할 수 있다.

기사가 넘쳐나는 요즘 바쁜 현대인들은 기사의 전문을 모두 읽기에 시간적 여유가 없고 기사의 제목만으로는 기사의 내용을 파악하기 쉽지 않다. 이를 해결하기 위해 기사 요약부(160)는 Lexrankr을 이용하여 기사의 핵심 내용을 요약하는 서비스를 제공할 수 있다. 기사 내용을 쉽고 빠르게 소비할 수 있는 기능이 제공됨으로써 사용자들은 기사를 다양하고 효율적으로 소비할 수 있다.

웹 제공부(170)는 추천 기사, 상기 태그, 상기 연관 검색어 및 요약된 기사 중 적어도 하나를 사용자에게 웹 페이지로 제공할 수 있다.

웹 제공부(170)는 자바 플랫폼을 위한 오픈 소스 애플리케이션 프레임 워크인 Spring Framework를 사용하여 웹 페이지를 구성할 수 있으며, 사용자는 요약된 기사, 추천된 기사 등의 다양한 기능을 웹 페이지의 형태인 뷰(View)로 이용 할 수 있다. 또한, 웹 제공부(170)는 기사와 이미지에서 태그를 추출해 기사 하단에 자동으로 태그를 제공할 수도 있다.

도 2는 본 발명의 일 실시 예에 따른 웹 페이지를 도시한 도면이다.

도시된 바와 같이, 웹 제공부(170)에 의하여 제공되는 웹 페이지는 여러 기사가 표시될 수 있고, 전체 기사에 대한 요약 기사(Ⅰ) 및 태그 구독 항목(Ⅱ)을 포함할 수 있다.

본 실시예에 따를 경우, 기사 마다 가지고 있는 태그들을 구독할 수 있는 구독 기능을 추가하여 사용자가 자신의 관심사를 쉽게 파악할 수 있도록 하고, 기사 스크랩 기능을 통해 기사의 접근성 및 편의성을 높일 수 있다.

도 3은 본 발명의 일 실시 예에 따른 뉴스 제공 방법을 설명하기 위한 제어 흐름도이다. 도 3을 참조하여 본 실시예에 따른 뉴스 제공 방법을 정리하면 다음과 같다.

우선, 기사 수집부(110)에 의하여 소정의 카테고리 별로 기사 데이터 수집될 수 있다(S310).

그런 후, 기사 데이터의 텍스트를 기반으로 텍스트 마이닝을 통하여 기사의 주요 단어인 텍스트 태그가 추출될 수 있다(S320).

텍스트 태그는 TF-IDF(Term Frequency Inverse Document Frequency) 가중치 모델에 의하여 상기 기사 데이터로부터 추출될 수 있다.

검색어 수집부(130)는 제1 검색 서버(200)를 통하여 태그를 검색하고, 검색 결과에 따른 연관 검색어를 수집할 수 있다(S330).

이러한 연관 검색어 수집을 통하여 더 다양하고 정확도가 높은 기사 추천이 가능해진다.

이미지 태그 추출부(140)는 제2 검색 서버를 통하여 태그와 연관 검색어와 관련된 이미지를 검색하고, 검색된 이미지를 사용하여 이미지 태그를 추출할 수 있다(S340).

이미지 태그를 추출하는 단계(S340)는 딥러닝 학습 기반의 이미지 태그 추출 모델인 CNN(Convolution Neural Network)을 통하여 이미지로부터 태그를 추출할 수 있다.

이렇게 텍스트 및 태그 및 이미지 태그, 연관 검색어가 추출/ 수집되어 데이터 베이스화 되어 있으면, 기사 추천부(150)는 사용자의 기사 열람 기호를 고려하여, 태그, 연관 검색어 및 이미지 태그에 특이값 분해 차원 축소 알고리즘을 적용하여 사용자에게 기사를 추천할 수 있다(S350).

이러한 기사 요약은 웹 페이지에 의하여 사용자에게 제공될 수 있고, 사용자에게 제공되는 웹 페이지에는 태그에 대한 정보 및 태그를 구독할 수 있는 사용자 인터페이스를 포함될 수 있다.

상기와 같이, 본 발명에 따를 경우, 태그를 이용한 편리하고 합리적인 기사 소비가 가능해지고, 사용자 맞춤형 뉴스 추천과 기사 요약을 통하여 사용자들이 적합하게 기사를 소비할 수 있도록 안내할 수 있으며, 뉴스 데이터를 이용한 사용자의 성향 및 기호 분석이 가능해진다.

본 발명의 실시 예들과 같이 기사들에 태그가 포함되어 있는 경우, 특정 태그에 해당하는 기사들을 모아 소비하는 것이 가능하다. 따라서, 기존 카테고리 별로 분류되어 있는 기사들을 소비되는 방식과 달리 하나의 태그에 대해서 다양한 분야의 뉴스들을 접할 수 있고 이는 사용자들이 편리하고 합리적으로 기사를 소비할 수 있도록 한다.

또한, 특이값 분해 알고리즘을 활용하여 사용자의 기사 소비 패턴에 따른 사용자 맞춤 기사를 추천해줄 수 있다. 이를 통해 사용자가 관심 있어 하거나 궁금한 주제, 정보에 대한 뉴스를 쉽고 간편하게 사용자에게 제공할 수 있다. 또한 기사 요약 서비스를 통해 사용자는 기사 본문을 보기 전 요약된 기사를 먼저 확인 할 수 있어 바쁜 현대인에게 적합한 기사 소비 방식의 하나로 자리 잡을 수 있다.

또한, 맞춤형 뉴스 추천을 통해 수집한 사용자들의 정보를 통해 성별ㆍ연령별 주요 관심사, 선호하는 기사의 형태, 기간별 이슈 등의 데이터를 수집 할 수 있고 이를 통해 다양한 사용자들의 성향 및 기호를 분석 할 수 있다.

본 발명은 텍스트 기반인 기사 데이터를 이용해서 사용자 맞춤 서비스를 제공하고 있다. 이를 통해 기사가 아닌 다른 텍스트 기반의 데이터 서비스에서도 사용자 맞춤 서비스가 적용 또는 활용될 수 있다. 또한, 태그를 기준으로 그 태그와 연관 단어를 이용한 연관 태그 크롤링을 통해 자동 태깅이 가능하기 때문에 기사 이외에 SNS, 블로그, 짧은 글 등 다양한 텍스트에 자동 태깅이 가능하고, 기사 이미지를 기반으로 자동 태깅이 가능하기 때문에 SNS 등 다양한 이미지 데이터에 자동 태깅이 가능하도록 활용될 수 있다.

이상에서 실시 예를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성을 벗어나지 않는 범위 내에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 실시예에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

100: 뉴스 제공 서버 110: 기사 수집부
120: 텍스트 태그 추출부 130: 검색어 수집부
140: 이미지 태그 추출부 150: 기사 추천부
160: 기사 요약부 170: 웹 제공부
200: 제1 검색 서버 300: 제2 검색 서버

Claims

사용자 맞춤형 뉴스 제공 서버에 있어서,
소정의 카테고리 별로 기사 데이터를 수집하는 기사 수집부와;
상기 기사 데이터의 텍스트를 기반으로 텍스트 마이닝을 통하여 기사의 주요 단어인 텍스트 태그를 추출하는 텍스트 태그 추출부와;
제1 검색 서버를 통하여 상기 태그를 검색하고, 검색 결과에 따른 연관 검색어를 수집하는 검색어 수집부와;
제2 검색 서버를 통하여 상기 태그와 상기 연관 검색어와 관련된 이미지를 검색하고, 검색된 이미지를 사용하여 이미지 태그를 추출하는 이미지 태그 추출부와;
사용자의 기사 열람 기호를 고려하여, 상기 태그, 상기 연관 검색어 및 상기 이미지 태그에 특이값 분해 차원 축소 알고리즘을 적용하여 사용자에게 기사를 추천하는 기사 추천부를 포함하는 것을 특징으로 하는 뉴스 제공 서버.
제1항에 있어서,
상기 텍스트 태그 추출부는 TF-IDF(Term Frequency Inverse Document Frequency) 가중치 모델을 이용하여 상기 기사 데이터로부터 태그를 추출하는 것을 특징으로 하는 뉴스 제공 서버.
제1항에 있어서,
상기 이미지 태그 추출부는 딥러닝 학습 기반의 이미지 태그 추출 모델인 CNN(Convolution Neural Network)을 이용하여 상기 이미지로부터 태그를 추출하는 것을 특징으로 하는 뉴스 제공 서버.
제1항에 있어서,
한국어 기반 문서 요약 알고리즘을 이용하여 기사의 핵심 내용을 요약하는 기사 요약부를 더 포함하는 것을 특징으로 하는 뉴스 제공 서버.
제1항에 있어서,
추천 기사, 상기 태그, 상기 연관 검색어 및 요약된 기사 중 적어도 하나를 사용자에게 웹 페이지로 제공하는 웹 제공부를 더 포함하는 것을 특징으로 하는 뉴스 제공 서버.
제5항에 있어서,
상기 웹 페이지는 사용자가 상기 태그의 구독을 선택할 수 있는 태그 구독 항목을 포함하는 것을 특징으로 하는 뉴스 제공 서버.
사용자 맞춤형 뉴스 제공 방법에 있어서,
소정의 카테고리 별로 기사 데이터를 수집하는 단계와;
상기 기사 데이터의 텍스트를 기반으로 텍스트 마이닝을 통하여 기사의 주요 단어인 텍스트 태그를 추출하는 단계와;
제1 검색 서버를 통하여 상기 태그를 검색하고, 검색 결과에 따른 연관 검색어를 수집하는 단계와;
제2 검색 서버를 통하여 상기 태그와 상기 연관 검색어와 관련된 이미지를 검색하고, 검색된 이미지를 사용하여 이미지 태그를 추출하는 단계와;
사용자의 기사 열람 기호를 고려하여, 상기 태그, 상기 연관 검색어 및 상기 이미지 태그에 특이값 분해 차원 축소 알고리즘을 적용하여 사용자에게 기사를 추천하는 단계를 포함하는 것을 특징으로 하는 뉴스 제공 방법.
제7항에 있어서,
상기 텍스트 태그를 추출하는 단계는 TF-IDF(Term Frequency Inverse Document Frequency) 가중치 모델을 이용하여 상기 기사 데이터로부터 태그를 추출하는 것을 특징으로 하는 뉴스 제공 방법.
제8항에 있어서,
상기 이미지 태그를 추출하는 단계는 딥러닝 학습 기반의 이미지 태그 추출 모델인 CNN(Convolution Neural Network)을 이용하여 상기 이미지로부터 태그를 추출하는 것을 특징으로 하는 뉴스 제공 방법.