KR20230083418A

KR20230083418A - 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법 및 시스템

Info

Publication number: KR20230083418A
Application number: KR1020210171400A
Authority: KR
Inventors: 박세호; 유샛별; 김정아
Original assignee: 한국전자기술연구원
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2023-06-12

Abstract

본 발명은 콘텐츠 데이터베이스 내의 둘 이상의 콘텐츠 간의 콘텐츠 유사도를 산출하고, 콘텐츠 데이터베이스 내의 콘텐츠들을 임베딩 학습한 임베딩 데이터를 생성하며, 콘텐츠 유사도 및 임베딩 데이터를 근거로 하여 콘텐츠 데이터베이스 내의 제1 콘텐츠를 시청하는 시청자에게 제2 콘텐츠를 추천함으로써, 시청자의 시청 기록이 없는 초기에도 콘텐츠 추천이 가능하며, 시청 기록이 일정 수준 이상 쌓였을 경우, 시청 기록에 따른 가중치를 부여하여 개인화된 추천이 가능한 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법에 관한 것이다.

Description

콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법 및 시스템 {METHOD AND SYSTEM FOR RECOMMENDING CONTENT THROUGH CONTENETS SIMILARITY AND EMBEDDING LEARNING}

본 발명은 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법 및 시스템에 관한 것으로서, 보다 자세하게는, 콘텐츠 유사도 및 임베딩 데이터를 근거로 하여 콘텐츠 데이터베이스 내의 제1 콘텐츠를 시청하는 시청자에게 제2 콘텐츠를 추천하는 방법 및 시스템에 관한 것이다.

최근 유튜브와 같은 동영상 공유 서비스, 넷플릭스, 디즈니플러스와 같은 OTT(Over The Top) 서비스가 발달함에 따라, 시청자의 지속적인 서비스 이용을 유도하기 위하여 시청자에게 콘텐츠를 추천하는 방법이 개발되어 왔다.

종래의 콘텐츠 추천 방법의 경우에는, 시청자가 시청하는 콘텐츠들을 분석하여 분석 결과에 따라 콘텐츠를 추천하는 방식이 활용되었다.

특히 시청자의 콘텐츠에 대한 평가정보를 분석하여 콘텐츠를 추천하는 방식, 학술 콘텐츠에 있어서 인용관계를 기반으로 콘텐츠를 추천하는 방식, 콘텐츠의 액션정보와 속성정보에 근거하여 콘텐츠를 추천하는 방식 등이 이용되어 왔다.

하지만 이런 방식들은 결국 시청자가 여러 가지 콘텐츠를 시청한 뒤 시청 기록이 누적되어 이러한 시청 기록을 분석하여야만 추천이 가능하였다. 즉, 이러한 종래의 콘텐츠 추천 방식은 콘텐츠를 추천할 때 해당 시청자의 시청 기록이 없을 때의 콜드 스타트(Cold Start) 문제가 있었다.

한국공개특허 제10-2016-0037140호

본 발명의 목적은, 콘텐츠 데이터베이스 내의 둘 이상의 콘텐츠 간의 콘텐츠 유사도를 산출하고, 콘텐츠 데이터베이스 내의 콘텐츠들을 임베딩 학습한 임베딩 데이터를 생성하며, 콘텐츠 유사도 및 임베딩 데이터를 근거로 하여 콘텐츠 데이터베이스 내의 제1 콘텐츠를 시청하는 시청자에게 제2 콘텐츠를 추천함으로써, 시청자의 시청 기록이 없는 초기에도 콘텐츠 추천이 가능하며, 시청 기록이 일정 수준 이상 쌓였을 경우, 시청 기록에 따른 가중치를 부여하여 개인화된 추천이 가능한 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법을 제공하는 것이다.

본 발명의 일 실시예에 따른, 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법은, 콘텐츠 데이터베이스 내의 둘 이상의 콘텐츠 간의 콘텐츠 유사도를 산출하는 유사도 산출 단계; 상기 콘텐츠 데이터베이스 내의 콘텐츠들을 임베딩 학습한 임베딩 데이터를 생성하는 임베딩 데이터 생성 단계; 및 상기 콘텐츠 유사도 및 상기 임베딩 데이터를 근거로 하여 상기 콘텐츠 데이터베이스 내의 제1 콘텐츠를 시청한 시청자에게 제2 콘텐츠를 추천하는 콘텐츠 추천 단계;를 포함할 수 있다.

일 실시예에서, 상기 유사도 산출 단계는, 상기 콘텐츠 데이터베이스 내의 상기 둘 이상의 콘텐츠 간의 카테고리 별 공통 속성의 개수에 기반하여 상기 둘 이상의 콘텐츠 간의 콘텐츠 유사도를 산출하는 단계;를 포함할 수 있다.

일 실시예에서, 상기 유사도 산출 단계는, 상기 둘 이상의 콘텐츠 간의 코사인 유사도를 산출하여 상기 둘 이상의 콘텐츠 간의 유사도를 산출하는 단계;를 더 포함할 수 있다.

일 실시예에서, 상기 유사도 산출 단계는, 상기 시청자의 상기 콘텐츠 데이터베이스 내의 콘텐츠의 시청 시간을 누적 산출하는 단계; 상기 시청 시간이 소정의 설정 시간 이상인 경우, 상기 카테고리별 가중치를 설정하는 단계; 및 상기 카테고리별 가중치를 적용하여 상기 둘 이상의 콘텐츠 간의 유사도를 산출하는 단계;를 더 포함할 수 있다.

일 실시예에서, 상기 임베딩 데이터 생성 단계는, 무작위로 선택한 콘텐츠의 ID(아이디)와 상기 카테고리별 속성에 대해 도메인 쌍을 형성하고, 상기 콘텐츠의 ID에 상기 카테고리별 속성이 매칭되는 경우, +1로 설정하고, 매칭되지 않는 경우, -1로 설정하여 입력 데이터를 생성하는 단계; 및 상기 입력 데이터를 입력 받아 임베딩 학습을 수행하여 임베딩 데이터를 생성하는 단계;를 포함할 수 있다.

일 실시예에서, 상기 임베딩 학습을 수행하여 임베딩 데이터를 생성하는 단계는, 상기 콘텐츠의 ID와 상기 카테고리별 속성에 대한 2개의 임베딩 레이어를 생성하는 단계; 상기 임베딩 레이어를 병합하는 경우, 도트 레이어(Dot layer)를 사용하여 학습하는 단계; 및 상기 입력 데이터를 분류하는 경우, 덴스 레이어(dense layer) 및 이진 크로스 엔트로피(binary cross entropy)를 사용하여 학습하는 단계;를 포함할 수 있다.

일 실시예에서, 상기 임베딩 데이터 생성 단계는, t-분포 확률적 임베딩(Stochastic Neighbor Embedding; SNE)을 이용하여 상기 임베딩 데이터를 임베딩 그래프로 시각화하는 단계;를 포함할 수 있다.

일 실시예에서, 상기 콘텐츠 추천 단계는, 상기 제1 콘텐츠와 상기 콘텐츠 유사도가 높은 콘텐츠를 제2 콘텐츠로 추천하는 단계; 및 상기 제1 콘텐츠와 상기 콘텐츠 유사도가 동일한 둘 이상의 콘텐츠가 있는 경우, 상기 콘텐츠 유사도가 동일한 둘 이상의 콘텐츠 중 상기 제1 콘텐츠와 상기 임베딩 그래프 내 거리가 가까운 콘텐츠를 제2 콘텐츠로 추천하는 단계를 포함할 수 있다.

본 발명의 다른 실시예에 따른, 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 시스템은, 복수의 콘텐츠를 저장하는 콘텐츠 데이터베이스; 콘텐츠 데이터베이스 내의 둘 이상의 콘텐츠 간의 콘텐츠 유사도를 산출하는 유사도 산출부; 상기 콘텐츠 데이터베이스 내의 콘텐츠들을 임베딩 학습한 임베딩 데이터를 생성하는 임베딩 데이터 생성부; 및 상기 콘텐츠 유사도 및 상기 임베딩 데이터를 근거로 하여 상기 콘텐츠 데이터베이스 내의 제1 콘텐츠를 시청하는 시청자에게 제2 콘텐츠를 추천하는 콘텐츠 추천부;를 포함할 수 있다.

일 실시예에서, 상기 콘텐츠 데이터베이스는, 상기 콘텐츠에 관련된 정보들을 카테고리별로 데이터화하여 콘텐츠 데이터를 저장할 수 있다.

일 실시예에서, 상기 임베딩 데이터 생성부는, t-분포 확률적 임베딩(Stochastic Neighbor Embedding; SNE)을 이용하여 상기 임베딩 데이터를 임베딩 그래프로 시각화하는 시각화부를 포함할 수 있다.

일 실시예에서, 상기 콘텐츠 추천부는, 상기 제1 콘텐츠와 상기 콘텐츠 유사도가 높은 콘텐츠를 제2 콘텐츠로 추천하고, 상기 제1 콘텐츠와 상기 콘텐츠 유사도가 동일한 둘 이상의 콘텐츠가 있는 경우, 상기 콘텐츠 유사도가 동일한 둘 이상의 콘텐츠 중 상기 제1 콘텐츠와 상기 임베딩 그래프 내 거리가 가까운 콘텐츠를 제2 콘텐츠로 추천할 수 있다.

본 발명의 일 측면에 따르면, 콘텐츠 데이터베이스 내의 둘 이상의 콘텐츠 간의 콘텐츠 유사도를 산출하고, 콘텐츠 데이터베이스 내의 콘텐츠들을 임베딩 학습한 임베딩 데이터를 생성하며, 콘텐츠 유사도 및 임베딩 데이터를 근거로 하여 콘텐츠 데이터베이스 내의 제1 콘텐츠를 시청하는 시청자에게 제2 콘텐츠를 추천함으로써, 시청자의 시청 기록이 없는 초기에도 콘텐츠 추천이 가능하며, 시청 기록이 일정 수준 이상 쌓였을 경우, 시청 기록에 따른 가중치를 부여하여 개인화된 추천이 가능한 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법을 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법을 설명하기 위한 순서도이다.
도 2는 본 발명의 일 실시예에 따른 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법을 구현한 일 예를 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법에서 콘텐츠 데이터베이스에 저장되는 콘텐츠 데이터의 일 예를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법에서 콘텐츠 유사도를 산출할 때, 콘텐츠 간의 관계를 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법에서 임베딩 데이터를 시각화한 예를 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 시스템을 개략적으로 도시한 도면이다.

본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.

또한, 명세서에 기재된 "...부"의 용어는 하나 이상의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

이하 도 1 내지 도 5를 참조하여, 본 발명의 일 실시예에 따른 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법을 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법을 설명하기 위한 순서도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법이 시작되면, 먼저 유사도 산출 단계(S110)에서는 콘텐츠 데이터베이스 내의 둘 이상의 콘텐츠 간의 콘텐츠 유사도를 산출한다.

그리고 임베딩 데이터 생성 단계(S120)에서는 콘텐츠 데이터베이스 내의 콘텐츠들을 임베딩 학습한 임베딩 데이터를 생성한다.

그리고 나서 콘텐츠 추천 단계(S130)에서는 콘텐츠 유사도 및 상기 임베딩 데이터를 근거로 하여 콘텐츠 데이터베이스 내의 제1 콘텐츠를 시청한 시청자에게 제2 콘텐츠를 추천한다.

이처럼 본 발명의 일 실시예에 따른 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법은 시청자가 시청한 제1 콘텐츠에 대하여 콘텐츠 유사도 및 임베딩 데이터를 근거로 제2 콘텐츠를 추천함으로써, 시청자의 시청 기록이 없는 초기에도 콘텐츠 추천이 가능하다.

도 2는 본 발명의 일 실시예에 따른 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법을 구현한 일 예를 설명하기 위한 도면이다.

도 2를 참조하면, 도 1에서 설명하였던 본 발명의 일 실시예에 따른 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법을 구체적으로 구현한 일 예가 개시된다.

먼저 콘텐츠 데이터베이스를 구비한다(S101). 콘텐츠 데이터베이스는 복수의 콘텐츠를 저장한다. 일 실시예에서, 콘텐츠 데이터베이스는 콘텐츠 이외에도 콘텐츠와 관련된 정보를 저장할 수 있다. 이하 도 3을 참조하여, 본 발명의 일 실시예에 따른 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법에서 사용되는 콘텐츠 데이터베이스 및 콘텐츠 데이터의 일 예를 설명하도록 한다.

도 3은 본 발명의 일 실시예에 따른 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법에서 콘텐츠 데이터베이스에 저장되는 콘텐츠 데이터의 일 예를 설명하기 위한 도면이다.

도 3에 도시된 바와 같이, 일 실시예에서, 콘텐츠 데이터베이스는 한국어 교육 콘텐츠 플랫폼에 필요한 콘텐츠로서, 한국 드라마나 한국 예능 프로그램 등의 콘텐츠를 포함할 수 있다. 이 때, 콘텐츠 데이터베이스에는 콘텐츠에 관련된 정보인 콘텐츠 제목, 등장인물, 학습 난이도, 학습영역(문법, 신조어 등), 장르와 같은 카테고리별로 데이터를 저장할 수 있다. 즉, 콘텐츠 데이터베이스는 콘텐츠에 관련된 정보들을 카테고리별로 데이터화하여 콘텐츠 데이터를 저장할 수 있다. 이를 일반화 하여 표로 나타내면 하기 표와 같다.

ID	카테고리1	카테고리2	카테고리3	카테고리4	...	카테고리N
콘텐츠ID명	속성1	속성2	속성3	속성4	...	속성 N

다시 도 2로 돌아와서, 단계(S101) 후에는 콘텐츠 데이터베이스 내의 둘 이상의 콘텐츠 간의 카테고리 별 공통 속성의 개수에 기반하여 둘 이상의 콘텐츠 간의 콘텐츠 유사도를 산출한다(S111). 이 때, 콘텐츠 유사도 산출 시에는, 둘 이상의 콘텐츠 간의 코사인 유사도를 산출하여 둘 이상의 콘텐츠 간의 유사도를 산출할 수 있다. 이하 도 4를 참조하여 콘텐츠 유사도를 산출하는 방식에 대해 설명하도록 한다.

도 4는 본 발명의 일 실시예에 따른 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법에서 콘텐츠 유사도를 산출할 때, 콘텐츠 간의 관계를 설명하기 위한 도면이다.

도 4를 참조하면, 콘텐츠 A와 콘텐츠 B 간의 관계가 도시된다. 상기 표 1에서 설명하였던 바와 같이, 콘텐츠에 관련된 정보들은 카테고리별로 속성이 저장될 수 있다. 이 때, 콘텐츠 A와 콘텐츠 B의 유사도는 콘텐츠 A와 콘텐츠 B의 공통 속성 개수/카테고리 개수로 나타낼 수 있다. 즉, 콘텐츠 데이터베이스 내의 둘 이상의 콘텐츠 간의 카테고리 별 공통 속성의 개수에 기반하여 둘 이상의 콘텐츠 간의 콘텐츠 유사도를 산출할 수 있다. 만약, 콘텐츠 A와 콘텐츠 B의 공통 속성 개수가 동일하게 된다면, 콘텐츠 유사도는 동일한 것이 된다. 이 경우에는 우선순위 결정을 위하여 임베딩 학습을 통한 임베딩 데이터를 이용하게 되는데 이에 대해서는 후술하도록 한다.

다시 도 2로 돌아와서, 단계(S111) 이후에는 시청자의 상기 콘텐츠 데이터베이스 내의 콘텐츠의 시청 시간을 누적 산출하고, 시청 시간이 소정의 설정 시간 이상인지 여부를 판단한다(S112). 그리고 시청 시간이 소정의 설정 시간 이상인 경우, 상기 카테고리별 가중치를 설정하고(S113), 카테고리별 가중치를 적용하여 둘 이상의 콘텐츠 간의 유사도를 산출한다(S114).

이와 같은 단계(S112) 내지 단계(S114)를 통해 본 발명의 일 실시예에 따른 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법은 시청 기록이 일정 수준 이상 쌓였을 경우, 시청 기록에 따른 가중치를 부여하여 개인화된 추천이 가능하다.

단계(S112)에서 시청 시간이 소정의 설정 시간 미만인 경우에는, 가중치가 반영되지 않은 기존 카테고리별 유사도로 콘텐츠 유사도를 설정하게 된다(S115).

단계(S111) 내지 단계(S115)를 거쳐 산출된 콘텐츠별 코사인 유사도는 저장된다. 일 실시예에서, 콘텐츠별 코사인 유사도는 콘텐츠 데이터베이스에 저장될 수 있다.

상기 설명한 바와 같이 콘텐츠 유사도가 동일한 경우에는 우선순위 결정을 위하여 임베딩 학습을 통한 임베딩 데이터를 이용하게 되는데, 이하에서 임베딩 학습을 통해 임베딩 데이터를 생성하는 과정에 대하여 설명하도록 한다.

임베딩 학습을 위해서는 우선 임베딩 학습에 이용될 입력 데이터를 생성하여야 한다. 이를 위해 무작위로 선택한 1개의 콘텐츠 ID와 1개의 카테고리별 속성에 대해 도메인 쌍을 형성한다(S121). 이 때, 콘텐츠 ID에 카테고리별 속성이 관련된 것인지에 대한 매칭 여부를 확인한다(S122). 콘텐츠 ID에 카테고리별 속성이 매칭되는 경우, +1로 설정하고(S123), 매칭되지 않는 경우, -1로 설정하여 입력 데이터를 생성한다(S124).

그리고 나서 이러한 입력 데이터를 입력 받아 임베딩 학습을 수행하여 임베딩 데이터를 생성한다(S125). 이와 같은 임베딩 학습 수행시에, 콘텐츠의 ID와 상기 카테고리별 속성에 대한 2개의 임베딩 레이어를 생성하고, 임베딩 레이어를 병합하는 경우, 도트 레이어(Dot layer)를 사용하여 학습할 수 있다. 또한, 입력 데이터를 분류하는 경우, 덴스 레이어(dense layer) 및 이진 크로스 엔트로피(binary cross entropy)를 사용하여 학습할 수 있다.

이와 같이 임베딩 학습을 통해 임베딩 데이터가 생성되고 나면, t-분포 확률적 임베딩(Stochastic Neighbor Embedding; SNE)을 이용하여 임베딩 데이터를 임베딩 그래프로 시각화할 수 있다. 도 5를 참조하여 임베딩 데이터의 시각화 예를 설명하도록 한다.

도 5는 본 발명의 일 실시예에 따른 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법에서 임베딩 데이터를 시각화한 예를 설명하기 위한 도면이다.

도 5를 참조하면, t-SNE를 이용하여 임베딩 데이터를 시각화 하면, 콘텐츠에 대한 임베딩 벡터로 나타낼 수 있으며, 가까운 거리에 있는 콘텐츠를 더욱 유사한 콘텐츠로 고려할 수 있다.

다시 도 2로 돌아와서, 상기와 같이 콘텐츠 유사도 산출과 임베딩 데이터의 생성이 완료되면, 콘텐츠 유사도 및 상기 임베딩 데이터를 근거로 하여 콘텐츠를 추천한다(S131). 이 때, 제1 콘텐츠와 콘텐츠 유사도가 높은 콘텐츠를 제2 콘텐츠로 추천하되, 제1 콘텐츠와 콘텐츠 유사도가 동일한 둘 이상의 콘텐츠가 있는 경우에는, 콘텐츠 유사도가 동일한 둘 이상의 콘텐츠 중 제1 콘텐츠와 임베딩 그래프 내 거리가 가까운 콘텐츠를 제2 콘텐츠로 추천할 수 있다. 즉, 본 발명의 일 실시예에 따른 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법은 먼저 코사인 유사도를 통한 콘텐츠 추천을 우선적으로 선별하며, 같은 유사도에 대하여 임베딩 그래프의 거리기반에 따라 우선순위를 결정하여 콘텐츠를 추천함으로써, 시청자의 시청 기록이 없는 초기에도 콘텐츠 추천이 가능하며, 또한 임베딩 학습을 통해 추천하므로, 추천 콘텐츠의 판단 기준을 따로 설정할 필요가 없다.

도 6은 본 발명의 일 실시예에 따른 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 시스템을 개략적으로 도시한 도면이다.

도 6을 참조하면, 본 발명의 일 실시예에 따른 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 시스템(200)은 콘텐츠 데이터베이스(210), 유사도 산출부(220), 임베딩 데이터 생성부(230) 및 콘텐츠 추천부(240)로 구성된다. 도 6에 도시된 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 시스템(200)은 일 실시예에 따른 것이고 도 6에 도시된 구성요소들이 도 6에 도시된 실시예에 한정되는 것은 아니며, 필요에 따라 부가, 변경 또는 삭제될 수 있다.

콘텐츠 데이터베이스(210)는 복수의 콘텐츠를 저장한다. 일 실시예에서, 콘텐츠 데이터베이스(210)는 콘텐츠에 관련된 정보들을 카테고리별로 데이터화하여 콘텐츠 데이터를 저장할 수 있다.

유사도 산출부(220)는 콘텐츠 데이터베이스 내의 둘 이상의 콘텐츠 간의 콘텐츠 유사도를 산출한다.

임베딩 데이터 생성부(230)는 콘텐츠 데이터베이스 내의 콘텐츠들을 임베딩 학습한 임베딩 데이터를 생성한다. 일 실시예에서, 임베딩 데이터 생성부(230)는 t- SNE를 이용하여 임베딩 데이터를 임베딩 그래프로 시각화하는 시각화부(231)를 포함할 수 있다.

콘텐츠 추천부(240)는 콘텐츠 유사도 및 임베딩 데이터를 근거로 하여 콘텐츠 데이터베이스 내의 제1 콘텐츠를 시청하는 시청자에게 제2 콘텐츠를 추천한다. 일 실시예에서, 콘텐츠 추천부(240)는 제1 콘텐츠와 콘텐츠 유사도가 높은 콘텐츠를 제2 콘텐츠로 추천하고, 제1 콘텐츠와 콘텐츠 유사도가 동일한 둘 이상의 콘텐츠가 있는 경우, 콘텐츠 유사도가 동일한 둘 이상의 콘텐츠 중 제1 콘텐츠와 임베딩 그래프 내 거리가 가까운 콘텐츠를 제2 콘텐츠로 추천할 수 있다.

본 발명의 일 실시예에 따른 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 시스템(200)의 각 구성요소는 상기 기술한 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법의 단계(S110 내지 S130)의 각 과정을 수행할 수 있으며, 본 발명의 일 실시예에 따른 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 시스템(200)은 상기 기술한 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법과 유사하게 콘텐츠 추천을 수행하므로, 본 발명의 일 실시예에 따른 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 시스템(200)에 대한 구체적인 설명은 중복 설명을 방지하기 위하여 생략하도록 한다.

이상 본 발명의 특정 실시예를 도시하고 설명하였으나, 본 발명의 기술사상은 첨부된 도면과 상기한 설명내용에 한정하지 않으며 본 발명의 사상을 벗어나지 않는 범위 내에서 다양한 형태의 변형이 가능함은 이 분야의 통상의 지식을 가진 자에게는 자명한 사실이며, 이러한 형태의 변형은, 본 발명의 정신에 위배되지 않는 범위 내에서 본 발명의 특허청구범위에 속한다고 볼 것이다.

200: 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 시스템
210: 콘텐츠 데이터베이스
220: 유사도 산출부
230: 임베딩 데이터 생성부
231: 시각화부
240: 콘텐츠 추천부

Claims

콘텐츠 데이터베이스 내의 둘 이상의 콘텐츠 간의 콘텐츠 유사도를 산출하는 유사도 산출 단계;
상기 콘텐츠 데이터베이스 내의 콘텐츠들을 임베딩 학습한 임베딩 데이터를 생성하는 임베딩 데이터 생성 단계; 및
상기 콘텐츠 유사도 및 상기 임베딩 데이터를 근거로 하여 상기 콘텐츠 데이터베이스 내의 제1 콘텐츠를 시청한 시청자에게 제2 콘텐츠를 추천하는 콘텐츠 추천 단계;를 포함하는 것
을 특징으로 하는 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법.
제1항에 있어서,
상기 유사도 산출 단계는,
상기 콘텐츠 데이터베이스 내의 상기 둘 이상의 콘텐츠 간의 카테고리 별 공통 속성의 개수에 기반하여 상기 둘 이상의 콘텐츠 간의 콘텐츠 유사도를 산출하는 단계;를 포함하는 것
을 특징으로 하는 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법.
제2항에 있어서,
상기 유사도 산출 단계는,
상기 둘 이상의 콘텐츠 간의 코사인 유사도를 산출하여 상기 둘 이상의 콘텐츠 간의 유사도를 산출하는 단계;를 더 포함하는 것
을 특징으로 하는 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법.
제3항에 있어서,
상기 유사도 산출 단계는,
상기 시청자의 상기 콘텐츠 데이터베이스 내의 콘텐츠의 시청 시간을 누적 산출하는 단계;
상기 시청 시간이 소정의 설정 시간 이상인 경우, 상기 카테고리별 가중치를 설정하는 단계; 및
상기 카테고리별 가중치를 적용하여 상기 둘 이상의 콘텐츠 간의 유사도를 산출하는 단계;를 더 포함하는 것
을 특징으로 하는 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법.
제2항에 있어서,
상기 임베딩 데이터 생성 단계는,
무작위로 선택한 콘텐츠의 ID(아이디)와 상기 카테고리별 속성에 대해 도메인 쌍을 형성하고, 상기 콘텐츠의 ID에 상기 카테고리별 속성이 매칭되는 경우, +1로 설정하고, 매칭되지 않는 경우, -1로 설정하여 입력 데이터를 생성하는 단계; 및
상기 입력 데이터를 입력 받아 임베딩 학습을 수행하여 임베딩 데이터를 생성하는 단계;를 포함하는 것
을 특징으로 하는 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법.
제5항에 있어서,
상기 임베딩 학습을 수행하여 임베딩 데이터를 생성하는 단계는,
상기 콘텐츠의 ID와 상기 카테고리별 속성에 대한 2개의 임베딩 레이어를 생성하는 단계;
상기 임베딩 레이어를 병합하는 경우, 도트 레이어(Dot layer)를 사용하여 학습하는 단계; 및
상기 입력 데이터를 분류하는 경우, 덴스 레이어(dense layer) 및 이진 크로스 엔트로피(binary cross entropy)를 사용하여 학습하는 단계;를 포함하는 것
을 특징으로 하는 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법.
제2항에 있어서,
상기 임베딩 데이터 생성 단계는,
t-분포 확률적 임베딩(Stochastic Neighbor Embedding; SNE)을 이용하여 상기 임베딩 데이터를 임베딩 그래프로 시각화하는 단계;를 포함하는 것
을 특징으로 하는 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법.
제7항에 있어서,
상기 콘텐츠 추천 단계는,
상기 제1 콘텐츠와 상기 콘텐츠 유사도가 높은 콘텐츠를 제2 콘텐츠로 추천하는 단계; 및
상기 제1 콘텐츠와 상기 콘텐츠 유사도가 동일한 둘 이상의 콘텐츠가 있는 경우, 상기 콘텐츠 유사도가 동일한 둘 이상의 콘텐츠 중 상기 제1 콘텐츠와 상기 임베딩 그래프 내 거리가 가까운 콘텐츠를 제2 콘텐츠로 추천하는 단계를 포함하는 것
을 특징으로 하는 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 방법.
복수의 콘텐츠를 저장하는 콘텐츠 데이터베이스;
콘텐츠 데이터베이스 내의 둘 이상의 콘텐츠 간의 콘텐츠 유사도를 산출하는 유사도 산출부;
상기 콘텐츠 데이터베이스 내의 콘텐츠들을 임베딩 학습한 임베딩 데이터를 생성하는 임베딩 데이터 생성부; 및
상기 콘텐츠 유사도 및 상기 임베딩 데이터를 근거로 하여 상기 콘텐츠 데이터베이스 내의 제1 콘텐츠를 시청하는 시청자에게 제2 콘텐츠를 추천하는 콘텐츠 추천부;를 포함하는 것
을 특징으로 하는 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 시스템.
제9항에 있어서,
상기 콘텐츠 데이터베이스는,
상기 콘텐츠에 관련된 정보들을 카테고리별로 데이터화하여 콘텐츠 데이터를 저장하는 것
을 특징으로 하는 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 시스템.
제9항에 있어서,
상기 임베딩 데이터 생성부는,
t-분포 확률적 임베딩(Stochastic Neighbor Embedding; SNE)을 이용하여 상기 임베딩 데이터를 임베딩 그래프로 시각화하는 시각화부를 포함하는 것
을 특징으로 하는 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 시스템.
제11항에 있어서,
상기 콘텐츠 추천부는,
상기 제1 콘텐츠와 상기 콘텐츠 유사도가 높은 콘텐츠를 제2 콘텐츠로 추천하고, 상기 제1 콘텐츠와 상기 콘텐츠 유사도가 동일한 둘 이상의 콘텐츠가 있는 경우, 상기 콘텐츠 유사도가 동일한 둘 이상의 콘텐츠 중 상기 제1 콘텐츠와 상기 임베딩 그래프 내 거리가 가까운 콘텐츠를 제2 콘텐츠로 추천하는 것
을 특징으로 하는 콘텐츠 유사도 및 임베딩 학습을 통한 콘텐츠 추천 시스템.