WO2021251600A1

WO2021251600A1 - 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치

Info

Publication number: WO2021251600A1
Application number: PCT/KR2021/003901
Authority: WO
Inventors: 김강산; 문승현; 박지원
Original assignee: (주)브레인콜라
Priority date: 2020-06-12
Filing date: 2021-03-30
Publication date: 2021-12-16
Also published as: KR102443786B1; KR20210154396A

Abstract

본 발명은 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치에 관한 것으로서, 복수의 콘텐츠의 초기회차 본문을 토큰화하는 단계; 상기 콘텐츠 흥행 등급 예측 장치가, 토큰화된 초기회차 본문을 본문 벡터로 임베딩하는 단계; 상기 콘텐츠 흥행 등급 예측 장치가, 구매와의 상관관계에 기반하여 상기 복수의 콘텐츠의 초기회차 상호작용 데이터로부터 특징(feature)들을 추출하는 단계; 상기 콘텐츠 흥행 등급 예측 장치가, 상기 특징들을 특징 벡터들로 각각 임베딩하는 단계; 및 상기 콘텐츠 흥행 등급 예측 장치가, 상기 복수의 콘텐츠의 상기 본문 벡터와 상기 특징 벡터들을 딥러닝/머신러닝함으로써, 상기 복수의 콘텐츠의 흥행 등급을 예측하는 단계를 포함한다. [대표도] 도 5

Description

인공지능을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치

본 발명은 콘텐츠 흥행 등급 예측 방법에 관한 것으로, 더욱 상세하게는 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치에 관한 것이다.

웹소설이나 웹툰과 같은 콘텐츠의 문화상품이 흥행 중이다. 플랫폼 업자는 보통 이러한 웹소설을 1~10회 정도의 초기회차동안 무료로 제공한다. 그리고 무료로 제공한 상태에서, 플랫폼 업자는 어떤 작품이 성공할지 예측하여 작가와 계약을 맺는다. 이때, 플랫폼 업자는 해당 웹소설이 별로 흥행할 것 같지 않으면 싸게, 대박날 것 같으면 비싸게 혹은 대박날 것 같음에도 불구하고 작가를 속이고 싸게 계약한다.

그런데, 중요한 것은, 플랫폼 업자 또한 정작 어떤 작품이 흥행할지 잘 모른다. 그래서 플랫폼 업자는 그냥 과거에는 느낌대로 한마디로 주먹구구식으로, 사람 손에 의해 그냥 특정 작품과 계약하였다. 그렇기 때문에 플랫폼 업자는 안전하게 계속해서 흥행이 어느 정도 보장되는 유명 작가하고만 계약하고, 싼 신진 작가를 뽑기 어려웠다.

따라서, 본 발명은 웹소설 및 웹툰 등의 콘텐츠의 내용을 과학적으로 분석하고, 그와 연관된 상호 데이터를 분석하여 흥행할 콘텐츠를 예상하며, 해당 콘텐츠가 벌어들일 매출액을 예상할 수 있는 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치를 제공한다.

[선행기술문헌]

(특허문헌 1) 국내특허공개공보 제10-2016-0093216호

(특허문헌 2) 국내특허공개공보 제10-2017-0057082호

본 명세서는 상기한 바와 같은 문제점을 해결하기 위하여 안출된 것으로서, 웹소설 및 웹툰 등의 콘텐츠의 내용을 과학적으로 분석하고, 그와 연관된 상호 데이터를 분석하여 흥행할 콘텐츠를 예상하며, 해당 콘텐츠가 벌어들일 매출액을 예상할 수 있는 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치를 제공하는 데 그 목적이 있다.

이와 같은 목적을 달성하기 위한, 본 명세서의 실시예에 따르면, 본 명세서에 따른 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법은, 콘텐츠 흥행 등급 예측 장치가, 복수의 콘텐츠의 초기회차 본문을 토큰화하는 단계; 상기 콘텐츠 흥행 등급 예측 장치가, 토큰화된 초기회차 본문을 본문 벡터로 임베딩하는 단계; 상기 콘텐츠 흥행 등급 예측 장치가, 구매와의 상관관계에 기반하여 상기 복수의 콘텐츠의 초기회차 상호작용 데이터로부터 특징(feature)들을 추출하는 단계; 상기 콘텐츠 흥행 등급 예측 장치가, 상기 특징들을 특징 벡터들로 각각 임베딩하는 단계; 및 상기 콘텐츠 흥행 등급 예측 장치가, 상기 복수의 콘텐츠의 상기 본문 벡터와 상기 특징 벡터들을 딥러닝/머신러닝함으로써, 상기 복수의 콘텐츠의 흥행 등급을 예측하는 단계를 포함한다.

바람직하게는, 상기 콘텐츠 흥행 등급 예측 장치가, 평가 대상 콘텐츠의 본문 벡터 및 특징 벡터들을 딥러닝/머신러닝함으로써, 상기 평가 대상 콘텐츠의 흥행 등급을 예측하는 단계; 상기 콘텐츠 흥행 등급 예측 장치가, 상기 평가 대상 콘텐츠와, 상기 평가 대상 콘텐츠와 동일한 흥행 등급의 그룹 내 콘텐츠들 간의 벡터 유사도를 비교하는 단계; 상기 콘텐츠 흥행 등급 예측 장치가, 시간에 따른 매출 변화를 고려하는 경우, 상기 콘텐츠들 중에 상기 평가 대상 콘텐츠와 벡터 유사도가 가장 유사한 콘텐츠를 선택하는 단계; 및 상기 콘텐츠 흥행 등급 예측 장치가, 선택된 콘텐츠의 시간에 따른 매출을 출력하는 단계를 더 포함하는 것을 특징으로 한다.

바람직하게는, 상기 콘텐츠 흥행 등급 예측 장치가, 시간에 따른 매출 변화를 고려하지 않는 경우, 상기 콘텐츠들 중에 상기 평가 대상 콘텐츠와 벡터 유사도가 유사한 소정의 개수의 콘텐츠를 선택하는 단계; 및 상기 콘텐츠 흥행 등급 예측 장치가, 선택된 소정의 개수의 콘텐츠의 평균 매출을 출력하는 단계를 더 포함하는 것을 특징으로 한다.

바람직하게는, 상기 흥행 등급을 예측하는 단계는, 상기 콘텐츠 흥행 등급 예측 장치가, 상기 복수의 콘텐츠의 상기 본문 벡터와 상기 특징 벡터들을 연결하여 콘텐츠당 1개의 결과 벡터를 생성하는 단계; 및 상기 콘텐츠 흥행 등급 예측 장치가, 상기 복수의 콘텐츠의 결과 벡터를 딥러닝/머신러닝함으로써, 상기 복수의 콘텐츠의 흥행 등급을 예측하는 단계를 포함하는 것을 특징으로 한다.

바람직하게는, 상기 초기회차 상호작용 데이터는 콘텐츠에 대한 좋아요, 댓글, 선호작등록, 조회, 30초이상조회, 상세보기조회, 평점, 및 추천 중 적어도 하나를 포함하는 것을 특징으로 한다.

바람직하게는, 상기 특징 벡터들은 콘텐츠에 대한 좋아요 수, 댓글 수, 선호작등록 수, 조회수, 30초이상조회 수, 상세보기조회 수, 평점 수, 추천 수 또는 이들의 조합을 선형변환 및 차원확장하여 생성되는 벡터인 것을 특징으로 한다.

본 명세서의 다른 실시예에 따르면, 본 명세서에 따른 인공지능을 활용한 콘텐츠 흥행 등급 예측 장치는, 복수의 콘텐츠의 초기회차 본문 및 초기회차 상호작용 데이터를 저장하는 메모리; 및 상기 메모리에 접속되어, 상기 복수의 콘텐츠의 초기회차 본문을 토큰화하고, 토큰화된 초기회차 본문을 본문 벡터로 임베딩하며, 구매와의 상관관계에 기반하여 상기 복수의 콘텐츠의 초기회차 상호작용 데이터로부터 특징(feature)들을 추출하고, 상기 특징들을 특징 벡터들로 각각 임베딩한 후, 상기 복수의 콘텐츠의 상기 본문 벡터와 상기 특징 벡터들을 딥러닝/머신러닝함으로써, 상기 복수의 콘텐츠의 흥행 등급을 예측하는 신경망을 구성하는 하나 이상의 프로세서를 포함한다.

바람직하게는, 상기 하나 이상의 프로세서는, 평가 대상 콘텐츠의 본문 벡터 및 특징 벡터들을 딥러닝/머신러닝함으로써, 상기 평가 대상 콘텐츠의 흥행 등급을 예측하고, 상기 평가 대상 콘텐츠와, 상기 평가 대상 콘텐츠와 동일한 흥행 등급의 그룹 내 콘텐츠들 간의 벡터 유사도를 비교한 후, 시간에 따른 매출 변화를 고려하는 경우, 상기 콘텐츠들 중에 상기 평가 대상 콘텐츠와 벡터 유사도가 가장 유사한 콘텐츠를 선택하며, 선택된 콘텐츠의 시간에 따른 매출을 출력하는 것을 특징으로 한다.

바람직하게는, 상기 하나 이상의 프로세서는, 시간에 따른 매출 변화를 고려하지 않는 경우, 상기 콘텐츠들 중에 상기 평가 대상 콘텐츠와 벡터 유사도가 유사한 소정의 개수의 콘텐츠를 선택하고, 선택된 소정의 개수의 콘텐츠의 평균 매출을 출력하는 것을 특징으로 한다.

바람직하게는, 상기 하나 이상의 프로세서는, 상기 복수의 콘텐츠의 상기 본문 벡터와 상기 특징 벡터들을 연결하여 콘텐츠당 1개의 결과 벡터를 생성하고, 상기 복수의 콘텐츠의 결과 벡터를 딥러닝/머신러닝함으로써, 상기 복수의 콘텐츠의 흥행 등급을 예측하는 것을 특징으로 한다.

이상에서 설명한 바와 같이 본 명세서에 의하면, 초기회차 본문 및 초기회차 상호작용 데이터를 활용하여 웹소설 및 웹툰 등의 콘텐츠의 흥행 등급을 예측하고, 예측된 흥행 등급을 토대로 신규 콘텐츠의 매출을 예측하는 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치를 제공함으로써, 비교적 적은 데이터로 흥행 등급을 구분할 수 있고, '메가 히트'의 기준을 매출같은 정량적 지표가 아니라 전문가가 선별한 정성적 지표(전문가가 보고 A, B, C 등급을 매기는 과정에 필요)에 적용할 수 있다.

도 1은 웹소설의 주요 특징과 웹소설 판매수 간의 상관관계를 나타내는 상호작용 데이터를 도시한 도면,

도 2는 본 발명의 실시예에서 구매와의 상관관계에 기반하여 초기회차 상호작용 데이터로부터 특징들을 추출하는 방법을 설명하기 위한 도면,

도 3은 본 발명의 실시예에 따른 인공지능을 활용한 콘텐츠 흥행 등급 예측 장치가 갖는 기능의 일예를 도시한 블록도,

도 4는 본 발명의 실시 형태에 관한 콘텐츠 흥행 등급 예측 장치의 기능을 실현 가능한 하드웨어의 일례를 도시한 블록도,

도 5는 본 발명의 실시예에 따른 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법을 나타낸 흐름도, 및

도 6은 본 발명의 실시예에 따른 평가 대상 웹소설의 매출 예측 방법을 나타낸 흐름도이다.

본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 명세서에서 사용되는 기술적 용어는 본 명세서에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 명세서에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.

또한, 본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.

또한, 본 명세서에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.

또한, 본 명세서에서 사용되는 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는 데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.

본 발명의 실시예에서는 설명의 편의상 웹소설을 예로 들어 설명하고 있지만 이에 한정되는 것은 아니며, 본 발명에 따른 인공지능(AI: Artificial Intelligence)을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치는 웹툰, 드라마, 영화, 애니메이션, 및 뮤지컬 등을 포함하는 콘텐츠의 흥행 등급을 예측할 수 있다.

또한, 본 발명의 실시예에서 '초기회차'는 웹소설의 1~10정도의 회차를 의미한다.

또한, 본 발명의 실시예에서 '임베딩'은 어떤 객체를 인공신경망이 이해할 수 있는 형태(즉, 벡터)로 표현하는 것을 나타낸다.

[부호의 설명]

110: 데이터베이스부 120: 토큰부

130: 특징 분석부 140: 본문 임베딩부

150: 특징 임베딩부 160: 제어부

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니됨을 유의해야 한다.

도 1은 웹소설의 주요 특징과 웹소설 판매수 간의 상관관계를 나타내는 상호작용 데이터를 도시한 도면이다.

도 1을 참조하면, 주요 특징들은 read30 수, 회차 수 대비 read30 수, 무료회차 read30 수, 구매한 사용자 수, 등록일수 대비 조회수, 등록일수 대비 선작수, 완독율, 및 잔존율을 포함할 수 있다. 여기서, read30은 독자가 웹소설을 30초 이상 읽은 횟수를 의미한다.

상호작용 데이터는 특징별로 누적 구매 수 및 회차 수 대비 구매 수를 딥러닝/머신러닝함으로써 얻어질 수 있다.

도 2는 본 발명의 실시예에서 구매와의 상관관계에 기반하여 초기회차 상호작용 데이터로부터 특징들을 추출하는 방법을 설명하기 위한 도면이다.

도 2를 참조하면, read30 수, 회차 수 대비 read30 수는 구매와 높은 상관관계를 보이나, 구매와 선후 관계(구매 후 read30 가능)가 불명확하다.

무료회차 read30 수는 corr이 0.79로 회차 수 대비 판매수와 높은 상관관계를 보이고, 선후 관계가 분명하다.

본 발명의 실시예에 따른 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치는, 상호작용 데이터로부터 구매와 높은 상관관계를 보이고, 선후 관계가 분명한, 예를 들면, 무료회차 read30 수와 같은 특징들을 추출한다.

도 3은 본 발명의 실시예에 따른 인공지능을 활용한 콘텐츠 흥행 등급 예측 장치가 갖는 기능의 일예를 도시한 블록도이다.

도 3을 참조하면, 본 발명에 따른 인공지능을 활용한 콘텐츠 흥행 등급 예측 장치(100)는, 데이터베이스부(110), 토큰부(120), 특징 분석부(130), 본문 임베딩부(140), 특징 임베딩부(150), 및 제어부(160)를 포함할 수 있다.

데이터베이스부(110)는 복수의 웹소설에 대한 초기회차 본문 및 초기회차 상호작용 데이터를 저장한다.

토큰부(120)는 데이터베이스부(110)에 저장된 복수의 웹소설의 초기회차 본문을 단어 또는 문장 단위로 토큰화한다. 여기서, 토큰부(120)는 구글 구문 분석기 및 Mecab 등의 형태소 분석기로 구현될 수 있다.

또한, 토큰부(120)는 데이터베이스부(110)에 저장된 복수의 웹소설의 초기회차 상호작용 데이터를 특징 분석부(130)로 전달할 수 있다.

특징 분석부(130)는 구매와의 상관관계에 기반하여 복수의 웹소설의 초기회차 상호작용 데이터로부터 특징들을 추출한다.

본문 임베딩부(140)는 토큰부(120)에 의해 토큰화된 초기회차 본문을 N차원의 본문 벡터로 임베딩한다. 이때, 본문 임베딩부(140)는 토큰화된 초기회차 본문을 LDA(Latent Dirichlet Allocation), BERT(Bidirectional Encoder Representations form Transformer), FastText, 또는 Word2vec를 통해 N차원의 본문 벡터로 임베딩할 수 있다. 여기서, LDA는 특정 문서에 어떤 주제들이 존재하는지 서술하는 확률적 토픽 모델링(Topic Modeling) 기법을 나타낸다. 즉, LDA는 문서(웹소설)를 K개의 잠재 토픽을 차원으로 하는 벡터 공간에 임베딩하는 알고리즘이다.

특징 임베딩부(150)는 특징 분석부(130)에 의해 추출된 특징들을 K차원의 특징 벡터들로 각각 임베딩한다. 이때, 특징 임베딩부(150)는 특징 분석부(130)에 의해 추출된 특징들 또는 이들의 조합을 선형변환 및 차원확장하여 K차원의 특징 벡터를 생성할 수 있다. 여기서, 특징들은 대부분 순차적인 이벤트이므로, 특징 임베딩부(150)는 시퀀스(Sequence) 모델 기반 딥러닝을 통해 특징들을 임베딩할 수 있다. 또한, 특징 임베딩부(150)는 숫자로 표현 안되는 작품 제목, 작품 설명 등을 본문 임베딩부(140)처럼 텍스트 임베딩할 수 있다.

제어부(160)는 본문 임베딩부(140)에 의해 임베딩된 N차원의 본문 벡터와 특징 임베딩부(150)에 의해 임베딩된 K차원의 특징 벡터들을 딥러닝/머신러닝함으로써, 복수의 웹소설의 흥행 등급을 예측한다. 구체적으로는, 제어부(160)는 본문 벡터와 특징 벡터들을 연결하여 웹소설당 1개의 N+K차원의 결과 벡터를 생성하고, 생성된 N+K차원의 결과 벡터를 딥러닝/머신러닝함으로써, 복수의 웹소설의 흥행 등급을 예측한다. 이처럼, 제어부(160)는 N+K차원의 결과 벡터를 딥러닝/머신러닝하는 과정을 통해 흥행 등급 예측 모델을 구현하게 된다. 이때, 제어부(160)는 예측 성능(Accuracy = 흥행 등급을 맞춘 웹소설의 개수/흥행 등급을 예측한 전체 웹소설의 개수)을 기준치와 비교함으로써, 흥행 등급 예측 모델의 구현 여부를 결정할 수 있다.

또한, 제어부(160)는 평가 대상 웹소설의 본문 벡터 및 특징 벡터들을 흥행 등급 예측 모델에 입력하여 딥러닝/머신러닝함으로써, 평가 대상 웹소설의 흥행 등급을 예측하고, 평가 대상 웹소설과, 평가 대상 웹소설과 동일한 흥행 등급의 그룹 내 웹소설들 간의 벡터 유사도를 비교한 후, 시간에 따른 매출 변화를 고려하는 경우, 웹소설들 중에 평가 대상 웹소설과 벡터 유사도가 가장 유사한 웹소설을 선택하며, 선택된 웹소설의 시간에 따른 매출을 출력할 수 있다. 또한, 제어부(160)는 시간에 따른 매출 변화를 고려하지 않는 경우, 웹소설들 중에 평가 대상 웹소설과 벡터 유사도가 유사한 소정의 개수의 웹소설을 선택하고, 선택된 소정의 개수의 웹소설의 평균 매출을 출력할 수 있다.

도 4를 참조하면, 콘텐츠 흥행 등급 예측 장치(100)의 기능을 실현 가능한 하드웨어에 대해서 설명한다. 도 4는 본 발명의 실시 형태에 관한 콘텐츠 흥행 등급 예측 장치의 기능을 실현 가능한 하드웨어의 일례를 도시한 블록도이다.

콘텐츠 흥행 등급 예측 장치(100)가 갖는 기능은, 예컨대, 도 4에 도시하는 하드웨어 자원을 이용하여 실현하는 것이 가능하다. 즉, 콘텐츠 흥행 등급 예측 장치(100)가 갖는 기능은, 컴퓨터 프로그램을 이용하여 도 4에 도시하는 하드웨어를 제어함으로써 실현된다.

도 4에 도시한 바와 같이, 이 하드웨어는, 주로, CPU(402), ROM(Read Only Memory)(404), RAM(406), 호스트 버스(408), 및 브리지(410)를 갖는다. 또한, 이 하드웨어는, 외부 버스(412), 인터페이스(414), 입력부(416), 출력부(418), 기억부(420), 드라이브(422), 접속 포트(424), 및 통신부(426)를 갖는다.

CPU(402)는, 예컨대, 연산 처리 장치 또는 제어 장치로서 기능하여, ROM(404), RAM(406), 기억부(420), 또는 리무버블 기록 매체(428)에 기록된 각종 프로그램에 기초하여 각 구성 요소의 동작 전반 또는 그 일부를 제어한다. ROM(404)은, CPU(402)에 판독되는 프로그램이나 연산에 이용하는 데이터 등을 저장하는 기억 장치의 일례이다. RAM(406)에는, 예컨대, CPU(402)에 판독되는 프로그램이나, 그 프로그램을 실행할 때 변화하는 각종 파라미터 등이 일시적 또는 영속적으로 저장된다.

이들 요소는, 예컨대, 고속의 데이터 전송이 가능한 호스트 버스(408)를 통해서 서로 접속된다. 한편, 호스트 버스(408)는, 예컨대, 브리지(410)를 통해서 비교적 데이터 전송 속도가 저속인 외부 버스(412)에 접속된다. 또한, 입력부(416)로서는, 예컨대, 마우스, 키보드, 터치 패널, 터치 패드, 버튼, 스위치, 및 레버 등이 이용된다. 또한, 입력부(416)로서는, 적외선이나 그 밖의 전파를 이용하여 제어 신호를 송신하는 것이 가능한 리모트 컨트롤러가 이용될 수 있다.

출력부(418)로서는, 예컨대, CRT(Cathode Ray Tube), LCD(Liquid Crystal Display), PDP(Plasma Display Panel), 또는 ELD(Electro-Luminescence Display) 등의 디스플레이 장치가 이용될 수 있다. 또한, 출력부(418)로서, 스피커나 헤드폰 등의 오디오 출력 장치, 또는 프린터 등이 이용될 수 있다.

기억부(420)는, 각종 데이터를 저장하기 위한 장치이다. 기억부(420)로서는, 예컨대, HDD 등의 자기 기억 디바이스가 이용된다. 또한, 기억부(420)로서, SSD(Solid State Drive)나 RAM 디스크 등의 반도체 기억 디바이스, 광기억 디바이스, 또는 광자기 기억 디바이스 등이 이용되어도 된다.

드라이브(422)는, 착탈 가능한 기록매체인 리무버블 기록 매체(428)에 기록된 정보를 판독하거나, 또는 리무버블 기록 매체(428)에 정보를 기록하는 장치이다. 리무버블 기록 매체(428)로서는, 예컨대, 자기 디스크, 광디스크, 광자기 디스크, 또는 반도체 메모리 등이 이용된다. 또한, 리무버블 기록 매체(428)에는, 배터리 잔존 수명 예측 장치(230)의 동작을 규정하는 프로그램이 저장될 수 있다.

접속 포트(424)는, 예컨대, USB(Universal Serial Bus) 포트, IEEE 1394 포트, SCSI(Small Computer System Interface), RS-232C 포트, 또는 광오디오 단자 등, 외부 접속 기기(430)를 접속하기 위한 포트이다. 외부 접속 기기(430)로서는, 예컨대, 프린터 등이 이용된다.

통신부(426)는, 네트워크(432)에 접속하기 위한 통신 디바이스이다. 통신부(426)로서는, 예컨대, 유선 또는 무선 LAN용 통신 회로, WUSB(Wireless USB)용 통신 회로, 휴대 전화 네트워크용 통신 회로 등이 이용될 수 있다. 네트워크(432)는, 예컨대, 유선 또는 무선에 의해 접속된 네트워크이다.

이상, 콘텐츠 흥행 등급 예측 장치(100)의 하드웨어에 대해서 설명하였다. 또한, 상술한 하드웨어는 일례이며, 일부의 요소를 생략하는 변형이나, 새로운 요소를 추가하는 변형 등이 가능하다.

도 5는 본 발명의 실시예에 따른 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법을 나타낸 흐름도이다.

도 5를 참조하면, 콘텐츠 흥행 등급 예측 장치(100)는 복수의 웹소설의 초기회차 본문을 단어 또는 문장 단위로 토큰화한다(S510). 이때, 콘텐츠 흥행 등급 예측 장치(100)는 구글 구문 분석기 및 Mecab 등의 형태소 분석기를 통해 복수의 웹소설의 초기회차 본문을 토큰화할 수 있다.

콘텐츠 흥행 등급 예측 장치(100)는 토큰화된 초기회차 본문을 N차원의 본문 벡터로 임베딩한다(S520). 이때, 콘텐츠 흥행 등급 예측 장치(100)는 토큰화된 초기회차 본문을 LDA(Latent Dirichlet Allocation), BERT(Bidirectional Encoder Representations form Transformer), FastText, 또는 Word2vec를 통해 N차원의 본문 벡터로 임베딩할 수 있다.

콘텐츠 흥행 등급 예측 장치(100)는 구매와의 상관관계에 기반하여 복수의 웹소설의 초기회차 상호작용 데이터로부터 특징들을 추출한다(S530).

콘텐츠 흥행 등급 예측 장치(100)는 특징들을 K차원의 특징 벡터들로 각각 임베딩한다(S540). 이때, 콘텐츠 흥행 등급 예측 장치(100)는 특징들 또는 이들의 조합을 선형변환 및 차원확장하여 K차원의 특징 벡터를 생성할 수 있다. 여기서, 특징들은 대부분 순차적인 이벤트이므로, 콘텐츠 흥행 등급 예측 장치(100)는 시퀀스(Sequence) 모델 기반 딥러닝을 통해 특징들을 임베딩할 수 있다. 또한, 콘텐츠 흥행 등급 예측 장치(100)는 숫자로 표현 안되는 작품 제목, 작품 설명 등을 텍스트 임베딩할 수 있다.

콘텐츠 흥행 등급 예측 장치(100)는 본문 벡터와 특징 벡터들을 연결하여 웹소설당 1개의 N+K차원의 결과 벡터를 생성한다(S550). 이때, 콘텐츠 흥행 등급 예측 장치(100)는 연결(Concatenation) 및 평균(Averaging)을 통해 본문 벡터와 특징 벡터들을 연결하여 웹소설당 1개의 N+K차원의 결과 벡터를 생성할 수 있다.

콘텐츠 흥행 등급 예측 장치(100)는 N+K차원의 결과 벡터를 딥러닝/머신러닝함으로써, 복수의 웹소설의 흥행 등급을 예측한다(S560). 이때, 콘텐츠 흥행 등급 예측 장치(100)는 다층 퍼셉트론(Multilayer Perceptron) 및 XGboost를 통해 N+K차원의 결과 벡터를 딥러닝/머신러닝할 수 있다.

콘텐츠 흥행 등급 예측 장치(100)는 복수의 웹소설에 대한 흥행 등급의 예측 성능(Accuracy = 흥행 등급을 맞춘 웹소설의 개수/흥행 등급을 예측한 전체 웹소설의 개수)이 기준치보다 큰지 여부를 판단한다(S570).

콘텐츠 흥행 등급 예측 장치(100)는 복수의 웹소설에 대한 흥행 등급의 예측 성능이 기준치보다 크다고 판단한 경우, 단계 560에서 N+K차원의 결과 벡터의 딥러닝/머신러닝 모델링을 흥행 등급 예측 모델로 구현한다(S580). 예를 들면, 콘텐츠 흥행 등급 예측 장치(100)는 복수의 웹소설 전체에 대한 예측 성능이 80 % 이상인 경우 또는 A등급에 대한 예측 성능이 90 % 이상인 경우, N+K차원의 결과 벡터의 딥러닝/머신러닝 모델링을 흥행 등급 예측 모델로 구현할 수 있다.

콘텐츠 흥행 등급 예측 장치(100)는 복수의 웹소설에 대한 흥행 등급의 예측 성능이 기준치 이하라고 판단한 경우, 단계 S510 내지 단계 S560을 반복한다.

도 6을 참조하면, 콘텐츠 흥행 등급 예측 장치(100)는 평가 대상 웹소설의 본문 벡터 및 특징 벡터들을 전술한 흥행 등급 예측 모델에 입력하여 딥러닝/머신러닝함으로써, 평가 대상 웹소설의 흥행 등급을 예측한다(S610).

콘텐츠 흥행 등급 예측 장치(100)는 평가 대상 웹소설과, 평가 대상 웹소설과 동일한 흥행 등급의 그룹 내 웹소설들 간의 벡터 유사도를 비교한다(S620). 즉, 콘텐츠 흥행 등급 예측 장치(100)는 평가 대상 웹소설의 결과 벡터와 평가 대상 웹소설과 동일한 흥행 등급의 그룹 내 웹소설들의 결과 벡터를 서로 비교한다.

콘텐츠 흥행 등급 예측 장치(100)는 사용자 요청에 의해 시간에 따른 매출 변화를 고려하는지 여부를 판단한다(S630).

콘텐츠 흥행 등급 예측 장치(100)는 시간에 따른 매출 변화를 고려하는 경우, 웹소설들 중에 평가 대상 웹소설과 벡터 유사도가 가장 유사한 웹소설을 선택한다(S640).

콘텐츠 흥행 등급 예측 장치(100)는 선택된 웹소설의 시간에 따른 매출을 출력한다(S650). 예를 들면, 웹소설의 시간에 따른 매출은 특정 기간(예를 들면, 3개월) 내 상위 k개의 평균 챕터당 판매수일 수 있다. 여기서, 평균 챕터당 판매수는 (3개월 내 판매수 / 등록된 챕터수) / k일 수 있다.

콘텐츠 흥행 등급 예측 장치(1000는 시간에 따른 매출 변화를 고려하지 않는 경우, 웹소설들 중에 평가 대상 웹소설과 벡터 유사도가 유사한 소정의 개수의 웹소설을 선택하고(S632), 선택된 소정의 개수의 웹소설의 평균 매출을 출력한다(S634).

전술한 방법은 다양한 수단을 통해 구현될 수 있다. 예를 들어, 본 발명의 실시예들은 하드웨어, 펌웨어(Firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다.

하드웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 컨트롤러, 마이크로컨트롤러 및 마이크로프로세서 등에 의해 구현될 수 있다.

펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차 또는 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드는 메모리 유닛에 저장되어 프로세서에 의해 구동될 수 있다. 상기 메모리 유닛은 상기 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 상기 프로세서와 데이터를 주고 받을 수 있다.

이상에서 본 명세서에 개시된 실시예들을 첨부된 도면들을 참조로 설명하였다. 이와 같이 각 도면에 도시된 실시예들은 한정적으로 해석되면 아니되며, 본 명세서의 내용을 숙지한 당업자에 의해 서로 조합될 수 있고, 조합될 경우 일부 구성 요소들은 생략될 수도 있는 것으로 해석될 수 있다.

여기서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 본 명세서에 개시된 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.

따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 명세서에 개시된 실시예에 불과할 뿐이고, 본 명세서에 개시된 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.

초기회차 본문 및 초기회차 상호작용 데이터를 활용하여 웹소설 및 웹툰 등의 콘텐츠의 흥행 등급을 예측하고, 예측된 흥행 등급을 토대로 신규 콘텐츠의 매출을 예측하는 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치산업에 활용될 수 있다.

Claims

콘텐츠 흥행 등급 예측 장치가, 복수의 콘텐츠의 초기회차 본문을 토큰화하는 단계;

상기 콘텐츠 흥행 등급 예측 장치가, 토큰화된 초기회차 본문을 본문 벡터로 임베딩하는 단계;

상기 콘텐츠 흥행 등급 예측 장치가, 구매와의 상관관계에 기반하여 상기 복수의 콘텐츠의 초기회차 상호작용 데이터로부터 특징(feature)들을 추출하는 단계;

상기 콘텐츠 흥행 등급 예측 장치가, 상기 특징들을 특징 벡터들로 각각 임베딩하는 단계; 및

상기 콘텐츠 흥행 등급 예측 장치가, 상기 복수의 콘텐츠의 상기 본문 벡터와 상기 특징 벡터들을 딥러닝/머신러닝함으로써, 상기 복수의 콘텐츠의 흥행 등급을 예측하는 단계;

를 포함하는 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법.
제1항에 있어서,

상기 콘텐츠 흥행 등급 예측 장치가, 평가 대상 콘텐츠의 본문 벡터 및 특징 벡터들을 딥러닝/머신러닝함으로써, 상기 평가 대상 콘텐츠의 흥행 등급을 예측하는 단계;

상기 콘텐츠 흥행 등급 예측 장치가, 상기 평가 대상 콘텐츠와, 상기 평가 대상 콘텐츠와 동일한 흥행 등급의 그룹 내 콘텐츠들 간의 벡터 유사도를 비교하는 단계;

상기 콘텐츠 흥행 등급 예측 장치가, 시간에 따른 매출 변화를 고려하는 경우, 상기 콘텐츠들 중에 상기 평가 대상 콘텐츠와 벡터 유사도가 가장 유사한 콘텐츠를 선택하는 단계; 및

상기 콘텐츠 흥행 등급 예측 장치가, 선택된 콘텐츠의 시간에 따른 매출을 출력하는 단계;

를 더 포함하는 것을 특징으로 하는 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법.
제2항에 있어서,

상기 콘텐츠 흥행 등급 예측 장치가, 시간에 따른 매출 변화를 고려하지 않는 경우, 상기 콘텐츠들 중에 상기 평가 대상 콘텐츠와 벡터 유사도가 유사한 소정의 개수의 콘텐츠를 선택하는 단계; 및

상기 콘텐츠 흥행 등급 예측 장치가, 선택된 소정의 개수의 콘텐츠의 평균 매출을 출력하는 단계;

를 더 포함하는 것을 특징으로 하는 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법.
제1항에 있어서, 상기 흥행 등급을 예측하는 단계는,

상기 콘텐츠 흥행 등급 예측 장치가, 상기 복수의 콘텐츠의 상기 본문 벡터와 상기 특징 벡터들을 연결하여 콘텐츠당 1개의 결과 벡터를 생성하는 단계; 및

상기 콘텐츠 흥행 등급 예측 장치가, 상기 복수의 콘텐츠의 결과 벡터를 딥러닝/머신러닝함으로써, 상기 복수의 콘텐츠의 흥행 등급을 예측하는 단계;

를 포함하는 것을 특징으로 하는 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법.
제1항에 있어서,

상기 초기회차 상호작용 데이터는 콘텐츠에 대한 좋아요, 댓글, 선호작등록, 조회, 30초이상조회, 상세보기조회, 평점, 및 추천 중 적어도 하나를 포함하는 것을 특징으로 하는 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법.
제1항에 있어서,

상기 특징 벡터들은 콘텐츠에 대한 좋아요 수, 댓글 수, 선호작등록 수, 조회수, 30초이상조회 수, 상세보기조회 수, 평점 수, 추천 수 또는 이들의 조합을 선형변환 및 차원확장하여 생성되는 벡터인 것을 특징으로 하는 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법.
복수의 콘텐츠의 초기회차 본문 및 초기회차 상호작용 데이터를 저장하는 메모리; 및

상기 메모리에 접속되어, 상기 복수의 콘텐츠의 초기회차 본문을 토큰화하고, 토큰화된 초기회차 본문을 본문 벡터로 임베딩하며, 구매와의 상관관계에 기반하여 상기 복수의 콘텐츠의 초기회차 상호작용 데이터로부터 특징(feature)들을 추출하고, 상기 특징들을 특징 벡터들로 각각 임베딩한 후, 상기 복수의 콘텐츠의 상기 본문 벡터와 상기 특징 벡터들을 딥러닝/머신러닝함으로써, 상기 복수의 콘텐츠의 흥행 등급을 예측하는 신경망을 구성하는 하나 이상의 프로세서;

를 포함하는 인공지능을 활용한 콘텐츠 흥행 등급 예측 장치.
제7항에 있어서,

상기 하나 이상의 프로세서는, 평가 대상 콘텐츠의 본문 벡터 및 특징 벡터들을 딥러닝/머신러닝함으로써, 상기 평가 대상 콘텐츠의 흥행 등급을 예측하고, 상기 평가 대상 콘텐츠와, 상기 평가 대상 콘텐츠와 동일한 흥행 등급의 그룹 내 콘텐츠들 간의 벡터 유사도를 비교한 후, 시간에 따른 매출 변화를 고려하는 경우, 상기 콘텐츠들 중에 상기 평가 대상 콘텐츠와 벡터 유사도가 가장 유사한 콘텐츠를 선택하며, 선택된 콘텐츠의 시간에 따른 매출을 출력하는 것을 특징으로 하는 인공지능을 활용한 콘텐츠 흥행 등급 예측 장치.
제8항에 있어서,

상기 하나 이상의 프로세서는, 시간에 따른 매출 변화를 고려하지 않는 경우, 상기 콘텐츠들 중에 상기 평가 대상 콘텐츠와 벡터 유사도가 유사한 소정의 개수의 콘텐츠를 선택하고, 선택된 소정의 개수의 콘텐츠의 평균 매출을 출력하는 것을 특징으로 하는 인공지능을 활용한 콘텐츠 흥행 등급 예측 장치.
제7항에 있어서,

상기 하나 이상의 프로세서는, 상기 복수의 콘텐츠의 상기 본문 벡터와 상기 특징 벡터들을 연결하여 콘텐츠당 1개의 결과 벡터를 생성하고, 상기 복수의 콘텐츠의 결과 벡터를 딥러닝/머신러닝함으로써, 상기 복수의 콘텐츠의 흥행 등급을 예측하는 것을 특징으로 하는 인공지능을 활용한 콘텐츠 흥행 등급 예측 장치.