WO2021251600A1 - 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치 - Google Patents

인공지능을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치 Download PDF

Info

Publication number
WO2021251600A1
WO2021251600A1 PCT/KR2021/003901 KR2021003901W WO2021251600A1 WO 2021251600 A1 WO2021251600 A1 WO 2021251600A1 KR 2021003901 W KR2021003901 W KR 2021003901W WO 2021251600 A1 WO2021251600 A1 WO 2021251600A1
Authority
WO
WIPO (PCT)
Prior art keywords
content
box office
rating
contents
vector
Prior art date
Application number
PCT/KR2021/003901
Other languages
English (en)
French (fr)
Inventor
김강산
문승현
박지원
Original Assignee
(주)브레인콜라
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)브레인콜라 filed Critical (주)브레인콜라
Publication of WO2021251600A1 publication Critical patent/WO2021251600A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Definitions

  • the present invention relates to a content box office rating prediction method, and more particularly, to a content box office rating prediction method and apparatus using artificial intelligence.
  • platform providers also do not know which works will be successful. So, platform makers just signed a contract with a specific work by hand, in a nutshell, as they felt in the past. For this reason, it was difficult for platform providers to contract only with well-known writers with a certain level of success and safety, and to hire cheap new writers.
  • the present invention scientifically analyzes the contents of contents such as web novels and webtoons, predicts the contents to be successful by analyzing the mutual data related thereto, and utilizes artificial intelligence that can predict the sales that the contents will earn A method and apparatus for predicting a content box office rating are provided.
  • Patent Document 1 Domestic Patent Publication No. 10-2016-0093216
  • Patent Document 2 Domestic Patent Publication No. 10-2017-0057082
  • the purpose of the present invention is to provide a method and apparatus for predicting content box office ratings using artificial intelligence that can predict the amount of sales to be made.
  • the content box office rating prediction method using artificial intelligence is a method in which the content box office rating prediction device tokenizes the text of the initial episode of a plurality of contents. step; embedding, by the content box office rating prediction device, the tokenized initial episode text as a text vector; extracting, by the content box office rating prediction device, features from the initial interaction data of the plurality of contents based on the correlation with purchase; embedding, by the content box office rating prediction device, each of the features as feature vectors; and predicting, by the content box office rating prediction apparatus, the box office rating of the plurality of contents by deep learning/machine learning the body vector and the feature vectors of the plurality of contents.
  • the content box office rating prediction device by deep learning / machine learning the body vector and feature vectors of the evaluation target content, predicting the box office rating of the evaluation target content; comparing, by the content box office rating prediction device, a vector similarity between the evaluation target content and content within a group having the same box office rating as the evaluation target content; selecting, by the content box office rating prediction device, the content having the most similar vector similarity to the evaluation target content from among the content, when the change in sales over time is considered; and outputting, by the content box office rating prediction device, sales according to time of the selected content.
  • the method includes: selecting, by the content box office rating prediction apparatus, a predetermined number of content having a similar vector similarity to the content to be evaluated from among the content, when the change in sales over time is not taken into consideration; and outputting, by the content box office rating prediction device, the average sales of the selected predetermined number of content.
  • the predicting of the box office rating comprises: generating, by the content box office rating prediction apparatus, one result vector per content by connecting the body vector and the feature vectors of the plurality of contents; and predicting, by the content box office rating prediction apparatus, the box office rating of the plurality of contents by deep learning/machine learning the result vector of the plurality of contents.
  • the initial interaction data is characterized in that it includes at least one of likes, comments, favorite work registration, inquiry, 30-second or longer inquiry, detailed view inquiry, rating, and recommendation for the content.
  • the feature vectors are linear transformation and dimensional expansion of the number of likes, comments, favorite work registrations, views, views over 30 seconds, detailed views, ratings, recommendations, or a combination thereof. It is characterized in that it is a vector generated by
  • a content box office rating prediction apparatus using artificial intelligence includes: a memory for storing the initial text and initial episode interaction data of a plurality of content; and connected to the memory, tokenizing the initial body of the plurality of contents, embedding the tokenized initial body of the content as a body vector, and initial interaction of the plurality of contents based on the correlation with the purchase Extracting features from data, embedding the features into feature vectors, respectively, and deep learning/machine learning the body vector and the feature vectors of the plurality of contents, to determine the box office rating of the plurality of contents It includes one or more processors constituting a predictive neural network.
  • the one or more processors predict the box office rating of the evaluation target content by deep learning/machine learning the body vector and feature vectors of the evaluation target content, and the evaluation target content and the same as the evaluation target content After comparing the vector similarity between contents within the group of box office ratings and considering the change in sales over time, the content with the most similar vector similarity to the evaluation target content is selected from among the contents, and the It is characterized by outputting sales.
  • the at least one processor selects a predetermined number of contents having a similar vector similarity to the evaluation target contents from among the contents, and selects a predetermined number of contents from among the contents, if the change in sales over time is not taken into consideration. It is characterized by outputting average sales.
  • the one or more processors connect the body vector and the feature vectors of the plurality of contents to generate one result vector per content, and deep learning/machine learning the result vector of the plurality of contents, It is characterized in that the box office rating of the plurality of contents is predicted.
  • an artificial intelligence that predicts the box office rating of content such as web novels and webtoons by using the initial episode text and the initial episode interaction data, and predicts the sales of new content based on the predicted box office rating
  • the criterion of 'mega hit' is not a quantitative index such as sales, but a qualitative index selected by experts (reported by experts). It can be applied to the process of grading A, B, and C).
  • FIG. 1 is a diagram showing interaction data indicating a correlation between main characteristics of a web novel and the number of sales of a web novel
  • FIG. 2 is a diagram for explaining a method of extracting features from the initial interaction data based on the correlation with purchase in an embodiment of the present invention
  • FIG. 3 is a block diagram illustrating an example of a function of a content box office rating prediction apparatus using artificial intelligence according to an embodiment of the present invention
  • FIG. 4 is a block diagram showing an example of hardware capable of realizing the function of the content box office rating prediction device according to the embodiment of the present invention
  • FIG. 5 is a flowchart illustrating a content box office rating prediction method using artificial intelligence according to an embodiment of the present invention.
  • FIG. 6 is a flowchart illustrating a method of predicting sales of a web novel to be evaluated according to an embodiment of the present invention.
  • first, second, etc. used herein may be used to describe various components, but the components should not be limited by the terms. The above terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, a first component may be referred to as a second component, and similarly, a second component may also be referred to as a first component.
  • a web novel is used as an example for convenience of explanation, but the present invention is not limited thereto. It is possible to predict the box office rating of content including movies, animations, musicals, and the like.
  • 'initial episode' means about 1 to 10 episodes of the web novel.
  • 'embedding' represents expressing an object in a form that an artificial neural network can understand (ie, a vector).
  • FIG. 1 is a diagram illustrating interaction data indicating a correlation between main characteristics of a web novel and the number of sales of a web novel.
  • the main features may include the number of read30, the number of read30 compared to the number of episodes, the number of read30 free episodes, the number of purchased users, the number of views compared to the number of registration days, the number of advance books compared to the number of registration days, the complete reading rate, and the remaining rate.
  • read30 means the number of times the reader read the web novel for more than 30 seconds.
  • the interaction data can be obtained by deep learning/machine learning of the cumulative number of purchases per feature and the number of purchases versus the number of times.
  • FIG. 2 is a diagram for explaining a method of extracting features from initial interaction data based on a correlation with purchase in an embodiment of the present invention.
  • the number of read30s and the number of read30s compared to the number of episodes show a high correlation with purchase, but the relationship between purchase and precedence (read30 possible after purchase) is unclear.
  • the number of read30 free episodes has a corr of 0.79, which shows a high correlation with the number of sales compared to the number of episodes, and the relationship is clear.
  • the content box office rating prediction method and apparatus using artificial intelligence shows a high correlation with purchase from interaction data, and features such as a clear precedence relationship, for example, the number of free episodes read30 extract
  • FIG. 3 is a block diagram illustrating an example of a function of a content box office rating prediction apparatus using artificial intelligence according to an embodiment of the present invention.
  • the content box office rating prediction apparatus 100 using artificial intelligence includes a database unit 110 , a token unit 120 , a feature analysis unit 130 , and a body embedding unit 140 . , a feature embedding unit 150 , and a control unit 160 may be included.
  • the database unit 110 stores the initial episode text and initial episode interaction data for a plurality of web novels.
  • the token unit 120 tokenizes the initial text of a plurality of web novels stored in the database unit 110 in units of words or sentences.
  • the token unit 120 may be implemented as a morpheme analyzer such as Google syntax analyzer and Mecab.
  • the token unit 120 may transmit the initial interaction data of a plurality of web novels stored in the database unit 110 to the feature analysis unit 130 .
  • the feature analysis unit 130 extracts features from the initial interaction data of a plurality of web novels based on the correlation with the purchase.
  • the body embedding unit 140 embeds the initial text tokenized by the token unit 120 as an N-dimensional body vector.
  • the body embedding unit 140 may embed the tokenized initial body text as an N-dimensional body vector through Latent Dirichlet Allocation (LDA), Bidirectional Encoder Representations form Transformer (BERT), FastText, or Word2vec.
  • LDA represents a probabilistic topic modeling technique that describes which topics exist in a specific document.
  • LDA is an algorithm that embeds a document (web novel) in a vector space with K potential topics as dimensions.
  • the feature embedding unit 150 embeds the features extracted by the feature analyzer 130 into K-dimensional feature vectors, respectively.
  • the feature embedding unit 150 may generate a K-dimensional feature vector by linearly transforming and dimensionally expanding the features extracted by the feature analyzing unit 130 or a combination thereof.
  • the feature embedding unit 150 may embed the features through sequence model-based deep learning.
  • the feature embedding unit 150 may embed a work title, work description, and the like, which cannot be expressed in numbers, as text, like the body embedding unit 140 .
  • control unit 160 inputs the text vector and feature vectors of the evaluation target web novel to the box office rating prediction model and performs deep learning/machine learning to predict the box office rating of the evaluation target web novel, and evaluate the web novel and the evaluation target. After comparing the vector similarity between the target web novel and the web novels in the group with the same box office rating, when considering the change in sales over time, the web novel with the most similar vector similarity to the web novel to be evaluated is selected among web novels. , it is possible to output the sales according to the time of the selected web novel. In addition, if the change in sales over time is not taken into consideration, the controller 160 selects a predetermined number of web novels having similar vector similarity to the evaluation target web novel from among the web novels, and averages the selected number of web novels. You can print sales.
  • FIG. 4 is a block diagram showing an example of hardware capable of realizing the function of the content box office rating prediction device according to the embodiment of the present invention.
  • the function of the content box office rating prediction apparatus 100 can be realized using, for example, the hardware resources shown in FIG. 4 . That is, the function of the content box office rating prediction apparatus 100 is realized by controlling the hardware shown in FIG. 4 using a computer program.
  • this hardware mainly includes a CPU 402 , a ROM (Read Only Memory) 404 , a RAM 406 , a host bus 408 , and a bridge 410 .
  • the hardware includes an external bus 412 , an interface 414 , an input unit 416 , an output unit 418 , a storage unit 420 , a drive 422 , a connection port 424 , and a communication unit 426 .
  • the CPU 402 functions, for example, as an arithmetic processing unit or a control unit, based on various programs recorded in the ROM 404 , the RAM 406 , the storage unit 420 , or the removable recording medium 428 . Controls all or part of the operation of each component.
  • the ROM 404 is an example of a storage device that stores a program read by the CPU 402, data used for arithmetic, and the like.
  • the RAM 406 for example, a program read by the CPU 402, various parameters that change when the program is executed, and the like are temporarily or permanently stored.
  • a host bus 408 capable of high-speed data transfer.
  • the host bus 408 is connected to an external bus 412 having a relatively low data transfer rate, for example, via a bridge 410 .
  • a mouse, a keyboard, a touch panel, a touch pad, a button, a switch, a lever, etc. are used, for example.
  • a remote controller capable of transmitting a control signal using infrared or other radio waves may be used.
  • a display device such as a cathode ray tube (CRT), a liquid crystal display (LCD), a plasma display panel (PDP), or an electro-luminescence display (ELD) may be used.
  • an audio output device such as a speaker or headphones, or a printer may be used.
  • the storage unit 420 is a device for storing various types of data.
  • a magnetic storage device such as an HDD is used.
  • a semiconductor storage device such as an SSD (Solid State Drive) or a RAM disk, an optical storage device, a magneto-optical storage device, or the like may be used.
  • the drive 422 is a device that reads information recorded on the removable recording medium 428 that is a removable recording medium or writes information into the removable recording medium 428 .
  • the removable recording medium 428 for example, a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory is used. Also, in the removable recording medium 428 , a program for regulating the operation of the battery remaining life prediction apparatus 230 may be stored.
  • Connection port 424 is, for example, a USB (Universal Serial Bus) port, IEEE 1394 port, SCSI (Small Computer System Interface), RS-232C port, or an optical audio terminal, such as an external connection device 430 for connecting It is a port.
  • an external connection device 430 for example, a printer or the like is used.
  • the communication unit 426 is a communication device for connecting to the network 432 .
  • a communication circuit for wired or wireless LAN for example, a communication circuit for WUSB (Wireless USB), a communication circuit for a cellular phone network, or the like can be used.
  • the network 432 is, for example, a network connected by wire or wireless.
  • the hardware of the content box office rating prediction apparatus 100 has been described above.
  • the above-mentioned hardware is an example, and a deformation
  • FIG. 5 is a flowchart illustrating a content box office rating prediction method using artificial intelligence according to an embodiment of the present invention.
  • the content box office rating prediction apparatus 100 tokenizes the text of the initial episode of a plurality of web novels in units of words or sentences ( S510 ).
  • the content box office rating prediction apparatus 100 may tokenize the text of the initial episode of a plurality of web novels through a morpheme analyzer such as Google syntax analyzer and Mecab.
  • the content box office rating prediction apparatus 100 embeds the tokenized initial episode body into an N-dimensional body vector (S520).
  • the content box office rating prediction apparatus 100 embeds the tokenized initial episode body into an N-dimensional body vector through Latent Dirichlet Allocation (LDA), Bidirectional Encoder Representations form Transformer (BERT), FastText, or Word2vec. .
  • LDA Latent Dirichlet Allocation
  • BERT Bidirectional Encoder Representations form Transformer
  • FastText or Word2vec.
  • the content box office rating prediction apparatus 100 extracts features from the initial interaction data of a plurality of web novels based on the correlation with purchase ( S530 ).
  • the content box office rating prediction apparatus 100 embeds the features into K-dimensional feature vectors, respectively (S540).
  • the content box office rating prediction apparatus 100 may generate a K-dimensional feature vector by linearly transforming and dimensionally expanding the features or a combination thereof.
  • the features are mostly sequential events, the content box office rating prediction apparatus 100 may embed the features through deep learning based on a sequence model.
  • the content box office rating prediction apparatus 100 may embed a title of a work, a description of the work, and the like, which cannot be expressed in numbers as text.
  • the content box office rating prediction apparatus 100 connects the body vector and the feature vectors to generate one N+K-dimensional result vector per web novel (S550).
  • the content box office rating prediction apparatus 100 may generate one N+K-dimensional result vector per web novel by concatenating the body vector and the feature vectors through concatenation and averaging.
  • the content box office rating prediction apparatus 100 predicts the box office ratings of a plurality of web novels by deep learning/machine learning on the N+K dimension result vector (S560).
  • the content box office rating prediction apparatus 100 may deep-learning/machine-learning an N+K-dimensional result vector through a multilayer perceptron and XGboost.
  • the deep learning / machine learning modeling of the N + K dimension result vector is used as the box office rating prediction model.
  • the content box office rating prediction apparatus 100 performs deep learning of N + K-dimensional result vectors when the prediction performance for the entire plurality of web novels is 80% or more or when the prediction performance for the A grade is 90% or more / Machine learning modeling can be implemented as a box office rating prediction model.
  • the content box office rating prediction apparatus 100 repeats steps S510 to S560 when it is determined that the predictive performance of the box office ratings for a plurality of web novels is less than or equal to the reference value.
  • FIG. 6 is a flowchart illustrating a method of predicting sales of a web novel to be evaluated according to an embodiment of the present invention.
  • the content box office rating prediction apparatus 100 inputs the text vector and feature vectors of the evaluation target web novel to the aforementioned box office rating prediction model and deep learning/machine learning to determine the box office rating of the evaluation target web novel. Prediction (S610).
  • the content box office rating prediction apparatus 100 compares the vector similarity between the evaluation target web novel and the web novels within the group having the same box office rating as the evaluation target web novel ( S620 ). That is, the content box office rating prediction apparatus 100 compares the result vector of the evaluation target web novel with the result vector of the web novels in the group having the same box office rating as the evaluation target web novel.
  • the content box office rating prediction apparatus 100 determines whether to consider changes in sales over time in response to a user's request (S630).
  • the content box office rating prediction apparatus 100 selects a web novel having the most similar vector similarity to the evaluation target web novel among web novels (S640).
  • the content box office rating prediction apparatus 100 outputs sales according to time of the selected web novel (S650).
  • the sales over time of a web novel may be the top k average sales per chapter within a specific period (eg, 3 months).
  • the average number of sales per chapter may be (number of sales within 3 months / number of registered chapters) / k.
  • the content box office rating prediction apparatus 1000 selects a predetermined number of web novels having similar vector similarity to the evaluation target web novel from among the web novels (S632), if the change in sales over time is not considered (S632), The average sales of web novels are output (S634).
  • embodiments of the present invention may be implemented by hardware, firmware, software, or a combination thereof.
  • the method according to embodiments of the present invention may include one or more Application Specific Integrated Circuits (ASICs), Digital Signal Processors (DSPs), Digital Signal Processing Devices (DSPDs), and Programmable Logic Devices (PLDs). , FPGAs (Field Programmable Gate Arrays), processors, controllers, microcontrollers and microprocessors, and the like.
  • ASICs Application Specific Integrated Circuits
  • DSPs Digital Signal Processors
  • DSPDs Digital Signal Processing Devices
  • PLDs Programmable Logic Devices
  • FPGAs Field Programmable Gate Arrays
  • processors controllers
  • the method according to the embodiments of the present invention may be implemented in the form of a module, procedure, or function that performs the functions or operations described above.
  • the software code may be stored in the memory unit and driven by the processor.
  • the memory unit may be located inside or outside the processor, and may transmit/receive data to and from the processor by various well-known means.
  • a content box office rating prediction method using artificial intelligence that predicts the box office rating of contents such as web novels and webtoons by using the text of the initial episode and the interaction data of the initial episode, and predicts the sales of new content based on the predicted box office rating It can be used in the device industry.

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Information Transfer Between Computers (AREA)
  • Radar Systems Or Details Thereof (AREA)

Abstract

본 발명은 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치에 관한 것으로서, 복수의 콘텐츠의 초기회차 본문을 토큰화하는 단계; 상기 콘텐츠 흥행 등급 예측 장치가, 토큰화된 초기회차 본문을 본문 벡터로 임베딩하는 단계; 상기 콘텐츠 흥행 등급 예측 장치가, 구매와의 상관관계에 기반하여 상기 복수의 콘텐츠의 초기회차 상호작용 데이터로부터 특징(feature)들을 추출하는 단계; 상기 콘텐츠 흥행 등급 예측 장치가, 상기 특징들을 특징 벡터들로 각각 임베딩하는 단계; 및 상기 콘텐츠 흥행 등급 예측 장치가, 상기 복수의 콘텐츠의 상기 본문 벡터와 상기 특징 벡터들을 딥러닝/머신러닝함으로써, 상기 복수의 콘텐츠의 흥행 등급을 예측하는 단계를 포함한다. [대표도] 도 5

Description

인공지능을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치
본 발명은 콘텐츠 흥행 등급 예측 방법에 관한 것으로, 더욱 상세하게는 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치에 관한 것이다.
웹소설이나 웹툰과 같은 콘텐츠의 문화상품이 흥행 중이다. 플랫폼 업자는 보통 이러한 웹소설을 1~10회 정도의 초기회차동안 무료로 제공한다. 그리고 무료로 제공한 상태에서, 플랫폼 업자는 어떤 작품이 성공할지 예측하여 작가와 계약을 맺는다. 이때, 플랫폼 업자는 해당 웹소설이 별로 흥행할 것 같지 않으면 싸게, 대박날 것 같으면 비싸게 혹은 대박날 것 같음에도 불구하고 작가를 속이고 싸게 계약한다.
그런데, 중요한 것은, 플랫폼 업자 또한 정작 어떤 작품이 흥행할지 잘 모른다. 그래서 플랫폼 업자는 그냥 과거에는 느낌대로 한마디로 주먹구구식으로, 사람 손에 의해 그냥 특정 작품과 계약하였다. 그렇기 때문에 플랫폼 업자는 안전하게 계속해서 흥행이 어느 정도 보장되는 유명 작가하고만 계약하고, 싼 신진 작가를 뽑기 어려웠다.
따라서, 본 발명은 웹소설 및 웹툰 등의 콘텐츠의 내용을 과학적으로 분석하고, 그와 연관된 상호 데이터를 분석하여 흥행할 콘텐츠를 예상하며, 해당 콘텐츠가 벌어들일 매출액을 예상할 수 있는 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치를 제공한다.
[선행기술문헌]
(특허문헌 1) 국내특허공개공보 제10-2016-0093216호
(특허문헌 2) 국내특허공개공보 제10-2017-0057082호
본 명세서는 상기한 바와 같은 문제점을 해결하기 위하여 안출된 것으로서, 웹소설 및 웹툰 등의 콘텐츠의 내용을 과학적으로 분석하고, 그와 연관된 상호 데이터를 분석하여 흥행할 콘텐츠를 예상하며, 해당 콘텐츠가 벌어들일 매출액을 예상할 수 있는 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치를 제공하는 데 그 목적이 있다.
이와 같은 목적을 달성하기 위한, 본 명세서의 실시예에 따르면, 본 명세서에 따른 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법은, 콘텐츠 흥행 등급 예측 장치가, 복수의 콘텐츠의 초기회차 본문을 토큰화하는 단계; 상기 콘텐츠 흥행 등급 예측 장치가, 토큰화된 초기회차 본문을 본문 벡터로 임베딩하는 단계; 상기 콘텐츠 흥행 등급 예측 장치가, 구매와의 상관관계에 기반하여 상기 복수의 콘텐츠의 초기회차 상호작용 데이터로부터 특징(feature)들을 추출하는 단계; 상기 콘텐츠 흥행 등급 예측 장치가, 상기 특징들을 특징 벡터들로 각각 임베딩하는 단계; 및 상기 콘텐츠 흥행 등급 예측 장치가, 상기 복수의 콘텐츠의 상기 본문 벡터와 상기 특징 벡터들을 딥러닝/머신러닝함으로써, 상기 복수의 콘텐츠의 흥행 등급을 예측하는 단계를 포함한다.
바람직하게는, 상기 콘텐츠 흥행 등급 예측 장치가, 평가 대상 콘텐츠의 본문 벡터 및 특징 벡터들을 딥러닝/머신러닝함으로써, 상기 평가 대상 콘텐츠의 흥행 등급을 예측하는 단계; 상기 콘텐츠 흥행 등급 예측 장치가, 상기 평가 대상 콘텐츠와, 상기 평가 대상 콘텐츠와 동일한 흥행 등급의 그룹 내 콘텐츠들 간의 벡터 유사도를 비교하는 단계; 상기 콘텐츠 흥행 등급 예측 장치가, 시간에 따른 매출 변화를 고려하는 경우, 상기 콘텐츠들 중에 상기 평가 대상 콘텐츠와 벡터 유사도가 가장 유사한 콘텐츠를 선택하는 단계; 및 상기 콘텐츠 흥행 등급 예측 장치가, 선택된 콘텐츠의 시간에 따른 매출을 출력하는 단계를 더 포함하는 것을 특징으로 한다.
바람직하게는, 상기 콘텐츠 흥행 등급 예측 장치가, 시간에 따른 매출 변화를 고려하지 않는 경우, 상기 콘텐츠들 중에 상기 평가 대상 콘텐츠와 벡터 유사도가 유사한 소정의 개수의 콘텐츠를 선택하는 단계; 및 상기 콘텐츠 흥행 등급 예측 장치가, 선택된 소정의 개수의 콘텐츠의 평균 매출을 출력하는 단계를 더 포함하는 것을 특징으로 한다.
바람직하게는, 상기 흥행 등급을 예측하는 단계는, 상기 콘텐츠 흥행 등급 예측 장치가, 상기 복수의 콘텐츠의 상기 본문 벡터와 상기 특징 벡터들을 연결하여 콘텐츠당 1개의 결과 벡터를 생성하는 단계; 및 상기 콘텐츠 흥행 등급 예측 장치가, 상기 복수의 콘텐츠의 결과 벡터를 딥러닝/머신러닝함으로써, 상기 복수의 콘텐츠의 흥행 등급을 예측하는 단계를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 초기회차 상호작용 데이터는 콘텐츠에 대한 좋아요, 댓글, 선호작등록, 조회, 30초이상조회, 상세보기조회, 평점, 및 추천 중 적어도 하나를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 특징 벡터들은 콘텐츠에 대한 좋아요 수, 댓글 수, 선호작등록 수, 조회수, 30초이상조회 수, 상세보기조회 수, 평점 수, 추천 수 또는 이들의 조합을 선형변환 및 차원확장하여 생성되는 벡터인 것을 특징으로 한다.
본 명세서의 다른 실시예에 따르면, 본 명세서에 따른 인공지능을 활용한 콘텐츠 흥행 등급 예측 장치는, 복수의 콘텐츠의 초기회차 본문 및 초기회차 상호작용 데이터를 저장하는 메모리; 및 상기 메모리에 접속되어, 상기 복수의 콘텐츠의 초기회차 본문을 토큰화하고, 토큰화된 초기회차 본문을 본문 벡터로 임베딩하며, 구매와의 상관관계에 기반하여 상기 복수의 콘텐츠의 초기회차 상호작용 데이터로부터 특징(feature)들을 추출하고, 상기 특징들을 특징 벡터들로 각각 임베딩한 후, 상기 복수의 콘텐츠의 상기 본문 벡터와 상기 특징 벡터들을 딥러닝/머신러닝함으로써, 상기 복수의 콘텐츠의 흥행 등급을 예측하는 신경망을 구성하는 하나 이상의 프로세서를 포함한다.
바람직하게는, 상기 하나 이상의 프로세서는, 평가 대상 콘텐츠의 본문 벡터 및 특징 벡터들을 딥러닝/머신러닝함으로써, 상기 평가 대상 콘텐츠의 흥행 등급을 예측하고, 상기 평가 대상 콘텐츠와, 상기 평가 대상 콘텐츠와 동일한 흥행 등급의 그룹 내 콘텐츠들 간의 벡터 유사도를 비교한 후, 시간에 따른 매출 변화를 고려하는 경우, 상기 콘텐츠들 중에 상기 평가 대상 콘텐츠와 벡터 유사도가 가장 유사한 콘텐츠를 선택하며, 선택된 콘텐츠의 시간에 따른 매출을 출력하는 것을 특징으로 한다.
바람직하게는, 상기 하나 이상의 프로세서는, 시간에 따른 매출 변화를 고려하지 않는 경우, 상기 콘텐츠들 중에 상기 평가 대상 콘텐츠와 벡터 유사도가 유사한 소정의 개수의 콘텐츠를 선택하고, 선택된 소정의 개수의 콘텐츠의 평균 매출을 출력하는 것을 특징으로 한다.
바람직하게는, 상기 하나 이상의 프로세서는, 상기 복수의 콘텐츠의 상기 본문 벡터와 상기 특징 벡터들을 연결하여 콘텐츠당 1개의 결과 벡터를 생성하고, 상기 복수의 콘텐츠의 결과 벡터를 딥러닝/머신러닝함으로써, 상기 복수의 콘텐츠의 흥행 등급을 예측하는 것을 특징으로 한다.
이상에서 설명한 바와 같이 본 명세서에 의하면, 초기회차 본문 및 초기회차 상호작용 데이터를 활용하여 웹소설 및 웹툰 등의 콘텐츠의 흥행 등급을 예측하고, 예측된 흥행 등급을 토대로 신규 콘텐츠의 매출을 예측하는 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치를 제공함으로써, 비교적 적은 데이터로 흥행 등급을 구분할 수 있고, '메가 히트'의 기준을 매출같은 정량적 지표가 아니라 전문가가 선별한 정성적 지표(전문가가 보고 A, B, C 등급을 매기는 과정에 필요)에 적용할 수 있다.
도 1은 웹소설의 주요 특징과 웹소설 판매수 간의 상관관계를 나타내는 상호작용 데이터를 도시한 도면,
도 2는 본 발명의 실시예에서 구매와의 상관관계에 기반하여 초기회차 상호작용 데이터로부터 특징들을 추출하는 방법을 설명하기 위한 도면,
도 3은 본 발명의 실시예에 따른 인공지능을 활용한 콘텐츠 흥행 등급 예측 장치가 갖는 기능의 일예를 도시한 블록도,
도 4는 본 발명의 실시 형태에 관한 콘텐츠 흥행 등급 예측 장치의 기능을 실현 가능한 하드웨어의 일례를 도시한 블록도,
도 5는 본 발명의 실시예에 따른 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법을 나타낸 흐름도, 및
도 6은 본 발명의 실시예에 따른 평가 대상 웹소설의 매출 예측 방법을 나타낸 흐름도이다.
본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 명세서에서 사용되는 기술적 용어는 본 명세서에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 명세서에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.
또한, 본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
또한, 본 명세서에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.
또한, 본 명세서에서 사용되는 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는 데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.
본 발명의 실시예에서는 설명의 편의상 웹소설을 예로 들어 설명하고 있지만 이에 한정되는 것은 아니며, 본 발명에 따른 인공지능(AI: Artificial Intelligence)을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치는 웹툰, 드라마, 영화, 애니메이션, 및 뮤지컬 등을 포함하는 콘텐츠의 흥행 등급을 예측할 수 있다.
또한, 본 발명의 실시예에서 '초기회차'는 웹소설의 1~10정도의 회차를 의미한다.
또한, 본 발명의 실시예에서 '임베딩'은 어떤 객체를 인공신경망이 이해할 수 있는 형태(즉, 벡터)로 표현하는 것을 나타낸다.
[부호의 설명]
110: 데이터베이스부 120: 토큰부
130: 특징 분석부 140: 본문 임베딩부
150: 특징 임베딩부 160: 제어부
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니됨을 유의해야 한다.
도 1은 웹소설의 주요 특징과 웹소설 판매수 간의 상관관계를 나타내는 상호작용 데이터를 도시한 도면이다.
도 1을 참조하면, 주요 특징들은 read30 수, 회차 수 대비 read30 수, 무료회차 read30 수, 구매한 사용자 수, 등록일수 대비 조회수, 등록일수 대비 선작수, 완독율, 및 잔존율을 포함할 수 있다. 여기서, read30은 독자가 웹소설을 30초 이상 읽은 횟수를 의미한다.
상호작용 데이터는 특징별로 누적 구매 수 및 회차 수 대비 구매 수를 딥러닝/머신러닝함으로써 얻어질 수 있다.
도 2는 본 발명의 실시예에서 구매와의 상관관계에 기반하여 초기회차 상호작용 데이터로부터 특징들을 추출하는 방법을 설명하기 위한 도면이다.
도 2를 참조하면, read30 수, 회차 수 대비 read30 수는 구매와 높은 상관관계를 보이나, 구매와 선후 관계(구매 후 read30 가능)가 불명확하다.
무료회차 read30 수는 corr이 0.79로 회차 수 대비 판매수와 높은 상관관계를 보이고, 선후 관계가 분명하다.
본 발명의 실시예에 따른 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치는, 상호작용 데이터로부터 구매와 높은 상관관계를 보이고, 선후 관계가 분명한, 예를 들면, 무료회차 read30 수와 같은 특징들을 추출한다.
도 3은 본 발명의 실시예에 따른 인공지능을 활용한 콘텐츠 흥행 등급 예측 장치가 갖는 기능의 일예를 도시한 블록도이다.
도 3을 참조하면, 본 발명에 따른 인공지능을 활용한 콘텐츠 흥행 등급 예측 장치(100)는, 데이터베이스부(110), 토큰부(120), 특징 분석부(130), 본문 임베딩부(140), 특징 임베딩부(150), 및 제어부(160)를 포함할 수 있다.
데이터베이스부(110)는 복수의 웹소설에 대한 초기회차 본문 및 초기회차 상호작용 데이터를 저장한다.
토큰부(120)는 데이터베이스부(110)에 저장된 복수의 웹소설의 초기회차 본문을 단어 또는 문장 단위로 토큰화한다. 여기서, 토큰부(120)는 구글 구문 분석기 및 Mecab 등의 형태소 분석기로 구현될 수 있다.
또한, 토큰부(120)는 데이터베이스부(110)에 저장된 복수의 웹소설의 초기회차 상호작용 데이터를 특징 분석부(130)로 전달할 수 있다.
특징 분석부(130)는 구매와의 상관관계에 기반하여 복수의 웹소설의 초기회차 상호작용 데이터로부터 특징들을 추출한다.
본문 임베딩부(140)는 토큰부(120)에 의해 토큰화된 초기회차 본문을 N차원의 본문 벡터로 임베딩한다. 이때, 본문 임베딩부(140)는 토큰화된 초기회차 본문을 LDA(Latent Dirichlet Allocation), BERT(Bidirectional Encoder Representations form Transformer), FastText, 또는 Word2vec를 통해 N차원의 본문 벡터로 임베딩할 수 있다. 여기서, LDA는 특정 문서에 어떤 주제들이 존재하는지 서술하는 확률적 토픽 모델링(Topic Modeling) 기법을 나타낸다. 즉, LDA는 문서(웹소설)를 K개의 잠재 토픽을 차원으로 하는 벡터 공간에 임베딩하는 알고리즘이다.
특징 임베딩부(150)는 특징 분석부(130)에 의해 추출된 특징들을 K차원의 특징 벡터들로 각각 임베딩한다. 이때, 특징 임베딩부(150)는 특징 분석부(130)에 의해 추출된 특징들 또는 이들의 조합을 선형변환 및 차원확장하여 K차원의 특징 벡터를 생성할 수 있다. 여기서, 특징들은 대부분 순차적인 이벤트이므로, 특징 임베딩부(150)는 시퀀스(Sequence) 모델 기반 딥러닝을 통해 특징들을 임베딩할 수 있다. 또한, 특징 임베딩부(150)는 숫자로 표현 안되는 작품 제목, 작품 설명 등을 본문 임베딩부(140)처럼 텍스트 임베딩할 수 있다.
제어부(160)는 본문 임베딩부(140)에 의해 임베딩된 N차원의 본문 벡터와 특징 임베딩부(150)에 의해 임베딩된 K차원의 특징 벡터들을 딥러닝/머신러닝함으로써, 복수의 웹소설의 흥행 등급을 예측한다. 구체적으로는, 제어부(160)는 본문 벡터와 특징 벡터들을 연결하여 웹소설당 1개의 N+K차원의 결과 벡터를 생성하고, 생성된 N+K차원의 결과 벡터를 딥러닝/머신러닝함으로써, 복수의 웹소설의 흥행 등급을 예측한다. 이처럼, 제어부(160)는 N+K차원의 결과 벡터를 딥러닝/머신러닝하는 과정을 통해 흥행 등급 예측 모델을 구현하게 된다. 이때, 제어부(160)는 예측 성능(Accuracy = 흥행 등급을 맞춘 웹소설의 개수/흥행 등급을 예측한 전체 웹소설의 개수)을 기준치와 비교함으로써, 흥행 등급 예측 모델의 구현 여부를 결정할 수 있다.
또한, 제어부(160)는 평가 대상 웹소설의 본문 벡터 및 특징 벡터들을 흥행 등급 예측 모델에 입력하여 딥러닝/머신러닝함으로써, 평가 대상 웹소설의 흥행 등급을 예측하고, 평가 대상 웹소설과, 평가 대상 웹소설과 동일한 흥행 등급의 그룹 내 웹소설들 간의 벡터 유사도를 비교한 후, 시간에 따른 매출 변화를 고려하는 경우, 웹소설들 중에 평가 대상 웹소설과 벡터 유사도가 가장 유사한 웹소설을 선택하며, 선택된 웹소설의 시간에 따른 매출을 출력할 수 있다. 또한, 제어부(160)는 시간에 따른 매출 변화를 고려하지 않는 경우, 웹소설들 중에 평가 대상 웹소설과 벡터 유사도가 유사한 소정의 개수의 웹소설을 선택하고, 선택된 소정의 개수의 웹소설의 평균 매출을 출력할 수 있다.
도 4를 참조하면, 콘텐츠 흥행 등급 예측 장치(100)의 기능을 실현 가능한 하드웨어에 대해서 설명한다. 도 4는 본 발명의 실시 형태에 관한 콘텐츠 흥행 등급 예측 장치의 기능을 실현 가능한 하드웨어의 일례를 도시한 블록도이다.
콘텐츠 흥행 등급 예측 장치(100)가 갖는 기능은, 예컨대, 도 4에 도시하는 하드웨어 자원을 이용하여 실현하는 것이 가능하다. 즉, 콘텐츠 흥행 등급 예측 장치(100)가 갖는 기능은, 컴퓨터 프로그램을 이용하여 도 4에 도시하는 하드웨어를 제어함으로써 실현된다.
도 4에 도시한 바와 같이, 이 하드웨어는, 주로, CPU(402), ROM(Read Only Memory)(404), RAM(406), 호스트 버스(408), 및 브리지(410)를 갖는다. 또한, 이 하드웨어는, 외부 버스(412), 인터페이스(414), 입력부(416), 출력부(418), 기억부(420), 드라이브(422), 접속 포트(424), 및 통신부(426)를 갖는다.
CPU(402)는, 예컨대, 연산 처리 장치 또는 제어 장치로서 기능하여, ROM(404), RAM(406), 기억부(420), 또는 리무버블 기록 매체(428)에 기록된 각종 프로그램에 기초하여 각 구성 요소의 동작 전반 또는 그 일부를 제어한다. ROM(404)은, CPU(402)에 판독되는 프로그램이나 연산에 이용하는 데이터 등을 저장하는 기억 장치의 일례이다. RAM(406)에는, 예컨대, CPU(402)에 판독되는 프로그램이나, 그 프로그램을 실행할 때 변화하는 각종 파라미터 등이 일시적 또는 영속적으로 저장된다.
이들 요소는, 예컨대, 고속의 데이터 전송이 가능한 호스트 버스(408)를 통해서 서로 접속된다. 한편, 호스트 버스(408)는, 예컨대, 브리지(410)를 통해서 비교적 데이터 전송 속도가 저속인 외부 버스(412)에 접속된다. 또한, 입력부(416)로서는, 예컨대, 마우스, 키보드, 터치 패널, 터치 패드, 버튼, 스위치, 및 레버 등이 이용된다. 또한, 입력부(416)로서는, 적외선이나 그 밖의 전파를 이용하여 제어 신호를 송신하는 것이 가능한 리모트 컨트롤러가 이용될 수 있다.
출력부(418)로서는, 예컨대, CRT(Cathode Ray Tube), LCD(Liquid Crystal Display), PDP(Plasma Display Panel), 또는 ELD(Electro-Luminescence Display) 등의 디스플레이 장치가 이용될 수 있다. 또한, 출력부(418)로서, 스피커나 헤드폰 등의 오디오 출력 장치, 또는 프린터 등이 이용될 수 있다.
기억부(420)는, 각종 데이터를 저장하기 위한 장치이다. 기억부(420)로서는, 예컨대, HDD 등의 자기 기억 디바이스가 이용된다. 또한, 기억부(420)로서, SSD(Solid State Drive)나 RAM 디스크 등의 반도체 기억 디바이스, 광기억 디바이스, 또는 광자기 기억 디바이스 등이 이용되어도 된다.
드라이브(422)는, 착탈 가능한 기록매체인 리무버블 기록 매체(428)에 기록된 정보를 판독하거나, 또는 리무버블 기록 매체(428)에 정보를 기록하는 장치이다. 리무버블 기록 매체(428)로서는, 예컨대, 자기 디스크, 광디스크, 광자기 디스크, 또는 반도체 메모리 등이 이용된다. 또한, 리무버블 기록 매체(428)에는, 배터리 잔존 수명 예측 장치(230)의 동작을 규정하는 프로그램이 저장될 수 있다.
접속 포트(424)는, 예컨대, USB(Universal Serial Bus) 포트, IEEE 1394 포트, SCSI(Small Computer System Interface), RS-232C 포트, 또는 광오디오 단자 등, 외부 접속 기기(430)를 접속하기 위한 포트이다. 외부 접속 기기(430)로서는, 예컨대, 프린터 등이 이용된다.
통신부(426)는, 네트워크(432)에 접속하기 위한 통신 디바이스이다. 통신부(426)로서는, 예컨대, 유선 또는 무선 LAN용 통신 회로, WUSB(Wireless USB)용 통신 회로, 휴대 전화 네트워크용 통신 회로 등이 이용될 수 있다. 네트워크(432)는, 예컨대, 유선 또는 무선에 의해 접속된 네트워크이다.
이상, 콘텐츠 흥행 등급 예측 장치(100)의 하드웨어에 대해서 설명하였다. 또한, 상술한 하드웨어는 일례이며, 일부의 요소를 생략하는 변형이나, 새로운 요소를 추가하는 변형 등이 가능하다.
도 5는 본 발명의 실시예에 따른 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법을 나타낸 흐름도이다.
도 5를 참조하면, 콘텐츠 흥행 등급 예측 장치(100)는 복수의 웹소설의 초기회차 본문을 단어 또는 문장 단위로 토큰화한다(S510). 이때, 콘텐츠 흥행 등급 예측 장치(100)는 구글 구문 분석기 및 Mecab 등의 형태소 분석기를 통해 복수의 웹소설의 초기회차 본문을 토큰화할 수 있다.
콘텐츠 흥행 등급 예측 장치(100)는 토큰화된 초기회차 본문을 N차원의 본문 벡터로 임베딩한다(S520). 이때, 콘텐츠 흥행 등급 예측 장치(100)는 토큰화된 초기회차 본문을 LDA(Latent Dirichlet Allocation), BERT(Bidirectional Encoder Representations form Transformer), FastText, 또는 Word2vec를 통해 N차원의 본문 벡터로 임베딩할 수 있다.
콘텐츠 흥행 등급 예측 장치(100)는 구매와의 상관관계에 기반하여 복수의 웹소설의 초기회차 상호작용 데이터로부터 특징들을 추출한다(S530).
콘텐츠 흥행 등급 예측 장치(100)는 특징들을 K차원의 특징 벡터들로 각각 임베딩한다(S540). 이때, 콘텐츠 흥행 등급 예측 장치(100)는 특징들 또는 이들의 조합을 선형변환 및 차원확장하여 K차원의 특징 벡터를 생성할 수 있다. 여기서, 특징들은 대부분 순차적인 이벤트이므로, 콘텐츠 흥행 등급 예측 장치(100)는 시퀀스(Sequence) 모델 기반 딥러닝을 통해 특징들을 임베딩할 수 있다. 또한, 콘텐츠 흥행 등급 예측 장치(100)는 숫자로 표현 안되는 작품 제목, 작품 설명 등을 텍스트 임베딩할 수 있다.
콘텐츠 흥행 등급 예측 장치(100)는 본문 벡터와 특징 벡터들을 연결하여 웹소설당 1개의 N+K차원의 결과 벡터를 생성한다(S550). 이때, 콘텐츠 흥행 등급 예측 장치(100)는 연결(Concatenation) 및 평균(Averaging)을 통해 본문 벡터와 특징 벡터들을 연결하여 웹소설당 1개의 N+K차원의 결과 벡터를 생성할 수 있다.
콘텐츠 흥행 등급 예측 장치(100)는 N+K차원의 결과 벡터를 딥러닝/머신러닝함으로써, 복수의 웹소설의 흥행 등급을 예측한다(S560). 이때, 콘텐츠 흥행 등급 예측 장치(100)는 다층 퍼셉트론(Multilayer Perceptron) 및 XGboost를 통해 N+K차원의 결과 벡터를 딥러닝/머신러닝할 수 있다.
콘텐츠 흥행 등급 예측 장치(100)는 복수의 웹소설에 대한 흥행 등급의 예측 성능(Accuracy = 흥행 등급을 맞춘 웹소설의 개수/흥행 등급을 예측한 전체 웹소설의 개수)이 기준치보다 큰지 여부를 판단한다(S570).
콘텐츠 흥행 등급 예측 장치(100)는 복수의 웹소설에 대한 흥행 등급의 예측 성능이 기준치보다 크다고 판단한 경우, 단계 560에서 N+K차원의 결과 벡터의 딥러닝/머신러닝 모델링을 흥행 등급 예측 모델로 구현한다(S580). 예를 들면, 콘텐츠 흥행 등급 예측 장치(100)는 복수의 웹소설 전체에 대한 예측 성능이 80 % 이상인 경우 또는 A등급에 대한 예측 성능이 90 % 이상인 경우, N+K차원의 결과 벡터의 딥러닝/머신러닝 모델링을 흥행 등급 예측 모델로 구현할 수 있다.
콘텐츠 흥행 등급 예측 장치(100)는 복수의 웹소설에 대한 흥행 등급의 예측 성능이 기준치 이하라고 판단한 경우, 단계 S510 내지 단계 S560을 반복한다.
도 6은 본 발명의 실시예에 따른 평가 대상 웹소설의 매출 예측 방법을 나타낸 흐름도이다.
도 6을 참조하면, 콘텐츠 흥행 등급 예측 장치(100)는 평가 대상 웹소설의 본문 벡터 및 특징 벡터들을 전술한 흥행 등급 예측 모델에 입력하여 딥러닝/머신러닝함으로써, 평가 대상 웹소설의 흥행 등급을 예측한다(S610).
콘텐츠 흥행 등급 예측 장치(100)는 평가 대상 웹소설과, 평가 대상 웹소설과 동일한 흥행 등급의 그룹 내 웹소설들 간의 벡터 유사도를 비교한다(S620). 즉, 콘텐츠 흥행 등급 예측 장치(100)는 평가 대상 웹소설의 결과 벡터와 평가 대상 웹소설과 동일한 흥행 등급의 그룹 내 웹소설들의 결과 벡터를 서로 비교한다.
콘텐츠 흥행 등급 예측 장치(100)는 사용자 요청에 의해 시간에 따른 매출 변화를 고려하는지 여부를 판단한다(S630).
콘텐츠 흥행 등급 예측 장치(100)는 시간에 따른 매출 변화를 고려하는 경우, 웹소설들 중에 평가 대상 웹소설과 벡터 유사도가 가장 유사한 웹소설을 선택한다(S640).
콘텐츠 흥행 등급 예측 장치(100)는 선택된 웹소설의 시간에 따른 매출을 출력한다(S650). 예를 들면, 웹소설의 시간에 따른 매출은 특정 기간(예를 들면, 3개월) 내 상위 k개의 평균 챕터당 판매수일 수 있다. 여기서, 평균 챕터당 판매수는 (3개월 내 판매수 / 등록된 챕터수) / k일 수 있다.
콘텐츠 흥행 등급 예측 장치(1000는 시간에 따른 매출 변화를 고려하지 않는 경우, 웹소설들 중에 평가 대상 웹소설과 벡터 유사도가 유사한 소정의 개수의 웹소설을 선택하고(S632), 선택된 소정의 개수의 웹소설의 평균 매출을 출력한다(S634).
전술한 방법은 다양한 수단을 통해 구현될 수 있다. 예를 들어, 본 발명의 실시예들은 하드웨어, 펌웨어(Firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다.
하드웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 컨트롤러, 마이크로컨트롤러 및 마이크로프로세서 등에 의해 구현될 수 있다.
펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차 또는 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드는 메모리 유닛에 저장되어 프로세서에 의해 구동될 수 있다. 상기 메모리 유닛은 상기 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 상기 프로세서와 데이터를 주고 받을 수 있다.
이상에서 본 명세서에 개시된 실시예들을 첨부된 도면들을 참조로 설명하였다. 이와 같이 각 도면에 도시된 실시예들은 한정적으로 해석되면 아니되며, 본 명세서의 내용을 숙지한 당업자에 의해 서로 조합될 수 있고, 조합될 경우 일부 구성 요소들은 생략될 수도 있는 것으로 해석될 수 있다.
여기서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 본 명세서에 개시된 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.
따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 명세서에 개시된 실시예에 불과할 뿐이고, 본 명세서에 개시된 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
초기회차 본문 및 초기회차 상호작용 데이터를 활용하여 웹소설 및 웹툰 등의 콘텐츠의 흥행 등급을 예측하고, 예측된 흥행 등급을 토대로 신규 콘텐츠의 매출을 예측하는 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치산업에 활용될 수 있다.

Claims (10)

  1. 콘텐츠 흥행 등급 예측 장치가, 복수의 콘텐츠의 초기회차 본문을 토큰화하는 단계;
    상기 콘텐츠 흥행 등급 예측 장치가, 토큰화된 초기회차 본문을 본문 벡터로 임베딩하는 단계;
    상기 콘텐츠 흥행 등급 예측 장치가, 구매와의 상관관계에 기반하여 상기 복수의 콘텐츠의 초기회차 상호작용 데이터로부터 특징(feature)들을 추출하는 단계;
    상기 콘텐츠 흥행 등급 예측 장치가, 상기 특징들을 특징 벡터들로 각각 임베딩하는 단계; 및
    상기 콘텐츠 흥행 등급 예측 장치가, 상기 복수의 콘텐츠의 상기 본문 벡터와 상기 특징 벡터들을 딥러닝/머신러닝함으로써, 상기 복수의 콘텐츠의 흥행 등급을 예측하는 단계;
    를 포함하는 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법.
  2. 제1항에 있어서,
    상기 콘텐츠 흥행 등급 예측 장치가, 평가 대상 콘텐츠의 본문 벡터 및 특징 벡터들을 딥러닝/머신러닝함으로써, 상기 평가 대상 콘텐츠의 흥행 등급을 예측하는 단계;
    상기 콘텐츠 흥행 등급 예측 장치가, 상기 평가 대상 콘텐츠와, 상기 평가 대상 콘텐츠와 동일한 흥행 등급의 그룹 내 콘텐츠들 간의 벡터 유사도를 비교하는 단계;
    상기 콘텐츠 흥행 등급 예측 장치가, 시간에 따른 매출 변화를 고려하는 경우, 상기 콘텐츠들 중에 상기 평가 대상 콘텐츠와 벡터 유사도가 가장 유사한 콘텐츠를 선택하는 단계; 및
    상기 콘텐츠 흥행 등급 예측 장치가, 선택된 콘텐츠의 시간에 따른 매출을 출력하는 단계;
    를 더 포함하는 것을 특징으로 하는 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법.
  3. 제2항에 있어서,
    상기 콘텐츠 흥행 등급 예측 장치가, 시간에 따른 매출 변화를 고려하지 않는 경우, 상기 콘텐츠들 중에 상기 평가 대상 콘텐츠와 벡터 유사도가 유사한 소정의 개수의 콘텐츠를 선택하는 단계; 및
    상기 콘텐츠 흥행 등급 예측 장치가, 선택된 소정의 개수의 콘텐츠의 평균 매출을 출력하는 단계;
    를 더 포함하는 것을 특징으로 하는 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법.
  4. 제1항에 있어서, 상기 흥행 등급을 예측하는 단계는,
    상기 콘텐츠 흥행 등급 예측 장치가, 상기 복수의 콘텐츠의 상기 본문 벡터와 상기 특징 벡터들을 연결하여 콘텐츠당 1개의 결과 벡터를 생성하는 단계; 및
    상기 콘텐츠 흥행 등급 예측 장치가, 상기 복수의 콘텐츠의 결과 벡터를 딥러닝/머신러닝함으로써, 상기 복수의 콘텐츠의 흥행 등급을 예측하는 단계;
    를 포함하는 것을 특징으로 하는 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법.
  5. 제1항에 있어서,
    상기 초기회차 상호작용 데이터는 콘텐츠에 대한 좋아요, 댓글, 선호작등록, 조회, 30초이상조회, 상세보기조회, 평점, 및 추천 중 적어도 하나를 포함하는 것을 특징으로 하는 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법.
  6. 제1항에 있어서,
    상기 특징 벡터들은 콘텐츠에 대한 좋아요 수, 댓글 수, 선호작등록 수, 조회수, 30초이상조회 수, 상세보기조회 수, 평점 수, 추천 수 또는 이들의 조합을 선형변환 및 차원확장하여 생성되는 벡터인 것을 특징으로 하는 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법.
  7. 복수의 콘텐츠의 초기회차 본문 및 초기회차 상호작용 데이터를 저장하는 메모리; 및
    상기 메모리에 접속되어, 상기 복수의 콘텐츠의 초기회차 본문을 토큰화하고, 토큰화된 초기회차 본문을 본문 벡터로 임베딩하며, 구매와의 상관관계에 기반하여 상기 복수의 콘텐츠의 초기회차 상호작용 데이터로부터 특징(feature)들을 추출하고, 상기 특징들을 특징 벡터들로 각각 임베딩한 후, 상기 복수의 콘텐츠의 상기 본문 벡터와 상기 특징 벡터들을 딥러닝/머신러닝함으로써, 상기 복수의 콘텐츠의 흥행 등급을 예측하는 신경망을 구성하는 하나 이상의 프로세서;
    를 포함하는 인공지능을 활용한 콘텐츠 흥행 등급 예측 장치.
  8. 제7항에 있어서,
    상기 하나 이상의 프로세서는, 평가 대상 콘텐츠의 본문 벡터 및 특징 벡터들을 딥러닝/머신러닝함으로써, 상기 평가 대상 콘텐츠의 흥행 등급을 예측하고, 상기 평가 대상 콘텐츠와, 상기 평가 대상 콘텐츠와 동일한 흥행 등급의 그룹 내 콘텐츠들 간의 벡터 유사도를 비교한 후, 시간에 따른 매출 변화를 고려하는 경우, 상기 콘텐츠들 중에 상기 평가 대상 콘텐츠와 벡터 유사도가 가장 유사한 콘텐츠를 선택하며, 선택된 콘텐츠의 시간에 따른 매출을 출력하는 것을 특징으로 하는 인공지능을 활용한 콘텐츠 흥행 등급 예측 장치.
  9. 제8항에 있어서,
    상기 하나 이상의 프로세서는, 시간에 따른 매출 변화를 고려하지 않는 경우, 상기 콘텐츠들 중에 상기 평가 대상 콘텐츠와 벡터 유사도가 유사한 소정의 개수의 콘텐츠를 선택하고, 선택된 소정의 개수의 콘텐츠의 평균 매출을 출력하는 것을 특징으로 하는 인공지능을 활용한 콘텐츠 흥행 등급 예측 장치.
  10. 제7항에 있어서,
    상기 하나 이상의 프로세서는, 상기 복수의 콘텐츠의 상기 본문 벡터와 상기 특징 벡터들을 연결하여 콘텐츠당 1개의 결과 벡터를 생성하고, 상기 복수의 콘텐츠의 결과 벡터를 딥러닝/머신러닝함으로써, 상기 복수의 콘텐츠의 흥행 등급을 예측하는 것을 특징으로 하는 인공지능을 활용한 콘텐츠 흥행 등급 예측 장치.
PCT/KR2021/003901 2020-06-12 2021-03-30 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치 WO2021251600A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200071365A KR102443786B1 (ko) 2020-06-12 2020-06-12 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치
KR10-2020-0071365 2020-06-12

Publications (1)

Publication Number Publication Date
WO2021251600A1 true WO2021251600A1 (ko) 2021-12-16

Family

ID=78845621

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/003901 WO2021251600A1 (ko) 2020-06-12 2021-03-30 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치

Country Status (2)

Country Link
KR (1) KR102443786B1 (ko)
WO (1) WO2021251600A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102601775B1 (ko) * 2023-08-14 2023-11-14 비마이펫주식회사 인공지능 모델에 기반하는 반려동물 콘텐츠 제공 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170057082A (ko) * 2015-11-16 2017-05-24 (주)엠피에스코리아 복합데이터를 이용한 영화 흥행 예측 방법
KR101850753B1 (ko) * 2017-04-27 2018-05-31 한국과학기술정보연구원 유사기업 선정 기반의 시장 규모 및 예상 매출액 추정 장치 및 방법
KR101923146B1 (ko) * 2016-11-24 2018-11-28 주식회사 솔트룩스 워드 벡터를 이용한 시맨틱 검색 시스템 및 방법
KR20190069770A (ko) * 2017-12-12 2019-06-20 모젼스랩(주) 사업계획서 분석을 통한 사업 성공 예측 시스템
KR102020316B1 (ko) * 2019-01-18 2019-09-11 주식회사 리치빔 합리적인 제작 대금을 지급하는 외주 제작 컨텐츠 운용 시스템 및 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101669355B1 (ko) 2015-01-29 2016-10-25 이준영 온라인을 이용한 번역 및 출판에 따른 수익 배분시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170057082A (ko) * 2015-11-16 2017-05-24 (주)엠피에스코리아 복합데이터를 이용한 영화 흥행 예측 방법
KR101923146B1 (ko) * 2016-11-24 2018-11-28 주식회사 솔트룩스 워드 벡터를 이용한 시맨틱 검색 시스템 및 방법
KR101850753B1 (ko) * 2017-04-27 2018-05-31 한국과학기술정보연구원 유사기업 선정 기반의 시장 규모 및 예상 매출액 추정 장치 및 방법
KR20190069770A (ko) * 2017-12-12 2019-06-20 모젼스랩(주) 사업계획서 분석을 통한 사업 성공 예측 시스템
KR102020316B1 (ko) * 2019-01-18 2019-09-11 주식회사 리치빔 합리적인 제작 대금을 지급하는 외주 제작 컨텐츠 운용 시스템 및 방법

Also Published As

Publication number Publication date
KR102443786B1 (ko) 2022-09-16
KR20210154396A (ko) 2021-12-21

Similar Documents

Publication Publication Date Title
US11900056B2 (en) Stylistic text rewriting for a target author
JP6820058B2 (ja) 音声認識方法、装置、デバイス、及び記憶媒体
WO2020027540A1 (en) Apparatus and method for personalized natural language understanding
CN108985358B (zh) 情绪识别方法、装置、设备及存储介质
CN109783796B (zh) 预测文本内容中的样式破坏
CN104718545A (zh) 递增的多词识别
KR102285142B1 (ko) 챗봇을 위한 학습 데이터 추천 장치 및 방법
WO2018080228A1 (ko) 번역을 위한 서버 및 번역 방법
WO2022145981A1 (ko) 자동학습 기반 시계열 데이터 예측 및 제어 방법 및 장치
WO2021251600A1 (ko) 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치
KR20240012245A (ko) 자연어처리 기반의 인공지능 모델을 이용한 faq를 자동생성하기 위한 방법 및 이를 위한 장치
WO2021221390A1 (en) System and method for out-of-vocabulary phrase support in automatic speech recognition
WO2022270840A1 (ko) 외국어 학습자의 어휘 실력 예측과 향상을 위한 딥러닝 기반의 단어 추천 시스템
WO2023003262A1 (ko) 시험 점수를 예측하는 방법 및 장치
WO2011049313A9 (ko) 표현 및 설명 추출을 위한 문서 처리 장치 및 방법
CN107329948B (zh) 语句所记述事件的发生时间推定方法、设备及存储介质
CN111339760A (zh) 词法分析模型的训练方法、装置、电子设备、存储介质
KR20220042598A (ko) 미래 상호작용 예측 기반의 개인화 추천 방법 및 시스템
WO2022141867A1 (zh) 语音识别方法、装置、电子设备及可读存储介质
JP7194759B2 (ja) 翻訳用データ生成システム
CN111310016B (zh) 标签挖掘方法、装置、服务器和存储介质
WO2024043390A1 (ko) 환경정보 인식을 위한 계층적 전이학습 기반의 딥러닝 모델 생성 시스템 및 방법
KR102443782B1 (ko) 미래 상호작용 예측 기반의 타겟 사용자 예측 방법 및 시스템
WO2024043563A1 (en) System and method for deep machine learning model using personal data in real time
WO2022270841A1 (ko) 외국어 학습자의 어휘 실력 예측과 향상을 위한 딥러닝 기반의 단어 추천 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21821339

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21821339

Country of ref document: EP

Kind code of ref document: A1