KR20200120971A - 영화 흥행에 영향을 미치는 변수를 이용한 머신러닝 기반의 주간 박스오피스 예측 시스템 - Google Patents

영화 흥행에 영향을 미치는 변수를 이용한 머신러닝 기반의 주간 박스오피스 예측 시스템 Download PDF

Info

Publication number
KR20200120971A
KR20200120971A KR1020190039243A KR20190039243A KR20200120971A KR 20200120971 A KR20200120971 A KR 20200120971A KR 1020190039243 A KR1020190039243 A KR 1020190039243A KR 20190039243 A KR20190039243 A KR 20190039243A KR 20200120971 A KR20200120971 A KR 20200120971A
Authority
KR
South Korea
Prior art keywords
information
opening
movie
box office
unit
Prior art date
Application number
KR1020190039243A
Other languages
English (en)
Inventor
김건우
최근호
송정아
Original Assignee
한밭대학교 산학협력단
한밭대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한밭대학교 산학협력단, 한밭대학교 산학협력단 filed Critical 한밭대학교 산학협력단
Priority to KR1020190039243A priority Critical patent/KR20200120971A/ko
Publication of KR20200120971A publication Critical patent/KR20200120971A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Operations Research (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 기존 연구들의 한계점을 극복하여 새로운 변수들을 적용함으로 영화 개봉 후 종영까지의 전체 기간이 아닌 주차별 누적 관객 수를 예측한 후 올바른 시점에 더욱 정확한 영화 흥행 예측 결과를 이해당사자에게 제공할 수 있는 영화 흥행에 영향을 미치는 변수를 이용한 머신러닝 기반의 주간 박스오피스 예측 시스템에 관한 것이다.

Description

영화 흥행에 영향을 미치는 변수를 이용한 머신러닝 기반의 주간 박스오피스 예측 시스템 {Machine Learning Based Weekly Box Office Prediction System Using Variables Affecting Movie Performance}
본 발명은 변수를 이용한 머신러닝 기반의 예측 시스템에 관한 것으로, 자세하게는 예측 모델의 성능을 향상시키기 위해 종래 활용되지 않던 변수들을 추가하여 개봉 후 역동적으로 변화하는 관객 수요 변화에 대한 탄력적인 대응과 주차 별 관객 수를 예측할 수 있는 영화 흥행에 영향을 미치는 변수를 이용한 머신러닝 기반의 주간 박스오피스 예측 시스템에 관한 것이다.
영화는 경험재적 성격을 가진 문화상품으로 영화 개봉 전까지는 흥행 여부나 초기 관객 수를 정확히 예측하는 것이 어려우며, 개봉 후에도 다양한 요인들에 의해 관객 수는 역동적으로 변화한다. 따라서 제작사나 배급사는 영화개봉 시에 대규모 멀티플렉스(Multiplex)를 중심으로 많은 스크린을 확보해 관객 수를 늘려 매출실적을 높이고자 한다.
하지만, 극장주들은 영화 예매를 위한 상영 시간표를 길게는 약 일주일, 짧게는 3~4일 정도만 공개하고 있으며 영화 개봉 후에 관객들의 평가와 흥행 실적을 바탕으로 차주의 상영 횟수나 상영 여부 등을 결정한다.
따라서 영화산업을 이루고 있는 각 이해당사자(제작사, 배급사, 극장주 등)들은 개봉 영화에 대한 역동적인 시장의 반응을 예측하고 탄력적으로 대응하는 전략을 통해 시장의 이익을 극대화하려고 한다.
즉, 배급사와 제작사는 높은 예측 정확도를 바탕으로 차주 스크린 수와 상영 횟수들을 판단하여 상영 연장 또는 종료를 통해 매출을 극대화하거나 손실을 최소화함과 동시에 디지털 온라인 판매로 판로를 바꿔 매출을 올리고자 한다.
반면 극장주들은 흥행 예측에 기반을 둔 데이터를 참고하여 기민한 스크린 교체를 통해 손실을 최소화하고 매출을 극대화하고자 한다. 따라서 영화 흥행 예측은 이해당사자에게 수익과 직접적으로 연결된, 중요한 의사결정을 내리기 위한 전략적 수단이 되어 가고 있다.
이러한 중요성에 기인하여 영화 흥행을 예측하기 위한 많은 연구가 수행 되어왔다. 초기에는 영화 흥행에 영향을 미치는 여러 요인을 밝히고자 노력해 왔으며 최근의 연구들은 새로운 요인들을 규명하는 대신 과거 선행 연구에서 사용되었던 변수들에 다양한 예측 분석기법을 적용하여 흥행 예측의 정확도를 높이는데 집중하고 예측 모델에서 도출된 변수들의 영향력을 설명하고자 하는 시도들이 많이 이루어지고 있다.
그러나 대부분의 기존 연구들은 영화 흥행을 예측하기 위해 설정한 목표 변수로 영화 개봉시점에서 종영시점까지 전체 기간 발생한 총 누적 관객 수 또는 총 누적 매출액을 사용하고 있는데 이는 영화 개봉 시부터 종영 시까지 역동적으로 변화하는 시장 수요를 선제적으로 예측하고 탄력적으로 대응하기에는 한계점이 존재한다.
이는 영화 흥행 예측의 정확도를 떨어뜨리고 나아가 실제 영화 산업의 현실을 제대로 반영하지 못해 영화 흥행 예측 모델을 사용하려는 사용자들이 느끼는 모델의 효용성을 떨어뜨리게 된다.
또한, 흥행 요인 연구들에서는 동일한 요인이 연구마다 다른 결과를 보여 주는 사례가 많아 변수와 영화 흥행 사이의 요인 규명의 복잡도를 증가시키고 있다. 이런 혼재된 결과 때문에 신뢰할만한 영화 흥행 요인들을 명확히 밝히기는 쉽지 않다.
대한민국 공개특허 제10-2018-0067976호(2018.06.21)
Litman B., "Predicting success of theatrical movies: An empirical study", The Journal of Popular Culture, Vol.16, No.4(1983), 159~175.
본 발명은 상기와 같은 문제를 해결하기 위하여 창출된 것으로, 본 발명의 목적은 기존 연구들의 한계점을 극복하여 새로운 변수들을 적용함으로 영화 개봉 후 종영까지의 전체 기간이 아닌 주차별 누적 관객 수를 예측한 후 올바른 시점에 더욱 정확한 영화 흥행 예측 결과를 이해당사자에게 제공할 수 있는 영화 흥행에 영향을 미치는 변수를 이용한 머신러닝 기반의 주간 박스오피스 예측 시스템을 제공하는 것이다.
상기와 같은 목적을 위해 본 발명은 과거 설정된 기간 중 개봉되었던 영화를 대상으로 정보를 수집하되, 영화의 배급사와 개봉일과 개봉국가와 상영등급 및 장르와 개봉관 및 관객수를 포함하는 영화상세정보와, 전문가평가정보 및 네티즌평가정보와 매출점유율과 순위와 관객수를 포함하는 흥행실적정보와, 감독스타성 및 배우스타성과 배급사를 포함하는 영화인정보를 일자별로 수집하는 정보수집부; 수집된 정보를 최대 개봉관 수와 제작비와 상영기간에 따라 설정치를 기준으로 필터링하여 학습대상으로 선별하는 필터링부와, 영화 개봉을 전후로 불변하는 고정정보 및 영화 개봉 전후 시점에 따라 가변하는 가변정보로 분류하는 정보분류부와, 상기 흥행실적정보를 포함하는 가변정보를 개봉전과 개봉 후의 날짜 기준 및 평가자 수에 따라 정렬하는 정보정렬부를 구비하여 데이터 세트를 구성하는 전처리부; 상기 데이터 세트를 학습하여 개봉 전 취득 가능 정보와 개봉 후 취득되는 정보에 대응하여 설정된 시점의 관객수의 상관관계를 통해 예측모델을 생성하는 학습부; 신규영화 정보를 입력받되, 영화상세정보와 흥행실적정보와 영화인정보를 선별하고 상기 예측모델을 적용하여 지정시점 별로 관객수를 예측하여 출력하는 예측부; 로 이루어지는 것을 특징으로 한다.
이때 상기 정보수집부는 영화입장권 통합전산망 웹사이트에서 제공하는 API와, 설정된 포털사이트의 영화 섹션과 연동하여 정보를 수집하고, 상기 학습부는 개봉일, 개봉 1주, 개봉 2주, 개봉 3주를 시점으로 매출 점유율 및 흥행순위 변동폭 요인을 학습하는 것이 바람직하다.
또한, 상기 학습부는 개봉일, 개봉 1주, 개봉 2주, 개봉 3주 시점에서의 관객수를 설정된 범위에 따른 등급으로 구분하여 학습하는 것이 바람직하다.
또한, 상기 예측부를 통해 예측된 시점별 관객수에 대한 실제 관객수의 차이에 따른 상관관계를 상기 학습부에 적용시키는 보정부; 를 더 포함하는 것이 바람직하다.
또한, 상기 필터링부는 개봉관수 300개관 이상 또는 제작비 30억원 이상인 영화를 선별하도록 구성되는 것이 바람직하다.
본 발명을 통해 기존의 흥행 요인들뿐만 아니라 영화 개봉 후 관객들의 평가와 흥행 실적을 바탕으로 한 네티즌 평점, 흥행 순위, 매출 점유율 등 그동안 연구들에서 다루지 않았던 흥행에 영향을 미칠만한 다른 여러 요인을 포괄적으로 고려하여 더욱 정확한 영화 흥행 예측이 가능하다.
또한, 총 관객 수와 총 매출액의 예측만 시도하던 기존 연구와 달리 주차별 누적 관객 수 예측을 통해 더욱 현실적인 환경에서 개봉 후 역동적으로 변하는 관객들의 반응과 영화 흥행 실적에 따라 빠르게 대응하고 입체적으로 분석할 수 있다.
또한, 이러한 여러 요인을 고려하여 시점별 다음주 누적 관객 수를 미리 예측할 수 있어 영화산업 이해관계자들이 실제 현장에서 개봉 후 역동적으로 변화는 관객들의 반응에 탄력적으로 대응할 수 있는 빠르고 정확한 의사결정을 내리는데 도움을 줄 수 있다.
도 1은 본 발명의 실시예에 따른 구성 및 연결관계를 나타낸 블록도,
도 2는 본 발명에 따른 예측 모델 개념도,
도 3은 시간 경과에 따른 예측 정확도의 비교결과를 나타낸 그래프,
도 4는 Random Forest에서의 목표 변수에 의한 비교 정확도를 나타낸 그래프,
도 5는 Random Forest의 Confusion Matrix 이다.
이하, 첨부된 도면을 참조하여 본 발명 영화 흥행에 영향을 미치는 변수를 이용한 머신러닝 기반의 주간 박스오피스 예측 시스템의 구성을 구체적으로 설명한다.
일반적으로 영화 흥행과 관련된 연구는 영화흥행에 영향력을 미치는 흥행 요인들의 선택에 관한 연구와 이들 흥행 요인들로부터 영화 흥행 예측 모델을 연구하는 두 가지 주제로 분류되며, 영화산업의 규모가 커지면서 영화 흥행을 예측하는 다양한 연구들이 국내외로 진행되어왔다. 연구 초기에는 영화 흥행 요인을 규명하는데 집중되어 있었으며, 점차 다양한 변수와 동원관객수와의 상관관계를 다룬 다양한 연구가 이루어졌다.
본 발명에서는 기계학습 기법 중 Naive Bays, Random Forest, Support Vector Machine, Multi Layer Perception을 이용하고 다양한 변수를 적용함으로 주차별 누적 관객 수 예측을 수행할 수 있도록 하였다.
도 1은 본 발명의 실시예에 따른 구성 및 연결관계를 나타낸 블록도로서, 본 발명은 정보수집부(110)와, 전처리부(120)와, 학습부(130) 및 예측부(140)와, 보정부(150)의 주요구성을 구비한다.
상기 정보수집부(110)는 머신러닝을 위한 과거 데이터를 수집하기 위한 구성으로 과거 설정된 기간 중 개봉되었던 영화를 대상으로 정보를 수집하되, 영화의 배급사와 개봉일과 개봉국가와 상영등급 및 장르와 개봉관 및 관객수를 포함하는 영화상세정보와, 전문가평가정보 및 네티즌평가정보와 매출점유율과 순위와 관객수를 포함하는 흥행실적정보와, 감독스타성 및 배우스타성과 배급사를 포함하는 영화인정보를 일자별로 수집하게 된다.
본 발명의 실시예에서는 이러한 과거 데이터로서 2015년부터 2017년까지 3년 동안 개봉한 영화를 분석 데이터로 사용하였다. 이를 위한 상세 데이터는 영화진흥위원회에서 운영하는 영화입장권 통합전산망 웹사이트에서 제공하는 API를 이용하여 영화의 상세정보와 흥행 실적, 영화인 정보를 일자별로 수집하였다. 전문가 평점과 네티즌 개봉 전/후의 평점 정보는 국내 최대 포털 사이트인 네이버의 영화 섹션에서 일자별로 수집하였다.
상기 전처리부(120)는 상기 정보수집부(110)를 통해 수집된 정보를 처리하여 학습을 위해 유효한 데이터를 선별함으로 학습효과를 높이기 위한 구성으로 수집된 정보를 최대 개봉관 수와 제작비와 상영기간에 따라 설정치를 기준으로 필터링하여 학습대상으로 선별하는 필터링부(121)와, 영화 개봉을 전후로 불변하는 고정정보 및 영화 개봉 전후 시점에 따라 가변하는 가변정보로 분류하는 정보분류부(122)와, 상기 흥행실적정보를 포함하는 가변정보를 개봉전과 개봉후의 날짜 기준 및 평가자 수에 따라 정렬하는 정보정렬부(123)를 구비하여 학습을 위한 데이터 세트를 구성하게 된다.
본 발명은 앞서 언급한 바와 같이 2015년부터 2017년까지 3년 동안 개봉한 영화를 분석 대상으로 하였다. 이때 영화진흥위원회의 핵심상업영화군 기준인 ‘최대 개봉관 수 300개관 이상이거나 순 제작비 30억 원 이상’으로 대상을 선정하는 것이 바람직하며 대표적으로 개봉스크린이 300개 이상인 영화를 대상으로 하여 테스트를 하였다. 아래의 [표 1]은 개봉스크린이 300개 이상인 영화를 대상으로 전체 관객수 기준으로 영화상영기간을 주 단위로 나타낸 표이며 주차별 예측을 위해 최소 3주차까지 실적이 있는 영화를 대상으로 하였다.
CLASS
총관객(백만)
A
(~0.5)
B
(0.5~1)
C
(1~3)
D
(3~)
3 WEEKS 19 29 35 1
OVER 4 WEEKS 2 11 54 60
TOTAL 21 40 89 61
본 발명의 실시예에서는 2015년부터 2017년까지 3년 동안 개봉한 영화 중 개봉 스크린이 300개 이상이고 3주 이상 상영한 영화 211편을 분석 대상으로 선정하였다. 또한, 포털사이트(네이버)에서 211편을 대상으로 일자별로 수집된 데이터를 전문가 평점과 평가자 수, 네티즌의 개봉 전 평점과 평가자 수, 개봉 후 주차별 평점과 평가자 수로 구성하였으며, 개봉일을 기준으로 변하지 않는 영화의 속성정보, 전문가 평점, 개봉 전/후 네티즌 평가정보, 개봉 후 변화하는 다양한 흥행실적 데이터 등을 주차 별로 생성하여 데이터 세트를 구성하였다.
상기 학습부(130)는 상기 전처리부(120)에서 구성된 데이터 세트를 학습하여 개봉 전 취득 가능 정보와 개봉 후 취득되는 정보에 대응하여 설정된 시점의 관객수의 상관관계를 통해 예측모델을 생성한다.
학습하는 구체적인 데이터를 살펴보면, 본 발명의 실시예에서는 개봉 일 후, 개봉 1주 후, 개봉 2주 후에는 다음주 누적 관객 수를 예측하고 개봉 3주 후에는 총 관객 수를 예측하는 것으로 하였다.
앞서 언급된 수집정보 요소들은 영화 개봉을 기점으로 변하는 요인과 변하지 않는 요인으로 나뉜다. 변하지 않는 요인으로는 영화의 제작 단계와 배급 단계에서 알 수 있는 요인들, 전문가 평점, 그리고 개봉 전 네티즌 평점이 있다.
제작 단계와 배급 단계의 요인들을 살펴보면 감독 스타성은 2010년도 이후부터 분석대상 작품 전까지 감독을 맡은 작품의 평균 총관객수를 범주화하였다. 배우스타성도 감독과 마찬가지로 2010년도 이후부터 분석대상 작품 전까지 출연한 작품의 평균 총 관객수를 범주화하였다. 배우의 경우 기준이 모호한 부분이 있으나 본 발명의 실시예에서는 영화진흥위원회에서 수집된 데이터 중 처음에 나오는 한 명으로 제한하여 활용하였다.
배급사는 메이저 배급사와 기타 배급사로 분류하였으며 메이저 배급사의 경우 국내 4개 외에 해외 배급사 3개로 총 7개로 정의하였다. 해외 배급사들이 직접 배급하는 영화들이 늘어나고 있으며 해외 배급사들이 국내 영화를 배급하는 경우도 늘어나고 있다. 그 중 메이저 배급사는 배급사가 자사 영화관을 운영하고 있는 수직 결합 배급사인 씨제이이앤엠(주), 롯데쇼핑㈜롯데엔터테인먼트와 자사영화관이 없는 비수직결합 배급사인 (주)쇼박스, (주)넥스트엔터테인먼트월드(NEW), 해외영화를 직접 배급하는 유니버설픽쳐스인터내셔널, 월트디즈니, 워너브러더스로 재분류 하였다.
개봉 월은 개봉일자에서 개봉 월을 추출하였다. 우리나라는 일반적으로 크리스마스와 명절 연휴, 그리고 여름방학이 포함된 12월, 1월, 7월, 8월을 성수기로 정의하므로, 본 발명에서는 2015년도~ 2017년도의 설날과 추석을 확인하여 12월, 1월, 7월, 8월외 명절이 있는 달을 성수기로 정의하였다.
제작 국가는 대부분의 흥행 영화들이 한국, 미국 영화이고 그 외의 국가들은 거의 없기 때문에 한국, 미국, 그 외 국가로 분류하였다. 상영 등급의 경우 한국영화연감에 기초하여 전체 관람가, 12세 이상 관람가, 15세 이상 관람가, 청소년관람불가 네 가지로 분류하였다. 장르의 경우 영화 진흥위원에서 제공되는 세분화된 데이터를 사극, 액션/범죄/스릴러, 드라마, SF/어드벤처/판타지, 전쟁, 기타로 총 7개로 분류하였다.
그 외 전문가 평점과 개봉 전 네티즌 평점은 전문가 평가 수와 평점들의 평균으로 표현하였다.
영화가 개봉한 후에는 다양한 흥행 지표들이 역동적으로 변하기 시작하는데 대부분의 종래기술에서는 예측 시점의 스크린 수와 관객 수만을 활용하였다. 하지만, 본 발명에서는 예측 시점의 스크린 수와 관객 수 이외에 영화진흥위원회에서 제공하는 데이터 중 다른 영화와의 경쟁요소라고 볼 수 있는 매출 점유율, 순위, 순위 변경 폭 등을 예측요인으로 사용하였다. 또 실시간으로 변화하는 네티즌의 평점 정보 역시 예측 요인으로 사용하였다.
예측 시점은 개봉일 후, 개봉 1주 후, 개봉 2주 후, 개봉 3주 후로 총 네 번의 예측 실험을 하였으며 각 예측 시점마다 매출 점유율, 순위 등의 요인들을 새로 생성하였으며 전 주 예측에서 사용되었던 요인들을 모두 포함하여 실험하였다. 각 주차는 월요일부터 일요일까지를 기준으로 하였다.
평균매출점유율은 개봉일의 경우 당일 매출 점유율을 사용하였고 주 단위 예측에서는 일요일을 마감으로 해당데이터의 평균으로 표현하였다.
관객 수와 스크린 수는 예측시점까지의 누적값으로 표현하였으며 순위 역시 해당 주의 평균 순위로 표현하였다.
개봉일의 경우 순위증감 여부와 순위변경값은 확인할 수 없기 때문에 사용하지 않고 주차별 예측에서는 지난주 실적과 비교하여 증가, 동일, 감소의 세 가지로 순위 증감을 표현하였고 순위변경값은 지난주와의 차이값을 이용하였다.
개봉 후의 네티즌 평가자 수는 개봉일부터 예측시점까지의 누적 평가자 수이고 평점은 평균 평점으로 표현하였다.
최종적으로 예측 변수를 정리한 내용은 [표 2]와 같다.
Variable Type Variable Name Variable Description Release After release t weeks (t=1,2,3)
Static Variable DISTCD Distributor O O
OPENMM Release month O O
PEAKYN Peak season O O
NATION Nation(Korea, USA, ETC) O O
GENRECD Genre O O
WATCHGROUP Film rating O O
D_STAR Director star power O O
A_STAR Actor Star Power O O
SPECIAL_CNT Expert raters O O
SPECIAL_GRADE Expert rating O O
NET_BF_CNT Netizen Raters before release O O
NET_BF_GRADE Netizen Rating before release O O
Dynamic Variable (Predict point) SALESSHARE Average revenue share O O
AUDICNT Number of audiences after release O O
SCRNCNT Number of screens after release O O
SHHOWCNT Number of shows after release O O
RANK Rank O O
RANKID Increase or decrease in ranking   O
RANKINTEN Rank change value   O
NET_AF_CNT Netizen Raters after release O O
NET_AF_GRADE Netizen Rating after release O O
예측 대상인 주차별 누적 관객 수는 수치형으로 제공되기 때문에 수집된 영화의 주차별 누적 관객 수의 데이터의 사분위수를 구해 범주화하여 등급을 나누었다. 주차별 관객 수는 누적값을 이용하였으며 예측 시점마다 예측 데이터가 변하기 때문에 주차별 등급의 데이터 범주는 서로 다르다.
주차별 관객 수는 [표 3]처럼 구성하여 실험에 사용하였다.
CLASS A B C D
Number of audiences after release 1 week ~ 747,921.8 747,921.8 ~ 1,375,140 1,375,140 ~ 2,471,757 2,471,757 ~
Number of audiences after release 2 weeks ~ 1,322,505 1,322,505 ~ 2,537,592 2,537,592 ~ 4,381,621 4,381,621 ~
Number of audiences after release 3 weeks ~ 1,365,492 1,365,492 ~ 2,901,012 2,901,012 ~ 5,266,025 5,266,025 ~
Total audience ~ 500,000 500,000 ~ 1,000,000 1,000,000 ~ 3,000,000 3,000,000 ~
주차별 관객 수 예측률과 비교하기 위한 또 다른 예측 대상인 총 관객 수 역시 수치형으로 제공되기 때문에 여러 등급으로 나누었다. 주차별 관객 수와 달리 총 관객 수 범주의 기준은 종래 5개의 등급으로 나누기도 하였으나 영화 편수의 편차가 커서 본 연구에서는 [표 4]와 같이 4개의 등급으로 나누어 사용하였다.
CLASS A B C D
Total audience(million) ~ 0.5 0.5 ~ 1 1 ~ 3 3 ~
Number of Movies 21 40 89 61
상기 예측부(140)는 신규영화 정보를 입력받되, 영화상세정보와 흥행실적정보와 영화인정보를 선별하고 상기 예측모델을 적용하여 지정시점 별로 관객수를 예측하여 출력하게 된다.
상기 보정부(150)는 상기 예측부(140)를 통해 예측된 시점별 관객수에 대한 실제 관객수의 차이에 따른 상관관계를 상기 학습부(130)에 적용시키는 것으로 예측된 결과와 실제 결과의 비교 피드백을 통해 추후 예측 가능성을 크게 높일 수 있다.
본 발명에서는 예측을 위해 기계학습의 지도학습 분류기법을 활용하였다. 지도학습의 다양한 분류기법 중 Naive Bayes, Random Forest, Multi Layer Perceptron(MLP), Support Vector Machine(SVM)을 이용하여 평가하였다. 예측 요인은 [표 2]에 나타난 것처럼 사용하였으며 예측시점이 뒤로 갈수록 예측 요인의 개수는 늘어난다.
예를 들어 예측시점이 개봉 2주 후 일 경우 개봉일, 개봉 1주일 실적을 모두 활용하여 예측을 수행하였다.
도 2는 본 발명에 따른 예측 모델 개념도로서, 예측 모델은 도 2에 표현된 것처럼 예측시점마다 차주 누적 관객 수도 예측하지만 총 관객 수도 함께 예측해 정확도를 비교하였다.
분석대상이 개봉 후 3주 이상 상영한 영화이기 때문에 개봉 4주차 실적이 없는 데이터들이 있어 개봉 3주 후에는 총 관객 수를 예측한다. 예측을 위한 도구로는 WEKA를 사용하였다.
예측 모형의 신뢰성을 높이기 위해 Naive Bayes, Random Forest, Support Vector Machine(SVM)은 10-fold cross-validation, Multi Layer Perception (MLP)는 4-fold cross-validation을 사용하였다. 새롭게 제시한 요인들의 흥행요인 가능성을 알아보기 위해 우선적으로 새롭게 제시한 변수들을 포함한 모델(prop.)과 포함하지 않은 모델(conv.)을 구성하여 본 발명에 따른 새로운 변수들의 흥행요인 가능성을 알아보았다.
실험결과는 [표 5]와 같다.
Time Target Variable Na
Figure pat00001
ve-Bayes
MLP SVM Random Forest
Prop. Conv. Prop. Conv. Prop. Conv. Prop. Conv.
release date
Total audience
63.51* 58.77 52.13 49.76 53.08 49.29 61.61 62.09
Number of audiences after release 1 week 67.77* 60.19 56.40* 50.24 61.14* 55.92 73.93 72.99
after 1 week
Total audience
67.77 65.40 55.92* 48.82 61.61* 55.92 67.77 67.30
Number of audiences after release 2 weeks 70.14 68.72 50.24 56.87 54.50 54.98 83.89* 79.62
after 2 weeks
Total audience
72.04 69.19 61.14 55.92 66.82 62.09 74.41 79.15
Number of audiences after release 3 weeks 76.78 75.36 62.09 63.03 66.82 63.98 88.63 89.10
after 3 weeks
Total audience
75.83 72.99 70.62* 60.19 72.51 67.30 87.21 88.15
우선, 4가지 예측 알고리즘 모두에서 본 연구에서 새롭게 제시한 변수들인 매출액 점유율, 흥행 순위, 순위 증감구분, 순위 변화폭, 포함한 모델(prop.)이 그렇지 않은 모델(conv.)에 비해 통계적으로 유의한 수준(p<0.05)에서 정확도가 높게 나타난 경우가 많았으며([표 5]에 bold로 표시), 그 반대의 경우는 발견되지 않았다. 이는 본 연구에서 제시한 새로운 변수들이 예측 모델의 정확도를 향상시키는데 기여한 것으로 볼 수 있다.
또한, 전체적으로 MLP, SVM, Naive Bayes, Random Forest의 순서로 정확도가 높게 측정되었으며 예측시점마다 총 관객 수를 예측하는 것보다 차주 누적 관객 수를 예측한 것이 정확도가 높게 측정되었다.
도 3은 시간 경과에 따른 예측 정확도의 비교결과를 나타낸 그래프로, 예측 시점에 따라 주차별 누적 관객 수를 예측한 결과를 나타내고 있다. 도 3을 보면 전반적으로 시간이 지날수록 예측 정확도가 높아지는 것으로 나타났다. Random Forest가 약 73.9% ~ 88.6%로 가장 높게 측정되었고 Naive Bayes가 약 67.7% ~ 75.8%의 정확도를 보였다. MLP와 SVM의 경우 개봉일에 예측한 정확도보다 개봉 1주 후에 예측 정확도가 떨어졌으며 이후에는 예측 정확도가 높아지는 유사한 패턴을 보여주고 있다.
도 4는 Random Forest에서의 목표 변수에 의한 비교 정확도를 나타낸 그래프로서, 가장 높은 정확도를 나타낸 Random Forest의 예측률을 도 4를 통해 구체적으로 살펴보면 시간이 흐를수록 총 관객 수를 예측했을 경우와 다음주 누적 관객 수를 예측하는 것 모두 점점 높아지는 것으로 측정되었다.
또한, 대체로 다음주 누적 관객 수를 예측하는 것이 더 높은 정확도를 보였다. 비교 결과를 보면 시점마다 약 12% ~ 16%의 예측 정확도 차이를 보이고 있다.
도 5는 Random Forest의 Confusion Matrix 이다. 4×4의 매트릭스로, 4가지의 클래스별로 정확도와 recall을 확인할 수 있다.
가장 높은 예측 정확도를 보인 개봉 2주 후 3주차 누적 관객 수 예측 결과를 보면 A 클래스는 정확도가 100%이며 recall이 96.49%이다. 전체 클래스에 대한 평균 정확도는 88%이고 recall은 88.6%로 측정되었다.
본 발명의 실시예에 따른 테스트 결과를 보면 역동적으로 변화하는 다양한 경쟁 요소를 활용해 Random Forest 기법을 적용하여 차주 누적 관객 수를 예측하는 것이 가장 높은 정확도를 보인다고 결론을 내릴 수 있다. 상대적으로 독립변수의 수가 많고 레코드의 수가 적은 본 연구의 분석 데이터 특성상, 여러 모델을 결합한 앙상블 기법의 Random Forest가 단일 알고리즘을 사용한 모델에 비해 정확도가 높게 나온 것으로 판단된다.
정리하면, 본 발명에서는 종래 기술에서 전혀 사용되지 않았던 영화의 흥행순위, 매출 점유율, 순위 변동 폭 등 개봉 후 역동적으로 변화하는 여러 변수를 포괄적으로 사용하여 주차별 누적 관객 수를 예측할 수 있도록 하였다.
본 발명에 적용될 수 있는 예측 알고리즘으로는 Naive Bayes, Random Forest, Support Vector Machine(SVM)은 10-fold cross-validation을 사용할 수 있고, Multi Layer Perception(MLP)는 4-fold cross-validation을 사용할 수 있다.
또한, 새로운 변수들의 예측요인의 성능을 확인하기 위해 새롭게 제시한 변수들을 포함한 모델과 포함하지 않은 모델을 테스트하였다.
또한, 영화 개봉 후에도 변하지 않는 스타성, 장르, 등급, 배급사, 국가 등 제작과 배급 단계의 요인들과 더불어 네티즌 평점, 흥행 순위, 매출 점유율 등 개봉 후 변화하는 요인들을 이용하여 개봉일 후, 개봉 1주 후, 개봉 2주 후 시점에는 차주 누적 관객 수를 예측하고 개봉 3주 후 시점에는 총 관객 수를 예측하였으며 비교를 위해 시점마다 동일한 예측 요인을 사용하여 총 관객 수도 같이 예측하였다.
실험결과 예측 시점이 뒤로 갈수록 예측 정확도가 점점 높아지며 동일한 시점에 총 관객 수를 예측했을 경우보다 차주 누적 관객 수를 예측하는 것이 더 높은 예측 정확도를 보였고 기계학습 기법 중에서는 Random Forest가 73.9% ~ 88.6%로 가장 높은 예측 정확도를 보였으며 새롭게 제시한 변수를 포함한 모델이 그렇지 않은 모델보다 높은 정확도를 보였다.
본 발명의 권리는 위에서 설명된 실시예에 한정되지 않고 청구범위에 기재된 바에 의해 정의되며, 본 발명의 분야에서 통상의 지식을 가진 자가 청구범위에 기재된 권리범위 내에서 다양한 변형과 개작을 할 수 있다는 것은 자명하다.
110: 정보수집부 120: 전처리부
121: 필터링부 122: 정보분류부
123: 정보정렬부 130: 학습부
140: 예측부 150: 보정부

Claims (5)

  1. 과거 설정된 기간 중 개봉되었던 영화를 대상으로 정보를 수집하되, 영화의 배급사와 개봉일과 개봉국가와 상영등급 및 장르와 개봉관 및 관객수를 포함하는 영화상세정보와, 전문가평가정보 및 네티즌평가정보와 매출점유율과 순위와 관객수를 포함하는 흥행실적정보와, 감독스타성 및 배우스타성과 배급사를 포함하는 영화인정보를 일자별로 수집하는 정보수집부(110);
    수집된 정보를 최대 개봉관 수와 제작비와 상영기간에 따라 설정치를 기준으로 필터링하여 학습대상으로 선별하는 필터링부(121)와, 영화 개봉을 전후로 불변하는 고정정보 및 영화 개봉 전후 시점에 따라 가변하는 가변정보로 분류하는 정보분류부(122)와, 상기 흥행실적정보를 포함하는 가변정보를 개봉전과 개봉후의 날짜 기준 및 평가자 수에 따라 정렬하는 정보정렬부(123)를 구비하여 데이터 세트를 구성하는 전처리부(120);
    상기 데이터 세트를 학습하여 개봉 전 취득 가능 정보와 개봉 후 취득되는 정보에 대응하여 설정된 시점의 관객수의 상관관계를 통해 예측모델을 생성하는 학습부(130);
    신규영화 정보를 입력받되, 영화상세정보와 흥행실적정보와 영화인정보를 선별하고 상기 예측모델을 적용하여 지정시점 별로 관객수를 예측하여 출력하는 예측부(140); 로 이루어지는 것을 특징으로 하는 주간 박스오피스 예측 시스템.
  2. 제1항에 있어서,
    상기 정보수집부(110)는 영화입장권 통합전산망 웹사이트에서 제공하는 API와, 설정된 포털사이트의 영화 섹션과 연동하여 정보를 수집하고,
    상기 학습부(130)는 개봉일, 개봉 1주, 개봉 2주, 개봉 3주를 시점으로 매출 점유율 및 흥행순위 변동폭 요인을 학습하는 것을 특징으로 하는 주간 박스오피스 예측 시스템.
  3. 제2항에 있어서,
    상기 학습부(130)는 개봉일, 개봉 1주, 개봉 2주, 개봉 3주 시점에서의 관객수를 설정된 범위에 따른 등급으로 구분하여 학습하는 것을 특징으로 하는 주간 박스오피스 예측 시스템.
  4. 제1항에 있어서,
    상기 예측부(140)를 통해 예측된 시점별 관객수에 대한 실제 관객수의 차이에 따른 상관관계를 상기 학습부(130)에 적용시키는 보정부(150); 를 더 포함하는 것을 특징으로 하는 주간 박스오피스 예측 시스템.
  5. 제1항에 있어서,
    상기 필터링부(121)는 개봉관수 300개관 이상 또는 제작비 30억원 이상인 영화를 선별하도록 구성되는 것을 특징으로 하는 주간 박스오피스 예측 시스템.
KR1020190039243A 2019-04-03 2019-04-03 영화 흥행에 영향을 미치는 변수를 이용한 머신러닝 기반의 주간 박스오피스 예측 시스템 KR20200120971A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190039243A KR20200120971A (ko) 2019-04-03 2019-04-03 영화 흥행에 영향을 미치는 변수를 이용한 머신러닝 기반의 주간 박스오피스 예측 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190039243A KR20200120971A (ko) 2019-04-03 2019-04-03 영화 흥행에 영향을 미치는 변수를 이용한 머신러닝 기반의 주간 박스오피스 예측 시스템

Publications (1)

Publication Number Publication Date
KR20200120971A true KR20200120971A (ko) 2020-10-23

Family

ID=73039397

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190039243A KR20200120971A (ko) 2019-04-03 2019-04-03 영화 흥행에 영향을 미치는 변수를 이용한 머신러닝 기반의 주간 박스오피스 예측 시스템

Country Status (1)

Country Link
KR (1) KR20200120971A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102493403B1 (ko) * 2021-12-16 2023-02-07 김동국 정성적 콘텐츠를 분석하여 데이터 기반의 콘텐츠로 정량화하는 분석 기법 및 그 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180067976A (ko) 2016-12-13 2018-06-21 숭실대학교산학협력단 태그의 감성 분석을 이용한 영화 평점 예측 방법, 이를 수행하기 위한 기록 매체 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180067976A (ko) 2016-12-13 2018-06-21 숭실대학교산학협력단 태그의 감성 분석을 이용한 영화 평점 예측 방법, 이를 수행하기 위한 기록 매체 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Litman B., "Predicting success of theatrical movies: An empirical study", The Journal of Popular Culture, Vol.16, No.4(1983), 159~175.

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102493403B1 (ko) * 2021-12-16 2023-02-07 김동국 정성적 콘텐츠를 분석하여 데이터 기반의 콘텐츠로 정량화하는 분석 기법 및 그 시스템

Similar Documents

Publication Publication Date Title
Yao et al. Forecasting and analysis of marketing data using neural networks
Lorentz et al. Cluster analysis application for understanding SME manufacturing strategies
Bakker The decline and fall of the European film industry: sunk costs, market size, and market structure, 1890–1927 1
Ahmad et al. Movie success prediction using data mining
CN102007486B (zh) 程序设计的原版动画以及用于制作该原版动画的方法
CN107368965A (zh) 一种剧本数据处理方法、装置及应用其的计算机设备
Abbé-Decarroux et al. Risk, risk aversion and the demand for performing arts
CN112153426A (zh) 一种内容账号管理方法、装置、计算机设备及存储介质
Zeveleva How states tighten control: A field theory perspective on journalism in contemporary Crimea
KR20200120971A (ko) 영화 흥행에 영향을 미치는 변수를 이용한 머신러닝 기반의 주간 박스오피스 예측 시스템
CN103150317A (zh) 信息处理装置、信息处理方法和程序
Kim et al. Hollywood movie analysis by social network analysis and text mining
King et al. Signaling for access to high-demand markets: Evidence from the US motion picture industry
CN101425075A (zh) 搜索图像的方法和设备
Peacock et al. Analyzing Grammy, Emmy, and Academy Awards data using regression and maximum information coefficient
Hunter et al. Predicting new tv series ratings from their pilot episode scripts
Sriramesh The mass media and public relations: A conceptual framework for effective media relations in Asia
Follows Gender within UKfilm crews
Eyüp et al. The Determinants of Box Office Performance in Turkey
CN110390059A (zh) 一种基于类型相关的电影推荐算法
Eibl et al. A Brief Historical Overview of Political Campaigning: Theories, Concepts, and Approaches
Çağlıyor et al. Forecasting US movies box office performances in Turkey using machine learning algorithms
Wallin “Pictures Seem to Run in Cycles”: Industry Discourse and the Economics of Film Cycles in Classical Hollywood
KR102464232B1 (ko) 온라인 기반의 가상 전시회를 제공하는 가상현실 콘텐츠 관리시스템의 전시회 설계 및 관리 방법
Zinoveva CAN BOX OFFICE SUCCESS BE PREDICTED BEFORE A MOVIE’S RELEASE?

Legal Events

Date Code Title Description
AMND Amendment
X091 Application refused [patent]
AMND Amendment
X601 Decision of rejection after re-examination