KR20190091488A - 미디어 컨텐츠 성과 예측을 위한 데이터 프로세싱 방법 - Google Patents

미디어 컨텐츠 성과 예측을 위한 데이터 프로세싱 방법 Download PDF

Info

Publication number
KR20190091488A
KR20190091488A KR1020197018920A KR20197018920A KR20190091488A KR 20190091488 A KR20190091488 A KR 20190091488A KR 1020197018920 A KR1020197018920 A KR 1020197018920A KR 20197018920 A KR20197018920 A KR 20197018920A KR 20190091488 A KR20190091488 A KR 20190091488A
Authority
KR
South Korea
Prior art keywords
data
media content
user
emotional state
time series
Prior art date
Application number
KR1020197018920A
Other languages
English (en)
Inventor
가보르 시르테스
야비에르 오로스코
이스트반 페트라스
다니엘 솔가이
아코스 우타시
제프리 에프. 콘
Original Assignee
레알레예스 오위
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 레알레예스 오위 filed Critical 레알레예스 오위
Priority claimed from PCT/EP2017/079419 external-priority patent/WO2018099725A1/en
Publication of KR20190091488A publication Critical patent/KR20190091488A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/489Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using time information
    • G06K9/00268
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • G06Q30/0244Optimization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

클라이언트 디바이스에서 사용자가 소비할 수 있는 미디어 컨텐츠의 피스에 대한 성과 데이터를 예측하는 방법 및 시스템이 제공된다. 하나 이상의 실시 예들에서, 본 방법은, 사용자가 컨텐츠를 시청할 때 미디어 컨텐츠에 대한 사용자의 응답을 나타내는, 예를 들어 웹캠으로부터 원시 입력 데이터를 수집한다. 데이터는 프로세싱되어 일련의 머리 자세 신호들 및 얼굴 표정 신호들을 추출하여 얻고, 이는 분류 모델에 입력된다. 모델은 방법에 의해 평가된 신호에 응답하여 시간 경과에 따라 미디어 컨텐츠의 피스의 성과 데이터를 맵핑하여 미디어 컨텐츠의 피스의 성과의 예측을 생성한다.

Description

미디어 컨텐츠 성과 예측을 위한 데이터 프로세싱 방법
본 발명은 한 명 이상의 사용자들에 의해 소비된 미디어 컨텐츠의 피스(piece)에 대한 성과 데이터를 예측하기 위한 원시(raw) 입력 데이터의 데이터 프로세싱의 컴퓨터-구현 방법에 관한 것이다. 특히, 본 발명은 사용자가 미디어 컨텐츠를 소비할 때 사용자의 행동, 육체 및 감정 상태에 관한 원시 데이터를 수집한 다음, 미디어 컨텐츠 분석 기술을 사용하여 프로세싱함으로써 미디어의 피스의 소비에 의해 야기된 실제 세계 효과(real world effect)를 예측하는 것에 관한 것이다.
광고는 실제 세계에서 소비자의 감정 상태 변화를 유도하고 감정 상태의 변화를 매출 상승과 같은 성과로 변환하는 것을 목표로 한다. 예를 들어, 텔레비전 광고는 관련 제품의 판매를 증가시킬 수 있다. 실제 세계 효과는 미디어 컨텐츠의 소비와 관련될 수 있는 객관적으로 측정 가능한 결과일 수 있다. 결과는 예측된 성과 데이터에 의해 표시될 수 있다. 예측된 성과 데이터는 예를 들어 예상 판매량 상승(예를 들어, 미디어 컨텐츠가 특정 제품을 판매하기 위한 광고인 경우) 또는 소셜 미디어 응답(예를 들어, 입 소문이 날 가능성) 또는 수상 가능성(예를 들어, 광고에 대한 칸 라이온스 상) 등과 관련될 수 있다. 예를 들어, 미디어 컨텐츠가 소비됨에 따라 수집되는 사용자 감정적인 반응의 속성을 기초로 성과 데이터를 예측할 수 있다. 미국에서만 800억 달러가 넘는 금액이 매년 TV 광고에 사용된다. 따라서 성과를 예측하여 퍼블리싱 전에 미디어 컨텐츠의 효율성을 평가할 수 있는 큰 요구가 있다.
광고 성능 효과를 측정하기 위한 한 가지 종래의 옵션은 특정 미디어 컨텐츠를 판매 성과와 상관시키는 것이다. 그러나, 그러한 상관은 소급적으로 이루어지며, 소비자/사용자의 감정적인 상태를 보지 못하는 문제가 있다.
또 다른 종래의 옵션은, 비디오 광고와 같은 미디어 컨텐츠의 피스의 성과를 결정하거나 예측하려고 시도하는, 자체-보고된 피드백이라고도 지칭되는 능동 피드백(active feedback)을 사용하는 것이다. 능동적인 사용자 피드백을 위해, 사용자는 미디어 컨텐츠를 소비한 후 구두의 또는 기록된 피드백을 제공한다. 예를 들어, 사용자는 설문을 완료할 수 있거나, 예를 들어 수동으로 또는 음성 인식 툴을 사용하여 자동화된 방식으로 분석을 위해 기록될 수 있는 음성 피드백을 제공할 수 있다. 피드백은 미디어 컨텐츠의 피스를 소비하면서 경험한 감정 상태의 표시를 포함할 수 있다.
능동 피드백이 큰 샘플 크기로 확장 가능하고 따라서 가치가 있기 위해서는, 피드백 형식은 짧아야 하며, 예를 들어 예 또는 아니오로 제한되어야 한다. 이는 경험된 감정 상태에 대한 실시간, 즉 세컨드-바이-세컨드(second-by-second) 해석을 배제한다. 따라서, 능동 피드백을 사용하여 큰 샘플 크기에 대한 대표적인 감정 상태 데이터를 수집하기 위해 종래의 능동 피드백 기술을 사용하는 것은 불가능하다.
또한, 사용자로부터의 능동적인 피드백은 실제로 경험한 (수동적인) 감정적인 상태보다는 합리적이고 의식적인 사고 프로세스에서 나온 것이다. 사용자 선호도는 의식적인 인식의 범위를 벗어 났으며, 수동적인(passive) 감정 상태에 크게 영향을 받는 것으로 나타났다. 따라서 능동적인 감정적 상태 피드백을 사용하여 미디어 컨텐츠 성과를 정확하게 예측할 수 없다.
능동 피드백은 자체-보고를 사용하여 사용자 감정 상태를 측정하는 예시다. 감정 상태 데이터는 또한 수동적인 방식으로, 예를 들어 미디어의 피스를 소비하는 동안 예를 들어 사용자의 행동 또는 생리적 특성을 나타내는 데이터를 수집함으로써 측정될 수 있다. 실제로, 감정 상태 정보를 얻기 위해서는 행동 데이터, 생리 데이터 및 자기-보고 데이터를 포함하는 원시 데이터(raw data) 입력들의 조합을 사용하는 것이 바람직할 수 있다. 앞서 언급한 두 개 또는 세 개의 소스들로부터의 원시 데이터를 조합하면 "거짓(false)" 지시자(indicator)를 식별하는 데 유용할 수 있다. 예를 들어, 세 가지 소스들 모두에서 파생된 감정 상태 데이터가 오버랩되거나 정렬되면, 획득된 신호에 대한 신뢰가 높아진다. 신호의 불일치는 잘못된 판독을 지시할 수 있다.
생리학적 파라미터는 어떤 감정 상태가 경험되는지를 나타내는 좋은 지시자가 될 수 있다. 많은 생리학적 파라미터들은 의식적으로 제어 가능하지 않고, 즉 소비자는 그들에게 대해 영향을 미치지 않는다. 따라서 그들은 미디어 컨텐츠의 피스를 소비하는 사용자의 진정한 감정 상태를 결정하는데 사용될 수 있으며, 원칙적으로 미디어 컨텐츠 성과를 정확하게 예측하는 데 사용될 수 있다. 측정할 수 있는 생리학적 파라미터들의 예로는 음성 분석, 심장 박동, 심장 박동 변화, 전기 피부 활동(이는 흥분의 지표일 수 있음), 호흡, 체온, 심전도(ECG) 신호 및 뇌전도(EEG) 신호가 있다.
사용자가 전술한 유형의 생리학적 파라미터를 기록할 수 있는 웨어러블 또는 휴대용 디바이스를 소유하는 것이 점점 더 보편화되고 있다. 이것은 이러한 생리학적 측정이 큰 샘플 크기로 확장될 수 있는 가능성을 열어 주고, 이는 미디어 컨텐츠 성과와의 상관 관계를 볼 수 있도록 통계적 편차(잡음)가 제거될 수 있게 해준다.
사용자의 행동 특성은 다양한 방식으로 스스로 나타난다. 여기에서 "행동 데이터" 또는 "행동 정보"를 참조하는 것은 사용자 응답의 시각적 측면을 의미할 수 있다. 예를 들어, 행동 정보는 얼굴 반응, 머리 및 몸의 움직임 또는 자세 및 시선 추적을 포함할 수 있다.
일 예시에서, 안면 응답은 경험된 감정 상태의 수동적인 지시자로서 사용될 수 있다. 웹캠 비디오 수집은 미디어 컨텐츠의 피스가 사용자에 의해 소비됨에 따라 이미지 프레임을 캡처하여 안면 응답을 모니터링하는 데 사용될 수 있다. 따라서 감정 상태는, 비디오 이미지를 프로세싱하여, 웹캠의 사용을 통해 캡처될 수 있다.
이러한 방식으로 측정된 감정 상태 정보는 미디어 컨텐츠 성과, 특히 매출 상승과 관련이 있는 것으로 나타났다. 클라이언트 디바이스 상의 웹캠의 확산은 이러한 유형의 데이터 캡처가 큰 샘플 크기로 확장될 수 있음을 의미한다.
그러나, 종래의 수동적인 기술들 조차도 여러 문제에 직면해 있다. 얼굴 표정과 미디어 컨텐츠 성과 사이의 상관 관계는 정확하지 않다. 예를 들어, 미디어 컨텐츠 성과와 얼굴 표정과의 상관 관계는 능동적인 피드백보다 높을 수 있지만, 소스 데이터가 상당히 필터링된 경우에만 그러하다. 컨텐츠 성과 및 얼굴 표정 상관 관계는 모든 제품 카테고리에 적용될 수 있는 것은 아니다. 이러한 웹캠-기반 기술은 얼굴 표정과 미디어 컨텐츠 성과 사이에 긍정적인 상관 관계를 보여주지만, 제품 범위에 대한 정확성과 일관성은 달성되지 않는다.
따라서, 당 업계에는 종래의 광고 성과 평가 기술에 의해 제기된 대규모 데이터 스케일링의 어려움뿐만 아니라, 상이한 제품 카테고리에 걸쳐 소비자 감정 상태를 평가하는 것의 부정확성 및 불일치 문제를 해결할 필요가 있다.
본원에 개시된 방법의 광범 위한 양태에 따르면, 클라이언트 디바이스에서 사용자에 의해 소비 가능한 미디어 컨텐츠의 피스에 대한 성과 데이터를 예측하는 컴퓨터 구현 방법이 제공된다. 하나 이상의 실시 예들에서, 미디어 컨텐츠의 피스는 복수의 사용자들에 의해 소모 가능하며, 복수의 사용자들 각각은 개별 클라이언트 디바이스에 있다. 예를 들어, 미디어 컨텐츠의 피스는 라이브 비디오 스트림, 비디오 광고, 오디오 광고, 영화 예고편, 영화, 웹 광고, 애니메이션 게임 또는 이미지 중 하나일 수 있다.
본원에 설명된 하나 이상의 실시 예들에 따르면, 본 방법은 클라이언트 디바이스에서, 미디어 컨텐츠의 피스의 소비 중에 미디어 컨텐츠의 피스에 대한 상기 사용자의 응답을 나타내는 원시 입력 데이터를 수집하는 단계를 포함한다. 클라이언트 디바이스는 네트워크를 통해 서버 디바이스와 통신 가능하고, 수집된 원시 입력 데이터의 프로세싱은 하나 이상의 실시 예들에서 서버 디바이스에서 발생한다. 원시 입력 데이터는 미디어 컨텐츠의 피스에 관한 사용자 행동 데이터, 사용자 생리 데이터 또는 메타 데이터 중 임의의 것을 포함한다. 예를 들어, 원시 입력 데이터는 클라이언트 디바이스에서 캡처된 이미지 데이터 또는 오디오 캡처 디바이스에서 캡처된 오디오 데이터를 포함한다. 이미지 데이터는 사용자의 얼굴 이미지를 나타내는 복수의 이미지 프레임들을 포함할 수 있다. 이 양태를 계속하면, 본 방법은 수집된 원시 입력 데이터를 프로세싱하여: 디스크립터 데이터 포인트들의 시계열을 추출하고, 감정 상태 데이터 포인트들의 시계열을 얻는다. 예를 들어, 수집된 원시 입력 데이터를 프로세싱하는 단계는 상기 예측 파라미터를 결정하고, 선형 회귀 출력을 출력하기 위해 예측 파라미터에 선형 회귀를 적용하고, 2 진화된 출력을 생성하기 위해 선형 회귀 출력을 2 진화하고, 2 진화된 출력에 로지스틱 회귀를 적용하여 예측된 성과 데이터를 출력함으로써 수행된다. 하나 이상의 실시 예들에서, 각각의 감정 상태 데이터 포인트는 하나 이상의 디스크립터 데이터 포인트들에 기초하여 결정된다. 하나 이상의 실시 예들에서, 각각의 디스크립터 데이터 포인트는 원시 입력 데이터로부터 추출된 특징을 나타내는 양적 파라미터를 포함한다. 예를 들어, 예측 파라미터는 감정 상태 데이터 포인트들의 시계열에서 인접한 감정 상태 데이터 포인트들 사이의 양적 파라미터의 상대적 변화의 함수일 수 있다. 하나 이상의 실시 예들에서, 각각의 감정 상태 데이터 포인트는 사용자 감정 상태를 나타내는 양적 파라미터를 포함한다. 예를 들어, 예측 파라미터는 감정 상태 데이터 포인트들의 시계열에서 인접한 감정 상태 데이터 포인트들 사이의 양적 파라미터의 상대적 변화의 함수일 수 있다. 하나 이상의 실시 예들에서, 각각의 디스크립터 데이터 포인트는 얼굴 특징 디스크립터 데이터 포인트이다. 예를 들어, 각각의 얼굴 특징 디스크립터 데이터 포인트는 다차원 데이터 포인트일 수 있고, 다차원 데이터 포인트의 각 구성 요소는 개별 얼굴 표식을 나타낸다. 각각의 얼굴 특징 디스크립터 데이터 포인트는 복수의 얼굴 표식을 나타내는 정보를 인코딩할 수 있다. 하나 이상의 실시 예들에서, 각각의 얼굴 특징 디스크립터 데이터 포인트는 개별 프레임과 연관된다.
이 양태를 계속하면, 본 방법은 디스크립터 데이터 포인트들의 시계열 또는 감정 상태 데이터 포인트들의 시계열의 예측 파라미터와 성과 데이터 사이에 맵핑하는 분류 모델에 기초하여 미디어 컨텐츠의 피스에 대한 예측된 성과 데이터를 출력한다. 예측 파라미터는 미디어 컨텐츠의 피스에 대한 사용자의 반응의 상대적인 변화를 나타내는 양적 지시자일 수 있다. 하나 이상의 실시 예들에서, 성과 데이터는 판매 상승 데이터이다.
하나 이상의 실시 예들에서, 본 방법은 추가적으로 복수의 사용자들 각각에 대한 디스크립터 데이터 포인트들의 시계열 또는 감정 상태 데이터 포인트들의 시계열로부터 개별 예측 파라미터를 결정하고, 그룹 예측 파라미터를 사용하여 예측된 성능 데이터가 획득되는, 복수의 사용자들의 개별 예측 파라미터들로부터 그룹 예측 파라미터를 결정한다. 하나 이상의 실시 예들에서, 수집된 데이터를 프로세싱하는 단계는 그룹 예측 파라미터를 성과 데이터와 매핑하는 분류 모델에 그룹 예측 파라미터를 입력하는 단계를 포함한다. 예를 들어, 예측된 성과 데이터 출력은 분류 모델로부터 출력된 결과를 사용하여 생성된다. 하나 이상의 실시 예들에서, 본 방법은 복수의 그룹 예측 파라미터들을 획득하는 단계를 더 포함하며, 분류 모델은 상기 복수의 그룹 예측 파라미터들과 성과 데이터 사이를 매핑한다.
다른 실시 예들에서, 방법은 추출된 디스크립터 데이터 포인트들의 시계열 또는 감정 상태 데이터 포인트들의 시계열 사이의 시간적 차이
Figure pct00001
를 계산하는 단계를 더 포함하고, 여기서
Figure pct00002
, 그리고
Figure pct00003
는 사용자
Figure pct00004
에 대한 상기 추출된 디스크립터 데이터 포인트들 또는 상기 추출된 감정 상태 데이터의 양적 파라미터
Figure pct00005
의 시계열이다. 그 후, 본 방법은 상기 시간적 차이로부터 평균 차이
Figure pct00006
를 차감함으로써(
Figure pct00007
) 상기 시간적 차이를 정규화하여 정규화된 시간적 차이
Figure pct00008
를 생성하고, 여기서
Figure pct00009
Figure pct00010
는 상기 시계열의 지속 시간이다. 그 후 본 방법은 상기 시계열을 미리 결정된 지속 시간을 갖는 복수의 시간 빈들로 세그먼트화하고
Figure pct00011
에 따라 상기 정규화된 차이의 최대를 계산하며, 여기서
Figure pct00012
Figure pct00013
번째 값이 빈
Figure pct00014
에 속하는 것을 의미한다. 본 방법은 그 후
Figure pct00015
에 따라 상기 복수의 시간 빈들의 각각의 값들을 가중하고 합하고, 여기서
Figure pct00016
은 빈들의 수이므로 변수의 프레임 또는 세그먼트 인덱스가 더 이상 없다. 하나 이상의 실시 예들에서, 본 방법은
Figure pct00017
를 상기 미디어 컨텐츠의 피스의 상기 길이에 의해 정규화한다. 다음으로, 본 방법은 상기 복수의 사용자들에 대한 상기 예측 파라미터를 나타내는 기술 통계를 생성한다.
사용자 응답은 사용자의 감정 상태일 수 있다. 즉, 예측 파라미터로부터 매핑함으로써 성과 데이터를 얻을 수 있다는 것이 관찰되었고, 이는 데이터 포인트들의 시계열 내에서 사용자의 응답(예를 들어, 감정 상태)의 변화의 척도를 반영한다. 따라서, 예측 파라미터는 사용자의 감정 상태에 관한 동적 정보의 특성이며, 이는 이전에 사용된 정적 파라미터보다 성과 예측에 중요한 개선을 제공할 수 있다.
본 발명의 실시 예들은 제한적이지 않으며 예시적인 것으로 의도되는 첨부된 도면들을 참조하여 이하에서 상세히 논의되며, 여기서 동일한 참조 부호는 유사하거나 대응하는 부분을 나타내는 것으로 의도된다:
도 1은 본 발명의 실시 예인 방법을 구현하기 위한 시스템의 개략도이다;
도 2는 본 발명의 실시 예에서 사용되는 데이터 유형들 사이의 관계를 도시하는 개략적인 데이터 흐름도이다;
도 3은 본 발명의 실시 예에서 수행되는 프로세스 단계들을 도시하는 흐름도이다;
도 4a는 감정 상태 양적 파라미터의 시계열로부터 얻어지는 감정 상태의 양적 파라미터의 시간적 차이를 나타내는 그래프이다;
도 4b는 일련의 미리 결정된 시간 빈(bin)들에 대해 도 4a의 그래프로부터 얻어진 최대 정규화된(normalized) 시간적 차이를 나타내는 그래프이다;
도 4c는 복수의 사용자 응답으로부터 얻어진 예측 파라미터들의 분포를 나타내는 차트이다;
도 4d는 복수의 상이한 미디어에 대한 집계된 예측 파라미터들의 분포를 나타내는 차트이다; 그리고
도 5는 본 발명의 실시 예에서 사용되는 예측 모델을 도시하는 개략적인 흐름도이다.
본 명세서 전반에 걸쳐, 용어들은 명시적으로 언급된 의미를 넘어서는 맥락에서 제안되거나 암시된 뉘앙스가 있는 의미를 가질 수 있다. 마찬가지로, 본 명세서에서 사용되는 "일 실시 예에서"라는 문구는 반드시 동일한 실시 예를 지칭하지 않으며, 본 명세서에서 사용된 "다른 실시 예에서"라는 문구는 반드시 다른 실시 예를 지칭하지 않는다. 유사하게, 본 명세서에서 사용된 "하나 이상의 실시 예들"이라는 문구는 반드시 동일한 실시 예를 지칭하지 않으며 본 명세서에서 사용되는 "적어도 하나의 실시 예"라는 문구는 반드시 다른 실시 예를 지칭하지 않는다. 그 의도는, 예를 들어 청구된 주제가 전체 또는 일부의 예시적인 실시 예들의 조합을 포함한다는 것이다.
가장 일반적으로, 본원에 개시된 방법은 정확하고 대표적인 예측된 성과 데이터(performance data)가 미디어 컨텐츠의 피스(piece)에 대한 사용자 응답(user response)의 수집된 원시 데이터(raw data)로부터 추출될 수 있게 하는 데이터 분석 기술을 제안한다.
일 양태에서, 본원에 설명된 기술들은 정적 분석(static analysis)을 사용하여 이용 가능한 특성보다 미디어 컨텐츠 성과에 더 높은 정확도로 매핑하는 특성 또는 파라미터를 산출하기 위해 수집된 원시 데이터의 동적 분석(dynamic analysis)을 사용한다. 동적 분석에서, 초점은 수집된 데이터에서 얻거나 추출된 하나 이상의 신호들의 시간적 역학(temporal dynamics)(즉, 시간 경과에 따른 변화)에 있다. 예를 들어, 원시 데이터는 시간 경과에 따라, 예를 들어 미디어 컨텐츠의 피스의 소비 기간을 통해 사용자 감정 상태를 나타내는 정보를 생성하도록 프로세싱될 수 있다.
이전에 사용된 방법들은 그러한 동적 단서를 크게 무시했다. 이전의 방법들에서는, 특정 제품 카테고리에 대해서만, 그리고 평균 광고(데이터의 절반)가 폐기된 경우에만 성과 예측이 이루어졌다.
본 발명의 광범위한 양태에 따르면, 하나 이상의 실시 예들에서의 방법들은 미디어 컨텐츠의 피스를 소비하는 사용자의 응답에 관한 입력 데이터를 수집하는 단계, 상기 수집된 입력 데이터를 프로세싱하여 디스크립터(descriptor) 데이터 포인트들의 시계열(time series)을 추출하고 감정 상태 데이터 포인트들의 시계열을 얻는 단계, 및 상기 미디어 컨텐츠의 피스에 대한 성과 데이터의 예측을 출력하는 단계를 포함한다. 출력 예측은 성과 데이터와 디스크립터 데이터 포인트들 또는 감정 상태 데이터 포인트들의 시계열의 하나 이상의 예측 파라미터들 사이의 분류 모델 매핑에 기초할 수 있다. 예측 파라미터는 미디어 컨텐츠의 피스에 대한 사용자의 응답의 상대적인 변화의 양적 지시자(quantitative indicator)이다.
실제로, 미디어 컨텐츠 피스는 복수의 사용자들에 의해 소모 가능할 수 있으며, 복수의 사용자들 각각은 각각의 클라이언트 디바이스에 있다. 하나 이상의 실시 예에서, 본원에 개시된 방법들은 복수의 개별 클라이언트 디바이스들 각각에서 미디어 컨텐츠의 피스에 대한 복수의 사용자 응답들을 나타내는 원시 입력 데이터를 수집하는 단계를 포함한다.
본원에 개시된 방법은 컴퓨터 자원 사용 효율을 증가시키기 위해 네트워크로 연결된 환경에서 유용하게 구현될 수 있다. 예를 들어, 각 클라이언트 디바이스는 네트워크를 통해 서버 디바이스와 통신할 수 있으며 수집된 원시 입력 데이터의 프로세싱은 국부적으로 또는 서버 디바이스에서 발생할 수 있다. 원격 프로세싱에만 의존하는 종래의 기술은 사용자가 미디어 컨텐츠의 피스를 소비할 때 실시간 데이터 수집을 구현할 때 병목 현상의 문제를 겪을 수 있다. 이러한 방식으로, 로컬 프로세싱은 보다 효율적인 부하 관리(load management)를 용이하게 한다. 로컬 프로세싱은 또한 개인 정보 보호 문제를 해결하는 데 도움을 준다.
클라이언트 디바이스는 다양한 위치들, 예를 들어 각 사용자의 집에 분산될 수 있거나, 예를 들어 본원에 개시된 방법들이 중앙 위치 테스트(central location test, CLT) 환경에서 사용되는 것을 가능하게 하기 위해 중앙 위치에 존재할 수 있다.
본원에 개시된 컴퓨터-구현 방법을 사용하여, 성과 데이터는 광범위한 제품 카테고리의 미디어 컨텐츠로부터, 그리고 넓은 소비자 인구 통계에 대해 정확하고 일관되게 추출될 수 있다. 바람직하게는, 미디어 컨텐츠가 사용자들에 의해 소비될 때 수동 감정 상태 지시자를 사용하여 성과 데이터가 정확하고 신뢰성 있게 예측된다. 또한, 사용자가 (예를 들어, 기록된 또는 언급된) 능동적인 감정 상태 피드백을 제공할 필요 없이 성과 데이터가 추출된다.
각각의 감정 상태 데이터 포인트는 사용자 감정 상태를 나타내는 양적 파라미터를 포함할 수 있다. 양적 파라미터는 스코어 또는 기타 수치적인 파라미터가 될 수 있다.
예측 파라미터는 감정 상태 데이터 포인트들의 시계열에서 인접한 감정 상태 데이터 포인트들 사이의 양적 파라미터의 상대적 변화의 함수일 수 있다. 일 예시에서, 예측 파라미터는 미디어 컨텐츠의 종단(end)와 연관된 양적 파라미터의 값과 미디어 컨텐츠의 나머지와 연관된 양적 파라미터의 값 사이의 차이를 나타낼 수 있다.
사용자 감정 상태는 분노, 혐오감, 공포, 행복감, 슬픔 및 놀람 중에서 선택된 하나 이상의 감정 상태를 포함할 수 있다. 포용력(valence) 및/또는 각성과 같은 다른 감정적 지시자들이 사용될 수 있다. 미디어 컨텐츠가 상업 광고와 관련된 경우, 혐오감(disgust)과 놀라움을 나타내는 신호는 판매량에 대응되는 성과 데이터와 강한 상관 관계를 나타낼 수 있다.
원시 입력 데이터는 미디어 컨텐츠의 피스에 관한 사용자 행동 데이터, 사용자 생리학적 데이터 및 메타데이터 중 임의의 것을 포함할 수 있다. 복수의 사용자들로부터 수집된 원시 입력 데이터는 수집될 수 있고, 예측 파라미터는 디스크립터 데이터 포인트들의 시계열 및/또는 집계된 원시 입력 데이터를 나타내거나 또는 이로부터 획득된 감정 상태 데이터 포인트들의 시계열로부터 생성될 수 있다. 선택적으로 또는 부가적으로, 개별 예측 파라미터는 복수의 사용자들 각각에 대해 디스크립터 데이터 포인트들의 시계열 및/또는 감정 상태 데이터 포인트들의 시계열로부터 결정될 수 있다. 그룹 예측 파라미터는 복수의 사용자들의 개별적인 예측 파라미터로부터 결정될 수 있으며, 예측된 성과 데이터는 그룹 예측 파라미터를 이용하여 획득될 수 있다. 따라서 성과를 나타내는 신호는 두 가지 방법으로 얻어질 수 있다. 이는 개별 레벨에서 획득된 후(즉, 각각의 사용자에 대해), 집계되거나 또는 분석되어(예를 들어, 다양한 통계적 수단을 사용하여) 예측 모델에 대한 입력을 제공하거나, 복수의 사용자들로부터의 그룹(즉, 이미 집계된) 데이터로부터 얻어질 수 있다.
수집된 입력 데이터로부터 복수의 예측 파라미터들이 얻어질 수 있다. 동일한 원하는 출력 파라미터와의 상관 관계를 나타내는 복수의 신호들에 예측 모델을 구축함으로써, 출력에 더 많은 신뢰가 할당될 수 있다. 또한, 복수의 예측 파라미터들이 사용되는 경우, 예측 모델에 대한 입력은 예측이 부정확한 것으로 증명되는 상황에 대한 일부 진단의 값(diagnostic value)을 가질 수 있다. 따라서, 예측 파라미터 뒤에 있는 양적 파라미터 시계열 신호들은 다음과 같은 이중 기능을 제공할 수 있다: 성과를 예측하고, 미디어 컨텐츠의 피스가 예상대로 또는 그렇지 않게 작동하는지 설명하는 데 도움이 된다. 예를 들어, 하나 이상의 예측 파라미터 세트가 "나쁜(bad)" 출력을 내고 나머지가 양호한 경우, "나쁜" 출력들이 조사되어 미디어 컨텐츠에 대한 피드백을 줄 수 있다. 이 피드백은 출시 전에 미디어 컨텐츠를 최적화하는 데 사용될 수 있다.
예측된 성과 데이터를 출력하기 위해 수집된 데이터를 프로세싱하는 단계는 예측 파라미터(예를 들어, 개별 예측 파라미터 또는 그룹 예측 파라미터)와 성과 데이터 사이에서 매핑하는 분류 모델(classification model)(예를 들어, 컴퓨터-기반 예측 모델)에 예측 파라미터를 입력하는 단계를 포함할 수 있다.
예측된 성과 데이터 출력은 분류 모델로부터 출력된 결과를 사용하여 생성될 수 있다.
원시 입력 데이터는 개별 클라이언트 디바이스들 각각에서 캡처된 이미지 데이터일 수 있다. 이미지 데이터는 사용자의 얼굴 이미지들을 나타내는 복수의 이미지 프레임들을 포함할 수 있다. 또한, 이미지 데이터는 사용자의 얼굴 이미지들을 나타내는 이미지 프레임들의 시계열을 포함할 수 있다.
이미지 프레임들이 사용자의 얼굴 특징, 예를 들어 입, 눈, 눈썹 등을 묘사하고 각각의 얼굴 특징은 복수의 안면 표식(facial landmark)을 포함하는 경우, 행동 데이터는 각 이미지 프레임에 대한 얼굴 표식의 위치, 모양, 방향, 음영 등을 나타내는 정보를 포함할 수 있다.
이미지 데이터는 각각의 클라이언트 디바이스에서 프로세싱될 수 있거나, 프로세싱을 위해 네트워크를 통해 서버 디바이스로 직접 스트리밍될 수 있다.
각각의 디스크립터 데이터 포인트는, 행동 데이터에서 선택된 복수의 얼굴 표식들의 위치, 모양, 방향, 공유 등을 나타내는 정보를 포함하는, 얼굴 특징 디스크립터 데이터 포인트일 수 있다.
즉, 각각의 얼굴 특징 디스크립터 데이터 포인트는 복수의 안면 표식들을 나타내는 정보를 인코딩할 수 있다. 각각의 얼굴 특징 디스크립터 데이터 포인트는 각각의 프레임, 예를 들어 이미지 프레임들의 시계열로부터의 각각의 이미지 프레임과 연관될 수 있다. 각각의 얼굴 특징 디스크립터 데이터 포인트는 다차원 데이터 포인트일 수 있으며, 다차원 데이터 포인트의 각 구성 요소는 각각의 안면 표식을 나타낸다.
감정 상태 데이터 포인트들은 원시 데이터 입력, 추출 디스크립터 데이터 또는 이 둘의 조합으로부터 직접 얻어질 수 있다. 예를 들어, 복수의 얼굴 표식들은 사용자 감정을 특징화할 수 있는 정보를 포함하도록 선택될 수 있다. 따라서, 각각의 감정 상태 데이터 포인트는 하나의 이미지 또는 일련의 이미지들에 걸쳐 하나 이상의 얼굴 특징 디스크립터 데이터 포인트들에 분류자(classifier)를 적용함으로써 결정될 수 있다. 일부 예들에서, 딥 러닝 기술(deep learning technique)을 이용하여 원시 데이터 입력으로부터 감정 상태 데이터 포인트들 또는 다른 관련 양적 파라미터 시계열 신호를 산출할 수 있다. 이러한 딥 러닝 기술은 가능한 디스크립터 피처들을 선택하여 그들을 감정 상태 정보로 변환하기 위해 인간에 대한 요구 사항을 바이패싱(bypassing)할 수 있다. 원칙적으로 이러한 기술은 원시 데이터 입력에서 직접 예측 파라미터를 산출하는 데 사용될 수도 있다.
컴퓨터-기반 예측 모델은 알려진 성과 데이터를 갖는 미디어 컨텐츠 아이템들의 트레이닝 세트로 기계 학습에 의해 트레이닝될 수 있다. 예를 들어, 트레이닝 세트는 계산된 예측 파라미터 및 미디어 컨텐츠의 복수의 트레이닝 피스들의 대응되는 알려진 성과 값들을 포함하는 데이터일 수 있다.
미디어 컨텐츠의 피스는 사용자 피드백에 관한 정보가 바람직한 임의의 유형의 사용자-소비가능 컨텐츠일 수 있다. 본 발명은 미디어 컨텐츠가, 판매 실적 등으로 인해 성과가 판단될 수 있는, 상업 광고(예를 들어, 비디오 상업 광고 또는 광고)인 경우에 특히 유용할 수 있다. 그러나, 본 발명은 임의의 종류의 컨텐츠, 예를 들면, 비디오 광고, 오디오 광고, 애니메틱(예를 들어, 상업 광고 또는 다른 비디오 내러티브(narrative)와 관련하여), 영화 예고편, 영화, 웹 광고, 애니메이션 게임, 이미지 등에 적용 가능하다.
성과 데이터는 매출 상승 데이터일 수 있다. 또한, 예측된 성과 데이터는 주어진 미디어 컨텐츠의 피스에 대한 예측된 판매 상승일 수 있다.
추가적으로 또는 대안적으로, 성과 데이터는 소셜 미디어 성과일 수 있다. 예를 들어, 성과 데이터는 페이스북(Facebook), 유투브(YouTube), 트위터(Twitter)와 같은 소셜 미디어 플랫폼에서의 좋아요/공유의 횟수/빈도가 포함할 수 있다. 추가적으로 또는 대안적으로, 성과 데이터는 광고에 의해 받은 상을 포함할 수 있다.
부가적으로 또는 대안적으로, 임의의 사용자에 대한 신호 출력은 그 자체로서 분류자 툴(또는 그 일부로서)으로 사용되어, 예를 들어, 특정 유형의 미디어가 타겟팅될 수 있는 사용자 클러스터를 식별하거나 및/또는 사용자를 기존 클러스터에 할당할 수 있다.
하나 이상의 실시 예에서, 머리 자세 역학(dynamics) 및 얼굴 표정 역학은 감정 상태 및 감정 상태의 변화와 관련이 있으며 머리 자세 역학 및 얼굴 특징 역학은 결합되어 감정 상태 및 감정 상태의 변화에 대한 신뢰할 수 있는 지시를 제공한다.
상술한 관점에서, 본원에 개시된 방법은 주어진 미디어 컨텐츠의 피스에 대해 예측된 성과 데이터가 추출될 수 있도록 미디어 컨텐츠의 사용자 소비 중에 수집된 원시 데이터에 대한 프로세싱 동작을 수행한다.
아래의 예시들에서, 원시 데이터는 사용자 디바이스 상의 기록 디바이스, 예를 들어, 웹캠 등으로부터 획득된 이미지 데이터이다. 아래에 설명되는 것처럼, 원시 데이터는 감정 상태 정보가 얻어질 수 있는 얼굴 이미지들의 형태의 행동 정보를 제공한다. 그러나, 본원에 개시된 실시 예들은 이러한 유형의 원시 데이터 또는 행동 정보에 제한되지 않는다. 오히려, 본 발명은 성과 데이터와 유용한 상관 관계를 갖는 신호를 생성하고 분석하는 새로운 기술을 제공한다. 이러한 신호는 원칙적으로 미디어 컨텐츠의 소비 중 사용자 응답을 나타내는 임의의 유형의 원시 정보에서 얻을 수 있다. 따라서, 원시 정보는 전술한 유형의 행동 정보, 생리학적 정보 또는 자체-보고된 정보 중 임의의 하나 이상을 제공할 수 있다.
성과 데이터에 대한 강력한 정확도와 관련되거나 강력한 정확도로 맵핑할 수 있는 신호 또는 신호들은 미리 결정될 수 있으며 아래에 설명된 것과 유사한 기술을 사용하여 추출될 수 있다. 대안적으로, 신호들은 미리 알려지지 않을 수 있다. 대신 딥 러닝 기술을 사용하여 그들이 결정될 수 있다.
도 1은 본 발명에서 사용될 수 있는 행동 데이터(behavioral)를 수집하고 분석하기에 적합한 시스템(100)의 개략도이다. 도 1로부터 알 수 있듯이, 컴퓨터-구현 방법은 단일 디바이스에 의해 수행될 필요는 없지만, 예를 들어 도시된 바와 같이 컴퓨터 네트워크(112)(예를 들어, WiFi 또는 셀룰러와 같은 유선 또는 무선 네트워크)를 통해 분산된 컴퓨터 시스템을 통해 수행될 수 있다. 단일 사용자(102)에 의해 사용되는 단일 클라이언트 디바이스(104)가 간략화를 위해 도 1에 도시되어 있다. 클라이언트 디바이스는(104)는 예를 들어, PC, 태블릿 PC, 이동 전화, 또는 프로세서, 메모리를 갖는 다른 컴퓨팅 디바이스일 수 있으며, 네트워크(112)를 통해 통신하도록 구성될 수 있다. 클라이언트 디바이스(104)의 프로세서는 메모리에 프로그램 코드로서 저장된 명령을 구현할 수 있다. 사용자(102)는 미디어 컨텐츠(109)의 피스, 예를 들어 광고 서버로부터 다운로드되고 클라이언트 디바이스(104)의 비디오 플레이어(108) 상에 디스플레이되는 비디오 광고를 소비한다. 미디어 컨텐츠(109)는 일련의 이미지 프레임들이고, 동반하는 오디오를 포함할 수 있다. 클라이언트 디바이스(104)에 동작 가능하게 결합된 웹캠(106)은, 클라이언트 디바이스(104)가 미디어 컨텐츠(109)를 재생하는 것과 동시에, 사용자가 미디어 컨텐츠를 소비할 때 예를 들어 사용자의 얼굴의 이미지 프레임들의 시계열로서 사용자의 이미지 데이터를 수집한다. 하나 이상의 실시 예들에서, 웹캠(106)은 클라이언트 디바이스에 통합된다. 다른 실시 예들에서, 웹캠(106)은 독립형 디바이스이다. 웹캠(106)에 의해 캡처된 복수의 원시 이미지 프레임들은 행동 데이터 수집 어플리케이션(110)으로 전달되고, 이는 클라이언트 디바이스(104) 상의 메모리 또는 저장소 또는 네트워크상의 다른 위치(예를 들어, 클라우드 저장소, 원격 저장소)에 저장될 수 있다. 그 다음, 복수의 원시 이미지들은 행동 수집 어플리케이션(110)에 의해 프로세싱된다. 예를 들어, 그들은 아래에 설명된 전처리(pre-processing) 단계를 거칠 수 있다. 행동 데이터 수집 어플리케이션(110)은 그 프로세싱된 정보(116)를 네트워크(112)를 통해 분석 서버 디바이스(114)로 전송하고, 여기서 예측 파라미터는 행동 데이터로부터 추출되고, 예측 모델은 예측 파라미터로부터 미디어 컨텐츠의 피스에 대한 예측된 성과 데이터를 얻는데 사용된다. 예측 파라미터는 얼굴 표정(즉, 웃음 또는 찡그림)의 변화를 나타낼 수 있는 특정 얼굴 특징 디스크립터 데이터 포인트의 변화를 나타내는 일련의 데이터 포인트들로부터 유도된, 미디어 컨텐츠에 대한 사용자 응답의 상대적인 변화의 양적인 지시자일 수 있다. 예측 모델은 예를 들어 본원의 다른 곳에서 개시된 바와 같은 분류 모델일 수 있다. 분석 서버(114)는 추가의 복수의 클라이언트 디바이스들로부터 유사한 데이터를 수신할 수 있다.
본 발명은 원시 데이터가 프로세싱되는 위치에 의해 제한되지 않는다. 예를 들어, 행동 데이터 수집 어플리케이션(110)은 클라이언트 디바이스(104)로부터 수신된 원시 데이터를 분석 서버(114)로 단순히 포워딩할 수 있거나, 또는 그 자체로 예측 파라미터를 추출하여 네트워크를 통해 전송할 수 있다.
도 2는 본 발명의 하나 이상의 실시 예들에서 정보가 어떻게 프로세싱되고 변환되는지를 나타내는 개략적인 데이터 흐름도이다. 프로세스 흐름(200)은 사용자 j에 대한 원시 데이터 입력(202)으로 시작한다. 원시 데이터는 미디어 컨텐트에 대한 사용자의 계속적인 응답을 나타내는 임의의 적절한 데이터 소스일 수 있다. 아래의 특정 예에서, 원시 데이터 입력은 사용자 컴퓨터의 웹캠에서 수집된 이미지 데이터이다. 다른 예시들에서, 원시 데이터는 사용자에 대해 수집된 임의의 유형의 자체-보고된, 행동 또는 생리학적 데이터일 수 있다. 예를 들어, 사용자로부터의 오디오 데이터는 마이크를 사용하여 기록될 수 있으며, 생리학적 데이터는 웨어러블 디바이스 또는 적절한 센서(예를 들어, 근전도 센서, 전기 활성 센서, LUX 광 센서, 심전도 센서)를 사용하여 수집될 수 있다.
원시 데이터 입력(202)은 원하는 출력과 상관되는 예측 파라미터가 계산될 수 있는 하나 이상의 시계열 신호들을 생성하는데 사용된다. 시계열 신호들은 원시 데이터 입력으로부터 얻어질 수 있는 파라미터(여기서는 x로 표시됨)에 기초한다. 원시 데이터 입력은 후술하는 바와 같이 시계열 신호(들)를 생성하도록 조작되거나, 추가로 프로세싱되거나 또는 정제될 수 있다. 그러나, 시계열 신호는 원시 데이터 입력 그 자체 내에서 직접 관찰할 수 있는 파라미터가 될 수도 있다.
도 2에 도시된 예시에서, 프로세스 흐름(200)은 프로그램 코드를 구현하는 프로세서를 통해 원시 데이터 입력(202)으로부터 다양한 디스크립터 데이터(204)를 추출한다. 특정 예시에서, 원시 데이터 입력(202)이 얼굴 이미지 데이터를 포함하면, 추출된 디스크립터 데이터(204)는 얼굴 또는 머리, 또는 이들의 각각의 부분들(예를 들어, 눈, 코, 입)의 상대 위치 또는 안면 특징 또는 지오메트리(예컨대, 방향)를 나타내는 정보일 수 있다. 추출된 디스크립터 데이터(204)는 그 자체가 예측 파라미터가 얻어지는 시계열 신호에 기여할 수 있거나, 그것은 감정 상태 데이터(206)가 얻어질 수 있는 감정 상태 분류자에 대한 입력을 제공하기 위해 추출될 수 있다. 감정 상태 데이터(206)는 추출된 디스크립터 데이터(204)에 기초하여 사용자의 잠재적인 감정 상태를 나타낸다.
따라서, 원시 데이터 입력(202)은 예측 파라미터가 얻어질 수 있는 미디어 컨텐츠의 피스에 대한 사용자 응답의 양적 파라미터들(208)을 나타내는 하나 이상의 시계열 신호들을 도출하는데 사용된다. 위에서 설명한대로, 양적 파라미터는 원시 입력 데이터로부터 직접 오거나, 데이터 인식 또는 필터링 기술을 사용하여 그로부터 추출되거나, 분류 기술을 사용하여 그로부터 파생될 수 있다. 예를 들어, 머리/얼굴의 위치 및 추정 자세(요(yaw), 피치(pitch), 및 롤(roll)의 정도)가 결정되고, 얼굴 표식(예를 들어, 코, 눈, 입)의 위치가 결정된다. 위치 및 예상 자세는 사용자가 미디어 컨텐츠를 소비하는 동안의 모습을 정확하게 묘사하기 위해 이러한 세 가지 차원들에서 측정된다. 이는 또한 사용자가 미디어 컨텐츠를 능동적으로 소비하지 않는 수신된 데이터를 폐기하기 위해 작동한다. 예를 들어, 양적 파라미터는, 요 또는 피치가 웹캠에 대해 사용자의 머리가 위, 아래, 왼쪽 또는 오른쪽으로 향하게 되어 미디어 컨텐츠를 보여주는 디스플레이를 보지 않을 가능성이 있음을 나타내는 특정 정도 임계 값을 넘어서는 것(예를 들어, 베이스라인으로부터 30도 이상)과 같이, 위치 및 추정 자세가 사용자가 미디어 컨텐츠를 보고 있지 않음을 나타내는 데이터를 필터링함으로써 파생될 수 있다. 유사하게, 얼굴 표식의 위치는 사용자가 미디어 컨텐츠를 소비하지 않는다는 표시를 제공할 수 있다(예를 들어, 데이터 인식 기술은 사용자의 눈이 장기간 동안 감겨 있음을 나타냄). 아래 주어진 예시에서, 여섯 개의 양적 파라미터들의 세트는 원시 얼굴 이미지 데이터로부터 얻어진다: 세 개의 머리 자세 신호들과 세 개의 감정 상태 신호들(미소, 혐오, 놀람).
각각의 양적 파라미터에 대응되는 시계열 신호들은 프로세싱되어 원하는 출력(예를 들어, 미디어 컨텐츠에 대한 성과 데이터)과의 상관 관계를 나타내는 신호의 특성인 예측 파라미터(210)를 생성한다. 본 발명은 양적 파라미터가 미디어 컨텐츠와의 상호 작용의 지속 시간 내에서 사용자 응답의 상대적인 변화의 양적 지시자인 예측 파라미터를 산출하는 시계열 신호라는 사실을 이용한다. 아래 주어진 예에서, 양적 지시자는 미디어 컨텐츠의 마지막 부분에 대한 양적 파라미터의 값과 미디어 컨텐츠의 나머지 부분에 대한 값 사이의 차이를 나타낸다. 다른 표현이 사용될 수 있다.
주어진 사용자에 대한 각각의 양적 파라미터 시계열(208)로부터 하나 이상의 예측 파라미터들(210)이 획득될 수 있다. 각각의 예측 파라미터(210)는 파라미터(예를 들어, 디스크립터 데이터 또는 감정 상태)의 관련 상대적 변화를 나타내는 단일 값일 수 있다.
대응되는 예측 파라미터들(212)은 동일한 미디어 컨텐츠를 소비하는 복수의 다른 사용자들에 대해, 미디어 컨텐츠를 동시에 소비하든 그렇지 않든 간에 획득될 수 있다. 사용자 그룹에 대한 복수의 예측 파라미터들은 값들의 분포를 형성할 수 있으며, 이로부터 사용자 그룹에 대한 단일 예측 파라미터(214)가 획득될 수 있다. 하나 이상의 실시 예들에서, 그룹 또는 "집계(aggregate)" 예측 파라미터(214)는 개별 예측 파라미터들의 분포의 미리 결정된 통계적 특성이다. 예를 들어, 그것은 분포의 최대 값 또는 최소값이거나 특정 백분위 수(예를 들어, 75 백분위 수) 또는 표준 편차일 수 있다. 예측될 원하는 파라미터와 가장 강한 상관(양 또는 음)을 나타내는 그룹 예측 파라미터(214)로서 미리 결정된 통계적 특성을 선택하는 것이 바람직하다.
임의의 주어진 미디어 컨텐츠의 피스에 대하여, 위의 프로세스는 복수의 그룹 또는 "집계" 예측 파라미터들(216)을 생성하기 위해 반복될 수 있으며, 각각은 주어진 정량적 파라미터 시계열에 대응한다. 이들 예측 파라미터들은 예측 모델(218)에 대한 입력 신호들을 형성하며, 이 예에서 출력은 미디어 컨텐츠의 피스에 대한 예측된 성과 데이터(220)이다. 모델링이 수행되는 방법의 예가 아래에 나와 있다.
도 3은 본 발명의 하나 이상의 실시 예들에 따른 방법(300)의 흐름도이다. 방법(300)은 본원에 기술된 시스템, 예를 들어, 프로세서 및 메모리를 갖는 복수의 컴퓨팅 디바이스를 갖는 시스템(100)에 의해 구현될 수 있으며, 여기서 프로세서는 메모리에 저장된 프로그램 코드를 구현하고, 그러한 프로그램 코드는 프로세서로 하여금 방법의 단계들을 수행하게 한다. 방법(300)은 본원의 다른 곳에서 개시된 바와 같이 원시 입력 데이터를 수집하는 단계(302)에서 시작한다. 방법(300)은 원시 데이터 입력으로부터 디스크립터 데이터 포인트들(즉, 디스크립터 데이터의 시계열)을 추출하는 단계(304)로 계속된다. 예를 들어, 디스크립터 데이터 포인트들은 얼굴 이미지 데이터로부터 추출될 수 있다. 방법(300)은 감정 상태 데이터 포인트들의 세트(즉, 감정 상태 데이터의 시계열)를 획득하기 위해 적절한 분류자에 대한 입력으로서 추출된 디스크립터 데이터 포인트들 및/또는 원시 데이터 입력을 사용하는 단계(306)로 계속된다. 분류자(classifier)는 추출된 디스크립터 데이터 포인트 또는 원시 데이터 입력을 하나 이상의 감정 상태들(예를 들어, 웃음, 놀람, 혐오감 등)로 맵핑하도록 트레이닝된 기계 학습 툴이다. 예를 들어, 분류자로부터의 출력은 디스크립터 데이터 포인트 또는 원시 데이터 입력이 얻어지는 사용자가 감정의 범위의 각각을 나타낼 가능성들의 세트일 수 있다.
방법(300)을 계속하면, 단계(308)에서, 시계열 데이터(이는 디스크립터 데이터 및/또는 감정 상태 데이터 및/또는 원시 데이터일 수 있음)는 본원의 다른 곳에서 설명된 바와 같이, 하나 이상의 예측 파라미터들을 계산하는데 사용된다. 단계들(302 내지 308)은 단일 사용자 또는 동일한 미디어 컨텐츠의 피스를 소비하는 복수의 사용자들로부터 수집된 원시 데이터에 대해 수행될 수 있다. 단계(308)에서 얻어진 예측 파라미터들은 각 사용자로부터 얻어진 개별 예측 파라미터들의 분포의 하나 이상의 통계적 특성들에 대응되는 그룹 또는 "집계" 파라미터들을 나타낼 수 있다.
방법(300)은 예측 파라미터들을 예측 모델에 입력함으로써 시작되는 예측 모델링을 수행하는 단계(309)로 계속된다. 하나 이상의 실시 예들에서, 단계(309)는 예측 모델링을 프로세싱하기 위한 다양한 하위 단계들을 포함한다. 이 예에서, 단계(309)의 예측 모델은 3 단계들로 동작한다. 예측 모델링의 제1 단계(310)에서, 선형 회귀(linear regression)가 예측 파라미터들에 적용된다. 예측 모델링의 제2 단계(312)에서, 출력은 임계치와 비교되어 2 진화(binarize)된다. 예측 모델링의 제3 단계(314)에서, 2 진화된 출력은 타겟 변수가 예측된 성과 파라미터(아래 예시에서는 간단한 2 진 형식으로 표현됨)인 로지스틱 회귀(logistic regression)에 입력된다. 방법(300)은 주어진 성과 지시자와 관련된 확률일 수 있는 예측 모델링 단계(309)로부터의 출력으로 끝난다. 전술한 데이터 흐름 및 방법의 더 상세한 내용은 다음의 상세한 예로부터 명백해질 것이다.
예시
아래에 설명된 예제는 두 가지 목표를 실현한다. 첫 번째 목적은 판매 상승 데이터를 이용할 수 있는 주어진 광고 세트에 웹 캠을 통해 많은 수의 자발적인 행동 반응을 빠르고 경제적(컴퓨터 자원 효율성 극대화 측면에서)으로 수집하는 것이다. 두 번째 목표는 사용 가능한 관측치로부터 판매 성과를 정확하게 예측할 수 있는 간단하고 투명한 모델을 설계, 구현 및 검증하는 것이다.
이 예시의 결과는 상이한 제품 카테고리들에 걸친 소비자 감정 상태 평가들 사이의 빈약한 정확성 및 불일치 문제에 직면한, 알려진, 기존의 정적 분석 기법과 비교되어(D.J. McDuff, 미디어 효과를 예측하기 위한 정서적 반응을 크라우드소싱(crowdsourcing) Ph.D. 명제, 메사추세츠 공과 대학교, 캠브리지, MA, 미국(2014); D. McDuff, R. E. Kaliouby, E. Kodra, L. Larguinet, 광고 드라이브 판매의 감정을 하는가?,에서: ESOMAR 총회의 회의록, 2013, 이하 "McDuff 연구") 본 발명의 방법이 시장 조사 목적을 위해 스케일에서 행동 반응들을 분석하기 위한 신뢰할 수 있고 실제적인 툴을 제공한다는 것을 입증한다.
데이터 수집
이 예에서는, 유료 참가자들로 구성된 국가 센서스-기반 패널들(평균 패널 크기는 277 피험자)이 제3 자 필드 에이전시에 의해 6 개국에서 모집되었다. 모든 피험자들은 시장 조사 목적으로 접근할 수 있는 권한을 부여 받고 특정 패널(표본)이 필요할 때 사용되는 인구 통계 학적 데이터를 제공했다. 녹음하기 전에, 각 피험자는 자신의 얼굴을 녹음하고 추후 분석에 녹음 내용을 사용할 수 있는 권한을 주었다. 시장 조사 분야의 표준 윤리 규범을 따랐다. 참가자들의 응답은 그들의 가정용 컴퓨터와 웹캠을 통해 원격으로 기록되었다. 이러한 방식으로 사람들에게 비디오를 보도록 요청하는 것은 감정적인 반응을 이끌어 내기 위한 잘 입증된 절차이다. 자발적인 행동에 대한 묵시적 증거는 참가자들은 종종 그들이 녹음되고 방을 떠나거나 말하기, 먹기 등과 같은 무관 한 활동에 참여하는 것을 잊어 버리는 것이다.
인구 통계 학적 제약 외에도, 두 가지 선택 기준이 있었다. 기술 요구 사항은 각 참가자가 인터넷 액세스 및 그 또는 그녀의 컴퓨터에 부착된 웹캡을 갖는 것이었다. 관련성 요구 사항은 광고가 광고의 제품 카테고리에 관심이 있는 참가자("카테고리 사용자")에게만 표시되어, 광고를 관련성 있게 만드는 것이었다. 이것은 참가자들 중 76 %만이 실제 카테고리 사용자들인 McDuff 연구와는 대조적이다. 총 참가자 수는 18793명 이었지만, 아래에 설명된 품질상의 이유로 인해 오직 12262 세션들만이 최종적으로 분석에 사용되었다.
광고는 과자, 음식, 애완 동물 관리 및 껌과 같은 4 가지 제품 카테고리를 나타낸다. 그들은 원래 6 개국에서 2013-2015 년 사이 방영되었다. 광고 시간은 10 및 30 초 사이에서 다양했다.
광고에 대한 판매량 상승 데이터가 수집되었다. 타겟 스코어는 "판매량 상승"에 대한 광고 캠페인의 실제 기여에서 파생되었다. 각 광고에 대한 판매량 상승을 측정하기 위해, 노출된 및 대조(노출되지 않은) 비교 그룹들이 확인되고, 그들의 실제 구매들이 추적되었다. 비교 그룹에 대한 노출된 그룹에서의 구매 성향의 비율은 노출된/비교 그룹들의 세트에 대해 평균되었다. 판매 상승 등급을 교육 분류 기준에 대해 4 점 척도로 정량화되었다.
회귀 작업(regression task)은 바이너리 문제로 단순화되었다: 등급 1과 2의 광고는 "낮은" 성과 등급으로 전환되며, 등급 3과 4의 광고에는 '높은' 성과 등급이 지정된다. 그러나 원래의 서수 규모로 인코딩된 추가 정보는 우리의 예측 모델의 일부를 훈련하는 데 사용되었다.
이 예시에서, 분석은 약 3 분의 1 광고가 서로 변형(variations)이라는 사실로 인해 복잡해졌다. 두 광고들 사이의 차이가 길이나 내용의 작은 수정으로 인한 경우 두 광고들은 서로의 변형으로 간주된다. 예를 들어, 일부 광고들은 동일한 스토리 라인을 가졌지만, 다른 브랜드 레이블을 표시하거나 다른 언어로 제작되었다. 아래의 결과 섹션에서, 우리는 모든 광고들에 대해 그리고 관련된 광고들이 단일 레이블로 결합된 경우에 대해 별도로 보고한다.
여기 예제의 디자인은 다음 차이점을 제외하고 아래 비교되는 McDuff 연구와 유사하다: (1) 두 개의 추가 국가들이 본 예시에 포함됨; (2) 2002 년에서 2012 년 사이에 방영 된 McDuff 연구에 사용된 광고 물; 현재의 예에서 사용된 것들이 더 최근에 방영 됨; (3) McDuff 연구 세트에는 163 개의 독특한 광고가 포함됨: 본 예시는 이용 가능한 147 개의 광고들 중 116 개의 고유한 것들을 포함; 그리고 (4) McDuff 연구에서 판매량 상승은 3 점 서수 척도로 정량화되었지만, 본 예시는 4 점 서수 척도에 있음.
모든 광고들은 참여자들의 자신의 컴퓨터에서 시청되었고, 예를 들어, 도 1과 관련하여 설명된 것과 유사한 시스템을 사용하여 웹캠으로 그들의 얼굴을 기록하고 서버로 스트리밍했다. 이미지 해상도는 640Х480이다. 이 "야생에서(in the wild)" 설정은 이미지 품질 및 프레임 속도의 비용으로 실험실에서 가능한 것보다 더 생태학적으로 유효한 자발적 행동을 보장한다. 평균 프레임 속도는 약 13fps이었다. 얼굴이 가려지거나 피험자가 이야기나 식사와 같은 무관한 활동에 관여했다면 비디오는 생략되었다.
피험자들은 무작위 순서로 제시된 최대 4 개의 광고들을 보았다. 세션 길이는 약 10 분이었다. 대조적으로, McDuff 연구에서, 피험자들은 무작위 순서로 제시된 10 개의 광고들을 보았고 그들 사이에 자체 보고 등급을 완성했다: 세션 길이는 평균 36 분. 다른 연구들이 세션 길이와 데이터 품질 사이에 부정적인 상관 관계가 있다는 것을 발견하였기 때문에 더 짧은 형식이 본 예시에 선택되었다. 또한, 시청자 응답의 관찰 가능성에 큰 변형뿐만 아니라 비디오 화질의 영향을 막기 위해 더 큰 샘플(각 광고를 시청한 평균 277 피험자들 대 100)이 사용되었다.
아래에 설명된 보수적인 품질 필터링을 적용한 후에도, 본 예시의 유효 평균 샘플 크기는 164이며, 이는 McDuff 연구에서 보고된 것보다 현저히 더 크다.
데이터 프로세싱
초기 단계에서, 수집된 원시 데이터는 네 가지 방식으로 프로세싱된다. 첫째, 광고 기간과 매칭되지 않는 기록(최대 차이는 1.5 초로 설정됨)은 삭제된다. 이들은 웹캠이 광고가 완료된 후에 발생하는 사용자 반응을 기록한 기록이다. 임의의 시퀀스 프레임들 사이의 지연이 2 초보다 긴 기록들 또한 삭제되었다. 이들은 참가자에게 광고를 전달하는 데 지연을 초래한 네트워크 연결 문제가 있을 수 있는 녹음이다. 둘째, 컬러 프레임을 그레이 스케일 강도로 변환되었다. 셋째, 감정 검출을 위해 얼굴 특징들이 추출되어 분류자에 입력된다. 넷째, 추출된 얼굴 특징과 감정 알고리즘의 출력을 사용하여 예측 모델링을 위한 시계열 신호를 생성하였다.
노이즈를 보상하고 동일 광고에 대응되는 시계열의 시간적 정렬을 돕기 위해, 당업계에 공지된 바와 같이, 모든 관측에 제로 위상 평활화 및 재 샘플링을 적용하는 것이 가능할 수 있다. 그러나, 이러한 단계들은 본 예시에서는 수행되지 않았으며, 이는 주어진 시간 윈도우에서 분산 분포와 같은 기술적인 통계 중 일부가 그러한 단계들에 매우 민감하기 때문이다.
각 프레임에 대해, 머리/얼굴의 위치 및 추정 자세(디그리의 요, 피치, 롤)가 결정되고, 얼굴 표식들의 세트의 정확한 위치(핵심 포인트들의 정렬)가 공지된 기술을 사용하여 알려졌다. 결정된 위치 및 추정 자세, 또는 얼굴 표식들이 피험자가 현재 미디어 컨텐츠의 소비에 관여하고 있지 않다는 것을 나타내면, 시스템은 분석으로부터 이들 이미지 프레임들을 필터링할 수 있다. 예를 들어, 시스템은 피험자의 머리가 웹캠에서 멀리 돌아가거나 피험자의 눈이 오랫동안 닫혀 있는지를 결정하여 이들 이미지 프레임들의 가중치를 줄이거나 완전히 무시한다. 이 정보는 위에 언급된 디스크립터 데이터에 대응된다.
표식의 로컬 지오메트리와 그들 주위의 텍스처 패치는 얼굴 표정을 미소, 놀라움 또는 혐오와 같은 개별 표현 범주로 분류하도록 트레이닝된 분류자의 디스크립터로 사용되었다.
가장 빈번한 얼굴 표정은 미소이다. 미소는 접근을 위해 즐거움, 유리한 평가, 기대, 행동 경향을 전달할 수 있다. 자동화된 탐지의 관점에서, 미소는 유리한 비교적 큰 지오메트리 및 조직적인 변형을 수시로 포함한다.
예시 데이터 세트의 광고들의 대부분은 재미있거나 즐겁게 디자인되었기 때문에, 미소를 식별하는 것으로부터 파생된 신호는 추출된 감정 상태에 대한 정보를 갖는 것으로 기대된다. 또한, 놀람 및 혐오 관련 신호는 판매 예측 작업에 특히 유익하다.
본 예시에서의 프로세싱 단계로부터의 출력은 추정된 머리 자세 및 대응하는 확률 출력(등급 라벨이 주어진 디스크립터들의 세트에 대해 선택되는 사후 확률)과 함께 세 개의 얼굴 표현 분류자 출력의 다차원 시계열이다.
판매 예측 작업에 대한 최적의 표현을 검색할 때, 자극을 이끌어내는(즉, 본 예시에서 미디어 컨텐츠 또는 광고) 반응의 진화와 상호 관련되는 시간적 변화를 나타내는 특징을 식별하는 것이 바람직하다. 이러한 특징들이 식별되면, 그러한 특징들과 상관된 원시 데이터는 분류 모델에 전달되어 미디어 컨텐츠의 사용자 경험에 대한 개선된 예측을 생성할 수 있다. 또한, 개별 응답들의 지점별 집계를 피하고 모든 신호들에 대해 공통 절차를 제공하여 추가적인 파라미터 최적화가 필요하지 않도록 하는 것이 바람직하다. 이 방법으로, 결과 모델은 강력하고 트레이닝 데이터 세트의 특정 속성에 덜 민감하다.
일반적인 접근 방식은 다음과 같다.
1. 머리 자세 추정기 및 표정 분류자로부터 얻어진 각 시계열에 대해, 시간적 차이는 주어진 기록에서 후속 프레임들(디트렌딩(detrending)) 사이에서 계산된다:
Figure pct00018
여기서,
Figure pct00019
는 사용자
Figure pct00020
에 대한 추출된 디스크립터 데이터 또는 분류된 감정 상태 데이터의 양적 파라미터
Figure pct00021
의 시계열이다. 따라서, 용어
Figure pct00022
는 피험자(사용자)
Figure pct00023
에 대한 시간
Figure pct00024
에서의 시간적 차이를 나타낸다.
2. 단계 1로부터의 시간적 차이는 해당 시계열에 대한 평균 차이를 뺀 값으로 정규화되며, 즉,
Figure pct00025
여기서,
Figure pct00026
그리고
Figure pct00027
는 시계열의 기간이다.
3. 시계열은 그 후 미리 결정된 지속 시간(예를 들어, 4 초)을 갖는 복수의 시간 빈(bin)들로 분할된다. 따라서 시간 빈들은 전체 기록의 프레임 속도 또는 지속 시간에 관계없이 각 기록에 대한 시간 세그먼트를 나타낸다.
4. 각 빈에 대해 정규화된 차이의 최대 값이 계산된다:
Figure pct00028
여기서 표기법
Figure pct00029
Figure pct00030
번째 값(프레임)이 빈
Figure pct00031
에 속함을 의미한다. 실제 값들의 수는 빈들 사이에서 변할 수 있다.
5. 이 예시에서, 빈 값들은 마지막 하나 또는 두 개의 세그먼트(빈)와 나머지 사이의 차이점을 설명하는 하나의 숫자(예측 파라미터
Figure pct00032
)를 산출하기 위해 가중되고 합산된다:
Figure pct00033
여기서
Figure pct00034
은 빈들의 수이므로 변수의 세그먼트 또는 프레임이 존재하지 않는다.
이 예시에서 적용된 가중치 벡터는 간단한 제로 합 스텝 함수(simple zero sum step function)이고, 즉,
Figure pct00035
.
6. 지속 기간이 서로 다른 광고들의 특징을 비교할 수 있게 하려면, 결과 합계는 주어진 광고의 길이에 의해 정규화되었다.
7. 복수의 사용자들로부터 얻어진 예측 파라미터 값들의 세트로부터, 특정 기술 통계(descriptive statistic)(예를 들어, 표준 편차 또는 75 백분위 수)가 계산되고 이어서 사용자들의 그룹에 대해 예측 파라미터를 나타내는 "집계" 값으로서 사용된다. 따라서 이러한 신호 값들은 주어진 자극에 대한 샘플 응답을 나타내며 시간 또는 주체 색인에 의존하지 않는다.
8. 임의의 세그먼트 경계들로 인한 에일리어싱 효과(aliasing effects)를 줄이기 위해, 빈들을 양 방향으로 0.25 초까지 이동시키고 위의 모든 단계를 반복했다. 마지막으로 얻은 샘플 신호는 이들 계산의 평균이다. 이 단계는, 필수적이지는 않지만, 접근 방식을 더욱 강력하게 만든다.
이 절차를 추가로 최적화하면(다양한 시간 빈들, 다양한 형식의 정규화, 다른 가중 함수 사용 등) 성능이 향상될 수 있지만, 이러한 미세 튜닝을 수행하면 전반적인 견고성 및 타당성에 대한 우려가 발생할 수 있다. 빈 크기는 예를 들어 우리의 독점적인 트레이닝 데이터 세트에 주석 처리된 이벤트의 평균 프레임 속도 및 지속 시간 분포 및 개시 분산(onset dispersion)을 기반으로 정의되었다. 선택 파라미터의 작은 섭동이 상관 관계에서의 우아한 저하를 나타내는 경우, 파라미터는 견고한 것으로 간주될 수 있다. McDuff 연구는 선형 적합의 최대 또는 기울기와 같은, 집계 샘플 응답의 간단한 요약 통계에 의존하지만, 본 예시는 집계 전에 피험자 수준에서 분석된 추출된 감정 응답의 역동성이 보다 강력하고 특이할 것이라는 원칙에 따라 작동한다. 또한, 이 예시는 균일한 비디오 프레임 속도를 가정하지 않으며, 이는 종종 원격 기록으로 달성하기가 어렵다.
몇몇 후보 피처들 중에서, 다양한 얼굴 표정으로부터 파생된 세 개의 신호들 및 머리 자세로부터 파생된 세 개의 다른 신호들이 본 예시에서 사용을 위해 선택된다. 신호의 소스, 신호에 사용된 기술 통계 및 바이너리 판매 상승 스코어와의 그들의 피어슨 상관 관계(Pearson correlation)가 표 1에 나와 있다.
신호 소스 기술 통계 상관
미소 75th 백분위 수 0.41
혐오감 75th 백분위 수 0.35
놀라움 최대 0.31
머리 자세 (롤) 표준 편차 0.28
머리 자세 (롤) 최소 -0.26
머리 자세 (롤) 75th 백분위 수 0.32
표 1: 표는 선택된 신호(간단한 요약 통계), 대응되는 소스 및 판매 상승 스코어와의 피어슨 상관 관계를 보여준다.
도 4a 내지 도 4d는 개별 피험자들에 대한 관측으로부터 샘플 분포(패널 응답 집계) 및 대응하는 광고에 할당된 최종 신호 값에 대한 제안된 신호 생성 프로세스의 주요 단계들을 도시한다. 예시된 단계들은 주어진 광고에 대한 "놀라움(surprise)" 신호의 분류와 관련된다.
도 4a는 주어진 피험자에 대한 놀람 분류자의 출력으로부터 계산된 시간적 차이를 나타내는 그래프이다.
도 4b는 두 개의 라인 플롯(line plot)들을 나타내는 그래프이다. 제1 라인 플롯(402)은 각 시간 세그먼트에 대한 정규화된 시간적 차이(temporal difference)의 최대 값을 나타낸다(
Figure pct00036
). 제2 라인 플롯(404)은 각 빈에 양 또는 음의 가중치를 할당하는 가중 함수
Figure pct00037
를 나타낸다. 빈 값들의 가중된 합은 한 피험자의 놀라운 응답을 나타낸다.
도 4c는 사용자들의 샘플에 대해 이전 단계에서 계산된 개별적인 놀람 응답의 분포를 도시한다. 도 4b의 특정 예시는 점 (406)으로 표시된다. 주어진 광고의 마지막 "놀람" 신호에 대해 우리는 주어진 패널에서 피험자들에 대해 최대 값을 선택했다(위의 표 1 참조). 다른 신호들에 대해, 이 분포의 다른 특성을 최종 출력으로 선택할 수 있다.
도 4d는 광고들에 대한 최종 출력 "놀람"신호들의 분포를 도시한다. 도 4c에 도시된 분포를 산출한 광고의 계산된 신호는 점(408)으로 표시된다. 이 신호와 판매 상승 데이터 사이에 긍정적인 상관 관계가 발견되었으므로, 이 특정 광고는 실적이 낮은 등급에 속할 확률이 크다.
이 예에서는, 스코어와 혐오 기반 신호 사이에 양의 상관 관계가 있다. 추가적으로, 모든 머리 자세 관련 신호들은 세션이 끝날 무렵에 더 자주 또는 더 큰 머리 자세 변화를 나타낸다(롤, 피치 및 요의 조합은 높은 상관 관계를 나타내지 않으므로, 롤 기반 신호만 사용됨). 이전의 연구는 시선 방향이 머리 자세와 강하게 상관된다는 것을 발견하였으므로, 극단적인 머리 자세를 가진 피험자가 화면의 방향을 보지 않기 때문에 더 큰 머리 자세 변화는 자극 컨텐츠의 지속적인 효과를 반영할 수 있고 자극의 마지막 세그먼트에 대응하지 않을 수 있다.
놀람 신호를 제외하고는 마지막 세그먼트만 양의 가중치를 부여 받았다는 것이 발견되었다(즉, 모든 신호들이 기록의 맨 끝과 나머지 사이의 차이를 측정한다). "놀람"에 대해서는, 8 초를 커버하는 마지막 두 세그먼트들에 양의 가중치를 할당하여 더 높은 상관 관계를 얻을 수 있음이 발견되었다. 이 편차는 놀람 응답이 덜 동기화되었고 (시간적 개시가 분산됨) 지속 시간도 다를 수 있다는 것을 나타낼 수 있다.
작은 데이터 크기(테스트될 광고들의 수) 때문에 얼굴 표정과 머리 자세 관련 신호 모두가 판매 실적에 대한 보완적인 정보를 담고 있다는 사실을 강조하는 것 외에는 더 철저하고 그럴듯한 결과의 해석을 하기가 어렵다고 믿어진다.
비교하면, McDuff 연구의 신호는 얼굴 활동 단위 활성화들의 혼합으로부터 추출되었으며, 이는 특정 개별 표현(눈썹이 올라가는 것은 종종 놀라움과 관련됨), 개별 표현(미소) 및 모든 개별 얼굴 표정의 추정된 강도로부터 파생된 "베일런스(valence)"와 강하게 관련되어 있다. 대조적으로, 본 예시는 두 개의 신호 유형들의 더 단순한 혼합을 사용하며, 여기서 하나는 개별 감정 카테고리(미소, 혐오 및 놀람)와 관련이 있고, 다른 하나는 얼굴 행동 유닛보다 측정하기가 덜 어려운 머리 자세 변화와 관련이 있다. 따라서 전체 얼굴 동작 유닛을 결정할 필요가 없는 이 간단한 혼합은 달성하기에 더 적은 컴퓨팅 성능을 필요로 한다.
모델링
제한된 샘플 크기와 잠재적인 레이블 노이즈는 사용된 접근 방법의 복잡성이 높으면 모델링을 어렵게 하거나 불가능하게 만든다. 본 예시에서는 다음과 같은 가정을 사용하여 평균화된 간단한 앙상블 모델링을 사용한다: (1) 신호들은 독립적으로 다루어지며 이들 사이의 고차원적인 상호 작용을 고려하지 않아, 앙상블 모델로 표(vote)들을 요약할 수 있는 간단한(약한) 전문가를 트레이닝할 수 있고; 그리고 (2) 신호와 타겟 스코어 사이의 선형 관계를 찾고 비선형 성은 임계화(개별 전문가의 결과의 2 진화)하여 유도된다. 이러한 임계화는 신호 노이즈 제거를 지원한다. 본 예시에서 사용된 모델의 작업 흐름이 도 5에 나와 있다.
도 5에서, 모델에 대한 5 개의 입력이 있다: 앞서 언급된, 세 개의 머리 자세 신호들(
Figure pct00038
;
Figure pct00039
; 및
Figure pct00040
)과 세 개의 얼굴 표정 관련 신호들(
Figure pct00041
;
Figure pct00042
; 및
Figure pct00043
, 각각 놀라움, 혐오감, 행복에 관한 내용). 하나 이상의 실시 예들에서, 세 개의 머리 자세 신호들은 각각 사용자의 머리의 요, 롤 및 피치에 관련된다. 사용자가 미디어 컨텐츠를 현재 소비하지 않음을 나타내는 세 개의 머리 자세 신호들 및 세 개의 얼굴 표정 관련 신호들 중 일부는 원시 입력 데이터를 모델에 전달하기 전에 필터링될 수 있다. 예를 들어, 원시 입력 데이터가 사용자의 머리가 입력 디바이스 또는 미디어 컨텐츠 디스플레이를 향하지 않았다는 것을 나타내는 경우, 측정된 시간이 미디어 컨텐츠 프리젠테이션이 종결되었음을 나타내거나, 또는 원시 데이터의 다른 바람직하지 않은 측면이 있는 경우, 이들은 모델로 전달되는 것을 피할 수 있고 따라서 미디어 컨텐츠 소비에 대한 사용자의 경험에 관한 생성된 예측의 정확도를 향상시킨다. 독립 선형 복귀자(independent linear regressor)는 원래의 4 점 평점을 사용하여 각 1 차원 신호에 대해 트레이닝된다. 복귀자 출력은 최적의 임계 값이 데이터로부터 학습된 임계 값을 통해 2 진화된다. 이 2 진화 단계는 강한 비선형 노이즈 제거 역할을 한다. 다음 단계에서, 임계 값은 간단히 요약되고 다시 2 진화된다. 모델링을 단순하게 유지하기 위해, 각 입력에 동일한 가중치가 지정되지만 추가 최적화를 통해 신호 별 가중치가 산출된다. 모든 모델 파라미터들은 트레이닝 세트에서 학습된다. 로지스틱 회귀 입력은 앙상블의 출력이며 타겟 변수는 이진화된 속도이다. 이 마지막 단계는
Figure pct00044
로 표시된 보정된 확률 출력을 보장한다.
따라서 앙상블 모델은 표준 선형 회귀 복귀자들, 비선형 용어들(2 진화), 합계 및 최종 임계화로 구성된다. 수신기 작동 특성 곡선(ROC AUC) 계산의 경우 합계의 출력이 대신 사용된다. 프로세싱은 모든 신호들에 대해 동일하며 다음 단계를 포함한다. 첫 단계에서 선형 복귀자에 대한 입력
Figure pct00045
는 위에서 설명한 선택된 피처들 중 하나이다. 타켓 변수는 위에 설명된 원래 4 점 등급이다. 가중치 및 바이어스 파라미터(
Figure pct00046
)는 단계별로 트레이닝 세트에서 트레이닝된다(두 단계들에서 모든 파라미터들의 동시 최적화를 적용하는 대신). 다음 단계로서 복귀자의 출력
Figure pct00047
가 2 진화된다. 이 단계는 임계 값
Figure pct00048
를 학습하여 노이즈 억제를 가능하게 한다. 이 단계 후에, 개별 신호 모델링 경로들의 출력
Figure pct00049
는 간단한 합계와 임계화를 통해 결합된다.
McDuff 연구에서, 분류자의 선택은 RBF-SVM(Radial Basis Function kernel)이 있는 지지 벡터 머신(Support Vector Machine)이었다. 트레이닝 후, 결정 경계는 "지원 벡터"로 표현되며, 이는 구별될 두 등급들 모두로부터 가장 어려운 케이스이다. 이 방법의 단점은 필요한 샘플 크기가 표현에 의존한다는 것이다. 샘플 크기에 대한 지원 벡터의 비율이 높다는 것은 요구 사항이 충족되지 않고 결과 모델이 보이지 않는 데이터에서 큰 정규화 오류를 나타낸다. McDuff 연구의 선구자에서, 시계열을 10 개 세그먼트들로 나누고 각 세그먼트에 대한 요약 통계(최대, 평균, 최소)를 계산했다. 결과적인 고차원 표현은 SVM 분류자에 입력되었다. McDuff 연구 자체에서는, 세그먼트화가 생략되었으며 동일한 요약 통계가 얼굴 표정 추정의 전체 시계열에서 계산되었다(AU의 존재, 주어진 개별 표현의 강도 등). 결과 표현은 여전히 16 차원을 가진다.
결과
테스트 결과는 모든 광고들, 국가들 및 제품 카테고리에 걸쳐 처음 보고된다. 그런 다음 결과들이 보다 세분화된 비교를 위해 보고된다. 이들은 다음과 같은 모델이다: (1) 관련 광고들에 대한 단일의 변형만 포함하고, 이는 샘플 광고들 간의 상관 관계로 인한 편향을 제거하지만 감소된 광고들 수의 영향을 받을 수 있고; 그리고 (2) 제품 카테고리와 국가를 구별한다.
현재의 발견은 McDuff 연구 결과와 비교되었다. 이 비교는 본원에 개시된 시스템 및 방법에 따른 동적 특징이 제품 카테고리 전반에 걸쳐 증가된 정확성 및 더 큰 일관성을 가능하게 한다는 것을 입증한다. 모든 비교를 위해, 수신기 작동 특성 곡선(ROC AUC)에서 정확도와 영역을 모두 보고한다. 정확성은 진정한 긍정과 진정한 부정을 모든 경우로 나눈 값의 합이다. 그것은 직관적으로 매력적이지만 배포가 불균형할 때 해석하기가 어렵다. 그러한 경우, 정확성은 분류자와 그라운드 진리(ground truth) 간의 일치에 대한 편향된 추정치가 된다. ROC AUC는 참 및 거짓 긍정 사이의 지속적인 관계를 정량화 한다.
"긍정적인 등급"(즉, 더 높은 점수를 받은 광고)에 높은 순위가 지정되면, 곡선 아래 영역은 무작위로 선택된 양의 인스턴스가 무작위로 선택된 음의 인스턴스보다 높게 평가될 확률을 제공한다. 정의에 따르면, 랜덤 분류자에 대한 ROC AUC는 0.5이다. 정확성과 회상(recall)에서 분류자들 사이의 차이점을 가릴 수는 있지만, ROC AUC는 양성과 음성의 불균형에 영향을 받지 않는다). 본원의 데이터에서, 제품 불균형은 제품 카테고리와 국가를 비교할 때 마일드하지만(56%), 카테고리들이나 국가들 사이를 비교할 때 종종 더 크다. 따라서 정확도는 주의해서 해석해야 한다.
모델들이 트레이닝 데이터에서 노이즈 구성 요소를 나타내고 새로운 데이터에서 예측할 수 없게 되는 것을 배우는 경우인, 트레이닝된 모델들이 오버핏되지 않도록 하려면, 트레이닝된 모델들의 정규화 능력을 평가하기 위해 다른 검증 기법이 적용되었다. 샘플 크기에 적합하게 K-회 교차 검증 (Kx-CV)을 사용하여 샘플을 반복적으로 K 분리 트레이닝과 시험 세트로 나누고, 최종 성능 메트릭은 테스트 세트를 통해 평균된다. 시험에서 K = 10 폴드를 사용하고 절차를 n = 10 회 반복 하였다. 반복 측정에서 신뢰 구간은 t- 통계를 사용하여 95 % 신뢰도로 계산되었으므로 작은 표본 크기에 더 적합하다. 결과를 해석하는 데 도움이 되도록 학습 데이터의 등급 확률보다 우선 순위가 높은 임의의 모델인 베이스라인이 보고되었다.
광고는 지역 및 제품 카테고리와 같은 모델 독립 인자에 따라 그룹화될 수 있으므로, 이러한 인자로 분할이 정의되는 특정 교차 유효성 검사를 실행할 수 있다. 우리는 이러한 유효성 검사 계획을 LOLO(Leave One Label Out) 검증이라고 지칭한다. 이 실험은 이러한 인자의 변화에 대한 모델 성과의 견고성을 테스트한다.
McDuff 연구와의 비교를 가능하게 하기 위해, 테스트 폴드에 단 하나의 샘플만 포함된 LOO(Leave One Out)가 수행되었습니다. 그러나, 일부 메트릭(특히 ROC AUC)의 경우, LOO는 샘플 크기가 작아질 때 이상한 동작을 표시한다.
오직 하나의 광고 변형이 선택된 케이스에 대해서 결과가 또한 보고된다. 이 데이터 필터링이 클래스 구성원의 잠재적 모호성을 줄일 수는 있지만, 표본 크기가 줄어들어 트레이닝이 더욱 어려워진다. 임의 선택에 의해 유발된 편향을 피하기 위해, 광고 변형의 각 그룹에서 광고 선택을 위해 중첩 된 교차 유효성 검사가 실행되었다. 보고된 측정 항목은 임의 광고 선택에 대한 평균이다.
모든 샘플에 대한 테스트 결과
제안된 모델은 제품 카테고리 또는 국가에 관계없이 모든 광고(N = 147)에 대해 트레이닝되고 교차 검증되었다. ROC AUC는 0.747이었고 신뢰 구간이 ± 0.025로 좁아 신뢰도가 높았다. 표 2를 참조하시오.
반복된 10-폴드 CV Accuracy ROC AUC
우리의 모델 71.4 ± 2.2% 0.747 ± 0.025
랜덤 베이스라인 52.3 ± 2.7% 0.50
표 2: 모든 샘플 포인트들을 사용한 교차 검증 테스트(감정 및 머리 자세 신호 + 앙상블 모델). 성과는 정확도와 ROC AUC로 표현된다. 적절한 경우 95 % 신뢰도로 신뢰 구간을 보고한다.
광고 변형에 대한 견고성
동적 모델이 트레이닝되고, 변형들(N = 116)을 포함하지 않고 교차 검증된 경우, ROC AUC는 거의 동일하게 유지되었으며 신뢰 구간은 ± 0.025에서 ± 0.01로 감소하였다. 이 설정에서는 각 광고 그룹의 여러 옵션들 중에서 하나의 대안만 유지되었다. 랜덤 선택으로 인해 바이어스를 방지하기 위해 무작위 광고 선택을 10 번 반복하고 각 임의 선택에 대해 10-폴드 CV를 실행하였다. 표 3을 참조하시오.
10-폴드 CV 정확도 ROC AUC
우리의 모델 72.8 ± 0.8% 0.745 ± 0.01
랜덤 베이스라인 53.8 ± 1.0% 0.50
표 3: 광고의 고유한 변형을 무작위로 선택하여 제안된 접근 방법(감정과 동적 머리 자세 신호 + 앙상블 모델의 혼합)에 대한 교차 검증 테스트.(표본 크기 N = 116). 성과는 정확도와 ROC AUC로 표현된다. 적절한 신뢰 구간은 95 % 신뢰도로 보고되었다.
얻어진 결과는 모든 데이터 요소에서 얻은 결과와 매우 유사하다. 이는 라벨의 모호성에 대한 원래의 가설과는 대조적으로 광고 변형이 실제로 다른 행동 반응을 유도한다는 것을 나타낸다. 차례로, 변형은 독립적인 표본으로 간주될 수 있다.
카테고리 및 국가 차이에 대한 견고성
모델이 얼마나 잘 정규화되었는지 테스트하기 위해 트레이닝 테스트 절차가 다음과 같이 수정되었다. 트레이닝은 하나의 제품 카테고리를 제외한 모든 제품 카테고리에서 수행되었으며, 생략된 항목을 테스트 한 다음 반복적으로 각 카테고리에 트레이닝 및 테스트를 반복했다. 이것을 LOLO 교차 검증(leave-one-label-out 검증)이라고 지칭한다. 마찬가지로 국가마다 동일한 반복적인 LOLO를 수행할 수 있다.
ROC AUC는 하나의 카테고리를 제외하고는 모두 일관성이 있었다(유일한 예외는 매우 높은 ROC AUC 값을 가진 매우 작은 식품 카테고리였다). 서로 다른 제품 카테고리들 간의 결과의 일관성은 매우 놀랍다.
ROC AUC 역시 한 국가를 제외하고는 모두 비슷했다(ROC AUC 값이 낮은 유일한 예외는 러시아가 등급 4의 최고 실적 광고 1 개를 보유하지 않은 경우).
카테고리 정확성 ROC AUC #로우 #하이
단 음식 60.0% 0.702 23 22
음식 91.7% 0.975 10 2
애완동물 관리 71.9% 0.720 36 21
66.7% 0.700 13 20
평균 72.6% 0.774
표 4: 상이한 제품 카테고리에 대한 제안된 판매 예측 모델의 정규화된 성과. 유효성 검사 방법은 LOLO이므로 트레인 폴드는 테스트 광고들이 로우 및 하이 성과 등급의 샘플들의 수를 나타내는 #로우 및 #하이에 속하는 카테고리로부터의 샘플이 포함되어 있지 않는다.
영역 정확도 ROC AUC #로우 #하이
호주 74.1% 0.833 18 9
프랑스 73.3% 0.786 8 7
독일 76.2% 0.824 9 12
러시아 59.1% 0.386 15 7
UK 78.8% 0.806 19 14
USA 69.0% 0.733 13 16
평균 71.7% 0.728
표 5: 다른 지역들의 광고에 제안된 판매 예측 모델의 정규화 성과. 유효성 검사 방식은 LOLO이므로 트레인 폴드는 각각 로우 및 하이 성과 등급의 샘플들의 수를 나타내는 #로우 및 #하이에 속하는 영역으로부터의 샘플을 포함하지 않는다.
본원에 개시된 접근 방식과 협약 비교
McDuff 연구에서 제안된 접근법과 본원에 제시된 모델은 같은 국가의 4 개국에서 동일한 제품 카테고리에 대한 응답자의 웹캠 평가를 포함한다. 두 경우 모두, 판매 상승 데이터는 동일한 출처에서 얻은 것이다. 두 경우 모두, ROC AUC에서 결과가 정량화되었지만 McDuff 연구에서는 LOO 검증만 보고되었으며, 본 예시에서는 10-폴드 교차 검증이 반복적으로 보고되었다. 접근 방식들의 두 가지 주요 차이점은 데이터를 나타내는 특징과 적용된 분류 모델이다. 두 가지 접근 방식은 기능, 제품 또는 국가의 유형과 관련이 없는 다른 측면에서도 달랐다. 광고의 수(예시 모델의 경우 더 적음) 및 시청 기간(예제 모델의 경우 보다 최근 및 보다 적은 기간) 및 기타 절차 상의 측면과 같은 이러한 차이는 기능의 유형과 관련이 없다.
통계적 분석
위의 주의 사항을 고려해 두고, 분류 성과에 대한 피처의 영향이 보고된다. 정적 접근법에 대한 과거 보고와의 비교를 돕기 위해 동일한 RBF-SVM이 이 연구에서 제안된 피처들의 세트에 대해 트레이닝되었다. 표 6은 McDuff의 신호뿐만 아니라 위에 설명된 예제 신호 결과에 대한 결과를 보고한다. 이 피처는 McDuff 연구에서 사용된 피처의 정확한 복제본이 아니지만 유사하다(예를 들어, 웃음과 같은 다른 분류자의 활성화에서 실제로 유도된 "레일런스" 메트릭은 혐오감 분류자 출력으로 대체되었지만 눈썹 상승 인상은 우리 자신의 놀라운 분류 기준으로 대체되었다).
얼굴 표정 정보만을 사용하여 머리 자세 정보와 표현만 사용하는 표현에 대한 별도의 결과도 포함된다(미소, 놀라움 및 혐오의 역학에 기초한). 제안된 예시 모델의 경우, 머리와 얼굴의 역학을 배타적으로 사용하지 않고 결합했을 때 성능이 더 좋았다. 이것은 비언어적 행동의 포장, 머리 자세 및 동작이 독립적으로 매출 상승을 예측하는 데 기여한다는 것을 의미한다. LOO 및 10-폴드 교차 유효성 검사를 위해 예시 모델을 결합한 표현은 훨씬 더 높은 성능을 보였으며, McDuff의 기존 표현을 사용하면 무작위 기회 성과를 나타냈다. 이 발견은 머리 자세 정보와 세션 레벨 분석의 중요성을 강조한다. 표현의 차이의 크기는 절차 상의 차이(예를 들어, 광고의 수)가 대부분 사소한 역할을 한다는 것을 나타낸다. 정규화 문제의 지표로 트레이닝 후 유지된 지원 벡터 수(#SV)도 보고된다. 10-폴드 교차 검증 방식의 147 개 샘플의 경우, 트레이닝 폴드의 크기는 약 132이다. SVM 모델은 #SV가 전체 트레이닝 단계만큼 큰 경우 정규화할 수 없다. 그 결과 McDuff 연구에서 보고된 낮은 성과는 비선형 SVM에 의한 고차원 표현의 분류가 더 많은 데이터를 필요로 한다는 사실에 기인한 것으로 확인되었다. 이 추가 데이터 요구 사항은 여기에 설명된 방법을 수행하는 데 필요하지 않다.
앙상블 모델은 McDuff의 SVM 모델보다 결합된 신호에서 더 잘 수행되었을 뿐만 아니라(0.747 ± 0.025 대 0.701 ± 0.021), 현저하게 더 간단하다(두 개의 트레이닝된 모델에서 파라미터의 수로 표시). 결과적으로 보이지 않는 데이터에 대한 정규화 오류가 줄어들 것으로 예상된다. 또 다른 장점은 다른 행동 신호를 추가하여 개선하면 잘 제어된 방식으로 모델의 복잡성을 증가시켜서 개선된 모델의 정규화를 보존한다는 것이다.
검증 Signal ROC AUC #SV
LOO 머리 자세 0.685 127
얼굴 표정 0.30. 107
결합된 신호 0.732 122
McDuff'의 신호 0.503 130
10-폴드 CV 머리 자세 0.610±0.021 90
얼굴 표정 0.677±0.023 96
결합된 신호 0.701±0.021 109
McDuff'의 신호 0.580±0.023 118
표 6: 상이한 표현이 분류 성과에 미치는 영향. 분류자는 비선형 방사형 기초 함수 커널을 가진 동일한 SVM이다. 이 비교는 또한 머리 자세와 얼굴 표정 정보의 보완적인 성격을 보여준다.
오늘날의 시장 조사에서 가장 큰 과제 중 하나는 전통적인 조사 기반 방법이 잘 확장되지 않기 때문에 분석할 미디어 컨텐츠의 수가 기하 급수적으로 증가한다는 것이다. 또한 이러한 방법은 컨텐츠와 소비자 간의 상호 작용에서 중요한 정서적 측면을 포착하지 못한다.
본 명세서에 개시된 본 시스템 및 방법은 실용적인 시장 조사를 위한 대규모 행동 데이터 수집 및 분석을 가능하게 하는 실현 가능한 데이터 획득 시스템을 생성하였다. 이러한 시스템 및 방법은 판매 실적이 높은 광고와 낮은 광고를 구별하는 방법을 학습한 분류 모델도 교육하였다. 훈련 데이터의 크기와 구조는 제한되어 있지만, 학습된 모델은 모델링에 사용되지 않은 몇 가지 요소를 잘 정규화하였다. 이러한 유망한 결과는 새로운 세대의 자동화되고 비용 효율적인 행동 큐 기반 분석을 위한 시장 조사 도구의 길을 열었다.
방법론을 더 향상 시키려면 여러 가지 한계점을 해결해야 한다. 행동 분석은 개인차가 단지 랜덤 섭동이라는 가정하에 평균 반응을 기반으로 한다. 그러나 이러한 개인차가 광고 간의 차이에 대한 관련 정보를 제공할 확률이 높다. 또 다른 제한 점은 우리 모델은 관측 사이에 보다 복잡한 상호 작용을 허용하지 않는다는 것이다. 일단 샘플을 더 사용할 수 있게 되면, 우리의 방법은 더 많은 특징을 포함하도록 확장될 수 있고, 또한 특징들 간의 선형 또는 비선형 상호 작용을 포착할 수 있다(정규화된 단계별 선형 회귀 모델은 피처 간의 쌍방향 또는 고차 상호 작용을 체계적으로 확인할 수 있음). 마지막으로 소비자 행동에 대한 광고의 영향을 완전히 이해하려면 의식적 회상 및 즉각적인 행동-감정 반응을 테스트하는 하이브리드 모델을 개발해야 한다.
도 1 내지 도 5는 본 발명의 설명을 허용하는 개념적 도면이다. 당업자는 본 발명의 실시 예들의 다양한 양상들이 하드웨어, 펌웨어, 소프트웨어 또는 이들의 조합으로 구현될 수 있다는 것을 이해해야 한다. 그러한 실시 예들에서, 다양한 구성 요소들 및/또는 단계들은 본 발명의 기능들을 수행하기 위해 하드웨어, 펌웨어 및/또는 소프트웨어로 구현될 것이다. 즉, 소프트웨어의 동일한 하드웨어, 펌웨어 또는 모듈은 예시된 블록(예를 들어, 구성 요소 또는 단계) 중 하나 이상을 수행할 수 있다.
소프트웨어 구현 예에서, 컴퓨터 소프트웨어(예를 들어, 프로그램 또는 다른 명령) 및/또는 데이터는 컴퓨터 프로그램 제품의 일부로서 기계 판독 가능 매체에 저장되고, 하드 드라이브 또는 통신 인터페이스를 통해 컴퓨터 시스템 또는 다른 디바이스 또는 머신에 로딩된다. 컴퓨터 프로그램(컴퓨터 제어 논리 또는 컴퓨터 판독 가능 프로그램 코드라고도 함)은 메인 및/또는 2차 메모리에 저장되며, 하나 이상의 프로세서(제어기 등)에 의해 구현되어 하나 이상의 프로세서로 하여금 본 명세서에서 설명된 본 발명의 기능을 수행하게 한다. 이 문서에서, "기계 판독 가능 매체", "컴퓨터 프로그램 매체" 및 "컴퓨터 사용 가능 매체"라는 용어는 일반적으로 랜덤 액세스 메모리(RAM); 판독 전용 메모리(ROM); 제거 가능한 저장 유닛(예를 들어, 자기 또는 광학 디스크, 플래시 메모리 디바이스 등); 하드 디스크; 또는 이와 유사한 것과 같은 매체를 지칭한다.
특히, 전술한 도면 및 예는 본 발명의 범위를 단일의 실시 예로 제한하려는 것이 아니고, 다른 실시 예들이 설명되거나 예시된 요소의 일부 또는 전부의 교환에 의해 가능하다. 또한, 공지된 구성 요소를 사용하여 본 발명의 특정 요소가 부분적으로 또는 완전히 구현될 수 있는 경우, 본 발명의 이해를 위해 필요한 그러한 공지된 구성 요소의 부분만이 기술되며, 그러한 공지된 구성 요소의 다른 부분에 대한 상세한 설명은 본 발명을 모호하게 하지 않도록 생략되었다. 본 명세서에서, 단수의 구성 요소를 도시하는 실시 예는 복수의 동일 구성 요소를 포함하는 다른 실시 예로 반드시 제한되어서는 안되며, 그 반대도 마찬가지이다. 또한, 출원인은 명시적으로 언급되지 않는 한, 명세서 또는 청구의 어떠한 용어도 흔치 않은 또는 특별한 의미로 간주하려는 의도는 없다. 또한, 본 발명은 설명을 위해 본 명세서에서 언급된 공지된 구성 요소에 대한 현재 및 미래의 공지된 균등 물을 포함한다.
특정 실시 예에 대한 전술한 설명은 관련 분야(들)(본원에 언급되고 인용된 문헌의 컨텐츠 포함)의 기술 내의 지식을 적용함으로써, 과도한 실험 없이, 본 발명의 일반적인 사상을 벗어나지 않고, 다른 사람들이 그러한 특정 실시 예와 같은 다양한 응용 예를 용이하게 변형 및/또는 개조할 수 있다는 본 발명의 일반적인 성질을 완전히 밝힐 것이다. 따라서, 이러한 적응 및 수정은 본원에 제시된 교시 및 지침에 기초하여 개시된 실시 예들의 등가물의 의미 및 범위 내에 있는 것으로 의도된다. 본 명세서의 어구 또는 용어는 설명을 위한 것이지 제한을 위한 것은 아니며, 따라서 본 명세서의 전문 용어 또는 표현은 관련 기술 분야(들)의 당업자의 지식과 결합하여 본 명세서에 제시된 교시 및 지침에 비추어 당업자에 의해 해석되어야 한다는 것을 이해할 수 있다.
본 발명의 다양한 실시 예들이 위에서 설명되었지만, 그것들은 제한이 아닌 예로서 제시된 것임을 이해해야 한다. 본 발명의 사상 및 범위를 벗어나지 않으면서 형태 및 세부 사항의 다양한 변화가 이루어질 수 있음은 당업자에게 명백할 것이다. 따라서, 본 발명은 전술한 예시적인 실시 예들 중 어느 것에 의해서도 제한되어서는 안되며, 다음의 특허 청구 범위 및 그 등가물에 따라서만 정의되어야 한다.

Claims (21)

  1. 클라이언트 디바이스(client device)에서 사용자에 의해 소비될 수 있는 미디어 컨텐츠(media content)의 피스(piece)에 대한 성과 데이터(performance data)를 예측하는 컴퓨터 구현 방법(computer-implemented method)에 있어서,
    상기 미디어 컨텐츠의 피스를 소비하는 동안 상기 미디어 컨텐츠의 피스에 대한 상기 사용자의 응답을 나타내는 원시 입력 데이터(raw input data)를, 상기 클라이언트 디바이스에서, 수집하는 단계;
    상기 수집된 원시 입력 데이터를 프로세싱하여:
    디스크립터 데이터 포인트들(descriptor data points)의 시계열(time series)을 추출하고, 그리고
    감정 상태 데이터 포인트들의 시계열을 획득하는 단계; 및
    상기 디스크립터 데이터 포인트들의 시계열 또는 상기 감정 상태 데이터 포인트들의 시계열의 예측 파라미터와 성과 데이터 사이를 맵핑하는 분류 모델(classification model)에 기초하여 상기 미디어 컨텐츠의 피스에 대한 예측된 성과 데이터를 출력하는 단계를 포함하고,
    상기 예측 파라미터는 상기 미디어 컨텐츠의 피스에 대한 상기 사용자의 상기 응답의 상대적인 변화의 양적 지시자(quantitative indicator)인, 컴퓨터 구현 방법.
  2. 제1항에 있어서, 상기 미디어 컨텐츠의 피스는 복수의 사용자들에 의해 소비 가능하며, 상기 복수의 사용자들 각각은 개별 클라이언트 디바이스에 있고, 상기 방법은 상기 미디어 컨텐츠의 피스에 대한 복수의 사용자 응답들을 나타내는 원시 입력 데이터를 복수의 상기 개별 클라이언트 디바이스 각각에서 수집하는 단계를 더 포함하는, 컴퓨터 구현 방법.
  3. 제1항에 있어서, 상기 수집된 원시 입력 데이터를 프로세싱하는 단계는:
    상기 예측 파라미터를 결정하는 단계;
    선형 회귀(linear regression)를 상기 예측 파라미터에 적용하여 선형 회귀 출력을 출력하는 단계;
    2 진화된 출력(binarized output)을 생성하기 위해 상기 선형 회귀 출력을 2 진화하는 단계; 및
    로지스틱 회귀(logistic regression)를 상기 2 진화된 출력에 적용하여 상기 예측된 성과 데이터를 출력하는 단계를 더 포함하는, 컴퓨터 구현 방법.
  4. 제2항에 있어서,
    상기 추출된 상기 디스크립터 데이터 포인트들의 시계열 또는 상기 감정 상태 데이터 포인트들의 시계열 사이의 시간적 차이(temporal difference)
    Figure pct00050
    를 계산하는 단계로서, 여기서
    Figure pct00051
    , 그리고
    Figure pct00052
    는 사용자
    Figure pct00053
    에 대한 상기 추출된 디스크립터 데이터 포인트들 또는 상기 추출된 감정 상태 데이터의 양적 파라미터
    Figure pct00054
    의 시계열인, 상기 계산하는 단계;
    상기 시간적 차이로부터 평균 차이
    Figure pct00055
    를 차감함으로써(
    Figure pct00056
    ) 상기 시간적 차이를 정규화하여 정규화된 시간적 차이
    Figure pct00057
    를 생성하는 단계로서, 여기서
    Figure pct00058
    Figure pct00059
    는 상기 시계열의 지속 시간인, 상기 정규화된 시간적 차이를 생성하는 단계;
    상기 시계열을 미리 결정된 지속 시간을 갖는 복수의 시간 빈(bin)들로 세그먼트화하는 단계;
    Figure pct00060
    에 따라 상기 정규화된 차이의 최대를 계산하는 단계로서, 여기서,
    Figure pct00061
    Figure pct00062
    번째 값이 빈
    Figure pct00063
    에 속하는 것을 의미하는, 상기 계산하는 단계;
    Figure pct00064
    에 따라 상기 복수의 시간 빈들의 각각의 값들을 가중하고 합하는 단계로서, 여기서
    Figure pct00065
    은 빈들의 수이므로 변수의 프레임 또는 세그먼트 인덱스가 더 이상 없는; 상기 가중하고 합하는 단계;
    상기 미디어 컨텐츠의 피스의 상기 길이에 의해
    Figure pct00066
    를 정규화하는 단계;
    상기 복수의 사용자들에 대한 상기 예측 파라미터를 나타내는 기술 통계(descriptive statistic)를 생성하는 단계를 더 포함하는, 컴퓨터 구현 방법.
  5. 제1항에 있어서, 상기 클라이언트 디바이스는 네트워크를 통해 서버 디바이스와 통신 가능하고, 상기 수집된 원시 입력 데이터의 프로세싱은 상기 서버 디바이스에서 발생하는, 컴퓨터 구현 방법.
  6. 제1항에 있어서, 상기 원시 입력 데이터는 상기 미디어 컨텐츠의 피스에 관한 사용자 행동 데이터, 사용자 생리 데이터(physiological data) 또는 메타데이터 중 임의의 것을 포함하는, 컴퓨터 구현 방법.
  7. 제1항에 있어서, 각각의 감정 상태 데이터 포인트는 하나 이상의 디스크립터 데이터 포인트들에 기초하여 결정되는, 컴퓨터 구현 방법.
  8. 제7항에 있어서, 각각의 디스크립터 데이터 포인트는 상기 원시 입력 데이터로부터 추출된 피처(feature)를 나타내는 양적 파라미터를 포함하는, 컴퓨터 구현 방법.
  9. 제8항에 있어서, 상기 예측 파라미터는 상기 감정 상태 데이터 포인트들의 시계열에서 인접한 감정 상태 데이터 포인트들 사이의 상기 양적 파라미터의 상대적 변화의 함수인, 컴퓨터 구현 방법.
  10. 제1항에 있어서, 각각의 감정 상태 데이터 포인트는 사용자 감정 상태를 나타내는 양적 파라미터를 포함하는, 컴퓨터 구현 방법.
  11. 제10항에 있어서, 상기 예측 파라미터는 상기 감정 상태 데이터 포인트들의 시계열에서 인접한 감정적 상태 데이터 포인트들 사이의 상기 양적 파라미터의 상대적 변화의 함수인, 컴퓨터 구현 방법.
  12. 제2항에 있어서,
    상기 복수의 사용자들 각각에 대한 상기 디스크립터 데이터 포인트들의 시계열 또는 상기 감정 상태 데이터 포인트들의 시계열로부터 개별 예측 파라미터를 결정하는 단계; 및
    상기 복수의 사용자들의 상기 개별 예측 파라미터들로부터 그룹 예측 파라미터를 결정하는 단계를 더 포함하고,
    상기 예측된 성과 데이터는 상기 그룹 예측 파라미터를 이용하여 획득되는, 컴퓨터 구현 방법.
  13. 제12항에 있어서, 상기 수집된 데이터를 프로세싱하는 단계는 상기 그룹 예측 파라미터를, 상기 그룹 예측 파라미터와 상기 성과 데이터 사이에 매핑하는 분류 모델에 입력하는 단계를 포함하는, 컴퓨터 구현 방법.
  14. 제13항에 있어서, 복수의 그룹 예측 파라미터들을 획득하는 단계를 더 포함하고, 상기 분류 모델은 상기 복수의 그룹 예측 파라미터들과 상기 성과 데이터 사이를 매핑하는, 컴퓨터 구현 방법.
  15. 제13항에 있어서, 상기 예측된 성과 데이터 출력은 상기 분류 모델로부터 출력된 결과를 사용하여 생성된, 컴퓨터 구현 방법.
  16. 제1항에 있어서, 상기 원시 입력 데이터는 상기 클라이언트 디바이스에서 캡처된 이미지 데이터를 포함하는, 컴퓨터 구현 방법.
  17. 제16항에 있어서, 상기 이미지 데이터는 사용자의 얼굴 이미지를 나타내는 복수의 이미지 프레임들을 포함하는, 컴퓨터 구현 방법.
  18. 제7항에 있어서, 각각의 디스크립터 데이터 포인트는 다차원(multi-dimensional) 데이터 포인트인 얼굴 특징 디스크립터 데이터 포인트이고, 상기 다차원 데이터 포인트의 각각의 구성 요소는 개별 얼굴 표식(facial landmark)을 나타내는, 컴퓨터 구현 방법.
  19. 제18항에 있어서, 각각의 얼굴 특징 디스크립터 데이터 포인트는 개별 프레임과 연관되는, 컴퓨터 구현 방법.
  20. 제1항에 있어서, 상기 미디어 컨텐츠의 피스는 라이브 비디오 스트림, 비디오 광고, 오디오 광고, 영화 예고편, 영화, 웹 광고, 애니메이션 게임 또는 이미지 중 임의의 것인, 컴퓨터 구현 방법.
  21. 제1항에 있어서, 상기 성과 데이터는 판매 상승 데이터인, 컴퓨터 구현 방법.
KR1020197018920A 2016-12-02 2017-11-16 미디어 컨텐츠 성과 예측을 위한 데이터 프로세싱 방법 KR20190091488A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
GBGB1620476.0A GB201620476D0 (en) 2016-12-02 2016-12-02 Computer-implemented method of predicting performance data
GB1620476.0 2016-12-02
US15/653,051 2017-07-18
US15/653,051 US10540678B2 (en) 2016-12-02 2017-07-18 Data processing methods for predictions of media content performance
PCT/EP2017/079419 WO2018099725A1 (en) 2016-12-02 2017-11-16 Data processing methods for predictions of media content performance

Publications (1)

Publication Number Publication Date
KR20190091488A true KR20190091488A (ko) 2019-08-06

Family

ID=58159711

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197018920A KR20190091488A (ko) 2016-12-02 2017-11-16 미디어 컨텐츠 성과 예측을 위한 데이터 프로세싱 방법

Country Status (6)

Country Link
US (2) US10540678B2 (ko)
EP (1) EP3549084A1 (ko)
JP (1) JP7111711B2 (ko)
KR (1) KR20190091488A (ko)
CN (1) CN110036402A (ko)
GB (1) GB201620476D0 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220027722A (ko) * 2020-08-27 2022-03-08 쿠팡 주식회사 최소 검출 가능 효과를 예측하기 위한 컴퓨터 시스템 및 방법
WO2023068503A1 (ko) * 2021-10-21 2023-04-27 이화여자대학교 산학협력단 네트워크 데이터 분석을 위한 메타 디스크립션 변환 방법 및 그를 이용한 네트워크 분석 장치
KR102662258B1 (ko) * 2023-06-21 2024-04-30 (주) 와일리 자율학습 기반 광고캠페인 추천 서비스 제공 시스템

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10158898B2 (en) * 2012-07-26 2018-12-18 Comcast Cable Communications, Llc Customized options for consumption of content
US10846613B2 (en) * 2016-12-29 2020-11-24 Disney Enterprises, Inc. System and method for measuring and predicting content dissemination in social networks
US10733453B2 (en) * 2017-06-07 2020-08-04 Silveredge Technologies Pvt. Ltd. Method and system for supervised detection of televised video ads in live stream media content
US10719714B2 (en) * 2017-06-07 2020-07-21 Silveredge Technologies Pvt. Ltd. Method and system for adaptively reducing detection time in real-time supervised detection of televised advertisements
US11176484B1 (en) * 2017-09-05 2021-11-16 Amazon Technologies, Inc. Artificial intelligence system for modeling emotions elicited by videos
GB2571956B (en) * 2018-03-14 2022-04-27 Sony Interactive Entertainment Inc Head-mountable apparatus and methods
US11403663B2 (en) * 2018-05-17 2022-08-02 Spotify Ab Ad preference embedding model and lookalike generation engine
US11537428B2 (en) 2018-05-17 2022-12-27 Spotify Ab Asynchronous execution of creative generator and trafficking workflows and components therefor
US20190355372A1 (en) 2018-05-17 2019-11-21 Spotify Ab Automated voiceover mixing and components therefor
US10986686B2 (en) * 2019-07-11 2021-04-20 International Business Machines Corporation Offline device management
CN110988804B (zh) * 2019-11-11 2022-01-25 浙江大学 一种基于雷达脉冲序列的雷达辐射源个体识别系统
CN110992101A (zh) * 2019-12-05 2020-04-10 中国铁道科学研究院集团有限公司电子计算技术研究所 车站广告媒体资源价值及收益预测回归方法及预测模型
US11861538B1 (en) * 2020-09-23 2024-01-02 Amazon Technologies, Inc. Optimization techniques for content presentation strategies
IT202100007499A1 (it) * 2021-03-26 2022-09-26 Enkeli Customer Partner S R L Architettura di rete telematica ibrida dedicata a dei processi di estrazione e di valutazione delle opinioni per mezzo dell’expression analisys e relativa elettronica e software che ne fanno parte
CN113077295B (zh) * 2021-04-21 2022-02-15 深圳市东信时代信息技术有限公司 基于用户终端的广告分级投放方法、用户终端和存储介质
CN116843388B (zh) * 2023-08-29 2023-11-17 新义互联(北京)科技有限公司 一种广告投放分析方法及系统
CN117196734B (zh) * 2023-09-14 2024-03-22 长沙理工大学 一种众包任务的价值评估方法、系统、设备及存储介质
CN117077030B (zh) * 2023-10-16 2024-01-26 易停车物联网科技(成都)有限公司 一种面向生成模型的少样本视频流分类方法及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3650572B2 (ja) * 2000-07-07 2005-05-18 日本電信電話株式会社 時系列データの分類装置
WO2008032787A1 (fr) * 2006-09-13 2008-03-20 Nippon Telegraph And Telephone Corporation ProcÉDÉ de dÉtection de sensations, dispositif de dÉtection de sensations, programme de dÉtection de sensations contenant le procÉDÉ, et support d'enregistrement contenant le programme
JP2008205861A (ja) 2007-02-20 2008-09-04 Matsushita Electric Ind Co Ltd 視聴質判定装置、視聴質判定方法、視聴質判定プログラム、および記録媒体
US20080295126A1 (en) * 2007-03-06 2008-11-27 Lee Hans C Method And System For Creating An Aggregated View Of User Response Over Time-Variant Media Using Physiological Data
US20090124241A1 (en) 2007-11-14 2009-05-14 Qualcomm Incorporated Method and system for user profile match indication in a mobile environment
JP2011239158A (ja) 2010-05-10 2011-11-24 Nippon Hoso Kyokai <Nhk> ユーザ反応推定装置、ユーザ反応推定方法およびユーザ反応推定プログラム
US20160191995A1 (en) 2011-09-30 2016-06-30 Affectiva, Inc. Image analysis for attendance query evaluation
US10111611B2 (en) * 2010-06-07 2018-10-30 Affectiva, Inc. Personal emotional profile generation
US9245280B2 (en) 2012-08-03 2016-01-26 Hulu, LLC Predictive video advertising effectiveness analysis
US11269891B2 (en) * 2014-08-21 2022-03-08 Affectomatics Ltd. Crowd-based scores for experiences from measurements of affective response
GB201415428D0 (en) 2014-09-01 2014-10-15 Realeyes O Method of targeting web-based advertisements

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220027722A (ko) * 2020-08-27 2022-03-08 쿠팡 주식회사 최소 검출 가능 효과를 예측하기 위한 컴퓨터 시스템 및 방법
WO2023068503A1 (ko) * 2021-10-21 2023-04-27 이화여자대학교 산학협력단 네트워크 데이터 분석을 위한 메타 디스크립션 변환 방법 및 그를 이용한 네트워크 분석 장치
KR20230057105A (ko) * 2021-10-21 2023-04-28 이화여자대학교 산학협력단 네트워크 데이터 분석을 위한 메타 디스크립션 변환 방법 및 그를 이용한 네트워크 분석 장치
KR102662258B1 (ko) * 2023-06-21 2024-04-30 (주) 와일리 자율학습 기반 광고캠페인 추천 서비스 제공 시스템

Also Published As

Publication number Publication date
US20200126111A1 (en) 2020-04-23
CN110036402A (zh) 2019-07-19
US10540678B2 (en) 2020-01-21
JP7111711B2 (ja) 2022-08-02
JP2020501260A (ja) 2020-01-16
EP3549084A1 (en) 2019-10-09
GB201620476D0 (en) 2017-01-18
US20180158093A1 (en) 2018-06-07

Similar Documents

Publication Publication Date Title
KR20190091488A (ko) 미디어 컨텐츠 성과 예측을 위한 데이터 프로세싱 방법
US11887352B2 (en) Live streaming analytics within a shared digital environment
US10019653B2 (en) Method and system for predicting personality traits, capabilities and suggested interactions from images of a person
US11430260B2 (en) Electronic display viewing verification
US11232290B2 (en) Image analysis using sub-sectional component evaluation to augment classifier usage
US20190034706A1 (en) Facial tracking with classifiers for query evaluation
US20170330029A1 (en) Computer based convolutional processing for image analysis
JP6807389B2 (ja) メディアコンテンツのパフォーマンスの即時予測のための方法及び装置
US20120259240A1 (en) Method and System for Assessing and Measuring Emotional Intensity to a Stimulus
US20170095192A1 (en) Mental state analysis using web servers
US20200342979A1 (en) Distributed analysis for cognitive state metrics
US11430561B2 (en) Remote computing analysis for cognitive state data metrics
Lin et al. Looking at the body: Automatic analysis of body gestures and self-adaptors in psychological distress
Kapcak et al. Estimating romantic, social, and sexual attraction by quantifying bodily coordination using wearable sensors
CN111723869A (zh) 一种面向特殊人员的行为风险智能预警方法及系统
Gautam et al. Perceptive advertising using standardised facial features
Lin et al. Automatic detection of self-adaptors for psychological distress
Szirtes et al. Behavioral cues help predict impact of advertising on future sales
WO2018099725A1 (en) Data processing methods for predictions of media content performance
Li et al. A facial depression recognition method based on hybrid multi-head cross attention network
Janowski et al. EMOTIF–A system for modeling 3D environment evaluation based on 7D emotional vectors
AU2021100211A4 (en) Predict Gender: Detect Faces and Predict their Gender, Age and Country Using Machine Learning Programming
Adnan et al. Unmasking Parkinson's Disease with Smile: An AI-enabled Screening Framework
Mamidisetti et al. Enhancing Depression Prediction Accuracy Using Filter and Wrapper-Based Visual Feature Extraction
Saxena Feature Space Augmentation: Improving Prediction Accuracy of Classical Problems in Cognitive Science and Computer Vison