KR102574021B1 - 인공지능 모델을 활용하여 영상 데이터 히스토리로부터 추출된 개인화된 이미지 기반으로 반응형 이미지 콘텐츠를 생성하는 방법, 장치 및 시스템 - Google Patents

인공지능 모델을 활용하여 영상 데이터 히스토리로부터 추출된 개인화된 이미지 기반으로 반응형 이미지 콘텐츠를 생성하는 방법, 장치 및 시스템 Download PDF

Info

Publication number
KR102574021B1
KR102574021B1 KR1020230078317A KR20230078317A KR102574021B1 KR 102574021 B1 KR102574021 B1 KR 102574021B1 KR 1020230078317 A KR1020230078317 A KR 1020230078317A KR 20230078317 A KR20230078317 A KR 20230078317A KR 102574021 B1 KR102574021 B1 KR 102574021B1
Authority
KR
South Korea
Prior art keywords
user
information
event
time
image
Prior art date
Application number
KR1020230078317A
Other languages
English (en)
Inventor
이가람
Original Assignee
이가람
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이가람 filed Critical 이가람
Priority to KR1020230078317A priority Critical patent/KR102574021B1/ko
Application granted granted Critical
Publication of KR102574021B1 publication Critical patent/KR102574021B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8545Content authoring for generating interactive applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Social Psychology (AREA)
  • Evolutionary Computation (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

일실시예에 따른 장치는 사용자 정보 및 사용자와 관련된 영상 데이터를 수집하고, 영상 데이터로부터, 사용자가 등장하는 부분을 출연 영상 데이터로 추출하고, 사용자의 단말로부터, 이벤트 정보를 수신하고, 이벤트 정보로부터, 이벤트의 시점을 확인하고, 출연 영상 데이터 중 이벤트의 시점과 가장 근접한 시점에 생성된 출연 영상 데이터에서 사용자의 얼굴 정보 및 신체 정보를 포함하는 사용자의 외모 정보를 획득하고, 이벤트의 시점에서 사용자의 외모 정보 변화를 반영하기 위하여, 미리 학습된 인공지능 모델에 사용자의 외모 정보를 입력하여 수정 사용자 외모 정보를 출력하고, 수정 사용자 외모 정보를 기반으로 이벤트 이미지를 생성하고, 사용자의 반응 정보를 생성하고, 이벤트 이미지에 반응 정보를 적용한 반응형 이미지를 생성할 수 있다.

Description

인공지능 모델을 활용하여 영상 데이터 히스토리로부터 추출된 개인화된 이미지 기반으로 반응형 이미지 콘텐츠를 생성하는 방법, 장치 및 시스템{METHOD, APPARATUS AND SYSTEM FOR GENERATING RESPONSIVE IMAGE CONTENT BASED ON PERSONALIZED IMAGES EXTRACTED FROM IMAGE DATA HISTORY USING ARTIFICIAL INTELLIGENCE MODEL}
아래 실시예들은 인공지능 모델을 활용하여 영상 데이터 히스토리로부터 추출된 개인화된 이미지를 기반으로 반응형 이미지 콘텐츠를 생성하는 기술에 관한 것이다.
디지털 기술의 보급이 보편화됨에 따라 스마트폰 또는 디지털 카메라 등을 이용하여 사진을 촬영하고 사진을 디지털 파일 형태로 소장하는 것이 보편화되었다. 이에, 삶을 살아가는데 있어서 결혼, 출생, 졸업, 입학, 생일 등의 특정 이벤트가 발생하였을 때 사진으로 일상을 기록하는 사람들이 많아지고 있다.
하지만, 사진의 경우, 오랜 시간이 지나면 해당 시점에서의 감정 상태가 기억나지 않는 경우가 대부분이며, 일일이 동영상을 촬영하기에는 용량이 과다하게 차지하는 문제점이 있었다.
이에 따라, 사용자의 영상 데이터 히스토리를 기반으로 특정 이벤트에 대하여 사용자의 반응 정보를 포함하는 반응형 이미지 콘텐츠에 대한 기술의 개발이 요구되는 실정이다.
대한민국 등록특허 제10-1725808호(2017.04.26 공고) 대한민국 등록특허 제10-2395083호(2022.05.10 공고) 대한민국 등록특허 제10-2334666호(2021.12.07 공고) 대한민국 공개특허 제10-2022-0158957 호(2022.12.02공개)
실시예들은 인공지능 모델을 활용하여 영상 데이터 히스토리로부터 추출된 개인화된 이미지를 기반으로 반응형 이미지 콘텐츠를 생성하고자 한다.
실시예들은 출연 영상 데이터를 기반으로 반응형 이미지에서 주요 표정의 반응 정보를 생성하고자 한다.
실시예들은 반응형 이미지가 표시된 디스플레이를 포함하는 장치를 이용하여 반응 정보에서의 변화 속도 및 유지 시간을 결정하고자 한다.
일실시예에 따르면, 장치에 의해 수행되는 방법은, 사용자 정보 및 사용자와 관련된 영상 데이터를 수집하는 단계; 상기 영상 데이터로부터, 상기 사용자가 등장하는 부분을 출연 영상 데이터로 추출하는 단계; 상기 사용자의 단말로부터, 이벤트 정보를 수신하는 단계; 상기 이벤트 정보로부터, 이벤트의 시점을 확인하는 단계; 상기 출연 영상 데이터 중 상기 이벤트의 시점과 가장 근접한 시점에 생성된 출연 영상 데이터에서 상기 사용자의 얼굴 정보 및 신체 정보를 포함하는 사용자의 외모 정보를 획득하는 단계; 상기 이벤트의 시점에서 상기 사용자의 외모 정보 변화를 반영하기 위하여, 미리 학습된 인공지능 모델에 상기 사용자의 외모 정보를 입력하여 수정 사용자 외모 정보를 출력하는 단계; 상기 수정 사용자 외모 정보를 기반으로 이벤트 이미지를 생성하는 단계; 상기 사용자의 반응 정보를 생성하는 단계; 및 상기 이벤트 이미지에 상기 반응 정보를 적용한 반응형 이미지를 생성하는 단계;를 포함할 수 있다.
상기 사용자의 반응 정보를 생성하는 단계는, 상기 출연 영상 데이터로부터, 사용자의 음성 정보를 획득하는 단계, 상기 음성 정보로부터 소리의 세기, 높낮이, 빠르기를 확인하는 단계, 상기 소리의 세기, 높낮이, 빠르기를 기반으로 감정 지수를 결정하는 단계, 상기 감정 지수가 미리 설정된 기준을 만족하지 않는 경우, 상기 사용자의 감정 상태 정보를 부정 상태로 결정하는 단계, 상기 감정 지수가 미리 설정된 기준을 만족하는 경우, 상기 음성 정보로부터, 키워드를 추출하는 단계, 상기 추출된 키워드 중에서 긍정 키워드의 비율인 긍정 비율을 산출하는 단계, 상기 긍정 비율이 미리 설정된 기준 비율 미만인 경우, 상기 사용자의 감정 상태 정보를 중립 상태로 결정하는 단계, 상기 긍정 비율이 상기 기준 비율 이상인 경우, 상기 사용자의 감정 상태 정보를 긍정 상태로 결정하는 단계, 상기 출연 영상 데이터로부터, 사용자가 등장한 등장 시간을 확인하는 단계, 상기 등장 시간 중 상기 부정 상태에 해당하는 부정 시간, 상기 중립 상태에 해당하는 중립 시간 및 상기 긍정 상태에 해당하는 긍정 시간을 추출하는 단계, 상기 이벤트 정보의 이벤트와 관련된 사물을 선정하는 단계, 상기 사용자와 관련된 영상 데이터에서 상기 사물이 등장한 횟수를 확인하는 단계, 상기 사물이 등장한 횟수가 미리 설정된 기준을 만족하는 경우, 상기 사용자와 관련된 영상 데이터를 상기 이벤트 정보의 이벤트와 관련된 이벤트 영상 데이터로 결정하는 단계, 상기 이벤트 영상 데이터에서 추출된 표정 중 주요 표정을 추출하는 단계, 및 상기 부정 시간, 상기 중립 시간 및 상기 긍정 시간을 이용하여 상기 주요 표정의 유지 시간 및 변화 속도를 포함하는 반응 정도를 결정하는 단계를 포함할 수 있다.
상기 반응 정도에서 변화 속도를 결정하는 단계는, 시청자와 상기 반응형 이미지가 표시된 디스플레이를 포함하는 장치 사이의 거리를 확인하는 단계, 상기 디스플레이에 입력되는 터치 강도를 확인하는 단계, 및 상기 거리에 반비례하고, 상기 터치 강도에 비례하도록 상기 변화 속도를 결정하는 단계를 포함할 수 있다.
상기 반응 정도에서 유지 시간을 결정하는 단계는, 상기 시청자의 움직임 정보를 획득하는 단계, 상기 장치 주변의 소리 정보를 획득하는 단계, 상기 움직임 정보 및 소리 정보를 이용하여 상기 유지 시간을 결정하는 단계, 및 현재 시점에서 특정 기간 동안 상기 이벤트 정보에 해당하는 이벤트의 발생 횟수의 증감 여부에 따라 상기 유지 시간을 조정하는 단계를 포함할 수 있다.
상기 반응 정도는 반응 강도를 더 포함하고, 상기 반응 강도는, 상기 사용자 정보로부터, 상기 이벤트 정보의 이벤트에 해당하는 평균 지출 비용을 산출하고, 상기 사용자 정보로부터, 사용자의 위치를 확인하고, 상기 사용자의 위치가 해당하는 지역에서 상기 이벤트 정보의 이벤트의 종류와 동일한 이벤트의 발생 횟수를 산출하고, 미리 설정된 기준 정도에 상기 평균 지출 비용 및 상기 발생 횟수에 비례하도록 설정된 가중치를 적용하여 결정될 수 있다.
상기 장치에 의해 수행되는 방법은, 상기 반응형 이미지에 대한 이미지 생성 비용을 결정하는 단계;를 더 포함하고, 상기 이미지 생성 비용을 결정하는 단계는, 상기 이벤트 정보로부터 이벤트 발생 시점과 상기 사용자의 현재 시점 사이의 기간을 산출하는 단계, 상기 영상 데이터로부터 수집한 영상의 개수를 확인하는 단계, 상기 산출된 기간 및 상기 영상의 개수를 기준으로 기준 비용을 산출하는 단계, 상기 사용자의 위치가 해당하는 지역에서 상기 이벤트의 종류가 동일한 동일 이벤트가 발생한 사용자의 수인 지역 발생 횟수를 산출하는 단계, 상기 이벤트 발생 시점에 해당하는 기간에서 상기 이벤트의 종류와 동일한 이벤트의 발생 횟수인 동일 발생 횟수를 산출하는 단계, 상기 기준 비용에 상기 동일 발생 횟수에 따라 비례하도록 설정된 가중치를 적용하여 상기 사용자의 이미지 생성 비용을 결정하는 단계, 및 상기 이벤트 발생 시점에서의 동일 이벤트 발생 횟수 및 상기 현재 시점에서의 동일 이벤트 발생 횟수의 증감 여부에 따라 상기 이미지 생성 비용을 조정하는 단계를 포함할 수 있다.
일실시예에 따른 장치는 하드웨어와 결합되어 상술한 방법들 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램에 의해 제어될 수 있다.
실시예들은 인공지능 모델을 활용하여 영상 데이터 히스토리로부터 추출된 개인화된 이미지를 기반으로 반응형 이미지 콘텐츠를 생성할 수 있다.
실시예들은 출연 영상 데이터를 기반으로 반응형 이미지에서 주요 표정의 반응 정보를 생성할 수 있다.
실시예들은 반응형 이미지가 표시된 디스플레이를 포함하는 장치를 이용하여 반응 정보에서의 변화 속도 및 유지 시간을 결정할 수 있다.
도 1은 일실시예에 따른 시스템의 구성을 설명하기 위한 도면이다.
도 2는 일실시예에 따른 인공지능 모델을 활용하여 영상 데이터 히스토리로부터 추출된 개인화된 이미지를 기반으로 반응형 이미지 콘텐츠를 생성하는 과정을 설명하기 위한 순서도이다.
도 3은 일실시예에 따른 사용자의 감정 상태 정보를 생성하는 과정을 설명하기 위한 순서도이다.
도 4는 일실시예에 따른 사용자의 반응 정보를 생성하는 과정을 설명하기 위한 순서도이다.
도 5는 일실시예에 따른 반응 정도에서 변화 속도를 결정하는 과정을 설명하기 위한 순서도이다.
도 6은 일실시예에 따른 반응 정도에서 유지 시간을 결정하는 과정을 설명하기 위한 순서도이다.
도 7은 일실시예에 따른 반응 정도에서 반응 강도를 결정하는 과정을 설명하기 위한 순서도이다.
도 8은 일실시예에 따른 반응형 이미지에 대한 이미지 생성 비용을 결정하는 과정을 설명하기 위한 순서도이다.
도 9는 일실시예에 따른 장치의 구성의 예시도이다.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
실시예들은 퍼스널 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트 폰, 텔레비전, 스마트 가전 기기, 지능형 자동차, 키오스크, 웨어러블 장치 등 다양한 형태의 제품으로 구현될 수 있다.
도 1은 일실시예에 따른 시스템의 구성을 설명하기 위한 도면이다.
일실시예에 따른 시스템은 통신망을 통해 서로 통신 가능한 사용자의 단말(10) 및 장치(30)를 포함할 수 있다.
먼저, 통신망은 유선 및 무선 등과 같이 그 통신 양태를 가리지 않고 구성될 수 있으며, 서버와 서버 간의 통신과 서버와 단말 간의 통신이 수행되도록 다양한 형태로 구현될 수 있다.
사용자의 단말(10)은 본 발명에 따른 반응형 이미지 콘텐츠를 제공받는 사용자가 사용하는 단말일 수 있다. 사용자의 단말(10)은 데스크탑 컴퓨터, 노트북, 태블릿, 스마트폰 등일 수 있다. 예를 들어, 도 1에 도시된 바와 같이, 사용자의 단말(10)은 스마트폰일 수 있으며, 실시예에 따라 달리 채용될 수도 있다.
사용자의 단말(10)은 통상의 컴퓨터가 가지는 연산 기능, 저장/참조 기능, 입출력 기능 및 제어 기능을 전부 또는 일부 수행하도록 구성될 수 있다. 사용자의 단말(10)은 장치(30)와 유무선으로 통신하도록 구성될 수 있다.
사용자의 단말(10)은 장치(30)를 이용하여 서비스를 제공하는 자 내지 단체가 운영하는 웹 페이지에 접속되거나, 장치(30)를 이용하여 서비스를 제공하는 자 내지 단체가 개발·배포한 애플리케이션이 설치될 수 있다. 사용자의 단말(10)은 웹 페이지 또는 애플리케이션을 통해 장치(30)와 연동될 수 있다.
사용자의 단말(10)은 장치(30)에서 제공하는 웹 페이지, 애플리케이션을 등을 통해 장치(30)에 접속할 수 있다.
청구항에 기재된 단수의 표현은 복수를 포함하는 것으로 이해될 수 있다. 예를 들어, 청구항의 사용자는 하나의 사용자 또는 둘 이상의 사용자를 지칭할 수 있다.
장치(30)는 장치(30)를 이용하여 서비스를 제공하는 자 내지 단체가 보유한 자체 서버일수도 있고, 클라우드 서버일 수도 있고, 분산된 노드(node)들의 p2p(peer-to-peer) 집합일 수도 있다. 장치(30)는 통상의 컴퓨터가 가지는 연산 기능, 저장/참조 기능, 입출력 기능 및 제어 기능을 전부 또는 일부 수행하도록 구성될 수 있다.
장치(30)는 사용자의 단말(10)과 유무선으로 통신하도록 구성될 수 있으며, 사용자의 단말(10)의 동작을 제어하고, 사용자의 단말(10)의 화면에 어느 정보를 표시할 것인지에 대해 제어할 수 있다.
일실시예에 따르면, 장치(30)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시키기 위한 디스플레이를 포함할 수 있다. 디스플레이는 터치 센서와 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 예를 들어, 터치 스크린으로 구현될 수 있으나 이에 한정되지는 않는다. 이러한 터치 스크린은 장치(30)와 사용자 사이의 사용자 입력 인터페이스를 제공하는 기능을 수행할 수 있으며, 장치(30)와 사용자 사이의 출력 인터페이스를 제공할 수 있다.
장치(30)는 반응형 이미지 콘텐츠를 디스플레이를 포함하는 장치를 통해 제공할 수 있다. 장치(30)에는 디스플레이가 구비될 수 있으며, 이에 한정되지 않고, 장치(30)와 별도로 디스플레이가 구성될 수 있다.
이때, 디스플레이를 포함하는 장치는 디스플레이를 구비한 모든 전자 장치를 의미할 수 있으며, 예를 들어, 스마트폰, 노트북, 태블릿 PC, 터치 스크린 등을 의미할 수 있다. 일실시예에 따르면, 디스플레이를 포함하는 장치는 사용자의 단말(10)을 포함할 수도 있다.
예를 들어, 장치(30)가 사용자의 단말(10)인 경우, 장치(30)는 포스터 콘텐츠를 사용자의 단말(10)의 화면에 표시되도록 제어할 수 있다.
한편, 설명의 편의를 위해 도 1에서는 사용자의 단말(10)만을 도시하였으나, 단말들의 수는 실시예에 따라 얼마든지 달라질 수 있다. 장치(30)의 처리 용량이 허용하는 한, 단말들의 수 및 프린터 장치들의 수는 특별한 제한이 없다.
일실시예에 따르면, 장치(30) 내에는 데이터베이스가 구비될 수 있으며, 이에 한정되지 않고, 장치(30)와 별도로 데이터베이스가 구성될 수 있다. 장치(30)는 기계 학습 알고리즘의 수행을 위한 다수의 인공 신경망을 포함할 수 있다.
본 발명에서, 인공지능(Artificial Intelligence, AI)은 인간의 학습능력, 추론능력, 지각능력 등을 모방하고, 이를 컴퓨터로 구현하는 기술을 의미하고, 기계 학습, 심볼릭 로직(Symbolic Logic) 등의 개념을 포함할 수 있다. 기계 학습(Machine Learning, ML)은 입력 데이터들의 특징을 스스로 분류 또는 학습하는 알고리즘 기술이다. 인공지능의 기술은 기계 학습의 알고리즘으로써 입력 데이터를 분석하고, 그 분석의 결과를 학습하며, 그 학습의 결과에 기초하여 판단이나 예측을 할 수 있다. 또한, 기계 학습의 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술들 역시 인공지능의 범주로 이해될 수 있다. 예를 들어, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야가 포함될 수 있다.
기계 학습은 데이터를 처리한 경험을 이용해 신경망 모델을 훈련시키는 처리를 의미할 수 있다. 기계 학습을 통해 컴퓨터 소프트웨어는 스스로 데이터 처리 능력을 향상시키는 것을 의미할 수 있다. 신경망 모델은 데이터 사이의 상관 관계를 모델링하여 구축된 것으로서, 그 상관 관계는 복수의 파라미터에 의해 표현될 수 있다. 신경망 모델은 주어진 데이터로부터 특징들을 추출하고 분석하여 데이터 간의 상관 관계를 도출하는데, 이러한 과정을 반복하여 신경망 모델의 파라미터를 최적화해 나가는 것이 기계 학습이라고 할 수 있다. 예를 들어, 신경망 모델은 입출력 쌍으로 주어지는 데이터에 대하여, 입력과 출력 사이의 매핑(상관 관계)을 학습할 수 있다. 또는, 신경망 모델은 입력 데이터만 주어지는 경우에도 주어진 데이터 사이의 규칙성을 도출하여 그 관계를 학습할 수도 있다.
인공지능 학습모델 또는 신경망 모델은 인간의 뇌 구조를 컴퓨터 상에서 구현하도록 설계될 수 있으며, 인간의 신경망의 뉴런(neuron)을 모의하며 가중치를 가지는 복수의 네트워크 노드들을 포함할 수 있다. 복수의 네트워크 노드들은 뉴런이 시냅스(synapse)를 통하여 신호를 주고받는 뉴런의 시냅틱(synaptic) 활동을 모의하여, 서로 간의 연결 관계를 가질 수 있다. 인공지능 학습모델에서 복수의 네트워크 노드들은 서로 다른 깊이의 레이어에 위치하면서 컨볼루션(convolution) 연결 관계에 따라 데이터를 주고받을 수 있다. 인공지능 학습모델은, 예를 들어, 인공 신경망 모델(Artificial Neural Network), 컨볼루션 신경망 모델(Convolution Neural Network: CNN) 등일 수 있다. 일 실시예로서, 인공지능 학습모델은, 지도학습(Supervised Learning), 비지도 학습(Unsupervised Learning), 강화 학습(Reinforcement Learning) 등의 방식에 따라 기계 학습될 수 있다. 기계 학습을 수행하기 위한 기계 학습 알고리즘에는, 의사결정트리(Decision Tree), 베이지안 망(Bayesian Network), 서포트 벡터 머신(Support Vector Machine), 인공 신경망(Artificial Neural Network), 에이다부스트(Ada-boost), 퍼셉트론(Perceptron), 유전자 프로그래밍(Genetic Programming), 군집화(Clustering) 등이 사용될 수 있다.
이중, CNN은 최소한의 전처리(preprocess)를 사용하도록 설계된 다계층 퍼셉트론(multilayer perceptrons)의 한 종류이다. CNN은 하나 또는 여러 개의 합성곱 계층과 그 위에 올려진 일반적인 인공 신경망 계층들로 이루어져 있으며, 가중치와 통합 계층(pooling layer)들을 추가로 활용한다. 이러한 구조 덕분에 CNN은 2차원 구조의 입력 데이터를 충분히 활용할 수 있다. 다른 딥러닝 구조들과 비교해서, CNN은 영상, 음성 분야 모두에서 좋은 성능을 보여준다. CNN은 또한 표준 역전달을 통해 훈련될 수 있다. CNN은 다른 피드포워드 인공신경망 기법들보다 쉽게 훈련되는 편이고 적은 수의 매개변수를 사용한다는 이점이 있다.
컨볼루션 네트워크는 묶인 파라미터들을 가지는 노드들의 집합들을 포함하는 신경 네트워크들이다. 사용 가능한 트레이닝 데이터의 크기 증가와 연산 능력의 가용성이, 구분적 선형 단위 및 드롭아웃 트레이닝과 같은 알고리즘 발전과 결합되어, 많은 컴퓨터 비전 작업들이 크게 개선되었다. 오늘날 많은 작업에 사용할 수 있는 데이터 세트들과 같은 엄청난 양의 데이터 세트에서는 초과 맞춤(outfitting)이 중요하지 않으며, 네트워크의 크기를 늘리면 테스트 정확도가 향상된다. 컴퓨팅 리소스들의 최적 사용은 제한 요소가 된다. 이를 위해, 심층 신경 네트워크들의 분산된, 확장 가능한 구현예가 사용될 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
도 2는 일실시예에 따른 인공지능 모델을 활용하여 영상 데이터 히스토리로부터 추출된 개인화된 이미지를 기반으로 반응형 이미지 콘텐츠를 생성하는 과정을 설명하기 위한 순서도이다.
도 2를 참조하면, 먼저, S201 단계에서, 장치(30)는 사용자 정보 및 사용자와 관련된 영상 데이터를 수집할 수 있다.
사용자 정보는 사용자의 이름, 나이, 성별, 위치, 얼굴 이미지, 지출 내역, 음성 등에 대한 정보를 포함할 수 있으나, 이에 한정되지는 않는다.
사용자와 관련된 영상 데이터는 사용자가 등장한 영상 데이터, 사용자의 목소리가 나온 영상 데이터, 사용자의 이름이 언급된 영상 데이터, 사용자의 위치에 해당하는 다른 사용자가 업로드한 영상 데이터 등을 포함할 수 있으나, 이에 한정되지는 않는다.
장치(30)는 수집한 사용자 정보 및 사용자와 관련된 영상 데이터를 데이터베이스에 저장할 수 있다.
일실시예에 따르면, 장치(30)는 사용자의 단말(10)로부터 사용자 정보 및 사용자와 관련된 영상 데이터를 수신할 수 있다. 다른 일실시예에 따르면, 장치(30)는 사용자가 사용하는 웹 사이트 및 SNS 등으로부터 사용자 정보 및 사용자와 관련된 영상 데이터를 수집할 수도 있다. 사용자 정보 및 사용자와 관련된 영상 데이터를 수집하는 과정은 이에 한정되지 않고, 다양한 방법으로 수행될 수 있다.
이때, 사용자와 관련된 영상 데이터는 사용자가 특정 웹 사이트에 직접 업로드할 수 있으며, 사용자의 지인이 사용자의 이름을 태깅하여 특정 웹 사이트에 업로드할 수도 있으나, 이에 한정되지는 않는다.
S202 단계에서, 장치(30)는 영상 데이터로부터, 사용자가 등장하는 부분을 출연 영상 데이터로 추출할 수 있다.
일실시예에 따르면, 장치(30)는 사용자 정보로부터 사용자 이미지를 확인하고, 영상 데이터 중 사용자 이미지를 포함하는 부분을 출연 영상 데이터로 추출할 수 있다.
S203 단계에서, 장치(30)는 사용자의 단말(10)로부터, 이벤트 정보를 수신할 수 있다.
이벤트 정보는 이벤트가 발생한 시점, 날짜, 시간, 이벤트의 종류, 이벤트와 관련된 사물, 이벤트가 발생한 위치, 이벤트에 해당하는 지출 비용 등에 대한 정보를 포함할 수 있으나, 이에 한정되지 않는다.
예를 들어, 이벤트의 종류는 출생, 입학, 졸업, 결혼, 취업, 은퇴, 생일 등을 포함할 수 있으나, 이에 한정되지는 않는다.
이벤트와 관련된 사물은 이벤트와 매칭되어 데이터베이스에 미리 저장되어 있을 수 있다.
예를 들어, 이벤트의 종류가 출생인 경우, 이벤트와 관련된 사물은 유모차, 기저귀, 유아용 의류, 유아용품, 출산 인증서, 모유 수유 관련 용품 등을 포함할 수 있으나, 이에 한정되지는 않는다.
예를 들어, 이벤트의 종류가 입학인 경우, 이벤트와 관련된 사물은 학교 가방, 교복, 교재, 필기도구, 컴퓨터, 학교, 학생증 등을 포함할 수 있으나, 이에 한정되지는 않는다.
예를 들어, 이벤트의 종류가 졸업인 경우, 이벤트와 관련된 사물은 학사모, 졸업 증서, 졸업 앨범, 학위복 등을 포함할 수 있으나, 이에 한정되지는 않는다.
예를 들어, 이벤트의 종류가 결혼인 경우, 이벤트와 관련된 사물은 웨딩 드레스, 수트, 꽃다발, 반지, 리본 등을 포함할 수 있으나, 이에 한정되지는 않는다.
예를 들어, 이벤트의 종류가 취업인 경우, 이벤트와 관련된 사물은 이력서, 면접복, 노트북 등을 포함할 수 있으나, 이에 한정되지는 않는다.
예를 들어, 이벤트의 종류가 은퇴인 경우, 이벤트와 관련된 사물은 넥타이, 은퇴 편지, 공로서, 여행서적 등을 포함할 수 있으나, 이에 한정되지는 않는다.
예를 들어, 이벤트의 종류가 생일인 경우, 이벤트와 관련된 사물은 케이크, 풍선, 초, 생일 음악, 선물 상자, 꼬깔 모자 등이 미리 매칭되어 데이터베이스에 저장되어 있을 수 있다.
장치(30)는 사용자의 단말(10)로부터 이벤트 정보를 수신하고, 수신한 이벤트 정보를 데이터베이스에 저장할 수 있다.
S204 단계에서, 장치(30)는 이벤트 정보로부터, 이벤트의 시점을 확인할 수 있다.
장치(30)는 이벤트 정보로부터, 이벤트가 발생한 시점을 확인할 수 있다.
S205 단계에서, 장치(30)는 출연 영상 데이터 중 이벤트의 시점과 가장 근접한 시점에 생성된 출연 영상 데이터에서 사용자의 얼굴 정보 및 신체 정보를 포함하는 사용자의 외모 정보를 획득할 수 있다.
장치(30)는 이벤트 정보로부터, 이벤트가 발생한 시점을 확인하고, 출연 영상 데이터 중 이벤트가 발생한 시점과 가장 근접한 시점에 생성된 출영 영상 데이터를 추출하고, 추출된 출연 영상 데이터로부터 사용자의 얼굴 정보 및 신체 정보를 포함하는 사용자의 외모 정보를 획득할 수 있다. 즉, 장치(30)는 출연 영상 데이터 중 이벤트가 발생한 시점과 가장 가까운 출연 영상 데이터를 추출할 수 있다.
예를 들어, 장치(30)는 영상 데이터에서 얼굴을 인식하기 위해 얼굴 인식 알고리즘과 딥러닝 기반의 얼굴 검출 모델을 포함하는 얼굴 인식 기술을 활용할 수 있다. 장치(30)는 얼굴 검출 모델을 적용하여 영상 데이터에서 얼굴의 위치와 경계 상자를 찾을 수 있다.
장치(30)는 얼굴 특징을 추출하기 위해 얼굴 인식 모델에 입력된 얼굴 영역을 활용하여 사용자의 얼굴의 주요 특징을 추출할 수 있다. 이때, 대표적인 얼굴 특징 추출 방법은 컨볼루션 신경망(Convolutional Neural Network, CNN)을 활용하는 것이며, CNN은 얼굴 영상 데이터로부터 특징을 학습하고 추출하는 데 효과적이다.
장치(30)는 영상 데이터로부터 사용자의 신체 부위를 인식할 수 있다. 즉, 장치(30)는 영상 데이터로부터 컴퓨터 비전 기술을 활용하여, 사용자의 어깨, 팔, 다리 등과 같은 신체 부위의 위치를 인식할 수 있다. 장치(30)는 신체 인식 결과를 바탕으로 신체의 특징을 추출할 수 있다. 예를 들어, 장치(30)는 컨투어(Contour) 추출, 모양 분석, 템플릿 매칭 등을 활용하여 신체 특징을 추출할 수 있으며, 이를 통해 사용자의 신체 부위의 형상, 크기, 비율 등의 특징을 추출할 수 있다.
이때, 영상 데이터로부터 얼굴 정보 및 신체 정보를 추출하는 과정은 통상의 기술자에게 자명한 사항이므로 자세한 설명은 생략한다.
S206 단계에서, 장치(30)는 이벤트의 시점에서 사용자의 외모 정보 변화를 반영하기 위하여, 미리 학습된 인공지능 모델에 사용자의 외모 정보를 입력하여 수정 사용자 외모 정보를 출력할 수 있다.
장치(30)는 수정 사용자 외모를 출력하기 위해 사용할 인공지능 모델을 선택할 수 있다. 이때, 인공지능 모델은 이미지 처리 및 얼굴 인식 등과 관련된 작업을 수행할 수 있는 모델로서, 예를 들어, 컨볼루션 신경망(CNN)이나 얼굴 인식 모델 등을 포함할 수 있으나, 이에 한정되지는 않는다.
장치(30)는 사용자의 외모 정보를 인공지능 모델에 입력하기 전에, 필요한 전처리 과정을 수행할 수 있다. 이때, 전처리 과정은 이는 이미지 데이터를 적절한 크기로 조정하거나 정규화하는 등의 작업을 포함할 수 있다.
장치(30)는 이미지 데이터를 모델에 주입하여 처리하는 과정으로서, 전처리된 사용자의 외모 정보를 인공지능 모델에 입력할 수 있으며, 인공지능 모델은 입력된 외모 정보를 분석하고 처리하여 출력값을 생성할 수 있다.
인공지능 모델은 입력된 사용자의 외모 정보를 기반으로 예측, 분류, 변환 등의 작업을 수행하여 수정된 사용자의 외모 정보를 출력할 수 있다.
인공지능 모델은 이벤트의 시점과 가장 근접한 시점에 생성된 출연 영상 데이터에서 획득한 외모 정보를 기반으로 이벤트가 발생한 시점에서 사용자의 외모 정보를 수정하고, 해당 정보를 반영한 이미지를 생성할 수 있다. 장치(30)는 이를 통해 사용자의 외모 변화를 시각적으로 예측하고 표현하는 반응형 이미지를 구현할 수 있다.
또한, 장치(30)는 사용자와 관련된 영상 데이터를 모두 사용하지 않고, 이벤트가 발생한 시점에 생성된 출연 영상 데이터로부터 획득한 사용자의 외모 정보를 인공지능 모델에 입력하여 수정 사용자 외모 정보를 출력함으로써, 모든 영상 데이터의 외모 정보를 인공지능 모델에 입력했을 때보다 인공지능 모델의 연산을 줄일 수 있어서, 더욱 빠른 시간 안에 출력 값을 획득할 수 있으며, 메모리를 절약할 수 있다는 효과가 발생할 수 있다.
S207 단계에서, 장치(30)는 수정 사용자 외모 정보를 기반으로 이벤트 이미지를 생성할 수 있다.
장치(30)는 인공지능 모델을 활용하여 이벤트 발생 시점에서 예측된 사용자의 외모 정보인 수정 사용자 외모 정보를 기반으로 이벤트 발생 시점에서의 사용자의 얼굴 정보 및 신체 정보를 반영한 이벤트 이미지를 생성할 수 있다.
S208 단계에서, 장치(30)는 사용자의 반응 정보를 생성할 수 있다. 이때, 사용자의 반응 정보를 생성하는 과정에 대한 자세한 설명은 도 3 내지 도 4를 참조하여 후술하기로 한다.
S209 단계에서, 장치(30)는 이벤트 이미지에 반응 정보를 적용한 반응형 이미지를 생성할 수 있다.
일실시예에 따르면, 장치(30)는 반응 정보를 생성하고, 생성된 반응 정보를 이벤트 이미지에 적용한 반응형 이미지를 생성할 수 있다.
이때, 장치(30)는 이벤트 발생 시점에서의 수정 사용자 외모 정보를 기반으로 생성된 이벤트 이미지에 반응 정보를 적용한 반응형 이미지를 생성할 수 있다. 장치(30)는 특정 이벤트가 발생하였을 때, 사용자가 사진을 직접 촬영하지 않더라도 사용자의 영상 데이터 히스토리를 기반으로 이벤트 발생 시점에서의 사용자의 개인화된 이미지를 생성할 수 있으며, 이벤트에 대한 사용자의 반응 정보를 생성하여, 사용자가 반응형 이미지를 봤을 때, 이벤트에 대한 사용자의 모습뿐만 아니라 사용자의 감정 및 반응 또한 확인할 수 있어서, 사용자의 이벤트 경험을 더욱 생생하게 상기시킬 수 있다.
또한, 사용자는 자신의 개인적인 반응을 이미지에 반영한 개인화된 경험을 할 수 있으며, 사용자의 감정, 표정, 동작 등을 포함하는 감각적인 상태를 반영하는 반응형 이미지를 통해 사용자는 더욱 이벤트에 대해 시각적으로 감각적인 상태를 더욱 잘 전달할 수 있다. 또한, 사용자가 이벤트에 더욱 몰입할 수 있게 해주며 흥미를 유발할 수도 있다.
이에, 장치(30)는 반응 정보를 생성하고 생성된 반응 정보를 이벤트 이미지에 적용한 반응형 이미지를 생성하는 과정은 사용자의 개인화된 경험, 감정적 연결, 참여도 증진, 기억과 공유의 요소를 제공하며, 이벤트에 대한 시각적 전달의 효과를 향상시킬 수 있다.
도 3은 일실시예에 따른 사용자의 감정 상태 정보를 생성하는 과정을 설명하기 위한 순서도이다.
도 3을 참조하면, 먼저, S301 단계에서, 장치(30)는 출연 영상 데이터로부터, 사용자의 음성 정보를 획득할 수 있다. 일실시예에 따르면, 장치(30)는 출연 영상 데이터로부터, 사용자의 음성을 추출하기 위해 음원 추출 기술을 활용할 수 있으며, 영상 데이터에서 오디오 신호를 분리하여 사용자의 음성 부분을 추출하여 음성 정보를 획득할 수 있다.
S302 단계에서, 장치(30)는 음성 정보로부터 소리의 세기, 높낮이, 빠르기를 확인할 수 있다.
S303 단계에서, 장치(30)는 소리의 세기, 높낮이, 빠르기를 기반으로 감정 지수를 결정할 수 있다.
일실시예에 따르면, 장치(30)는 소리의 세기가 높을수록 감정 지수를 높게 설정하고, 소리의 세기가 낮을수록 감정 지수를 낮게 설정할 수 있고, 높낮이가 높을수록 감정 지수를 높게 생성하고, 높낮이가 낮을수록 감정 지수를 낮게 생성하고, 빠르기가 빠를수록 감정 지수를 높게 생성하고, 빠르기가 느릴수록 감정 지수를 낮게 생성할 수 있다.
S304 단계에서, 장치(30)는 감정 지수가 미리 설정된 기준을 만족하는지 여부를 판단할 수 있다. 이때, 미리 설정된 기준은 실시예에 따라 상이하게 설정될 수 있다.
S305 단계에서, 장치(30)는 감정 지수가 미리 설정된 기준을 만족하지 않는 경우, 사용자의 감정 상태 정보를 부정 상태로 결정할 수 있다.
S306 단계에서, 장치(30)는 감정 지수가 미리 설정된 기준을 만족하는 경우, 음성 정보로부터, 키워드를 추출하고, 추출된 키워드 중에서 긍정 키워드의 비율인 긍정 비율을 산출하고, 긍정 비율과 미리 설정된 기준 비율을 비교할 수 있다. 이때, 미리 설정된 기준 비율은 실시예에 따라 상이하게 설정될 수 있다.
장치(30)는 음성 정보에서의 음성을 텍스트로 변환하는 과정을 수행하여 음성 정보로부터 키워드를 추출할 수 있다. 이때, 키워드를 추출하는 과정에서는 텍스트 데이터에서 키워드를 추출하는 알고리즘을 적용하여 키워드를 추출할 수 있다. 해당 알고리즘은 문장에서 중요한 단어를 식별하고, 문맥에 맞게 의미 있는 단어를 선택하는 과정을 포함하는 알고리즘이며, 키워드 추출에는 다양한 기법이 사용될 수 있으며, 대표적인 예로는 TF-IDF (Term Frequency-Inverse Document Frequency), TextRank, LDA (Latent Dirichlet Allocation) 등이 있다.
장치(30)는 음성 정보로부터 키워드를 추출하고, 키워드가 긍정적인지 부정적인지를 분류하여 키워드를 긍정 키워드 및 부정 키워드로 분류할 수 있으며, 추출된 키워드 중 긍정 키워드의 비율인 긍정 비율을 산출할 수 있다.
S307 단계에서, 장치(30)는 긍정 비율이 미리 설정된 기준 비율 미만인 경우, 사용자의 감정 상태 정보를 중립 상태로 결정할 수 있다.
즉, 장치(30)는 감정 지수가 미리 설정된 기준을 만족하면서, 긍정 비율이 미리 설정된 기준 비율 미만인 경우, 사용자의 감정 상태 정보를 중립 상태로 결정할 수 있다.
S308 단계에서, 장치(30)는 긍정 비율이 기준 비율 이상인 경우, 사용자의 감정 상태 정보를 긍정 상태로 결정할 수 있다.
즉, 장치(30)는 감정 지수가 미리 설정된 기준을 만족하면서, 긍정 비율이 미리 설정된 기준 비율 이상인 경우, 사용자의 감정 상태 정보를 긍정 상태로 결정할 수 있다.
장치(30)는 음성 정보를 기반으로 사용자의 감정 상태를 자동으로 분류할 수 있으며, 다양한 음성 데이터를 처리하고 감정 분석 결과를 도출할 수 있으며 사람의 주관적인 판단에 의한 감정 분석보다 일관성과 정확성을 높일 수 있다.
또한, 장치(30)는 사용자의 음성 정보를 실시간으로 처리하여 사용자의 감정 상태를 실시간으로 인식할 수 있으며, 사용자의 감정 변화를 실시간 상황에서 신속하게 판단할 수 있다.
도 4는 일실시예에 따른 사용자의 반응 정보를 생성하는 과정을 설명하기 위한 순서도이다.
도 4를 참조하면, 먼저, S401 단계에서, 장치(30)는 출연 영상 데이터로부터, 사용자가 등장한 등장 시간을 확인할 수 있다.
장치(30)는 수집한 사용자와 관련된 영상 데이터로부터 사용자가 등장하는 부분을 출연 영상 데이터로 추출하고, 출연 영상 데이터로부터 사용자가 등장한 등장 시간을 확인할 수 있다. 이때, 출연 영상 데이터에서 사용자가 등장한 등장 시간은 출연 영상 데이터에서의 영상의 총 길이를 의미할 수 있다.
S402 단계에서, 장치(30)는 등장 시간 중 부정 상태에 해당하는 부정 시간, 중립 상태에 해당하는 중립 시간 및 긍정 상태에 해당하는 긍정 시간을 추출할 수 있다.
일실시예에 따르면, 장치(30)는 출연 영상 데이터의 음성 정보를 기반으로 사용자의 감정 상태 정보를 결정하고, 출연 영상 데이터에서 등장 시간 중 감정 상태 정보가 부정 상태에 해당하는 부정 시간, 등장 시간 중 감정 상태 정보가 중립 상태에 해당하는 중립 시간, 등장 시간 중 감정 상태 정보가 긍정 상태에 해당하는 긍정 시간을 추출할 수 있다.
S403 단계에서, 장치(30)는 이벤트 정보의 이벤트와 관련된 사물을 선정할 수 있다.
이때, 이벤트와 관련된 사물은 이벤트와 매칭되어 데이터베이스에 미리 저장되어 있을 수 있다.
예를 들어, 이벤트의 종류가 출생인 경우, 이벤트와 관련된 사물은 유모차, 기저귀, 유아용 의류, 유아용품, 출산 인증서, 모유 수유 관련 용품 등을 포함할 수 있으나, 이에 한정되지는 않는다.
예를 들어, 이벤트의 종류가 입학인 경우, 이벤트와 관련된 사물은 학교 가방, 교복, 교재, 필기도구, 컴퓨터, 학교, 학생증 등을 포함할 수 있으나, 이에 한정되지는 않는다.
예를 들어, 이벤트의 종류가 졸업인 경우, 이벤트와 관련된 사물은 학사모, 졸업 증서, 졸업 앨범, 학위복 등을 포함할 수 있으나, 이에 한정되지는 않는다.
예를 들어, 이벤트의 종류가 결혼인 경우, 이벤트와 관련된 사물은 웨딩 드레스, 수트, 꽃다발, 반지, 리본 등을 포함할 수 있으나, 이에 한정되지는 않는다.
예를 들어, 이벤트의 종류가 취업인 경우, 이벤트와 관련된 사물은 이력서, 면접복, 노트북 등을 포함할 수 있으나, 이에 한정되지는 않는다.
예를 들어, 이벤트의 종류가 은퇴인 경우, 이벤트와 관련된 사물은 넥타이, 은퇴 편지, 공로서, 여행서적 등을 포함할 수 있으나, 이에 한정되지는 않는다.
예를 들어, 이벤트의 종류가 생일인 경우, 이벤트와 관련된 사물은 케이크, 풍선, 초, 생일 음악, 선물 상자, 꼬깔 모자 등이 미리 매칭되어 데이터베이스에 저장되어 있을 수 있다.
장치(30)는 이벤트와 관련된 사물을 선정함으로써 이벤트의 내용과 성격이 구체화될 수 있으며, 사용자에게 이벤트에 대한 명확한 컨셉을 제공하고, 이벤트를 쉽게 이해하고 인지할 수 있도록 도움을 줄 수 있다.
S404 단계에서, 장치(30)는 사용자와 관련된 영상 데이터에서 사물이 등장한 횟수를 확인할 수 있다.
장치(30)는 사용자와 관련된 영상 데이터로부터 이벤트와 관련된 사물이 등장한 횟수를 확인할 있다.
예를 들어, 이벤트가 생일인 경우, 장치(30)는 이벤트와 관련된 사물을 케이크, 풍선, 초, 생일 음악, 선물 상자, 꼬깔 모자로 선정하고, 사용자와 관련된 영상 데이터로부터 케이크, 풍선, 초, 생일 음악, 선물 상자, 꼬깔 모자를 포함하는 이벤트와 관련된 사물이 등장한 횟수를 확인할 수 있다.
이때, 장치(30)는 영상 데이터를 분석하거나 이미지 처리 기술을 활용하여 사물의 등장을 감지하고, 이를 횟수로 계산할 수 있다.
S405 단계에서, 장치(30)는 사물이 등장한 횟수가 미리 설정된 기준을 만족하는 경우, 사용자와 관련된 영상 데이터를 이벤트 정보의 이벤트와 관련된 이벤트 영상 데이터로 결정할 수 있다. 이때, 미리 설정된 기준은 실시예에 따라 상이하게 설정될 수 있다.
장치(30)는 이벤트와 관련된 사물이 등장한 횟수가 미리 설정된 기준을 만족하는 사용자와 관련된 영상 데이터를 추출하여, 추출된 사용자와 관련된 영상 데이터를 이벤트 정보의 이벤트와 관련된 이벤트 영상 데이터로 결정할 수 있다.
장치(30)는 사용자와 관련된 영상 데이터에서 사물 등장 횟수를 확인함으로써 사용자와의 연관성을 파악할 수 있다.
장치(30)는 이벤트와 관련된 사물을 선정하고 사용자와 관련된 영상 데이터에서 사물 등장 횟수를 확인함으로써, 이벤트의 내용을 구체화하고 사용자와의 연관성을 강화할 수 있다.
S406 단계에서, 장치(30)는 이벤트 영상 데이터에서 추출된 표정 중 주요 표정을 추출할 수 있다.
장치(30)는 먼저, 이벤트 영상 데이터에서 컴퓨터 비전 기술을 활용하여 영상에서 얼굴을 식별하고 위치를 파악하는 과정인 얼굴 감지 과정을 수행할 수 있다. 예를 들어, 장치(30)는 얼굴 감지 과정을 수행하기 위해 얼굴 검출 알고리즘인 Viola-Jones, Haar cascades, 또는 딥러닝 기반의 얼굴 감지 모델 등을 사용할 수 있으나, 이에 한정되지는 않는다.
장치(30)는 얼굴 감지된 영역을 정확히 얼굴 영역으로 정렬하는 단계를 수행할 수 있다. 얼굴 정렬 과정은 얼굴의 크기, 방향, 각도 등을 보정하여 정확한 얼굴 영역을 얻는 과정으로서, 후속 작업인 표정 인식을 보다 정확하게 수행할 수 있도록 한다.
장치(30)는 얼굴 영역에서 표정을 인식하는 단계를 수행할 수 있으며, 예를 들어, 컨볼루션 신경망(CNN)을 사용하는 표정 인식 모델을 활용할 수 있다. CNN은 영상 처리에 탁월한 성능을 보이며, 표정 인식에도 효과적으로 사용될 수 있다. 표정 인식 모델은 주어진 얼굴 영역에서 표정에 대한 클래스 또는 감정 카테고리를 분류하는 역할을 수행하며, 훈련 데이터셋을 사용하여 CNN 모델을 학습하고, 이를 이용하여 실시간으로 얼굴 영역의 표정을 분류할 수 있다.
장치(30)는 이벤트 영상 데이터에서 표정을 추출하고, 추출된 표정이 미리 설정된 기준 횟수 이상으로 등장한 표정을 주요 표정으로 결정할 수 있다. 이때, 미리 설정된 기준 횟수는 실시예에 따라 상이하게 설정될 수 있다.
S407 단계에서, 장치(30)는 부정 시간, 중립 시간 및 긍정 시간을 이용하여 주요 표정의 유지 시간 및 변화 속도를 포함하는 반응 정도를 결정할 수 있다.
장치(30)는 이벤트 영상 데이터에서 주요 표정을 추출하고, 부정 시간, 중립 시간 및 긍정 시간을 이용하여 반응형 이미지에서의 사용자의 표정을 결정할 수 있다.
장치(30)는 주요 표정이 부정 상태, 중립 상태 및 긍정 상태 중 어느 감정 상태에 해당하는지를 판단할 수 있다. 예를 들어, 주요 표정이 부정 상태에 해당하고, 부정 시간이 중립 시간과 긍정 시간보다 큰 경우, 장치(30)는 반응형 이미지에서의 사용자의 표정을 주요 표정으로 유지할 수 있으며, 부정 시간이 중립 시간과 긍정 시간 중 어느 하나보다 작은 경우, 가장 긴 시간에 해당하는 감정 상태의 표정으로 반응형 이미지에서의 사용자의 표정을 변경할 수 있다.
예를 들어, 주요 표정이 부정 상태에 해당하고, 부정 시간이 5시간, 중립 시간이 3시간, 긍정 시간이 2시간인 경우, 장치(30)는 주요 표정을 반응형 이미지에서의 사용자의 표정으로 설정할 수 있다.
예를 들어, 주요 표정이 부정 상태에 해당하고, 부정 시간이 2시간, 중립 시간이 3시간, 긍정 시간이 5시간인 경우, 장치(30)는 부정 시간이 중립 시간과 긍정 시간보다 짧고, 긍정 시간이 가장 긴 시간이므로, 반응형 이미지에서의 사용자의 표정을 긍정 상태에 해당하는 표정으로 설정할 수 있다.
이때, 장치의 데이터베이스에는 각각의 감정 상태인 부정 상태, 중립 상태, 긍정 상태에 해당하는 표정을 감정 상태와 매칭되어 미리 저장되어 있을 수 있다.
이를 통해, 장치(30)는 이벤트에서 일반적으로 가장 많이 나타나는 주요 표정뿐만 아니라 사용자가 일상 생활에서의 감정 상태를 반영하여 반응형 이미지에서의 사용자의 표정을 결정함으로써, 이벤트에서 나타나는 일반적인 감정뿐 아니라 사용자의 감정 상태를 반영하여 사용자의 감정 상태를 더욱 효과적으로 반영한 반응형 이미지를 생성할 수 있다.
이때, 반응 정도를 결정하는 과정에 대한 자세한 설명은 도 5 내지 도 7을 참조하여 후술하기로 한다.
도 5는 일실시예에 따른 반응 정도에서 변화 속도를 결정하는 과정을 설명하기 위한 순서도이다.
도 5를 참조하면, 먼저, S501 단계에서, 장치(30)는 시청자와 반응형 이미지가 표시된 장치 사이의 거리를 확인할 수 있다.
이때, 시청자는 반응형 이미지를 시청하는 사용자를 의미할 수 있다.
일실시예에 따르면, 장치(30)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시키기 위한 디스플레이를 포함할 수 있다. 디스플레이는 터치 센서와 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 예를 들어, 터치 스크린으로 구현될 수 있으나 이에 한정되지는 않는다. 이러한 터치 스크린은 장치(30)와 사용자 사이의 사용자 입력 인터페이스를 제공하는 기능을 수행할 수 있으며, 장치(30)와 사용자 사이의 출력 인터페이스를 제공할 수 있다.
장치(30)는 반응형 이미지 콘텐츠를 디스플레이를 포함하는 장치를 통해 제공할 수 있다. 장치(30)에는 디스플레이가 구비될 수 있으며, 이에 한정되지 않고, 장치(30)와 별도로 디스플레이가 구성될 수 있다.
장치(30)는 시청자와 반응형 이미지가 표시된 장치 사이의 거리를 확인할 수 있다.
S502 단계에서, 장치(30)는 디스플레이에 입력되는 터치 강도를 확인할 수 있다.
장치(30)는 디스플레이에 입력되는 터치 강도를 확인함으로써 시청자의 터치 동작의 강도나 압력을 파악할 수 있다.
S503 단계에서, 장치(30)는 거리에 반비례하고, 터치 강도에 비례하도록 주요 표정의 변화 속도를 결정할 수 있다.
장치(30)는 거리에 반비례한 표정 변화 속도를 적용함으로써, 시청자는 디스플레이에 표시된 반응형 이미지의 표정 변화를 현실적으로 인식할 수 있도록 한다. 즉, 장치(30)는 거리가 멀어질수록 표정의 변화 속도가 느려지도록 설정함으로써, 시청자는 자연스럽고 현실적인 표정 변화를 경험하게 된다.
장치(30)는 거리에 반비례한 변화 속도를 적용함으로써, 시청자와 디스플레이 사이의 거리를 고려한 조화감 있는 표정 변화가 이루어지도록 할 수 있으며, 시청자에게 자연스러운 시각적 경험을 제공하며, 반응형 이미지와 시청자 사이의 일관성을 높일 수 있다.
장치(30)는 거리에 반비례한 변화 속도를 적용함으로써, 시청자로부터 멀리 떨어진 경우 표정 변화가 천천히 일어나므로 시청자의 인지 부담이 줄어들 수 있으며, 시청자가 디스플레이와의 상호작용을 더욱 편안하게 느낄 수 있도록 도움을 줄 수 있다. 또한, 멀리 떨어진 경우, 표정 변화가 천천히 일어나므로 사용자가 디스플레이에 표시된 표정 변화를 더욱 정확히 인식하도록 도움을 줄 수 있다.
장치(30)는 터치 강도에 비례한 표정 변화 속도를 적용함으로써, 사용자는 자신의 터치 강도에 따라 반응형 이미지의 표정이 변화함을 느낄 수 있도록 하며, 사용자 개개인의 동작과 선호도를 반영하여 맞춤화된 경험을 제공하고 사용자 참여도를 높일 수 있다.
장치(30)는 터치 강도에 비례한 변화 속도를 적용함으로써, 사용자의 터치 입력이 반응형 이미지에 직접적인 영향을 미침을 강조할 수 있으며, 사용자가 자신의 터치 입력에 응답하는 이미지를 보면서 상호작용을 강조하고, 사용자와의 더욱 활발한 대화와 상호작용을 유도할 수 있다.
장치(30)는 터치 강도에 비례한 변화 속도를 적용함으로써, 사용자는 자신의 터치 입력이 반응형 이미지에 얼마나 영향을 주는지 명확히 인식할 수 있으며, 사용자의 참여와 창의성을 증진시켜 사용자가 더욱 적극적으로 상호작용을 할 수 있도록 유도할 수 있다.
장치(30)는 터치 강도에 비례한 변화 속도를 적용함으로써, 사용자는 자신의 터치 입력에 따라 더 빠르고 강렬한 표정 변화를 경험할 수 있다. 이에, 사용자의 흥미를 유지하고 시각적으로 풍부한 경험을 제공하여 사용자의 만족도와 참여도를 높일 수 있다.
도 6은 일실시예에 따른 반응 정도에서 유지 시간을 결정하는 과정을 설명하기 위한 순서도이다.
도 6을 참조하면, 먼저, S601 단계에서, 장치(30)는 시청자의 움직임 정보를 획득할 수 있다.
디스플레이를 포함하는 장치는 카메라를 더 포함할 수 있다. 디스플레이를 포함하는 장치는 카메라를 사용하여 시청자의 움직임을 추적할 수 있다. 디스플레이를 포함하는 장치는 카메라로부터 얻은 영상 데이터를 처리하고 객체 추적 알고리즘을 적용하여 시청자의 위치와 움직임에 대한 정보를 포함하는 움직임 정보를 획득할 수 있다. 이때, 움직임 정보는 시청자의 위치, 시청자가 움직이는 정도, 시청자가 움직이는 속도, 움직임의 강도 등에 대한 정보를 포함할 수 있으나, 이에 한정되지는 않는다.
S602 단계에서, 장치(30)는 장치 주변의 소리 정보를 획득할 수 있다.
디스플레이를 포함하는 장치는 음향 센서를 더 포함할 수 있으며, 음향 센서를 통해 주변 소리의 진동이나 압력 변화를 감지하여 소리의 주파수, 세기 등에 대한 정보를 포함하는 소리 정보를 획득할 수 있다.
S603 단계에서, 장치(30)는 움직임 정보 및 소리 정보를 이용하여 주요 표정의 유지 시간을 결정할 수 있다.
일실시예에 따르면, 장치(30)는 움직임 정보로부터 움직임의 강도 또는 속도를 확인하여, 해당 움직임이 주요 표정을 유지하는 데에 얼마나 영향을 미치는지를 결정할 수 있다. 예를 들어, 강한 움직임은 주요 표정의 유지 시간을 길게 설정할 수 있고, 약한 움직임은 주요 표정의 유지 시간을 더 짧게 설정할 수 있다.
장치(30)는 움직임의 강도 또는 속도를 고려하여 주요 표정의 유지 시간을 결정함으로써, 시청자의 움직임 스타일과 성향에 맞는 반응을 제공할 수 있다. 강한 움직임 또는 빠른 움직임을 수행하는 시청자에게는 주요 표정을 더 오래 유지하도록 함으로써, 주요 표정을 시각적으로 인식하는데 도움을 줄 수 있으며, 약한 움직임 또는 느린 움직임을 수행하는 시청자에게는 주요 표정을 더 짧게 유지하도록 함으로써, 지루함을 줄일 수 있도록 한다.
이에 따라, 장치(30)는 움직임에 따라 주요 표정의 유지 시간을 조절함으로써, 시청자 혹은 사용자에게 더욱 동적이고 다양한 경험을 제공할 수 있고, 움직임에 따라 표정의 유지 시간이 조정되면서 시청자의 상황에 맞는 반응을 보여줌으로써, 시청자의 참여도와 흥미를 높일 수 있다.
S604 단계에서, 장치(30)는 현재 시점에서 특정 기간 동안 이벤트 정보에 해당하는 이벤트의 발생 횟수의 증감 여부에 따라 유지 시간을 조정할 수 있다. 이때, 특정 기간은 실시예에 따라 상이하게 설정될 수 있다.
예를 들어, 특정 기간이 1개월이고, 이벤트가 생일인 경우, 장치(30)는 현재 시점에서 최근 1개월 기간 동안 생일에 해당하는 이벤트의 이벤트 발생 횟수를 확인하고, 이벤트 발생 횟수의 증감 여부에 따라 주요 표정의 유지 시간을 조정할 수 있다.
장치(30)는 수신한 이벤트 정보를 기반으로 특정 기간 동안의 이벤트 발생 횟수를 산출할 수 있다.
일실시예에 따르면, 장치(30)는 이벤트가 빈번하게 발생하는 경우에는 주요 표정의 유지 시간을 짧게 조정하고, 이벤트가 드물게 발생하는 경우에는 주요 표정의 유지 시간을 길게 조정하여 주요 표정을 제공할 수 있다.
또한, 장치(30)는 이벤트의 발생 횟수의 증감 여부에 따라 주요 표정의 유지 시간을 조정함으로써, 사용자에게 다양한 경험을 제공할 수 있다. 이벤트가 많이 발생하는 기간에는 짧은 유지 시간으로 빠르게 표정을 변화시켜 다양한 상황에 대응하고, 이벤트가 적게 발생하는 기간에는 긴 유지 시간으로 주요 표정을 지속시켜 사용자가 해당 표정을 더욱 깊게 경험할 수 있도록 하여, 시청자의 참여도와 흥미를 높여줄 수 있다.
도 7은 일실시예에 따른 반응 정도에서 반응 강도를 결정하는 과정을 설명하기 위한 순서도이다.
도 7을 참조하면, 먼저, S701 단계에서, 장치(30)는 사용자 정보로부터, 이벤트 정보의 이벤트에 해당하는 평균 지출 비용을 산출할 수 있다. 이때, 주요 표정의 반응 정도는 반응 강도를 더 포함할 수 있다. 이때, 반응 강도는 주요 표정의 강도로써, 예를 들어, 주요 표정이 웃는 표정인 경우, 반응 강도는 웃는 정도를 의미할 수 있다.
장치(30)는 사용자 정보 및 이벤트 정보를 확인하여 사용자가 이벤트에 지출한 비용을 산출할 수 있다.
예를 들어, 이벤트가 결혼인 경우, 장치(30)는 사용자가 결혼과 관련하여 지출한 비용의 평균 지출 비용을 산출할 수 있다.
S702 단계에서, 장치(30)는 사용자 정보로부터, 사용자의 위치를 확인하고, 사용자의 위치가 해당하는 지역에서 이벤트 정보의 이벤트와 동일한 이벤트의 발생 횟수를 산출할 수 있다.
예를 들어, 사용자의 위치가 서울특별시 강남구이고, 이벤트가 결혼인 경우, 장치(30)는 서울특별시 강남구에 해당하는 지역에서 결혼에 해당하는 이벤트가 발생한 발생 횟수를 산출할 수 있다.
S703 단계에서, 장치(30)는 미리 설정된 기준 정도에 평균 지출 비용 및 발생 횟수에 비례하도록 설정된 가중치를 적용하여 주요 표정의 반응 강도를 결정할 수 있다. 이때, 미리 설정된 기준 정도는 실시예에 따라 상이하게 설정될 수 있다.
이때, 가중치는 평균 지출 비용이 높을수록, 발생 횟수가 많을수록 높게 설정되고, 평균 지출 비용이 낮을수록, 발생 횟수가 적을수록 낮게 설정될 수 있다.
장치(30)는 높은 평균 지출 비용과 높은 이벤트 발생 횟수를 가진 이벤트에 더 높은 반응 강도를 부여하여 사용자의 주목을 끌고, 중요한 이벤트에 더욱 집중할 수 있도록 유도할 수 있다.
또한, 장치(30)는 사용자가 위치한 지역에서 이벤트가 활발하게 발생하는 경우, 해당 이벤트에 대한 반응을 강화하여 사용자의 지역적인 관심과 연관성을 높일 수 있다.
장치(30)는 사용자의 평균 지출 비용과 해당 지역의 이벤트 발생 횟수를 고려하여 주요 표정의 반응 강도를 결정함으로써, 사용자에게 개인화된 반응을 제공할 수 있다. 사용자가 평균 지출 비용이 높고 해당 지역에서 이벤트가 빈번하게 발생하는 경우, 주요 표정의 반응 강도를 강하게 설정하여 사용자의 관심과 참여를 높일 수 있다.
도 8은 일실시예에 따른 반응형 이미지에 대한 이미지 생성 비용을 결정하는 과정을 설명하기 위한 순서도이다.
도 8을 참조하면, 먼저, S801 단계에서, 장치(30)는 이벤트 정보로부터 이벤트 발생 시점과 사용자의 현재 시점 사이의 기간을 산출할 수 있다.
S802 단계에서, 장치(30)는 영상 데이터로부터 수집한 영상의 개수를 확인할 수 있다.
S803 단계에서, 장치(30)는 산출된 기간 및 영상의 개수를 기준으로 기준 비용을 산출할 수 있다.
장치의 데이터베이스에는 이벤트 발생 시점과 사용자의 현재 시점 사이의 기간에 따른 기간 기준 가격 및 영상의 개수에 따른 영상 개수 기준 가격에 대한 지표가 미리 저장되어 있을 수 있으며, 장치(30)는 이벤트 발생 시점과 현재 시점 사이의 기간 및 영상의 개수를 확인하고, 이벤트 발생 시점과 사용자의 현재 시점 사이의 기간 및 영상의 개수에 대응되는 이미지 생성 비용을 지표로부터 추출할 수 있다.
이때, 기준 가격은 기간 기준 가격 및 영상 개수 기준 가격을 합산한 값으로 설정될 수 있으며, 기간 기준 가격은 이벤트 발생 시점과 사용자의 현재 시점 사이의 기간이 길수록 높게 설정되고, 이벤트 발생 시점과 사용자의 현재 시점 사이의 기간이 짧을수록 낮게 설정되고, 영상 개수 기준 가격은 영상의 개수가 적을수록 높게 설정되고, 영상의 개수가 많을수록 낮게 설정될 수 있다. 기준 가격은 실시예에 따라 상이하게 설정될 수 있다.
S804 단계에서, 장치(30)는 사용자의 위치가 해당하는 지역에서 이벤트의 종류가 동일한 동일 이벤트가 발생한 사용자의 수인 동일 발생 횟수를 산출할 수 있다.
예를 들어, 장치(30)는 사용자의 위치가 서울시이고, 이벤트의 종류가 결혼인 경우, 서울시에서 발생한 결혼 이벤트의 수인 동일 발생 횟수를 산출할 수 있다.
장치(30)는 사용자의 위치가 해당하는 지역에서 이벤트의 종류가 동일한 이벤트의 개수를 확인하는 과정을 수행함으로써, 사용자의 위치와 해당 지역 내의 이벤트 분포를 파악할 수 있다.
S805 단계에서, 장치(30)는 기준 비용에 동일 발생 횟수에 따라 비례하도록 설정된 가중치를 적용하여 사용자의 이미지 생성 비용을 결정할 수 있다.
장치(30)는 사용자의 위치가 해당하는 지역에서 동일 이벤트가 발생한 횟수를 산출하여 동일 발생 횟수를 고려함으로써, 사용자의 지역적인 관심을 반영할 수 있다. 해당 지역에서 동일 이벤트가 많이 발생한 경우, 이미지 생성에 대한 비용을 높일 수 있어 해당 지역의 사용자들의 관심을 끌고 참여를 유도할 수 있다.
장치(30)는 이벤트의 발생 횟수를 기간에 따라 산출하여 동일 발생 횟수를 고려함으로써, 이벤트의 활동성을 반영할 수 있다. 일정 기간 동안 동일 이벤트가 많이 발생한 경우, 이미지 생성 비용을 높여 해당 이벤트에 대한 반응성을 강조할 수 있다.
장치(30)는 동일 발생 횟수에 따라 가중치를 적용하여 이미지 생성 비용을 결정함으로써, 사용자의 이미지 생성에 대한 비용을 조정할 수 있고, 예를 들어, 이벤트의 인기도와 관련하여 비용을 조정할 수 있다.
즉, 장치(30)는 사용자의 지역적 관심을 고려하며, 이벤트의 활동성을 반영하고, 비용을 조정하여 이미지 생성의 효율성을 높일 수 있도록 하고, 사용자에게 맞춤형 반응형 이미지 생성을 제공하고, 이벤트에 대한 참여와 상호작용을 촉진할 수 있다.
S806 단계에서, 장치(30)는 이벤트 발생 시점에서의 동일 이벤트 발생 횟수 및 현재 시점에서의 동일 이벤트 발생 횟수의 증감 여부에 따라 이미지 생성 비용을 조정할 수 있다.
장치(30)는 이벤트 발생 시점에서의 동일 이벤트 발생 횟수를 산출하여, 해당 시점에 이벤트가 얼마나 활발하게 일어났는지를 확인할 수 있으며, 이벤트 발생 횟수가 증가한 경우, 해당 시점에 대한 이미지 생성 비용을 높일 수 있다. 이는 이벤트가 활발히 일어나는 시기에 사용자에게 더욱 집중적인 이미지를 제공하고 이벤트 참여를 유도할 수 있다.
또한, 장치(30)는 현재 시점에서의 동일 이벤트 발생 횟수를 산출하여, 현재 시점에 이벤트가 얼마나 활발하게 일어나고 있는지를 확인할 수 있으며, 현재 시점에서의 발생 횟수가 이벤트 발생 시점의 발생 횟수에 비해 증가하고 있다면, 이벤트에 대한 관심이 높아지고 있는 것으로 파악할 수 있고, 이 경우, 이미지 생성 비용을 높여 사용자의 관심을 끌고 참여를 유도할 수 있다.
즉, 장치(30)는 벤트의 활성도와 관심도에 따라 이미지 생성 비용을 적절하게 조절할 수 있다.
도 9는 일실시예에 따른 장치(30)의 구성의 예시도이다.
일실시예에 따른 장치(30)는 프로세서(31) 및 메모리(32)를 포함한다. 일실시예에 따른 장치(30)는 상술한 서버 또는 단말일 수 있다. 프로세서(31)는 도 1 내지 도 8을 통하여 전술한 적어도 하나의 장치들을 포함하거나, 도 1 내지 도 8을 통하여 전술한 적어도 하나의 방법을 수행할 수 있다. 메모리(32)는 상술한 방법과 관련된 정보를 저장하거나 상술한 방법이 구현된 프로그램을 저장할 수 있다. 메모리(32)는 휘발성 메모리 또는 비휘발성 메모리일 수 있다.
프로세서(31)는 프로그램을 실행하고, 장치(30)를 제어할 수 있다. 프로세서(31)에 의하여 실행되는 프로그램의 코드는 메모리(32)에 저장될 수 있다. 장치(30)는 입출력 장치(도면 미 표시)를 통하여 외부 장치(예를 들어, 퍼스널 컴퓨터 또는 네트워크)에 연결되고, 데이터를 교환할 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.

Claims (3)

  1. 장치에 의해 수행되는 방법에 있어서,
    사용자 정보 및 사용자와 관련된 영상 데이터를 수집하는 단계;
    상기 영상 데이터로부터, 상기 사용자가 등장하는 부분을 출연 영상 데이터로 추출하는 단계;
    상기 사용자의 단말로부터, 이벤트 정보를 수신하는 단계;
    상기 이벤트 정보로부터, 이벤트의 시점을 확인하는 단계;
    상기 출연 영상 데이터 중 상기 이벤트의 시점과 가장 근접한 시점에 생성된 출연 영상 데이터에서 상기 사용자의 얼굴 정보 및 신체 정보를 포함하는 사용자의 외모 정보를 획득하는 단계;
    상기 이벤트의 시점에서 상기 사용자의 외모 정보 변화를 반영하기 위하여, 미리 학습된 인공지능 모델에 상기 사용자의 외모 정보를 입력하여 수정 사용자 외모 정보를 출력하는 단계;
    상기 수정 사용자 외모 정보를 기반으로 이벤트 이미지를 생성하는 단계;
    상기 사용자의 반응 정보를 생성하는 단계; 및
    상기 이벤트 이미지에 상기 반응 정보를 적용한 반응형 이미지를 생성하는 단계;를 포함하고,
    상기 사용자의 반응 정보를 생성하는 단계는,
    상기 출연 영상 데이터로부터, 사용자의 음성 정보를 획득하는 단계,
    상기 음성 정보로부터 소리의 세기, 높낮이, 빠르기를 확인하는 단계,
    상기 소리의 세기, 높낮이, 빠르기를 기반으로 감정 지수를 결정하는 단계,
    상기 감정 지수가 미리 설정된 기준을 만족하지 않는 경우, 상기 사용자의 감정 상태 정보를 부정 상태로 결정하는 단계,
    상기 감정 지수가 미리 설정된 기준을 만족하는 경우, 상기 음성 정보로부터, 키워드를 추출하는 단계,
    상기 추출된 키워드 중에서 긍정 키워드의 비율인 긍정 비율을 산출하는 단계,
    상기 긍정 비율이 미리 설정된 기준 비율 미만인 경우, 상기 사용자의 감정 상태 정보를 중립 상태로 결정하는 단계,
    상기 긍정 비율이 상기 기준 비율 이상인 경우, 상기 사용자의 감정 상태 정보를 긍정 상태로 결정하는 단계,
    상기 출연 영상 데이터로부터, 사용자가 등장한 등장 시간을 확인하는 단계,
    상기 등장 시간 중 상기 부정 상태에 해당하는 부정 시간, 상기 중립 상태에 해당하는 중립 시간 및 상기 긍정 상태에 해당하는 긍정 시간을 추출하는 단계,
    상기 이벤트 정보의 이벤트와 관련된 사물을 선정하는 단계,
    상기 사용자와 관련된 영상 데이터에서 상기 사물이 등장한 횟수를 확인하는 단계,
    상기 사물이 등장한 횟수가 미리 설정된 기준을 만족하는 경우, 상기 사용자와 관련된 영상 데이터를 상기 이벤트 정보의 이벤트와 관련된 이벤트 영상 데이터로 결정하는 단계,
    상기 이벤트 영상 데이터에서 추출된 표정 중 주요 표정을 추출하는 단계, 및
    상기 부정 시간, 상기 중립 시간 및 상기 긍정 시간을 이용하여 상기 주요 표정의 유지 시간 및 변화 속도를 포함하는 반응 정도를 결정하는 단계를 포함하는,
    인공지능 모델을 활용하여 영상 데이터 히스토리로부터 추출된 개인화된 이미지 기반으로 반응형 이미지 콘텐츠를 생성하는 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 반응 정도에서 변화 속도를 결정하는 단계는,
    시청자와 상기 반응형 이미지가 표시된 디스플레이를 포함하는 장치 사이의 거리를 확인하는 단계,
    상기 디스플레이에 입력되는 터치 강도를 확인하는 단계, 및
    상기 거리에 반비례하고, 상기 터치 강도에 비례하도록 상기 변화 속도를 결정하는 단계를 포함하고,
    상기 반응 정도에서 유지 시간을 결정하는 단계는,
    상기 시청자의 움직임 정보를 획득하는 단계,
    상기 장치 주변의 소리 정보를 획득하는 단계,
    상기 움직임 정보 및 소리 정보를 이용하여 상기 유지 시간을 결정하는 단계, 및
    현재 시점에서 특정 기간 동안 상기 이벤트 정보에 해당하는 이벤트의 발생 횟수의 증감 여부에 따라 상기 유지 시간을 조정하는 단계를 포함하는,
    인공지능 모델을 활용하여 영상 데이터 히스토리로부터 추출된 개인화된 이미지 기반으로 반응형 이미지 콘텐츠를 생성하는 방법.
KR1020230078317A 2023-06-19 2023-06-19 인공지능 모델을 활용하여 영상 데이터 히스토리로부터 추출된 개인화된 이미지 기반으로 반응형 이미지 콘텐츠를 생성하는 방법, 장치 및 시스템 KR102574021B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230078317A KR102574021B1 (ko) 2023-06-19 2023-06-19 인공지능 모델을 활용하여 영상 데이터 히스토리로부터 추출된 개인화된 이미지 기반으로 반응형 이미지 콘텐츠를 생성하는 방법, 장치 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230078317A KR102574021B1 (ko) 2023-06-19 2023-06-19 인공지능 모델을 활용하여 영상 데이터 히스토리로부터 추출된 개인화된 이미지 기반으로 반응형 이미지 콘텐츠를 생성하는 방법, 장치 및 시스템

Publications (1)

Publication Number Publication Date
KR102574021B1 true KR102574021B1 (ko) 2023-09-04

Family

ID=88018505

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230078317A KR102574021B1 (ko) 2023-06-19 2023-06-19 인공지능 모델을 활용하여 영상 데이터 히스토리로부터 추출된 개인화된 이미지 기반으로 반응형 이미지 콘텐츠를 생성하는 방법, 장치 및 시스템

Country Status (1)

Country Link
KR (1) KR102574021B1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170025162A (ko) * 2015-08-27 2017-03-08 연세대학교 산학협력단 얼굴 영상의 얼굴 나이 변환 방법 및 그 장치
KR20190106865A (ko) * 2019-08-27 2019-09-18 엘지전자 주식회사 동영상 검색방법 및 동영상 검색 단말기
KR20210098220A (ko) * 2020-01-31 2021-08-10 주식회사 아이티엑스에이아이 시청자 반응에 따른 컨텐츠 변환 장치
KR102334666B1 (ko) 2021-05-20 2021-12-07 알레시오 주식회사 얼굴 이미지 생성 방법
KR102395083B1 (ko) 2020-11-18 2022-05-10 주식회사 에스알유니버스 인공지능을 활용한 가상 얼굴 생성 방법 및 장치
KR20220158957A (ko) 2021-05-25 2022-12-02 인제대학교 산학협력단 시선추적과 실시간 표정분석을 이용한 개인성향 예측 시스템 및 그 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170025162A (ko) * 2015-08-27 2017-03-08 연세대학교 산학협력단 얼굴 영상의 얼굴 나이 변환 방법 및 그 장치
KR101725808B1 (ko) 2015-08-27 2017-04-26 연세대학교 산학협력단 얼굴 영상의 얼굴 나이 변환 방법 및 그 장치
KR20190106865A (ko) * 2019-08-27 2019-09-18 엘지전자 주식회사 동영상 검색방법 및 동영상 검색 단말기
KR20210098220A (ko) * 2020-01-31 2021-08-10 주식회사 아이티엑스에이아이 시청자 반응에 따른 컨텐츠 변환 장치
KR102395083B1 (ko) 2020-11-18 2022-05-10 주식회사 에스알유니버스 인공지능을 활용한 가상 얼굴 생성 방법 및 장치
KR102334666B1 (ko) 2021-05-20 2021-12-07 알레시오 주식회사 얼굴 이미지 생성 방법
KR20220158957A (ko) 2021-05-25 2022-12-02 인제대학교 산학협력단 시선추적과 실시간 표정분석을 이용한 개인성향 예측 시스템 및 그 방법

Similar Documents

Publication Publication Date Title
US10573313B2 (en) Audio analysis learning with video data
US11769056B2 (en) Synthetic data for neural network training using vectors
US10628741B2 (en) Multimodal machine learning for emotion metrics
US10401860B2 (en) Image analysis for two-sided data hub
Dewan et al. A deep learning approach to detecting engagement of online learners
Bhatti et al. Facial expression recognition of instructor using deep features and extreme learning machine
US11410438B2 (en) Image analysis using a semiconductor processor for facial evaluation in vehicles
US20200342979A1 (en) Distributed analysis for cognitive state metrics
Do et al. Deep neural network-based fusion model for emotion recognition using visual data
US11657288B2 (en) Convolutional computing using multilayered analysis engine
Halvardsson et al. Interpretation of swedish sign language using convolutional neural networks and transfer learning
US20210125065A1 (en) Deep learning in situ retraining
JP2022505836A (ja) デジタルコンテンツ体験との改善されたヒューマンインタラクションのための共感的コンピューティングシステムおよび方法
US11484685B2 (en) Robotic control using profiles
Dileep et al. Human age and gender prediction based on neural networks and three sigma control limits
Alameda-Pineda et al. Multimodal behavior analysis in the wild: advances and challenges
Tambe et al. Mood based E-learning using EEG
KR102463875B1 (ko) 빅데이터를 활용한 사용자 맞춤 심리 치료 콘텐츠 제공 방법, 장치 및 시스템
Rincon et al. Using emotions for the development of human-agent societies
KR102574021B1 (ko) 인공지능 모델을 활용하여 영상 데이터 히스토리로부터 추출된 개인화된 이미지 기반으로 반응형 이미지 콘텐츠를 생성하는 방법, 장치 및 시스템
KR20220102042A (ko) 사용자 입력을 추론하는 사용자 맞춤형 전자 장치 및 이를 제어하는 방법
KR102645143B1 (ko) 사용자 상호작용 기반 반응형 사용자 메뉴얼 콘텐츠의 생성 및 제공 방법, 장치 및 시스템
Bustos-López et al. Emotion Detection in Learning Environments Using Facial Expressions: A Brief Review
KR102525624B1 (ko) 인공지능 기반 고객의 퍼스널 컬러와 매칭되는 가방 제공 방법, 장치 및 시스템
KR102492762B1 (ko) 인공지능 기반 수강생 맞춤형 유학 교육 커리큘럼 제공 및 관리 방법, 장치 및 시스템

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant