KR102564182B1

KR102564182B1 - 인공지능 모델을 활용하여 영상 데이터 기반 얼굴 표정 영상 추출 및 이를 활용한 콘텐츠 생성 방법, 장치 및 시스템

Info

Publication number: KR102564182B1
Application number: KR1020230047872A
Authority: KR
Inventors: 이가람
Original assignee: 이가람
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-08-07

Abstract

일실시예에 따른 장치는 영상 콘텐츠로부터 객체를 추출하고, 영상 콘텐츠로부터 추출한 객체에 대한 시청각 정보를 획득하고, 시청각 정보 및 영상 콘텐츠의 기본 정보를 이용하여 주요 객체를 결정하고, 주요 객체의 표정 변화를 인공신경망을 통해 학습된 감정 구분 알고리즘 및 대사 중 적어도 하나를 이용하여 구분하고, 주요 객체의 표정 정보를 구분에 사용된 요소와 매칭하여 저장하고, 표정 정보를 이용하여 영상 콘텐츠에 대응하는 2차 콘텐츠를 생성할 수 있다.

Description

인공지능 모델을 활용하여 영상 데이터 기반 얼굴 표정 영상 추출 및 이를 활용한 콘텐츠 생성 방법, 장치 및 시스템{METHOD, APPARATUS AND SYSTEM FOR EXTRACTING FACIAL EXPRESSION IMAGES BASED ON IMAGE DATA USING ARTIFICIAL INTELLIGENCE MODELS AND CREATING CONTENTS USING THEM}

아래 실시예들은 인공지능 모델을 활용하여 영상 데이터를 기반으로 얼굴 표정 영상을 추출하고 이를 활용한 콘텐츠를 생성하는 기술에 관한 것이다.

최근에는 인터넷과 모바일 기술의 발전으로 영상 콘텐츠는 유튜브, 인스타그램, 페이스북 등의 소셜 미디어를 비롯한 다양한 온라인 플랫폼에서 쉽게 접할 수 있게 되었다. 이 외에도 방송, 영화관, DVD 등의 방식으로도 영상 콘텐츠를 시청할 수 있다.

또한, 영화, 연극, 콘서트 또는 뮤지컬 등의 문화 관련 산업의 발전으로 인하여 관객들에게 보다 더 다양한 서비스를 제공하기 위하여 다채로운 내용상의 콘텐츠를 개발하여 제공하고 있으며, 기존의 영상 콘텐츠에서 다양한 형태의 변화나 발전을 거쳐 파생된 2차 콘텐츠를 생성하여 제공하기도 한다.

2차 콘텐츠는 기존의 영상 콘텐츠의 내용을 보다 효과적으로 전달하고 활용할 수 있으며, 다양한 형태로 활용될 수 있어 원본 영상 콘텐츠의 홍보, 교육, 마케팅, 엔터테인먼트 등 다양한 분야에서 활용이 가능하다.

하지만, 기존의 2차 콘텐츠를 생성하기 위해서는 영상 콘텐츠의 촬영과 별개로 추가로 촬영을 진행하기 때문에, 시간, 인력 등에 대한 비용이 많이 발생하고 번거롭다는 문제점이 있었다.

이에 따라, 인공지능 모델을 활용하여 영상 데이터를 기반으로 얼굴 표정 영상을 추출하고 이를 활용한 콘텐츠를 생성하는 기술에 대한 개발이 요구되는 실정이다.

대한민국 등록특허 제10-1571888 호(2015.11.25 공고) 대한민국 등록특허 제10-1757184 호(2017.07.13 공고) 대한민국 등록특허 제10-0977528호(2010.08.23 공고) 대한민국 등록특허 제10-1974130 호(2019.04.30 공개)

실시예들은 인공지능 모델을 활용하여 영상 데이터를 기반으로 얼굴 표정 영상을 추출하고 이를 활용한 콘텐츠를 생성하는 방법을 제공하고자 한다.

실시예들은 객체의 크기, 등장 시간, 위치, 명암, 속도, 소리, 대사량 등의 시청각 정보를 이용하여 주요 객체를 결정하고자 한다.

실시예들은 객체의 스켈레톤 정보 및 표현 정보를 기반으로, 사용자 맞춤형 2차 콘텐츠를 생성하고자 한다.

일실시예에 따르면, 장치에 의해 수행되는 방법은, 영상 콘텐츠로부터 객체를 추출하는 단계; 상기 영상 콘텐츠로부터 추출한 객체에 대한 시청각 정보를 획득하는 단계; 상기 시청각 정보 및 상기 영상 콘텐츠의 기본 정보를 이용하여 주요 객체를 결정하는 단계; 상기 주요 객체의 표정 변화를 인공신경망을 통해 학습된 감정 구분 알고리즘 및 대사 중 적어도 하나를 이용하여 구분하는 단계; 상기 주요 객체의 표정 정보를 상기 구분에 사용된 요소와 매칭하여 저장하는 단계; 및 상기 표정 정보를 이용하여 상기 영상 콘텐츠에 대응하는 2차 콘텐츠를 생성하는 단계를 포함할 수 있다.

상기 주요 객체를 결정하는 단계는, 상기 시청각 정보로부터, 상기 영상 콘텐츠에서 상기 객체의 평균 크기를 확인하고, 상기 영상 콘텐츠에서 상기 객체의 평균 크기가 차지하는 크기 비율을 산출하는 단계, 상기 크기 비율이 미리 설정된 기준 비율 이상인지 여부에 대한 크기 정보를 생성하는 단계, 상기 시청각 정보로부터, 상기 객체가 등장하는 등장 시간을 확인하는 단계, 상기 등장 시간이 미리 설정된 기준 시간 이상인지 여부에 대한 등장 시간 정보를 생성하는 단계, 상기 시청각 정보로부터, 상기 영상 콘텐츠에서 상기 객체의 위치를 확인하는 단계, 상기 객체의 위치와 상기 영상 콘텐츠가 표시되는 화면에서 미리 설정된 중간 구역에 포함되는지 여부에 대한 위치 정보를 생성하는 단계, 상기 시청각 정보로부터, 상기 영상 콘텐츠에서 상기 객체의 명암과 상기 영상 콘텐츠에서의 배경의 명암의 대비 정도를 확인하는 단계, 상기 명암의 대비 정도가 미리 설정된 기준 정도 이상인지 여부에 대한 명암 정보를 생성하는 단계, 상기 시청각 정보로부터, 상기 객체의 속도를 확인하는 단계, 상기 객체의 속도가 미리 설정된 기준 속도 이상인지 여부에 대한 속도 정보를 생성하는 단계, 상기 시청각 정보로부터, 상기 객체의 소리의 세기를 확인하는 단계, 상기 소리의 세기가 미리 설정된 기준 세기 이상인지 여부에 대한 소리 정보를 생성하는 단계, 상기 시청각 정보로부터, 상기 객체의 대사의 길이, 빈도를 포함하는 대사량 확인하는 단계, 상기 대사량이 미리 설정된 기준량 이상인지 여부에 대한 대사량 정보를 생성하는 단계, 상기 크기 정보, 상기 등장 시간 정보, 상기 위치 정보, 상기 명암 정보, 상기 속도 정보, 상기 소리 정보 및 상기 대사량 정보에 기반하여 상기 객체의 시청각 지수를 결정하는 단계, 및 상기 객체 중 상기 시청각 지수가 미리 설정된 기준을 만족하는 객체를 주요 객체로 결정하는 단계를 포함할 수 있다.

상기 2차 콘텐츠를 생성하는 단계는, 상기 영상 콘텐츠에서 추출한 객체를 제외한 배경을 추출하는 단계, 사용자의 단말로부터 스켈레톤 정보를 수신하는 단계, 상기 추출된 객체로부터 얼굴 부분에 해당하는 얼굴 정보 및 바디 부분에 해당하는 바디 정보를 획득하고, 상기 스켈레톤 정보에 상기 바디 정보를 적용하여 상기 객체의 바디를 결정하는 단계, 상기 사용자의 단말로부터 상기 객체의 표정, 감정, 상태를 포함하는 표현 정보를 수신하는 단계, 상기 표현 정보와 매칭되는 표정 정보를 이용하여, 상기 객체의 얼굴을 제1 얼굴로 결정하는 단계, 상기 제1 얼굴에 대한 만족 여부를 상기 사용자의 단말로부터 수신하는 단계, 상기 사용자가 상기 제1 얼굴을 만족한 경우, 상기 객체의 얼굴을 제1 얼굴로 유지하는 단계, 및 상기 사용자가 상기 제1 얼굴을 만족한 경우, 상기 객체의 얼굴을 제1 얼굴과 상이한 제2 얼굴로 결정하는 단계를 포함할 수 있다.

상기 2차 콘텐츠를 생성하는 단계는, 상기 영상 콘텐츠의 내용에 기반하여 상기 영상 콘텐츠의 키워드를 추출하는 단계, 및 상기 제1 얼굴 및 제2 얼굴 중 어느 하나의 얼굴 및 바디를 포함하는 객체 및 상기 키워드를 결합하여 상기 2차 콘텐츠를 생성하는 단계를 포함할 수 있다.

상기 영상 콘텐츠의 내용에 기반하여 상기 영상 콘텐츠의 키워드를 추출하는 단계는, 상기 영상 콘텐츠의 음성을 추출하는 단계, 상기 추출된 음성을 텍스트로 변환하는 단계, 상기 텍스트의 형태소를 분석하여 단어 단위로 분류하는 단계, 상기 단어를 기초로, 상기 단어들 중 일상 단어 및 습관 단어를 포함하는 부가 단어를 제외하는 단계, 상기 단어들 중 상기 부가 단어를 제외하고 남은 단어를 핵심 단어로 선정하는 단계, 및 상기 핵심 단어의 빈도수 및 상기 핵심 단어 간의 연관도를 기초로, 상기 키워드를 추출하는 단계를 포함할 수 있다.

일실시예에 따른 장치는 하드웨어와 결합되어 상술한 방법들 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램에 의해 제어될 수 있다.

실시예들은 인공지능 모델을 활용하여 영상 데이터를 기반으로 얼굴 표정 영상을 추출하고 이를 활용한 콘텐츠를 생성하는 방법을 제공할 수 있다.

실시예들은 객체의 크기, 등장 시간, 위치, 명암, 속도, 소리, 대사량 등의 시청각 정보를 이용하여 주요 객체를 결정할 수 있다.

실시예들은 객체의 스켈레톤 정보 및 표현 정보를 기반으로, 사용자 맞춤형 2차 콘텐츠를 생성할 수 있다.

도 1은 일실시예에 따른 시스템의 구성을 설명하기 위한 도면이다.
도 2는 일실시예에 따른 인공지능 모델을 활용하여 영상 데이터를 기반으로 얼굴 표정 영상을 추출하고 이를 활용한 콘텐츠를 생성하는 과정을 설명하기 위한 순서도이다.
도 3은 일실시예에 따른 주요 객체를 결정하는 과정을 설명하기 위한 순서도이다.
도 4는 일실시예에 따른 2차 콘텐츠를 생성하는 과정을 설명하기 위한 순서도이다.
도 5는 일실시예에 따른 2차 콘텐츠를 생성하는 과정을 설명하기 위한 순서도이다.
도 6은 일실시예에 따른 영상 콘텐츠의 내용을 분석하여 키워드를 선정하는 과정을 설명하기 위한 순서도이다.
도 7은 일실시예에 따른 장치의 구성의 예시도이다.

이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.

실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.

실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

실시예들은 퍼스널 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트 폰, 텔레비전, 스마트 가전 기기, 지능형 자동차, 키오스크, 웨어러블 장치 등 다양한 형태의 제품으로 구현될 수 있다.

도 1은 일실시예에 따른 시스템의 구성을 설명하기 위한 도면이다.

도 1을 참조하면, 일실시예에 따른 시스템은 통신망을 통해 서로 통신 가능한 사용자의 단말(10) 및 장치(30)를 포함할 수 있다.

먼저, 통신망은 유선 및 무선 등과 같이 그 통신 양태를 가리지 않고 구성될 수 있으며, 서버와 서버 간의 통신과 서버와 단말 간의 통신이 수행되도록 다양한 형태로 구현될 수 있다.

사용자의 단말(10)은 본 발명에 따른 영상 데이터를 기반으로 얼굴 표정을 포함하는 영상을 추출하고, 얼굴 표정 영상을 활용하여 콘텐츠를 생성하고자 하는 사용자가 사용하는 단말일 수 있다. 사용자의 단말(10)은 데스크탑 컴퓨터, 노트북, 태블릿, 스마트폰 등일 수 있다. 예를 들어, 도 1에 도시된 바와 같이, 사용자의 단말(10)은 스마트폰일 수 있으며, 실시예에 따라 달리 채용될 수도 있다.

사용자의 단말(10)은 통상의 컴퓨터가 가지는 연산 기능, 저장/참조 기능, 입출력 기능 및 제어 기능을 전부 또는 일부 수행하도록 구성될 수 있다. 사용자의 단말(10)은 장치(30)와 유무선으로 통신하도록 구성될 수 있다.

사용자의 단말(10)은 장치(30)를 이용하여 서비스를 제공하는 자 내지 단체가 운영하는 웹 페이지에 접속되거나, 장치(30)를 이용하여 서비스를 제공하는 자 내지 단체가 개발·배포한 애플리케이션이 설치될 수 있다. 사용자의 단말(10)은 웹 페이지 또는 애플리케이션을 통해 장치(30)와 연동될 수 있다.

사용자의 단말(10)은 장치(30)에서 제공하는 웹 페이지, 애플리케이션을 등을 통해 장치(30)에 접속할 수 있다.

청구항에 기재된 단수의 표현은 복수를 포함하는 것으로 이해될 수 있다. 예를 들어, 청구항의 사용자는 하나의 사용자 또는 둘 이상의 사용자를 지칭할 수 있다.

장치(30)는 영상 데이터를 기반으로 얼굴 표정을 포함하는 영상을 추출하고, 얼굴 표정 영상을 활용하여 콘텐츠를 생성하는 서비스를 제공할 수 있다.

장치(30)는 장치(30)를 이용하여 서비스를 제공하는 자 내지 단체가 보유한 자체 서버일수도 있고, 클라우드 서버일 수도 있고, 분산된 노드(node)들의 p2p(peer-to-peer) 집합일 수도 있다. 장치(30)는 통상의 컴퓨터가 가지는 연산 기능, 저장/참조 기능, 입출력 기능 및 제어 기능을 전부 또는 일부 수행하도록 구성될 수 있다.

장치(30)는 사용자의 단말(10)와 유무선으로 통신하도록 구성될 수 있으며, 사용자의 단말(10)의 동작을 제어하고, 사용자의 단말(10)의 화면에 어느 정보를 표시할 것인지에 대해 제어할 수 있다.

한편, 설명의 편의를 위해 도 1에서는 사용자의 단말(10)만을 도시하였으나, 단말들의 수는 실시예에 따라 얼마든지 달라질 수 있다. 장치(30)의 처리 용량이 허용하는 한, 단말들의 수는 특별한 제한이 없다.

일실시예에 따르면, 장치(30) 내에는 데이터베이스가 구비될 수 있으며, 이에 한정되지 않고, 장치(30)와 별도로 데이터베이스가 구성될 수 있다. 장치(30)는 기계 학습 알고리즘의 수행을 위한 다수의 인공 신경망을 포함할 수 있다.

본 발명에서, 인공지능(Artificial Intelligence, AI)은 인간의 학습능력, 추론능력, 지각능력 등을 모방하고, 이를 컴퓨터로 구현하는 기술을 의미하고, 기계 학습, 심볼릭 로직(Symbolic Logic) 등의 개념을 포함할 수 있다. 기계 학습(Machine Learning, ML)은 입력 데이터들의 특징을 스스로 분류 또는 학습하는 알고리즘 기술이다. 인공지능의 기술은 기계 학습의 알고리즘으로써 입력 데이터를 분석하고, 그 분석의 결과를 학습하며, 그 학습의 결과에 기초하여 판단이나 예측을 할 수 있다. 또한, 기계 학습의 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술들 역시 인공지능의 범주로 이해될 수 있다. 예를 들어, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야가 포함될 수 있다.

기계 학습은 데이터를 처리한 경험을 이용해 신경망 모델을 훈련시키는 처리를 의미할 수 있다. 기계 학습을 통해 컴퓨터 소프트웨어는 스스로 데이터 처리 능력을 향상시키는 것을 의미할 수 있다. 신경망 모델은 데이터 사이의 상관 관계를 모델링하여 구축된 것으로서, 그 상관 관계는 복수의 파라미터에 의해 표현될 수 있다. 신경망 모델은 주어진 데이터로부터 특징들을 추출하고 분석하여 데이터 간의 상관 관계를 도출하는데, 이러한 과정을 반복하여 신경망 모델의 파라미터를 최적화해 나가는 것이 기계 학습이라고 할 수 있다. 예를 들어, 신경망 모델은 입출력 쌍으로 주어지는 데이터에 대하여, 입력과 출력 사이의 매핑(상관 관계)을 학습할 수 있다. 또는, 신경망 모델은 입력 데이터만 주어지는 경우에도 주어진 데이터 사이의 규칙성을 도출하여 그 관계를 학습할 수도 있다.

인공지능 학습모델 또는 신경망 모델은 인간의 뇌 구조를 컴퓨터 상에서 구현하도록 설계될 수 있으며, 인간의 신경망의 뉴런(neuron)을 모의하며 가중치를 가지는 복수의 네트워크 노드들을 포함할 수 있다. 복수의 네트워크 노드들은 뉴런이 시냅스(synapse)를 통하여 신호를 주고받는 뉴런의 시냅틱(synaptic) 활동을 모의하여, 서로 간의 연결 관계를 가질 수 있다. 인공지능 학습모델에서 복수의 네트워크 노드들은 서로 다른 깊이의 레이어에 위치하면서 컨볼루션(convolution) 연결 관계에 따라 데이터를 주고받을 수 있다. 인공지능 학습모델은, 예를 들어, 인공 신경망 모델(Artificial Neural Network), 컨볼루션 신경망 모델(Convolution Neural Network: CNN) 등일 수 있다. 일 실시예로서, 인공지능 학습모델은, 지도학습(Supervised Learning), 비지도 학습(Unsupervised Learning), 강화 학습(Reinforcement Learning) 등의 방식에 따라 기계 학습될 수 있다. 기계 학습을 수행하기 위한 기계 학습 알고리즘에는, 의사결정트리(Decision Tree), 베이지안 망(Bayesian Network), 서포트 벡터 머신(Support Vector Machine), 인공 신경망(Artificial Neural Network), 에이다부스트(Ada-boost), 퍼셉트론(Perceptron), 유전자 프로그래밍(Genetic Programming), 군집화(Clustering) 등이 사용될 수 있다.

이중, CNN은 최소한의 전처리(preprocess)를 사용하도록 설계된 다계층 퍼셉트론(multilayer perceptrons)의 한 종류이다. CNN은 하나 또는 여러 개의 합성곱 계층과 그 위에 올려진 일반적인 인공 신경망 계층들로 이루어져 있으며, 가중치와 통합 계층(pooling layer)들을 추가로 활용한다. 이러한 구조 덕분에 CNN은 2차원 구조의 입력 데이터를 충분히 활용할 수 있다. 다른 딥러닝 구조들과 비교해서, CNN은 영상, 음성 분야 모두에서 좋은 성능을 보여준다. CNN은 또한 표준 역전달을 통해 훈련될 수 있다. CNN은 다른 피드포워드 인공신경망 기법들보다 쉽게 훈련되는 편이고 적은 수의 매개변수를 사용한다는 이점이 있다.

컨볼루션 네트워크는 묶인 파라미터들을 가지는 노드들의 집합들을 포함하는 신경 네트워크들이다. 사용 가능한 트레이닝 데이터의 크기 증가와 연산 능력의 가용성이, 구분적 선형 단위 및 드롭아웃 트레이닝과 같은 알고리즘 발전과 결합되어, 많은 컴퓨터 비전 작업들이 크게 개선되었다. 오늘날 많은 작업에 사용할 수 있는 데이터 세트들과 같은 엄청난 양의 데이터 세트에서는 초과 맞춤(outfitting)이 중요하지 않으며, 네트워크의 크기를 늘리면 테스트 정확도가 향상된다. 컴퓨팅 리소스들의 최적 사용은 제한 요소가 된다. 이를 위해, 심층 신경 네트워크들의 분산된, 확장 가능한 구현예가 사용될 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

도 2는 일실시예에 따른 인공지능 모델을 활용하여 영상 데이터를 기반으로 얼굴 표정 영상을 추출하고 이를 활용한 콘텐츠를 생성하는 과정을 설명하기 위한 순서도이다.

도 2을 참조하면, 먼저, S201 단계에서, 장치(30)는 영상 콘텐츠로부터 객체를 추출할 수 있다.

장치(30)는 사용자의 단말(10)로부터 얼굴 표정 영상을 추출하고, 추출한 얼굴 표정 영상을 활용하여 2차 콘텐츠를 생성하고자 하는 영상 콘텐츠를 수신할 수 있다. 장치(30)는 사용자의 단말(10)로부터 영상 콘텐츠를 수신하면, 웹 사이트로부터 영상 콘텐츠를 검색하여 영상 콘텐츠의 기본 정보를 획득하여 데이터베이스에 저장할 수 있다.

영상 콘텐츠의 기본 정보는 영상의 제목, 종류, 설명, 출처, 장르, 출연진, 주연, 조연, 제작진, 자막, 음악, 효과음, 대사, 저작권, 촬영 장소, 촬영 일자, 화면 비율, 해상도, 줄거리 등에 대한 정보를 포함할 수 있다.

예를 들어, 영상 콘텐츠의 종류는 영화, 드라마, VOD, 콘서트, 공연, 연극, 뮤지컬 등을 포함할 수 있으나, 이에 한정되지는 않는다.

여기서 영상 콘텐츠는 AVI, MGP, FLV, M4V, MP4, WMV, OGV, WEBM, MOV 확장자 형식이 될 수 있으며, 그 외의 동영상 확장자 형식이 될 수도 있다.

장치(30)는 영상 콘텐츠로부터 영상 콘텐츠에 포함된 객체를 추출할 수 있다. 여기서, 객체는 영상 콘텐츠에 포함된 인물, 동물, 신화적 존재 등을 포함하는 등장인물을 의미할 수 있다.

장치(30)는 객체 인식(object detection) 기술을 활용하여, 영상 콘텐츠에서 객체를 추출할 수 있다. 객체 인식은 딥러닝 알고리즘을 이용하여 이미지나 영상에서 특정 객체를 탐지하고 인식하는 기술로, 영상 콘텐츠에서 객체를 탐지하기 위해 컴퓨터 비전 기술을 이용해 다양한 특징을 추출하고, 추출된 특징을 이용하여 객체가 있는 위치를 탐지하고, 탐지된 객체의 위치를 기반으로 객체의 영역을 추출하고, 추출된 객체의 영역을 기반으로 객체의 클래스 레이블을 할당하는 과정을 통해, 영상 콘텐츠에서 객체를 추출할 수 있다.

장치(30)는 객체 인식 기술을 활용하여 주인공 객체를 추출하는 경우, 특정 클래스 레이블을 지정하여 해당 객체만 추출할 수 있으며, 객체 인식 기술과 함께 객체 추적(object tracking) 기술을 결합하여 동일한 객체를 지속적으로 추적하고 추출할 수도 있다. 이때, 영상 콘텐츠에서 객체를 추출하는 과정은 통상의 기술자에게 자명한 사항이므로 자세한 설명은 생략하기로 한다.

S202 단계에서, 장치(30)는 영상 콘텐츠로부터 추출한 객체에 대한 시청각 정보를 획득할 수 있다. 여기서, 시청각 정보는 객체의 크기 정보, 등장 시간 정보, 위치 정보, 명암 정보, 속도 정보, 소리 정보 및 대사량 정보를 포함할 수 있으나, 이에 한정되지는 않는다.

S203 단계에서, 장치(30)는 시청각 정보 및 영상 콘텐츠의 기본 정보를 이용하여 주요 객체를 결정할 수 있다. 이때, 추출한 객체 중 시청각 정보 및 영상 콘텐츠의 기본 정보를 이용하여 주요 객체를 결정하는 과정에 대한 자세한 설명은 도 3을 참조하여 후술하기로 한다.

S204 단계에서, 장치(30)는 주요 객체의 표정 변화를 인공신경망을 통해 학습된 감정 구분 알고리즘 및 대사 중 적어도 하나를 이용하여 구분할 수 있다.

일실시예에 따르면, 장치(30)는 인공신경망을 통해 학습된 감정 구분 알고리즘을 이용하여 주요 객체의 표정 변화를 구분할 수 있다.

구체적으로, 장치(30)는 객체의 표정 변화를 추출하기 위해 다양한 감정 상태를 포함하는 데이터셋을 수집할 수 있다. 예를 들어, 감정 상태는 기쁨, 분노, 슬픔, 놀라움, 혐오, 공포, 중립 등을 포함할 수 있으나, 이에 한정되지는 않는다. 장치(30)는 데이터셋을 라벨링하고, 이미지 크기를 조절하거나 회전 등의 변형 작업을 수행하는 등의 수집된 데이터를 전처리하는 과정을 수행하여 인공신경망 모델이 학습하기 적합한 형태로 만들고, 전처리된 데이터셋으로 인공신경망 모델을 학습시킴으로써, 인공신경망 모델의 구조를 결정하고, 학습률과 배치 크기 등의 하이퍼파라미터를 조정할 수 있으며, 인공신경망 모델을 통해 객체의 표정 변화를 추출할 수 있다. 이 과정에서는 장치(30)는 객체가 나타내는 표정을 실시간으로 감지하고, 인공신경망 모델을 이용하여 해당 표정이 어떤 감정에 해당하는지 판별할 수 있다.

예를 들어, 장치(30)는 영상 콘텐츠의 구간 별로, 감정 구분 알고리즘을 이용하여, 객체의 표정 변화를 구분할 수 있다. 장치(30)는 구간 별 표정에 대하 정보를 감정 구분 알고리즘을 통해 기쁨, 분노, 슬픔, 놀라움, 혐오, 공포, 중립에 대한 각각의 실수 값을 획득할 수 있으며, 기쁨, 분노, 슬픔, 놀라움, 혐오, 공포, 중립에 대한 실수 값의 합은 1로 설정될 수 있다.

객체의 표정 변화 추출 과정은 주로 인공지능 기술을 이용하여 수행될 수 있다. 일반적으로 얼굴 인식 기술을 이용하여 객체의 얼굴을 인식한 후, 표정을 분석하여 감정 상태를 추출하고, 이를 위해 주로 딥러닝 알고리즘을 이용하여 인공신경망 모델을 학습시키는 방법이 사용된다.

객체의 표정 변화 추출을 위해 일반적으로 사용되는 딥러닝 기술 중 하나는 CNN(Convolutional Neural Network)으로, CNN은 이미지 인식 분야에서 널리 사용되는 딥러닝 알고리즘으로, 이미지에서 특징을 추출하고 패턴을 인식하는 데 사용된다.

감정 분석에는 대표적으로 Facial Action Coding System(FACS)이라는 방법이 사용되며, FACS는 얼굴의 표정 움직임을 분석하여 얼굴의 표정 상태를 추출하는 방법으로서, 객체의 얼굴에서 움직이는 근육을 추적하여 이를 이용하여 표정 상태를 추출할 수 있다.

이때, 인공신경망을 통해 학습된 감정 구분 알고리즘을 이용하여 주요 객체의 표정 변화를 구분하는 과정은 통상의 기술자에게 자명한 사항이므로 자세한 설명은 생략하기로 한다.

일실시예에 따르면, 장치(30)는 대사를 이용하여 주요 객체의 표정 변화를 구분할 수 있다.

장치(30)는 대사와 감정 상태를 연결하는 기존의 자연어 처리 기술을 활용하여 주요 객체의 표정 변화를 추출할 수 있다. 예를 들어, 장치(30)는 주요 객체의 대사에서 "나는 기뻐"라는 문장을 발화하면 주요 객체의 표정은 기쁨으로 변화하는 것을 탐지할 수 있다 장치(30)는 이러한 대사를 기반으로 자연어 처리 기술을 활용하여 각 대사에서 주요 객체의 표정 변화를 추출할 수 있다.

예를 들어, 장치(30)는 음성인식 기술을 활용하여 대사를 텍스트로 변환한 후, 텍스트 데이터에 대해 감정 분석을 수행하여 주요 객체의 감정 상태 변화를 추출할 수 있다. 이를 위해, 장치(30)는 자연어 처리 기술 중 하나인 감정 분석 기술을 활용할 수 있다. 감정 분석 기술은 자연어 처리 기술 중에서도 텍스트 데이터에 대한 감정 분류 모델을 학습하여 텍스트 데이터에서의 감정을 예측하는 기술로서, 대사에서 주요 객체의 감정 상태를 추출할 수 있다.

다른 예를 들어, 장치(30)는 자연어 처리 기술을 활용하여 영상 콘텐츠에서 텍스트 데이터를 추출한 후, 텍스트 데이터에서 주요 객체와 관련된 정보를 추출하여 해당 객체의 감정 상태 변화를 추출할 수 있다. 이를 위해서, 장치(30)는 영상 콘텐츠에서 텍스트 데이터를 추출하는 OCR(광학 문자 인식) 기술을 이용하여 추출된 텍스트 데이터를 자연어 처리 기술을 이용하여 분석하면, 해당 객체와 관련된 정보를 추출하고, 추출된 정보를 이용하여 해당 객체의 감정 상태 변화를 추출할 수 있다.

장치(30)는 대사에 포함된 텍스트 데이터를 자연어 처리 기술을 이용하여 대사에 따른 주요 객체의 표정 변화를 구분할 수 있다. 예를 들어, 대사의 감정 상태는 긍정, 부정, 중립 상태로 구분될 수 있으며, 장치(30)는 대사의 감정 상태에 따른 주요 객체의 표정을 각각 매칭하여 데이터베이스에 저장할 수 있다.

이때, 자연어 처리 기술을 이용한 대사를 이용하여 주요 객체의 표정 변화를 구분하는 과정은 통상의 기술자에게 자명한 사항이므로 자세한 설명은 생략하기로 한다. 주요 객체의 표정 변화를 구분하는 방법은 이에 한정되지 않고 다양한 방법으로 실시될 수 있다.

S205 단계에서, 장치(30)는 주요 객체의 표정 정보를 구분에 사용된 요소와 매칭하여 저장할 수 있다.

예를 들어, 장치(30)는 감정 구분 알고리즘을 이용한 경우, 주요 객체의 표정에 따른 감정 상태는 기쁨, 분노, 슬픔, 놀라움, 혐오, 공포, 중립 상태로 구분될 수 있으며, 주요 객체의 표정과 감정 상태를 각각 매칭하여 데이터베이스에 저장할 수 있다.

예를 들어, 장치(30)는 대사를 이용한 경우, 주요 객체의 표정에 따른 감정 상태는 긍정, 부정, 중립 상태로 구분될 수 있으며, 장치(30)는 대사의 감정 상태에 따른 주요 객체의 표정을 각각 매칭하여 데이터베이스에 저장할 수 있다.

장치(30)는 대사의 감정 상태에 따른 주요 객체의 표정을 각각 매칭하여 데이터베이스에 저장할 수 있다.

S206 단계에서, 장치(30)는 표정 정보를 이용하여 영상 콘텐츠에 대응하는 2차 콘텐츠를 생성할 수 있다. 이때, 2차 콘텐츠를 생성하는 과정에 대한 자세한 설명은 도 4 내지 도 5를 참조하여 후술하기로 한다.

2차 콘텐츠는 기존의 영상 콘텐츠를 기반으로 만들어진 새로운 콘텐츠를 의미할 수 있으며, 예를 들어, 기존의 영상 콘텐츠가 영화인 경우, 영화를 원작으로 한 영화 포스터, 만화책, 소설, 게임, 이미지, 광고, 움짤, 스티커, GIF 등을 포함할 수 있으나 이에 한정되지는 않는다.

장치(30)는 2차 콘텐츠는 원본 영상 콘텐츠를 기반으로 생성되므로, 원본 영상 콘텐츠의 내용을 보다 효과적으로 전달하고 활용할 수 있도록 한다. 예를 들어, 원본 영상에서는 다수의 객체가 등장하지만, 2차 콘텐츠를 통해 주요 객체나 핵심 내용에 대한 집중적인 이해와 전달이 가능하도록 한다. 또한, 2차 콘텐츠는 다양한 형태로 활용할 수 있으며, 이를 통해 원본 영상 콘텐츠의 홍보, 교육, 마케팅, 엔터테인먼트 등 다양한 분야에서 활용이 가능하다.

장치(30)는 기존의 영상 콘텐츠에서 파생된 형태인 2차 콘텐츠를 생성함으로써, 기존의 영상 콘텐츠에 대한 이해를 높이고, 새로운 관점에서 영상 콘텐츠를 즐길 수 있도록 하는 등의 더 나은 사용자 경험을 제공하는 효과를 도출할 수 있다.

또한, 2차 콘텐츠는 기존의 영상 콘텐츠에서는 볼 수 없었던 시각적 효과를 제공함으로써, 영상 콘텐츠를 시청하는 사용자의 시선을 끌어줄 수 있으며, 기존의 영상 콘텐츠를 확장하고 재해석함으로써, 기존 영상 콘텐츠의 가치를 상승시킬 수 있다는 효과가 있다.

도 3은 일실시예에 따른 주요 객체를 결정하는 과정을 설명하기 위한 순서도이다.

도 3을 참조하면, 먼저, S301 단계에서, 장치(30)는 시청각 정보로부터, 크기 정보를 생성할 수 있다.

구체적으로, 장치(30)는 시청각 정보로부터, 영상 콘텐츠에서 객체의 평균 크기를 확인하고, 영상 콘텐츠에서 객체의 평균 크기가 차지하는 크기 비율을 산출할 수 있다.

예를 들어, 장치(30)는 영상 콘텐츠에서 객체를 추출하고, 추출된 객체가 영상 콘텐츠에서 등장하는 크기의 평균인 평균 크기를 확인할 수 있으며, 영상 콘텐츠에서 객체의 평균 크기가 자지하는 비율인 크기 비율을 산출할 수 있다.

장치(30)는 크기 비율이 미리 설정된 기준 비율 이상인지 여부에 대한 크기 정보를 생성할 수 있다. 이때, 미리 설정된 기준 비율은 실시예에 따라 상이하게 설정될 수 있다.

장치(30)는 다른 객체보다 크기가 크거나, 더 많은 화면 공간을 차지하는 객체는 영상 콘텐츠에서 중요한 역할을 수행할 수 있는 경우가 높다고 판단하여 주요 객체를 선정하는 과정에서 크기 정보를 이용할 수 있다.

S302 단계에서, 장치(30)는 시청각 정보로부터, 등장 시간 정보를 생성할 수 있다.

구체적으로, 장치(30)는 시청각 정보로부터, 객체가 등장하는 등장 시간을 확인하고, 등장 시간이 미리 설정된 기준 시간 이상인지 여부에 대한 등장 시간 정보를 생성할 수 있다. 이때, 미리 설정된 기준 시간은 실시예에 따라 상이하게 설정될 수 있다.

S303 단계에서, 장치(30)는 시청각 정보로부터, 위치 정보를 생성할 수 있다.

구체적으로, 장치(30)는 시청각 정보로부터, 영상 콘텐츠에서 객체의 위치를 확인하고, 객체의 위치가 영상 콘텐츠가 표시되는 화면에서 미리 설정된 중간 구역에 포함되는지 여부에 대한 위치 정보를 생성할 수 있다. 이때, 미리 설정된 중간 구역은 실시예에 따라 상이하게 설정될 수 있다.

장치(30)는 화면 중앙에 위치한 객체는 일반적으로 시선을 집중시키는 역할을 하기 때문에 중요한 역할을 수행하는 경우가 높다고 판단하여 주요 객체를 선정하는 과정에서 위치 정보를 이용할 수 있다.

S304 단계에서, 장치(30)는 시청각 정보로부터, 명암 정보를 생성할 수 있다.

구체적으로, 장치(30)는 시청각 정보로부터, 영상 콘텐츠에서 객체의 명암과 영상 콘텐츠에서의 배경의 명암의 대비 정도를 확인하고, 명암의 대비 정도가 미리 설정된 기준 정도 이상인지 여부에 대한 명암 정보를 생성할 수 있다. 이때, 미리 설정된 기준 정도는 실시예에 따라 상이하게 설정될 수 있다.

S305 단계에서, 장치(30)는 시청각 정보로부터, 속도 정보를 생성할 수 있다.

구체적으로, 장치(30)는 시청각 정보로부터, 객체의 속도를 확인하고, 객체의 속도가 미리 설정된 기준 속도 이상인지 여부에 대한 속도 정보를 생성할 수 있다. 이때, 미리 설정된 기준 속도는 실시예에 따라 상이하게 설정될 수 있다. 일실시예에 따르면, 장치(30)는 객체가 영상 콘텐츠에 등장하는 장면 중에서 객체의 속도의 평균 값인 평균 속도가 미리 설정된 기준 속도 이상인지 여부를 판단하여 속도 정보를 생성할 수도 있다.

S306 단계에서, 장치(30)는 시청각 정보로부터, 소리 정보를 생성할 수 있다.

구체적으로, 장치(30)는 시청각 정보로부터, 객체의 소리의 세기를 확인하고, 소리의 세기가 미리 설정된 기준 세기 이상인지 여부에 대한 소리 정보를 생성할 수 있다. 이때, 미리 설정된 기준 세기는 실시예에 따라 상이하게 설정될 수 있다.

S307 단계에서, 장치(30)는 시청각 정보로부터, 대사량 정보를 생성할 수 있다.

구체적으로, 장치(30)는 시청각 정보로부터, 객체의 대사의 길이, 빈도를 포함하는 대사량 확인하고, 대사량이 미리 설정된 기준량 이상인지 여부에 대한 대사량 정보를 생성할 수 있다. 이때, 미리 설정된 기준량은 실시예에 따라 상이하게 설정될 수 있다.

이때, 장치(30)는 음성인식 기술을 사용하여 객체가 발화하는 대사를 추출하고, 해당 대사의 길이나 빈도를 분석하여 대사량을 계산하거나, 또는 영상 콘텐츠에 포함된 자막 데이터를 활용하여 객체가 등장하는 장면에서의 대사량을 계산하기도 할 수도 있다.

장치(30)는 대사량이 많은 객체는 주로 대화나 행동의 중심에 위치하고 있기 때문에, 주요 객체를 선정하는 과정에서 대사량 정보를 이용할 수 있다. 예를 들어, 장치(30)는 영상 콘텐츠에서 어떤 객체 또는 인물이 많은 대사량을 가지고 있다면, 그 객체가 영상 콘텐츠에서 주요한 역할을 수행하고 있을 가능성이 높다고 판단할 수 있다.

S308 단계에서, 장치(30)는 크기 정보, 등장 시간 정보, 위치 정보, 명암 정보, 속도 정보, 소리 정보 및 대사량 정보에 기반하여 객체의 시청각 지수를 결정할 수 있다.

일실시예에 따르면, 장치(30)는 크기 비율이 미리 설정된 기준 비율 이상인지 여부, 등장 시간이 미리 설정된 기준 시간 이상인지 여부, 객체의 위치가 영상 콘텐츠가 표시되는 화면에서 미리 설정된 중간 구역에 포함되는지 여부, 명암의 대비 정도가 미리 설정된 기준 정도 이상인지 여부, 객체의 속도가 미리 설정된 기준 속도 이상인지 여부, 소리의 세기가 미리 설정된 기준 세기 이상인지 여부, 대사량이 미리 설정된 기준량 이상인지 여부에 따라 각각 설정된 점수를 부여하여, 객체의 시청각 지수를 결정할 수 있다.

예를 들어, 장치(30)는 객체의 크기 비율이 미리 설정된 기준 비율 이상인 경우 1점을 부여하고, 객체의 크기 비율이 미리 설정된 기준 비율 이상인 것에 해당하지 않는 경우 0점을 부여할 수 있다.

예를 들어, 장치(30)는 객체의 등장 시간이 미리 설정된 기준 시간 이상인 경우 1점을 부여하고, 등장 시간이 미리 설정된 기준 시간 이상인 것에 해당하지 않는 경우 0점을 부여할 수 있다.

예를 들어, 장치(30)는 객체의 위치가 영상 콘텐츠가 표시되는 화면에서 미리 설정된 중간 구역에 포함되는 경우 1점을 부여하고, 객체의 위치가 영상 콘텐츠가 표시되는 화면에서 미리 설정된 중간 구역에 포함되지 않는 경우 0점을 부여할 수 있다.

예를 들어, 장치(30)는 객체의 명암의 대비 정도가 미리 설정된 기준 정도 이상인 경우 1점을 부여하고, 명암의 대비 정도가 미리 설정된 기준 정도 이상인 경우에 해당하지 않는 경우, 0점을 부여할 수 있다.

예를 들어, 장치(30)는 객체의 속도가 미리 설정된 기준 속도 이상인 경우 1점을 부여하고, 객체의 속도가 미리 설정된 기준 속도 이상인 경우에 해당하지 않는 경우 0점을 부여할 수 있다.

예를 들어, 장치(30)는 객체의 소리의 세기가 미리 설정된 기준 세기 이상인 경우 1점을 부여하고, 객체의 소리의 세기가 미리 설정된 기준 세기 이상인 경우에 해당하지 않는 경우 0점을 부여할 수 있다.

예를 들어, 장치(30)는 객체의 대사량이 미리 설정된 기준량 이상인 경우 1점을 부여하고, 객체의 대사량이 미리 설정된 기준량 이상인 경우에 해당하지 않는 경우 0점을 부여할 수 있다.

장치(30)는 크기 정보, 등장 시간 정보, 위치 정보, 명암 정보, 속도 정보, 소리 정보 및 대사량 정보에 따라 각각 부여된 점수를 합산하여 객체의 시청각 지수를 산출할 수 있다.

S309 단계에서, 장치(30)는 객체 중 시청각 지수가 미리 설정된 기준을 만족하는 객체를 주요 객체로 결정할 수 있다. 이때, 미리 설정된 기준은 실시예에 따라 상이하게 설정될 수 있다.

장치(30)는 크기 정보, 등장 시간 정보, 위치 정보, 명암 정보, 속도 정보, 소리 정보 및 대사량 정보를 활용하여 영상 콘텐츠의 객체 중 주요 객체를 결정하는 과정을 통해 영상 콘텐츠에서 중요하게 다뤄지는 객체를 자동으로 분석하고 결정할 수 있으며, 사용자가 빠르게 영상 콘텐츠의 핵심 내용을 파악할 수 있도록 할 수 있다. 장치(30)는 큰 규모의 영상 콘텐츠를 처리하거나 사용자가 여러 영상을 살펴봐야 할 때 시간과 노력을 절약해주는 효과를 가지며, 해당 콘텐츠에서 중요한 정보를 효율적으로 전달하도록 할 수 있다. 또한 이 과정을 자동화함으로써 일관성과 정확성을 보장할 수 있고, 사용자의 주관적인 판단이 개입되지 않아서 객관적으로 주요 객체를 결정할 수 있다.

도 4는 일실시예에 따른 2차 콘텐츠를 생성하는 과정을 설명하기 위한 순서도이다.

도 4를 참조하면, 먼저, S401 단계에서, 장치(30)는 영상 콘텐츠에서 추출한 객체를 제외한 배경을 추출할 수 있다.

장치(30)는 영상 콘텐츠에서 움직이는 객체를 제거하고, 움직이지 않는 배경만을 추출할 수 있다. 장치(30)는 추출한 배경을 통해 추가적인 편집 작업을 수월하게 할 수 있다.

S402 단계에서, 장치(30)는 사용자의 단말(10)로부터 스켈레톤 정보를 수신할 수 있다.

여기서, 스켈레톤 정보는 객체의 뼈대(skeleton)를 의미하는 것으로서, 예를 들어 객체의 골격과 관절에 대응되는 요소들을 포함할 수 있다.

S403 단계에서, 장치(30)는 객체의 바디를 결정할 수 있다.

장치(30)는 추출된 객체로부터 얼굴 부분에 해당하는 얼굴 정보 및 바디 부분에 해당하는 바디 정보를 획득하고, 스켈레톤 정보에 바디 정보를 적용하여 객체의 바디를 결정할 수 있다.

예를 들어, 객체의 얼굴 부분에 해당하는 얼굴 정보는 객체의 표정, 얼굴의 크기, 눈, 코, 입의 위치, 피부 색상, 헤어스타일 등에 대한 정보를 포함할 수 있으나, 이에 한정되지는 않는다.

예를 들어, 객체의 바디 부분에 해당하는 바디 정보는 객체의 신체 부피, 의상, 신체 피부 색상 등에 대한 정보를 포함할 수 있으나, 이에 한정되지는 않는다.

영상 콘텐츠에서 객체의 얼굴에 해당하는 얼굴 정보 및 바디에 해당하는 바디 정보를 획득하는 과정은 예를 들어, 객체 탐지(Object Detection) 기술 또는 인공지능 기술을 활용하여 수행될 수 있으나, 이에 한정되지는 않는다.

장치(30)는 객체 탐지(Object Detection) 기술을 통해 영상 콘텐츠에서 객체의 얼굴과 바디를 탐지할 수 있다. 이를 위해서, 장치(30)는 이미지나 비디오를 처리하는 컴퓨터 비전 기술, 특히 객체 탐지(Object Detection)와 관련된 기술을 사용할 수 있으며, 대표적인 기술로는 Haar Cascade, HOG(Histogram of Oriented Gradients), Faster R-CNN 등이 있다. 이러한 기술들은 영상에서 얼굴과 바디를 식별하고 위치를 파악하여 해당 부분의 정보를 추출할 수 있다.

장치(30)는 인공지능 기술을 이용하여 얼굴과 바디를 인식할 수 있다. 얼굴 인식(Face Recognition) 기술과 인간의 모션을 따라 움직이는 바디 인식(Motion Tracking) 기술을 활용하여 영상 콘텐츠에서 객체의 얼굴과 바디를 인식하고 해당 부분의 정보를 추출할 수 있으며, 대표적으로 딥러닝 기술이 활용될 수 있다. 장치(30)는 이러한 기술을 이용하여 영상 콘텐츠에서 객체의 특징을 추출하고, 이를 기반으로 객체의 바디를 인식하며, 이에 대한 정보를 추출할 수 있다.

이때, 영상 콘텐츠에서 객체의 얼굴 정보 및 바디 정보를 추출하는 과정은 통상의 기술자에게 자명한 사항이므로 자세한 설명은 생략하기로 한다.

S404 단계에서, 장치(30)는 사용자의 단말(10)로부터 표현 정보를 수신할 수 있다.

장치(30)는 객체의 표정, 감정, 상태에 대한 정보를 포함하는 표현 정보를 수신하여 데이터베이스에 저장할 수 있다.

S405 단계에서, 장치(30)는 표현 정보와 매칭되는 표정 정보를 이용하여, 객체의 얼굴을 제1 얼굴로 결정할 수 있다.

예를 들어, 장치(30)는 '기쁨'의 감정에 대한 정보를 포함하는 표현 정보를 사용자의 단말(10)로부터 수신한 경우, 장치(30)는 데이터베이스로부터 '기쁨'의 감정 상태에 매칭되는 표정에 해당하는 표정 정보를 추출하여 객체의 얼굴을 제1 얼굴로 결정할 수 있다.

S406 단계에서, 장치(30)는 제1 얼굴에 대한 만족 여부를 사용자의 단말(10)로부터 수신할 수 있다.

S407 단계에서, 장치(30)는 사용자가 제1 얼굴을 만족한 경우, 객체의 얼굴을 제1 얼굴로 유지할 수 있다.

S408 단계에서, 장치(30)는 사용자가 제1 얼굴을 만족하지 않은 경우, 객체의 얼굴을 제2 얼굴로 결정할 수 있다. 이때, 제2 얼굴은 제1 얼굴과 상이하게 설정되는 것이 바람직하다.

장치(30)는 사용자가 제1 얼굴을 만족하지 않은 경우, 데이터베이스로부터 '기쁨'의 감정 상태에 매칭되는 다른 표정에 해당하는 표정 정보를 추가로 추출하여 객체의 얼굴을 제2 얼굴로 결정할 수 있다

장치(30)는 사용자의 단말(10)로부터 수신한 스켈레톤 정보에 객체의 바디 정보를 적용하여, 2차 콘텐츠에서의 객체의 바디를 선정할 수 있으며, 사용자의 단말(10)로부터 수신한 표현 정보를 이용하여 객체의 표정 정보를 추출하여 2차 콘텐츠에서의 객체의 얼굴을 결정함으로써, 사용자가 원하는 포즈, 자세 및 표현 정보에 따라 2차 콘텐츠를 사용자 맞춤형으로 다양하게 생성할 수 있어, 사용자 만족도를 높일 수 있으며, 보다 다양하고, 창의적인 2차 콘텐츠를 생성할 수 있다.

도 5는 일실시예에 따른 2차 콘텐츠를 생성하는 과정을 설명하기 위한 순서도이다.

도 5를 참조하면, 먼저, S501 단계에서, 장치(30)는 영상 콘텐츠의 내용에 기반하여 영상 콘텐츠의 키워드를 추출할 수 있다. 이때, 영상 콘텐츠의 내용에 기반하여 영상 콘텐츠의 키워드를 추출하는 과정은 도 6을 참조하여 후술하기로 한다.

S502 단계에서, 장치(30)는 제1 얼굴 및 제2 얼굴 중 어느 하나의 얼굴 및 바디를 포함하는 객체 및 키워드를 결합하여 2차 콘텐츠를 생성할 수 있다.

장치(30)는 객체 및 영상 콘텐츠의 내용에 기반하여 추출된 영상 콘텐츠의 키워드를 결합하여 2차 콘텐츠를 생성함으로써, 영상 콘텐츠의 내용을 기반으로 영상 콘텐츠의 중요한 내용을 나타내는 키워드를 2차 콘텐츠로 생성함으로써, 보다 풍부하고 영상 콘텐츠의 주요 내용에 대한 이해도를 높일 수 있는 2차 콘텐츠를 생성할 수 있다.

도 6은 일실시예에 따른 영상 콘텐츠의 내용을 분석하여 키워드를 선정하는 과정을 설명하기 위한 순서도이다.

도 6을 참조하면, 먼저, S601 단계에서, 장치(30)는 영상 콘텐츠의 음성을 추출할 수 있다.

구체적으로, 장치(30)는 사용자의 단말(10)로부터 획득한 영상 콘텐츠를 통해 음성을 추출할 수 있다.

S602 단계에서, 장치(30)는 추출된 음성을 텍스트로 변환할 수 있다. 구체적으로, 장치(30)는 STT 기술을 수행할 수 있는데, STT는 Speech-to-Text로, 음성 데이터로부터 음향모델, 어휘/발음사전, 언어모델을 포함한 인식 네트워크 모델을 생성하는 오프라인 학습단계와 사용자가 발성한 음성을 인식하는 온라인 탐색 단계를 통해 영상 콘텐츠를 통해 추출된 음성을 텍스트로 변환할 수 있다.

S603 단계에서, 장치(30)는 텍스트의 형태소를 분석하여 단어 단위로 분류할 수 있다.

S604 단계에서, 장치(30)는 단어를 기초로, 단어들 중 일상 단어 및 습관 단어를 포함하는 부가 단어를 제외할 수 있다.

구체적으로, 장치(30)는 단어를 기초로, 단어들 중 부가 단어를 제외하기 위해 사용자의 단말(10)로부터 일상 단어 및 습관 단어를 포함하는 부가 단어 리스트를 획득하여 부가 단어 리스트에 포함된 단어를 제외할 수도 있고, 장치(30)는 텍스트로부터 분류된 단어들의 연관도를 분석하여 연관도가 미리 설정한 기준 비율 이하인 단어를 부가 단어로 선정하여 부가 단어를 제외할 수도 있다.

즉, 장치(30)는 영상 콘텐츠의 음성을 통해 추출된 텍스트에서, 텍스트의 형태소를 분석하여 단어 단위로 분류하고, 단어들 중 일상 단어 및 습관 단어를 포함하는 부가 단어를 제외할 수 있다.

S605 단계에서, 장치(30)는 단어들 중 부가 단어를 제외하고 남은 단어를 핵심 단어로 선정할 수 있다.

구체적으로, 장치(30)는 단어들 중 부가 단어를 제외하고 남은 단어를 영상 콘텐츠와 관련된 단어로 판단할 수 있고, 부가 단어를 제외하고 남은 단어를 핵심 단어로 선정할 수 있다.

S606 단계에서, 장치(30)는 핵심 단어의 빈도수 및 핵심 단어 간의 연관도를 기초로, 제2 키워드를 추출할 수 있다.

구체적으로, 장치(30)는 핵심 단어를 분석하여 핵심 단어의 빈도수 및 핵심 단어 간의 연관도를 파악할 수 있고, 빈도수가 높고 단어 간의 연관도가 미리 설정한 목표 비율 이상인 핵심 단어들을 제2 키워드로 추출할 수 있다.

즉, 장치(30)는 영상 콘텐츠의 음성을 통해 텍스트로 변환하여 텍스트를 통해 내용을 분석하고, 키워드를 획득할 수 있는데, 이는 영상 콘텐츠의 경우 정적인 형식으로 생성되기 때문에 음성을 통해 텍스트 추출이 용이하기 때문이다. 이를 통해, 장치(30)는 키워드를 통해 사용자가 원하는 영상 콘텐츠를 빠르게 제공할 수 있다.

도 7은 일실시예에 따른 장치(30)의 구성의 예시도이다.

일실시예에 따른 장치(30)는 프로세서(31) 및 메모리(32)를 포함한다. 일실시예에 따른 장치(30)는 상술한 서버 또는 단말일 수 있다. 프로세서(31)는 도 1 내지 도 3을 통하여 전술한 적어도 하나의 장치들을 포함하거나, 도 1 내지 도 3을 통하여 전술한 적어도 하나의 방법을 수행할 수 있다. 메모리(32)는 상술한 방법과 관련된 정보를 저장하거나 상술한 방법이 구현된 프로그램을 저장할 수 있다. 메모리(32)는 휘발성 메모리 또는 비휘발성 메모리일 수 있다.

프로세서(31)는 프로그램을 실행하고, 장치(30)를 제어할 수 있다. 프로세서(31)에 의하여 실행되는 프로그램의 코드는 메모리(32)에 저장될 수 있다. 장치(30)는 입출력 장치(도면 미 표시)를 통하여 외부 장치(예를 들어, 퍼스널 컴퓨터 또는 네트워크)에 연결되고, 데이터를 교환할 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.

Claims

장치에 의해 수행되는 방법에 있어서,
영상 콘텐츠로부터 객체를 추출하는 단계;
상기 영상 콘텐츠로부터 추출한 객체에 대한 시청각 정보를 획득하는 단계;
상기 시청각 정보 및 상기 영상 콘텐츠의 기본 정보를 이용하여 주요 객체를 결정하는 단계;
상기 주요 객체의 표정 변화를 인공신경망을 통해 학습된 감정 구분 알고리즘 및 대사 중 적어도 하나를 이용하여 구분하는 단계;
상기 주요 객체의 표정 정보를 상기 구분에 사용된 요소와 매칭하여 저장하는 단계; 및
상기 표정 정보를 이용하여 상기 영상 콘텐츠에 대응하는 2차 콘텐츠를 생성하는 단계를 포함하고,
상기 주요 객체를 결정하는 단계는,
상기 시청각 정보로부터, 상기 영상 콘텐츠에서 상기 객체의 평균 크기를 확인하고, 상기 영상 콘텐츠에서 상기 객체의 평균 크기가 차지하는 크기 비율을 산출하는 단계,
상기 크기 비율이 미리 설정된 기준 비율 이상인지 여부에 대한 크기 정보를 생성하는 단계,
상기 시청각 정보로부터, 상기 객체가 등장하는 등장 시간을 확인하는 단계,
상기 등장 시간이 미리 설정된 기준 시간 이상인지 여부에 대한 등장 시간 정보를 생성하는 단계,
상기 시청각 정보로부터, 상기 영상 콘텐츠에서 상기 객체의 위치를 확인하는 단계,
상기 객체의 위치와 상기 영상 콘텐츠가 표시되는 화면에서 미리 설정된 중간 구역에 포함되는지 여부에 대한 위치 정보를 생성하는 단계,
상기 시청각 정보로부터, 상기 영상 콘텐츠에서 상기 객체의 명암과 상기 영상 콘텐츠에서의 배경의 명암의 대비 정도를 확인하는 단계,
상기 명암의 대비 정도가 미리 설정된 기준 정도 이상인지 여부에 대한 명암 정보를 생성하는 단계,
상기 시청각 정보로부터, 상기 객체의 속도를 확인하는 단계,
상기 객체의 속도가 미리 설정된 기준 속도 이상인지 여부에 대한 속도 정보를 생성하는 단계,
상기 시청각 정보로부터, 상기 객체의 소리의 세기를 확인하는 단계,
상기 소리의 세기가 미리 설정된 기준 세기 이상인지 여부에 대한 소리 정보를 생성하는 단계,
상기 시청각 정보로부터, 상기 객체의 대사의 길이, 빈도를 포함하는 대사량 확인하는 단계,
상기 대사량이 미리 설정된 기준량 이상인지 여부에 대한 대사량 정보를 생성하는 단계,
상기 크기 정보, 상기 등장 시간 정보, 상기 위치 정보, 상기 명암 정보, 상기 속도 정보, 상기 소리 정보 및 상기 대사량 정보에 기반하여 상기 객체의 시청각 지수를 결정하는 단계, 및
상기 객체 중 상기 시청각 지수가 미리 설정된 기준을 만족하는 객체를 주요 객체로 결정하는 단계를 포함하고,
상기 2차 콘텐츠를 생성하는 단계는,
상기 영상 콘텐츠에서 추출한 객체를 제외한 배경을 추출하는 단계,
사용자의 단말로부터 스켈레톤 정보를 수신하는 단계,
상기 추출된 객체로부터 얼굴 부분에 해당하는 얼굴 정보 및 바디 부분에 해당하는 바디 정보를 획득하고, 상기 스켈레톤 정보에 상기 바디 정보를 적용하여 상기 객체의 바디를 결정하는 단계,
상기 사용자의 단말로부터 상기 객체의 표정, 감정, 상태를 포함하는 표현 정보를 수신하는 단계,
상기 표현 정보와 매칭되는 표정 정보를 이용하여, 상기 객체의 얼굴을 제1 얼굴로 결정하는 단계,
상기 제1 얼굴에 대한 만족 여부를 상기 사용자의 단말로부터 수신하는 단계,
상기 사용자가 상기 제1 얼굴을 만족한 경우, 상기 객체의 얼굴을 제1 얼굴로 유지하는 단계, 및
상기 사용자가 상기 제1 얼굴을 만족하지 않는 경우, 상기 객체의 얼굴을 제1 얼굴과 상이한 제2 얼굴로 결정하는 단계를 포함하고,
상기 2차 콘텐츠를 생성하는 단계는,
상기 영상 콘텐츠의 내용에 기반하여 상기 영상 콘텐츠의 키워드를 추출하는 단계, 및
상기 제1 얼굴 및 제2 얼굴 중 어느 하나의 얼굴 및 바디를 포함하는 객체 및 상기 키워드를 결합하여 상기 2차 콘텐츠를 생성하는 단계를 포함하고,
상기 영상 콘텐츠의 내용에 기반하여 상기 영상 콘텐츠의 키워드를 추출하는 단계는,
상기 영상 콘텐츠의 음성을 추출하는 단계,
상기 추출된 음성을 텍스트로 변환하는 단계,
상기 텍스트의 형태소를 분석하여 단어 단위로 분류하는 단계,
상기 단어를 기초로, 상기 단어들 중 일상 단어 및 습관 단어를 포함하는 부가 단어를 제외하는 단계,
상기 단어들 중 상기 부가 단어를 제외하고 남은 단어를 핵심 단어로 선정하는 단계, 및
상기 핵심 단어의 빈도수 및 상기 핵심 단어 간의 연관도를 기초로, 상기 키워드를 추출하는 단계를 포함하는,
인공지능 모델을 활용하여 영상 데이터 기반 얼굴 표정 영상 추출 및 이를 활용한 콘텐츠 생성 방법.
삭제
삭제