KR102192210B1 - Lstm 기반 댄스 모션 생성 방법 및 장치 - Google Patents

Lstm 기반 댄스 모션 생성 방법 및 장치 Download PDF

Info

Publication number
KR102192210B1
KR102192210B1 KR1020200076547A KR20200076547A KR102192210B1 KR 102192210 B1 KR102192210 B1 KR 102192210B1 KR 1020200076547 A KR1020200076547 A KR 1020200076547A KR 20200076547 A KR20200076547 A KR 20200076547A KR 102192210 B1 KR102192210 B1 KR 102192210B1
Authority
KR
South Korea
Prior art keywords
data
fully connected
pca
data set
coefficients
Prior art date
Application number
KR1020200076547A
Other languages
English (en)
Inventor
조근식
자와힐
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020200076547A priority Critical patent/KR102192210B1/ko
Application granted granted Critical
Publication of KR102192210B1 publication Critical patent/KR102192210B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)

Abstract

LSTM 기반 댄스 모션 생성 방법 및 장치가 제시된다. 본 발명에서 제안하는 LSTM 기반 댄스 모션 생성 방법은 동기화된 움직임 데이터와 오디오 데이터가 있는 데이터 세트를 수집하고, 데이터 세트의 각 프레임의 인체 키포인트에서 PCA(principal Component Analysis)를 이용하여 데이터를 캡쳐함으로써 차원을 축소하는 단계, 데이터 세트의 오디오 데이터의 전처리를 위해 MFCC(Mel-Frequency Cepstrum Coefficients)를 이용하여 장르를 분류하는 단계 및 PCA 계수 및 MFCC 계수를 이용하여 복수의 LSTM과 복수의 완전 연결 레이어를 포함하는 네트워크를 훈련하는 단계를 포함한다.

Description

LSTM 기반 댄스 모션 생성 방법 및 장치{Method and Apparatus for Generation of LSTM-based Dance Motion}
본 발명은 LSTM 기반 댄스 모션 생성 방법 및 장치에 관한 것이다.
안무는 댄스에서 스텝과 움직임의 순서이다. 이 순서의 자동 예측을 수행할 때 음악과 신체 포즈 사이의 상관관계, 고차원과 복잡성, 예술의 추상성 등 몇 가지 요소를 고려해야 한다.
종래기술의 Audio to Body Dynamics는 주어진 바이올린이나 피아노 음악에서 신체 골격을 생성하는 방법을 제안했다. 이 방법에 포함된 데이터 세트는 "in the wild" 즉, 인터넷에서 다운로드한 동영상으로 구성되어 있다. 이용 가능한 댄스 데이터 세트의 출처는 거의 없으며, 대부분의 경우 댄스 범주는 전체 또는 시각적 데이터만 포함하는 데이터 세트의 일부분이다.
최근 딥러닝의 진보는 음성으로부터 얼굴 애니메이션의 합성에 이르기까지 상당한 진전을 보이고 있다. 여기에는 원시 오디오 기능에서 입 모양으로 매핑하여 동영상을 생성하는 것과 음향 애니메이션을 유추하는 것이 포함된다.
Audio to Body Dynamics는 음악으로부터 자연적인 신체 움직임의 예측 가능성을 입증하는 LTSM(Long Short-Term Memory) 기반 접근법을 제시했다. 여기서 제안한 네트워크는 오디오 기능과 신체 골격 지점 사이의 상관관계를 학습할 수 있다. 이것은 음성이나 음악과 같은 오디오와 신체 포즈에는 약간의 상관관계가 존재한다는 충분한 증거를 주었다.
음악과 안무의 관계를 연구하기 위한 다양한 시도가 있었다. 종래기술(M. Lee, K. Lee, J. Park, "Music similarity-based approach to generating dancemotion sequence," Multimedia tools and applications, vol. 62, no. 3, pp. 895-912, 2013.)에서 동작-음악 쌍으로 된 데이터베이스에서 안무 샘플을 검색하여 댄스 동작을 합성하는 방법을 제안했다. 음악과의 높은 상관관계를 달성했음에도 불구하고 이 방법은 데이터베이스에 제시되지 않은 참신한 댄스 동작을 만들어내지 못했다.
종래기술(Luka Crnkovic-Friis, Louise Crnkovic-Friis, "Generative Choreography using Deep Learning," in ICCC, 2016.)은 Chor-rnn 모델을 사용하여 안무를 학습하고 제작하였다. 여기서 모델은 Microsoft Kinect를 사용하여 캡쳐한 6시간의 댄스 데이터로 훈련되었고, 솔로 댄서를 위한 새로운 댄스 순서를 만드는 데 성공했다. 그럼에도 불구하고, 이 접근방식은 음악을 입력으로 하여 생성을 통제하는 어떠한 방법도 제공하지 않는다.
종래기술(O. Alemi, P. Pasquier, "GrooveNet : Real-Time MusicDriven Dance Movement Generation using Artificial Neural Networks," networks, vol. 8, no. 17, p. 26, 2017.)는 FCRBM(Factored Conditional Restricted Boltzman Machines)과 RNN(Recurrent Neural Networks)에 기초한 생성 제어 접근방식인 GrooveNet을 제안했다. 여기서, 모델은 음악과 3차원 동작의 쌍으로 훈련되었고, 부드러운 댄스 동작을 만드는 데 성공했다. 그러나 훈련 데이터에는 총 23분 길이의 4번의 댄스 퍼포먼스만 담겨 있으며, GrooveNet은 훈련 데이터에 존재하는 노래를 넘어 일반화되지 않고 있다.
본 발명이 이루고자 하는 기술적 과제는 동기화된 움직임과 오디오 데이터가 있는 데이터 세트를 수집하고, 댄스 동작 생성을 위한 LSTM 기반 네트워크인 Music2Body를 제공하는데 있다. 제안된 네트워크를 통해 음악 입력으로부터 자연스러워 보이는 안무 동작을 예측하고자 한다.
일 측면에 있어서, 본 발명에서 제안하는 LSTM 기반 댄스 모션 생성 방법은 동기화된 움직임 데이터와 오디오 데이터가 있는 데이터 세트를 수집하고, 데이터 세트의 각 프레임의 인체 키포인트에서 PCA(principal Component Analysis)를 이용하여 데이터를 캡쳐함으로써 차원을 축소하는 단계, 데이터 세트의 오디오 데이터의 전처리를 위해 MFCC(Mel-Frequency Cepstrum Coefficients)를 이용하여 장르를 분류하는 단계 및 PCA 계수 및 MFCC 계수를 이용하여 복수의 LSTM과 복수의 완전 연결 레이어를 포함하는 네트워크를 훈련하는 단계를 포함한다.
동기화된 움직임 데이터와 오디오 데이터가 있는 데이터 세트를 수집하고, 데이터 세트의 각 프레임의 인체 키포인트에서 PCA를 이용하여 데이터를 캡쳐함으로써 차원을 축소하는 단계는 데이터 세트의 각 프레임에 대하여 3D 포즈 추정기를 통해 인체 관절의 x와 y 좌표를 추출하고, 추출된 x와 y 좌표에서 인체 키포인트를 추출하고 PCA를 이용하여 인체 키포인트의 차원을 축소한다.
PCA 계수 및 MFCC 계수를 이용하여 복수의 LSTM과 복수의 완전 연결 레이어를 포함하는 네트워크를 훈련하는 단계는 LSTM 이전에 완전 연결 레이어를 통해 심층 모델을 생성하고, 오디오 데이터의 MFCC 피쳐를 입력으로 사용하여 복수의 완전 연결 레이어 중 제1 완전 연결 레이어를 통과시키고, 복수의 LSTM을 통과 시킨 후, 복수의 완전 연결 레이어 중 제2 완전 연결 레이어를 통과시킴으로써 PCA 인체 키포인트 구성요소를 출력한다.
또 다른 일 측면에 있어서, 본 발명에서 제안하는 LSTM 기반 댄스 모션 생성 장치는 동기화된 움직임 데이터와 오디오 데이터가 있는 데이터 세트를 수집하고, 데이터 세트의 각 프레임의 인체 키포인트에서 PCA(principal Component Analysis)를 이용하여 데이터를 캡쳐함으로써 차원을 축소하는 키포인트 데이터 처리부, 데이터 세트의 오디오 데이터의 전처리를 위해 MFCC(Mel-Frequency Cepstrum Coefficients)를 이용하여 장르를 분류하는 오디오 데이터 처리부 및 PCA 계수 및 MFCC 계수를 이용하여 복수의 LSTM과 복수의 완전 연결 레이어를 포함하는 네트워크를 훈련하는 모델링부를 포함한다.
키포인트 데이터 처리부는 데이터 세트의 각 프레임에 대하여 3D 포즈 추정기를 통해 인체 관절의 x와 y 좌표를 추출하고, 추출된 x와 y 좌표에서 인체 키포인트를 추출하고 PCA를 이용하여 인체 키포인트의 차원을 축소한다.
모델링부는 LSTM 이전에 완전 연결 레이어를 통해 심층 모델을 생성하고, 오디오 데이터의 MFCC 피쳐를 입력으로 사용하여 복수의 완전 연결 레이어 중 제1 완전 연결 레이어를 통과시키고, 복수의 LSTM을 통과 시킨 후, 복수의 완전 연결 레이어 중 제2 완전 연결 레이어를 통과시킴으로써 PCA 인체 키포인트 구성요소를 출력한다.
본 발명의 실시예들에 따르면 동기화된 움직임과 오디오 데이터가 있는 데이터 세트를 수집하여 댄스 동작 생성을 위한 LSTM 기반 네트워크인 Music2Body를 통해 음악 입력으로부터 자연스러워 보이는 안무 동작을 예측할 수 있다.
도 1은 본 발명의 일 실시예에 따른 LSTM 기반 댄스 모션 생성을 위한 전체적인 개략도이다.
도 2는 본 발명의 일 실시예에 따른 LSTM 기반 댄스 모션 생성 방법을 설명하기 위한 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 Music2Body 네트워크를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 LSTM 기반 댄스 모션 생성 장치의 구성을 나타내는 도면이다.
도 5는 본 발명의 일 실시예에 따른 블랭크 노이즈에 대한 예측을 종래기술과 비교한 그래프이다.
도 6은 본 발명의 일 실시예에 따른 EDM에 대한 예측을 종래기술과 비교한 그래프이다.
도 7은 본 발명의 일 실시예에 따른 인체 골격의 샘플 움직임을 나타내는 도면이다.
이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 LSTM 기반 댄스 모션 생성을 위한 전체적인 개략도이다.
무의식적인 인체 움직임의 생성은 어려운 연산 문제이다. 안무 동작의 경우 더욱 어렵다. 본 발명에서는 안무 생성을 위한 경량 LSTM 기반의 네트워크 아키텍처를 제안한다.
본 발명의 실시예에 따르면, 먼저 동영상 공유 서비스(예를 들어, 유튜브)에서 댄스커버 동영상으로 데이터 세트를 만든다. 예를 들어, 본 발명에서는 약 2시간의 동기화된 움직임 데이터와 오디오 데이터가 있는 데이터 세트를 수집했다.
다음으로 최첨단 3D 포즈 추정기를 사용하여 인체 관절 포인트(다시 말해, 키포인트)를 추출하고 PCA(Principal Component Analysis)를 사용하여 이러한 포인트의 차원을 축소한다. 오디오 데이터를 사전처리하기 위해 다양한 음악 분류 작업에 효과가 있는 것으로 입증된 MFCC(Mel-Frequency Cepstrum Coefficients)를 사용한다.
이후, 획득한 MFCC 계수와 PCA 계수를 제안하는 Music2Body 모델의 훈련과 시험에 사용한다. 본 발명에서는 댄스 동작 생성을 위한 LSTM 기반 네트워크인 Music2Body를 제안했다. 실험 결과는 제안된 네트워크가 다양한 음악 입력으로부터 자연스러워 보이는 댄스 동작을 예측할 수 있다는 것을 보며, K-pop 장르에 가장 적합하다는 것을 보여준다.
본 발명에서는, 오디오 기능을 댄스 동작과 연관시키려 하고 있다. 도 1은 제안된 방법 개요를 보여준다.
예를 들어, 모델을 훈련하기 위해 우선 "in the wild"라는 댄스 뮤직 비디오의 데이터 세트(110)를 수집하여 기준에 맞는 동영상을 선택한다. 그리고 나서 수집된 데이터 세트에 대해 제안된 Music2Body 모델(120)를 훈련시킨다. 음악 입력(110)에서 제안된 Music2Body 모델(120)을 통해 자연스럽고 그럴듯한 댄스 움직임(130)을 만들어 내는 것이 목표이다. 데이터 세트(110) 및 Music2Body 모델(120)에 대한 세부 정보는 아래에 설명된다.
도 2는 본 발명의 일 실시예에 따른 LSTM 기반 댄스 모션 생성 방법을 설명하기 위한 흐름도이다.
제안하는 LSTM 기반 댄스 모션 생성 방법은 동기화된 움직임 데이터와 오디오 데이터가 있는 데이터 세트를 수집하고, 데이터 세트의 각 프레임의 인체 키포인트에서 PCA(principal Component Analysis)를 이용하여 데이터를 캡쳐함으로써 차원을 축소하는 단계(210), 데이터 세트의 오디오 데이터의 전처리를 위해 MFCC(Mel-Frequency Cepstrum Coefficients)를 이용하여 장르를 분류하는 단계(220) 및 PCA 계수 및 MFCC 계수를 이용하여 복수의 LSTM과 복수의 완전 연결 레이어를 포함하는 네트워크를 훈련하는 단계(230)를 포함한다.
단계(210)에서, 동기화된 움직임 데이터와 오디오 데이터가 있는 데이터 세트를 수집하고, 데이터 세트의 각 프레임의 인체 키포인트에서 PCA(principal Component Analysis)를 이용하여 데이터를 캡쳐함으로써 차원을 축소한다. 데이터 세트의 각 프레임에 대하여 3D 포즈 추정기를 통해 인체 관절의 x와 y 좌표를 추출한다. 이후, 추출된 x와 y 좌표에서 인체 키포인트를 추출하고 PCA를 이용하여 인체 키포인트의 차원을 축소한다.
본 발명의 실시예에 따르면, 동영상 공유 서비스(예를 들어, 유튜브)의 단일 채널에서 50개의 댄스 커버 영상을 수집했다. 이것은 실시예일뿐 다양한 공유 서비스 또는 다양한 형태의 동영상을 수집할 수도 있고, 더 많거나 더 적은 수의 동영상을 수집할 수도 있다.
모든 동영상은 정적 카메라 위치, 밝은 조명, 고품질의 사운드로 한 방에서 녹화되었다. 각 동영상마다 음악이 다르고 장르는 케이팝이 주를 이룬다. 여기서, 댄스 동작이 들어 있지 않은 프레임을 제거했다. 또 이런 경우 포즈 추정기가 자연스러운 포즈를 예측하지 못하는, 예를 들어 댄서가 바닥에 눕는 프레임-오디오 쌍은 제외했다. 요약하자면, 프레임-오디오 쌍의 약 5%를 제거했다. 결과 데이터 세트는 초당 24프레임으로 약 130분 분량의 동영상 데이터를 제공하는 187554 프레임을 포함한다.
인체의 포즈를 추정하기 위해 딥(Deep) 알고리즘의 최첨단 리프팅 기술을 사용한다. 이 접근방식은 2D 포즈 추정에도 3D에서의 사고의 중요성을 보여주며 2D에서 3D로 업그레이드하는 매우 효율적인 방법을 제공한다. 각 프레임에서 14개의 인체 관절의 x와 y 좌표를 추출한다. 그런 다음 키포인트에서 PCA를 사용하여 데이터의 98%를 캡쳐함으로써 차원을 축소시킨다. 이는 차원을 28에서 15로 축소한다.
단계(220)에서, 데이터 세트의 오디오 데이터의 전처리를 위해 MFCC(Mel-Frequency Cepstrum Coefficients)를 이용하여 장르를 분류한다.
본 발명에서는 오디오 처리를 위해 다양한 악기를 분류하고 음성의 변동을 캡쳐하는 데 성공했다는 것이 입증된 MFCC(Mel-Frequency Cepstrum Coefficients) 피쳐를 사용한다. 게다가, MFCC 피쳐는 음악 장르 분류 작업에 효과적으로 사용된다.
본 발명의 실시예에 따르면, MFCC를 통해 피쳐를 추출하여 프레임률 24fps에 맞추고 각 프레임마다 10 MFCC 피쳐를 취한다. 획득한 PCA 계수와 MFCC 계수는 제안하는 네트워크를 훈련하고 시험하는 데 사용된다.
단계(230)에서, PCA 계수 및 MFCC 계수를 이용하여 복수의 LSTM과 복수의 완전 연결 레이어를 포함하는 네트워크를 훈련한다.
복수의 LSTM과 복수의 완전 연결 레이어를 포함하는 제안하는 네트워크, 다시 말해 Music2Body 모델은 LSTM 이전에 완전 연결 레이어를 통해 심층 모델을 생성한다. 오디오 데이터의 MFCC 피쳐를 입력으로 사용하여 복수의 완전 연결 레이어 중 제1 완전 연결 레이어를 통과시키고, 복수의 LSTM을 통과 시킨 후, 복수의 완전 연결 레이어 중 제2 완전 연결 레이어를 통과시킴으로써 PCA 인체 키포인트 구성요소를 출력한다. 도 3을 참조하여 더욱 상세히 설명한다.
도 3은 본 발명의 일 실시예에 따른 Music2Body 네트워크를 설명하기 위한 도면이다.
종래기술에서 하나의 LSTM과 하나의 완전 연결 레이어를 가진 네트워크의 경우, 오디오 기능과 인체 움직임 사이의 상관관계를 효과적으로 학습하는 것으로 증명되었다. 하지만 안무 생성의 경우 심층 모델이 필요하다. 이에 대하여, 경험적으로 LSTM 이전에 완전 연결 레이어가 결과를 향상시키는 경향이 있다는 것을 발견했다.
제안하는 Music2Body 네트워크는 복수의 LSTM과 복수의 완전 연결 레이어를 포함한다. 예를 들어, 제1 완전 연결 레이어(FC1)(321), 두 개의 LSTM 레이어(322, 323) 및 제2 완전 연결 레이어(FC1)(325)를 포함할 수 있다.
본 발명의 실시예에 따른 Music2Body 네트워크는 오디오의 10가지 MFCC 피쳐(310)를 입력으로 사용할 수 있다. 제1 완전 연결 레이어(FC1)(321)의 출력 크기는 64이다. 두 LSTM 레이어(322, 323)에서 숨겨진 차원 수는 200이다. 다음으로, 비율 0.1의 드롭 아웃(drop out)(324)을 제시한다. 마지막 완전 연결 레이어(FC2)(325)은 15개의 PCA 신체 키포인트 구성요소를 출력물로 생산한다.
네트워크 매개변수는 배치 사이즈가 100이고, 시간 지연 시간이 6 이며, 학습 속도는 1e-3의 ADAM 최적화 도구이다. 네트워크는 PyTorch에서 구현된다. NVidia RTX 2080Ti GPU, Intel Xeon(R) E3-1230 v3 CPU 4코어 12GB RAM을 가진 PC로 훈련을 실시했다. 300 epoch용 실행시간은 30분(epoch당 6초)이 걸렸다.
도 4는 본 발명의 일 실시예에 따른 LSTM 기반 댄스 모션 생성 장치의 구성을 나타내는 도면이다.
제안하는 LSTM 기반 댄스 모션 생성 장치(400)는 키포인트 데이터 처리부(410), 오디오 데이터 처리부(420) 및 모델링부(430)를 포함한다.
키포인트 데이터 처리부(410), 오디오 데이터 처리부(420) 및 모델링부(430)는 도 2의 단계들(210~230)을 수행하기 위해 구성될 수 있다.
키포인트 데이터 처리부(410)는 동기화된 움직임 데이터와 오디오 데이터가 있는 데이터 세트를 수집하고, 데이터 세트의 각 프레임의 인체 키포인트에서 PCA(principal Component Analysis)를 이용하여 데이터를 캡쳐함으로써 차원을 축소한다.
데이터 세트의 각 프레임에 대하여 3D 포즈 추정기를 통해 인체 관절의 x와 y 좌표를 추출한다. 이후, 추출된 x와 y 좌표에서 인체 키포인트를 추출하고 PCA를 이용하여 인체 키포인트의 차원을 축소한다.
오디오 데이터 처리부(420)는 데이터 세트의 오디오 데이터의 전처리를 위해 MFCC(Mel-Frequency Cepstrum Coefficients)를 이용하여 장르를 분류한다.
본 발명에서는 오디오 처리를 위해 다양한 악기를 분류하고 음성의 변동을 캡쳐하는 데 성공했다는 것이 입증된 MFCC(Mel-Frequency Cepstrum Coefficients) 피쳐를 사용한다. 게다가, MFCC 피쳐는 음악 장르 분류 작업에 효과적으로 사용된다.
본 발명의 실시예에 따르면, MFCC를 통해 피쳐를 추출하여 프레임률 24fps에 맞추고 각 프레임마다 10 MFCC 피쳐를 취한다. 획득한 PCA 계수와 MFCC 계수는 제안하는 네트워크를 훈련하고 시험하는 데 사용된다.
모델링부(430)는 PCA 계수 및 MFCC 계수를 이용하여 복수의 LSTM과 복수의 완전 연결 레이어를 포함하는 네트워크를 훈련한다.
복수의 LSTM과 복수의 완전 연결 레이어를 포함하는 제안하는 네트워크, 다시 말해 Music2Body 모델은 LSTM 이전에 완전 연결 레이어를 통해 심층 모델을 생성한다. 오디오 데이터의 MFCC 피쳐를 입력으로 사용하여 복수의 완전 연결 레이어 중 제1 완전 연결 레이어를 통과시키고, 복수의 LSTM을 통과 시킨 후, 복수의 완전 연결 레이어 중 제2 완전 연결 레이어를 통과시킴으로써 PCA 인체 키포인트 구성요소를 출력한다.
도 5는 본 발명의 일 실시예에 따른 블랭크 노이즈에 대한 예측을 종래기술과 비교한 그래프이다.
생성된 데이터의 평가는 항상 어려운 작업이다. 댄스 동작의 경우 동작이 음악을 반영해야 한다. 하지만 댄스의 방법은 여러 가지가 있고 '적절한' 댄스인지 아닌지는 판단하기 어렵다.
본 발명의 실시예에 따른 실험에서는 생성된 움직임을 분석하기 위해 연속된 두 프레임 사이의 유클리드(L2) 거리를 사용했다. 이것은 모델이 자연스러운 댄스 동작을 연출할 수 있다면 해당 음악의 템포에 따라 L2 거리의 플롯이 매끄럽게 바뀐다는 것이었다.
도 5에서는 두 모델이 입력으로 블랭크(blank) 노이즈에 어떻게 반응하는지를 보여 주었다. 음악이 없음에도 불구하고 두 모델 모두 초반에 어떤 움직임을 연출한다는 점이 흥미롭다. 이것이 본 발명의 데이터 세트의 특징 때문일 것이라고 추측한다. 여기서 댄서는 음악이 시작되기 전에 조금 움직인다. 수 프레임 후에, 제안하는 모델은 움직임을 예측하기 위해 멈추는 반면, 종래기술의 모델은 계속해서 블랭크 노이즈에 대해 어색한 움직임을 만들어 낸다.
다음으로, 두 모델에게 알려지지 않은 일렉트로닉 댄스 뮤직(EDM) 장르의 노래를 제공하는 실험을 했다. EDM 곡은 가사보다는 비트에 중점을 두고 음악 템포의 변화가 빠른 것으로 알려져 있다.
도 6은 본 발명의 일 실시예에 따른 EDM에 대한 예측을 종래기술과 비교한 그래프이다.
도 6은 제안하는 모델이 음악 비트에 반응하여 댄스를 만들어낼 수 있다는 것을 보여준다. 종래기술의 경우 L2 플롯의 높이가 급격히 변화하여 움직임이 부자연스럽게 빠르고 어색하다는 것을 의미한다. 제안하는 모델은 네츄럴(natural)에 가까운 정상 속도로 움직임을 만들어 낸다.
도 7은 본 발명의 일 실시예에 따른 인체 골격의 샘플 움직임을 나타내는 도면이다.
K-pop 노래로 시험할 때, 만들어낸 안무가 후렴구와 어느 정도 상관관계를 가지는 경향이 있다는 것을 관찰했다. 후렴구가 0:48 및 1:48(프레임 1152와 2592)에 시작되면 L2의 플롯이 눈에 띄게 변화한다. 즉, 생성된 움직임이 후렴구에 반응한다. 이 모든 결과는 이 모델이 다양한 노래들을 위한 댄스 움직임을 만들어 낼 수 있다는 것을 보여주며, K-pop 음악에서 더 현저한 성과를 거두게 된다. 더욱이 모델은 블랭크 노이즈에 적절하게 반응한다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.  또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.  이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.  예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.  또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.  소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다.  소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.  상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.  상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.  컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.  프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.  예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (6)

  1. 동기화된 움직임 데이터와 오디오 데이터가 있는 데이터 세트를 수집하고, 데이터 세트의 각 프레임의 인체 키포인트에서 PCA(principal Component Analysis)를 이용하여 데이터를 캡쳐함으로써 차원을 축소하는 단계;
    데이터 세트의 오디오 데이터의 전처리를 위해 MFCC(Mel-Frequency Cepstrum Coefficients)를 이용하여 장르를 분류하는 단계; 및
    PCA 계수 및 MFCC 계수를 이용하여 복수의 LSTM과 복수의 완전 연결 레이어를 포함하는 네트워크를 훈련하는 단계
    를 포함하고,
    PCA 계수 및 MFCC 계수를 이용하여 복수의 LSTM과 복수의 완전 연결 레이어를 포함하는 네트워크를 훈련하는 단계는,
    LSTM 이전에 완전 연결 레이어를 통해 심층 모델을 생성하고, 오디오 데이터의 MFCC 피쳐를 입력으로 사용하여 복수의 완전 연결 레이어 중 제1 완전 연결 레이어를 통과시키고, 복수의 LSTM을 통과 시킨 후, 드롭 아웃을 거쳐 복수의 완전 연결 레이어 중 제2 완전 연결 레이어를 통과시킴으로써 PCA 인체 키포인트 구성요소를 출력하고,
    동기화된 움직임 데이터와 오디오 데이터가 있는 데이터 세트를 이용함으로써 블랭크(blank) 노이즈에 대하여 미리 정해진 기간 동안 반응한 후, 움직임을 예측하기 위해 블랭크 노이즈에 대한 반응을 멈추는
    댄스 모션 생성 방법.
  2. 제1항에 있어서,
    동기화된 움직임 데이터와 오디오 데이터가 있는 데이터 세트를 수집하고, 데이터 세트의 각 프레임의 인체 키포인트에서 PCA를 이용하여 데이터를 캡쳐함으로써 차원을 축소하는 단계는,
    데이터 세트의 각 프레임에 대하여 3D 포즈 추정기를 통해 인체 관절의 x와 y 좌표를 추출하고, 추출된 x와 y 좌표에서 인체 키포인트를 추출하고 PCA를 이용하여 인체 키포인트의 차원을 축소하는
    댄스 모션 생성 방법.
  3. 삭제
  4. 동기화된 움직임 데이터와 오디오 데이터가 있는 데이터 세트를 수집하고, 데이터 세트의 각 프레임의 인체 키포인트에서 PCA(principal Component Analysis)를 이용하여 데이터를 캡쳐함으로써 차원을 축소하는 키포인트 데이터 처리부;
    데이터 세트의 오디오 데이터의 전처리를 위해 MFCC(Mel-Frequency Cepstrum Coefficients)를 이용하여 장르를 분류하는 오디오 데이터 처리부; 및
    PCA 계수 및 MFCC 계수를 이용하여 복수의 LSTM과 복수의 완전 연결 레이어를 포함하는 네트워크를 훈련하는 모델링부
    를 포함하고,
    모델링부는,
    LSTM 이전에 완전 연결 레이어를 통해 심층 모델을 생성하고, 오디오 데이터의 MFCC 피쳐를 입력으로 사용하여 복수의 완전 연결 레이어 중 제1 완전 연결 레이어를 통과시키고, 복수의 LSTM을 통과 시킨 후, 드롭 아웃을 거쳐 복수의 완전 연결 레이어 중 제2 완전 연결 레이어를 통과시킴으로써 PCA 인체 키포인트 구성요소를 출력하고,
    동기화된 움직임 데이터와 오디오 데이터가 있는 데이터 세트를 이용함으로써 블랭크(blank) 노이즈에 대하여 미리 정해진 기간 동안 반응한 후, 움직임을 예측하기 위해 블랭크 노이즈에 대한 반응을 멈추는
    댄스 모션 생성 장치.
  5. 제4항에 있어서,
    키포인트 데이터 처리부는,
    데이터 세트의 각 프레임에 대하여 3D 포즈 추정기를 통해 인체 관절의 x와 y 좌표를 추출하고, 추출된 x와 y 좌표에서 인체 키포인트를 추출하고 PCA를 이용하여 인체 키포인트의 차원을 축소하는
    댄스 모션 생성 장치.
  6. 삭제
KR1020200076547A 2020-06-23 2020-06-23 Lstm 기반 댄스 모션 생성 방법 및 장치 KR102192210B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200076547A KR102192210B1 (ko) 2020-06-23 2020-06-23 Lstm 기반 댄스 모션 생성 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200076547A KR102192210B1 (ko) 2020-06-23 2020-06-23 Lstm 기반 댄스 모션 생성 방법 및 장치

Publications (1)

Publication Number Publication Date
KR102192210B1 true KR102192210B1 (ko) 2020-12-16

Family

ID=74042043

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200076547A KR102192210B1 (ko) 2020-06-23 2020-06-23 Lstm 기반 댄스 모션 생성 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102192210B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114401439A (zh) * 2022-02-10 2022-04-26 腾讯音乐娱乐科技(深圳)有限公司 一种舞蹈视频生成方法、设备及存储介质
CN114528762A (zh) * 2022-02-17 2022-05-24 腾讯科技(深圳)有限公司 一种模型训练方法、装置、设备和存储介质
CN114741561A (zh) * 2022-02-28 2022-07-12 商汤国际私人有限公司 动作生成方法、装置、电子设备及存储介质
CN115712739A (zh) * 2022-11-17 2023-02-24 腾讯音乐娱乐科技(深圳)有限公司 舞蹈动作生成方法、计算机设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016041142A (ja) * 2014-08-15 2016-03-31 国立研究開発法人産業技術総合研究所 ダンス動作データ作成システム及びダンス動作データ作成方法
CN110853670A (zh) * 2019-11-04 2020-02-28 南京理工大学 音乐驱动的舞蹈生成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016041142A (ja) * 2014-08-15 2016-03-31 国立研究開発法人産業技術総合研究所 ダンス動作データ作成システム及びダンス動作データ作成方法
CN110853670A (zh) * 2019-11-04 2020-02-28 南京理工大学 音乐驱动的舞蹈生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Ahn et al. Generative Autoregressive Networks for 3D Dancing Move Synthesis From Music. IEEE RA-L, 2020년 4월, pp. 3500-3507. 1부.* *
Shlizerman et al. Audio to body dynamics. IEEE CVPR, 2018년 6월, pp. 7574-7583. 1부.* *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114401439A (zh) * 2022-02-10 2022-04-26 腾讯音乐娱乐科技(深圳)有限公司 一种舞蹈视频生成方法、设备及存储介质
CN114401439B (zh) * 2022-02-10 2024-03-19 腾讯音乐娱乐科技(深圳)有限公司 一种舞蹈视频生成方法、设备及存储介质
CN114528762A (zh) * 2022-02-17 2022-05-24 腾讯科技(深圳)有限公司 一种模型训练方法、装置、设备和存储介质
CN114528762B (zh) * 2022-02-17 2024-02-20 腾讯科技(深圳)有限公司 一种模型训练方法、装置、设备和存储介质
CN114741561A (zh) * 2022-02-28 2022-07-12 商汤国际私人有限公司 动作生成方法、装置、电子设备及存储介质
CN115712739A (zh) * 2022-11-17 2023-02-24 腾讯音乐娱乐科技(深圳)有限公司 舞蹈动作生成方法、计算机设备及存储介质
CN115712739B (zh) * 2022-11-17 2024-03-26 腾讯音乐娱乐科技(深圳)有限公司 舞蹈动作生成方法、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
KR102192210B1 (ko) Lstm 기반 댄스 모션 생성 방법 및 장치
Gan et al. Foley music: Learning to generate music from videos
Zhuang et al. Music2dance: Dancenet for music-driven dance generation
Tang et al. Dance with melody: An lstm-autoencoder approach to music-oriented dance synthesis
Bahmei et al. CNN-RNN and data augmentation using deep convolutional generative adversarial network for environmental sound classification
Ofli et al. Learn2dance: Learning statistical music-to-dance mappings for choreography synthesis
Ghose et al. Autofoley: Artificial synthesis of synchronized sound tracks for silent videos with deep learning
Lee et al. Music similarity-based approach to generating dance motion sequence
Smith et al. Efficient neural networks for real-time motion style transfer
Bevilacqua et al. Online gesture analysis and control of audio processing
Sargin et al. Analysis of head gesture and prosody patterns for prosody-driven head-gesture animation
US20060290699A1 (en) System and method for audio-visual content synthesis
US10453434B1 (en) System for synthesizing sounds from prototypes
Gkiokas et al. Convolutional Neural Networks for Real-Time Beat Tracking: A Dancing Robot Application.
Sako et al. HMM-based text-to-audio-visual speech synthesis.
EP4178206A1 (en) System (embodiments) for harmoniously combining video files and audio files and corresponding method
Camurri et al. Multimodal analysis of expressive gesture in music performance
Lin et al. A human-computer duet system for music performance
Su et al. Physics-driven diffusion models for impact sound synthesis from videos
Kritsis et al. Danceconv: Dance motion generation with convolutional networks
Joo et al. Effective emotion transplantation in an end-to-end text-to-speech system
Bogaers et al. Music-driven animation generation of expressive musical gestures
US11521594B2 (en) Automated pipeline selection for synthesis of audio assets
Françoise et al. Movement sequence analysis using hidden Markov models: a case study in Tai Chi performance
JP6701478B2 (ja) 映像生成装置、映像生成モデル学習装置、その方法、及びプログラム

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant