KR101541907B1 - 음성 기반 얼굴 캐릭터 형성 장치 및 방법 - Google Patents

음성 기반 얼굴 캐릭터 형성 장치 및 방법 Download PDF

Info

Publication number
KR101541907B1
KR101541907B1 KR1020080100838A KR20080100838A KR101541907B1 KR 101541907 B1 KR101541907 B1 KR 101541907B1 KR 1020080100838 A KR1020080100838 A KR 1020080100838A KR 20080100838 A KR20080100838 A KR 20080100838A KR 101541907 B1 KR101541907 B1 KR 101541907B1
Authority
KR
South Korea
Prior art keywords
emotion
face
key
voice
parameter
Prior art date
Application number
KR1020080100838A
Other languages
English (en)
Other versions
KR20100041586A (ko
Inventor
박봉철
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to KR1020080100838A priority Critical patent/KR101541907B1/ko
Priority to US12/548,178 priority patent/US8306824B2/en
Publication of KR20100041586A publication Critical patent/KR20100041586A/ko
Application granted granted Critical
Publication of KR101541907B1 publication Critical patent/KR101541907B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

음성 기반으로 음성에 적합한 얼굴 캐릭터를 형성하는 장치 및 방법이 제공된다. 적은 수의 키모델을 가지고 다양한 표정을 생성하기 위하여 캐릭터 얼굴을 수개의 영역으로 분할하고, 음성 샘플을 발음 및 감정 영역에 대하여 매개변수화한다. 사용자의 실제 음성이 입력되면 음성 샘플을 매개변수화하여 형성된 정보를 이용하여 분할된 얼굴 영역별 적어도 하나의 키모델을 합성한다.
캐릭터, 얼굴, 애니메이션, 음성 구동

Description

음성 기반 얼굴 캐릭터 형성 장치 및 방법{Apparatus and method for generating face character based on voice}
본 발명의 하나 이상의 양상은 얼굴 캐릭터 형성에 관한 것으로, 보다 상세하게는 음성 기반으로 음성에 적합한 얼굴 캐릭터를 형성하는 장치 및 방법에 관한 것이다.
컴퓨터 게임, 안내데스크의 도우미, 채팅 방, 영화, 광고, 실시간 애니메이션 등에서 가상 캐릭터의 얼굴 애니메이션은 중요한 비중을 차지하고 있다. 사실적인 얼굴 애니메이션을 제작하는 것은 숙련된 애니메이터의 시간과 노력이 많이 드는 어려운 작업이다. 또한, 대화 시스템에서 인간형 캐릭터를 이용하여 음성에 동기화된 립싱크 애니메이션를 제공하는 서비스에 대한 수요가 증가하고 있다. 이로 인해 소정의 음성 정보를 인식하여 이 음성 정보에 부합되도록 얼굴 캐릭터의 입모양을 변화시켜 음성 정보를 입체적으로 전달하기 위한 립싱크 방법에 연구가 진행중이다. 그러나, 이러한 가상 얼굴 캐릭터 애니메이션을 음성 정보와 동기화하는데에는 많은 양의 데이터를 저장하고 처리해야 한다.
입력되는 음성에 따라 실시간으로 얼굴 캐릭터를 형성하여 제공하는 장치 및 방법이 제안된다.
일 양상에 따른 음성 기반 얼굴 캐릭터 형성 장치는 얼굴 캐릭터 형상에 대한 다수 개의 키모델을 이용하여 얼굴 캐릭터 형상을 다수 개의 영역으로 분할하고, 음성 샘플을 분석하여 발음 및 감정을 인식하기 위한 적어도 하나의 파라미터에 대한 정보들을 추출하는 음성 매개변수화를 수행하는 전처리부; 및 음성이 입력되면, 음성에 대한 프레임 단위별 음성으로부터 적어도 하나의 파라미터별 정보를 추출하고, 파라미터별 정보에 기초하여 프레임 단위로 분할된 얼굴 영역별로 얼굴 캐릭터 형상을 합성하는 얼굴 캐릭터 형성부를 포함한다.
얼굴 캐릭터 형성부는, 파라미터별 정보를 이용하여 다수 개의 키모델 각각의 혼합 비율을 결정하기 위한 혼합 가중치를 계산할 수 있다. 얼굴 캐릭터 형상에 대한 다수 개의 키모델은 다수 개의 모음 및 자음에 따른 발음별 키모델 및 다수 개의 감정에 따른 감정별 키모델을 포함할 수 있다.
전처리부는, 얼굴 캐릭터 형상을 분할할 때, 얼굴 캐릭터 형상을 스프링-질량점 망으로 모델링한 데이터를 이용할 수 있다.
전처리부는, 키모델 각각에 대하여 기준 모델을 기준으로 질량점과 이웃 질량점 간의 스프링 변화율이 문턱값 이상인 특징점들을 선택하고, 특징점들이 유기 적으로 움직이는 정도를 측정하여 특징점들을 그룹화하고, 특징점으로 선택되지 않은 나머지 질량점들을 특징점 그룹들에 그룹화하는 정점 분할을 수행할 수 있다.
전처리부는 음성 매개변수화를 수행할 때, 음성 샘플을 3개의 포만트 파라미터 공간에 각각의 모음에 대한 파라미터를 나타내고, 음성 샘플로부터 각각의 자음을 식별하기 위한 자음 템플릿을 생성하고, 음성 샘플에 대한 높낮이(pitch), 세기(Intensity) 및 빠르기(Tempo)를 분석하여 높낮이, 세기 및 빠르기 파라미터를 나타내기 위한 감정 파라미터 공간에 각각의 감정에 대한 공간 영역을 설정할 수 있다.
얼굴 캐릭터 형성부는, 포만트 파라미터 공간상에서 입력되는 음성 프레임으로부터 추출된 모음 파라미터의 위치 및 음성 샘플로부터 추출된 각 모음 파라미터의 위치와의 거리에 기초하여 각 모음 키모델의 가중치를 계산하고, 입력되는 음성 프레임으로부터 추출된 자음 템플릿을 음성 샘플의 자음 템플릿들과의 패턴 매칭을 통하여 자음 키모델을 결정하고, 감정 파라미터 공간에서의 입력되는 음성 프레임으로부터 감정 파라미터의 위치로부터 감정 영역과의 거리에 기초하여 각 감정 키모델의 가중치를 계산할 수 있다.
얼굴 캐릭터 형성부는, 각 모음 키모델의 가중치를 기준 키모델을 기준으로 한 각 모음 키모델을 구성하는 정점들의 변위에 적용하거나 결정된 자음 키모델을 이용하여 하부 얼굴 영역을 합성하고, 감정 키모델의 가중치를 기준 키모델을 기준으로 각 감정 키모델을 구성하는 정점들의 변위에 적용하여 상부 얼굴 영역을 합성하고, 상부 얼굴 영역 및 하부 얼굴 영역을 합성하여 입력되는 음성에 대응하는 얼 굴 캐릭터 형상을 프레임 단위로 생성할 수 있다.
다른 양상에 따른 음성 기반 얼굴 캐릭터 형성 방법은 얼굴 캐릭터 형상에 대한 다수 개의 키모델을 이용하여 얼굴 캐릭터 형상을 다수 개의 영역으로 분할하는 단계; 음성 샘플을 분석하여 발음 및 감정을 인식하기 위한 적어도 하나의 파라미터에 대한 정보들을 추출하는 음성 매개변수화를 수행하는 단계; 음성이 입력되면, 음성에 대한 프레임 단위별 음성으로부터 적어도 하나의 파라미터별 정보를 추출하는 단계; 및 파라미터별 정보에 기초하여 프레임 단위로 분할된 얼굴 영역별로 얼굴 캐릭터 영상을 합성하는 단계를 포함할 수 있다.
일 양상에 따르면, 자연스러운 삼차원 얼굴 캐릭터 표정을 사용자의 음성만으로 빠르게 생성하여 온라인에서 음성 구동 캐릭터 얼굴 애니메이션이 실시간으로 제공될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다. 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 음성 기반 얼굴 캐릭터 형성 장치의 구 성을 나타내는 블록도이다.
일 실시예에 따른 음성 기반 얼굴 캐릭터 형성 장치는 전처리부(110) 및 얼굴 캐릭터 형성부(120)를 포함한다.
전처리부(110)는 캐릭터의 얼굴 표정 키모델(key model)들과 사용자의 음성 샘플을 입력받고, 얼굴 캐릭터 형성부(120)에서 입력되는 음성에 따른 얼굴 캐릭터를 형성하기 위해 참조 데이터를 생성한다. 얼굴 캐릭터 형성부(120)는 입력되는 음성을 소정의 프레임 단위로 나누어 프레임 단위 음성 샘플로부터 다수 개의 파라미터 정보(또는 특징 값)를 추출하고, 추출된 파라미터 정보와 전처리부(110)에서 생성된 참조 데이터를 이용하여 프레임 단위로 음성에 대응되는 얼굴 캐릭터를 합성한다.
전처리부(110)는 얼굴 영역 분할부(112), 음성 매개변수화부(114) 및 저장부(116)를 포함할 수 있다.
얼굴 영역 분할부(112)는 적은 수의 키모델을 가지고 다양한 표정을 생성하기 위하여 얼굴 캐릭터 형상에 대한 다수 개의 키모델을 이용하여 얼굴 캐릭터 형상을 다수 개의 영역으로 분할한다. 음성 매개변수화부(112)는 사용자들의 음성 샘플을 프레임 단위로 나누고 분석하여 발음 및 감정을 인식하기 위한 적어도 하나의 파라미터에 대한 정보들을 추출한다. 즉, 음성 샘플을 감정 및 발음에 대하여 매개변수화할 수 있다.
전술한 참조 데이터는 이와 같이 분할된 얼굴 영역에 대한 데이터 및 음성 샘플을 매개변수화하여 생성된 데이터를 포함할 수 있다. 이와 같은 참조 데이터 는 저장부(116)에 저장되어 이용될 수 있다. 또한, 전처리부(110)는 자연스러운 머리 움직임, 눈동자 방향 및 눈 깜빡임에 대한 정보를 참조 데이터로 준비할 수 있다.
우선, 도 2a 내지 도 5을 참조하여 일 실시예에 따른 얼굴 영역 분할에 대하여 상세하게 설명한다.
일 실시예에 따르면, 얼굴 영역 분할은 특징점 추출, 특징점 그룹화 및 정점 분할의 세 단계로 이루어진다. 얼굴 캐릭터 형상은 3차원 메쉬 모델로 모델링될 수 있다. 일 실시예에 따르면, 얼굴 영역 분할부(112)에 입력되는 얼굴 캐릭터 형상에 대한 다수 개의 키모델은 다수 개의 모음 및 자음에 따른 발음별 키모델 및 다수 개의 감정 상태에 따른 감정별 키모델을 포함한다.
도 2a 및 도 2b는 발음 및 감정에 따른 키모델의 일예를 나타내는 도면이다.
도 2a는 무표정(neutral), 기쁨(joy), 놀람(surprise), 화남(anger), 슬픔(sadness), 역겨움(disgust), 졸림(sleepness)와 같이 사람의 감정 상태에 따른 키모델의 예시를 나타내고 있다. 도 2b는 자음 예를 들어, m, sh, f, th와 모음 예를 들어, a, e, o와 같은 사람의 발음에 따른 발음별 키모델의 예시를 나타내고 있다. 발음 및 감정에 따른 키모델은 도 2a 및 도 2b에 도시된 키모델들 이외에 다른 감정 상태 및 발음에 따라 제작될 수 있다.
일 실시예에 따르면, 얼굴 캐릭터 형상은 삼각형 메쉬로 이루어진 스프링-질량점 망(Spring-Mass Network)으로 모델링할 수 있다. 스프링-질량점 망으로 모델링한 경우, 얼굴을 형성하는 정점들을 질량점으로 간주하고, 정점들 간의 연결로 형상되는 삼각형의 에지(edge)를 스프링으로 간주할 수 있다. 각 정점들(또는 질량점들)은 인덱싱되어 얼굴 캐릭터 형상은 예를 들어, 600개의 인덱스를 가지는 정점들 및 에지들(또는 스프링들)로 모델링될 수 있다.
키모델은 동일한 개수의 스프링 및 질량점으로 모델링될 수 있다. 즉, 각 키모델은 동일한 개수의 스프링 및 질량점으로 모델링되므로, 얼굴 표정에 따라서 대응하는 질량점의 위치가 달라지고, 따라서 질량점에 대한 스프링의 길이가 달라지게 된다. 따라서, 무표정 키모델을 기준으로 다른 감정을 나타내는 각 키 모델은 각 질량점에 대한 스프링 길이(x)의 변위(Δx) 및 각 질량점의 에너지 변화량(E= Δx2/2)을 포함하는 데이터가 생성될 수 있다.
일 실시예에 따르면, 얼굴 영역 분할을 위하여 키모델을 형성하는 질량점들로부터 특징점을 선택할 때, 무표정 모델에 포함된 모든 질량점에 대하여 각각 다른 키모델의 대응하는 질량점에서의 스프링 길이의 변화를 측정하여, 이웃한 질량점들보다 스프링 변화율이 크면 특징점으로 선택할 수 있다. 하나의 질량점에 대하여 3개의 스프링이 연결되어 있는 경우, 스프링 변화율은 3개의 스프링 변화율의 평균값이 될 수 있다.
얼굴 영역 분할부(112)는 얼굴 캐릭터 영상을 스프링-질량점 망으로 나타낼 때, 키모델 중 기준 모델(무표정 모델)을 기준으로 질량점과 이웃 질량점 간의 스프링 변화율이 소정의 문턱값 이상인 특징점들을 선택할 수 있다. 도 3은 추출된 특징점들의 일 예를 나타내는 도면이다.
다음 단계로, 얼굴 영역 분할부(112)는 특징점들이 유기적으로 움직이는 정도를 측정하여 특징점들을 그룹화한다.
추출된 특징점들이 서로 간에 얼마난 유기적으로 움직이는가에 따라서 수 개의 그룹으로 묶을 수 있다. 유기적 움직임의 정도(coherency)은 각 키모델들에서의 특징점 변위(displacement)를 측정하여 변위 크기의 유사성, 변위 방향의 유사성, 무표정 모델에서의 기하학적 인접성으로 측정할 수 있다. 특징점 간의 움직임의 유기성이 정량화되면, 이를 바탕으로 무방향성 그래프(undirected graph)를 만들 수 있다. 그래프의 노드(node)는 특징점이 되고 그래프의 에지는 움직임의 유기성이 된다.
움직임의 유기성이 특정 문턱값보다 낮으면 유기성이 없다고 간주하고 해당 에지를 삭제한다. 일 실시예에 따르면, 연결 부분 분석(Connected Component Analysis) 기법을 이용하여 그래프의 노드들을 그룹핑할 수 있다. 그 결과 추출된 특징점들이 수 개의 그룹으로 자동으로 그룹핑된다. 도 4는 일 실시예에 따른 특징점 그룹화의 결과를 나타내는 도면이다.
다음으로, 얼굴 영역 분할부(112)는 특징점으로 선택되지 않은 나머지 질량점(정점)들을 각 특징점 그룹들에 그룹화한다. 이를 위해, 얼굴 영역 분할부(112)는 특징점으로 선택되지 않는 질량점들에 대하여 각 그룹의 특징점들과의 움직임 유기성을 측정한다.
움직임 유기성의 측정 방법은 특징점 그룹화의 방법과 동일하게 수행될 수 있다. 특징점 그룹과 특징점으로 선택되지 않은 질량점들과의 움직임 유기성은 각 특징점 그룹에 속한 각 특징점들과 상기의 질량점들과의 움직임 유기성의 평균값으로 정할 수 있다. 특징점으로 선택되지 않은 질량점과 소정 특징점 그룹과의 움직임 유기성이 특정 문턱값을 넘으면 해당 질량점은 해당 특징점 그룹으로 속하게 된다. 따라서, 하나의 질량점은 수 개의 특징점 그룹에 속할 수 있다. 도 5는 정점 분할의 결과의 예시를 나타내는 도면이다.
이와 같이, 얼굴 캐릭터 형상을 모델링하기 위한 질량점(또는 정점)들이 모두 소정의 개수의 그룹으로 그룹화되면, 각 그룹으로 얼굴 캐릭터 형상이 분할될 수 있다. 얼굴 캐릭터 형성의 각 분할된 영역 및 각 분할된 영역에 대한 데이터는 각 키모델에 대해서도 적용되며, 이후 각 키모델을 분할된 영역별로 합성하는데 이용된다.
다음으로, 도 6 내지 도 8을 참조하여 일 실시예에 따른 얼굴 영역 분할에 대하여 상세하게 설명한다.
전화상으로 대화할 때 상대방의 얼굴을 보지 않아도 상대방의 감정 상태를 추측할 수 있으며, 무슨 말을 하고 있는지도 알 수 있다. 즉, 음성신호라는 1차원적인 신호에 발음과 감정의 정보가 모두 포함되어 있다는 것이다. 일 실시예에 따르면, 이러한 사실을 바탕으로 음성 신호를 도 6과 같이 매개변수화할 수 있다.
도 6은 일 실시예에 따른 음성을 매개변수화를 위한 파라미터의 계층 구조를 나타내는 도면이다.
발음은 모음과 자음으로 구별할 수 있다. 모음은 성대가 울리기 때문에 공진 주파수(포만트)를 이용하여 매개변수화할 수 있다. 자음은 성대가 울리지 않기 때문에 특정 템플릿으로 제작하여 매개변수화할 수 있다. 감정은 음성의 높낮이(pitch), 세기(intensity), 빠르기(tempo)로 구성되는 3차원 벡터(vector)로 매개변수화할 수 있다.
20밀리 초 정도의 짧은 시간 동안에는 음성신호의 특성이 변하지 않는다고 알려져 있다. 일 실시예에 따르면, 주어진 음성 샘플을 20밀리초 단위의 프레임으로 자르고, 각 구간에서 발음과 감정 정보를 매개변수화할 수 있다.
전술한 바와 같이, 도 1을 참조하면, 음성 매개변수화부(114)는 사용자들의 음성 샘플를 프레임 단위로 나누고 분석하여 발음 및 감정을 인식하는데 이용되는 적어도 하나의 파라미터에 대한 정보들을 추출한다. 일 실시예에 따르면, 음성 샘플을 프레임 단위로 나누어 음성의 특징을 나타내는 파라미터들을 측정한다.
일 실시예에 따르면, 음성 매개변수화부(114)는 각 프레임 단위의 음성 샘플에 대하여 포만트 주파수(formant freqency), 템플릿(templet), 높낮이(pitch), 빠르기(Intensity), 빠르기(Tempo)를 추출한다. 일 실시예에 따르면, 도 6에 도시된 바와 같이, 발음에 대한 파라미터로 포만트 주파수 및 템플릿이 이용되고, 감정에 대한 파라미터로, 높낮이, 세기 및 빠르기가 이용된다. 발음에서 자음과 모음은 높낮이의 유무로 구별될 수 있다. 포만트 주파수는 모음에 대한 파라미터로 이용되고, 템플릿은 자음에 대한 음성 신호 파형으로 자음에 대한 파라미터로 이용될 수 있다.
도 7은 모음 매개변수화에 따른 모음 매개변수 공간의 일 예를 나타내는 도면이다.
전술한 바와 같이, 음성 매개변수화부(114)는 포만트 주파수를 각 모음을 인식하기 위한 파라미터로서 추출할 수 있다. 모음은 성대의 1 초간 진동수를 나타내는 기본 포만트 주파수와, 그 정수배의 대부분의 포만트 고주파(배음이라고도 함)로 이루어진다. 이 고주파 중 대체로 3개가 강조되며, 낮은 것부터 차례로 제1 포만트, 제2 포만트 및 제3 포만트라고 한다. 포만트는 구강 등의 크기에 따라 개인차가 있다.
음성 매개변수화부(114)는 모음을 파라미터화하기 위하여, 도 7에 도시된 바와 같이, 제1 포만트, 제2 포만트 및 제3 포만트를 3개의 축으로 하는 3차원 공간을 형성하고, 음성 샘플로부터 추출되는 각 모음의 파라미터를 포만트 파라미터 공간에 나타낼 수 있다.
도 8은 자음 매개변수화에 따른 자음 템플릿의 일 예를 나타내는 도면이다.
음성 매개변수화부(114)는 음성 샘플으로부터 각각의 자음을 식별하기 위한 자음 템플릿을 생성할 수 있다. 도 8의 (a)는 한국어 자음 'ㄱ'의 템플릿을 나타내고, (b)는 한국어 자음 'ㄷ'의 템플릿을 나타내고, (c)는 한국어 자음 'ㅍ'의 템플릿을 나타내고, (d)는 한국어 자음 'ㅊ'을 의 템플릿을 나타낸다.
도 9은 감정 키모델의 가중치를 결정하는데 이용되는 감정 매개변수화에 따른 감정 매개변수 공간의 일 예를 나타내는 도면이다.
전술한 바와 같이, 음성 매개변수화부(114)는 높낮이, 세기 및 빠르기를 감정에 대한 파라미터로서 추출할 수 있다. 높낮이, 세기 및 빠르기를 3개의 축으로 한 파라미터 공간상에 각 음성 프레임에 대한 파라미터, 즉, 높낮이, 세기 및 빠르 기를 추출하면 도 9에 도시된 바와 같이 각 음성 프레임에 대한 높낮이, 세기 및 빠르기가 3차원 형상 예를 들어, 3차원 곡면으로 형성될 수 있다.
음성 매개변수화부(114)는 프레임 단위 음성 샘플에 대한 높낮이(pitch), 세기(Intensity) 및 빠르기(Tempo)를 분석하여 높낮이, 세기 및 빠르기 파라미터를 나타내기 위한 감정 파라미터 공간에 각각의 감정에 대한 공간 영역을 설정할 수 있다. 즉, 높낮이, 세기 및 빠르기 각각에 대한 범위를 정하여 감정 영역으로 정할 수 있다. 예를 들어, 높낮이가 A 주파수 이상이고, 세기가 B dB및 C dB 사이이고, 빠르기가 D sec 이상인 영역이 기쁨 영역으로 결정될 수 있다.
이상에서는, 전처리부(110)에서 얼굴 영역을 분할하고, 음성 샘플을 매개변수화하는 동작에 대하여 설명하였다. 다음으로, 얼굴 캐릭터 형성부(120)에서 입력되는 음성을 기반으로 얼굴 캐릭터가 형성되는 과정에 대하여 상세하게 설명한다.
도 1을 참조하면, 얼굴 캐릭터 형성부(120)는 음성 특징 추출부(122), 가중치 계산부(124) 및 영상 합성부(126)를 포함한다.
음성 특징 추출부(122)는 사용자의 실제 음성 신호를 실시간으로 수신하여, 프레임 단위로 분할하여, 음성 매개변수화부(114)에서 추출한 파라미터별 정보를 특징 정보로서 추출할 수 있다. 즉, 음성 특징 추출부(122)는 프레임 단위로 음성의 포만트 주파수, 템플릿, 높낮이, 세기, 빠르기에 대한 정보를 추출한다.
가중치 계산부(124)는 전처리부(110)에서 구성된 매개변수 공간을 참조하여 발음과 감정에 대한 키모델별 가중치를 계산한다. 즉, 가중치 계산부(124)는 파라 미터별 정보를 이용하여 다수 개의 키모델 각각의 혼합 비율을 결정하기 위한 혼합 가중치를 계산한다.
영상 합성부(126)는 가중치 계산부(124)에서 계산된 키모델별 혼합 가중치에 기초하여 각 키모델들을 혼합하여 매 음성 프레임 당 얼굴 캐릭터 형상 즉, 표정을 생성한다.
이하에서는 일 실시예에 따른 키모델별 혼합 가중치를 계산하는 방법에 대하여 상세하게 설명한다.
가중치 계산부(124)는 모음 키모델별 혼합 가중치를 계산하기 위하여 참조되는 매개변수 공간으로서 도 7에 도시된 포만트 파라미터 공간을 이용할 수 있다. 가중치 계산부(124)는 포만트 파라미터 공간상에서 입력되는 입력되는 음성 프레임으로부터 추출된 모음 파라미터의 위치로부터 음성 샘플로부터 추출된 각 모음 파라미터의 위치까지의 거리에 기초하여 각 모음 키모델의 혼합 가중치를 계산할 수 있다.
예를 들어, 입력 음성 프레임을 포만트 파라미터 공간상에 입력 음성의 포만트(70)로 나타내지는 경우, 키모델별 가중치는 도 7에 도시된 바와 같은 포만트 공간에 나타나 있는 각 모음 예를 들어, 아, 애, 에, 이, 오, 우 등과의 삼차원 유클리디안 거리(Euclidean distance)를 측정하여 아래 식과 같은 역 가중치(inverted weight) 계산 방법에 의하여 모음 키모델의 가중치가 결정될 수 있다.
wk = (dk)-1 / sum{ (di ) -1 }
wk 는 k번째 모음 키모델의 혼합 가중치를 나타내고, dk 는 포만트 공간에서 입력 음성의 포만트(예를 들어 도면 부호 70의 입력 음성 포만트)를 나타내는 점의 위치와 k번째 모음 파라미터가 매핑되어 있는 점의 위치와의 거리를 나타내고, di 는 입력 음성의 포만트를 나타내는 점과 i번째 모음 파라미터를 나타내는 점과의 거리이다. 여기서, 각 모음 파라미터는 각각의 모음 키모델에 매핑되어 있으며, i는 각 모음 파라미터에 부여된 식별 정보를 나타낸다.
자음 키모델의 경우에는, 입력되는 음성 프레임으로부터 추출된 자음 템플릿을 음성 샘플의 자음 템플릿들과의 패턴 매칭을 통하여 가장 비슷한 패턴을 가지는 자음 템플릿을 하나 선택하여 결정할 수 있다.
가중치 계산부(124)는 감정 파라미터 공간에서의 입력되는 음성 프레임으로부터 감정 파라미터의 위치로부터 각 감정 영역과의 거리에 기초하여 감정 키모델의 가중치를 계산할 수 있다.
예를 들어, 입력 음성 프레임을 포만트 파라미터 공간 상에 입력 음성의 감정점(90)으로 나타내지는 경우, 키모델별 가중치는 도 9에 도시된 바와 같은 감정 파라미터 공간에서 각 감정 영역(예를 들어, joy, anger, sadness 등)과의 삼차원 거리를 측정하여 아래 식과 같은 역 가중치(inverted weight) 계산 방식으로 감정 키모델의 가중치를 계산한다.
wk = (dk)-1 / sum{ (di ) -1 }
wk 는 k번째 감정 키모델의 혼합 가중치를 나타내고, dk 는 감정 파라미터 공간에서 입력 감정 점(예를 들어, 입력 음성 감정점(90))과 k번째 감정 점과의 거리를 나타내고, di 는 입력 감정 점과 i번째 감정 점과의 거리를 나타낸다. 여기서, 감정 점은 각 감정 파라미터 공간내의 감정점들의 파라미터의 평균값일 수 있으며, 각각의 감정 키모델에 매핑되어 있으며, i는 각 감정 키모델 공간에 부여된 식별 정보를 나타낸다.
영상 합성부(126)는 얼굴 캐릭터 형상의 입주위의 하부 영역에 대해서는, 발음 키모델을 혼합 가중치에 따른 모음 키모델(각 키모델의 얼굴 캐릭터 하부에 포함된 분할된 얼굴 영역) 혼합하거나 자음 키모델을 이용하여 생성하고, 얼굴 캐릭터 형상의 눈, 이마, 뺨 등을 포함하는 상부 영역에 대해서는, 감정 키모델을 혼합 가중치에 따라 혼합하여 생성할 수 있다. 이를 위해, 영상 합성부(126)는 각 모음 키모델의 가중치를 기준 키모델을 기준으로 한 각 모음 키모델을 구성하는 정점들의 변위에 적용하거나 선택된 자음 키모델을 이용하여 하부 얼굴 영역을 합성하고, 감정 키모델의 가중치를 기준 키모델에 따른 각 감정 키모델을 구성하는 정점들의 변위에 적용하여 상부 얼굴 영역을 합성할 수 있다. 그런 다음, 영상 합성부(126)는 상부 얼굴 영역 및 하부 얼굴 영역을 합성하여 입력되는 음성에 대응하는 얼굴 캐릭터 형상을 프레임 단위로 생성할 수 있다.
분할된 얼굴 영역마다 정점의 인덱스 리스트가 있다. 예를 들면, 입 주위 영 역의 정점은 {1, 4, 112, 233, ... 599} 식이다. 일 실시예에 따르면, 각 영역별로 독립적으로 아래와 같이 키모델을 혼합할 수 있다.
vi = sum{ di k ×wk }
vi 는 i번째 정점의 결과 위치를 나타내고, di k 는 k번째 키모델에서의 i번째 정점의 변위(무표정 모델을 기준으로 함)를 나타내고, wk는 앞서 구한 k번째 키모델(모음 키모델 또는 감정 키모델)의 혼합 가중치를 나타낸다.
이와 같이, 전처리 결과 생성된 분할된 얼굴 영역 데이터와 음성 샘플의 매개변수화 결과 생성된 정보를 이용하여, 실시간으로 입력되는 음성에 대하여 프레임 단위로 얼굴 캐릭터 형상을 생성할 수 있다. 따라서, 이와 같은 방법을 온라인 애플리케이션에 적용하여, 자연스러운 삼차원 얼굴 캐릭터 표정을 사용자의 음성만으로 빠르게 생성하여 온라인에서 음성 구동 캐릭터 얼굴 애니메이션이 실시간으로 제공될 수 있다.
도 10은 일 실시예에 따른 음성 기반 얼굴 캐릭터 형성 방법을 나타내는 순서도이다.
얼굴 캐릭터 형상에 대한 다수 개의 키모델을 이용하여 얼굴 캐릭터 형상을 다수 개의 영역으로 분할한다(S 1010).
음성 샘플을 분석하여 발음 및 감정을 인식하기 위한 다수 개의 파라미터에 대한 정보들을 추출하는 음성 매개변수화를 수행한다(S 1020).
음성이 입력되면(S 1030), 음성에 대한 프레임 단위별 음성으로부터 파라미터별 정보를 추출한다(S 1040). 파라미터별 정보를 추출하는 단계(S 1040)는 파라미터별 정보를 이용하여 다수 개의 키모델 각각의 혼합 비율을 결정하기 위한 혼합 가중치를 계산하는 단계를 더 포함할 수 있다.
파라미터별 정보에 기초하여 분할된 얼굴 영역별로 합성하여 프레임 단위로 음성에 적합한 얼굴 캐릭터 형상을 생성한다(S 1050). 얼굴 캐릭터 형성을 생성할 때, 계산된 다수 개의 키 모델 각각의 혼합 가중치를 이용할 수 있다. 또한, 얼굴 캐릭터 형상을 생성할 때에는, 얼굴의 입주위 하부 영역은 발음 키모델들을 이용하여 합성하고, 얼굴의 상부 영역을 감정 키모델들을 이용하여 합성할 수 있다.
본 발명의 일 양상에 따른 방법은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있다. 상기의 프로그램을 구현하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 디스크 등을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드로 저장되고 실행될 수 있다.
이상의 설명은 본 발명의 일 실시예에 불과할 뿐, 본 발명이 속하는 기술분 야에서 통상의 지식을 가진 자는 본 발명의 본질적 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 음성 기반 얼굴 캐릭터 형성 장치의 구성을 나타내는 블록도이고,
도 2a 및 도 2b는 발음 및 감정에 따른 키모델의 일예를 나타내는 도면이고,
도 3은 추출된 특징점들의 일 예를 나타내는 도면이고,
도 4는 일 실시예에 따른 특징점 그룹화의 결과를 나타내는 도면이고,
도 5는 정점 분할의 결과의 예시를 나타내는 도면이고,
도 6은 일 실시예에 따른 음성을 매개변수화를 위한 파라미터의 계층 구조를 나타내는 도면이고,
도 7은 모음 매개변수화에 따른 모음 매개변수 공간의 일 예를 나타내는 도면이고,
도 8은 자음 매개변수화에 따른 자음 템플릿의 일 예를 나타내는 도면이고,
도 9는 감정 키모델의 가중치를 결정하는데 이용되는 감정 매개변수화에 따른 감정 매개변수 공간의 일 예를 나타내는 도면이고,
도 10는 일 실시예에 따른 음성 기반 얼굴 캐릭터 형성 방법을 나타내는 순서도이다.

Claims (18)

  1. 얼굴 캐릭터 형상에 대한 다수 개의 키모델을 이용하여 얼굴 캐릭터 형상을 다수 개의 영역으로 분할하고, 음성 샘플을 분석하여 발음 및 감정에 대하여 음성 매개변수화를 수행하는 전처리부; 및
    음성이 입력되면, 상기 음성에 대한 프레임 단위별 음성으로부터 적어도 하나의 파라미터별 정보를 추출하고, 상기 추출된 파라미터별 정보 및 상기 음성 매개변수화 결과에 기초하여 상기 프레임 단위로 상기 분할된 얼굴 영역별로 얼굴 캐릭터 형상을 합성하는 얼굴 캐릭터 형성부를 포함하고,
    상기 전처리부는
    상기 키모델 각각에 대하여 기준 모델을 기준으로 질량점과 이웃 질량점 간의 스프링 변화율이 문턱값 이상인 특징점들을 선택하고, 상기 특징점들이 유기적으로 움직이는 정도를 측정하여 상기 특징점들을 그룹화하고, 특징점으로 선택되지 않은 나머지 질량점들을 상기 특징점 그룹들에 그룹화하는 정점 분할을 수행하는 음성 기반 얼굴 캐릭터 형성 장치.
  2. 제1항에 있어서,
    상기 얼굴 캐릭터 형성부는, 상기 파라미터별 정보를 이용하여 상기 다수 개의 키모델 각각의 혼합 비율을 결정하기 위한 혼합 가중치를 계산하는 음성 기반 얼굴 캐릭터 형성 장치.
  3. 제1항에 있어서,
    얼굴 캐릭터 형상에 대한 상기 다수 개의 키모델은 다수 개의 모음 및 자음에 따른 발음별 키모델 및 다수 개의 감정에 따른 감정별 키모델을 포함하는 음성 기반 얼굴 캐릭터 형성 장치.
  4. 제1항에 있어서,
    상기 질량점은 상기 얼굴 캐릭터 형상에 대하여 정점에 대응하고, 상기 스프링은 에지에 대응하는 음성 기반 얼굴 캐릭터 형성 장치.
  5. 삭제
  6. 제1항에 있어서,
    상기 전처리부는 상기 음성 매개변수화를 수행할 때,
    상기 음성 샘플로부터 모음에 대하여 3개의 포만트 파라미터 공간에 각각의 모음에 대한 파라미터를 나타내고, 상기 음성 샘플로부터 자음에 대하여 각각의 자음을 식별하기 위한 자음 템플릿을 생성하고, 상기 음성 샘플에 대한 높낮이(pitch), 세기(Intensity) 및 빠르기(Tempo)를 분석하여 상기 높낮이, 세기 및 빠르기 파라미터를 나타내기 위한 감정 파라미터 공간에 각각의 감정에 대한 공간 영역을 설정하는 음성 기반 얼굴 캐릭터 형성 장치.
  7. 제6항에 있어서,
    상기 얼굴 캐릭터 형성부는,
    상기 포만트 파라미터 공간상에서 상기 입력되는 음성의 프레임으로부터 추출된 모음 파라미터의 위치 및 상기 음성 샘플로부터 추출된 각 모음 파라미터의 위치와의 거리에 기초하여 각 모음 키모델의 가중치를 계산하고,
    상기 입력되는 음성의 프레임으로부터 추출된 자음 템플릿을 상기 음성 샘플의 자음 템플릿들과의 패턴 매칭을 통하여 자음 키모델을 결정하고,
    상기 감정 파라미터 공간에서의 상기 입력되는 음성의 프레임으로부터 추출된 감정 파라미터의 위치로부터 상기 감정에 대한 공간 영역과의 거리에 기초하여 각 감정 키모델의 가중치를 계산하는 음성 기반 얼굴 캐릭터 형성 장치.
  8. 제7항에 있어서,
    상기 얼굴 캐릭터 형성부는,
    상기 각 모음 키모델의 가중치를 기준 키모델을 기준으로 한 각 모음 키모델을 구성하는 정점들의 변위에 적용하거나 상기 결정된 자음 키모델을 이용하여 하부 얼굴 영역을 합성하고,
    상기 감정 키모델의 가중치를 기준 키모델을 기준으로 각 감정 키모델을 구성하는 정점들의 변위에 적용하여 상부 얼굴 영역을 합성하는 음성 기반 얼굴 캐릭 터 형성 장치.
  9. 제8항에 있어서,
    상기 얼굴 캐릭터 형성부는,
    상부 얼굴 영역 및 상기 하부 얼굴 영역을 합성하여 입력되는 음성에 대응하는 얼굴 캐릭터 형상을 프레임 단위로 생성하는 음성 기반 얼굴 캐릭터 형성 장치.
  10. 얼굴 캐릭터 형상에 대한 다수 개의 키모델을 이용하여 상기 얼굴 캐릭터 형상을 다수 개의 영역으로 분할하는 단계;
    음성 샘플을 분석하여 발음 및 감정에 대하여 음성 매개변수화를 수행하는 단계;
    음성이 입력되면, 상기 음성에 대한 프레임 단위별 음성으로부터 적어도 하나의 파라미터별 정보를 추출하는 단계; 및
    상기 추출된 파라미터별 정보 및 상기 음성 매개변수화 결과에 기초하여 상기 프레임 단위로 상기 분할된 얼굴 영역별로 얼굴 캐릭터 영상을 합성하는 단계를 포함하고,
    상기 얼굴 캐릭터 형상을 다수 개의 영역으로 분할하는 단계에서,
    상기 키모델 중 기준 모델을 기준으로 질량점과 이웃 질량점 간의 스프링 변화율이 문턱값 이상인 특징점들을 선택하는 단계;
    상기 특징점들이 유기적으로 움직이는 정도를 측정하여 상기 특징점들을 그룹화하는 단계; 및
    특징점으로 선택되지 않은 나머지 질량점들을 상기 특징점 그룹들에 그룹화하는 정점 분할을 수행하는 단계를 포함하는 음성 기반 얼굴 캐릭터 형성 방법.
  11. 제10항에 있어서,
    상기 분할된 얼굴 영역별로 얼굴 캐릭터 영상을 합성하는 단계는,
    상기 파라미터별 정보를 이용하여 상기 다수 개의 키모델 각각의 혼합 비율 을 결정하기 위한 혼합 가중치를 계산하는 음성 기반 얼굴 캐릭터 형성 방법.
  12. 제10항에 있어서,
    상기 얼굴 캐릭터 형상에 대한 다수 개의 키모델은 다수 개의 모음 및 자음에 따른 발음별 키모델 및 다수 개의 감정에 따른 감정별 키모델을 포함하는 음성 기반 얼굴 캐릭터 형성 방법.
  13. 제10항에 있어서,
    상기 질량점은 상기 얼굴 캐릭터 형상에 대하여 정점에 대응하고, 상기 스프링은 에지에 대응하는 음성 기반 얼굴 캐릭터 형성 방법.
  14. 삭제
  15. 제10항에 있어서,
    상기 음성 매개변수화를 수행하는 단계는,
    상기 음성 샘플로부터 모음에 대하여 3개의 포만트 파라미터 공간에서 다수 개의 모음에 대한 파라미터 각각을 나타내는 단계;
    상기 음성 샘플으로부터 자음에 대하여 자음을 식별하기 위한 자음 템플릿을 생성하는 단계; 및
    상기 음성 샘플에 대한 높낮이, 세기 및 빠르기를 분석하여 상기 높낮이, 세기 및 빠르기 파라미터를 나타내기 위한 감정 파라미터 공간에 각각의 감정에 대한 공간 영역을 설정하는 단계를 포함하는 음성 기반 얼굴 캐릭터 형성 방법.
  16. 제15항에 있어서,
    상기 분할된 얼굴 영역별로 얼굴 캐릭터 영상을 합성하는 단계는,
    상기 포만트 파라미터 공간상에서 상기 입력되는 음성의 프레임으로부터 추출된 모음 파라미터의 위치 및 상기 음성 샘플로부터 추출된 각 모음 파라미터의 위치와의 거리에 기초하여 각 모음 키모델의 가중치를 계산하는 단계;
    상기 입력되는 음성의 프레임으로부터 추출된 자음 템플릿을 상기 음성 샘플의 자음 템플릿들과의 패턴 매칭을 통하여 자음 키모델을 결정하는 단계; 및
    상기 감정 파라미터 공간에서의 상기 입력되는 음성의 프레임으로부터 추출된 감정 파라미터의 위치로부터 상기 감정에 대한 공간 영역과의 거리에 기초하여 각 감정 키모델의 가중치를 계산하는 단계를 포함하는 음성 기반 얼굴 캐릭터 형성 방법.
  17. 제16항에 있어서,
    상기 분할된 얼굴 영역별로 얼굴 캐릭터 영상을 합성하는 단계는,
    상기 각 모음 키모델의 가중치를 기준 키모델을 기준으로 한 각 모음 키모델을 구성하는 정점들의 변위에 적용하거나 상기 결정된 자음 키모델을 이용하여 하부 얼굴 영역을 합성하는 단계; 및
    상기 감정 키모델의 가중치를 기준 키모델을 기준으로 각 감정 키모델을 구성하는 정점들의 변위에 적용하여 상부 얼굴 영역을 합성하는 단계를 포함하는 음성 기반 얼굴 캐릭터 형성 방법.
  18. 제17항에 있어서,
    상기 분할된 얼굴 영역별로 얼굴 캐릭터 영상을 합성하는 단계는,
    상기 상부 얼굴 영역 및 상기 하부 얼굴 영역을 합성하여 입력되는 음성에 대응하는 얼굴 캐릭터 형상을 프레임 단위로 생성하는 단계를 더 포함하는 음성 기반 얼굴 캐릭터 형성 방법.
KR1020080100838A 2008-10-14 2008-10-14 음성 기반 얼굴 캐릭터 형성 장치 및 방법 KR101541907B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020080100838A KR101541907B1 (ko) 2008-10-14 2008-10-14 음성 기반 얼굴 캐릭터 형성 장치 및 방법
US12/548,178 US8306824B2 (en) 2008-10-14 2009-08-26 Method and apparatus for creating face character based on voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080100838A KR101541907B1 (ko) 2008-10-14 2008-10-14 음성 기반 얼굴 캐릭터 형성 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20100041586A KR20100041586A (ko) 2010-04-22
KR101541907B1 true KR101541907B1 (ko) 2015-08-03

Family

ID=42099702

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080100838A KR101541907B1 (ko) 2008-10-14 2008-10-14 음성 기반 얼굴 캐릭터 형성 장치 및 방법

Country Status (2)

Country Link
US (1) US8306824B2 (ko)
KR (1) KR101541907B1 (ko)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110115798A1 (en) * 2007-05-10 2011-05-19 Nayar Shree K Methods and systems for creating speech-enabled avatars
BRPI0904540B1 (pt) * 2009-11-27 2021-01-26 Samsung Eletrônica Da Amazônia Ltda método para animar rostos/cabeças/personagens virtuais via processamento de voz
US9262941B2 (en) * 2010-07-14 2016-02-16 Educational Testing Services Systems and methods for assessment of non-native speech using vowel space characteristics
WO2012089906A1 (en) * 2010-12-30 2012-07-05 Nokia Corporation Method, apparatus and computer program product for emotion detection
JP2012181704A (ja) * 2011-03-01 2012-09-20 Sony Computer Entertainment Inc 情報処理装置および情報処理方法
GB2510200B (en) * 2013-01-29 2017-05-10 Toshiba Res Europe Ltd A computer generated head
GB2516965B (en) * 2013-08-08 2018-01-31 Toshiba Res Europe Limited Synthetic audiovisual storyteller
US9165182B2 (en) * 2013-08-19 2015-10-20 Cisco Technology, Inc. Method and apparatus for using face detection information to improve speaker segmentation
US9841879B1 (en) * 2013-12-20 2017-12-12 Amazon Technologies, Inc. Adjusting graphical characteristics for indicating time progression
JP2017120609A (ja) * 2015-12-24 2017-07-06 カシオ計算機株式会社 感情推定装置、感情推定方法及びプログラム
US11455985B2 (en) * 2016-04-26 2022-09-27 Sony Interactive Entertainment Inc. Information processing apparatus
CN107093163B (zh) * 2017-03-29 2020-06-09 广州市顺潮广告有限公司 基于深度学习的图像融合方法与计算机存储介质
KR102035596B1 (ko) 2018-05-25 2019-10-23 주식회사 데커드에이아이피 인공지능 기반의 가상 캐릭터의 페이셜 애니메이션 자동 생성 시스템 및 방법
CN110910898B (zh) * 2018-09-15 2022-12-30 华为技术有限公司 一种语音信息处理的方法和装置
KR102667547B1 (ko) * 2019-01-24 2024-05-22 삼성전자 주식회사 전자 장치 및 이를 이용한 감정 정보에 대응하는 그래픽 오브젝트를 제공하는 방법
US11289067B2 (en) * 2019-06-25 2022-03-29 International Business Machines Corporation Voice generation based on characteristics of an avatar
TWI714318B (zh) * 2019-10-25 2020-12-21 緯創資通股份有限公司 人臉辨識方法及裝置
KR20220112422A (ko) 2021-02-04 2022-08-11 (주)자이언트스텝 발음 기호 기반의 스피치 애니메이션 생성 방법 및 장치
CN113128399B (zh) * 2021-04-19 2022-05-17 重庆大学 用于情感识别的语音图像关键帧提取方法
KR20230095432A (ko) 2021-12-22 2023-06-29 (주)모션테크놀로지 텍스트 서술 기반 캐릭터 애니메이션 합성 시스템
KR102637704B1 (ko) * 2023-06-21 2024-02-19 주식회사 하이 아동에게 칭찬 메시지를 제공하는 방법 및 그것을 수행하는 서버

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100813034B1 (ko) * 2006-12-07 2008-03-14 한국전자통신연구원 캐릭터 형성방법

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05313686A (ja) 1992-04-02 1993-11-26 Sony Corp 表示制御装置
JPH0744727A (ja) 1993-07-27 1995-02-14 Sony Corp 画像作成方法およびその装置
JP3674875B2 (ja) 1994-10-24 2005-07-27 株式会社イメージリンク アニメーションシステム
JPH10133852A (ja) 1996-10-31 1998-05-22 Toshiba Corp パーソナルコンピュータおよび音声属性パラメータの管理方法
IT1314671B1 (it) 1998-10-07 2002-12-31 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per l'animazione di un modellosintetizzato di volto umano pilotata da un segnale audio.
US6735566B1 (en) 1998-10-09 2004-05-11 Mitsubishi Electric Research Laboratories, Inc. Generating realistic facial animation from speech
US6778252B2 (en) * 2000-12-22 2004-08-17 Film Language Film language
US20030163315A1 (en) * 2002-02-25 2003-08-28 Koninklijke Philips Electronics N.V. Method and system for generating caricaturized talking heads
JP3822828B2 (ja) 2002-03-20 2006-09-20 沖電気工業株式会社 3次元画像生成装置およびその画像生成方法ならびにその画像生成プログラムを記録したコンピュータ読取り可能な記録媒体
JP3950802B2 (ja) 2003-01-31 2007-08-01 株式会社エヌ・ティ・ティ・ドコモ 顔情報送信システム、顔情報送信方法、顔情報送信プログラム、及びコンピュータ読取可能な記録媒体
JP4254400B2 (ja) 2003-07-14 2009-04-15 沖電気工業株式会社 画像生成装置およびその画像生成方法、ならびにコンピュータ読み取り可能な記録媒体
KR100559471B1 (ko) 2003-12-17 2006-03-10 한국전자통신연구원 대칭축을 이용한 얼굴 검출 시스템 및 방법
KR100544684B1 (ko) 2004-05-12 2006-01-23 한국과학기술원 영역 기반의 얼굴 표정 애니메이션 복제방법
TW200540732A (en) 2004-06-04 2005-12-16 Bextech Inc System and method for automatically generating animation
JP2006330958A (ja) 2005-05-25 2006-12-07 Oki Electric Ind Co Ltd 画像合成装置、ならびにその装置を用いた通信端末および画像コミュニケーションシステム、ならびにそのシステムにおけるチャットサーバ
JP4631078B2 (ja) 2005-07-27 2011-02-16 株式会社国際電気通信基礎技術研究所 リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム
JP3949702B1 (ja) 2006-03-27 2007-07-25 株式会社コナミデジタルエンタテインメント ゲーム装置、ゲーム処理方法、ならびに、プログラム
US8224652B2 (en) * 2008-09-26 2012-07-17 Microsoft Corporation Speech and text driven HMM-based body animation synthesis

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100813034B1 (ko) * 2006-12-07 2008-03-14 한국전자통신연구원 캐릭터 형성방법

Also Published As

Publication number Publication date
KR20100041586A (ko) 2010-04-22
US8306824B2 (en) 2012-11-06
US20100094634A1 (en) 2010-04-15

Similar Documents

Publication Publication Date Title
KR101541907B1 (ko) 음성 기반 얼굴 캐릭터 형성 장치 및 방법
Busso et al. Interrelation between speech and facial gestures in emotional utterances: a single subject study
Busso et al. Rigid head motion in expressive speech animation: Analysis and synthesis
KR101558202B1 (ko) 아바타를 이용한 애니메이션 생성 장치 및 방법
CN106653052A (zh) 虚拟人脸动画的生成方法及装置
CN103218842A (zh) 一种语音同步驱动三维人脸口型与面部姿势动画的方法
CN113781610A (zh) 一种虚拟人脸的生成方法
CN105390133A (zh) 藏语ttvs系统的实现方法
Lundeberg et al. Developing a 3D-agent for the August dialogue system
Gibet et al. High-level specification and animation of communicative gestures
KR20080018408A (ko) 음성 사운드 소스를 이용한 얼굴 표정 변화 프로그램을기록한 컴퓨터에서 읽을 수 있는 기록매체
Lin et al. A face robot for autonomous simplified musical notation reading and singing
Železný et al. Design, implementation and evaluation of the Czech realistic audio-visual speech synthesis
Tao et al. Emotional Chinese talking head system
CN107610691A (zh) 英语元音发声纠错方法及装置
Cosker et al. Laughing, crying, sneezing and yawning: Automatic voice driven animation of non-speech articulations
Theobald et al. Relating objective and subjective performance measures for aam-based visual speech synthesis
Brooke et al. Two-and three-dimensional audio-visual speech synthesis
CN106328163A (zh) 维吾尔语音位‑视位参数的转换方法和系统
Uz et al. Realistic speech animation of synthetic faces
Sharma et al. Facial Expressions for Sign Language Synthesis using FACSHuman and AZee
Theobald et al. 2.5 D Visual Speech Synthesis Using Appearance Models.
Edge et al. Model-based synthesis of visual speech movements from 3D video
Theobald et al. Evaluation of a talking head based on appearance models
Mu et al. Real-time speech-driven lip synchronization

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180620

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190619

Year of fee payment: 5