KR20210103423A

KR20210103423A - 입 모양 특징을 예측하는 방법, 장치, 전자 기기, 저장 매체 및 프로그램

Info

Publication number: KR20210103423A
Application number: KR1020210018506A
Authority: KR
Inventors: 유치앙 리우; 타오 선; 원푸 왕; 구안보 바오; 저 펑; 레이 지아
Original assignee: 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date: 2020-02-13
Filing date: 2021-02-09
Publication date: 2021-08-23
Also published as: EP3866166A1; CN111354370A; EP3866166B1; US20210256962A1; US11562732B2; CN111354370B; JP2021128327A; KR102528771B1; JP7167106B2

Abstract

본 출원은 입 모양 특징 예측 방법, 장치, 전자 기기, 저장 매체 및 프로그램을 개시하는바, 가상 기술분야에 관한 것이다. 예를 들어, 음성 특징의 PPG를 인식하고, 신경망 모델을 사용하여 PPG에 대해 예측을 수행함으로써 음성 특징의 입 모양 특징을 예측하는 것이고, 여기서, 신경망 모델은 훈련 샘플을 사용하여 훈련하여 얻은, 입력이 PPG를 포함하고 출력이 입 모양 특징을 포함하는 신경망 모델이고, 훈련 샘플은 PPG 훈련 샘플과 입 모양 특징 훈련 샘플을 포함한다. 본 출원은 입 모양 특징을 예측하는 정확성을 향상시킬 수 있다.

Description

입 모양 특징을 예측하는 방법, 장치, 전자 기기, 저장 매체 및 프로그램 {A method, a device, an electronic device, a storage medium, and a program for predicting characteristics of a shape of mouth}

본 출원은 컴퓨터 기술분야에서의 가상 기술분야에 관한 것으로, 특히 입 모양 특징을 예측하는 방법, 장치, 전자 기기, 저장 매체 및 프로그램에 관한 것이다.

인공지능, 디지털 통신 등 기술의 신속한 발전에 따라 가상 이미지는 점차 차세대 인공지능 인터랙션의 중요한 발전 방향이 되고 있다. 가상 이미지에 있어서 입 모양의 특징은 하나의 핵심적인 기술 특징이다. 현재 주요하게는 음소, 음절 등을 음성 특징으로 적용하고 당해 분야의 전문가에 의해 일련의 입 모양 매핑 규칙을 정의함으로써 입 모양 특징을 결정한다. 그러나 현재, 당해 방법에 의해 입 모양 특징을 예측하는 정확성은 보다 낮다.

본 출원은 입 모양 특징 예측 방법, 장치, 전자 기기, 저장 매체 및 프로그램을 제공함으로써 입 모양 특징을 예측하는 정확성이 보다 낮은 문제를 해결한다.

일 측면에 따른 입 모양 특징 예측 방법은, 음성 특징의 음성 포스테리어그램(Phonetic PosteriorGram; PPG)을 인식하는 단계; 및 신경망 모델을 사용하여 PPG에 대해 예측을 수행함으로써 음성 특징의 입 모양 특징을 예측하는 단계 - 신경망 모델은 훈련 샘플을 사용하여 훈련하여 얻은, 입력이 PPG를 포함하고 출력이 입 모양 특징을 포함하는 신경망 모델이고, 훈련 샘플은 PPG 훈련 샘플과 입 모양 특징 훈련 샘플을 포함함 - 를 포함한다.

신경망 모델에 의해 음성 특징의 PPG에 대해 예측을 수행하므로 이는 당해 분야의 전문가에 의해 일련의 입 모양 매핑 규칙을 정의함으로써 입 모양 특징을 결정하는 데 비해, 입 모양 특징을 예측하는 정확성을 향상시킬 수 있다.

상술한 방법에 있어서, PPG 훈련 샘플은 목표 음성 특징의 PPG를 포함하고, 목표 음성 특징은 동적 슬라이싱에 기반하여 얻어지는, 온전한 시맨틱을 가지는 음성 특징이고; 입 모양 특징 훈련 샘플은 목표 음성 특징의 PPG에 대응되는 입 모양 특징을 포함한다.

목표 음성 특징은 동적 슬라이싱에 기반하여 얻어지는, 온전한 시맨틱을 가지는 음성 특징이므로, 이에 따라 신경망 모델에 의해 예측된 입 모양 특징이 더욱 정확해진다.

상술한 방법에 있어서, 목표 음성 특징의 주파수는 목표 음성 특징의 PPG에 대응되는 입 모양 특징의 주파수에 매칭된다.

목표 음성 특징의 주파수는 입 모양 특징의 주파수에 매칭되므로, 나아가 신경망 모델에 의해 예측된 입 모양 특징의 정확성을 향상시킬 수 있다.

상술한 방법에 있어서, 신경망 모델은 자기회귀 메커니즘을 가지는 순환 신경망(Recurrent Neural Network, RNN) 모델이고, RNN 모델의 훈련 과정은, 현재 프레임의 바로 전 프레임의 입 모양 특징 훈련 샘플을 입력으로 하고 현재 프레임의 PPG 훈련 샘플을 제약 조건으로 하고 현재 프레임의 입 모양 특징 훈련 샘플을 목표로 하여 훈련하는 단계를 포함한다.

바로 전 프레임의 입 모양 특징 훈련 샘플을 입력으로 하고 현재 프레임의 PPG 훈련 샘플을 제약 조건으로 하므로, 이에 따라 나아가 상술한 신경망 모델에 의해 입 모양 특징을 예측하는 정확성을 향상시킬 수 있다.

상술한 방법에 있어서, 신경망 모델은 멀티브랜치 네트워크 신경망 모델이고, 음성 특징의 입 모양 특징은 회귀 입 모양 포인트, 입 모양 썸네일, 블렌드 쉐입(blend shape) 계수 및 3차원 변형가능 모델(3D Morphable Models, 3DMM) 표정 계수 중의 적어도 2개를 포함한다.

복수의 입 모양 특징을 예측할 수 있으므로 상술한 신경망 모델의 일반화 성능을 향상시킬 수 있다.

상술한 방법에 있어서, 신경망 모델을 사용하여 실제 음성 데이터의 PPG에 대해 예측을 수행함으로써 실제 음성 데이터의 입 모양 특징을 얻는 단계; 및 실제 음성 데이터의 입 모양 특징에 근거하여 입 모양 특징 인덱스 데이터베이스를 구축하는 단계 - 여기서, 입 모양 특징 인덱스 데이터베이스는 가상 이미지의 입 모양 합성에 사용됨 - 를 더 포함한다.

신경망 모델에 의해 예측된 입 모양 특징을 사용하여 입 모양 특징 인덱스 데이터베이스를 구축하므로, 이에 따라 신경망 모델에 의해 출력된 예측된 입 모양 특징과 인덱스 데이터베이스 내의 입 모양 특징 간의 적합도(fitting)를 향상시킬 수 있고, 나아가 인덱스 정밀도를 향상시킬 수 있다.

다른 측면에 따른 입 모양 특징 예측 장치는, 음성 특징의 PPG를 인식하는 인식 모듈; 및 신경망 모델을 사용하여 PPG에 대해 예측을 수행함으로써 음성 특징의 입 모양 특징을 예측하는 제1 예측 모듈 - 여기서, 신경망 모델은 훈련 샘플을 사용하여 훈련하여 얻은, 입력이 PPG를 포함하고 출력이 입 모양 특징을 포함하는 신경망 모델이고, 훈련 샘플은 PPG 훈련 샘플과 입 모양 특징 훈련 샘플을 포함함 - 을 포함한다.

상술한 장치에 있어서, PPG 훈련 샘플은 목표 음성 특징의 PPG를 포함하고, 목표 음성 특징은 동적 슬라이싱에 기반하여 얻어지는, 온전한 시맨틱을 가지는 음성 특징이고; 입 모양 특징 훈련 샘플은 목표 음성 특징의 PPG에 대응되는 입 모양 특징을 포함한다.

상술한 장치에 있어서, 신경망 모델은 자기회귀 메커니즘을 가지는 순환 신경망RNN 모델이고, RNN 모델의 훈련 과정은, 현재 프레임의 바로 전 프레임의 입 모양 특징 훈련 샘플을 입력으로 하고 현재 프레임의 PPG 훈련 샘플을 제약 조건으로 하고 현재 프레임의 입 모양 특징 훈련 샘플을 목표로 하여 훈련하는 단계를 포함한다.

상술한 장치에 있어서, 신경망 모델은 멀티브랜치 네트워크 신경망 모델이고, 음성 특징의 입 모양 특징은 회귀 입 모양 포인트, 입 모양 썸네일, 블렌드 쉐입 계수 및 3차원 변형가능 모델(3DMM) 표정 계수 중의 적어도 2개를 포함한다.

상술한 장치에 있어서, 신경망 모델을 사용하여 실제 음성 데이터의 PPG에 대해 예측을 수행함으로써 실제 음성 데이터의 입 모양 특징을 얻는 제2 예측 모듈; 및 실제 음성 데이터의 입 모양 특징에 근거하여 입 모양 특징 인덱스 데이터베이스를 구축하는 구축 모듈 - 여기서, 입 모양 특징 인덱스 데이터베이스는 가상 이미지의 입 모양 합성에 사용됨 - 을 더 포함한다.

또 다른 측면에 따른 전자 기기는, 적어도 하나의 프로세서; 및 적어도 하나의 프로세서에 통신적으로 연결되는 메모리를 포함하고, 메모리에는 적어도 하나의 프로세서에 의해 실행될 수 있는 명령이 저장되어 있고, 명령은 적어도 하나의 프로세서에 의해 실행됨으로써 적어도 하나의 프로세서가 본 출원에 의해 제공되는 방법을 수행 가능하도록 한다.

또 다른 측면에 따른 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독가능 저장 매체는, 상술한 벙법을 컴퓨터에서 실행시키기 위한 프로그램이 기록된한다.

또 다른 측면에 따른 매체에 저장된 컴퓨터 프로그램은, 당해 프로그램이 프로세서에 의해 실행되는 경우, 상술한 방법이 수행된다.

상술한 실시예는 다음과 같은 이점 또는 유익한 효과를 가진다.

음성 특징의 PPG를 인식하고; 신경망 모델을 사용하여 PPG에 대해 예측을 수행함으로써 음성 특징의 입 모양 특징을 예측하되, 여기서, 신경망 모델은 훈련 샘플을 사용하여 훈련하여 얻은, 입력이 PPG를 포함하고 출력이 입 모양 특징을 포함하는 신경망 모델이고, 훈련 샘플은 PPG 훈련 샘플과 입 모양 특징 훈련 샘플을 포함한다. 신경망 모델에 의해 음성 특징의 PPG에 대해 예측을 수행하는 기술수단을 적용하므로, 입 모양 특징을 예측하는 정확성이 보다 낮은 기술 과제를 해결하고, 나아가 입 모양 특징을 예측하는 정확성을 향상시키는 기술 효과를 달성한다.

상술한 실시예가 가지는 다른 효과는 아래 구체적인 실시예를 결부하여 설명하도록 한다.

첨부 도면은 본 방안을 더 잘 이해하기 위한 것으로, 본 출원을 한정하지 않는다.
도1은 본 출원에 의해 제공되는 입 모양 특징 예측 방법의 흐름도이다.
도2는 본 출원에 의해 제공되는 입 모양 특징 예측 장치의 구조도이다.
도3은 본 출원에 의해 제공되는 다른 입 모양 특징 예측 장치의 구조도이다.
도4는 본 출원의 실시예의 입 모양 특징 예측 방법을 구현하는 전자 기기의 블록도이다.

아래 첨부 도면을 결부하여 본 출원의 시범적 실시예를 설명하고자 하는데, 여기서는 이해를 돕고자 본 출원의 실시예의 다양한 세부사항을 포함하나 이를 단지 시범적인 것으로 간주하여야 한다. 따라서, 당업자라면, 여기서 서술한 실시예는 본 출원의 범위 및 사상에 위배되지 않으면서 다양한 변경 및 수정이 가능하다는 것을 인지하여야 한다. 마찬가지로, 명확함과 간결함을 위해, 아래 서술에서는 공지된 기능 및 구조에 대한 서술을 생략하기로 한다.

본 실시예들에서 사용되는 용어는 본 실시예들에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 실시예들에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 실시예들 전반에 걸친 내용을 토대로 정의되어야 한다.

본 실시예들은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는바, 일부 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 실시예들을 특정한 개시형태에 대해 한정하려는 것이 아니며, 본 실시예들의 사상 및 기술범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 명세서에서 사용한 용어들은 단지 실시예들의 설명을 위해 사용된 것으로, 본 실시예들을 한정하려는 의도가 아니다.

본 실시예들에 사용되는 용어들은 다르게 정의되지 않는 한, 본 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 실시예들에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않아야 한다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.

한편, 본 명세서에서 하나의 도면 내에서 개별적으로 설명되는 기술적 특징은 개별적으로 구현될 수도 있고, 동시에 구현될 수도 있다.

본 명세서에서, "~모듈(module)"은 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.

이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

도1은 본 출원에 의해 제공되는 입 모양 특징 예측 방법의 흐름도이다.

단계S101에서, 음성 특징의 PPG를 인식한다.

여기서, 상술한 음성 특징의 PPG를 인식하는 단계는 자동 음성 인식 시스템에 기반하여 상술한 음성 특징의 PPG를 추출하는 단계일 수 있다.

부연하면, 본 출원에서 음성 특징은 음성 데이터로 이해할 수도 있다.

단계S102에서, 신경망 모델을 사용하여 PPG에 대해 예측을 수행함으로써 음성 특징의 입 모양 특징을 예측하되, 여기서, 신경망 모델은 훈련 샘플을 사용하여 훈련하여 얻은, 입력이 PPG를 포함하고 출력이 입 모양 특징을 포함하는 신경망 모델이고, 훈련 샘플은 PPG 훈련 샘플과 입 모양 특징 훈련 샘플을 포함한다.

여기서, 상술한 신경망 모델은 입력이 PPG이고 출력이 대응되는 입 모양 특징인 엔드투엔드 신경망 모델일 수 있다.

부연하면, 본 출원은 신경망 모델의 종류를 한정하지 않는바, 예를 들면, 합성곱 신경망(Convolutional Neural Networks, CNN) 모델, 심층 신경망(Deep Neural Networks, DNN) 모델 또는 RNN 모델 등이 있다.

본 출원에서, PPG는 화자 비관련 특징이므로, 이에 따라 PPG에 의해 서로 다른 화자의 공통적인 음성 특징을 얻을 수 있고, 음소 등의 음성 특징에 비하면, PPG는 음성과의 동기성이 더 강한바, 즉, 음성과 입술 움직임과의 동기성을 향상시킨다.

본 출원에서, 신경망 모델에 의해 음성 특징의 PPG에 대해 예측을 수행하므로 이는 당해 분야의 전문가에 의해 일련의 입 모양 매핑 규칙을 정의함으로써 입 모양 특징을 결정하는 데 비해, 입 모양 특징을 예측하는 정확성을 향상시킬 수 있다.

대안으로, PPG 훈련 샘플은 목표 음성 특징의 PPG를 포함하고, 목표 음성 특징은 동적 슬라이싱에 기반하여 얻어지는, 온전한 시맨틱을 가지는 음성 특징이고; 입 모양 특징 훈련 샘플은 목표 음성 특징의 PPG에 대응되는 입 모양 특징을 포함한다.

여기서, 상술한 동적 슬라이싱에 기반하여 얻어지는, 온전한 시맨틱을 가지는 음성 특징은, 음성의 시맨틱에 따라 슬라이싱을 수행함으로써 얻게되는, 온전한 시맨틱을 가지는 음성 특징일 수 있다.

목표 음성 특징은 동적 슬라이싱에 기반하여 얻어지는, 온전한 시맨틱을 가지는 음성 특징이므로, 이에 따라, 음절을 인위적으로 절단함으로 인해 정보가 불연속적이게 되는 현상을 해소하고, 신경망 모델에 의해 예측되는 입 모양 특징이 더 정확해지게 한다.

대안으로, 목표 음성 특징의 주파수는 목표 음성 특징의 PPG에 대응되는 입 모양 특징의 주파수에 매칭된다.

여기서, 상술한 목표 음성 특징의 주파수가 입 모양 특징의 주파수에 매칭된다는 것은, 목표 음성 특징의 주파수가 입 모양 특징의 주파수와 같거나 또는 유사한 경우일 수 있다. 예를 들면, 음성 특징의 주파수가 25Hz이고 입 모양 특징의 주파수도 25Hz이다. 나아가, 음성 특징의 주파수가 입 모양 특징의 주파수에 매칭되지 않는 경우, 본 출원에서는 음성 특징의 주파수를 조정할 수 있는바, 예를 들면, 100Hz인 음성 특징을 25Hz인 음성 특징으로 조정할 수 있고, 음성 특징의 주파수를 조정할 수 있으므로 이에 따라 신경망 모델 훈련의 유연도를 향상시킬 수 있다.

대안으로, 신경망 모델은 자기회귀 메커니즘을 가지는 순환 신경망RNN 모델이고, RNN 모델의 훈련 과정은, 현재 프레임의 바로 전 프레임의 입 모양 특징 훈련 샘플을 입력으로 하고 현재 프레임의 PPG 훈련 샘플을 제약 조건으로 하고 현재 프레임의 입 모양 특징 훈련 샘플을 목표로 하여 훈련하는 단계를 포함한다.

여기서, 상술한 현재 프레임은 훈련 과정에서 현재 훈련을 수행하는 프레임일 수 있고, 본 출원에서 훈련 샘플은 복수 프레임을 포함하고 각 프레임은 하나의 PPG 및 입 모양 특징에 대응된다.

바로 전 프레임의 입 모양 특징 훈련 샘플을 입력으로 하고 현재 프레임의 PPG 훈련 샘플을 제약 조건으로 하므로, 이에 따라 각 시점의 입 모양이 현재 시점 및 전후 시점의 음성에 관련되도록 구현할 수 있고, 이로써 나아가 상술한 신경망 모델에 의해 입 모양 특징을 예측하는 정확성을 향상시킬 수 있다.

대안으로, 신경망 모델은 멀티브랜치 네트워크 신경망 모델이고, 음성 특징의 입 모양 특징은 회귀 입 모양 포인트, 입 모양 썸네일, 블렌드 쉐입(blend shape) 계수 및 3DMM 표정 계수 중의 적어도 2개를 포함한다.

여기서, 멀티브랜치 네트워크 신경망 모델은, 당해 신경망 모델이 복수의 브랜치 네트워크를 구비하고 각 브랜치 네트워크에 의해 하나의 입 모양 특징이 예측될 수 있는 것을 가리킬 수 있는바, 예를 들면, 4개 브랜치인 네트워크는 각각 회귀 입 모양 포인트, 입 모양 썸네일, 블렌드 쉐입 계수 및 3DMM 표정 계수를 예측한다.

복수의 입 모양 특징을 예측할 수 있으므로 상술한 신경망 모델의 일반화 성능을 향상시킬 수 있다. 나아가, 회귀 입 모양 포인트, 입 모양 썸네일, 블렌드 쉐입 계수 및 3DMM 표정 계수 중의 여러 개를 예측할 수 있으므로, 이에 따라 복수 특징의 융합 예측에 의해 일 측면으로는 입 모양 특징 간의 관련성을 이용하여 신경망 모델의 일반화 성능을 효과적으로 향상시킬 수 있고 다른 측면으로는 모델의 응용 범위를 효과적으로 확대시키므로 2D, 3D 가상 이미지의 제작에 편리하게 응용될 수 있다.

대안으로, 방법은, 신경망 모델을 사용하여 실제 음성 데이터의 PPG에 대해 예측을 수행함으로써 실제 음성 데이터의 입 모양 특징을 얻는 단계; 및 실제 음성 데이터의 입 모양 특징에 근거하여 입 모양 특징 인덱스 데이터베이스를 구축하는 단계 - 여기서, 입 모양 특징 인덱스 데이터베이스는 가상 이미지의 입 모양 합성에 사용됨 - 를 더 포함한다.

여기서, 상술한 실제 음성 데이터 및 실제 음성 데이터의 입 모양 특징은 상술한 신경망 모델의 훈련 샘플일 수 있다. 물론, 이에 대해 한정하지 않는바, 예를 들면, 수집된 다른 실제 데이터일 수도 있다.

상술한 실제 음성 데이터의 입 모양 특징에 근거하여 입 모양 특징 인덱스 데이터베이스를 구축하는 단계는, 실제 음성 데이터의 입 모양 특징에 근거하여 입 모양 특징 인덱스 데이터베이스를 재구축하는 단계일 수 있다. 예를 들면, 상술한 입 모양 특징 인덱스 데이터베이스는 본래 실제 입 모양 특징을 포함하나, 당해 실시 방식에서는 상술한 예측된 실제 음성 데이터의 입 모양 특징으로 입 모양 특징 인덱스 데이터베이스 내의 실제 입 모양 특징을 치환한다.

상술한 입 모양 특징 인덱스 데이터베이스는 가상 이미지 합성에서 입 모양 특징을 취득하는 인덱스 데이터베이스일 수 있다.

본 출원에서, 음성 특징의 PPG를 인식하고; 신경망 모델을 사용하여 PPG에 대해 예측을 수행함으로써 음성 특징의 입 모양 특징을 예측하되, 여기서, 신경망 모델은 훈련 샘플을 사용하여 훈련하여 얻은, 입력이 PPG를 포함하고 출력이 입 모양 특징을 포함하는 신경망 모델이고, 훈련 샘플은 PPG 훈련 샘플과 입 모양 특징 훈련 샘플을 포함한다. 신경망 모델에 의해 음성 특징의 PPG에 대해 예측을 수행하므로 이는 당해 분야의 전문가에 의해 일련의 입 모양 매핑 규칙을 정의함으로써 입 모양 특징을 결정하는 데 비해, 입 모양 특징을 예측하는 정확성을 향상시킬 수 있다.

도2는 본 출원에 의해 제공되는 입 모양 특징 예측 장치의 구조도이다.

도2에 도시한 바와 같이, 입 모양 특징 예측 장치(200)는, 음성 특징의 PPG를 인식하는 인식 모듈(201); 및 신경망 모델을 사용하여 PPG에 대해 예측을 수행함으로써 음성 특징의 입 모양 특징을 예측하는 제1 예측 모듈(202) - 여기서, 신경망 모델은 훈련 샘플을 사용하여 훈련하여 얻은, 입력이 PPG를 포함하고 출력이 입 모양 특징을 포함하는 신경망 모델이고, 훈련 샘플은 PPG 훈련 샘플과 입 모양 특징 훈련 샘플을 포함함 - 을 포함한다.

대안으로, 신경망 모델은 멀티브랜치 네트워크 신경망 모델이고, 음성 특징의 입 모양 특징은 회귀 입 모양 포인트, 입 모양 썸네일, 블렌드 쉐입 계수 및 3차원 변형가능 모델(3DMM) 표정 계수 중의 적어도 2개를 포함한다.

도3은 본 출원에 의해 제공되는 다른 입 모양 특징 예측 장치의 구조도이다.

도3에 도시한 바와 같이, 장치는 신경망 모델을 사용하여 실제 음성 데이터의 PPG에 대해 예측을 수행함으로써 실제 음성 데이터의 입 모양 특징을 얻는 제2 예측 모듈(203); 및 실제 음성 데이터의 입 모양 특징에 근거하여 입 모양 특징 인덱스 데이터베이스를 구축하는 구축 모듈(204) - 여기서, 입 모양 특징 인덱스 데이터베이스는 가상 이미지의 입 모양 합성에 사용됨 - 을 더 포함한다.

본 실시예에 의해 제공되는 장치는 도1에 도시한 방법 실시예에서 구현되는 각 과정을 구현 가능하고 또한 같은 유익한 효과를 달성할 수 있는바, 중복을 회피하고자 상세한 설명은 생략하기로 한다.

본 출원의 실시예에 따르면, 본 출원은 전자 기기 및 판독가능 저장 매체를 더 제공한다.

도4는 본 출원의 실시예의 입 모양 특징 예측 방법을 구현하는 전자 기기의 블록도이다.

전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크벤치, 개인용 디지털 보조기, 서버, 블레이드 서버, 대형 컴퓨터 및 다른 적합한 컴퓨터와 같은 다양한 형식의 디지털 컴퓨터를 가리키고자 하는 것이다. 전자 기기는 또한, 개인용 디지털 보조기, 셀룰러 폰, 스마트폰, 웨어러블 기기 및 다른 이와 유사한 컴퓨팅 기기와 같은 다양한 형식의 이동 장치를 가리킬 수 있다. 본 명세서에서 제시하는 부품, 이들의 연결과 관계 및 이들의 기능은 단지 예시일 뿐, 본 명세서에서 서술한 및/또는 청구하는 본 출원의 구현을 한정하고자 하는 것이 아니다.

도4에 도시한 바와 같이, 당해 전자 기기는 하나 또는 복수의 프로세서(401), 메모리(402)를 포함하고, 각 부품을 연결하는 인터페이스는 고속 인터페이스와 저속 인터페이스를 포함한다. 각 부품은 서로 다른 버스를 이용하여 서로 연결되고 공통 메인보드에 장착되거나 또는 필요에 따라 다른 방식으로 장착될 수 있다. 프로세서는 전자 기기 내에서 실행되는 명령을 처리할 수 있는바, 메모리에 저장되어 외부 입력/출력 장치(인터페이스에 커플링된 표시 기기와 같은)에 GUI의 그래픽 정보를 표시하기 위한 명령이 포함된다. 다른 실시 방식에서, 필요하다면 복수의 프로세서 및/또는 복수의 버스를 복수의 메모리와 함께 사용할 수 있다. 마찬가지로, 복수의 전자 기기를 연결할 수 있고, 각 기기는 (예를 들어 서버 어레이, 한 그룹의 블레이드 서버 또는 멀티프로세서 시스템으로서) 일부 필요한 조작을 제공할 수 있다. 도4는 프로세서(401)를 예로 든다.

메모리(402)가 바로 본 출원에 의해 제공되는 비일시적 컴퓨터 판독가능 저장 매체이다. 상기 메모리에는 적어도 하나의 프로세서에 의해 실행될 수 있는 명령이 저장되어 있는바, 상기 적어도 하나의 프로세서에 의해 본 출원에 의해 제공되는 입 모양 특징 예측 방법이 수행되도록 한다. 본 출원의 비일시적 컴퓨터 판독가능 저장 매체는 컴퓨터 명령을 저장하고, 당해 컴퓨터 명령은 컴퓨터에 의해 본 출원에 의해 제공되는 입 모양 특징 예측 방법이 수행되도록 한다.

메모리(402)는 비일시적 컴퓨터 판독 가능 저장 매체로서, 본 출원의 실시예의 시계열 지식그래프 생성 방법에 대응되는 프로그램 명령/모듈 - 예를 들면, 첨부 도면3에 도시한 코퍼스 취득 모듈(301), 데이터 추출 모듈(302) 및 그래프 생성 모듈(303) - 과 같은 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행가능 프로그램 및 모듈을 저장할 수 있다. 프로세서(401)는 메모리(402)에 저장되는 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써 서버의 다양한 기능 응용 및 데이터 처리를 실행하는바, 즉 상술한 방법 실시예에서의 입 모양 특징 예측 방법을 구현한다.

메모리(402)는 프로그램 저장 영역과 데이터 저장 영역을 포함할 수 있는바, 여기서, 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 있어서 필요한 응용 프로그램을 저장할 수 있고, 데이터 저장 영역은 입 모양 특징 예측 방법의 전자 기기의 사용에 따라 생성되는 데이터 등을 저장할 수 있다. 이 외에도, 메모리(402)는 고속 랜덤 액세스 메모리를 포함할 수도 있고, 비일시적 메모리, 예를 들어 적어도 하나의 자기 디스크 저장 디바이스, 플래시 메모리 디바이스 또는 다른 비일시적 고체 상태 저장 디바이스를 더 포함할 수도 있다. 일부 실시에서, 메모리(402)는 대안적으로 프로세서(401) 대비 원격 설치되는 메모리를 포함하는바, 이러한 원격 메모리는 네트워크를 통해 입 모양 특징 예측 방법의 전자 기기에 연결된다. 상술한 네트워크의 실제 예는 인터넷, 기업 내부 네트워크, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하나 이에 한정되지 않는다.

입 모양 특징 예측 방법의 전자 기기는 입력 장치(403) 및 출력 장치(404)를 더 포함할 수 있다. 프로세서(401), 메모리(402), 입력 장치(403) 및 출력 장치(404)는 버스 또는 다른 방식으로 연결될 수 있고, 도4는 버스에 의한 연결을 예로 든다.

입력 장치(403)는 입력되는 숫자 또는 문자(character) 정보를 수신하고, 입 모양 특징 예측 방법의 전자 기기의 사용자 설정 및 기능 제어에 관련되는 키 신호 입력을 발생시킬 수 있는바, 예를 들면 터치 스크린, 숫자 키패드, 마우스, 트랙패드, 터치패드, 포인팅 스틱, 하나 또는 복수의 마우스 버튼, 트랙볼, 조종 스틱 등의 입력 장치가 있다. 출력 장치(404)는 표시 기기, 보조 조명장치(예를 들어 LED) 및 촉각 피드백 장치(예를 들어 진동 모터) 등을 포함할 수 있다. 당해 표시 기기는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 플라즈마 디스플레이를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시 방식에서 표시 기기는 터치 스크린일 수 있다.

여기서 서술하는 시스템과 기술의 다양한 실시 방식은 디지털 전자회로 시스템, 집적회로 시스템, 주문형ASIC(주문형 집적회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시 방식은 하나 또는 복수의 컴퓨터 프로그램에서 실시되는 것을 포함할 수 있고, 당해 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램가능 프로세서를 포함하는 프로그램가능 시스템에서 실행되거나 및/또는 해석될 수 있고, 당해 프로그램가능 프로세서는 전용의 또는 범용의 프로그램가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터와 명령을 수신하고 데이터와 명령을 당해 저장 시스템, 당해 적어도 하나의 입력 장치 및 당해 적어도 하나의 출력 장치로 전송할 수 있다.

이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드로 지칭되기도 함)은 프로그램가능 프로세서의 기계 명령을 포함하며, 고급 절차 프로그래밍 언어 및/또는 객체지향 프로그래밍 언어, 및/또는 어셈블리어/기계어를 이용하여 이러한 컴퓨팅 프로그램을 실시할 수 있다. 본 명세서에서 사용한 바와 같이, 용어 '기계 판독가능 매체'와 '컴퓨터 판독가능 매체'는 기계 명령 및/또는 데이터를 프로그램가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예를 들면 자기 디스크, 광 디스크, 메모리, 프로그램가능 논리 장치(PLD))를 가리키는바, 이는 기계 판독가능 신호로서의 기계 명령을 수신하는 기계 판독가능 매체를 포함한다. 용어 '기계 판독가능 신호'는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 가리킨다.

사용자와의 인터랙션을 제공하기 위해, 여기서 서술하는 시스템과 기술을 컴퓨터에서 실시할 수 있는바, 당해 컴퓨터는 사용자한테 정보를 표시하기 위한 표시 장치(예를 들면 음극선관(CRT) 또는 액정 디스플레이(LCD) 모니터) 및 키보드와 포인팅 장치(예를 들면 마우스 또는 트랙볼)를 구비하고, 사용자는 당해 키보드와 당해 포인팅 장치를 통해 입력을 컴퓨터에 제공할 수 있다. 다른 종류의 장치 또한 사용자와의 인터랙션을 제공하는 데 사용될 수 있는바, 예를 들면 사용자한테 제공되는 피드백은 임의 형식의 감각 피드백(예를 들어 시각 피드백, 청각 피드백 또는 촉각 피드백)일 수 있고, 임의 형식(소리 입력, 음성 입력 또는 촉각 입력을 포함함)으로 사용자로부터의 입력이 수신될 수 있다.

여기서 서술하는 시스템과 기술을 백스테이지 부품을 포함하는 컴퓨팅 시스템(예를 들면 데이터 서버로서), 미들웨어 부품을 포함하는 컴퓨팅 시스템(예를 들면 애플리케이션 서버), 프론트엔드 부품을 포함하는 컴퓨팅 시스템(예를 들면 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터가 있고, 사용자는 당해 그래픽 사용자 인터페이스 또는 당해 네트워크 브라우저를 통해 여기서 서술하는 시스템 및 기술의 실시 방식과 인터랙션할 수 있음), 또는 이러한 백그라운드 부품, 미들웨어 부품 또는 프런트 엔드 부품의 임의 조합을 포함하는 컴퓨팅 시스템에서 실시할 수 있다. 임의 형식 또는 매체의 디지털 데이터 통신(예를 들면 통신 네트워크)으로 시스템의 부품을 서로 연결시킬 수 있다. 통신 네트워크의 예시는 근거리 통신망(LAN), 광대역 통신망(WAN) 및 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있고, 통상적으로 통신 네트워크를 통해 인터랙션한다. 상응한 컴퓨터에서 실행되고 서로 클라이언트 - 서버 관계를 가지는 컴퓨터 프로그램에 의해 클라이언트와 서버의 관계가 발생한다.

본 출원의 실시예에 따른 기술 방안은, 음성 특징의 PPG를 인식하고; 신경망 모델을 사용하여 PPG에 대해 예측을 수행함으로써 음성 특징의 입 모양 특징을 예측하되, 여기서, 신경망 모델은 훈련 샘플을 사용하여 훈련하여 얻은, 입력이 PPG를 포함하고 출력이 입 모양 특징을 포함하는 신경망 모델이고, 훈련 샘플은 PPG 훈련 샘플과 입 모양 특징 훈련 샘플을 포함한다. 신경망 모델에 의해 음성 특징의 PPG에 대해 예측을 수행하므로 이는 당해 분야의 전문가에 의해 일련의 입 모양 매핑 규칙을 정의함으로써 입 모양 특징을 결정하는 데 비해, 입 모양 특징을 예측하는 정확성을 향상시킬 수 있다.

위에서 제시한 다양한 형식의 흐름을 적용하여 단계를 재정렬, 증가 또는 삭제할 수 있음을 이해하여야 한다. 예를 들면, 본 출원에 기재된 각 단계는 병렬로 수행될 수도 있고, 순차로 수행될 수도 있고, 서로 다른 순서로 실행될 수도 있는바, 본 출원에서 개시하는 기술 방안에 대한 기대 결과를 구현할 수만 있으면 되는 것으로, 본 명세서는 이에 대해 한정하지 않는다.

상술한 구체적인 실시 방식은 본 출원의 보호 범위를 한정하지 않는다. 당업자라면, 설계 요구 및 다른 요소에 따라 다양한 수정, 조합, 서브 조합 및 치환이 가능하다는 것을 알아야 할 것이다. 본 출원의 사상과 원칙 내에서 행하는 임의의 수정, 등가적 치환 및 개량 등은 모두 본 출원의 보호 범위에 포함되어야 한다.

Claims

입 모양 특징 예측 방법으로서,
음성 특징의 음성 포스테리어그램(Phonetic PosteriorGram; PPG)을 인식하는 단계; 및
신경망 모델을 사용하여 상기 PPG에 대해 예측을 수행함으로써 상기 음성 특징의 입 모양 특징을 예측하는 단계 - 상기 신경망 모델은 훈련 샘플을 사용하여 훈련하여 얻은, 입력이 PPG를 포함하고 출력이 상기 입 모양 특징을 포함하는 신경망 모델이고, 상기 훈련 샘플은 PPG 훈련 샘플과 입 모양 특징 훈련 샘플을 포함함 - 를 포함하는 것을 특징으로 하는 입 모양 특징 예측 방법.
제 1 항에 있어서,
상기 PPG 훈련 샘플은 목표 음성 특징의 PPG를 포함하고, 상기 목표 음성 특징은 동적 슬라이싱에 기반하여 얻어지는, 온전한 시맨틱을 가지는 음성 특징이고;
상기 입 모양 특징 훈련 샘플은 상기 목표 음성 특징의 PPG에 대응되는 입 모양 특징을 포함하는 것을 특징으로 하는 입 모양 특징 예측 방법.
제 2 항에 있어서,
상기 목표 음성 특징의 주파수는 상기 목표 음성 특징의 PPG에 대응되는 입 모양 특징의 주파수에 매칭되는 것을 특징으로 하는 입 모양 특징 예측 방법.
제 1 항에 있어서,
상기 신경망 모델은 자기회귀 메커니즘을 가지는 순환 신경망 모델(RNN 모델)이고,
상기 RNN 모델의 훈련 과정은, 현재 프레임의 바로 전 프레임의 입 모양 특징 훈련 샘플을 입력으로 하고 상기 현재 프레임의 PPG 훈련 샘플을 제약 조건으로 하고 상기 현재 프레임의 입 모양 특징 훈련 샘플을 목표로 하여 훈련하는 단계를 포함하는 것을 특징으로 하는 입 모양 특징 예측 방법.
제 1 항에 있어서,
상기 신경망 모델은 멀티브랜치 네트워크 신경망 모델이고,
상기 음성 특징의 입 모양 특징은 회귀 입 모양 포인트, 입 모양 썸네일, 블렌드 쉐입 계수 및 3차원 변형가능 모델(3DMM) 표정 계수 중의 적어도 2개를 포함하는 것을 특징으로 하는 입 모양 특징 예측 방법.
제 1 항에 있어서,
상기 신경망 모델을 사용하여 실제 음성 데이터의 PPG에 대해 예측을 수행함으로써 실제 음성 데이터의 입 모양 특징을 얻는 단계; 및
상기 실제 음성 데이터의 입 모양 특징에 근거하여 입 모양 특징 인덱스 데이터베이스를 구축하는 단계 - 상기 입 모양 특징 인덱스 데이터베이스는 가상 이미지의 입 모양 합성에 사용됨 - 를 더 포함하는 것을 특징으로 하는 입 모양 특징 예측 방법.
입 모양 특징 예측 장치로서,
음성 특징의 음성 포스테리어그램(Phonetic PosteriorGram; PPG)을 인식하는 인식 모듈; 및
신경망 모델을 사용하여 상기 PPG에 대해 예측을 수행함으로써 상기 음성 특징의 입 모양 특징을 예측하는 제1 예측 모듈 - 상기 신경망 모델은 훈련 샘플을 사용하여 훈련하여 얻은, 입력이 PPG를 포함하고 출력이 입 모양 특징을 포함하는 신경망 모델이고, 상기 훈련 샘플은 PPG 훈련 샘플과 입 모양 특징 훈련 샘플을 포함함 - 을 포함하는 것을 특징으로 하는 입 모양 특징 예측 장치.
제 7 항에 있어서,
상기 PPG 훈련 샘플은 목표 음성 특징의 PPG를 포함하고, 상기 목표 음성 특징은 동적 슬라이싱에 기반하여 얻어지는, 온전한 시맨틱을 가지는 음성 특징이고;
상기 입 모양 특징 훈련 샘플은 상기 목표 음성 특징의 PPG에 대응되는 입 모양 특징을 포함하는 것을 특징으로 하는 입 모양 특징 예측 장치.
제 7 항에 있어서,
상기 신경망 모델은 자기회귀 메커니즘을 가지는 순환 신경망 모델(RNN 모델)이고,
상기 RNN 모델의 훈련 과정은, 현재 프레임의 바로 전 프레임의 입 모양 특징 훈련 샘플을 입력으로 하고 상기 현재 프레임의 PPG 훈련 샘플을 제약 조건으로 하고 상기 현재 프레임의 입 모양 특징 훈련 샘플을 목표로 하여 훈련하는 것을 포함하는 것을 특징으로 하는 입 모양 특징 예측 장치.
제 7 항에 있어서,
상기 신경망 모델은 멀티브랜치 네트워크 신경망 모델이고,
상기 음성 특징의 입 모양 특징은 회귀 입 모양 포인트, 입 모양 썸네일, 블렌드 쉐입 계수 및 3차원 변형가능 모델(3DMM) 표정 계수 중의 적어도 2개를 포함하는 것을 특징으로 하는 입 모양 특징 예측 장치.
제 7 항에 있어서,
상기 신경망 모델을 사용하여 실제 음성 데이터의 PPG에 대해 예측을 수행함으로써 실제 음성 데이터의 입 모양 특징을 얻는 제2 예측 모듈; 및
상기 실제 음성 데이터의 입 모양 특징에 근거하여 입 모양 특징 인덱스 데이터베이스를 구축하는 구축 모듈 - 상기 입 모양 특징 인덱스 데이터베이스는 가상 이미지의 입 모양 합성에 사용됨 - 을 더 포함하는 것을 특징으로 하는 입 모양 특징 예측 장치.
전자 기기로서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서에 통신적으로 연결되는 메모리를 포함하고,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행될 수 있는 명령이 저장되어 있고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행됨으로써 상기 적어도 하나의 프로세서가 제 1 항 내지 제 6 항 중 어느 한 항의 방법을 수행 가능하도록 하는 것을 특징으로 하는 전자 기기.
컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독가능 저장 매체로서,
상기 컴퓨터 명령은 상기 컴퓨터에 의해 제 1 항 내지 제 6 항 중 어느 한 항의 방법이 수행되도록 하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체.
매체에 저장된 컴퓨터 프로그램으로서,
당해 프로그램이 프로세서에 의해 실행되는 경우, 제 1 항 내지 제 6 항 중 어느 한 항의 방법이 수행되는 것을 특징으로 하는 매체에 저장된 컴퓨터 프로그램.