WO2022048404A1 - 端到端的虚拟对象动画生成方法及装置、存储介质、终端 - Google Patents

端到端的虚拟对象动画生成方法及装置、存储介质、终端 Download PDF

Info

Publication number
WO2022048404A1
WO2022048404A1 PCT/CN2021/111423 CN2021111423W WO2022048404A1 WO 2022048404 A1 WO2022048404 A1 WO 2022048404A1 CN 2021111423 W CN2021111423 W CN 2021111423W WO 2022048404 A1 WO2022048404 A1 WO 2022048404A1
Authority
WO
WIPO (PCT)
Prior art keywords
virtual object
sequence
pronunciation
feature
linguistic
Prior art date
Application number
PCT/CN2021/111423
Other languages
English (en)
French (fr)
Inventor
王从艺
王斌
柴金祥
Original Assignee
魔珐(上海)信息科技有限公司
上海墨舞科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 魔珐(上海)信息科技有限公司, 上海墨舞科技有限公司 filed Critical 魔珐(上海)信息科技有限公司
Priority to US18/023,993 priority Critical patent/US11810233B2/en
Publication of WO2022048404A1 publication Critical patent/WO2022048404A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Definitions

  • performing feature analysis on the pronunciation unit sequence to obtain a corresponding linguistic feature sequence includes: performing feature analysis on each pronunciation unit in the pronunciation unit sequence to obtain the linguistic feature of each pronunciation unit. ; Based on the linguistic features of each pronunciation unit, a corresponding linguistic feature sequence is generated.
  • carrying out feature analysis to each pronunciation unit in the pronunciation unit sequence, and obtaining the linguistic feature of each pronunciation unit includes: for each pronunciation unit, analyzing the pronunciation feature of the pronunciation unit to obtain an independent linguistic feature of the pronunciation unit; the linguistic feature is generated based on the independent linguistic feature.
  • carrying out feature analysis to each pronunciation unit in the pronunciation unit sequence, and obtaining the linguistic feature of each pronunciation unit includes: for each pronunciation unit, analyzing the pronunciation feature of the pronunciation unit to obtain The independent linguistic feature of the pronunciation unit; analyze the pronunciation feature of the adjacent pronunciation unit of the pronunciation unit, obtain the adjacent linguistic feature of the pronunciation unit; generate the language based on the independent linguistic feature and the adjacent linguistic feature academic characteristics.
  • obtaining the adjacent linguistic features of the pronunciation units includes: count the types of the pronunciation features and the number of the same kind of pronunciation features that the adjacent pronunciation units have. , and obtain the adjacent linguistic features according to the statistical results.
  • the inputting the linguistic feature sequence into a preset time sequence mapping model to generate a corresponding virtual object animation based on the linguistic feature sequence includes: mapping the linguistic feature based on the preset time sequence mapping model.
  • the sequence performs multi-dimensional information extraction, wherein the multi-dimension includes a time dimension and a linguistic feature dimension; based on the preset time sequence mapping model, the multi-dimensional information extraction result is subjected to feature domain mapping and feature dimension transformation to obtain Expression parameters and/or action parameters of the virtual object, wherein the mapping of the feature domain refers to the mapping of the linguistic feature domain to the animation feature domain of the virtual object, and the animation feature domain of the virtual object includes the expression of the virtual object Features and/or Action Features.
  • the preset time sequence mapping model includes: a multi-layer convolutional network, used for receiving the linguistic feature sequence, and performing multi-dimensional information extraction on the linguistic feature sequence; a deep neural network, and the The multi-layer convolution network is coupled, and the deep neural network is used to receive the multi-dimensional information extraction results output by the multi-layer convolution network, and perform feature domain mapping and feature dimension transformation on the multi-dimensional information extraction results. , so as to obtain the expression parameters and/or action parameters of the virtual object.
  • the deep neural network includes: a multi-layer fully connected layer connected in series; a plurality of nonlinear transformation modules are respectively coupled between two adjacent fully connected layers except the last fully connected layer,
  • the nonlinear change module is configured to perform nonlinear transformation processing on the output result of the coupled upper fully connected layer, and input the result of the nonlinear transformation processing into the next fully connected layer of the coupling.
  • an embodiment of the present invention also provides an end-to-end virtual object animation generation device, including: a receiving module for receiving input information, where the input information includes text information or audio information of the virtual object animation to be generated Conversion module, for converting described input information into pronunciation unit sequence; Feature analysis module, for carrying out feature analysis to described pronunciation unit sequence, obtains corresponding linguistic feature sequence; Mapping module, for described language The linguistic feature sequence is input into a preset time sequence mapping model, so as to generate a corresponding virtual object animation based on the linguistic feature sequence.
  • the corresponding linguistic feature sequence in the original audio or text is extracted and used as the input information of the preset time series mapping model. Since linguistic features are only related to the semantic content of audio, they have nothing to do with features that vary from speaker to speaker, such as timbre, pitch, and F0 features of fundamental frequency. Therefore, the solution in this embodiment is not limited to a specific speaker, and the original audio with different audio characteristics can be applied to the preset time sequence mapping model described in this embodiment. That is to say, because the solution of this embodiment does not analyze the audio features in the audio information, but analyzes the linguistic features of the pronunciation units after converting the audio information into pronunciation units, so that the neural network model does not depend on specific audio features to drive the neural network model. It is possible to generate animation of virtual objects.
  • FIG. 1 is a flowchart of an end-to-end virtual object animation generation method according to an embodiment of the present invention
  • Fig. 2 is a flowchart of a specific implementation of step S103 in Fig. 1;
  • step S104 in FIG. 1 is a flowchart of a specific implementation of step S104 in FIG. 1;
  • FIG. 4 is a schematic structural diagram of an end-to-end virtual object animation generating apparatus according to an embodiment of the present invention.
  • an embodiment of the present invention provides an end-to-end virtual object animation generation method, including: receiving input information, the input information including text information or audio information of the virtual object animation to be generated; Converting into a sequence of pronunciation units; performing feature analysis on the sequence of pronunciation units to obtain a corresponding linguistic feature sequence; inputting the linguistic feature sequence into a preset time sequence mapping model to generate a corresponding virtual sequence based on the linguistic feature sequence Object animation.
  • the solution in this embodiment provides a more versatile end-to-end virtual object animation generation solution, which can be quickly and automatically generated. It can generate virtual object animation, especially 3D animation, and the input selection is more diverse.
  • the corresponding linguistic feature sequence in the original audio or text is extracted and used as the input information of the preset time series mapping model. Since linguistic features are only related to the semantic content of audio, they have nothing to do with features that vary from speaker to speaker, such as timbre, pitch, and F0 features of fundamental frequency. Therefore, the solution in this embodiment is not limited to a specific speaker, and the original audio with different audio characteristics can be applied to the preset time sequence mapping model described in this embodiment. That is to say, because the solution of this embodiment does not analyze the audio features in the audio information, but analyzes the linguistic features of the pronunciation units after converting the audio information into pronunciation units, so that the neural network model does not depend on specific audio features to drive the neural network model. It is possible to generate animation of virtual objects.
  • the end-to-end virtual object animation generation method provided by the solution in this embodiment can be applied to the end-to-end virtual object animation generation of any voice actor and any text, which solves the problem of the existing end-to-end automatic speech synthesis virtual object animation technology.
  • the problem of dependence on a specific voice actor really realizes the "universality" of the technology.
  • a preset time sequence mapping model is constructed based on deep learning technology training, and based on the preset time sequence mapping model, the input linguistic feature sequence is mapped to the expression parameters and/or action parameters of the corresponding virtual object.
  • the originally received input information may be text information or audio information, so that the solution of this embodiment can generate corresponding virtual object animations according to different input modalities.
  • FIG. 1 is a flowchart of an end-to-end virtual object animation generation method according to an embodiment of the present invention.
  • Arbitrary speaker can mean that there is no limit to the audio characteristics of the speaker.
  • the virtual object may include a virtual person, and may also include multiple types of virtual objects such as virtual animals and virtual plants.
  • Virtual objects can be three-dimensional or two-dimensional.
  • End-to-end can refer to the computer operation from the input end to the output end, and there is no human (such as animator) intervention between the input end and the output end.
  • the input terminal refers to the port for receiving original audio and original text
  • the output terminal refers to the port for generating and outputting virtual object animation.
  • the virtual object animation output by the output terminal may include a controller for generating the virtual object animation, and the specific expression is a sequence of digitized vectors.
  • the virtual object animation may include a lip animation
  • the controller of the lip animation output by the output terminal may include offset information of the lip feature points
  • the controller of the lip animation may be input into the rendering engine. The lips of the virtual object are driven to make corresponding actions.
  • the controller for generating a virtual object animation may be a sequence of virtual object animation data, and the data in the sequence is arranged according to the time sequence of the input information and synchronized with the audio data obtained based on the input information.
  • the facial expression movement and human posture movement of the virtual object can be driven by the virtual object animation data.
  • the final virtual object animation can be obtained through the rendering engine.
  • the virtual object animation data may include facial expression motion data and body motion data of the virtual object.
  • the facial expressions and actions include information such as expressions, eyes, and the like, and the body actions may include human body posture information of the virtual object.
  • the facial expression motion data is referred to as the expression parameter of the virtual object
  • the body motion data is referred to as the motion parameter of the virtual object.
  • the end-to-end virtual object animation generation method described in this embodiment may include the following steps:
  • Step S101 receiving input information, wherein the input information includes text information or audio information of the virtual object animation to be generated;
  • Step S103 performing feature analysis on the pronunciation unit sequence to obtain a corresponding linguistic feature sequence
  • Step S104 inputting the linguistic feature sequence into a preset time sequence mapping model to generate a corresponding virtual object animation based on the linguistic feature sequence.
  • the pronunciation unit sequence and the linguistic feature sequence are both time-aligned sequences.
  • the input information may be multimodal input, such as audio information expressed in the form of sound, or text information expressed in the form of text.
  • the input information may be received from a client that needs to generate an animation of a virtual object.
  • the input information may be audio information collected in real time based on a device such as a microphone, or text information input in real time based on a device such as a keyboard.
  • the input information may be pre-collected or recorded audio information or text information, and is transmitted to the computing device executing the solution of this embodiment in a wired or wireless form when a corresponding virtual object animation needs to be generated.
  • the input information can be divided into pronunciation unit sequences composed of the smallest pronunciation units, which are used as the data basis for the subsequent linguistic feature analysis.
  • the step S102 may include the steps of: converting the input information into a pronunciation unit and a corresponding time code; performing a time alignment operation on the pronunciation unit according to the time code to obtain the time aligned pronunciation unit sequence.
  • the time-aligned pronunciation unit sequence is simply referred to as a pronunciation unit sequence.
  • each group of data includes a single pronunciation unit and a corresponding time code.
  • the pronunciation units in the multiple sets of data can be aligned in time sequence, so as to obtain a time-aligned pronunciation unit sequence.
  • the audio information may be converted into text information, and then the text information may be processed to obtain the pronunciation unit and the corresponding time code.
  • the text information can be directly processed to obtain the pronunciation unit and the corresponding time code.
  • the basic pronunciation in the text information can be extracted based on the Front-End module and the Alignment module in the text-to-speech (Text-to-Speech, TTS for short) technology Units and their arrangement and duration information in the time dimension, so as to obtain the basic pronunciation unit sequence after time alignment.
  • the text-to-speech Text-to-Speech, TTS for short
  • the step S103 may include the following steps:
  • Step S1031 carries out feature analysis to each pronunciation unit in the described pronunciation unit sequence, obtains the linguistic feature of each pronunciation unit;
  • the independent linguistic features can be used to characterize the pronunciation characteristics of a single pronunciation unit itself.
  • the adjacent sounding units of the sounding unit may include a preset number of sounding units centered on the sounding unit and located before and after the sounding unit in time sequence.
  • the specific value of the preset number may be determined according to experiments, for example, according to the evaluation index during training of the preset time sequence mapping model.
  • the statistical features on the right side of the pronunciation unit are uniformly zeroed.
  • the independent linguistic features of the phonetic unit and the adjacent linguistic features are combined to obtain the complete linguistic feature of the phonetic unit.
  • the linguistic features of the pronunciation unit can be obtained by splicing the independent linguistic features and the adjacent linguistic features in the form of quantitative coding. That is, the linguistic feature of the pronunciation unit is a long array consisting of a series of quantified values.
  • Step S1042 performing feature domain mapping and feature dimension transformation on the multi-dimensional information extraction result based on the preset time sequence mapping model to obtain the expression parameters and/or action parameters of the virtual object;
  • the RNN network can process the input features from the time dimension, and in order to process the features in more dimensions to extract higher-dimensional feature information, thereby enhancing the generalization ability of the model, it can be based on convolution.
  • Neural network Convolutional Neural Network, CNN for short
  • its variants such as dilated convolution, causal convolution, etc.
  • feature mapping models such as preset time series mapping models usually involve feature domain transformation and feature dimension transformation.
  • this conversion function can be implemented based on a Fully Connected Network (FCN for short).
  • the preset time sequence mapping model may be a model that can use time sequence information (such as text information and audio information aligned with time synchronization) to predict other time sequence information (such as virtual object animation).
  • the training data of the preset time sequence mapping model may include text information, voice data synchronized with the text information, and virtual object animation data.
  • a professional recording engineer and actor can express corresponding voice data and action data (one-to-one correspondence between voice and action) according to rich and emotional text information.
  • the motion data includes facial expressions and body movements. Facial expressions and actions involve information such as expressions and eyes.
  • the data of the virtual object facial expression controller is obtained.
  • Body movements can be obtained by capturing high-quality posture information data of actors' performances through the performance capture platform, and body movement data and expression data have temporal correspondence.
  • the corresponding virtual object animation data can be obtained by mapping based on the digitized vector sequence (ie, the linguistic feature sequence).
  • the driving of body movements can also be implemented based on the controller.
  • the driving of the limb movements may also be bone-driven.
  • the preset time sequence mapping model may be a convolutional network-long short-term memory network-deep neural network (Convolutional LSTM Deep Neural Networks, CLDNN for short).
  • the structure of the preset timing mapping model may not be limited to this.
  • the preset timing mapping model may be any one of the above three networks, or any two of the above three networks. combination of species.
  • the preset time sequence mapping model may include: a multi-layer convolutional network, configured to receive the linguistic feature sequence and perform multi-dimensional information extraction on the linguistic feature sequence.
  • the multi-layered convolutional network may include a four-layered dilated convolutional network for performing multi-dimensional information extraction on the quantized linguistic feature sequence processed in step S103.
  • the linguistic feature sequence can be two-dimensional data. Assuming that each pronunciation unit is represented by a pronunciation feature with a length of 600 bits and there are 100 pronunciation units in total, the linguistic feature sequence input into the preset time sequence mapping model is 100. A two-dimensional array of ⁇ 600. The 100 dimension represents the time dimension, and the 600 dimension represents the linguistic feature dimension.
  • the multi-layer convolutional network performs feature operations in two dimensions, time and linguistic features.
  • the preset time sequence mapping model may further include: a long-short-term memory network for performing information aggregation processing on the information extraction results of the time dimension.
  • the long short-term memory network may include a two-layer stacked bidirectional LSTM network, coupled with the multi-layer convolutional network to obtain the temporal dimension of the linguistic feature sequence output by the multi-layer convolutional network. Information extraction results. Further, the two-layer stacked bidirectional LSTM network performs high-dimensional information processing on the information extraction result of the linguistic feature sequence in the time dimension, so as to further obtain feature information in the time dimension.
  • the preset time sequence mapping model may further include: a deep neural network, coupled with the multi-layer convolutional network and the long-short-term memory network, and the deep neural network is used for the multi-layer convolutional network and the long-short-term memory network.
  • the multi-dimensional information extraction result of the output of the time memory network is used to map the feature domain and transform the feature dimension, so as to obtain the expression parameter and/or action parameter of the virtual object.
  • the deep neural network can receive the information extraction result of the linguistic feature dimension output by the multi-layer convolutional network, and the deep neural network can also receive the updated information on the time dimension output by the long-short-term memory network Extract results.
  • the dimension transformation may refer to dimension reduction.
  • the input of the preset time series mapping model is 600 features, and the output is 100 features.
  • the deep neural network may include: multiple fully connected layers connected in series, wherein the first fully connected layer is used to receive the multi-dimensional information extraction results, and the last fully connected layer outputs the virtual object expression parameters and/or action parameters.
  • the number of the fully connected layers may be three.
  • the deep neural network may further include: a plurality of nonlinear transformation modules, respectively coupled between two adjacent fully connected layers except the last fully connected layer, the nonlinear transformation modules are used for The output result of the coupled upper fully connected layer is subjected to nonlinear transformation processing, and the result of the nonlinear transformation processing is input to the next coupled fully connected layer.
  • the nonlinear transformation module may be a Rectified linear unit (Rectified linear unit, ReLU for short) activation function.
  • the nonlinear transformation module can improve the expression ability and generalization ability of the preset time series mapping model.
  • the multi-layer convolutional network, the long-short-term memory network and the deep neural network can be connected in series in sequence, and the information extraction results of the linguistic feature dimension output by the multi-layer convolutional network are processed by the long-short-term memory network. It is transmitted to the deep neural network, and the information extraction result of the time dimension output by the multi-layer convolutional network is processed by the long-short-term memory network and then transmitted to the deep neural network.
  • the solution of this embodiment has the ability to receive different types of input information, thereby improving the scope of application and helping to further reduce the cost and efficiency related to animation production.
  • the traditional end-to-end virtual object animation synthesis technology mainly generates two-dimensional animation, while the solution of this embodiment can generate high-quality three-dimensional animation, and can also generate two-dimensional animation.
  • FIG. 4 is a schematic structural diagram of an end-to-end virtual object animation generating apparatus according to an embodiment of the present invention.
  • the end-to-end virtual object animation generation apparatus 4 in this embodiment may be used to implement the method and technical solutions described in the embodiments described in FIG. 1 to FIG. 3 .
  • the end-to-end virtual object animation generation device 4 in this embodiment may include: a receiving module 41, configured to receive input information, where the input information includes text information or audio information of the virtual object animation to be generated
  • the conversion module 42 is used to convert the input information into a sequence of pronunciation units;
  • the feature analysis module 43 is used to carry out feature analysis to the sequence of pronunciation units to obtain the corresponding linguistic feature sequence;
  • the mapping module 44 is used to convert the The linguistic feature sequence is input into a preset time sequence mapping model to generate a corresponding virtual object animation based on the linguistic feature sequence.
  • the end-to-end virtual object animation generation method described in this embodiment may be implemented based on an end-to-end virtual object animation generation system.
  • the end-to-end virtual object animation generation system may include: a collection module for collecting the input information; the end-to-end virtual object animation generation device 2 shown in FIG. 4, wherein the receiving module 41 and The acquisition module is coupled to receive the input information, and the end-to-end virtual object animation generation apparatus 2 executes the end-to-end virtual object animation generation methods shown in FIG. 1 to FIG. 3 to generate a corresponding virtual object animation.
  • the user can obtain the corresponding virtual object animation at the end of the end-to-end virtual object animation generation device 2 by providing input information at the end of the acquisition module.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

一种端到端的虚拟对象动画生成方法及装置、存储介质、终端,所述方法包括:接收输入信息,所述输入信息包括待生成虚拟对象动画的文本信息或音频信息(S101);将所述输入信息转换为发音单元序列(S102);对所述发音单元序列进行特征分析,得到对应的语言学特征序列(S103);将所述语言学特征序列输入预设时序映射模型,以基于所述语言学特征序列生成对应的虚拟对象动画(S104)。所述方法能够提供一种通用性更高的端到端虚拟对象动画生成方法,能够快速自动生成虚拟对象动画且输入选择性更为多样化。

Description

端到端的虚拟对象动画生成方法及装置、存储介质、终端
本申请要求2020年9月1日提交中国专利局、申请号为202010905550.3、发明名称为“端到端的虚拟对象动画生成方法及装置、存储介质、终端”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及虚拟数字对象技术领域,具体地涉及一种端到端的虚拟对象动画生成方法及装置、存储介质、终端。
背景技术
随着虚拟数字对象(可简称为虚拟对象)技术、动画产业等领域的飞速发展,市场对快速自动生成真实、逼真的虚拟形象的需求与日俱增。其中,如何生成与语音相匹配的逼真的虚拟数字对象动画是生成真实、逼真的虚拟形象的一个极其重要的环节。
传统的虚拟对象动画生成技术,主要依靠动画师和美术师对虚拟对象动画进行精细的人工制作。如人工根据输入端接收到的原始音频制作对应的虚拟对象动画,该过程需要较高的人力成本和时间成本,且无法实现端到端的虚拟对象动画自动生成。
近年来,随着计算机深度学习技术的飞速发展,出现了根据音频特征直接生成虚拟对象动画的端到端虚拟对象动画生成技术,极大地加快了高逼真度虚拟对象动画的制作过程。
然而,目前主流的此类端到端虚拟对象动画生成技术是对原始输入的音频信号在声波基础上进行分析进而生成相应的虚拟对象动画的。这种技术手段需要依赖特定的音频特征,只能适用于具有特定声音特征的配音演员,严重制约了该技术的通用性以及对制作成本的进一步降低。
此外,现有的端到端虚拟对象动画生成技术通常只能以音频作为唯一输入,无法通过输入原始文本的形式来直接驱动生成虚拟对象动画。这在一定程度上也限制了虚拟对象动画生成技术的输入选择性,影响用户的使用体验。
发明内容
本发明解决的技术问题是提高一种通用性更高的端到端虚拟对象动画生成方案。
为解决上述技术问题,本发明实施例提供一种端到端的虚拟对象动画生成方法,包括:接收输入信息,所述输入信息包括待生成虚拟对象动画的文本信息或音频信息;将所述输入信息转换为发音单元序列;对所述发音单元序列进行特征分析,得到对应的语言学特征序列;将所述语言学特征序列输入预设时序映射模型,以基于所述语言学特征序列生成对应的虚拟对象动画。
可选的,所述将所述输入信息转换为发音单元序列包括:将所述输入信息转换为发音单元及对应的时间码;根据所述时间码对所述发音单元进行时间对齐操作,以得到所述发音单元序列,其中,所述发音单元序列为时间对齐后的序列。
可选的,所述将所述输入信息转换为发音单元及对应的时间码包括:当所述输入信息为音频信息时,基于语音识别技术和预设发音字典将所述音频信息转换为发音单元及对应的时间码。
可选的,所述将所述输入信息转换为发音单元及对应的时间码包括:当所述输入信息为文本信息时,基于语音合成技术将所述文本信息转换为发音单元及对应的时间码。
可选的,所述将所述输入信息转换为发音单元序列包括:当所述输入信息为音频信息时,基于语音识别技术和预设发音字典将所述音频信息转换为发音单元及对应的时间码;根据所述时间码对所述发音单元进行时间对齐操作,以得到时间对齐后的发音单元序列。
可选的,所述将所述输入信息转换为发音单元序列包括:当所述输入信息为文本信息时,基于语音合成技术将所述文本信息转换为发音单元及对应的时间码;根据所述时间码对所述发音单元进行时间对齐操作,以得到时间对齐后的发音单元序列。
可选的,所述对所述发音单元序列进行特征分析,得到对应的语言学特征序列包括:对所述发音单元序列中的每个发音单元进行特征分析,得到每个发音单元的语言学特征;基于每个发音单元的语言学特征,生成对应的语言学特征序列。
可选的,所述对所述发音单元序列中的每个发音单元进行特征分析,得到每个发音单元的语言学特征包括:对于每个发音单元,分析所述发音单元的发音特征,以得到所述发音单元的独立语言学特征;基于所述独立语言学特征生成所述语言学特征。
可选的,所述对所述发音单元序列中的每个发音单元进行特征分析,得到每个发音单元的语言学特征包括:对于每个发音单元,分析所述发音单元的发音特征,以得到所述发音单元的独立语言学特征;分析所述发音单元的邻接发音单元的发音特征,得到所述发音单元的邻接语言学特征;基于所述独立语言学特征和邻接语言学特征生成所述语言学特征。
可选的,所述分析所述发音单元的邻接发音单元的发音特征,得到所述发音单元的邻接语言学特征包括:统计所述邻接发音单元所具有发音特征的种类以及同种发音特征的数量,并根据统计结果得到所述邻接语言学特征。
可选的,所述预设时序映射模型用于按时序将输入的语言学特征序列映射至虚拟对象的表情参数和/或动作参数,以生成对应的虚拟对象动画。
可选的,所述将所述语言学特征序列输入预设时序映射模型,以基于所述语言学特征序列生成对应的虚拟对象动画包括:基于所述预 设时序映射模型对所述语言学特征序列进行多维度的信息提取,其中,所述多维度包括时间维度和语言学特征维度;基于所述预设时序映射模型对多维度的信息提取结果进行特征域的映射和特征维度变换,以得到所述虚拟对象的表情参数和/或动作参数,其中,所述特征域的映射是指语言学特征域到虚拟对象动画特征域的映射,所述虚拟对象动画特征域包括所述虚拟对象的表情特征和/或动作特征。
可选的,所述预设时序映射模型包括:多层卷积网络,用于接收所述语言学特征序列,并对所述语言学特征序列进行多维度的信息提取;深度神经网络,与所述多层卷积网络耦接,所述深度神经网络用于接收所述多层卷积网络输出的多维度的信息提取结果,并对多维度的信息提取结果进行特征域的映射和特征维度变换,以得到所述虚拟对象的表情参数和/或动作参数。
可选的,所述深度神经网络包括:多层串联连接的全连接层;多个非线性变换模块,分别耦接于除最后一层全连接层外的相邻两层全连接层之间,所述非线性变化模块用于对耦接的上一层全连接层的输出结果进行非线性变换处理,并将非线性变换处理的结果输入耦接的下一层全连接层。
可选的,在基于所述预设时序映射模型对所述语言学特征序列进行多维度的信息提取之后,基于所述预设时序映射模型对多维度的信息提取结果进行特征域的映射和特征维度变换之前,所述虚拟对象动画生成方法还包括:基于所述预设时序映射模型对时间维度的信息提取结果进行信息聚合处理,并将处理结果更新为所述时间维度的信息提取结果。
可选的,所述预设时序映射模型包括:长短时记忆网络,用于对时间维度的信息提取结果进行信息聚合处理。
可选的,所述虚拟对象的表情参数包括:用于生成唇形动画的控制器。
可选的,所述发音单元序列和所述语言学特征序列均为时间对齐后的序列。
为解决上述技术问题,本发明实施例还提供一种端到端的虚拟对象动画生成装置,包括:接收模块,用于接收输入信息,所述输入信息包括待生成虚拟对象动画的文本信息或音频信息;转换模块,用于将所述输入信息转换为发音单元序列;特征分析模块,用于对所述发音单元序列进行特征分析,得到对应的语言学特征序列;映射模块,用于将所述语言学特征序列输入预设时序映射模型,以基于所述语言学特征序列生成对应的虚拟对象动画。
为解决上述技术问题,本发明实施例还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述方法的步骤。
为解决上述技术问题,本发明实施例还提供一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明实施例提供一种端到端的虚拟对象动画生成方法,包括:接收输入信息,所述输入信息包括待生成虚拟对象动画的文本信息或音频信息;将所述输入信息转换为发音单元序列;对所述发音单元序列进行特征分析,得到对应的语言学特征序列;将所述语言学特征序列输入预设时序映射模型,以基于所述语言学特征序列生成对应的虚拟对象动画。
较之现有必须依赖配音演员的特定音频特征来驱动端到端虚拟对象动画生成的技术方案,本实施例方案提供一种通用性更高的端到端虚拟对象动画生成方案,能够快速且自动地生成虚拟对象动画,特别是3D动画,且输入选择性更为多样化。
具体而言,提取原始音频或文本中对应的语言学特征序列,并以 此作为预设时序映射模型的输入信息。由于语言学特征只与音频的语义内容相关,与音色、音调、基频F0特征等因发音人而异的特征无关。因此本实施例方案不会受限于特定发音人,具有不同音频特征的原始音频均可适用于本实施例所述预设时序映射模型。也就是说,由于本实施例方案不是对音频信息中的音频特征进行分析,而是将音频信息转换为发音单元后对发音单元的语言学特征进行分析,使得不依赖特定音频特征驱动神经网络模型生成虚拟对象动画成为可能。由此,本实施例方案提供的端到端的虚拟对象动画生成方法能够适用于任何配音演员、任何文本的端到端虚拟对象动画生成,特别是3D动画,解决了现有端到端自动化语音合成虚拟对象动画技术中对特定配音演员的依赖问题,真正实现该项技术的“通用性”。
进一步,基于深度学习技术训练构建预设时序映射模型,进而基于预设时序映射模型将输入的语言学特征序列映射至对应的虚拟对象的表情参数和/或动作参数。在动画生成过程中无需动画师和美术师的参与,完全依赖计算机的自动计算,从而极大的降低了人力成本和时间成本,真正意义上地实现端到端的自动化虚拟对象动画合成技术。
进一步,原始接收的输入信息可以为文本信息也可以为音频信息,使得本实施例方案能够根据不同的输入模态生成相应的虚拟对象动画。
附图说明
图1是本发明实施例一种端到端的虚拟对象动画生成方法的流程图;
图2是图1中步骤S103的一个具体实施方式的流程图;
图3是图1中步骤S104的一个具体实施方式的流程图;
图4是本发明实施例一种端到端的虚拟对象动画生成装置的结构示意图。
具体实施方式
如背景技术所言,现有的端到端虚拟对象动画生成技术必须依赖于特定发音人驱动。
为解决上述技术问题,本发明实施例提供一种端到端的虚拟对象动画生成方法,包括:接收输入信息,所述输入信息包括待生成虚拟对象动画的文本信息或音频信息;将所述输入信息转换为发音单元序列;对所述发音单元序列进行特征分析,得到对应的语言学特征序列;将所述语言学特征序列输入预设时序映射模型,以基于所述语言学特征序列生成对应的虚拟对象动画。
较之现有必须依赖配音演员的特定音频特征来驱动端到端虚拟对象动画生成的技术方案,本实施例方案提供一种通用性更高的端到端虚拟对象动画生成方案,能够快速且自动地生成虚拟对象动画,特别是3D动画,且输入选择性更为多样化。
具体而言,提取原始音频或文本中对应的语言学特征序列,并以此作为预设时序映射模型的输入信息。由于语言学特征只与音频的语义内容相关,与音色、音调、基频F0特征等因发音人而异的特征无关。因此本实施例方案不会受限于特定发音人,具有不同音频特征的原始音频均可适用于本实施例所述预设时序映射模型。也就是说,由于本实施例方案不是对音频信息中的音频特征进行分析,而是将音频信息转换为发音单元后对发音单元的语言学特征进行分析,使得不依赖特定音频特征驱动神经网络模型生成虚拟对象动画成为可能。由此,本实施例方案提供的端到端的虚拟对象动画生成方法能够适用于任何配音演员、任何文本的端到端虚拟对象动画生成,解决了现有端到端自动化语音合成虚拟对象动画技术中对特定配音演员的依赖问题,真正实现该项技术的“通用性”。
进一步,基于深度学习技术训练构建预设时序映射模型,进而基于预设时序映射模型将输入的语言学特征序列映射至对应的虚拟对象的表情参数和/或动作参数。在动画生成过程中无需动画师和美术 师的参与,完全依赖计算机的自动计算,从而极大的降低了人力成本和时间成本,真正意义上地实现端到端的自动化虚拟对象动画合成技术。
进一步,原始接收的输入信息可以为文本信息也可以为音频信息,使得本实施例方案能够根据不同的输入模态生成相应的虚拟对象动画。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例一种端到端的虚拟对象动画生成方法的流程图。
本实施例方案可以应用于虚拟数字对象生成、动画制作等应用场景,如应用于多模态输入且任意发音人的端到端虚拟对象动画生成场景。
多模态输入可以包括语音输入和文本输入。
任意发音人可以指对发音人的音频特征没有限定。
虚拟对象可以包括虚拟人,也可以包括虚拟动物、虚拟植物等多类型的虚拟对象。虚拟对象可以是三维的也可以是二维的。
端到端可以指从输入端到输出端均由计算机操作实现,从输入端到输出端之间没有人力(如动画师)介入。其中,输入端是指接收原始音频、原始文本的端口,输出端是指生成并输出虚拟对象动画的端口。
所述输出端输出的虚拟对象动画可以包括用于生成虚拟对象动画的控制器,具体表现形式为数字化向量的序列。例如,所述虚拟对象动画可以包括唇形动画,所述输出端输出的唇形动画的控制器可以包括唇形特征点的偏移信息,将所述唇形动画的控制器输入渲染引擎即可驱动虚拟对象的唇形做出相应的动作。
也就是说,所述用于生成虚拟对象动画的控制器可以是一段虚拟对象动画数据的序列,该序列中的数据按输入信息的时序排列并与基于输入信息获取的音频数据同步。通过所述虚拟对象动画数据可以驱动虚拟对象的人脸表情运动与人体姿态运动。通过渲染引擎就可以获得最终的虚拟对象动画。
所述虚拟对象动画数据可以包括虚拟对象的人脸表情动作数据以及肢体动作数据。其中人脸表情动作包括表情、眼神等信息,肢体动作可以包括虚拟对象的人体姿态信息。本实施例将所述人脸表情动作数据称作虚拟对象的表情参数,将所述肢体动作数据称作虚拟对象的动作参数。
具体地,参考图1,本实施例所述端到端的虚拟对象动画生成方法可以包括如下步骤:
步骤S101,接收输入信息,其中,所述输入信息包括待生成虚拟对象动画的文本信息或音频信息;
步骤S102,将所述输入信息转换为发音单元序列;
步骤S103,对所述发音单元序列进行特征分析,得到对应的语言学特征序列;
步骤S104,将所述语言学特征序列输入预设时序映射模型,以基于所述语言学特征序列生成对应的虚拟对象动画。
更为具体地,所述语言学特征序列可以包括多个语言学特征,其中每一语言学特征至少包括对应的发音单元的发音特征。
进一步,所述预设时序映射模型可以用于基于深度学习按时序将输入的语言学特征序列映射至虚拟对象的表情参数和/或动作参数,以生成对应的虚拟对象动画。
进一步,所述发音单元序列和所述语言学特征序列均为时间对齐后的序列。
在一个具体实施中,所述输入信息可以为多模态输入,如以声音形式表现的音频信息,又如以文字形式表现的文本信息。所述输入信息可以接收自需要生成虚拟对象动画的用户端。
在一个具体实施中,所述输入信息可以是基于麦克风等设备实时采集得到的音频信息,或者基于键盘等设备实时输入的文本信息。
或者,所述输入信息可以是预先采集或录制完成的音频信息或文本信息,并在需要生成相应的虚拟对象动画时通过有线或无线形式传输至执行本实施例方案的计算设备。
在一个具体实施中,可以将输入信息划分成最小发音单元组成的发音单元序列,以作为后续进行语言学特征分析的数据基础。
具体地,所述步骤S102可以包括步骤:将所述输入信息转换为发音单元及对应的时间码;根据所述时间码对所述发音单元进行时间对齐操作,以得到所述时间对齐后的发音单元序列。为便于表述,本实施例将所述时间对齐后的发音单元序列简称为发音单元序列。
将单个发音单元和对应的时间码记作一组数据,通过执行所述步骤S102可以自输入信息中转换得到多组所述数据,其中每一组数据包含单个发音单元及对应的时间码。通过时间码可以将多组数据中的发音单元按时序对齐,以得到时间对齐后的发音单元序列。
当所述输入信息为音频信息时,可以将所述音频信息转换为文本信息后,再对所述文本信息进行处理以得到所述发音单元和对应的时间码。
当所述输入信息为文本信息时,可以直接对所述文本信息进行处理以得到所述发音单元和对应的时间码。
所述文本信息可以采用词语、文字、拼音、音素等文本表达形式。
当所述输入信息为音频信息时,可以基于自动语音识别(Automatic Speech Recognition,简称ASR)技术和预设发音字典将 所述音频信息转换为发音单元及对应的时间码。
当所述输入信息为文本信息时,可以基于文本到语音(Text-to-Speech,简称TTS)技术中的前端(Front-End)模块和对齐(Alignment)模块,提取出文本信息中的基本发音单元及其在时间维度上的排列和时长信息,从而得到时间对齐后的基本发音单元序列。
也就是说,在所述步骤S102中,当所述输入信息为音频信息时,可以基于语音识别技术和预设发音字典将所述音频信息转换为发音单元及对应的时间码,然后根据所述时间码对所述发音单元进行时间对齐操作,以得到时间对齐后的发音单元序列。
当所述输入信息为文本信息时,则可以基于语音合成技术将所述文本信息转换为发音单元及对应的时间码,然后根据所述时间码对所述发音单元进行时间对齐操作,以得到时间对齐后的发音单元序列。
以所述发音单元为音素为例,当输入信息为音频信息时,可基于语音识别技术以及事先拟定的发音字典,从原始音频中提取出相应的音素序列以及每个音素的时长信息。
又例如,当输入信息为文本信息时,可基于TTS技术中的前端(Front-End)模块和基于注意力机制的对齐(Attention-based Alignment)模块,得到原始文本未时间对齐的音素序列以及音素与输出音频梅尔谱的对齐矩阵。然后可基于动态规划算法求得每个时间片段所对应的音素,从而得到时间对齐后的音素序列。
在一个具体实施中,在得到时间对齐的发音单元序列后,为进一步提升预设时序映射模型的泛化能力,可以执行所述步骤S103以对步骤S102得到的基本发音单元序列进行语言学特征分析,从而得到时间对齐后的语言学特征序列(可简称为语言学特征序列)。
具体地,参考图2,所述步骤S103可以包括如下步骤:
步骤S1031,对所述发音单元序列中的每个发音单元进行特征分 析,得到每个发音单元的语言学特征;
步骤S1032,基于每个发音单元的语言学特征,生成对应的语言学特征序列。
更为具体地,所述语言学特征可以用于表征发音单元的发音特征。例如,所述发音特征包括但不限于所述发音单元为前鼻音还是后鼻音、所述发音单元为单元音还是双元音、所述发音单元为送气音还是非送气音、所述发音单元是否为摩擦音、所述发音单元是否为舌尖音等。
在一个具体实施中,所述发音单元的语言学特征可以包括对单个发音单元进行特征分析得到的独立语言学特征。
具体地,所述步骤S1031可以包括步骤:对于每个发音单元,分析所述发音单元的发音特征,以得到所述发音单元的独立语言学特征;基于所述发音单元的独立语言学特征生成所述发音单元的语言学特征。
更为具体地,所述独立语言学特征可以用于表征单个发音单元本身的发音特征。
以发音单元为音素为例,对于步骤S102得到的时间对齐后的音素序列中的每一音素,可以对每一音素进行特征分析从而得到所述音素的发音特征。
针对每一音素需要分析的发音特征可以包括{是否为鼻音;是否为前鼻音;是否为后鼻音;是否为单元音;是否为双元音;是否为送气音;是否为摩擦音;是否为清音;是否为浊音;是否为唇音;是否为舌尖音;是否为前舌尖音;是否为后舌尖音;是否为翘舌音;是否为平舌音;是否为包含A的元音;是否为包含E的元音;是否为包含I的元音;是否为包含O的元音;是否为包含U的元音;是否为包含V的元音;是否为塞音;是否为静音符;是否为声母;是否为韵母}。
对于每一音素均需判定上述所有问题,获得答案,以0代表“否”,以1代表“是”,从而以量化编码的形式生成各音素的独立语言学特征。
在一个具体实施中,考虑到协同发音以及生成动画的连贯性,单个发音单元在时序上前后邻接具有不同发音特征的发音单元可能影响当前发音单元对应的动画的动作特征,因此,所述步骤S1031可以包括步骤:对于每个发音单元,分析所述发音单元的发音特征,以得到所述发音单元的独立语言学特征;分析所述发音单元的邻接发音单元的发音特征,得到所述发音单元的邻接语言学特征;基于所述发音单元的独立语言学特征和邻接语言学特征生成所述发音单元的语言学特征。
具体而言,可以在一定的时间窗口范围内对每个发音单元的所有邻接发音单元进行分析,分析的维度包括但不限于当前发音单元的左侧窗口内有多少个元音或辅音、当前发音单元的右侧窗口内有多少个前鼻音或后鼻音等。
例如,统计所述邻接发音单元所具有发音特征的种类以及同种发音特征的数量,并根据统计结果得到所述邻接语言学特征。
进一步,可以将量化后的统计特征作为当前发音单元的邻接语言学特征。
进一步,所述发音单元的邻接发音单元可以包括:以所述发音单元为中心,在时序上位于所述发音单元前后的预设数量的发音单元。
所述预设数量的具体数值可以根据实验确定,如根据所述预设时序映射模型训练时的评价指标决定。
对于位于句子结束位置的发音单元,所述发音单元右侧的统计特征统一归零。
对于位于句子起始位置的发音单元,所述发音单元左侧的统计特征统一归零。
以发音单元为音素为例,对于步骤S102得到的时间对齐后的音素序列中的每一音素,可以以当前音素为中心,左右侧各取连续的20个音素,并统计所有音素的发音特征。
针对位于当前音素左右侧的各20个音素的发音特征的统计维度可以包括{中心发音单元左侧共有多少个元音;中心发音单元左侧共有多少个辅音;中心发音单元右侧共有多少个元音;中心发音单元右侧共有多少个辅音;中心发音单元左侧有多少个邻接元音;中心发音单元左侧有多少个邻接辅音;中心发音单元右侧有多少个邻接元音;中心发音单元右侧有多少个邻接辅音;中心发音单元左侧有多少个邻接前鼻音;中心发音单元左侧有多少个邻接后鼻音;中心发音单元右侧有多少个邻接前鼻音;中心发音单元右侧有多少个邻接后鼻音}。
基于上述统计维度,对每个音素的所有邻接音素进行分析,并将量化后的统计特征作为当前音素的邻接语言学特征。
进一步,对于每一发音单元,将所述发音单元的独立语言学特征和邻接语言学特征相组合,以得到所述发音单元的完整的语言学特征。
例如,可以将量化编码形式表示的独立语言学特征和邻接语言学特征前后拼接起来,得到所述发音单元的语言学特征。即,所述发音单元的语言学特征是由一系列量化数值组成的长数组。
在一个具体实施中,在所述步骤S1032中,将按照时序排列的各发音单元的语言学特征顺序拼接起来,可以得到量化的语言学特征序列。所述语言学特征序列是对所述输入信息的特征量化表达,且该表达方式不受特定发音人制约,无需特定的发音人驱动。
进一步,在得到所述量化的语言学特征序列后,可以执行步骤S104以将所述语言学特征序列输入已学习得到的预设时序映射模型中,得到对应的虚拟对象动画数据序列。
在一个具体实施中,参考图3,所述步骤S104可以包括如下步 骤:
步骤S1041,基于所述预设时序映射模型对所述语言学特征序列进行多维度的信息提取,其中,所述多维度包括时间维度和语言学特征维度;
步骤S1042,基于所述预设时序映射模型对多维度的信息提取结果进行特征域的映射和特征维度变换,以得到所述虚拟对象的表情参数和/或动作参数;
其中,所述特征域的映射是指语言学特征域到虚拟对象动画特征域的映射,所述虚拟对象动画特征域包括所述虚拟对象的表情特征和/或动作特征。
具体地,由于步骤S101中输入的音频信息或文本信息的长度并不固定,因此,可以基于循环神经网络(Recurrent Neural Network,简称RNN)及其变体(如长短时记忆网络(Long Short-Term Memory,简称LSTM)等)处理基于输入信息处理得到的变长序列信息(即所述语言学特征序列),从而从整体上提取特征信息。
进一步,所述RNN网络可从时间维度上对输入特征进行处理,而为了在更多维度上对特征进行处理从而提取出更高维度的特征信息,进而增强模型的泛化能力,可以基于卷积神经网络(Convolutional Neural Network,简称CNN)及其变体(如膨胀卷积、因果卷积等)对输入信息进行处理。
进一步,预设时序映射模型这类特征映射模型通常涉及到特征域转换以及特征维度变换。对此,可以基于全链接网络(Fully Connected Network,简称FCN)实现此转换功能。
进一步,在设计好所述预设时序映射模型后,可利用事先准备好的训练数据和机器学习技术对该模型进行训练,寻找该预设时序映射模型的最优参数,从而实现由语言学特征序列到虚拟对象动画序列的映射。
进一步,所述预设时序映射模型可以是一种能够利用时序信息(如与时间同步对齐的文本信息、音频信息),对其他时序信息(如虚拟对象动画)做预测的模型。
在一个具体实施中,所述预设时序映射模型的训练数据可以包括文本信息、与所述文本信息同步的语音数据以及虚拟对象动画数据。
具体可以是由专业录音师(兼演员)根据丰富且带有情感的文本信息,表现出与之对应的语音数据与动作数据(语音与动作一一对应)。其中动作数据包含了人脸表情动作与肢体动作。人脸表情动作涉及了表情、眼神等信息。
通过建立人脸表情动作与虚拟对象控制器的对应关系后,得到虚拟对象人脸表情控制器数据。肢体动作则可以通过表演捕捉平台捕获演员表演的高质量姿态信息数据获得,肢体动作数据与表情数据具有时间对应性。由此,可以基于数字化向量序列(即所述语言学特征序列)映射得到对应的虚拟对象动画数据。
与人脸表情动作的驱动逻辑相类似,对肢体动作的驱动也可以基于控制器实现。或者,对所述肢体动作的驱动也可以是骨骼驱动的。
在一个具体实施中,所述预设时序映射模型可以为卷积网络-长短时记忆网络-深度神经网络(Convolutional LSTM Deep Neural Networks,简称CLDNN)。
需要指出的是,虽然本具体实施是以上述三个网络构成的预设时序映射模型为例进行详细阐述的。但在实际应用中,所述预设时序映射模型的结构可以不限于此,如所述预设时序映射模型可以是上述三种网络中的任一种,还可以是上述三种网络中任两种的组合。
具体地,所述预设时序映射模型可以包括:多层卷积网络,用于接收所述语言学特征序列,并对所述语言学特征序列进行多维度的信息提取。
例如,所述多层卷积网络可以包括四层膨胀卷积网络,用于对步 骤S103处理得到的量化的语言学特征序列进行多维度的信息提取。所述语言学特征序列可以为二维数据,假设对于每一发音单元都由600位长度的发音特征表示且共有100个发音单元,则输入所述预设时序映射模型的语言学特征序列为100×600的二维数组。其中100这个维度代表时间维度,600这个维度代表语言学特征维度。相应的,所述多层卷积网络在时间和语言学特征两个维度上进行特征运算。
进一步,所述预设时序映射模型还可以包括:长短时记忆网络,用于对时间维度的信息提取结果进行信息聚合处理。由此,可以在时间维度上对经过多层卷积网络卷积处理后的特征从整体上进行连续性考虑。
例如,所述长短时记忆网络可以包括两层堆叠的双向LSTM网络,与所述多层卷积网络的耦接以获取所述多层卷积网络输出的对语言学特征序列在时间维度上的信息提取结果。进一步,所述两层堆叠的双向LSTM网络对语言学特征序列在时间维度上的信息提取结果进行高维度的信息加工,以进一步得到时间维度上的特征信息。
进一步,所述预设时序映射模型还可以包括:深度神经网络,与所述多层卷积网络和长短时记忆网络耦接,所述深度神经网络用于对所述多层卷积网络和长短时记忆网络的输出的多维度的信息提取结果进行特征域的映射和特征维度变换,以得到所述虚拟对象的表情参数和/或动作参数。
例如,所述深度神经网络可以接收所述多层卷积网络输出的语言学特征维度的信息提取结果,所述深度神经网络还可以接收所述长短时记忆网络输出的更新的时间维度上的信息提取结果。
所述维度变换可以指降维,如所述预设时序映射模型的输入为600个特征,输出则为100个特征。
例如,所述深度神经网络可以包括:多层串联连接的全连接层,其中,第一层全连接层用于接收所述多维度的信息提取结果,最后一 层全连接层输出所述虚拟对象的表情参数和/或动作参数。
所述全连接层的数量可以为三层。
进一步,所述深度神经网络还可以包括:多个非线性变换模块,分别耦接于除最后一层全连接层外的相邻两层全连接层之间,所述非线性变化模块用于对耦接的上一层全连接层的输出结果进行非线性变换处理,并将非线性变换处理的结果输入耦接的下一层全连接层。
所述非线性变换模块可以为修正线性单元(Rectified linear unit,简称ReLU)激活函数。
所述非线性变换模块可以提升所述预设时序映射模型的表达能力和泛化能力。
在一个变化例中,多层卷积网络、长短时记忆网络和深度神经网络可以是依次串联连接的,所述多层卷积网络输出的语言学特征维度的信息提取结果经过长短时记忆网络透传至所述深度神经网络,所述多层卷积网络输出的时间维度的信息提取结果经过长短时记忆网络处理后传输至所述深度神经网络。
由上,采用本实施例方案,以多模态输入(音频或文本)作为原始信息,首先,将其转换为不受发音人、音频特征等影响的语言学发音单元及其特征(即所述语言学特征),并且,在时间维度上所述语言学特征与音频是同步的;然后,将时间对齐后的语言学特征序列输入预先学习得到的预设时序映射模型中,得到与输入信息对应的虚拟对象动画。
采用本实施例方案,不依赖于特定的发音演员对模型进行驱动,彻底解决对特定发音演员的依赖,有利于降低动画制作过程中的人力成本。
进一步,本实施例方案能够输出高质量的虚拟对象动画,特别是3D动画,减轻了动画师和美术师对动画进行人工修整的人力成本和时间成本,有助于提高动画的制作效率。
进一步,本实施例方案具备接收不同类型输入信息的能力,从而提高了适用范围,有助于进一步降低动画制作的相关成本和效率。
进一步,传统的端到端虚拟对象动画合成技术所生成的主要是二维动画,而本实施例方案能够生成高质量的三维动画,同时也能够生成二维动画。
本实施例方案中所述“虚拟对象动画序列”是对量化后的动画数据或动画控制器的一种泛化表达,不局限于二维或三维动画,取决于前述预设时序映射模型在学习最优参数时,所使用的训练数据中“虚拟对象动画序列”的表现形式。在得到虚拟对象动画控制器后,可借助Maya、UE等软件将其转换为对应的视频动画。
图4是本发明实施例一种端到端的虚拟对象动画生成装置的结构示意图。本领域技术人员理解,本实施例所述端到端的虚拟对象动画生成装置4可以用于实施上述图1至图3所述实施例中所述的方法技术方案。
具体地,参考图4,本实施例所述端到端的虚拟对象动画生成装置4可以包括:接收模块41,用于接收输入信息,所述输入信息包括待生成虚拟对象动画的文本信息或音频信息;转换模块42,用于将所述输入信息转换为发音单元序列;特征分析模块43,用于对所述发音单元序列进行特征分析,得到对应的语言学特征序列;映射模块44,用于将所述语言学特征序列输入预设时序映射模型,以基于所述语言学特征序列生成对应的虚拟对象动画。
关于所述端到端的虚拟对象动画生成装置4的工作原理、工作方式的更多内容,可以参照上述图1至图3中的相关描述,这里不再赘述。
在一个典型的应用场景中,本实施例所述端到端的虚拟对象动画生成方法可以基于端到端的虚拟对象动画生成系统实现。
具体而言,所述端到端的虚拟对象动画生成系统可以包括:采集 模块,用于采集得到所述输入信息;上述图4所示端到端的虚拟对象动画生成装置2,其中的接收模块41与所述采集模块耦接以接收所述输入信息,所述端到端的虚拟对象动画生成装置2执行上述图1至图3所示端到端的虚拟对象动画生成方法以生成对应的虚拟对象动画。
进一步,采集模块可以是键盘等文字输入设备,用于采集所述文本信息。所述采集模块还可以是录音设备,用于采集所述音频信息。
进一步,所述端到端的虚拟对象动画生成装置2可以集成于终端、服务器等计算设备。例如,端到端的虚拟对象动画生成装置2可以集中地集成于同一服务器内。或者,端到端的虚拟对象动画生成装置2可以分散的集成于多个终端或服务器内并相互耦接。例如,所述预设时序映射模型可以单独设置于一终端或服务器上,以确保较优的数据处理速度。
基于本实施例所述端到端的虚拟对象动画生成系统,用户在采集模块这端提供输入信息,即可在端到端的虚拟对象动画生成装置2这端获得对应的虚拟对象动画。
进一步地,本发明实施例还公开一种存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述图1至图3所示实施例中所述的方法技术方案。优选地,所述存储介质可以包括诸如非挥发性(non-volatile)存储器或者非瞬态(non-transitory)存储器等计算机可读存储介质。所述存储介质可以包括ROM、RAM、磁盘或光盘等。
进一步地,本发明实施例还公开一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述图1至图3所示实施例中所述的方法技术方案。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术 人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (19)

  1. 一种端到端的虚拟对象动画生成方法,其特征在于,包括:
    接收输入信息,所述输入信息包括待生成虚拟对象动画的文本信息或音频信息;
    将所述输入信息转换为发音单元序列;
    对所述发音单元序列进行特征分析,得到对应的语言学特征序列;
    将所述语言学特征序列输入预设时序映射模型,以基于所述语言学特征序列生成对应的虚拟对象动画。
  2. 根据权利要求1所述的虚拟对象动画生成方法,其特征在于,所述将所述输入信息转换为发音单元序列包括:
    将所述输入信息转换为发音单元及对应的时间码;
    根据所述时间码对所述发音单元进行时间对齐操作,以得到所述发音单元序列,其中,所述发音单元序列为时间对齐后的序列。
  3. 根据权利要求2所述的虚拟对象动画生成方法,其特征在于,所述将所述输入信息转换为发音单元及对应的时间码包括:
    当所述输入信息为音频信息时,基于语音识别技术和预设发音字典将所述音频信息转换为发音单元及对应的时间码。
  4. 根据权利要求2所述的虚拟对象动画生成方法,其特征在于,所述将所述输入信息转换为发音单元及对应的时间码包括:
    当所述输入信息为文本信息时,基于语音合成技术将所述文本信息转换为发音单元及对应的时间码。
  5. 根据权利要求1所述的虚拟对象动画生成方法,其特征在于,所述对所述发音单元序列进行特征分析,得到对应的语言学特征序列包括:
    对所述发音单元序列中的每个发音单元进行特征分析,得到每个发音单元的语言学特征;
    基于每个发音单元的语言学特征,生成对应的语言学特征序列。
  6. 根据权利要求5所述的虚拟对象动画生成方法,其特征在于,所述对所述发音单元序列中的每个发音单元进行特征分析,得到每个发音单元的语言学特征包括:
    对于每个发音单元,分析所述发音单元的发音特征,以得到所述发音单元的独立语言学特征;
    基于所述独立语言学特征生成所述语言学特征。
  7. 根据权利要求5所述的虚拟对象动画生成方法,其特征在于,所述对所述发音单元序列中的每个发音单元进行特征分析,得到每个发音单元的语言学特征包括:
    对于每个发音单元,分析所述发音单元的发音特征,以得到所述发音单元的独立语言学特征;
    分析所述发音单元的邻接发音单元的发音特征,得到所述发音单元的邻接语言学特征;
    基于所述独立语言学特征和邻接语言学特征生成所述语言学特征。
  8. 根据权利要求7所述的虚拟对象动画生成方法,其特征在于,所述分析所述发音单元的邻接发音单元的发音特征,得到所述发音单元的邻接语言学特征包括:
    统计所述邻接发音单元所具有发音特征的种类以及同种发音特征的数量,并根据统计结果得到所述邻接语言学特征。
  9. 根据权利要求1所述的虚拟对象动画生成方法,其特征在于,所述预设时序映射模型用于按时序将输入的语言学特征序列映射至 虚拟对象的表情参数和/或动作参数,以生成对应的虚拟对象动画。
  10. 根据权利要求9所述的虚拟对象动画生成方法,其特征在于,所述将所述语言学特征序列输入预设时序映射模型,以基于所述语言学特征序列生成对应的虚拟对象动画包括:
    基于所述预设时序映射模型对所述语言学特征序列进行多维度的信息提取,其中,所述多维度包括时间维度和语言学特征维度;
    基于所述预设时序映射模型对多维度的信息提取结果进行特征域的映射和特征维度变换,以得到所述虚拟对象的表情参数和/或动作参数,其中,所述特征域的映射是指语言学特征域到虚拟对象动画特征域的映射,所述虚拟对象动画特征域包括所述虚拟对象的表情特征和/或动作特征。
  11. 根据权利要求10所述的虚拟对象动画生成方法,其特征在于,所述预设时序映射模型包括:
    多层卷积网络,用于接收所述语言学特征序列,并对所述语言学特征序列进行多维度的信息提取;
    深度神经网络,与所述多层卷积网络耦接,所述深度神经网络用于接收所述多层卷积网络输出的多维度的信息提取结果,并对多维度的信息提取结果进行特征域的映射和特征维度变换,以得到所述虚拟对象的表情参数和/或动作参数。
  12. 根据权利要求11所述的虚拟对象动画生成方法,其特征在于,所述深度神经网络包括:
    多层串联连接的全连接层;
    多个非线性变换模块,分别耦接于除最后一层全连接层外的相邻两层全连接层之间,所述非线性变化模块用于对耦接的上一层全连接层的输出结果进行非线性变换处理,并将非线性变换处理的结果输入耦接的下一层全连接层。
  13. 根据权利要求10所述的虚拟对象动画生成方法,其特征在于,在基于所述预设时序映射模型对所述语言学特征序列进行多维度的信息提取之后,基于所述预设时序映射模型对多维度的信息提取结果进行特征域的映射和特征维度变换之前,还包括:
    基于所述预设时序映射模型对时间维度的信息提取结果进行信息聚合处理,并将处理结果更新为所述时间维度的信息提取结果。
  14. 根据权利要求13所述的虚拟对象动画生成方法,其特征在于,所述预设时序映射模型包括:
    长短时记忆网络,用于对时间维度的信息提取结果进行信息聚合处理。
  15. 根据权利要求9所述的虚拟对象动画生成方法,其特征在于,所述虚拟对象的表情参数包括:用于生成唇形动画的控制器。
  16. 根据权利要求1至15中任一项所述的虚拟对象动画生成方法,其特征在于,所述发音单元序列和所述语言学特征序列均为时间对齐后的序列。
  17. 一种端到端的虚拟对象动画生成装置,其特征在于,包括:
    接收模块,用于接收输入信息,所述输入信息包括待生成虚拟对象动画的文本信息或音频信息;
    转换模块,用于将所述输入信息转换为发音单元序列;
    特征分析模块,用于对所述发音单元序列进行特征分析,得到对应的语言学特征序列;
    映射模块,用于将所述语言学特征序列输入预设时序映射模型,以基于所述语言学特征序列生成对应的虚拟对象动画。
  18. 一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1至16中任一项所述方法的 步骤。
  19. 一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行权利要求1至16中任一项所述方法的步骤。
PCT/CN2021/111423 2020-09-01 2021-08-09 端到端的虚拟对象动画生成方法及装置、存储介质、终端 WO2022048404A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/023,993 US11810233B2 (en) 2020-09-01 2021-08-09 End-to-end virtual object animation generation method and apparatus, storage medium, and terminal

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010905550.3A CN112184859B (zh) 2020-09-01 2020-09-01 端到端的虚拟对象动画生成方法及装置、存储介质、终端
CN202010905550.3 2020-09-01

Publications (1)

Publication Number Publication Date
WO2022048404A1 true WO2022048404A1 (zh) 2022-03-10

Family

ID=73925584

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/111423 WO2022048404A1 (zh) 2020-09-01 2021-08-09 端到端的虚拟对象动画生成方法及装置、存储介质、终端

Country Status (3)

Country Link
US (1) US11810233B2 (zh)
CN (1) CN112184859B (zh)
WO (1) WO2022048404A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019226964A1 (en) * 2018-05-24 2019-11-28 Warner Bros. Entertainment Inc. Matching mouth shape and movement in digital video to alternative audio
CN112184858B (zh) 2020-09-01 2021-12-07 魔珐(上海)信息科技有限公司 基于文本的虚拟对象动画生成方法及装置、存储介质、终端
CN112184859B (zh) 2020-09-01 2023-10-03 魔珐(上海)信息科技有限公司 端到端的虚拟对象动画生成方法及装置、存储介质、终端
CN117541321B (zh) * 2024-01-08 2024-04-12 北京烽火万家科技有限公司 一种基于虚拟数字人的广告制作发布方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361620A (zh) * 2014-11-27 2015-02-18 韩慧健 一种基于综合加权算法的口型动画合成方法
CN106653052A (zh) * 2016-12-29 2017-05-10 Tcl集团股份有限公司 虚拟人脸动画的生成方法及装置
CN108447474A (zh) * 2018-03-12 2018-08-24 北京灵伴未来科技有限公司 一种虚拟人物语音与口型同步的建模与控制方法
CN109377540A (zh) * 2018-09-30 2019-02-22 网易(杭州)网络有限公司 面部动画的合成方法、装置、存储介质、处理器及终端
US20190130628A1 (en) * 2017-10-26 2019-05-02 Snap Inc. Joint audio-video facial animation system
CN111145322A (zh) * 2019-12-26 2020-05-12 上海浦东发展银行股份有限公司 用于驱动虚拟形象的方法、设备和计算机可读存储介质
CN112184859A (zh) * 2020-09-01 2021-01-05 魔珐(上海)信息科技有限公司 端到端的虚拟对象动画生成方法及装置、存储介质、终端

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107564511B (zh) * 2017-09-25 2018-09-11 平安科技(深圳)有限公司 电子装置、语音合成方法和计算机可读存储介质
CN110379430B (zh) * 2019-07-26 2023-09-22 腾讯科技(深圳)有限公司 基于语音的动画显示方法、装置、计算机设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361620A (zh) * 2014-11-27 2015-02-18 韩慧健 一种基于综合加权算法的口型动画合成方法
CN106653052A (zh) * 2016-12-29 2017-05-10 Tcl集团股份有限公司 虚拟人脸动画的生成方法及装置
US20190130628A1 (en) * 2017-10-26 2019-05-02 Snap Inc. Joint audio-video facial animation system
CN108447474A (zh) * 2018-03-12 2018-08-24 北京灵伴未来科技有限公司 一种虚拟人物语音与口型同步的建模与控制方法
CN109377540A (zh) * 2018-09-30 2019-02-22 网易(杭州)网络有限公司 面部动画的合成方法、装置、存储介质、处理器及终端
CN111145322A (zh) * 2019-12-26 2020-05-12 上海浦东发展银行股份有限公司 用于驱动虚拟形象的方法、设备和计算机可读存储介质
CN112184859A (zh) * 2020-09-01 2021-01-05 魔珐(上海)信息科技有限公司 端到端的虚拟对象动画生成方法及装置、存储介质、终端

Also Published As

Publication number Publication date
US11810233B2 (en) 2023-11-07
US20230267665A1 (en) 2023-08-24
CN112184859B (zh) 2023-10-03
CN112184859A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
WO2022048405A1 (zh) 基于文本的虚拟对象动画生成方法及装置、存储介质、终端
WO2022048404A1 (zh) 端到端的虚拟对象动画生成方法及装置、存储介质、终端
CN110223705B (zh) 语音转换方法、装置、设备及可读存储介质
Vougioukas et al. Video-driven speech reconstruction using generative adversarial networks
CN110992987A (zh) 语音信号中针对通用特定语音的并联特征提取系统及方法
CN113408385A (zh) 一种音视频多模态情感分类方法及系统
CN104867489B (zh) 一种模拟真人朗读发音的方法及系统
WO2022116432A1 (zh) 多风格音频合成方法、装置、设备及存储介质
Padi et al. Improved speech emotion recognition using transfer learning and spectrogram augmentation
Bozkurt et al. Multimodal analysis of speech and arm motion for prosody-driven synthesis of beat gestures
CN116863038A (zh) 一种文本生成数字人语音及面部动画的方法
Sager et al. Vesus: A crowd-annotated database to study emotion production and perception in spoken english.
AlBadawy et al. Voice Conversion Using Speech-to-Speech Neuro-Style Transfer.
CN117251057A (zh) 一种基于aigc构建ai数智人的方法及系统
Zhao et al. Research on voice cloning with a few samples
Gasparini et al. Sentiment recognition of Italian elderly through domain adaptation on cross-corpus speech dataset
CN116309975A (zh) 数字人驱动方法、装置、存储介质及计算机设备
CN112700520B (zh) 基于共振峰的口型表情动画生成方法、装置及存储介质
Preciado-Grijalva et al. Speaker fluency level classification using machine learning techniques
Liu et al. Speech-Gesture GAN: Gesture Generation for Robots and Embodied Agents
Ghosh et al. Automatic speech-gesture mapping and engagement evaluation in human robot interaction
TWI712032B (zh) 語音轉換虛擬臉部影像的方法
CN116524961A (zh) 基于音频识别驱动数字人面部表情的方法、装置和设备
Zhao et al. Emo-BERT: A Multi-Modal Teacher Speech Emotion Recognition Method
Qu et al. Improving Speech Emotion Recognition with Unsupervised Speaking Style Transfer

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21863471

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21863471

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 05.09.2023)

122 Ep: pct application non-entry in european phase

Ref document number: 21863471

Country of ref document: EP

Kind code of ref document: A1