WO2022227208A1 - 模型训练方法、动作姿态生成方法、装置、设备及介质 - Google Patents

模型训练方法、动作姿态生成方法、装置、设备及介质 Download PDF

Info

Publication number
WO2022227208A1
WO2022227208A1 PCT/CN2021/097207 CN2021097207W WO2022227208A1 WO 2022227208 A1 WO2022227208 A1 WO 2022227208A1 CN 2021097207 W CN2021097207 W CN 2021097207W WO 2022227208 A1 WO2022227208 A1 WO 2022227208A1
Authority
WO
WIPO (PCT)
Prior art keywords
vector
action
feature
fusion
posture
Prior art date
Application number
PCT/CN2021/097207
Other languages
English (en)
French (fr)
Inventor
亢祖衡
彭俊清
王健宗
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2022227208A1 publication Critical patent/WO2022227208A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Definitions

  • the present application relates to the technical field of machine learning in artificial intelligence, and in particular, to a model training method, an action pose generation method, an apparatus, a device and a medium.
  • the embodiments of the present application provide a model training method, an action pose generation method, an apparatus, a device and a medium, which aim to solve the problems of high cost and poor effect of the existing body action pose generation.
  • an embodiment of the present application provides a model training method, which includes: acquiring a training data set required for training an action pose generation model, and performing feature extraction and first feature extraction on the training data in the training data set Fusion to generate a fusion feature vector; extract the gesture action vector within the preset time period in the training data as the gesture autoregressive vector, and perform a second feature fusion on the gesture autoregressive vector and the fusion feature vector to generate Control input vector; extract the gesture action vector at a preset time in the training data as a gesture input vector, and input the gesture input vector and the control input vector into a flow model to obtain an output vector, wherein the predetermined Set the time as the next time of the end time in the preset time period; train the flow model based on the output vector to obtain the action pose generation model.
  • an embodiment of the present application provides a method for generating an action gesture, which includes: acquiring voice information corresponding to an action gesture generated by a robot, and performing feature extraction and first feature fusion on the voice information to generate multiple The fusion feature vector aligned frame by frame; the second feature fusion is performed on each of the fusion feature vector and the robot initial posture autoregressive vector to generate a control input vector, wherein the robot initial posture autoregressive vector is from a preset initial The pose and action vector of the robot within a preset time period extracted from the pose action vector set; randomly generate a potential input vector with a Gaussian distribution and input the potential input vector and the control input vector as in any one of claims 1-4
  • the action posture generation model is to generate the robot posture action vector of the current time; update the robot posture action vector corresponding to the current time in the preset initial posture action vector set, and use the next time as the current time, return Perform the second feature fusion of each of the fused feature vectors and the autoregressive vector of the robot's
  • an embodiment of the present application further provides a model training device, which includes: a first feature fusion unit, configured to obtain a training data set required for training an action pose generation model, and perform training on the training data set in the training data set.
  • the data is subjected to feature extraction and the first feature fusion to generate a fusion feature vector;
  • the second feature fusion unit is used to extract the posture action vector within the preset time period in the training data as a posture autoregressive vector, and analyze the posture
  • the autoregressive vector and the fusion feature vector are subjected to a second feature fusion to generate a control input vector;
  • an input unit is used to extract the gesture action vector at a preset moment in the training data as a gesture input vector, and use the
  • the attitude input vector and the control input vector are input into a flow model to obtain an output vector, wherein the preset time is the next time of the end time in the preset time period;
  • a training unit is used for pairing based on the output vector
  • the flow model
  • an embodiment of the present application further provides an action pose generation device, which includes: a first feature extraction and fusion unit, configured to acquire voice information corresponding to the action pose generated by the robot, and perform feature extraction on the voice information and the first feature fusion to generate multiple frame-by-frame aligned fusion feature vectors; the second feature extraction and fusion unit is used to perform the second feature fusion on each of the fusion feature vectors and the robot's initial posture autoregressive vector to generate Control input vector, wherein, the robot initial posture autoregressive vector is the robot posture action vector within a preset time period extracted from the preset initial posture action vector set; the first generating unit is used to randomly generate a Gaussian distribution The potential input vector and the potential input vector and the control input vector are input into the action pose generation model as claimed in claim 7 to generate the robot pose action vector at the current time; the update return unit is used to update the preset initial The posture action vector sets the robot posture action vector corresponding to the current time, and takes the next time as the current time, and
  • an embodiment of the present application further provides a computer device, which includes a memory and a processor, the memory stores a computer program, and the processor implements the first aspect when executing the computer program. Model training method.
  • an embodiment of the present application further provides a computer device, which includes a memory and a processor, the memory stores a computer program, and the processor implements the second aspect when executing the computer program. Action pose generation method.
  • an embodiment of the present application further provides a computer-readable storage medium, where the storage medium stores a computer program, and the computer program, when executed by a processor, can implement the model training method described in the first aspect above .
  • an embodiment of the present application further provides a computer-readable storage medium, where the storage medium stores a computer program, and the computer program, when executed by a processor, can implement the action gesture generation described in the second aspect above method.
  • Embodiments of the present application provide a method, device, computer device, and storage medium for model training and action pose generation.
  • the voice information is directly processed and then input into the trained action pose generation model to generate the pose action vector.
  • the cost of action pose generation can be saved and the effect of action pose generation can be improved.
  • FIG. 1 is a schematic flowchart of a model training method provided by an embodiment of the present application
  • FIG. 2 is a schematic sub-flow diagram of a model training method provided by an embodiment of the present application.
  • FIG. 3 is a schematic sub-flow diagram of a model training method provided by an embodiment of the present application.
  • FIG. 4 is a schematic flowchart of a method for generating an action gesture provided by an embodiment of the present application
  • FIG. 5 is a schematic block diagram of a model training apparatus provided by an embodiment of the present application.
  • FIG. 6 is a schematic block diagram of a first feature extraction and fusion unit of a model training apparatus provided by an embodiment of the present application
  • FIG. 7 is a schematic block diagram of a first feature extraction unit of a model training apparatus provided by an embodiment of the present application.
  • FIG. 8 is a schematic block diagram of a training unit of a model training apparatus provided by an embodiment of the present application.
  • FIG. 9 is a schematic block diagram of an action gesture generating apparatus according to an embodiment of the present application.
  • FIG. 10 is a schematic block diagram of a second generating unit of an action gesture generating apparatus according to an embodiment of the application.
  • FIG. 11 is a schematic block diagram of a computer device according to an embodiment of the present application.
  • the term “if” may be contextually interpreted as “when” or “once” or “in response to determining” or “in response to detecting” .
  • the phrases “if it is determined” or “if the [described condition or event] is detected” may be interpreted, depending on the context, to mean “once it is determined” or “in response to the determination” or “once the [described condition or event] is detected. ]” or “in response to detection of the [described condition or event]”.
  • FIG. 1 is a schematic flowchart of a model training method provided by an embodiment of the present application.
  • the model training method in the embodiment of the present application may be applied to a server, for example, the model training method may be implemented by a software program configured on the server.
  • the model training method is described in detail below. As shown in FIG. 1, the method includes the following steps S100-S130.
  • the training data set is an open source Trinity data set or a Ted data set. Both voice data and text data are included in the dataset or Ted dataset; after obtaining the open source Trinity dataset or Ted dataset, convert the open source Trinity dataset or Ted dataset into a plurality of data segments of preset time lengths , perform feature extraction on the voice data in each of the described data segments to obtain a speech feature vector and a voiceprint feature vector respectively, perform feature extraction on the text data in each of the described data segments to obtain a text feature vector, and then The voice feature vector, the text feature vector and the voiceprint feature vector are combined to generate a fusion feature vector.
  • the voiceprint feature vector is p
  • each data segment also includes gesture action data
  • the gesture action data is a gesture action vector
  • the gesture action vector is the same as the The control input vector can be generated for the subsequent steps after the feature fusion is performed on the fused feature vector.
  • the step S100 includes the following steps S101-S105.
  • S105 Perform a stitching operation on the speech feature vector, the text feature vector, and the voiceprint feature vector to generate a fusion feature vector.
  • a training data set required for training an action pose generation model is obtained, and feature extraction and first feature fusion are performed on the training data in the training data set to generate a fusion feature vector.
  • first obtain the training data set required for training the action pose generation model from the open source Trinity data set or Ted data set and convert the training data set into a plurality of data segments of preset time lengths, wherein each The data fragments all contain voice data and text data with time stamps; then the voice data in each of the data fragments is framed and windowed to extract the Mel spectrum, and the Mel spectrum is used as a voice feature.
  • the reason why the training data set is converted into a plurality of data segments of preset time lengths is to facilitate the training of the action pose model.
  • S110 Extract the gesture action vector within a preset time period in the training data as a gesture autoregressive vector, and perform a second feature fusion on the gesture autoregressive vector and the fusion feature vector to generate a control input vector.
  • the gesture action vector within the preset time period in the training data will be extracted as the gesture self
  • the regression vector is to extract the posture action vector in the preset time period in each of the data segments as the posture autoregressive vector, and perform a splicing operation on the posture autoregressive vector and the fusion feature vector to generate a control input vector.
  • S120 Extract the gesture action vector at a preset moment in the training data as a gesture input vector, and input the gesture input vector and the control input vector into a flow model to obtain an output vector, wherein the preset moment is the time next to the end time in the preset time period.
  • the posture action vector corresponding to the preset time in the training data is used as the posture input vector, and input the pose input vector and the control input vector together into the flow model to obtain an output vector.
  • the flow model is a differentiable and reversible model, and the model can train a data distribution that is relatively close to the gesture input vector and the control input vector.
  • the preset time is t
  • the preset time period is t- ⁇ to t-1
  • the gesture action vector corresponding to the preset time t in the training data is used as the gesture input vector x t
  • the output vector Z is Gaussian distribution, in the subsequent steps, based on the generated output vector Z convection
  • the flow model is trained based on the output vector to obtain the action and gesture generation model. Specifically, first calculate the negative log likelihood probability of the output vector, use the negative log likelihood probability to evaluate whether the output vector has a Gaussian distribution, and use the calculated negative log likelihood probability as the flow A loss function of the model, according to which the flow model is trained to obtain the action pose generation model.
  • the action pose generation model is generated only after the preset training times, and with the increase of the preset training times, the loss function becomes smaller and smaller, indicating that the action pose generation model is getting better and better.
  • the step S130 includes the following steps S131-S132.
  • the flow model is trained based on the output vector to obtain the action pose generation model. Specifically, the negative log-likelihood probability of the output vector is first calculated. Then, the negative log-likelihood probability is used as the loss function of the flow model, and the flow model is trained according to the loss function to obtain the action pose generation model. .
  • the reason why the flow model is trained according to the loss function is that the loss function can evaluate the performance of the model. The smaller the value of the loss function, the better the performance of the model, that is, the better the generated action pose generation model.
  • FIG. 4 is a schematic flowchart of a method for generating an action gesture provided by an embodiment of the present application.
  • the action pose generation method of the embodiments of the present application can be applied to a robot terminal.
  • the action pose generation method can be implemented through a software program configured on the robot terminal, so that the cost of action pose generation can be saved and the effect of action pose generation can be improved.
  • S200 Acquire voice information corresponding to the generated action gesture of the robot, and perform feature extraction and first feature fusion on the voice information to generate multiple frame-by-frame aligned fusion feature vectors.
  • the robot action pose will be generated based on the model. Specifically, firstly, the voice information corresponding to the action pose generated by the robot is obtained; then the voice information is divided into frames. After windowing, the Mel spectrum is extracted, and the Mel spectrum is used as a speech feature vector; the speech information is converted into text by a speech recognition model, and the text is time stamped with the Gentle tool, and all the time stamps containing the time stamp are used.
  • the text uses the Fasttext tool to extract the word vector of the text frame by frame to obtain the text feature vector; extract the voice information through the TDNN model to obtain the voiceprint feature vector; finally, according to the voice feature vector, the text feature vector And the voiceprint feature vector generates a plurality of frame-by-frame aligned fusion feature vectors.
  • the speech feature vector, the text feature vector, and the voiceprint feature vector are combined into a plurality of frame-by-frame aligned fusion feature vectors through a combining operation.
  • the voiceprint feature vector is p
  • each of the fused feature vectors and the robot's initial posture autoregressive vector are processed
  • the second feature fusion is to generate a control input vector, wherein the robot initial posture autoregressive vector is the robot posture action vector within a preset time period extracted from the preset initial posture action vector set, and the feature fusion is a splicing operation, that is The pose autoregressive vector is spliced with the fusion feature vector.
  • S220 Randomly generate a potential input vector with a Gaussian distribution, and input the potential input vector and the control input vector into an action pose generation model to generate a robot pose action vector at the current time.
  • a potential input vector Z with a Gaussian distribution is randomly generated, and the control input vector cond t and the potential input vector Z are input into the action pose generation model as Generate the robot pose action vector x t at the current time t .
  • the generation process of the robot pose and action as a function f, which can convert the potential input vector Z in the Gaussian distribution into a Gaussian distribution action pose vector X through continuous iterative mapping.
  • the vector X is the body motion of the robot.
  • the preset initial posture action vector set is used as the target posture action vector set
  • the action posture vector in the target posture action vector set is equal to the preset skeleton node coordinate vector a mapping to generate the robot action pose corresponding to the voice information.
  • the robot speaks by itself, that is, sends out voice information, and then the robot obtains the voice information and generates the target pose action vector set after a series of processing, and drives the skeleton node of the robot through the target pose action vector set.
  • the skeleton nodes include spine, neck, nose, head, right shoulder, left shoulder, right elbow, left elbow, right wrist, left wrist, etc., so as to generate an action pose corresponding to the voice information.
  • the welcoming robot says: Welcome, that is, it sends out voice information, collects the voice information at the same time, and after a series of processing, makes a gesture of invitation at the same time, that is, generates a corresponding action gesture.
  • FIG. 5 is a schematic block diagram of a model training apparatus 200 provided by an embodiment of the present application. As shown in FIG. 5 , corresponding to the above model training method, the present application further provides a model training apparatus 200 .
  • the model training apparatus 200 includes a unit for executing the above-mentioned model training method, and the apparatus may be configured in a server. Specifically, please refer to FIG. 5 , the model training apparatus 200 includes a first feature fusion unit 201 , a second feature fusion unit 202 , an input unit 203 and a training unit 204 .
  • the first feature fusion unit 201 is used to obtain the training data set required for training the action pose generation model, and perform feature extraction and first feature fusion on the training data in the training data set to generate a fusion feature vector;
  • the second feature fusion unit 202 is configured to extract the gesture action vector within the preset time period in the training data as the gesture autoregressive vector, and perform a second feature on the gesture autoregressive vector and the fusion feature vector.
  • the input unit 203 is used to extract the gesture action vector at a preset moment in the training data as a gesture input vector, and input the gesture input vector and the control input vector into the flow model to obtain an output vector, wherein the preset time is the next time after the end time in the preset time period;
  • the training unit 204 is configured to train the flow model based on the output vector to obtain the Action pose generation model.
  • the first feature fusion unit 201 includes a conversion unit 2011 , a first feature extraction unit 2012 and a fusion unit 2013 .
  • the conversion unit 2011 is used to obtain the training data set required for training the action pose generation model, and convert the training data set into a plurality of data segments of preset time lengths;
  • the first feature extraction unit 2012 uses Perform feature extraction on the training data in each of the data segments to obtain a speech feature vector, a text feature vector and a voiceprint feature vector;
  • the fusion unit 2013 is used to combine the speech feature vector, the text feature vector and The voiceprint feature vector is combined to generate a fusion feature vector.
  • the first feature extraction unit 2012 includes a second feature extraction unit 20121 , a third feature extraction unit 20122 and a fourth feature extraction unit 20123 .
  • the second feature extraction unit 20121 is used to extract the mel spectrum from the speech data in each of the data segments after framed and windowed, and use the mel spectrum as a speech feature vector;
  • the third The feature extraction unit 20122 is used to extract the word vector of the text frame by frame using the Fasttext tool for the text data in each of the data segments to obtain the text feature vector;
  • the voice data in each of the data segments is extracted to obtain a voiceprint feature vector.
  • the training unit 204 includes a computing unit 2041 and a training sub-unit 2042 .
  • the calculation unit 2041 is used to calculate the negative log-likelihood probability of the output vector, and use the negative log-likelihood probability as the loss function of the flow model; the training subunit 2042 is used to The loss function trains the flow model to obtain the action pose generation model.
  • FIG. 9 is a schematic block diagram of an action gesture generating apparatus 300 provided by an embodiment of the present application. As shown in FIG. 9, corresponding to the above action gesture generation method, the present application further provides an action gesture generation apparatus 300.
  • the action pose generating apparatus 300 includes a unit for executing the above-mentioned action pose generating method, and the apparatus can be configured in a robot terminal.
  • the action pose generation device 300 includes a first feature extraction and fusion unit 301 , a second feature extraction and fusion unit 302 , a first generation unit 303 , an update return unit 304 and a second generation unit 305 .
  • the first feature extraction and fusion unit 301 is used to obtain the voice information corresponding to the generated action gesture of the robot, and perform feature extraction and first feature fusion on the voice information to generate multiple frame-by-frame aligned fusion feature vectors
  • the second feature extraction and fusion unit 302 is used to carry out the second feature fusion to each described fusion feature vector and the robot initial posture autoregressive vector to generate a control input vector, wherein the robot initial posture autoregressive vector is The robot pose action vector within a preset time period extracted from the preset initial pose action vector set;
  • the first generating unit 303 is used to randomly generate a potential input vector with a Gaussian distribution and combine the potential input vector and the Control the input vector input action posture generation model to generate the robot posture action vector of the current time;
  • the update return unit 304 is used to update the robot posture action vector corresponding to the current time in the preset initial posture action vector set, and the following A time as the current time, return to perform the second feature fusion of each of the fused feature vectors
  • the second generating unit 305 includes a generating sub-unit 3051 .
  • the generating subunit 3051 is configured to use the preset initial posture action vector set as a target posture action vector set, and combine the action posture vector in the target posture action vector set with the preset skeleton node
  • the coordinate vectors are mapped one by one to generate the robot action pose corresponding to the voice information.
  • the above-mentioned apparatus for model training and action pose generation can be implemented in the form of a computer program, and the computer program can be executed on a computer device as shown in FIG. 11 .
  • FIG. 11 is a schematic block diagram of a computer device provided by an embodiment of the present application.
  • the computer device 300 is a server or a robot terminal.
  • the server may be an independent server or a server cluster composed of multiple servers.
  • the computer device 300 includes a processor 302 , a memory and a network interface 305 connected through a system bus 301 , wherein the memory may include a storage medium 303 and an internal memory 304 .
  • the storage medium 303 can store an operating system 3031 and a computer program 3032 .
  • the computer program 3032 When executed, it can cause the processor 302 to execute a model training method, and the action gesture model trained by the model training method can also cause the processor 302 to execute an action gesture generation method.
  • the processor 302 is used to provide computing and control capabilities to support the operation of the entire computer device 300 .
  • the internal memory 304 provides an environment for the operation of the computer program 3032 in the storage medium 303.
  • the model training method of the embodiment of the present application is implemented, and the action pose model trained based on the model training method , so as to realize the action gesture generation method of the embodiment of the present application.
  • the network interface 305 is used for network communication with other devices.
  • the structure shown in FIG. 11 is only a block diagram of a partial structure related to the solution of the present application, and does not constitute a limitation on the computer device 300 to which the solution of the present application is applied.
  • the specific computer device 300 may include more or fewer components than shown, or combine certain components, or have a different arrangement of components.
  • the processor 302 may be a central processing unit (Central Processing Unit, CPU), and the processor 302 may also be other general-purpose processors, digital signal processors (Digital Signal Processor, DSP), Application Specific Integrated Circuit (ASIC), Field-Programmable Gate Array (FPGA) or other programmable logic devices, discrete gate or transistor logic devices, discrete hardware components, etc.
  • the general-purpose processor can be a microprocessor or the processor can also be any conventional processor or the like.
  • the computer program can be stored in a storage medium, which is a computer-readable storage medium.
  • the computer program is executed by at least one processor in the computer system to implement the flow steps of the above-described method embodiments.
  • the present application also provides a storage medium.
  • the storage medium may be a computer-readable storage medium, and the computer-readable storage medium may be non-volatile or volatile.
  • the storage medium stores a computer program.
  • the processor When the computer program is executed by the processor, the processor is executed to implement the model training method of the embodiment of the present application, and the action gesture model trained by the model training method is used to realize the action and gesture generation method of the embodiment of the present application.
  • the storage medium may be various computer-readable storage media that can store program codes, such as a U disk, a removable hard disk, a read-only memory (Read-Only Memory, ROM), a magnetic disk, or an optical disk.
  • program codes such as a U disk, a removable hard disk, a read-only memory (Read-Only Memory, ROM), a magnetic disk, or an optical disk.
  • each functional unit in each embodiment of the present application may be integrated into one processing unit, or each unit may exist physically alone, or two or more units may be integrated into one unit.
  • the integrated unit if implemented in the form of a software functional unit and sold or used as an independent product, may be stored in a storage medium.
  • the technical solutions of the present application are essentially or part of contributions to the prior art, or all or part of the technical solutions can be embodied in the form of software products, and the computer software products are stored in a storage medium , including several instructions to cause a computer device (which may be a personal computer, a terminal, or a network device, etc.) to execute all or part of the steps of the methods described in the various embodiments of the present application.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Manipulator (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种模型训练方法、动作姿态生成方法、装置、设备及介质,涉及人工智能中的机器学习技术领域。所述方法包括:训练动作姿态生成模型,获取机器人生成动作姿态所对应的语音信息并进行特征提取及特征融合以生成多个融合特征向量;对每个融合特征向量与机器人初始姿态自回归向量进行特征融合以生成控制输入向量;将随机生成的潜在输入向量及控制输入向量输入动作姿态生成模型以生成机器人姿态动作向量;更新预设初始姿态动作向量集中的机器人姿态动作向量,并将预设初始姿态动作向量集作为目标姿态动作向量集,根据目标姿态动作向量集生成机器人动作姿态。

Description

模型训练方法、动作姿态生成方法、装置、设备及介质
本申请要求于2021年04月26日提交中国专利局、申请号为CN202110455733.4、申请名称为“模型训练方法、动作姿态生成方法、装置、设备及介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能中的机器学习技术领域,尤其涉及一种模型训练方法、动作姿态生成方法、装置、设备及介质。
背景技术
生物学家在大量的观察和实验基础上发现人们通过对肢体动作的控制会影响着人类传达出的喜怒哀乐等感情,并且每一个表情的细节都在传达具有个人特色的隐含信息,与此同时,每个人的肢体动作与说话人使用的语言和语音特点的个性有极强的关联性和共性。目前,驱动机器人或动画人物模拟人体的动作姿态仍旧有诸多不足,例如,需要使用专业设备采集现有说话人的动作姿态,或者是基于历史存取的肢体动作姿态仓库相互进行生硬拼接,这使得动作姿态的生成不仅成本高,而且生成效果较差。
发明内容
本申请实施例提供了一种模型训练方法、动作姿态生成方法、装置、设备及介质,旨在解决现有肢体动作姿态生成成本高且效果不佳的问题。
第一方面,本申请实施例提供了一种模型训练方法,其包括:获取训练动作姿态生成模型所需的训练数据集,并对所述训练数据集中的训练数据进行特征提取及第一次特征融合以生成融合特征向量;提取所述训练数据中预设时间段内的姿态动作向量作为姿态自回归向量,并对所述姿态自回归向量及所述融合特征向量进行第二次特征融合以生成控制输入向量;提取所述训练数据中预设时刻的所述姿态动作向量作为姿态输入向量,并将所述姿态输入向量及所述控制输入向量输入流模型以得到输出向量,其中,所述预设时刻为所述预设时间段中结束时刻的下一时刻;基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型。
第二方面,本申请实施例提供了一种动作姿态生成方法,其包括:获取机器人生成动作姿态所对应的语音信息,并对所述语音信息进行特征提取及第一次特征融合以生成多个逐帧对齐的融合特征向量;对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量,其中,所述机器人初始姿态自回归向量为从预设初始姿态动作向量集中提取的预设时间段内的机器人姿态动作向量;随机生成一个呈高斯分布的潜在输入向量并将所述潜在输入向量及所述控制输入向量输入如权利要求1-4任一项所述的动作姿态生成模型以生成当前时间的机器人姿态动作向量;更新所述预设初始姿态动作向量集中所述当前时间对应的机器人姿态动作向量,并将下一时间作为所述当前时间,返回执行对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量的步骤,直至所有所述融合特征向量与所述机器人初始姿态自回归向量进行第二次特征融合为止;将所述预设初始姿态动作向量集作为目标姿态动作向量集,根据所述目标姿态动作向量集生成与所述语音信息相对应的机器人动作姿态。
第三方面,本申请实施例还提供了一种模型训练装置,其包括:第一特征融合单元,用于获取训练动作姿态生成模型所需的训练数据集,并对所述训练数据集中的训练数据进行特征提取及第一次特征融合以生成融合特征向量;第二特征融合单元,用于提取所述训练数据中预设时间段内的姿态动作向量作为姿态自回归向量,并对所述姿态自回归向量及所述融合特征向量进行第二次特征融合以生成控制输入向量;输入单元,用于提取所述训练数据中预设时刻的所述姿态动作向量作为姿态输入向量,并将所述姿态输入向量及所述控制输入向量输入流模型以得到输出向量,其中,所述预设时刻为所述预设时间段中结束时刻的下一时刻; 训练单元,用于基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型。
第四方面,本申请实施例还提供了一种动作姿态生成装置,其包括:第一特征提取融合单元,用于获取机器人生成动作姿态所对应的语音信息,并对所述语音信息进行特征提取及第一次特征融合以生成多个逐帧对齐的融合特征向量;第二特征提取融合单元,用于对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量,其中,所述机器人初始姿态自回归向量为从预设初始姿态动作向量集中提取的预设时间段内的机器人姿态动作向量;第一生成单元,用于随机生成一个呈高斯分布的潜在输入向量并将所述潜在输入向量及所述控制输入向量输入如权利要求7所述的动作姿态生成模型以生成当前时间的机器人姿态动作向量;更新返回单元,用于更新所述预设初始姿态动作向量集中所述当前时间对应的机器人姿态动作向量,并将下一时间作为所述当前时间,返回执行对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量的步骤,直至所有所述融合特征向量与所述机器人初始姿态自回归向量进行第二次特征融合为止;第二生成单元,用于将所述预设初始姿态动作向量集作为目标姿态动作向量集,根据所述目标姿态动作向量集生成与所述语音信息相对应的机器人动作姿态。
第五方面,本申请实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的模型训练方法。
第六方面,本申请实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述第二方面所述的动作姿态生成方法。
第七方面,本申请实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述第一方面所述的模型训练方法。
第八方面,本申请实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述第二方面所述的动作姿态生成方法。
本申请实施例提供了一种模型训练及动作姿态生成方法、装置、计算机设备及存储介质。本申请实施例的技术方案,在整个动作姿态的生成中,因无需专用的动作姿态采集设备,而是直接将语音信息进行一系列处理之后输入训练好的动作姿态生成模型生成姿态动作向量,因此可节约动作姿态生成的成本及提高动作姿态生成的效果。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的一种模型训练方法的流程示意图;
图2为本申请实施例提供的一种模型训练方法的子流程示意图;
图3为本申请实施例提供的一种模型训练方法的子流程示意图;
图4为本申请一实施例提供的一种动作姿态生成方法的流程示意图;
图5为本申请实施例提供的一种模型训练装置的示意性框图;
图6为本申请实施例提供的模型训练装置的第一特征提取融合单元的示意性框图;
图7为本申请实施例提供的模型训练装置的第一特征提取单元的示意性框图;
图8为本申请实施例提供的模型训练装置的训练单元的示意性框图;
图9为本申请一实施例提供的一种动作姿态生成装置的示意性框图;
图10为本申请一实施例提供的一种动作姿态生成装置的第二生成单元的示意性框图;以及
图11为本申请实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
请参阅图1,图1是本申请实施例提供的一种模型训练方法的流程示意图。本申请实施例的模型训练方法可应用于服务器中,例如可通过配置于服务器上的软件程序来实现该模型训练方法。下面对所述模型训练方法进行详细说明。如图1所示,该方法包括以下步骤S100-S130。
S100、获取训练动作姿态生成模型所需的训练数据集,并对所述训练数据集中的训练数据进行特征提取及第一次特征融合以生成融合特征向量。
在本申请实施例中,对动作姿态生成模型的训练,首先需要获取训练动作姿态生成模型所需的训练数据集,其中,所述训练数据集为开源的Trinity数据集或Ted数据集,Trinity数据集或Ted数据集中均包括语音数据及文字数据;获取所述开源的Trinity数据集或Ted数据集之后,将所述开源的Trinity数据集或Ted数据集转换为多个预设时间长度的数据片段,对每个所述数据片段中的语音数据进行特征提取以分别得到语音特征向量及声纹特征向量,对每个所述数据片段中的文字数据进行特征提取得到文本特征向量,之后再将所述语音特征向量、所述文本特征向量以及所述声纹特征向量进行拼合操作以生成融合特征向量。在实际应用中,假设在时间t下,所述语音特征向量为a t={a t,1,a t,2,...},所述文本特征向量为w t={w t,1,w t,2,...},所述声纹特征向量为p,进行拼合操作后,所述融合特征向量为c t={a t,1,a t,2,...,w t,1,w t,2,...,p}。
需要说明的是,在本申请实施例中,每个所述数据片段中除了包括语音数据和文字数据,还包括姿态动作数据,所述姿态动作数据为姿态动作向量,所述姿态动作向量与所述融合特征向量进行特征融合后可生成控制输入向量以供后续步骤使用。
请参阅图2,在一实施例中,例如在本实施例中,所述步骤S100包括如下步骤S101-S105。
S101、获取训练动作姿态生成模型所需的训练数据集,并将所述训练数据集转换为多个预设时间长度的数据片段;
S102、对每个所述数据片段中的语音数据经过分帧加窗后提取梅尔频谱,并将所述梅尔频谱作为语音特征向量;
S103、对每个所述数据片段中的文字数据使用Fasttext工具逐帧对文本的词向量进行提取以得到文本特征向量;
S104、通过TDNN模型对每个所述数据片段中的所述语音数据进行提取以得到声纹特征向量;
S105、将所述语音特征向量、所述文本特征向量以及所述声纹特征向量进行拼合操作以生成融合特征向量。
在本申请实施例中,获取训练动作姿态生成模型所需的训练数据集,并对所述训练数据集中的训练数据进行特征提取及第一次特征融合以生成融合特征向量。具体地,先从开源的Trinity数据集或Ted数据集中获取训练动作姿态生成模型所需的训练数据集,并将所述训练数据集转换为多个预设时间长度的数据片段,其中,每个数据片段中均包含有语音数据及带有时间戳的文字数据;然后对每个所述数据片段中的语音数据经过分帧加窗后提取梅尔频谱,并将所述梅尔频谱作为语音特征向量;对每个所述数据片段中的文字数据使用Fasttext工具逐帧对文本的词向量进行提取以得到文本特征向量;通过TDNN模型对每个所述数据片段中的所述语音数据进行提取以得到声纹特征向量;最后将所述语音特征向量、所述文本特征向量以及所述声纹特征向量进行拼合操作以生成融合特征向量。可理解地,之所以将所述训练数据集转换为多个预设时间长度的数据片段是为方便动作姿态模型的训练。
S110、提取所述训练数据中预设时间段内的姿态动作向量作为姿态自回归向量,并对所述姿态自回归向量及所述融合特征向量进行第二次特征融合以生成控制输入向量。
在本申请实施例中,对所述训练数据集中的训练数据进行特征提取及第一次特征融合生成融合特征向量之后,会提取所述训练数据中预设时间段内的姿态动作向量作为姿态自回归向量,具体地,是提取每个所述数据片段中预设时间段内的姿态动作向量作为姿态自回归向量,并对所述姿态自回归向量及所述融合特征向量进行拼合操作以生成控制输入向量。在实际应用中,假设在时间t下,所述融合特征向量为c t={a t,1,a t,2,...,w t,1,w t,2,...,p},在时间t-τ到时间t-1这一预设时间段内的姿态动作向量为reg (t-τ)~(t-1)={x t-τ,...,x t-1},则经过拼合操作之后,所述控制输入向量为cond t={a t,1,a t,2,...,w t,1,w t,2,...,p,x t-τ,...,x t-1}。
S120、提取所述训练数据中预设时刻的所述姿态动作向量作为姿态输入向量,并将所述姿态输入向量及所述控制输入向量输入流模型以得到输出向量,其中,所述预设时刻为所述预设时间段中结束时刻的下一时刻。
在本申请实施例中,对所述姿态自回归向量及所述融合特征向量进行第二次特征融合生成控制输入向量之后,将所述训练数据中预设时间对应的所述姿态动作向量作为姿态输入向量,并将所述姿态输入向量及所述控制输入向量一起输入流模型以得到输出向量。其中,流模型是一个可微且可逆的模型,该模型可训练出与所述姿态输入向量及所述控制输入向量较为接近的数据分布。在实际应用中,假设所述预设时刻为t,则所述预设时间段为t-τ至t-1,将所述训练数据中预设时刻t对应的所述姿态动作向量作为姿态输入向量x t,并将所述姿态输入向量x t及所述控制输入向量cond t一起输入流模型生成输出向量Z,该输出向量Z呈高斯分布,在后续步骤中,基于生成的输出向量Z对流模型经过预设次数的训练后可得到动作姿态生成模型。
S130、基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型。
在本申请实施例中,将所述姿态输入向量及所述控制输入向量输入流模型得到输出向量之后,基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型。具体地,首先计算所述输出向量的负对数似然概率,用负对数似然概率来评价输出向量是否呈高斯分布,并将计算出的所述负对数似然概率作为所述流模型的损失函数,根据所述损失函数对所述流模型进行训练以得到所述动作姿态生成模型。在实际应用中,经过预设训练次数后才生成动作姿态生成模型,并且随着预设训练次数的增多,损失函数越来越小,表明动作姿态生成模型越来越好。
请参阅图3,在一实施例中,例如在本实施例中,所述步骤S130包括如下步骤S131-S132。
S131、计算所述输出向量的负对数似然概率,并将所述负对数似然概率作为所述流模型的损失函数;
S132、根据所述损失函数对所述流模型进行训练以得到所述动作姿态生成模型。
在本申请实施例中,基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型,具体地,首先计算所述输出向量的负对数似然概率,通过负对数似然概率来评价输出 向量是否呈高斯分布,然后将所述负对数似然概率作为所述流模型的损失函数,根据所述损失函数对所述流模型进行训练以得到所述动作姿态生成模型。之所以根据损失函数对流模型流模型进行训练是因为损失函数可评价模型性能的好坏,损失函数的值越小,代表该模型性能越好,即生成的动作姿态生成模型越好。
请参阅图4,图4是本申请实施例提供的一种动作姿态生成方法的流程示意图。本申请实施例的动作姿态生成方法可应用于机器人终端中,例如可通过配置于机器人终端上的软件程序来实现该动作姿态生成方法,从而可节约动作姿态生成的成本及提高动作姿态生成的效果。下面对所述动作姿态生成方法进行详细说明。如图4所示,该方法包括以下步骤S200-S240。
S200、获取机器人生成动作姿态所对应的语音信息,并对所述语音信息进行特征提取及第一次特征融合以生成多个逐帧对齐的融合特征向量。
在本申请实施例中,当动作姿态模型训练好之后,会基于该模型进行机器人动作姿态的生成,具体为,首先获取机器人生成动作姿态所对应的语音信息;然后将所述语音信息经过分帧加窗后提取梅尔频谱,并将所述梅尔频谱作为语音特征向量;通过语音识别模型将所述语音信息转换为文字,使用Gentle工具将所述文字打上时间戳,将含有时间戳的所述文字使用Fasttext工具逐帧对文本的词向量进行提取以得到文本特征向量;通过TDNN模型对所述语音信息进行提取以得到声纹特征向量;最后根据所述语音特征向量、所述文本特征向量以及所述声纹特征向量生成多个逐帧对齐的融合特征向量。在实际应用中,是通过拼合操作将所述语音特征向量、所述文本特征向量以及所述声纹特征向量拼合成多个逐帧对齐的融合特征向量。假设在时间t下,所述语音特征向量为a t={a t,1,a t,2,...},所述文本特征向量为w t={w t,1,w t,2,...},所述声纹特征向量为p,进行拼合操作后,所述融合特征向量为c t={a t,1,a t,2,...,w t,1,w t,2,...,p}。
S210、对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量,其中,所述机器人初始姿态自回归向量为从预设初始姿态动作向量集中提取的预设时间段内的机器人姿态动作向量。
在本申请实施例中,对所述语音信息进行特征提取及第一次特征融合以生成多个逐帧对齐的融合特征向量之后,对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量,其中,所述机器人初始姿态自回归向量为从预设初始姿态动作向量集中提取的预设时间段内的机器人姿态动作向量,特征融合为拼合操作,即将所述姿态自回归向量与所述融合特征向量之进行拼接,例如,在时间t下,若所述融合特征向量为c t={a t,1,a t,2,...,w t,1,w t,2,...,p},在时间t-τ到时间t-1这一预设时间段内的机器人姿态动作向量为reg (t-τ)~(t-1)={x t-τ,...,x t-1},则经过拼合操作之后,所述控制输入向量为cond t={a t,1,a t,2,...,w t,1,w t,2,...,p,x t-τ,...,x t-1}。
S220、随机生成一个呈高斯分布的潜在输入向量并将所述潜在输入向量及所述控制输入向量输入动作姿态生成模型以生成当前时间的机器人姿态动作向量。
S230、更新所述预设初始姿态动作向量集中所述当前时间对应的机器人姿态动作向量,并将下一时间作为所述当前时间,返回执行对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量的步骤,直至所有所述融合特征向量与所述机器人初始姿态自回归向量进行第二次特征融合为止。
在本申请实施例中,生成所述控制输入向量cond t之后,随机生成一个呈高斯分布潜在输入向量Z,并将所述控制输入向量cond t及所述潜在输入向量Z输入动作姿态生成模型以生成当前时间t的机器人姿态动作向量x t。更新所述预设初始姿态动作向量集中所述当前时间对应的机器人姿态动作向量x t,并将下一时间t+1作为所述当前时间t,返回执行步骤S210直至所有所述融合特征向量与所述机器人初始姿态自回归向量进行第二次特征融合为止,此 时的所述预设初始姿态动作向量集即为所求的姿态动作向量集。在具体的生成过程中,我们将机器人姿态动作的生成过程定义为函数f,它可将呈高斯分布的潜在输入向量Z通过不断的迭代映射转换为一个呈高斯分布的动作姿态向量X,动作姿态向量X为机器人的肢体动作。
S240、将所述预设初始姿态动作向量集作为目标姿态动作向量集,根据所述目标姿态动作向量集生成与所述语音信息相对应的机器人动作姿态。
在本申请实施例中,将所述预设初始姿态动作向量集作为目标姿态动作向量集,并将所述目标姿态动作向量集中的所述动作姿态向量与所述预设的骨骼节点坐标向量一一映射以生成与所述语音信息相对应的机器人动作姿态。在实际应用中,机器人自己说话,即发出语音信息,然后机器人自身获取该语音信息并经过一系列的处理之后生成所述目标姿态动作向量集,通过所述目标姿态动作向量集驱动机器人的骨骼节点,其中,骨骼节点包括脊椎、颈部、鼻子、头部、右肩、左肩、右肘、左肘、右手腕、左手腕等,从而生成与所述语音信息相应的动作姿态。例如,迎宾机器人说:欢迎光临,即发出语音信息,同时采集该条语音信息,经过一系列处理之后,同时做出请的姿势,即生成相应的动作姿态。
图5是本申请实施例提供的一种模型训练装置200的示意性框图。如图5所示,对应于以上模型训练方法,本申请还提供一种模型训练装置200。该模型训练装置200包括用于执行上述模型训练方法的单元,该装置可以被配置于服务器中。具体地,请参阅图5,该模型训练装置200包括第一特征融合单元201、第二特征融合单元202、输入单元203以及训练单元204。
其中,所述第一特征融合单元201用于获取训练动作姿态生成模型所需的训练数据集,并对所述训练数据集中的训练数据进行特征提取及第一次特征融合以生成融合特征向量;所述第二特征融合单元202用于提取所述训练数据中预设时间段内的姿态动作向量作为姿态自回归向量,并对所述姿态自回归向量及所述融合特征向量进行第二次特征融合以生成控制输入向量;所述输入单元203用于提取所述训练数据中预设时刻的所述姿态动作向量作为姿态输入向量,并将所述姿态输入向量及所述控制输入向量输入流模型以得到输出向量,其中,所述预设时刻为所述预设时间段中结束时刻的下一时刻;所述训练单元204用于基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型。
在某些实施例,例如本实施例中,如图6所示,所述第一特征融合单元201包括转换单元2011、第一特征提取单元2012以及融合单元2013。
其中,所述转换单元2011用于获取训练动作姿态生成模型所需的训练数据集,并将所述训练数据集转换为多个预设时间长度的数据片段;所述第一特征提取单元2012用于对每个所述数据片段中的训练数据进行特征提取以得到语音特征向量、文本特征向量以及声纹特征向量;所述融合单元2013用于将所述语音特征向量、所述文本特征向量以及所述声纹特征向量进行拼合操作以生成融合特征向量。
在某些实施例,例如本实施例中,如图7所示,所述第一特征提取单元2012包括第二特征提取单元20121、第三特征提取单元20122以及第四特征提取单元20123。
其中,所述第二特征提取单元20121用于对每个所述数据片段中的语音数据经过分帧加窗后提取梅尔频谱,并将所述梅尔频谱作为语音特征向量;所述第三特征提取单元20122用于对每个所述数据片段中的文字数据使用Fasttext工具逐帧对文本的词向量进行提取以得到文本特征向量;所述第四特征提取单元20123用于通过TDNN模型对每个所述数据片段中的所述语音数据进行提取以得到声纹特征向量。
在某些实施例,例如本实施例中,如图8所示,所述训练单元204包括计算单元2041及训练子单元2042。
其中,所述计算单元2041用于计算所述输出向量的负对数似然概率,并将所述负对数似然概率作为所述流模型的损失函数;所述训练子单元2042用于根据所述损失函数对所述流模型进行训练以得到所述动作姿态生成模型。
图9是本申请实施例提供的一种动作姿态生成装置300的示意性框图。如图9所示,对 应于以上动作姿态生成方法,本申请还提供一种动作姿态生成装置300。该动作姿态生成装置300包括用于执行上述动作姿态生成方法的单元,该装置可以被配置于机器人终端中。具体地,请参阅图9,该动作姿态生成装置300包括第一特征提取融合单元301、第二特征提取融合单元302、第一生成单元303、更新返回单元304以及第二生成单元305。
其中,所述第一特征提取融合单元301用于获取机器人生成动作姿态所对应的语音信息,并对所述语音信息进行特征提取及第一次特征融合以生成多个逐帧对齐的融合特征向量;所述第二特征提取融合单元302用于对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量,其中,所述机器人初始姿态自回归向量为从预设初始姿态动作向量集中提取的预设时间段内的机器人姿态动作向量;所述第一生成单元303用于随机生成一个呈高斯分布的潜在输入向量并将所述潜在输入向量及所述控制输入向量输入动作姿态生成模型以生成当前时间的机器人姿态动作向量;所述更新返回单元304用于更新所述预设初始姿态动作向量集中所述当前时间对应的机器人姿态动作向量,并将下一时间作为所述当前时间,返回执行对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量的步骤,直至所有所述融合特征向量与所述机器人初始姿态自回归向量进行第二次特征融合为止;所述第二生成单元305用于将所述预设初始姿态动作向量集作为目标姿态动作向量集,根据所述目标姿态动作向量集生成与所述语音信息相对应的机器人动作姿态。
在某些实施例,例如本实施例中,如图10所示,所述第二生成单元305包括生成子单元3051。
其中,所述生成子单元3051用于将所述预设初始姿态动作向量集作为目标姿态动作向量集,并将所述目标姿态动作向量集中的所述动作姿态向量与所述预设的骨骼节点坐标向量一一映射以生成与所述语音信息相对应的机器人动作姿态。
上述模型训练和动作姿态生成装置可以实现为一种计算机程序的形式,该计算机程序可以在如图11所示的计算机设备上运行。
请参阅图11,图11是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备300为服务器或者机器人终端,具体地,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图11,该计算机设备300包括通过系统总线301连接的处理器302、存储器和网络接口305,其中,存储器可以包括存储介质303和内存储器304。
该存储介质303可存储操作系统3031和计算机程序3032。该计算机程序3032被执行时,可使得处理器302执行一种模型训练方法,基于该模型训练方法训练的动作姿态模型,也可使得处理器302执行一种动作姿态生成方法。
该处理器302用于提供计算和控制能力,以支撑整个计算机设备300的运行。
该内存储器304为存储介质303中的计算机程序3032的运行提供环境,该计算机程序3032被处理器302执行时,以实现本申请实施例的模型训练方法,基于该模型训练方法训练的动作姿态模型,以实现本申请实施例的动作姿态生成方法。
该网络接口305用于与其它设备进行网络通信。本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备300的限定,具体的计算机设备300可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解,在本申请实施例中,处理器302可以是中央处理单元(Central Processing Unit,CPU),该处理器302还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本申请还提供一种存储介质。该存储介质可以为计算机可读存储介质,所述计算机可读存储介质可以是非易失性,也可以是易失性。该存储介质存储有计算机程序。该计算机程序被处理器执行时使处理器执行以实现本申请实施例的模型训练方法,基于该模型训练方法训练的动作姿态模型,以实现本申请实施例的动作姿态生成方法。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (20)

  1. 一种模型训练方法,包括:
    获取训练动作姿态生成模型所需的训练数据集,并对所述训练数据集中的训练数据进行特征提取及第一次特征融合以生成融合特征向量;
    提取所述训练数据中预设时间段内的姿态动作向量作为姿态自回归向量,并对所述姿态自回归向量及所述融合特征向量进行第二次特征融合以生成控制输入向量;
    提取所述训练数据中预设时刻的所述姿态动作向量作为姿态输入向量,并将所述姿态输入向量及所述控制输入向量输入流模型以得到输出向量,其中,所述预设时刻为所述预设时间段中结束时刻的下一时刻;
    基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型。
  2. 根据权利要求1所述的方法,其中,所述获取训练动作姿态生成模型所需的训练数据集,并对所述训练数据集中的训练数据进行特征提取及第一次特征融合以生成融合特征向量,包括:
    获取训练动作姿态生成模型所需的训练数据集,并将所述训练数据集转换为多个预设时间长度的数据片段;
    对每个所述数据片段中的训练数据进行特征提取以得到语音特征向量、文本特征向量以及声纹特征向量;
    将所述语音特征向量、所述文本特征向量以及所述声纹特征向量进行拼合操作以生成融合特征向量。
  3. 根据权利要求2所述的方法,其中,所述对每个所述数据片段中的训练数据进行特征提取以得到语音特征向量、文本特征向量以及声纹特征向量,包括:
    对每个所述数据片段中的语音数据经过分帧加窗后提取梅尔频谱,并将所述梅尔频谱作为语音特征向量;
    对每个所述数据片段中的文字数据使用Fasttext工具逐帧对文本的词向量进行提取以得到文本特征向量;
    通过TDNN模型对每个所述数据片段中的所述语音数据进行提取以得到声纹特征向量。
  4. 根据权利要求1所述的方法,其中,所述基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型,包括:
    计算所述输出向量的负对数似然概率,并将所述负对数似然概率作为所述流模型的损失函数;
    根据所述损失函数对所述流模型进行训练以得到所述动作姿态生成模型。
  5. 一种动作姿态生成方法,包括:
    获取机器人生成动作姿态所对应的语音信息,并对所述语音信息进行特征提取及第一次特征融合以生成多个逐帧对齐的融合特征向量;
    对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量,其中,所述机器人初始姿态自回归向量为从预设初始姿态动作向量集中提取的预设时间段内的机器人姿态动作向量;
    随机生成一个呈高斯分布的潜在输入向量并将所述潜在输入向量及所述控制输入向量输入如权利要求1-4任一项所述的动作姿态生成模型以生成当前时间的机器人姿态动作向量;
    更新所述预设初始姿态动作向量集中所述当前时间对应的机器人姿态动作向量,并将下一时间作为所述当前时间,返回执行对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量的步骤,直至所有所述融合特征向量与所述机器人初始姿态自回归向量进行第二次特征融合为止;
    将所述预设初始姿态动作向量集作为目标姿态动作向量集,根据所述目标姿态动作向量集生成与所述语音信息相对应的机器人动作姿态。
  6. 根据权利要求5所述的方法,其中,所述将所述预设初始姿态动作向量集作为目标姿 态动作向量集,根据所述目标姿态动作向量集生成与所述语音信息相对应的机器人动作姿态,包括:
    将所述预设初始姿态动作向量集作为目标姿态动作向量集,并将所述目标姿态动作向量集中的所述动作姿态向量与所述预设的骨骼节点坐标向量一一映射以生成与所述语音信息相对应的机器人动作姿态。
  7. 一种模型训练装置,包括:
    第一特征融合单元,用于获取训练动作姿态生成模型所需的训练数据集,并对所述训练数据集中的训练数据进行特征提取及第一次特征融合以生成融合特征向量;
    第二特征融合单元,用于提取所述训练数据中预设时间段内的姿态动作向量作为姿态自回归向量,并对所述姿态自回归向量及所述融合特征向量进行第二次特征融合以生成控制输入向量;
    输入单元,用于提取所述训练数据中预设时刻的所述姿态动作向量作为姿态输入向量,并将所述姿态输入向量及所述控制输入向量输入流模型以得到输出向量,其中,所述预设时刻为所述预设时间段中结束时刻的下一时刻;
    训练单元,用于基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型。
  8. 一种动作姿态生成装置,包括:
    第一特征提取融合单元,用于获取机器人生成动作姿态所对应的语音信息,并对所述语音信息进行特征提取及第一次特征融合以生成多个逐帧对齐的融合特征向量;
    第二特征提取融合单元,用于对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量,其中,所述机器人初始姿态自回归向量为从预设初始姿态动作向量集中提取的预设时间段内的机器人姿态动作向量;
    第一生成单元,用于随机生成一个呈高斯分布的潜在输入向量并将所述潜在输入向量及所述控制输入向量输入如权利要求7所述的动作姿态生成模型以生成当前时间的机器人姿态动作向量;
    更新返回单元,用于更新所述预设初始姿态动作向量集中所述当前时间对应的机器人姿态动作向量,并将下一时间作为所述当前时间,返回执行对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量的步骤,直至所有所述融合特征向量与所述机器人初始姿态自回归向量进行第二次特征融合为止;
    第二生成单元,用于将所述预设初始姿态动作向量集作为目标姿态动作向量集,根据所述目标姿态动作向量集生成与所述语音信息相对应的机器人动作姿态。
  9. 一种计算机设备,包括存储器以及与所述存储器相连的处理器;其中,所述存储器用于存储计算机程序;所述处理器用于运行所述存储器中存储的计算机程序,以执行如下步骤:
    获取训练动作姿态生成模型所需的训练数据集,并对所述训练数据集中的训练数据进行特征提取及第一次特征融合以生成融合特征向量;
    提取所述训练数据中预设时间段内的姿态动作向量作为姿态自回归向量,并对所述姿态自回归向量及所述融合特征向量进行第二次特征融合以生成控制输入向量;
    提取所述训练数据中预设时刻的所述姿态动作向量作为姿态输入向量,并将所述姿态输入向量及所述控制输入向量输入流模型以得到输出向量,其中,所述预设时刻为所述预设时间段中结束时刻的下一时刻;
    基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型。
  10. 根据权利要求9所述的计算机设备,其中,所述获取训练动作姿态生成模型所需的训练数据集,并对所述训练数据集中的训练数据进行特征提取及第一次特征融合以生成融合特征向量,包括:
    获取训练动作姿态生成模型所需的训练数据集,并将所述训练数据集转换为多个预设时间长度的数据片段;
    对每个所述数据片段中的训练数据进行特征提取以得到语音特征向量、文本特征向量以及声纹特征向量;
    将所述语音特征向量、所述文本特征向量以及所述声纹特征向量进行拼合操作以生成融合特征向量。
  11. 根据权利要求10所述的计算机设备,其中,所述对每个所述数据片段中的训练数据进行特征提取以得到语音特征向量、文本特征向量以及声纹特征向量,包括:
    对每个所述数据片段中的语音数据经过分帧加窗后提取梅尔频谱,并将所述梅尔频谱作为语音特征向量;
    对每个所述数据片段中的文字数据使用Fasttext工具逐帧对文本的词向量进行提取以得到文本特征向量;
    通过TDNN模型对每个所述数据片段中的所述语音数据进行提取以得到声纹特征向量。
  12. 根据权利要求9所述的计算机设备,其中,所述基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型,包括:
    计算所述输出向量的负对数似然概率,并将所述负对数似然概率作为所述流模型的损失函数;
    根据所述损失函数对所述流模型进行训练以得到所述动作姿态生成模型。
  13. 一种计算机设备,包括存储器以及与所述存储器相连的处理器;其中,所述存储器用于存储计算机程序;所述处理器用于运行所述存储器中存储的计算机程序,以执行如下步骤:
    获取机器人生成动作姿态所对应的语音信息,并对所述语音信息进行特征提取及第一次特征融合以生成多个逐帧对齐的融合特征向量;
    对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量,其中,所述机器人初始姿态自回归向量为从预设初始姿态动作向量集中提取的预设时间段内的机器人姿态动作向量;
    随机生成一个呈高斯分布的潜在输入向量并将所述潜在输入向量及所述控制输入向量输入如权利要求1-4任一项所述的动作姿态生成模型以生成当前时间的机器人姿态动作向量;
    更新所述预设初始姿态动作向量集中所述当前时间对应的机器人姿态动作向量,并将下一时间作为所述当前时间,返回执行对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量的步骤,直至所有所述融合特征向量与所述机器人初始姿态自回归向量进行第二次特征融合为止;
    将所述预设初始姿态动作向量集作为目标姿态动作向量集,根据所述目标姿态动作向量集生成与所述语音信息相对应的机器人动作姿态。
  14. 根据权利要求13所述的计算机设备,其中,所述将所述预设初始姿态动作向量集作为目标姿态动作向量集,根据所述目标姿态动作向量集生成与所述语音信息相对应的机器人动作姿态,包括:
    将所述预设初始姿态动作向量集作为目标姿态动作向量集,并将所述目标姿态动作向量集中的所述动作姿态向量与所述预设的骨骼节点坐标向量一一映射以生成与所述语音信息相对应的机器人动作姿态。
  15. 一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行以下步骤:
    获取训练动作姿态生成模型所需的训练数据集,并对所述训练数据集中的训练数据进行特征提取及第一次特征融合以生成融合特征向量;
    提取所述训练数据中预设时间段内的姿态动作向量作为姿态自回归向量,并对所述姿态自回归向量及所述融合特征向量进行第二次特征融合以生成控制输入向量;
    提取所述训练数据中预设时刻的所述姿态动作向量作为姿态输入向量,并将所述姿态输入向量及所述控制输入向量输入流模型以得到输出向量,其中,所述预设时刻为所述预设时间段中结束时刻的下一时刻;
    基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型。
  16. 根据权利要求15所述的计算机可读存储介质,其中,所述获取训练动作姿态生成模型所需的训练数据集,并对所述训练数据集中的训练数据进行特征提取及第一次特征融合以生成融合特征向量,包括:
    获取训练动作姿态生成模型所需的训练数据集,并将所述训练数据集转换为多个预设时间长度的数据片段;
    对每个所述数据片段中的训练数据进行特征提取以得到语音特征向量、文本特征向量以及声纹特征向量;
    将所述语音特征向量、所述文本特征向量以及所述声纹特征向量进行拼合操作以生成融合特征向量。
  17. 根据权利要求16所述的计算机可读存储介质,其中,所述对每个所述数据片段中的训练数据进行特征提取以得到语音特征向量、文本特征向量以及声纹特征向量,包括:
    对每个所述数据片段中的语音数据经过分帧加窗后提取梅尔频谱,并将所述梅尔频谱作为语音特征向量;
    对每个所述数据片段中的文字数据使用Fasttext工具逐帧对文本的词向量进行提取以得到文本特征向量;
    通过TDNN模型对每个所述数据片段中的所述语音数据进行提取以得到声纹特征向量。
  18. 根据权利要求15所述的计算机可读存储介质,其中,所述基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型,包括:
    计算所述输出向量的负对数似然概率,并将所述负对数似然概率作为所述流模型的损失函数;
    根据所述损失函数对所述流模型进行训练以得到所述动作姿态生成模型。
  19. 一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行以下步骤:
    获取机器人生成动作姿态所对应的语音信息,并对所述语音信息进行特征提取及第一次特征融合以生成多个逐帧对齐的融合特征向量;
    对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量,其中,所述机器人初始姿态自回归向量为从预设初始姿态动作向量集中提取的预设时间段内的机器人姿态动作向量;
    随机生成一个呈高斯分布的潜在输入向量并将所述潜在输入向量及所述控制输入向量输入如权利要求1-4任一项所述的动作姿态生成模型以生成当前时间的机器人姿态动作向量;
    更新所述预设初始姿态动作向量集中所述当前时间对应的机器人姿态动作向量,并将下一时间作为所述当前时间,返回执行对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量的步骤,直至所有所述融合特征向量与所述机器人初始姿态自回归向量进行第二次特征融合为止;
    将所述预设初始姿态动作向量集作为目标姿态动作向量集,根据所述目标姿态动作向量集生成与所述语音信息相对应的机器人动作姿态。
  20. 根据权利要求19所述的计算机可读存储介质,其中,所述将所述预设初始姿态动作向量集作为目标姿态动作向量集,根据所述目标姿态动作向量集生成与所述语音信息相对应的机器人动作姿态,包括:
    将所述预设初始姿态动作向量集作为目标姿态动作向量集,并将所述目标姿态动作向量集中的所述动作姿态向量与所述预设的骨骼节点坐标向量一一映射以生成与所述语音信息相对应的机器人动作姿态。
PCT/CN2021/097207 2021-04-26 2021-05-31 模型训练方法、动作姿态生成方法、装置、设备及介质 WO2022227208A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110455733.4 2021-04-26
CN202110455733.4A CN113221681B (zh) 2021-04-26 2021-04-26 模型训练方法、动作姿态生成方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
WO2022227208A1 true WO2022227208A1 (zh) 2022-11-03

Family

ID=77089361

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/097207 WO2022227208A1 (zh) 2021-04-26 2021-05-31 模型训练方法、动作姿态生成方法、装置、设备及介质

Country Status (2)

Country Link
CN (1) CN113221681B (zh)
WO (1) WO2022227208A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115550744A (zh) * 2022-11-29 2022-12-30 苏州浪潮智能科技有限公司 一种语音生成视频的方法和装置
CN117456611A (zh) * 2023-12-22 2024-01-26 拓世科技集团有限公司 一种基于人工智能的虚拟人物训练方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109242031A (zh) * 2018-09-20 2019-01-18 北京旷视科技有限公司 姿势优化模型的训练方法、使用方法、装置及处理设备
WO2019192172A1 (zh) * 2018-04-04 2019-10-10 歌尔股份有限公司 一种姿态预测方法、装置和电子设备
US20190318158A1 (en) * 2016-12-14 2019-10-17 South China University Of Technology Multi-pose face feature point detection method based on cascade regression
CN110473284A (zh) * 2019-07-29 2019-11-19 电子科技大学 一种基于深度学习的运动物体三维模型重建方法
CN112200165A (zh) * 2020-12-04 2021-01-08 北京软通智慧城市科技有限公司 模型训练方法、人体姿态估计方法、装置、设备及介质
CN112529073A (zh) * 2020-12-07 2021-03-19 北京百度网讯科技有限公司 模型训练方法、姿态估计方法、装置及电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102252676B (zh) * 2011-05-06 2014-03-12 微迈森惯性技术开发(北京)有限公司 运动姿态数据获取、人体运动姿态追踪方法及相关设备
EP3596664B1 (en) * 2017-06-09 2022-01-12 Deepmind Technologies Limited Generating discrete latent representations of input data items
US20190219994A1 (en) * 2018-01-18 2019-07-18 General Electric Company Feature extractions to model large-scale complex control systems
US11579588B2 (en) * 2018-07-30 2023-02-14 Sap Se Multivariate nonlinear autoregression for outlier detection
KR20200080681A (ko) * 2018-12-27 2020-07-07 삼성전자주식회사 음성 합성 방법 및 장치
CN112489629A (zh) * 2020-12-02 2021-03-12 北京捷通华声科技股份有限公司 语音转写模型、方法、介质及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190318158A1 (en) * 2016-12-14 2019-10-17 South China University Of Technology Multi-pose face feature point detection method based on cascade regression
WO2019192172A1 (zh) * 2018-04-04 2019-10-10 歌尔股份有限公司 一种姿态预测方法、装置和电子设备
CN109242031A (zh) * 2018-09-20 2019-01-18 北京旷视科技有限公司 姿势优化模型的训练方法、使用方法、装置及处理设备
CN110473284A (zh) * 2019-07-29 2019-11-19 电子科技大学 一种基于深度学习的运动物体三维模型重建方法
CN112200165A (zh) * 2020-12-04 2021-01-08 北京软通智慧城市科技有限公司 模型训练方法、人体姿态估计方法、装置、设备及介质
CN112529073A (zh) * 2020-12-07 2021-03-19 北京百度网讯科技有限公司 模型训练方法、姿态估计方法、装置及电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115550744A (zh) * 2022-11-29 2022-12-30 苏州浪潮智能科技有限公司 一种语音生成视频的方法和装置
CN115550744B (zh) * 2022-11-29 2023-03-14 苏州浪潮智能科技有限公司 一种语音生成视频的方法和装置
CN117456611A (zh) * 2023-12-22 2024-01-26 拓世科技集团有限公司 一种基于人工智能的虚拟人物训练方法及系统
CN117456611B (zh) * 2023-12-22 2024-03-29 拓世科技集团有限公司 一种基于人工智能的虚拟人物训练方法及系统

Also Published As

Publication number Publication date
CN113221681A (zh) 2021-08-06
CN113221681B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
WO2020135194A1 (zh) 基于情绪引擎技术的语音交互方法、智能终端及存储介质
US20220013111A1 (en) Artificial intelligence-based wakeup word detection method and apparatus, device, and medium
WO2018133761A1 (zh) 一种人机对话的方法和装置
WO2021134277A1 (zh) 情感识别方法、智能装置和计算机可读存储介质
WO2022227208A1 (zh) 模型训练方法、动作姿态生成方法、装置、设备及介质
US20150325240A1 (en) Method and system for speech input
US11574203B2 (en) Content explanation method and apparatus
WO2020007129A1 (zh) 基于语音交互的上下文获取方法及设备
KR102424085B1 (ko) 기계-보조 대화 시스템 및 의학적 상태 문의 장치 및 방법
CN110223134B (zh) 基于语音识别的产品推荐方法及相关设备
WO2021135457A1 (zh) 基于循环神经网络的情绪识别方法、装置及存储介质
WO2017177484A1 (zh) 一种语音识别解码的方法及装置
JP7178394B2 (ja) 音声信号を処理するための方法、装置、機器、および媒体
WO2019017922A1 (en) AUTOMATED VOICE ACCOMPANIMENT SYSTEMS AND METHODS
CN107909003B (zh) 一种针对大词汇量的手势识别方法
WO2022252890A1 (zh) 交互对象驱动和音素处理方法、装置、设备以及存储介质
EP3493201B1 (en) Information processing device, information processing method, and computer program
US20180033432A1 (en) Voice interactive device and voice interaction method
KR20200018154A (ko) 브이에이이 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법 및 시스템
CN108960191B (zh) 一种面向机器人的多模态融合情感计算方法及系统
JP7201984B2 (ja) アンドロイドのジェスチャ生成装置及びコンピュータプログラム
CN116306612A (zh) 一种词句生成方法及相关设备
JP2022043901A (ja) 対話システム、対話ロボット、プログラム、および情報処理方法
CN110348001B (zh) 一种词向量训练方法和服务器
CN112700862A (zh) 目标科室的确定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21938678

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21938678

Country of ref document: EP

Kind code of ref document: A1