WO2022121185A1 - 模型训练方法、方言识别方法、装置、服务器及存储介质 - Google Patents

模型训练方法、方言识别方法、装置、服务器及存储介质 Download PDF

Info

Publication number
WO2022121185A1
WO2022121185A1 PCT/CN2021/084300 CN2021084300W WO2022121185A1 WO 2022121185 A1 WO2022121185 A1 WO 2022121185A1 CN 2021084300 W CN2021084300 W CN 2021084300W WO 2022121185 A1 WO2022121185 A1 WO 2022121185A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
recognition model
loss value
dialect
target
Prior art date
Application number
PCT/CN2021/084300
Other languages
English (en)
French (fr)
Inventor
罗剑
王健宗
程宁
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2022121185A1 publication Critical patent/WO2022121185A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Definitions

  • the present application relates to the technical field of speech recognition, and in particular, to a model training method, a dialect recognition method, an apparatus, a server and a storage medium.
  • the technical problem to be solved by this application is that the training accuracy of dialect recognition is low.
  • the main purpose of the present application is to provide a model training method, a dialect identification method, a device, a server and a storage medium, which aim to make the training of the dialect identification model simpler and more accurate, so as to make the subsequent dialect identification more accurate.
  • the present application provides a model training method, the model training method is used for training a dialect recognition model, the method is applied to a server, and the dialect recognition model includes a first encoder, a second encoder, a first an attention module, a second attention module, connecting the temporal classifier and the decoder, the method includes:
  • sample data wherein the sample data includes target text and dialect voice sequences and Mandarin voice sequences corresponding to the target text;
  • the target loss value determine whether the dialect recognition model has converged
  • the dialect recognition model does not converge, update the model parameters of the dialect recognition model, and continue to train the updated dialect recognition model until the dialect recognition model converges.
  • the present application also provides a dialect identification method, comprising:
  • the voice feature sequence is input into a preset dialect recognition model to obtain text corresponding to the voice information, wherein the preset dialect recognition model is obtained by training through the model training method described in the specification.
  • the present application further provides a model training device, where the dialect recognition model includes a first encoder, a second encoder, a first attention module, a second attention module, a connection timing classifier and a decoder, the The model training device includes: an acquisition module and a model training module, wherein:
  • the acquisition module is used to acquire sample data, wherein the sample data includes target text and dialect voice sequences and Mandarin voice sequences corresponding to the target text;
  • the model training module is used for:
  • the target loss value determine whether the dialect recognition model has converged
  • the dialect recognition model does not converge, update the model parameters of the dialect recognition model, and continue to train the updated dialect recognition model until the dialect recognition model converges.
  • the present application further provides a server for training a dialect recognition model, where the dialect recognition model includes a first encoder, a second encoder, a first attention module, a second attention module, Connecting a timing classifier and a decoder, the server includes a processor, a memory, and computer-readable instructions stored on the memory and executable by the processor, wherein the computer-readable instructions are executed by the processor When executed, implement the following steps:
  • sample data wherein the sample data includes target text and dialect voice sequences and Mandarin voice sequences corresponding to the target text;
  • the target loss value determine whether the dialect recognition model has converged
  • the dialect recognition model does not converge, update the model parameters of the dialect recognition model, and continue to train the updated dialect recognition model until the dialect recognition model converges.
  • the present application also provides a server, the server comprising a processor, a memory, and computer-readable instructions stored on the memory and executable by the processor, wherein the computer-readable instructions are When the processor executes, the following steps are implemented:
  • the present application further provides a computer-readable storage medium for training a dialect recognition model, where the dialect recognition model includes a first encoder, a second encoder, a first attention A module, a second attention module, a connection sequence classifier and a decoder, the computer-readable storage medium stores computer-readable instructions, wherein when the computer-readable instructions are executed by the processor, the following steps are implemented:
  • sample data wherein the sample data includes target text and dialect voice sequences and Mandarin voice sequences corresponding to the target text;
  • the target loss value determine whether the dialect recognition model has converged
  • the dialect recognition model does not converge, update the model parameters of the dialect recognition model, and continue to train the updated dialect recognition model until the dialect recognition model converges.
  • the present application further provides a computer-readable storage medium, where computer-readable instructions are stored on the computer-readable storage medium, wherein when the computer-readable instructions are executed by a processor, the following steps are implemented:
  • the present application provides a model training method, a dialect recognition method, a device, a server, and a storage medium.
  • the present application obtains sample data; inputs the dialect speech sequence into a first encoder to obtain a first feature vector, and inputs the Mandarin speech sequence into to the second encoder to obtain the second feature vector; input the first feature vector and the second feature vector to the connection sequence classifier to obtain the first text; input the first feature vector to the first attention module to obtain the first the context correlation vector, and input the second feature vector to the second attention module to obtain the second context correlation vector; input the first context correlation vector and the second context correlation vector to the decoder to obtain the second text and the third text.
  • determine the target loss value of the dialect recognition model determine whether the dialect recognition model converges; if the dialect recognition model does not converge, update the dialect recognition model model parameters of the model, and continue to train the updated dialect recognition model until the dialect recognition model converges.
  • the dialect recognition model of this scheme adopts the method of joint training.
  • the dialect voice sequence and the Mandarin voice sequence corresponding to the same target text are input to the dialect recognition model for training, and the training of the attention mechanism and the connection time series classification model can make the input and output between the input and output.
  • the monotonic alignment makes the trained dialect recognition model more accurate.
  • FIG. 1 is a schematic flowchart of steps of a model training method provided by an embodiment of the present application
  • Fig. 2 is the sub-step flow schematic diagram of the model training method in Fig. 1;
  • FIG. 3 is a schematic block diagram of model training provided by an embodiment of the present application.
  • FIG. 4 is a schematic flowchart of steps of a dialect identification method provided by an embodiment of the present application.
  • FIG. 5 is a schematic block diagram of a model training apparatus provided by an embodiment of the present application.
  • FIG. 6 is a schematic block diagram of the structure of a server according to an embodiment of the present application.
  • Embodiments of the present application provide a model training method, a dialect identification method, an apparatus, a server, and a storage medium.
  • the model training method can be applied to a server, and the server can be a single server or a server cluster composed of multiple single servers.
  • FIG. 1 is a schematic flowchart of steps of a model training method provided by an embodiment of the present application.
  • the model training method which is used for training a dialect recognition model, includes steps S101 to S108 .
  • Step S101 acquiring sample data, wherein the sample data includes target text and a dialect voice sequence and a Mandarin voice sequence corresponding to the target text.
  • the sample data includes the target text and the dialect voice sequence and the Mandarin voice sequence corresponding to the target text.
  • the target text is text, for example, the text is "What time is it in the morning?"
  • the dialect voice sequence is a plurality of voice features extracted from the dialect voice corresponding to the target text
  • the Mandarin voice sequence is derived from The speech features extracted from the Mandarin speech corresponding to the target text.
  • the dialect can be Sichuan dialect, Hakka dialect, Gan dialect, Xiang dialect, Min dialect, Jin dialect, Cantonese dialect, etc.
  • the above-mentioned phonetic features include Mel Frequency Cepstrum Coefficient (MFCC), fundamental frequency contour feature , duration feature, energy feature, etc., which are not specifically limited in this application.
  • MFCC Mel Frequency Cepstrum Coefficient
  • the method for determining the dialect voice sequence and the Mandarin voice sequence may be: obtaining the dialect voice corresponding to the target text; taking frames as a unit, taking each Chinese character syllable in the dialect voice according to a sampling window of a preset size, to The dialect voice is sampled to obtain a dialect syllable sequence; the phonetic features of each syllable in the dialect syllable sequence are extracted, and the phonetic features of each syllable are arranged to obtain a dialect phonetic sequence.
  • each Chinese character syllable in the Mandarin speech takes each Chinese character syllable in the Mandarin speech as a unit, sample the Mandarin speech according to a sampling window of a preset size, and obtain a Mandarin syllable sequence; extract the Mandarin syllable sequence
  • the phonetic features of each syllable are arranged and the phonetic features of each syllable are arranged to obtain the Mandarin phonetic sequence.
  • Step S102 Input the dialect voice sequence into the first encoder to obtain a first feature vector, and input the Mandarin voice sequence into the second encoder to obtain a second feature vector.
  • the dialect recognition model includes a first encoder, a second encoder, a first attention module, a second attention module, a connection timing classifier and a decoder
  • the first encoder and the second encoder include a first preset The number of neural networks
  • the decoder includes a second preset number of neural networks
  • the connection sequence classifier includes a third preset number of neural networks.
  • the first preset number, the second preset number, and the third preset number may be selected according to actual conditions, which are not specifically limited in this embodiment of the present application, for example, the first preset number may be 3,
  • the second preset number may be 2
  • the third preset number may be 2
  • the neural network may be selected according to the actual situation, for example, the neural network is a bidirectional long-short-term memory network.
  • the dialect speech sequence is input to the first encoder to obtain the first feature vector
  • the Mandarin speech sequence is input to the second encoder to obtain the second feature vector
  • the first encoder includes a three-layer two-way long-short-term memory network
  • the second encoder includes a three-layer two-way long-short-term memory network
  • the model parameters of the memory network are different.
  • Step S103 Input the first feature vector and the second feature vector into the connection sequence classifier to obtain a first text.
  • connection temporal classification (Connectionist temporal classification, CTC) includes a third preset number of neural networks, and the third preset number can be set according to actual conditions, for example, the third preset number can be 2, the The neural network can be selected as a bidirectional long-term and short-term memory network, and the connected time series classifier includes a double-layer bidirectional long-term and short-term memory network.
  • the first feature vector and the second feature vector are input to the connection sequence classifier to obtain the first text.
  • the blank placeholder ⁇ in the text including the blank placeholder ⁇ is removed to obtain the first text.
  • Step S104 Input the first feature vector into the first attention module to obtain a first contextual association vector, and input the second feature vector into the second attention module to obtain a second contextual association vector.
  • the first feature vector is input to the first attention module to obtain the first contextual association vector.
  • an attention allocation parameter is determined according to the position and context content of each sub-feature vector in the first feature vector, and an attention score corresponding to each sub-feature vector is determined according to the attention allocation parameter, and an attention score corresponding to each sub-feature vector is determined according to the The attention score and each sub-feature vector are used to determine each sub-first contextual correlation vector, and the first contextual correlation vector is obtained according to each sub-first contextual correlation vector.
  • the second feature vector is input to the second attention module to obtain the second contextual association vector.
  • the attention distribution parameter is determined according to the position and context content of each sub-feature vector in the second feature vector
  • the attention score corresponding to each sub-feature vector is determined according to the attention distribution parameter
  • the attention score corresponding to each sub-feature vector is determined according to the The attention score and each sub-feature vector are used to determine each sub-second contextual correlation vector
  • the second contextual correlation vector is obtained according to each sub-second contextual correlation vector.
  • Step S105 Input the first contextual association vector and the second contextual association vector to the decoder to obtain the second text and the third text.
  • the decoder includes a second preset number of neural networks, and the second preset number can be set according to actual conditions.
  • the second preset number can be 2, and the neural network can be selected as a bidirectional long-term memory network , then the decoder includes a two-layer bidirectional long short-term memory network.
  • the decoder includes a feedforward network and a recurrent network
  • the first context association vector is input into the feedforward network and the recurrent network to obtain the second text.
  • the second context association vector is input into the feedforward network and the recurrent network to obtain a third text.
  • the text output by the decoder can be determined accurately and quickly through the feedforward network and recurrent network.
  • Step S106 Determine the target loss value of the dialect recognition model according to the target text, the first text, the second text and the third text.
  • the target loss function of the dialect recognition model is determined by the first loss function of the first attention module or the second attention module, the second loss function connecting the time series classifier and the third loss function of the encoder.
  • step S106 includes sub-steps S1061 to S1064 .
  • Sub-step S1061 Based on the first loss function, determine a first loss value according to the target text and the second text.
  • the target text and the second text are substituted into the first loss function, so as to calculate the first loss value.
  • the first loss function is:
  • L1 is the first loss value
  • x is the dialect speech sequence
  • y * is the second output text, for each character in the second output text
  • a first loss value is determined based on the first loss function and according to the target text and the second text.
  • Sub-step S1062 Based on the second loss function, determine a second loss value according to the target text and the first text.
  • the target text and the first text are substituted into the second loss function, so that the second loss value can be calculated.
  • the second loss function is The L2 is the second loss value
  • the y * is the first text
  • the x is the target text
  • the The calculation formula can be ⁇ t (u) is the forward variable, indicating that all the tail the probability of the prefix;
  • ⁇ t (u) is the backward variable representing all the started
  • the probability of the suffix determines the second loss value according to the target text and the first text.
  • Sub-step S1063 Based on the third loss function, determine a third loss value according to the second text and the third text.
  • the second text and the third text are substituted into the third loss function, so that the third loss value can be calculated.
  • the third loss function is:
  • the U is the position serial number of the character
  • the y u is the text corresponding to the u position serial number in the second text
  • the y′ u is the text corresponding to the u position serial number in the third text.
  • Sub-step S1064 Determine the target loss value of the dialect recognition model according to the first loss value, the second loss value and the third loss value.
  • the minimum value of the target loss function is determined according to the first loss value, the second loss value and the third loss value; the minimum value of the target loss function is determined as the target loss value of the dialect recognition model.
  • Step S107 determine whether the dialect recognition model has converged.
  • the target loss value is greater than the preset threshold; if it is determined that the target loss value is greater than the preset threshold, it is determined that the dialect recognition model has not converged; if it is determined that the target loss value is less than or equal to the preset threshold, it is determined that the dialect recognition model has convergence.
  • the preset threshold may be determined according to the actual situation, which is not specifically limited in this application.
  • Step S108 If the dialect recognition model does not converge, update the model parameters of the dialect recognition model, and continue to train the updated dialect recognition model until the dialect recognition model converges.
  • the dialect recognition model includes a first encoder, a second encoder, a first attention module, a second attention module, a connection sequence classifier and a decoder, and the dialect speech sequence X1 corresponding to the target text is input to
  • the first encoder obtains the first feature vector h1
  • the Mandarin speech sequence X2 corresponding to the target text is input to the second encoder to obtain the second feature vector h2
  • the first feature vector h1 and the second feature vector h2 are input to the connection sequence
  • the classifier obtains the first text Y1 and the fourth text Y2, inputs the first feature vector h1 to the first attention module, obtains the first context correlation vector a1, and inputs the second feature vector h2 to the second attention module , obtain the second context association vector a2; input the first context association vector a1 and
  • the model training method provided by the above embodiment, by obtaining sample data; inputting the dialect voice sequence to the first encoder to obtain the first feature vector, and inputting the Mandarin voice sequence to the second encoder to obtain the second feature vector;
  • the first feature vector and the second feature vector are input to the connection sequence classifier to obtain the first text;
  • the first feature vector is input to the first attention module to obtain the first context correlation vector, and the second feature vector is input to the first text.
  • the second attention module obtains the second context correlation vector; the first context correlation vector and the second context correlation vector are input to the decoder to obtain the second text and the third text; then according to the target text, the first text, the second text and the third text, determine the target loss value of the dialect recognition model; according to the target loss value, determine whether the dialect recognition model converges; if the dialect recognition model does not converge, update the model parameters of the dialect recognition model, and continue to update the dialect recognition model The model is trained until the dialect recognition model converges.
  • the dialect recognition model of this scheme adopts the method of joint training.
  • the dialect voice sequence and the Mandarin voice sequence corresponding to the same target text are input to the dialect recognition model for training, and the training of the attention mechanism and the connection time series classification model can make the input and output between the input and output.
  • the monotonic alignment makes the trained dialect recognition model more accurate.
  • FIG. 4 is a schematic flowchart of steps of a dialect identification method provided by an embodiment of the present application.
  • the dialect identification method includes steps S201 to S202.
  • Step S201 Acquire the voice information to be recognized, and extract a voice feature sequence for the voice information to obtain a voice feature sequence corresponding to the voice information.
  • the voice information to be recognized Acquire the voice information to be recognized, and extract the voice feature sequence for the voice information to obtain the voice feature sequence corresponding to the voice information.
  • the manner of acquiring the voice information to be recognized may be determined according to the actual situation, which is not specifically limited in this application.
  • the voice information to be recognized is the voice information received by the terminal.
  • each Chinese character syllable in the speech information is sampled according to a sampling window of a preset size, and the speech information is sampled to obtain a speech information sequence;
  • the phonetic features are arranged, and the phonetic features of each syllable are arranged to obtain a sequence of phonetic features.
  • Step S202 Input the speech feature sequence into a preset dialect recognition model to obtain text corresponding to the voice information, wherein the preset dialect recognition model is obtained by training through a model training method.
  • the voice feature sequence is input into a preset dialect recognition model to obtain text corresponding to the voice information, wherein the preset dialect recognition model is obtained by training through a model training method.
  • the speech feature sequence is input into a preset dialect recognition model to obtain text corresponding to the voice information, wherein the preset dialect recognition model is obtained by training through a model training method.
  • the voice information to be recognized is obtained, and the voice feature sequence is extracted on the voice information to obtain a voice feature sequence corresponding to the voice information; the voice feature sequence is input into a preset dialect recognition model, and the voice feature sequence is obtained.
  • the text corresponding to the information can quickly obtain the text corresponding to the voice information.
  • FIG. 5 is a schematic block diagram of a model training apparatus provided by an embodiment of the present application.
  • the model training apparatus includes a first encoder, a second encoder, a first attention module, a second attention module, a connection sequence classifier and a decoder
  • the model training apparatus 300 includes: Acquisition module 310 and model training module 320, wherein:
  • the obtaining module 310 is configured to obtain sample data, wherein the sample data includes target text and dialect voice sequences and Mandarin voice sequences corresponding to the target text;
  • the model training module 320 is used for:
  • the target loss value determine whether the dialect recognition model has converged
  • the dialect recognition model does not converge, update the model parameters of the dialect recognition model, and continue to train the updated dialect recognition model until the dialect recognition model converges.
  • model training module 320 is further configured to:
  • a target loss value of the dialect recognition model is determined according to the first loss value, the second loss value and the third loss value.
  • model training module 320 is further configured to:
  • the minimum value of the target loss function is determined as the target loss value of the dialect recognition model.
  • model training module 320 is further configured to:
  • the dialect recognition model has converged.
  • FIG. 6 is a schematic block diagram of the structure of a server according to an embodiment of the present application.
  • the server includes a processor, a memory, and a communication interface connected through a system bus, wherein the memory may include a computer-readable storage medium and an internal memory.
  • the computer-readable storage medium can be non-volatile or volatile, and the computer-readable storage medium can store an operating system and computer-readable instructions.
  • the computer readable instructions when executed, can cause the processor to perform any model training method or dialect recognition method.
  • the processor is used to provide computing and control capabilities to support the operation of the entire server.
  • the internal memory provides an environment for the execution of computer-readable instructions in the computer-readable storage medium.
  • the computer-readable instructions can cause the processor to execute any model training method or dialect recognition method.
  • the server also includes a network interface for network communications.
  • a network interface for network communications.
  • FIG. 6 is only a block diagram of a partial structure related to the solution of the present application, and does not constitute a limitation on the server to which the solution of the present application is applied. More or fewer components are shown in the figures, either in combination or with different arrangements of components.
  • the bus is, for example, an I2C (Inter-integrated Circuit) bus
  • the memory can be a Flash chip, a read-only memory (ROM, Read-Only Memory) magnetic disk, an optical disk, a U disk or a mobile hard disk, etc.
  • the processor can be Central Processing Unit (CPU)
  • the processor can also be other general-purpose processors, digital signal processors (Digital Signal Processors, DSPs), application specific integrated circuits (Application Specific Integrated Circuits, ASICs), field programmable gates Field-Programmable Gate Array (FPGA) or other programmable logic devices, discrete gate or transistor logic devices, discrete hardware components, etc.
  • the general-purpose processor can be a microprocessor or the processor can also be any conventional processor or the like.
  • the processor is configured to execute computer-readable instructions stored in the memory to implement the following steps:
  • sample data wherein the sample data includes target text and dialect voice sequences and Mandarin voice sequences corresponding to the target text;
  • the target loss value determine whether the dialect recognition model has converged
  • the dialect recognition model does not converge, update the model parameters of the dialect recognition model, and continue to train the updated dialect recognition model until the dialect recognition model converges.
  • the first encoder and the second encoder include a first preset number of neural networks
  • the decoder includes a second preset number of neural networks
  • the connection timing classifier includes A third preset number of neural networks, the neural networks including bidirectional long and short-term memory networks.
  • the target loss function of the dialect recognition model is the first loss function of the first attention module or the second attention module, the second loss function of the connection temporal classifier, and the The encoder's third loss function is determined.
  • the processor determines the target loss value of the dialect recognition model according to the target text, the first text, the second text and the third text, the processor is configured to:
  • a target loss value of the dialect recognition model is determined according to the first loss value, the second loss value and the third loss value.
  • the processor when the processor determines the target loss value of the dialect recognition model according to the first loss value, the second loss value and the third loss value, the processor is configured to:
  • the minimum value of the target loss function is determined as the target loss value of the dialect recognition model.
  • the processor determines whether the dialect recognition model converges according to the target loss value, the processor is configured to:
  • the dialect recognition model has converged.
  • the processor is configured to execute computer-readable instructions stored in a memory, further implementing the steps of:
  • the voice feature sequence is input into a preset dialect recognition model to obtain text corresponding to the voice information, wherein the preset dialect recognition model is obtained by training through a model training method.
  • Embodiments of the present application further provide a computer-readable storage medium, where computer-readable instructions are stored on the computer-readable storage medium, and the method implemented when the computer-readable instructions are executed may refer to the model training method of the present application.
  • Various embodiments or dialects identify various embodiments.
  • the computer-readable storage medium may be an internal storage unit of the server described in the foregoing embodiments, such as a hard disk or a memory of the server.
  • the computer-readable storage medium may also be an external storage device of the server, such as a plug-in hard disk, a smart memory card (Smart Media Card, SMC), a secure digital (Secure Digital, SD) card equipped on the server , Flash Card (Flash Card) and so on.

Abstract

本申请提供一种模型训练方法、方言识别方法、装置、服务器及存储介质,该方法包括:获取样本数据,该样本数据包括目标文本和目标文本对应的方言语音序列和普通话语音序列,根据该方言语音序列和普通话语音序列,得到第一文本、第二文本和第三文本,确定方言识别模型的目标损失值,当确定方言识别模型未收敛,则更新方言识别模型的模型参数,并继续对更新后的方言识别模型进行训练,直至方言识别模型收敛使,本方案使方言识别模型的训练更加简便和准确。

Description

模型训练方法、方言识别方法、装置、服务器及存储介质
本申请要求于2020年12月11日提交中国专利局、申请号为202011453440.4、发明名称为“模型训练方法、方言识别方法、装置、服务器及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及语音识别技术领域,尤其涉及一种模型训练方法、方言识别方法、装置、服务器及存储介质。
背景技术
发明人意识到,在语音识别的技术领域,方言识别一直是一个难题,在给定的一段连续语音中,方言中的口音往往的夹杂在所有的语音片段中,而且强弱程度呈现不规则的变化,在早期的语音识别模型中,可以调整发音库和声学模型来实现比较准确的方言识别,但是调整后的声学模型只适用于训练数据中涉及的方言,难以保证来自不同种类的方言都能被准确识别,而且,早期的语言识别模型需要分别训练声学模型和语言模型,带来大量冗余的计算量。
技术问题
本申请所要解决的技术问题为方言识别的训练准确率较低。
技术解决方案
本申请的主要目的在于提供一种模型训练方法、方言识别方法、装置、服务器及存储介质,旨在使方言识别模型的训练更加简便和准确,以使后续的方言识别更加准确。
第一方面,本申请提供一种模型训练方法,所述模型训练方法用于训练方言识别模型,所述方法应用于服务器,所述方言识别模型包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器,所述方法包括:
获取样本数据,其中,所述样本数据包括目标文本和所述目标文本对应的方言语音序列和普通话语音序列;
将所述方言语音序列输入至所述第一编码器,得到第一特征向量,并将所述普通话语音序列输入至所述第二编码器,得到第二特征向量;
将所述第一特征向量和第二特征向量输入至所述连接时序分类器,得到第一文本;
将所述第一特征向量输入至所述第一注意力模块,得到第一上下文关联向量,并将所述第二特征向量输入至所述第二注意力模块,得到第二上下文关联向量;
将所述第一上下文关联向量和第二上下文关联向量输入至所述解码器,得到第二文本和第三文本;
根据目标文本、第一文本、第二文本和第三文本,确定所述方言识别模型的目标损失值;
根据所述目标损失值,确定所述方言识别模型是否收敛;
若所述方言识别模型未收敛,则更新所述方言识别模型的模型参数,并继续对更新后的所述方言识别模型进行训练,直至所述方言识别模型收敛。
第二方面,本申请还提供一种方言识别方法,包括:
获取待识别的语音信息,并对所述语音信息进行语音特征序列提取,得到所述语音信息对应的语音特征序列;
将所述语音特征序列输入至预设方言识别模型中,得到所述语音信息对应的文本,其中,所述预设方言识别模型是通过如说明书所述的模型训练方法进行训练得到的。
第三方面,本申请还提供一种模型训练装置,方言识别模型包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器,所述模型训练装置包括:获取模块和模型训练模块,其中:
所述获取模块,用于获取样本数据,其中,所述样本数据包括目标文本和所述目标文本对应的方言语音序列和普通话语音序列;
所述模型训练模块,用于:
将所述方言语音序列输入至所述第一编码器,得到第一特征向量,并将所述普通话语音序列输入至所述第二编码器,得到第二特征向量;
将所述第一特征向量和第二特征向量输入至所述连接时序分类器,得到第一文本;
将所述第一特征向量输入至所述第一注意力模块,得到第一上下文关联向量,并将所述第二特征向量输入至所述第二注意力模块,得到第二上下文关联向量;
将所述第一上下文关联向量和第二上下文关联向量输入至所述解码器,得到第二文本和第三文本;
根据目标文本、第一文本、第二文本和第三文本,确定所述方言识别模型的目标损失值;
根据所述目标损失值,确定所述方言识别模型是否收敛;
若所述方言识别模型未收敛,则更新所述方言识别模型的模型参数,并继续对更新后的所述方言识别模型进行训练,直至所述方言识别模型收敛。
第四方面,本申请还提供一种服务器,所述服务器用于训练方言识别模型,所述方言识别模型包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器,所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机可读指令,其中所述计算机可读指令被所述处理器执 行时,实现如下步骤:
获取样本数据,其中,所述样本数据包括目标文本和所述目标文本对应于的方言语音序列和普通话语音序列;
将所述方言语音序列输入至所述第一编码器,得到第一特征向量,并将所述普通话语音序列输入至所述第二编码器,得到第二特征向量;
将所述第一特征向量和第二特征向量输入至所述连接时序分类器,得到第一文本;
将所述第一特征向量输入至所述第一注意力模块,得到第一上下文关联向量,并将所述第二特征向量输入至所述第二注意力模块,得到第二上下文关联向量;
将所述第一上下文关联向量和第二上下文关联向量输入至所述解码器,得到第二文本和第三文本;
根据所述目标文本、第一文本、第二文本和第三文本,确定所述方言识别模型的目标损失值;
根据所述目标损失值,确定所述方言识别模型是否收敛;
若所述方言识别模型未收敛,则更新所述方言识别模型的模型参数,并继续对更新后的所述方言识别模型进行训练,直至所述方言识别模型收敛。
第五方面,本申请还提供一种服务器,所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机可读指令,其中所述计算机可读指令被所述处理器执行时,实现如下步骤:
获取待识别的语音信息,并对所述语音信息进行语音特征序列提取,得到所述语音信息对应的语音特征序列;
将所述语音特征序列输入至预设方言识别模型中,得到所述语音信息对应的文本。
第六方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质用于训练方言识别模型,所述方言识别模型包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器,所述计算机可读存储介质上存储有计算机可读指令,其中所述计算机可读指令被处理器执行时,实现如下步骤:
获取样本数据,其中,所述样本数据包括目标文本和所述目标文本对应于的方言语音序列和普通话语音序列;
将所述方言语音序列输入至所述第一编码器,得到第一特征向量,并将所述普通话语音序列输入至所述第二编码器,得到第二特征向量;
将所述第一特征向量和第二特征向量输入至所述连接时序分类器,得到第一文本;
将所述第一特征向量输入至所述第一注意力模块,得到第一上下文关联向量,并将所述第二特征向量输入至所述第二注意力模块,得到第二上下文关联向量;
将所述第一上下文关联向量和第二上下文关联向量输入至所述解码器,得到第二文本和第三文本;
根据所述目标文本、第一文本、第二文本和第三文本,确定所述方言识别模型的目标损失值;
根据所述目标损失值,确定所述方言识别模型是否收敛;
若所述方言识别模型未收敛,则更新所述方言识别模型的模型参数,并继续对更新后的所述方言识别模型进行训练,直至所述方言识别模型收敛。
第七方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,其中所述计算机可读指令被处理器执行时,实现如下步骤:
获取待识别的语音信息,并对所述语音信息进行语音特征序列提取,得到所述语音信息对应的语音特征序列;
将所述语音特征序列输入至预设方言识别模型中,得到所述语音信息对应的文本。
有益效果
本申请提供一种模型训练方法、方言识别方法、装置、服务器、及存储介质,本申请获取样本数据;将方言语音序列输入至第一编码器,得到第一特征向量,并将普通话语音序列输入至第二编码器,得到第二特征向量;将第一特征向量和第二特征向量输入至连接时序分类器,得到第一文本;将第一特征向量输入至第一注意力模块,得到第一上下文关联向量,并将第二特征向量输入至第二注意力模块,得到第二上下文关联向量;将第一上下文关联向量和第二上下文关联向量输入至解码器,得到第二文本和第三文本;然后根据目标文本、第一文本、第二文本和第三文本,确定方言识别模型的目标损失值;根据目标损失值,确定方言识别模型是否收敛;若方言识别模型未收敛,则更新方言识别模型的模型参数,并继续对更新后的方言识别模型进行训练,直至方言识别模型收敛。本方案方言识别模型采用了联合训练的方式,针对同一目标文本对应方言语音序列和普通话语音序列输入至该方言识别模型进行训练,并结合注意力机制和连接时序分类模型训练可以使输入输出之间的单调对齐,使训练出来的方言识别模型识别更加准确。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种模型训练方法的步骤流程示意图;
图2为图1中的模型训练方法的子步骤流程示意图;
图3为本申请实施例提供的模型训练的一示意图框图;
图4为本申请实施例提供的一种方言识别方法的步骤流程示意图;
图5为本申请实施例提供的一种模型训练装置的示意性框图;
图6为本申请实施例提供的一种服务器的结构示意性框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
本发明的实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请实施例提供一种模型训练方法、方言识别方法、装置、服务器及存储介质。其中,该模型训练方法可应用于服务器中,该服务器可以是单台服务器或者是多个单台服务器组成的服务器集群。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1为本申请实施例提供的一种模型训练方法的步骤流程示意图。
如图1所示,该模型训练方法,该模型训练方法用于训练方言识别模型,所述方法包括步骤S101至步骤S108。
步骤S101、获取样本数据,其中,所述样本数据包括目标文本和所述目标文本对应的方言语音序列和普通话语音序列。
其中,样本数据包括目标文本和目标文本对应的方言语音序列和普通话语音序列。该目标文本为文本文字,例如,该文本文字为“现在是上午几点?”,该方言语音序列是从该目标文本对应的方言语音中提取得到的多个语音特征,该普通话语音序列是从该目标文本对应的普通话语音中提取得到的语音特征。其中,该方言可以是川话、客家话、赣语、湘语、闽语、晋语和粤语等等,上述语音特征包括梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)、基频轮廓特征、时长特征和能量特征等,本申请对此不做具体限定。
在一实施例中,方言语音序列和普通话语音序列的确定方式可以为:获取目标文 本对应的方言语音;以帧为单位,将方言语音中的每个汉字音节按照预设大小的采样窗口,对方言语音进行采样,获得一个方言音节序列;提取方言音节序列中的每个音节的语音特征,并对每个音节的语音特征进行排列,得到方言语音序列。类似的,获取目标文本对应的普通话语音;以帧为单位,将普通话语音中的每个汉字音节按照预设大小的采样窗口,对普通话语音进行采样,获得一个普通话音节序列;提取普通话音节序列中的每个音节的语音特征,并对每个音节的语音特征进行排列,得到普通话语音序列。
步骤S102、将所述方言语音序列输入至所述第一编码器,得到第一特征向量,并将所述普通话语音序列输入至所述第二编码器,得到第二特征向量。
其中,方言识别模型包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器,第一编码器和第二编码器包括第一预设数量的神经网络,解码器包括第二预设数量的神经网络,连接时序分类器包括第三预设数量的神经网络。
其中,该第一预设数量、第二预设数量和第三预设数量可以根据实际情况进行选择,本申请实施例对此不做具体限定,例如,该第一预设数量可以为3,该第二预设数量可以为2,第三预设数量可以为2,神经网络可以根据实际情况进行选择,例如,该神经网络为双向长短时记忆网络。
在一实施例中,将方言语音序列输入至第一编码器,得到第一特征向量,并将普通话语音序列输入至第二编码器,得到第二特征向量。可选的,第一编码器包括三层双向长短时记忆网络、第二编码器包括三层双向长短时记忆网络,第一编码器中的双向长短时记忆网络与第二编码器中的双向长短时记忆网络的模型参数不同。
步骤S103、将所述第一特征向量和第二特征向量输入至所述连接时序分类器,得到第一文本。
其中,该连接时序分类器(Connectionist temporal classification,CTC)包括第三预设数量的神经网络,该第三预设数量可以根据实际情况进行设置,例如,该第三预设数量可以为2,该神经网络可以选择为双向长短时记忆网络,则该连接时序分类器包括双层双向长短时记忆网络。
在一实施例中,将第一特征向量和第二特征向量输入至连接时序分类器,得到第一文本。具体地,将该第一特征向量输入至连接时序分类器,该连接时序分类器利用带有空白占位符∈的字符集π=(π 1,π 2,…,π T)得到包括空白占位符∈的文本,将该包括空白占位符∈的文本中的空白占位符∈去除,得到第一文本。
步骤S104、将所述第一特征向量输入至所述第一注意力模块,得到第一上下文关 联向量,并将所述第二特征向量输入至所述第二注意力模块,得到第二上下文关联向量。
在一实施例中,将第一特征向量输入至第一注意力模块,得到第一上下文关联向量。具体地,根据第一特征向量中每个子特征向量的位置和上下文内容,确定注意力分配参数,根据该注意力分配参数,确定每个子特征向量对应的注意力分数,根据每个子特征向量对应的注意力分数和每个子特征向量,确定每个子第一上下文关联向量,根据每个子第一上下文关联向量,得到该第一上下文关联向量。
在一实施例中,将第二特征向量输入至第二注意力模块,得到第二上下文关联向量。具体地,根据第二特征向量中每个子特征向量的位置和上下文内容,确定注意力分配参数,根据该注意力分配参数,确定每个子特征向量对应的注意力分数,根据每个子特征向量对应的注意力分数和每个子特征向量,确定每个子第二上下文关联向量,根据每个子第二上下文关联向量,得到该第二上下文关联向量。
需要说明的是,上述第二上下文关联向量具体生成方式可以参照上述第一上下文关联向量具体生成方式,在此对第二上下文关联向量具体生成方式不做赘述。
步骤S105、将所述第一上下文关联向量和第二上下文关联向量输入至所述解码器,得到第二文本和第三文本。
其中,解码器包括第二预设数量的神经网络,该第二预设数量可以根据实际情况进行设置,例如,该第二预设数量可以为2,该神经网络可以选择为双向长短时记忆网络,则该解码器包括双层双向长短时记忆网络。
在一实施例中,该解码器包括前馈网络和递归网络,将该第一上下文关联向量输入至该前馈网络和递归网络中,得到第二文本。同理将该第二上下文关联向量输入至该前馈网络和递归网络中,得到第三文本。通过该前馈网络和递归网络可以准确且快捷的确定解码器输出的文本。
步骤S106、根据所述目标文本、第一文本、第二文本和第三文本,确定所述方言识别模型的目标损失值。
其中,方言识别模型的目标损失函数是通过第一注意力模块或第二注意力模块的第一损失函数、连接时序分类器的第二损失函数和编码器的第三损失函数确定的。
在一实施例中,如图2所示,步骤S106包括子步骤S1061至子步骤S1064。
子步骤S1061、基于所述第一损失函数,根据所述目标文本和所述第二文本,确定第一损失值。
示例性的,将目标文本和第二文本代入第一损失函数中,从而计算得到第一损失值。其中,第一损失函数为:
Figure PCTCN2021084300-appb-000001
其中,L1为第一损失值,x为方言语音序列,y *为第二输出文本,
Figure PCTCN2021084300-appb-000002
为第二输出文本中每个字符,
Figure PCTCN2021084300-appb-000003
为第二输出文本中每个字符,,基于该第一损失函数,并根据目标文本和第二文本,确定第一损失值。
子步骤S1062、基于所述第二损失函数,根据所述目标文本和所述第一文本,确定第二损失值。
示例性的,将目标文本和第一文本代入第二损失函数中,从而可以计算得到第二损失值。其中,该第二损失函数为
Figure PCTCN2021084300-appb-000004
该L2为第二损失值,该y *为第一文本,该x为目标文本,该
Figure PCTCN2021084300-appb-000005
的计算公式可以为
Figure PCTCN2021084300-appb-000006
α t(u)是前向变量,表示所有以
Figure PCTCN2021084300-appb-000007
尾的
Figure PCTCN2021084300-appb-000008
前缀的概率;β t(u)是后向变量,表示所有以
Figure PCTCN2021084300-appb-000009
开始的
Figure PCTCN2021084300-appb-000010
后缀的概率,基于该第二损失函数,根据目标文本和所述第一文本,确定第二损失值。
子步骤S1063、基于所述第三损失函数,根据所述第二文本和所述第三文本,确定第三损失值。
示例性的,将第二文本和第三文本代入第三损失函数中,从而可以计算得到第三损失值。其中,该第三损失函数为:
Figure PCTCN2021084300-appb-000011
该U为字符的位置序号,该y u为第二文本中u位置序号对应的文本,该y′ u为第三文本中u位置序号对应的文本,基于该第三损失函数,并根据第二文本和第三文本,确定第三损失值。
子步骤S1064、根据所述第一损失值、第二损失值和第三损失值,确定所述方言识别模型的目标损失值。
示例性的,根据第一损失值、第二损失值和第三损失值,确定目标损失函数的最小值;将目标损失函数的最小值确定为方言识别模型的目标损失值。其中,根据第一损失值、第二损失值和第三损失值,确定目标损失函数的最小值的方式可以为:获取目标损失函数,其中,该目标损失函数为L=μ 1L 12L 23L 3,L为目标损失值,μ 1为第一参数,μ 2为第二参数,μ 3为第三参数,L 1为第一损失值,L 2为第二损失值和L 3为第三损失值,μ 123=1;基于该目标损失函数和第一损失值、第二损失值和第三损失值,确定使得该目标损失函数最小的第一参数、第二参数和第三参数的目标取值,然后第一损失值、第二损失值、第三损失值、基于第一参数、第二参数和第三参数的目标取值,确定方言识别模型的目标损失值。
步骤S107、根据所述目标损失值,确定所述方言识别模型是否收敛。
示例性的,确定目标损失值是否大于预设阈值;若确定目标损失值大于预设阈值,则确定方言识别模型未收敛;若确定目标损失值小于或等于预设阈值,则确定方言识别模型已收敛。其中,该预设阈值可以根据实际情况进行确定,本申请对此不做具体限定。
步骤S108、若所述方言识别模型未收敛,则更新所述方言识别模型的模型参数,并继续对更新后的所述方言识别模型进行训练,直至所述方言识别模型收敛。
当确定方言识别模型未收敛,则更新方言识别模型的模型参数,并继续对更新后的方言识别模型进行训练,直至方言识别模型收敛。如图3所示,方言识别模型包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器,目标文本对应的方言语音序列X1输入至第一编码器,得到第一特征向量h1,目标文本对应的普通话语音序列X2输入至第二编码器,得到第二特征向量h2,将第一特征向量h1和第二特征向量h2输入至连接时序分类器,得到第一文本Y1和第四文本Y2,将第一特征向量h1输入至第一注意力模块,得到第一上下文关联向量a1,并将第二特征向量h2输入至第二注意力模块,得到第二上下文关联向量a2;将第一上下文关联向量a1和第二上下文关联向量a2输入至解码器,得到第二文本Y3和第三文本Y4;根据目标文本、第一文本Y1、第二文本Y2和第三文本Y3,可以确定方言识别模型的目标损失值,进而基于目标损失值可以确定是否继续训练方言识别模型。
上述实施例提供的模型训练方法,通过获取样本数据;将方言语音序列输入至第一编码器,得到第一特征向量,并将普通话语音序列输入至第二编码器,得到第二特征向量;将第一特征向量和第二特征向量输入至连接时序分类器,得到第一文本;将第一特征向量输入至第一注意力模块,得到第一上下文关联向量,并将第二特征向量输入至第二注意力模块,得到第二上下文关联向量;将第一上下文关联向量和第二上下文关联向量输入至解码器,得到第二文本和第三文本;然后根据目标文本、第一文本、第二文本和第三文本,确定方言识别模型的目标损失值;根据目标损失值,确定方言识别模型是否收敛;若方言识别模型未收敛,则更新方言识别模型的模型参数,并继续对更新后的方言识别模型进行训练,直至方言识别模型收敛。本方案方言识别模型采用了联合训练的方式,针对同一目标文本对应方言语音序列和普通话语音序列输入至该方言识别模型进行训练,并结合注意力机制和连接时序分类模型训练可以使输入输出之间的单调对齐,使训练出来的方言识别模型识别更加准确。
如图4所示,图4为本申请实施例提供的方言识别方法的步骤流程示意图。
如图4所示,该方言识别方法的包括步骤S201至步骤S202。
步骤S201、获取待识别的语音信息,并对所述语音信息进行语音特征序列提取, 得到所述语音信息对应的语音特征序列。
获取待识别的语音信息,并对语音信息进行语音特征序列提取,得到语音信息对应的语音特征序列。其中,获取待识别的语音信息的方式可以根据实际情况进行确定,本申请对此不做具体限定,例如,该待识别的语音信息为终端接收到的语音信息。
在一实施例中,以帧为单位,将语音信息中的每个汉字音节按照预设大小的采样窗口,对语音信息进行采样,获得一个语音信息序列;提取语音信息序列中的每个音节的语音特征,并对每个音节的语音特征进行排列,得到语音特征序列。
步骤S202、将所述语音特征序列输入至预设方言识别模型中,得到所述语音信息对应的文本,其中,所述预设方言识别模型是通过模型训练方法进行训练得到的。
将该语音特征序列输入至预设方言识别模型中,得到语音信息对应的文本,其中,所述预设方言识别模型是通过模型训练方法进行训练得到的。通过将该语音特征序列输入至预设方言识别模型中,可以快速的得到语音信息对应的文本。
上述实施例提供的方言识别方法,获取待识别的语音信息,并对语音信息进行语音特征序列提取,得到语音信息对应的语音特征序列;将语音特征序列输入至预设方言识别模型中,得到语音信息对应的文本,可以快速的得到语音信息对应的文本。
请参照图5,图5为本申请实施例提供的一种模型训练装置的示意性框图。
如图5所示,所述模型训练装置包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器,所述模型训练装置300包括:获取模块310和模型训练模块320,其中:
所述获取模块310,用于获取样本数据,其中,所述样本数据包括目标文本和所述目标文本对应的方言语音序列和普通话语音序列;
所述模型训练模块320,用于:
将所述方言语音序列输入至所述第一编码器,得到第一特征向量,并将所述普通话语音序列输入至所述第二编码器,得到第二特征向量;
将所述第一特征向量和第二特征向量输入至所述连接时序分类器,得到第一文本;
将所述第一特征向量输入至所述第一注意力模块,得到第一上下文关联向量,并将所述第二特征向量输入至所述第二注意力模块,得到第二上下文关联向量;
将所述第一上下文关联向量和第二上下文关联向量输入至所述解码器,得到第二文本和第三文本;
根据目标文本、第一文本、第二文本和第三文本,确定所述方言识别模型的目标损失值;
根据所述目标损失值,确定所述方言识别模型是否收敛;
若所述方言识别模型未收敛,则更新所述方言识别模型的模型参数,并继续对更新后的所述方言识别模型进行训练,直至所述方言识别模型收敛。
在一实施例中,所述模型训练模块320,还用于:
基于所述第一损失函数,根据所述目标文本和所述第二文本,确定第一损失值;
基于所述第二损失函数,根据所述目标文本和所述第一文本,确定第二损失值;
基于所述第三损失函数,根据所述第二文本和所述第三文本,确定第三损失值;
根据所述第一损失值、第二损失值和第三损失值,确定所述方言识别模型的目标损失值。
在一实施例中,所述模型训练模块320,还用于:
根据所述第一损失值、第二损失值和第三损失值,确定所述目标损失函数的最小值;
将所述目标损失函数的最小值确定为所述方言识别模型的目标损失值。
在一实施例中,所述模型训练模块320,还用于:
确定所述目标损失值是否大于预设阈值;
若确定所述目标损失值大于预设阈值,则确定所述方言识别模型未收敛;
若确定所述目标损失值小于或等于预设阈值,则确定所述方言识别模型已收敛。
请参阅图6,图6为本申请实施例提供的一种服务器的结构示意性框图。
如图6所示,该服务器包括通过系统总线连接的处理器、存储器和通信接口,其中,存储器可以包括计算机可读存储介质和内存储器。
计算机可读存储介质可以是非易失性,也可以是易失性,计算机可读存储介质可存储操作系统和计算机可读指令。该计算机可读指令被执行时,可使得处理器执行任意一种模型训练方法或方言识别方法。
处理器用于提供计算和控制能力,支撑整个服务器的运行。
内存储器为计算机可读存储介质中的计算机可读指令的运行提供环境,该计算机可读指令被处理器执行时,可使得处理器执行任意一种模型训练方法或方言识别方法。
该服务器还包括网络接口,该网络接口用于网络通信。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的服务器的限定,具体的服务器可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,该总线比如为I2C(Inter-integrated Circuit)总线,存储器可以是Flash芯片、只读存储器(ROM,Read-Only Memory)磁盘、光盘、U盘或移动硬盘等,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通 用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机可读指令,以实现如下步骤:
获取样本数据,其中,所述样本数据包括目标文本和所述目标文本对应于的方言语音序列和普通话语音序列;
将所述方言语音序列输入至所述第一编码器,得到第一特征向量,并将所述普通话语音序列输入至所述第二编码器,得到第二特征向量;
将所述第一特征向量和第二特征向量输入至所述连接时序分类器,得到第一文本;
将所述第一特征向量输入至所述第一注意力模块,得到第一上下文关联向量,并将所述第二特征向量输入至所述第二注意力模块,得到第二上下文关联向量;
将所述第一上下文关联向量和第二上下文关联向量输入至所述解码器,得到第二文本和第三文本;
根据所述目标文本、第一文本、第二文本和第三文本,确定所述方言识别模型的目标损失值;
根据所述目标损失值,确定所述方言识别模型是否收敛;
若所述方言识别模型未收敛,则更新所述方言识别模型的模型参数,并继续对更新后的所述方言识别模型进行训练,直至所述方言识别模型收敛。
在一个实施例中,所述第一编码器和所述第二编码器包括第一预设数量的神经网络,所述解码器包括第二预设数量的神经网络,所述连接时序分类器包括第三预设数量的神经网络,所述神经网络包括双向长短时记忆网络。
在一个实施例中,所述方言识别模型的目标损失函数是通过所述第一注意力模块或第二注意力模块的第一损失函数、所述连接时序分类器的第二损失函数和所述编码器的第三损失函数确定的。
在一个实施例中,所述处理器在实现所述根据所述目标文本、第一文本、第二文本和第三文本,确定所述方言识别模型的目标损失值时,用于实现:
基于所述第一损失函数,根据所述目标文本和所述第二文本,确定第一损失值;
基于所述第二损失函数,根据所述目标文本和所述第一文本,确定第二损失值;
基于所述第三损失函数,根据所述第二文本和所述第三文本,确定第三损失值;
根据所述第一损失值、第二损失值和第三损失值,确定所述方言识别模型的目标 损失值。
在一个实施例中,所述处理器在实现所述根据所述第一损失值、第二损失值和第三损失值,确定所述方言识别模型的目标损失值时,用于实现:
根据所述第一损失值、第二损失值和第三损失值,确定所述目标损失函数的最小值;
将所述目标损失函数的最小值确定为所述方言识别模型的目标损失值。
在一个实施例中,所述处理器在实现根据所述目标损失值,确定所述方言识别模型是否收敛时,用于实现:
确定所述目标损失值是否大于预设阈值;
若确定所述目标损失值大于预设阈值,则确定所述方言识别模型未收敛;
若确定所述目标损失值小于或等于预设阈值,则确定所述方言识别模型已收敛。
在一个实施例中,所述处理器用于运行存储在存储器中的计算机可读指令,还实现如下步骤:
获取待识别的语音信息,并对所述语音信息进行语音特征序列提取,得到所述语音信息对应的语音特征序列;
将所述语音特征序列输入至预设方言识别模型中,得到所述语音信息对应的文本,其中,所述预设方言识别模型是通过模型训练方法进行训练得到的。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述服务器的具体工作过程,可以参考前述模型训练方法实施例中的对应过程或方言识别实施例中的对应过程,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被执行时所实现的方法可参照本申请模型训练方法的各个实施例或方言识别各个实施例。
其中,所述计算机可读存储介质可以是前述实施例所述的服务器的内部存储单元,例如所述服务器的硬盘或内存。所述计算机可读存储介质也可以是所述服务器的外部存储设备,例如所述服务器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关 联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (20)

  1. 一种模型训练方法,其中,所述模型训练方法用于训练方言识别模型,所述方法应用于服务器,所述方言识别模型包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器,所述方法包括:
    获取样本数据,其中,所述样本数据包括目标文本和所述目标文本对应于的方言语音序列和普通话语音序列;
    将所述方言语音序列输入至所述第一编码器,得到第一特征向量,并将所述普通话语音序列输入至所述第二编码器,得到第二特征向量;
    将所述第一特征向量和第二特征向量输入至所述连接时序分类器,得到第一文本;
    将所述第一特征向量输入至所述第一注意力模块,得到第一上下文关联向量,并将所述第二特征向量输入至所述第二注意力模块,得到第二上下文关联向量;
    将所述第一上下文关联向量和第二上下文关联向量输入至所述解码器,得到第二文本和第三文本;
    根据所述目标文本、第一文本、第二文本和第三文本,确定所述方言识别模型的目标损失值;
    根据所述目标损失值,确定所述方言识别模型是否收敛;
    若所述方言识别模型未收敛,则更新所述方言识别模型的模型参数,并继续对更新后的所述方言识别模型进行训练,直至所述方言识别模型收敛。
  2. 如权利要求1所述的模型训练方法,其中,所述第一编码器和所述第二编码器包括第一预设数量的神经网络,所述解码器包括第二预设数量的神经网络,所述连接时序分类器包括第三预设数量的神经网络,所述神经网络包括双向长短时记忆网络。
  3. 如权利要求1所述的模型训练方法,其中,所述方言识别模型的目标损失函数是通过所述第一注意力模块或第二注意力模块的第一损失函数、所述连接时序分类器的第二损失函数和所述编码器的第三损失函数确定的。
  4. 如权利要求3所述的模型训练方法,其中,所述根据所述目标文本、第一文本、第二文本和第三文本,确定所述方言识别模型的目标损失值,包括:
    基于所述第一损失函数,根据所述目标文本和所述第二文本,确定第一损失值;
    基于所述第二损失函数,根据所述目标文本和所述第一文本,确定第二损失值;
    基于所述第三损失函数,根据所述第二文本和所述第三文本,确定第三损失值;
    根据所述第一损失值、第二损失值和第三损失值,确定所述方言识别模型的目标损失值。
  5. 如权利要求4所述的模型训练方法,其中,所述根据所述第一损失值、第二损 失值和第三损失值,确定所述方言识别模型的目标损失值,包括:
    根据所述第一损失值、第二损失值和第三损失值,确定所述目标损失函数的最小值;
    将所述目标损失函数的最小值确定为所述方言识别模型的目标损失值。
  6. 如权利要求1-5中任一项所述的模型训练方法,其中,根据所述目标损失值,确定所述方言识别模型是否收敛,包括:
    确定所述目标损失值是否大于预设阈值;
    若确定所述目标损失值大于预设阈值,则确定所述方言识别模型未收敛;
    若确定所述目标损失值小于或等于预设阈值,则确定所述方言识别模型已收敛。
  7. 一种方言识别方法,其中,包括:
    获取待识别的语音信息,并对所述语音信息进行语音特征序列提取,得到所述语音信息对应的语音特征序列;
    将所述语音特征序列输入至预设方言识别模型中,得到所述语音信息对应的文本,其中,所述预设方言识别模型是通过如权利要求1-6中任一项所述的模型训练方法进行训练得到的。
  8. 一种模型训练装置,其中,方言识别模型包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器,所述模型训练装置包括:获取模块和模型训练模块,其中:
    所述获取模块,用于获取样本数据,其中,所述样本数据包括目标文本和所述目标文本对应的方言语音序列和普通话语音序列;
    所述模型训练模块,用于:
    将所述方言语音序列输入至所述第一编码器,得到第一特征向量,并将所述普通话语音序列输入至所述第二编码器,得到第二特征向量;
    将所述第一特征向量和第二特征向量输入至所述连接时序分类器,得到第一文本;
    将所述第一特征向量输入至所述第一注意力模块,得到第一上下文关联向量,并将所述第二特征向量输入至所述第二注意力模块,得到第二上下文关联向量;
    将所述第一上下文关联向量和第二上下文关联向量输入至所述解码器,得到第二文本和第三文本;
    根据目标文本、第一文本、第二文本和第三文本,确定所述方言识别模型的目标损失值;
    根据所述目标损失值,确定所述方言识别模型是否收敛;
    若所述方言识别模型未收敛,则更新所述方言识别模型的模型参数,并继续对更 新后的所述方言识别模型进行训练,直至所述方言识别模型收敛。
  9. 一种服务器,其中,所述服务器用于训练方言识别模型,所述方言识别模型包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器,所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如下步骤:
    获取样本数据,其中,所述样本数据包括目标文本和所述目标文本对应于的方言语音序列和普通话语音序列;
    将所述方言语音序列输入至所述第一编码器,得到第一特征向量,并将所述普通话语音序列输入至所述第二编码器,得到第二特征向量;
    将所述第一特征向量和第二特征向量输入至所述连接时序分类器,得到第一文本;
    将所述第一特征向量输入至所述第一注意力模块,得到第一上下文关联向量,并将所述第二特征向量输入至所述第二注意力模块,得到第二上下文关联向量;
    将所述第一上下文关联向量和第二上下文关联向量输入至所述解码器,得到第二文本和第三文本;
    根据所述目标文本、第一文本、第二文本和第三文本,确定所述方言识别模型的目标损失值;
    根据所述目标损失值,确定所述方言识别模型是否收敛;
    若所述方言识别模型未收敛,则更新所述方言识别模型的模型参数,并继续对更新后的所述方言识别模型进行训练,直至所述方言识别模型收敛。
  10. 如权利要求9所述的服务器,其中,所述第一编码器和所述第二编码器包括第一预设数量的神经网络,所述解码器包括第二预设数量的神经网络,所述连接时序分类器包括第三预设数量的神经网络,所述神经网络包括双向长短时记忆网络。
  11. 如权利要求9所述的服务器,其中,所述方言识别模型的目标损失函数是通过所述第一注意力模块或第二注意力模块的第一损失函数、所述连接时序分类器的第二损失函数和所述编码器的第三损失函数确定的。
  12. 如权利要求11所述的服务器,其中,所述根据所述目标文本、第一文本、第二文本和第三文本,确定所述方言识别模型的目标损失值,包括:
    基于所述第一损失函数,根据所述目标文本和所述第二文本,确定第一损失值;
    基于所述第二损失函数,根据所述目标文本和所述第一文本,确定第二损失值;
    基于所述第三损失函数,根据所述第二文本和所述第三文本,确定第三损失值;
    根据所述第一损失值、第二损失值和第三损失值,确定所述方言识别模型的目标损失值。
  13. 如权利要求12所述的服务器,其中,所述根据所述第一损失值、第二损失值和第三损失值,确定所述方言识别模型的目标损失值,包括:
    根据所述第一损失值、第二损失值和第三损失值,确定所述目标损失函数的最小值;
    将所述目标损失函数的最小值确定为所述方言识别模型的目标损失值。
  14. 如权利要求9-13中任一项所述的服务器,其中,根据所述目标损失值,确定所述方言识别模型是否收敛,包括:
    确定所述目标损失值是否大于预设阈值;
    若确定所述目标损失值大于预设阈值,则确定所述方言识别模型未收敛;
    若确定所述目标损失值小于或等于预设阈值,则确定所述方言识别模型已收敛。
  15. 一种服务器,其中,所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如下步骤:
    获取待识别的语音信息,并对所述语音信息进行语音特征序列提取,得到所述语音信息对应的语音特征序列;
    将所述语音特征序列输入至预设方言识别模型中,得到所述语音信息对应的文本。
  16. 一种计算机可读存储介质,其中,所述计算机可读存储介质用于训练方言识别模型,所述方言识别模型包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时,实现如下步骤:
    获取样本数据,其中,所述样本数据包括目标文本和所述目标文本对应于的方言语音序列和普通话语音序列;
    将所述方言语音序列输入至所述第一编码器,得到第一特征向量,并将所述普通话语音序列输入至所述第二编码器,得到第二特征向量;
    将所述第一特征向量和第二特征向量输入至所述连接时序分类器,得到第一文本;
    将所述第一特征向量输入至所述第一注意力模块,得到第一上下文关联向量,并将所述第二特征向量输入至所述第二注意力模块,得到第二上下文关联向量;
    将所述第一上下文关联向量和第二上下文关联向量输入至所述解码器,得到第二文本和第三文本;
    根据所述目标文本、第一文本、第二文本和第三文本,确定所述方言识别模型的目标损失值;
    根据所述目标损失值,确定所述方言识别模型是否收敛;
    若所述方言识别模型未收敛,则更新所述方言识别模型的模型参数,并继续对更新后的所述方言识别模型进行训练,直至所述方言识别模型收敛。
  17. 如权利要求16所述的计算机可读存储介质,其中,所述第一编码器和所述第二编码器包括第一预设数量的神经网络,所述解码器包括第二预设数量的神经网络,所述连接时序分类器包括第三预设数量的神经网络,所述神经网络包括双向长短时记忆网络。
  18. 如权利要求16所述的计算机可读存储介质,其中,所述方言识别模型的目标损失函数是通过所述第一注意力模块或第二注意力模块的第一损失函数、所述连接时序分类器的第二损失函数和所述编码器的第三损失函数确定的。
  19. 如权利要求18所述的计算机可读存储介质,其中,所述根据所述目标文本、第一文本、第二文本和第三文本,确定所述方言识别模型的目标损失值,包括:
    基于所述第一损失函数,根据所述目标文本和所述第二文本,确定第一损失值;
    基于所述第二损失函数,根据所述目标文本和所述第一文本,确定第二损失值;
    基于所述第三损失函数,根据所述第二文本和所述第三文本,确定第三损失值;
    根据所述第一损失值、第二损失值和第三损失值,确定所述方言识别模型的目标损失值。
  20. 如权利要求19所述的计算机可读存储介质,其中,所述根据所述第一损失值、第二损失值和第三损失值,确定所述方言识别模型的目标损失值,包括:
    根据所述第一损失值、第二损失值和第三损失值,确定所述目标损失函数的最小值;
    将所述目标损失函数的最小值确定为所述方言识别模型的目标损失值。
PCT/CN2021/084300 2020-12-11 2021-03-31 模型训练方法、方言识别方法、装置、服务器及存储介质 WO2022121185A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011453440.4A CN112634867A (zh) 2020-12-11 2020-12-11 模型训练方法、方言识别方法、装置、服务器及存储介质
CN202011453440.4 2020-12-11

Publications (1)

Publication Number Publication Date
WO2022121185A1 true WO2022121185A1 (zh) 2022-06-16

Family

ID=75309831

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/084300 WO2022121185A1 (zh) 2020-12-11 2021-03-31 模型训练方法、方言识别方法、装置、服务器及存储介质

Country Status (2)

Country Link
CN (1) CN112634867A (zh)
WO (1) WO2022121185A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117153152A (zh) * 2023-10-31 2023-12-01 科大讯飞股份有限公司 语音识别方法、装置、设备及存储介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113053367B (zh) * 2021-04-16 2023-10-10 北京百度网讯科技有限公司 语音识别方法、语音识别的模型训练方法以及装置
CN113257227B (zh) * 2021-04-25 2024-03-01 平安科技(深圳)有限公司 语音识别模型性能检测方法、装置、设备及存储介质
CN113160795B (zh) * 2021-04-28 2024-03-05 平安科技(深圳)有限公司 语种特征提取模型训练方法、装置、设备及存储介质
CN113178200B (zh) * 2021-04-28 2024-03-01 平安科技(深圳)有限公司 语音转换方法、装置、服务器及存储介质
CN113239704A (zh) * 2021-05-31 2021-08-10 平安科技(深圳)有限公司 干扰语句生成方法、装置、设备及计算机可读存储介质
CN113239693B (zh) * 2021-06-01 2023-10-27 平安科技(深圳)有限公司 意图识别模型的训练方法、装置、设备及存储介质
CN114596845A (zh) * 2022-04-13 2022-06-07 马上消费金融股份有限公司 语音识别模型的训练方法、语音识别方法及装置
CN115691476B (zh) * 2022-06-06 2023-07-04 腾讯科技(深圳)有限公司 语音识别模型的训练方法、语音识别方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150287405A1 (en) * 2012-07-18 2015-10-08 International Business Machines Corporation Dialect-specific acoustic language modeling and speech recognition
CN106537493A (zh) * 2015-09-29 2017-03-22 深圳市全圣时代科技有限公司 语音识别系统及方法、客户端设备及云端服务器
CN109147772A (zh) * 2018-10-10 2019-01-04 内蒙古工业大学 一种dnn-hmm声学模型参数迁移结构
CN110211565A (zh) * 2019-05-06 2019-09-06 平安科技(深圳)有限公司 方言识别方法、装置及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150287405A1 (en) * 2012-07-18 2015-10-08 International Business Machines Corporation Dialect-specific acoustic language modeling and speech recognition
CN106537493A (zh) * 2015-09-29 2017-03-22 深圳市全圣时代科技有限公司 语音识别系统及方法、客户端设备及云端服务器
CN109147772A (zh) * 2018-10-10 2019-01-04 内蒙古工业大学 一种dnn-hmm声学模型参数迁移结构
CN110211565A (zh) * 2019-05-06 2019-09-06 平安科技(深圳)有限公司 方言识别方法、装置及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117153152A (zh) * 2023-10-31 2023-12-01 科大讯飞股份有限公司 语音识别方法、装置、设备及存储介质
CN117153152B (zh) * 2023-10-31 2024-02-13 科大讯飞股份有限公司 语音识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112634867A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
WO2022121185A1 (zh) 模型训练方法、方言识别方法、装置、服务器及存储介质
WO2021093449A1 (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
CN108766414B (zh) 用于语音翻译的方法、装置、设备和计算机可读存储介质
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
WO2018227781A1 (zh) 语音识别方法、装置、计算机设备及存储介质
US11527240B2 (en) Speech recognition system, speech recognition method and computer program product
CN113811946A (zh) 数字序列的端到端自动语音识别
JP2017058674A (ja) 音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム並びに電子機器
CN109360572B (zh) 通话分离方法、装置、计算机设备及存储介质
WO2022116442A1 (zh) 基于几何学的语音样本筛选方法、装置、计算机设备及存储介质
CN110010136B (zh) 韵律预测模型的训练和文本分析方法、装置、介质和设备
WO2022121180A1 (zh) 模型的训练方法、装置、语音转换方法、设备及存储介质
JP2011248360A (ja) 音声認識装置及び方法
JP2023545988A (ja) トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル
WO2020252935A1 (zh) 声纹验证方法、装置、设备及存储介质
WO2022227190A1 (zh) 语音合成方法、装置、电子设备及存储介质
CN112259089A (zh) 语音识别方法及装置
JP6875819B2 (ja) 音響モデル入力データの正規化装置及び方法と、音声認識装置
JP2019215500A (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
CN115039170A (zh) 端到端语音识别中的专有名词识别
WO2020220824A1 (zh) 识别语音的方法和装置
CN113178192A (zh) 语音识别模型的训练方法、装置、设备及存储介质
WO2022257454A1 (zh) 一种合成语音的方法、装置、终端及存储介质
JP2015049254A (ja) 音声データ認識システム及び音声データ認識方法
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21901901

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21901901

Country of ref document: EP

Kind code of ref document: A1