WO2021208700A1 - 语音数据选择方法、装置、电子设备及存储介质 - Google Patents

语音数据选择方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
WO2021208700A1
WO2021208700A1 PCT/CN2021/083075 CN2021083075W WO2021208700A1 WO 2021208700 A1 WO2021208700 A1 WO 2021208700A1 CN 2021083075 W CN2021083075 W CN 2021083075W WO 2021208700 A1 WO2021208700 A1 WO 2021208700A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice data
standard
data set
score
frame
Prior art date
Application number
PCT/CN2021/083075
Other languages
English (en)
French (fr)
Inventor
罗剑
王健宗
程宁
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021208700A1 publication Critical patent/WO2021208700A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Definitions

  • This application relates to the field of artificial intelligence technology, and in particular to a voice data selection method, device, electronic equipment, and computer-readable storage medium.
  • Speech recognition systems are widely used in various fields, and a large amount of training sample data is usually used to train Deep Neural Networks (DNN) to obtain a speech recognition model. Among them, the selection of training samples is very important.
  • active learning (AL) methods are usually used to select the training samples with the largest amount of information.
  • Traditional AL technologies are mostly based on the uncertainty of the voice data recognized in the voice recognition model, but on the one hand, due to The uncertainty measures used are based on the prediction of a single voice data, so these methods usually cause the samples selected by the AL to be similar or redundant, which reduces the effect of model training.
  • some AL technologies use global features in the sample feature space for measurement. These features indicate that they do not include the category information of the objects in the speech data, so the diversity of the sample semantic space is ignored.
  • a voice data selection method provided in this application includes:
  • the pre-built speech recognition model is trained by using the standard training set to obtain a standard speech recognition model.
  • the present application also provides a voice data selection device, the device includes:
  • the preprocessing module is used to obtain an original voice data set, and perform preprocessing and feature extraction on the voice data in the original voice data set to obtain a standard voice data set;
  • the diversity calculation module is used to calculate the semantic diversity score of each frame of speech data in the standard speech data set, and calculate the speaker diversity score of each frame of speech data;
  • the score calculation module is configured to use the semantic diversity score and the speaker diversity score to obtain the final score of each frame of voice data in the standard voice data set, and to obtain the final score from the original voice data set according to the final score Filter to get the standard training set;
  • the model training module is used to train the pre-built speech recognition model by using the standard training set to obtain the standard speech recognition model.
  • This application also provides an electronic device, which includes:
  • Memory storing at least one instruction
  • the processor executes the instructions stored in the memory to implement the following steps:
  • the pre-built speech recognition model is trained by using the standard training set to obtain a standard speech recognition model.
  • the present application also provides a computer-readable storage medium in which at least one instruction is stored, and the at least one instruction is executed by a processor in an electronic device to implement the following steps:
  • the pre-built speech recognition model is trained by using the standard training set to obtain a standard speech recognition model.
  • FIG. 1 is a schematic flowchart of a voice data selection method provided by an embodiment of this application
  • Figure 2 is a schematic diagram of a detailed implementation process of one of the steps in Figure 1;
  • Figure 3 is a schematic diagram of a detailed implementation process of another step in Figure 1;
  • Figure 4 is a schematic diagram of a detailed implementation process of another step in Figure 1;
  • Fig. 5 is a schematic diagram of a detailed implementation process of another step in Fig. 1;
  • FIG. 6 is a functional module diagram of a voice data selection device provided by an embodiment of this application.
  • FIG. 7 is a schematic structural diagram of an electronic device that implements the voice data selection method provided by an embodiment of the application.
  • the embodiment of the present application provides a method for selecting voice data.
  • the execution subject of the voice data selection method includes, but is not limited to, a server, a terminal, and other electronic devices that can be configured to execute the method provided in the embodiments of the present application.
  • the voice data selection method can be executed by software or hardware installed on a terminal device or a server device, and the software can be a blockchain platform.
  • the server includes but is not limited to: a single server, a server cluster, a cloud server or a cloud server cluster, etc.
  • the voice data selection method includes:
  • the original voice data set includes multiple voice data.
  • the original voice data set may be voice data from different scenarios and different languages.
  • different languages may be Chinese voice data, English voice data, and Japanese voice data
  • different scenarios may be daily conversations, financial consultations, and the like.
  • the preprocessing and feature extraction of the voice data in the original voice data set to obtain a standard voice data set includes:
  • the voice data falls in the high frequency part, and the high frequency part of the voice data can be increased by the pre-emphasis method, so that the voice data The frequency spectrum becomes flat.
  • One of the embodiments of the present application may use a high-pass digital filter whose transfer function is a first-order FIR (Finite Impulse Response, finite-length unit impulse response) to implement the pre-emphasis.
  • FIR Finite Impulse Response
  • the voice data has short-term stability (it can be considered that the voice data is approximately unchanged within 10-30 ms), the voice data can be divided into voice frames by framing processing to improve the stability of the voice data analysis .
  • a preset window function is used to perform a windowing operation on the framed speech data to obtain short-term speech data, and the preset window function may be a Hamming window function.
  • the preprocessing implemented in this application can eliminate the influence of factors such as aliasing and high-order harmonic distortion caused by human vocal organ defects and collection equipment defects on the voice data.
  • the embodiment of the present application uses the preset feature extraction
  • the algorithm extracts the voice feature parameters of the voice data.
  • the preset feature extraction algorithm may be a Mel frequency cepstrum coefficient or a Filter-Bank feature extraction algorithm.
  • the calculation of the semantic diversity score of each frame of speech data in the standard speech data set includes:
  • S22 Calculate the semantic diversity difference value of each frame of voice data in the standard voice data set according to the mixed distribution, and obtain the semantic diversity score.
  • the pre-built speech recognition model can adopt a deep neural network model based on CTC (Connectionist Temporal Classification), and the network structure can adopt LSTM (Long Short-Term Memory)/CNN (Convolutional Neural Networks, convolutional neural network)/GRU (gated recurrent unit, gate recurrent unit) and so on.
  • CTC Connectionist Temporal Classification
  • LSTM Long Short-Term Memory
  • CNN Convolutional Neural Networks, convolutional neural network
  • GRU gated recurrent unit, gate recurrent unit
  • the speech recognition model is used to predict each frame of speech data in the standard speech data set, and the predicted probability P f (c
  • c is the word recognized in each frame of speech data
  • is a model parameter
  • f is each frame of speech data.
  • the determining the mixed distribution of the voice data of each frame according to the prediction probability includes:
  • calculating the semantic diversity difference value of each frame of voice data in the standard voice data set according to the mixed distribution includes:
  • D(S i , S j ) is the semantic diversity difference value of any pair of speech data (S i , S j ),
  • KL is the symmetrical Kullback-Leibler Divergence (symmetrical Kullback-Leibler Divergence), which is an algorithm for quantifying the difference between the two mixed distributions.
  • the semantic diversity score of the voice data in the standard voice data set is obtained by calculating the semantic diversity difference value of any pair of voice data in the standard voice data set:
  • D semantic is the semantic diversity score of the voice data
  • S is the standard voice data set.
  • the calculating the speaker diversity score of each frame of speech data includes:
  • the speaker diversity score is calculated.
  • the standard voice data set includes attributes such as the gender, age, region, accent, mood, tone, and speaking style of the speaker. Taking age as an example, you can first divide several intervals according to age, including children, adolescents, youth, middle-aged, old age and other age categories. Taking regions as an example, it can be divided into several intervals according to geographic location, including East China and South China. For regional categories such as North China, Southwest China, Northeast China, and Northwest China, this embodiment of the application uses mathematical statistical algorithms to calculate the proportion p i of each category i of the standard voice data set.
  • the preset diversity calculation method may be Shannon's diversity index
  • the speaker diversity score is calculated by using the following formula:
  • D speaker is the speaker diversity score
  • w a represents the weight coefficient of different attributes in the speaker information
  • A is the speaker information
  • a is the attribute in the speaker information
  • I is the interval divided according to the attributes.
  • I is the category corresponding to the interval
  • p i is the proportion of the category.
  • the implementation of this application uses the predicted probability of the standard voice data set, uses the symmetric KL divergence method to calculate the semantic diversity of the voice data subset, and collects the speaker information of the standard voice data set, through the Shannon diversity index Calculate the speaker diversity of voice data. According to the semantic diversity and speaker diversity, more suitable and deep neural network training data can be selected, which greatly reduces unnecessary redundant speech data.
  • the S3 specifically includes:
  • the final score of each voice data is calculated by the following method:
  • Socre is the final score
  • is a preset weighing coefficient
  • the ⁇ can weigh the two types of diversity according to actual conditions.
  • the S4 includes:
  • the preset decoding method may use a beam-search method for decoding
  • the alignment function may be a CTC (Connectionist Temporal Classification) alignment function.
  • the embodiment of the present application performs training based on the standard training set. Since the amount of data in the standard training set is small and the diversity is strong, the training speed of the model can be significantly improved, and the computational pressure of the speech recognition system can be reduced.
  • calculating the semantic diversity score of the voice data and calculating the speaker diversity score of the voice data can quantify the semantic diversity and the speaker diversity, and according to the semantic diversity score and the speaker
  • the diversity score is calculated to obtain the final score, and a preset number of voice data is selected as the standard training set according to the final score. Since the amount of data in the standard training set is small and the diversity is strong, the training of the model can be significantly improved Speed reduces the computational pressure of the speech recognition system. Therefore, the embodiments proposed in this application can solve the problem of lack of semantic diversity in voice data.
  • FIG. 6 it is a functional block diagram of a voice data selection device provided by an embodiment of the present application.
  • the voice data selection device 100 described in this application can be installed in an electronic device. According to the implemented functions, the voice data selection device 100 may include a preprocessing module 101, a diversity calculation module 102, a score calculation module 103, and a model training module 104.
  • the module described in this application can also be referred to as a unit, which refers to a series of computer program segments that can be executed by the processor of an electronic device and can complete fixed functions, and are stored in the memory of the electronic device.
  • each module/unit is as follows:
  • the preprocessing module 101 is configured to obtain a set of original voice data, and perform preprocessing and feature extraction on the voice data in the original voice data set to obtain a standard voice data set.
  • the original voice data set includes multiple voice data.
  • the original voice data set may be voice data from different scenarios and different languages.
  • different languages may be Chinese voice data, English voice data, and Japanese voice data
  • different scenarios may be daily conversations, financial consultations, and the like.
  • the preprocessing module 101 obtains the standard voice data set through the following operations:
  • a preset feature extraction algorithm is used to perform feature extraction on the preprocessed voice data to obtain voice feature parameters, and the voice feature parameters are summarized to obtain the standard voice data set.
  • the voice data falls in the high frequency part, and the high frequency part of the voice data can be increased by the pre-emphasis method, so that the voice data The frequency spectrum becomes flat.
  • One of the embodiments of the present application may use a high-pass digital filter whose transfer function is a first-order FIR (Finite Impulse Response, finite-length unit impulse response) to implement the pre-emphasis.
  • FIR Finite Impulse Response
  • the voice data has short-term stability (it can be considered that the voice data is approximately unchanged within 10-30 ms), the voice data can be divided into voice frames by framing processing to improve the stability of the voice data analysis .
  • a preset window function is used to perform a windowing operation on the framed speech data to obtain short-term speech data, and the preset window function may be a Hamming window function.
  • the preprocessing implemented in this application can eliminate the influence of factors such as aliasing and high-order harmonic distortion caused by human vocal organ defects and collection equipment defects on the voice data.
  • the embodiment of the present application uses the preset feature extraction
  • the algorithm extracts the voice feature parameters of the voice data.
  • the preset feature extraction algorithm may be a Mel frequency cepstrum coefficient or a Filter-Bank feature extraction algorithm.
  • the diversity calculation module 102 is used to calculate the semantic diversity score of each frame of speech data in the standard speech data set, and calculate the speaker diversity score of each frame of speech data.
  • the diversity calculation module 102 obtains the semantic diversity score through the following operations:
  • the pre-built speech recognition model can adopt a deep neural network model based on CTC (Connectionist Temporal Classification), and the network structure can adopt LSTM (Long Short-Term Memory)/CNN (Convolutional Neural Networks, convolutional neural network)/GRU (gated recurrent unit, gate recurrent unit) and so on.
  • CTC Connectionist Temporal Classification
  • LSTM Long Short-Term Memory
  • CNN Convolutional Neural Networks, convolutional neural network
  • GRU gated recurrent unit, gate recurrent unit
  • the speech recognition model is used to predict each frame of speech data in the standard speech data set, and the predicted probability P f (c
  • c is the word recognized in each frame of speech data
  • is a model parameter
  • f is each frame of speech data.
  • the determining the mixed distribution of the voice data of each frame according to the prediction probability includes:
  • calculating the semantic diversity difference value of each frame of voice data in the standard voice data set according to the mixed distribution includes:
  • D(S i , S j ) is the semantic diversity difference value of any pair of speech data (S i , S j ),
  • KL is the symmetrical Kullback-Leibler Divergence (symmetrical Kullback-Leibler Divergence), which is an algorithm for quantifying the difference between the two mixed distributions.
  • the semantic diversity score of the voice data in the standard voice data set is obtained by calculating the semantic diversity difference value of any pair of voice data in the standard voice data set:
  • D semantic is the semantic diversity score of the voice data
  • S is the standard voice data set.
  • the diversity calculation module 102 obtains the speaker diversity score through the following operations:
  • the speaker diversity score is calculated.
  • the standard voice data set includes attributes such as the gender, age, region, accent, mood, tone, and speaking style of the speaker. Taking age as an example, you can first divide several intervals according to age, including children, adolescents, youth, middle-aged, old age and other age categories. Taking regions as an example, it can be divided into several intervals according to geographic location, including East China and South China. For regional categories such as North China, Southwest China, Northeast China, and Northwest China, this embodiment of the application uses mathematical statistical algorithms to calculate the proportion p i of each category i of the standard voice data set.
  • the preset diversity calculation method may be Shannon's diversity index
  • the speaker diversity score is calculated by using the following formula:
  • D speaker is the speaker diversity score
  • w a represents the weight coefficient of different attributes in the speaker information
  • A is the speaker information
  • a is the attribute in the speaker information
  • I is the interval divided according to the attributes.
  • I is the category corresponding to the interval
  • p i is the proportion of the category.
  • the implementation of this application uses the predicted probability of the standard voice data set, uses the symmetric KL divergence method to calculate the semantic diversity of the voice data subset, and collects the speaker information of the standard voice data set, through the Shannon diversity index Calculate the speaker diversity of voice data. According to the semantic diversity and speaker diversity, more suitable and deep neural network training data can be selected, which greatly reduces unnecessary redundant speech data.
  • the score calculation module 103 is configured to use the semantic diversity score and the speaker diversity score to obtain the final score of each frame of voice data in the standard voice data set, and obtain the final score from the original voice data according to the final score.
  • the standard training set is filtered from the speech data set.
  • the score calculation module 103 obtains the standard training set through the following operations:
  • a preset number of voice data is selected as the standard training set.
  • the final score of each voice data is calculated by the following method:
  • Socre is the final score
  • is a preset weighing coefficient
  • the ⁇ can weigh the two types of diversity according to actual conditions.
  • the model training module 104 is configured to use the standard training set to train a pre-built speech recognition model to obtain a standard speech recognition model.
  • the model training module 104 obtains the standard speech recognition model through the following operations:
  • the prediction probability is decoded according to a preset decoding method, and when the decoded data causes the alignment function in the speech recognition model to converge, the standard speech recognition model is obtained.
  • the preset decoding method may use a beam-search method for decoding
  • the alignment function may be a CTC (Connectionist Temporal Classification) alignment function.
  • the embodiment of the present application performs training based on the standard training set. Since the amount of data in the standard training set is small and the diversity is strong, the training speed of the model can be significantly improved, and the computational pressure of the speech recognition system can be reduced.
  • FIG. 7 it is a schematic structural diagram of an electronic device for implementing a voice data selection method provided by an embodiment of the present application.
  • the electronic device 1 may include a processor 10, a memory 11, and a bus, and may also include a computer program stored in the memory 11 and running on the processor 10, such as a voice data selection program 12.
  • the memory 11 includes at least one type of readable storage medium, and the readable storage medium includes flash memory, mobile hard disk, multimedia card, card-type memory (for example: SD or DX memory, etc.), magnetic memory, magnetic disk, CD etc.
  • the memory 11 may be an internal storage unit of the electronic device 1 in some embodiments, for example, a mobile hard disk of the electronic device 1.
  • the memory 11 may also be an external storage device of the electronic device 1, such as a plug-in mobile hard disk, a smart media card (SMC), and a secure digital (Secure Digital) equipped on the electronic device 1. , SD) card, flash card (Flash Card), etc.
  • the memory 11 may also include both an internal storage unit of the electronic device 1 and an external storage device.
  • the memory 11 can be used not only to store application software and various data installed in the electronic device 1, such as the code of the voice data selection program 12, etc., but also to temporarily store data that has been output or will be output.
  • the processor 10 may be composed of integrated circuits in some embodiments, for example, may be composed of a single packaged integrated circuit, or may be composed of multiple integrated circuits with the same function or different functions, including one or more Combinations of central processing unit (CPU), microprocessor, digital processing chip, graphics processor, and various control chips, etc.
  • the processor 10 is the control unit of the electronic device, which uses various interfaces and lines to connect the various components of the entire electronic device, and runs or executes programs or modules (such as voice) stored in the memory 11 Data selection programs, etc.), and call data stored in the memory 11 to execute various functions of the electronic device 1 and process data.
  • the bus may be a peripheral component interconnect standard (PCI) bus or an extended industry standard architecture (EISA) bus, etc.
  • PCI peripheral component interconnect standard
  • EISA extended industry standard architecture
  • the bus can be divided into address bus, data bus, control bus and so on.
  • the bus is configured to implement connection and communication between the memory 11 and at least one processor 10 and the like.
  • FIG. 7 only shows an electronic device with components. Those skilled in the art can understand that the structure shown in FIG. 7 does not constitute a limitation on the electronic device 1, and may include fewer or more components than shown in the figure. Components, or combinations of certain components, or different component arrangements.
  • the electronic device 1 may also include a power source (such as a battery) for supplying power to various components.
  • the power source may be logically connected to the at least one processor 10 through a power management device, thereby controlling power
  • the device implements functions such as charge management, discharge management, and power consumption management.
  • the power supply may also include any components such as one or more DC or AC power supplies, recharging devices, power failure detection circuits, power converters or inverters, and power status indicators.
  • the electronic device 1 may also include various sensors, Bluetooth modules, Wi-Fi modules, etc., which will not be repeated here.
  • the electronic device 1 may also include a network interface.
  • the network interface may include a wired interface and/or a wireless interface (such as a WI-FI interface, a Bluetooth interface, etc.), which is usually used in the electronic device 1 Establish a communication connection with other electronic devices.
  • the electronic device 1 may also include a user interface.
  • the user interface may be a display (Display) and an input unit (such as a keyboard (Keyboard)).
  • the user interface may also be a standard wired interface or a wireless interface.
  • the display may be an LED display, a liquid crystal display, a touch-sensitive liquid crystal display, an OLED (Organic Light-Emitting Diode, organic light-emitting diode) touch device, etc.
  • the display can also be appropriately called a display screen or a display unit, which is used to display the information processed in the electronic device 1 and to display a visualized user interface.
  • the voice data selection program 12 stored in the memory 11 in the electronic device 1 is a combination of multiple instructions. When running in the processor 10, it can realize:
  • the pre-built speech recognition model is trained by using the standard training set to obtain a standard speech recognition model.
  • the integrated module/unit of the electronic device 1 can be stored in a computer readable storage medium. It can be non-volatile or volatile.
  • the computer-readable medium may include: any entity or device capable of carrying the computer program code, recording medium, U disk, mobile hard disk, magnetic disk, optical disk, computer memory, read-only memory (ROM, Read-Only Memory) .
  • modules described as separate components may or may not be physically separated, and the components displayed as modules may or may not be physical units, that is, they may be located in one place, or they may be distributed on multiple network units. Some or all of the modules can be selected according to actual needs to achieve the objectives of the solutions of the embodiments.
  • the functional modules in the various embodiments of the present application may be integrated into one processing unit, or each unit may exist alone physically, or two or more units may be integrated into one unit.
  • the above-mentioned integrated unit may be implemented in the form of hardware, or may be implemented in the form of hardware plus software functional modules.
  • the blockchain referred to in this application is a new application mode of computer technology such as distributed data storage, point-to-point transmission, consensus mechanism, and encryption algorithm.
  • Blockchain essentially a decentralized database, is a series of data blocks associated with cryptographic methods. Each data block contains a batch of network transaction information for verification. The validity of the information (anti-counterfeiting) and the generation of the next block.
  • the blockchain can include the underlying platform of the blockchain, the platform product service layer, and the application service layer.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种语音数据选择方法、一种语音数据选择装置(100)、电子设备(1)以及计算机可读存储介质,涉及人工智能技术,语音数据选择方法包括:获取原始语音数据集合,对原始语音数据集合中的语音数据进行预处理及特征提取,得到标准语音数据集合(S1),计算标准语音数据集合中的语音数据的语义多样性分数及说话人多样性分数(S2),利用语义多样性分数及说话人多样性分数得到各个语音数据的最终分数,并根据最终分数得到标准训练集(S3),利用标准训练集对预构建的语音识别模型进行训练,得到标准语音识别模型(S4)。还涉及区块链技术,标准训练集可存储于区块链的节点。可以解决语音数据缺乏语义多样性的问题。

Description

语音数据选择方法、装置、电子设备及存储介质
本申请要求于2020年11月23日提交中国专利局、申请号为CN202011320979.2、名称为“语音数据选择方法、装置、电子设备及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种语音数据选择方法、装置、电子设备及计算机可读存储介质。
背景技术
语音识别系统广泛应用于各种领域,通常需要使用大量训练样本数据对深度神经网络(Deep Neural Network,DNN)进行训练,得到语音识别模型。其中,训练样本的选择至关重要。现有技术下,通常使用主动学习(Active Learning,AL)的方法来选择信息量最大的训练样本,传统的AL技术大多基于语音识别模型中识别出的语音数据的不确定性,但是一方面由于采用的不确定性度量都是基于单个语音数据的预测,因此这些方法通常会导致AL选择出的样本相似或者冗余,降低了模型训练效果。另一方面,有些AL技术使用样本特征空间中的全局特征进行度量,这些特征表示没有包含语音数据中组成对象的类别信息,因此忽视了样本语义空间的多样性。
发明内容
本申请提供的一种语音数据选择方法,包括:
获取原始语音数据集合,对所述原始语音数据集合中的语音数据进行预处理及特征提取,得到标准语音数据集合;
计算所述标准语音数据集合中每帧语音数据的语义多样性分数,及计算所述每帧语音数据的说话人多样性分数;
利用所述语义多样性分数及所述说话人多样性分数得到所述标准语音数据集合中每帧语音数据的最终分数,并根据所述最终分数从所述原始语音数据集合中筛选得到标准训练集;
利用所述标准训练集对预构建的语音识别模型进行训练,得到标准语音识别模型。
本申请还提供一种语音数据选择装置,所述装置包括:
预处理模块,用于获取原始语音数据集合,对所述原始语音数据集合中的语音数据进行预处理及特征提取,得到标准语音数据集合;
多样性计算模块,用于计算所述标准语音数据集合中每帧语音数据的语义多样性分数,及计算所述每帧语音数据的说话人多样性分数;
分数计算模块,用于利用所述语义多样性分数及所述说话人多样性分数得到所述标准语音数据集合中每帧语音数据的最终分数,并根据所述最终分数从所述原始语音数据集合中筛选得到标准训练集;
模型训练模块,用于利用所述标准训练集对预构建的语音识别模型进行训练,得到标准语音识别模型。
本申请还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现如下步骤:
获取原始语音数据集合,对所述原始语音数据集合中的语音数据进行预处理及特征提取,得到标准语音数据集合;
计算所述标准语音数据集合中每帧语音数据的语义多样性分数,及计算所述每帧语音 数据的说话人多样性分数;
利用所述语义多样性分数及所述说话人多样性分数得到所述标准语音数据集合中每帧语音数据的最终分数,并根据所述最终分数从所述原始语音数据集合中筛选得到标准训练集;
利用所述标准训练集对预构建的语音识别模型进行训练,得到标准语音识别模型。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现如下步骤:
获取原始语音数据集合,对所述原始语音数据集合中的语音数据进行预处理及特征提取,得到标准语音数据集合;
计算所述标准语音数据集合中每帧语音数据的语义多样性分数,及计算所述每帧语音数据的说话人多样性分数;
利用所述语义多样性分数及所述说话人多样性分数得到所述标准语音数据集合中每帧语音数据的最终分数,并根据所述最终分数从所述原始语音数据集合中筛选得到标准训练集;
利用所述标准训练集对预构建的语音识别模型进行训练,得到标准语音识别模型。
附图说明
图1为本申请一实施例提供的语音数据选择方法的流程示意图;
图2为图1中其中一个步骤的详细实施流程示意图;
图3为图1中另一个步骤的详细实施流程示意图;
图4为图1中另一个步骤的详细实施流程示意图;
图5为图1中另一个步骤的详细实施流程示意图;
图6为本申请一实施例提供的语音数据选择装置的功能模块图;
图7为本申请一实施例提供的实现所述语音数据选择方法的电子设备的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种语音数据选择方法。所述语音数据选择方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述语音数据选择方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
参照图1所示,为本申请一实施例提供的语音数据选择方法的流程示意图。在本实施例中,所述语音数据选择方法包括:
S1、获取原始语音数据集合,对所述原始语音数据集合中的语音数据进行预处理及特征提取,得到标准语音数据集合。
本申请实施例中,所述原始语音数据集中包含多个语音数据。所述原始语音数据集合可以为来自不同场景、不同语言的语音数据,比如,不同语言可以为中文语音数据、英语语音数据及日语语音数据等,不同场景可以为日常对话、金融咨询等。
较佳地,参考图2所示,所述对所述原始语音数据集合中的语音数据进行预处理及特征提取,得到标准语音数据集合,包括:
S10、对所述原始语音数据集合中的语音数据进行预加重、分帧及加窗操作,得到预处理语音数据;
S11、利用预设的特征提取算法对所述预处理语音数据进行特征提取,得到语音特征参数,并汇总所述语音特征参数得到所述标准语音数据集合。
由于所述语音数据的平均功率谱受声门刺激和口鼻辐射的影响,使得所述语音数据在高频部分跌落,利用预加重的方法可以提高所述语音数据的高频部分,使得语音数据的频谱变得平坦。本申请其中一个实施例可以使用传递函数为一阶FIR(Finite Impulse Response,有限长单位冲激响应)的高通数字滤波器来实现所述预加重。进一步地,由于所述语音数据具有短时平稳性(10—30ms内可以认为语音数据近似不变),利用分帧处理可以把语音数据分为语音帧,以提高所述语音数据分析的稳定性。此外,本申请实施例利用预设的窗函数对所述分帧的语音数据进行加窗操作,以获得短时的语音数据,所述预设的窗函数可以为汉明窗函数。
本申请实施通过所述预处理可以消除因为人类发声器官缺陷和采集设备缺陷带来的混叠、高次谐波失真等因素对所述语音数据的影响。
进一步地,由于在语音识别中,语音数据的原始波形不能直接用于识别,必须经过一定的变换提取反应语音本质特征的语音特征参数来进行识别,因此,本申请实施例利用预设的特征提取算法提取所述语音数据的语音特征参数。较佳地,所述预设的特征提取算法可以为梅尔频率倒谱系数或Filter-Bank特征提取算法。
S2、计算所述标准语音数据集合中每帧语音数据的语义多样性分数,及计算所述每帧语音数据的说话人多样性分数。
较佳地,参考图3所示,所述计算所述标准语音数据集合中每帧语音数据的语义多样性分数,包括:
S20、利用预构建的语音识别模型计算所述标准语音数据集合中每帧语音数据的预测概率;
S21、根据所述预测概率确定所述每帧语音数据的混合分布;
S22、根据所述混合分布计算所述标准语音数据集合中每帧语音数据的语义多样性差别值,并得到所述语义多样性分数。
优选地,所述预构建的语音识别模型可以采用基于CTC(Connectionist Temporal Classification,联结主义时间分类)的深度神经网络模型,网络结构可采用LSTM(Long Short-Term Memory,长短期记忆网络)/CNN(Convolutional Neural Networks,卷积神经网络)/GRU(gated recurrent unit,门循环单元)等。
本申请实施例利用所述语音识别模型对所述标准语音数据集合中的每一帧语音数据进行预测,输出所述语音数据的预测概率P f(c|θ):
其中,c是所述每一帧语音数据中识别的字,θ为模型参数,f为每一帧语音数据。
进一步地,本申请实施例中,所述根据所述预测概率确定所述每帧语音数据的混合分布包括:
采用下述公式计算所述每帧语音数据的混合分布:
Figure PCTCN2021083075-appb-000001
Figure PCTCN2021083075-appb-000002
其中,
Figure PCTCN2021083075-appb-000003
为语音数据S中对识别出的每一个字c的混合分布描述,f为其中一帧语音数据,w f为其中一帧语音数据的权重,S为所述标准语音数据集合,P f(c|θ)为每一帧的预测概率,c为每一帧语音数据中识别的字,C为识别的字的集合,∈为定值,使得所述权重始终非负。
本申请实施例中,根据所述混合分布计算所述标准语音数据集合中每帧语音数据的语义多样性差别值,包括:
利用下述公式计算所述语义多样性差别值:
Figure PCTCN2021083075-appb-000004
其中,D(S i,S j)为任意一对语音数据(S i,S j)的语义多样性差别值,
Figure PCTCN2021083075-appb-000005
为所述语音数据对中识别的字c的混合分布,KL为对称K-L散度(symmetrical Kullback-Leibler Divergence),是一种量化两种混合分布之间差异的算法。
进一步地,本申请实施例通过计算所述标准语音数据集合内任意一对语音数据的语义多样性差别值,得到所述标准语音数据集合中语音数据的语义多样性分数:
Figure PCTCN2021083075-appb-000006
其中,D semantic为语音数据的语义多样性分数,S为标准语音数据集合。
进一步地,所述计算所述每帧语音数据的说话人多样性分数,包括:
提取所述语音数据中的说话人信息;
根据所述说话人信息中不同属性的数据,计算说话人的属性类别比例;
根据所述说话人的属性类别比例及预设的多样性计算方法,计算得到所述说话人多样性分数。
本申请实施例中,所述标准语音数据集合中包括说话人的性别、年龄、区域、口音、情绪、声调和说话方式等属性。以年纪为例,可以先按年龄大小划分出几个区间,包括少儿,青少年,青年,中年,老年等年龄类别,以区域为例,可以按照地理位置划分为几个区间,包括华东、华南、华北、西南、东北、西北等区域类别,本申请实施例利用数学统计算法统计出所述标准语音数据集合各个类别i的比例p i
进一步地,本申请实施例中,所述预设的多样性计算方法可以为香农多样性指数(Shannon's diversity index),并利用下述公式计算得到所述说话人多样性分数:
Figure PCTCN2021083075-appb-000007
其中,D speaker为说话人多样性分数,w a代表说话人信息中不同属性的权重系数,A为说话人信息,a为所述说话人信息中的属性,I为根据所述属性划分的区间,i为所述区间对应的类别,p i为所述类别的比例。
本申请实施通过使用所述标准语音数据集合的预测概率,使用对称KL散度的方式计算语音数据子集的语义多样性,并收集所述标准语音数据集合的说话人信息,通过香农多样性指数计算语音数据的说话人多样性。根据所述语义多样性以及说话人多样性可以选择出更适和深度神经网络训练数据,极大地减少不必要冗余的语音数据。
S3、利用所述语义多样性分数及所述说话人多样性分数得到所述标准语音数据集合中每帧语音数据的最终分数,并根据所述最终分数从所述原始语音数据集合中筛选得到标准训练集。
较佳地,参阅图4所示,所述S3具体包括:
S30、获取所述标准语音数据集合中各帧语音数据的语义多样性分数及说话人多样性分数;
S31、利用所述语义多样性分数及所述说话人多样性分数计算每个语音数据的最终分数;
S32、从所述标准语音数据集合中根据所述最终分数的排序,选择预设数量的语音数据作为所述标准训练集。
本申请实施例中,通过下述方法计算每个语音数据的所述最终分数:
Socre=D semantic+βD speaker
其中,Socre为所述最终分数,β为预设权衡系数,所述β可以根据实际情况对两类多样性进行权衡。
S4、利用所述标准训练集对预构建的语音识别模型进行训练,得到标准语音识别模型。
较佳地,参阅图5所示,所述S4包括:
S40、利用所述预构建的语音识别模型计算所述标准训练集中每帧语音数据的预测概率;
S41、根据预设的解码方法对所述预测概率进行解码处理,当解码后的数据使得所述语音识别模型中的对齐函数收敛时,得到所述标准语音识别模型。
其中,所述预设的解码方法可以使用束搜索(beam-search)的方法进行解码,所述对齐函数可以为CTC(Connectionist Temporal Classification,联结主义时间分类)对齐函数。
优选地,本申请实施例基于所述标准训练集进行训练,由于所述标准训练集中的数据量较小且多样性较强,可以显著提高模型的训练速度,减少了语音识别系统的计算压力。
本申请通过对原始语音数据集合中的语音数据进行预处理,可以消除因为人类发声器官缺陷和采集设备缺陷等因素对所述语音数据的影响。同时,计算所述语音数据的语义多样性分数,及计算所述语音数据的说话人多样性分数,可以对语义多样性及说话人多样性进行量化,并根据所述语义多样性分数和说话人多样性分数计算得到最终分数,根据所述最终分数选择预设数量的语音数据作为所述标准训练集,由于所述标准训练集中的数据量较小且多样性较强,可以显著提高模型的训练速度,减少了语音识别系统的计算压力。因此本申请提出的实施例可以解决语音数据缺乏语义多样性的问题。
如图6所示,是本申请一实施例提供的语音数据选择装置的功能模块图。
本申请所述语音数据选择装置100可以安装于电子设备中。根据实现的功能,所述语音数据选择装置100可以包括预处理模块101、多样性计算模块102、分数计算模块103及模型训练模块104。本申请所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述预处理模块101,用于获取原始语音数据集合,对所述原始语音数据集合中的语音数据进行预处理及特征提取,得到标准语音数据集合。
本申请实施例中,所述原始语音数据集中包含多个语音数据。所述原始语音数据集合可以为来自不同场景、不同语言的语音数据,比如,不同语言可以为中文语音数据、英语语音数据及日语语音数据等,不同场景可以为日常对话、金融咨询等。
较佳地,所述预处理模块101通过下述操作得到所述标准语音数据集合:
对所述原始语音数据集合中的语音数据进行预加重、分帧及加窗操作,得到预处理语音数据;
利用预设的特征提取算法对所述预处理语音数据进行特征提取,得到语音特征参数,并汇总所述语音特征参数得到所述标准语音数据集合。
由于所述语音数据的平均功率谱受声门刺激和口鼻辐射的影响,使得所述语音数据在高频部分跌落,利用预加重的方法可以提高所述语音数据的高频部分,使得语音数据的频谱变得平坦。本申请其中一个实施例可以使用传递函数为一阶FIR(Finite Impulse Response,有限长单位冲激响应)的高通数字滤波器来实现所述预加重。进一步地,由于所述语音数据具有短时平稳性(10—30ms内可以认为语音数据近似不变),利用分帧处理可以把语音数据分为语音帧,以提高所述语音数据分析的稳定性。此外,本申请实施例利用预设的窗函数对所述分帧的语音数据进行加窗操作,以获得短时的语音数据,所述预设的窗函数可以为汉明窗函数。
本申请实施通过所述预处理可以消除因为人类发声器官缺陷和采集设备缺陷带来的混叠、高次谐波失真等因素对所述语音数据的影响。
进一步地,由于在语音识别中,语音数据的原始波形不能直接用于识别,必须经过一定的变换提取反应语音本质特征的语音特征参数来进行识别,因此,本申请实施例利用预设的特征提取算法提取所述语音数据的语音特征参数。较佳地,所述预设的特征提取算法可以为梅尔频率倒谱系数或Filter-Bank特征提取算法。
所述多样性计算模块102,用于计算所述标准语音数据集合中每帧语音数据的语义多样性分数,及计算所述每帧语音数据的说话人多样性分数。
较佳地,所述多样性计算模块102通过下述操作得到所述语义多样性分数:
利用预构建的语音识别模型计算所述标准语音数据集合中每帧语音数据的预测概率;
根据所述预测概率确定所述每帧语音数据的混合分布;
根据所述混合分布计算所述标准语音数据集合中每帧语音数据的语义多样性差别值,并得到所述语义多样性分数。
优选地,所述预构建的语音识别模型可以采用基于CTC(Connectionist Temporal Classification,联结主义时间分类)的深度神经网络模型,网络结构可采用LSTM(Long Short-Term Memory,长短期记忆网络)/CNN(Convolutional Neural Networks,卷积神经网络)/GRU(gated recurrent unit,门循环单元)等。
本申请实施例利用所述语音识别模型对所述标准语音数据集合中的每一帧语音数据进行预测,输出所述语音数据的预测概率P f(c|θ):
其中,c是所述每一帧语音数据中识别的字,θ为模型参数,f为每一帧语音数据。
进一步地,本申请实施例中,所述根据所述预测概率确定所述每帧语音数据的混合分布包括:
采用下述公式计算所述每帧语音数据的混合分布:
Figure PCTCN2021083075-appb-000008
Figure PCTCN2021083075-appb-000009
其中,
Figure PCTCN2021083075-appb-000010
为语音数据S中对识别出的每一个字c的混合分布描述,f为其中一帧语音数据,w f为其中一帧语音数据的权重,S为所述标准语音数据集合,P f(c|θ)为每一帧的预测概率,c为每一帧语音数据中识别的字,C为识别的字的集合,∈为定值,使得所述权重始终非负。
本申请实施例中,根据所述混合分布计算所述标准语音数据集合中每帧语音数据的语义多样性差别值,包括:
利用下述公式计算所述语义多样性差别值:
Figure PCTCN2021083075-appb-000011
其中,D(S i,S j)为任意一对语音数据(S i,S j)的语义多样性差别值,
Figure PCTCN2021083075-appb-000012
为所述语音数据对中识别的字c的混合分布,KL为对称K-L散度(symmetrical Kullback-Leibler Divergence),是一种量化两种混合分布之间差异的算法。
进一步地,本申请实施例通过计算所述标准语音数据集合内任意一对语音数据的语义多样性差别值,得到所述标准语音数据集合中语音数据的语义多样性分数:
Figure PCTCN2021083075-appb-000013
其中,D semantic为语音数据的语义多样性分数,S为标准语音数据集合。
进一步地,所述多样性计算模块102通过下述操作得到所述说话人多样性分数:
提取所述语音数据中的说话人信息;
根据所述说话人信息中不同属性的数据,计算说话人的属性类别比例;
根据所述说话人的属性类别比例及预设的多样性计算方法,计算得到所述说话人多样性分数。
本申请实施例中,所述标准语音数据集合中包括说话人的性别、年龄、区域、口音、情绪、声调和说话方式等属性。以年纪为例,可以先按年龄大小划分出几个区间,包括少儿,青少年,青年,中年,老年等年龄类别,以区域为例,可以按照地理位置划分为几个区间,包括华东、华南、华北、西南、东北、西北等区域类别,本申请实施例利用数学统计算法统计出所述标准语音数据集合各个类别i的比例p i
进一步地,本申请实施例中,所述预设的多样性计算方法可以为香农多样性指数(Shannon's diversity index),并利用下述公式计算得到所述说话人多样性分数:
Figure PCTCN2021083075-appb-000014
其中,D speaker为说话人多样性分数,w a代表说话人信息中不同属性的权重系数,A为说话人信息,a为所述说话人信息中的属性,I为根据所述属性划分的区间,i为所述区间对应的类别,p i为所述类别的比例。
本申请实施通过使用所述标准语音数据集合的预测概率,使用对称KL散度的方式计算语音数据子集的语义多样性,并收集所述标准语音数据集合的说话人信息,通过香农多样性指数计算语音数据的说话人多样性。根据所述语义多样性以及说话人多样性可以选择出更适和深度神经网络训练数据,极大地减少不必要冗余的语音数据。
所述分数计算模块103,用于利用所述语义多样性分数及所述说话人多样性分数得到所述标准语音数据集合中每帧语音数据的最终分数,并根据所述最终分数从所述原始语音数据集合中筛选得到标准训练集。
较佳地,所述分数计算模块103通过下述操作得到所述标准训练集:
获取所述标准语音数据集合中各帧语音数据的语义多样性分数及说话人多样性分数;
利用所述语义多样性分数及所述说话人多样性分数计算每个语音数据的最终分数;
从所述标准语音数据集合中根据所述最终分数的排序,选择预设数量的语音数据作为所述标准训练集。
本申请实施例中,通过下述方法计算每个语音数据的所述最终分数:
Socre=D semantic+βD speaker
其中,Socre为所述最终分数,β为预设权衡系数,所述β可以根据实际情况对两类多样性进行权衡。
所述模型训练模块104,用于利用所述标准训练集对预构建的语音识别模型进行训练,得到标准语音识别模型。
较佳地,所述模型训练模块104通过下述操作得到所述标准语音识别模型:
利用所述预构建的语音识别模型计算所述标准训练集中每帧语音数据的预测概率;
根据预设的解码方法对所述预测概率进行解码处理,当解码后的数据使得所述语音识别模型中的对齐函数收敛时,得到所述标准语音识别模型。
其中,所述预设的解码方法可以使用束搜索(beam-search)的方法进行解码,所述对齐函数可以为CTC(Connectionist Temporal Classification,联结主义时间分类)对齐函数。
优选地,本申请实施例基于所述标准训练集进行训练,由于所述标准训练集中的数据量较小且多样性较强,可以显著提高模型的训练速度,减少了语音识别系统的计算压力。
如图7所示,是本申请一实施例提供的实现语音数据选择方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如语音数据选择程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如语音数据选择程序12的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如语音数据选择程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图7仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图7示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的语音数据选择程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
获取原始语音数据集合,对所述原始语音数据集合中的语音数据进行预处理及特征提取,得到标准语音数据集合;
计算所述标准语音数据集合中每帧语音数据的语义多样性分数,及计算所述每帧语音数据的说话人多样性分数;
利用所述语义多样性分数及所述说话人多样性分数得到所述标准语音数据集合中每帧语音数据的最终分数,并根据所述最终分数从所述原始语音数据集合中筛选得到标准训练集;
利用所述标准训练集对预构建的语音识别模型进行训练,得到标准语音识别模型。
具体地,所述处理器10对上述指令的具体实现方法可参考图1至图5对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中,所述计算机可读存储介质可以是非易失性,也可以是易失性。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。

Claims (20)

  1. 一种语音数据选择方法,其中,所述方法包括:
    获取原始语音数据集合,对所述原始语音数据集合中的语音数据进行预处理及特征提取,得到标准语音数据集合;
    计算所述标准语音数据集合中每帧语音数据的语义多样性分数,及计算所述每帧语音数据的说话人多样性分数;
    利用所述语义多样性分数及所述说话人多样性分数得到所述标准语音数据集合中每帧语音数据的最终分数,并根据所述最终分数从所述原始语音数据集合中筛选得到标准训练集;
    利用所述标准训练集对预构建的语音识别模型进行训练,得到标准语音识别模型。
  2. 如权利要求1所述的语音数据选择方法,其中,所述对所述原始语音数据集合中的语音数据进行预处理及特征提取,得到标准语音数据集合,包括:
    对所述原始语音数据集合中的语音数据进行预加重、分帧及加窗操作,得到预处理语音数据;
    利用预设的特征提取算法对所述预处理语音数据进行特征提取,得到语音特征参数,并汇总所述语音特征参数得到所述标准语音数据集合。
  3. 如权利要求1所述的语音数据选择方法,其中,所述计算所述标准语音数据集合中每帧语音数据的语义多样性分数,包括:
    利用预构建的语音识别模型计算所述标准语音数据集合中每帧语音数据的预测概率;
    根据所述预测概率确定所述每帧语音数据的混合分布;
    根据所述混合分布计算所述标准语音数据集合中每帧语音数据的语义多样性差别值,并得到所述语义多样性分数。
  4. 如权利要求3所述的语音数据选择方法,其中,根据所述混合分布计算所述标准语音数据集合中每帧语音数据的语义多样性差别值,包括:
    利用下述公式计算所述语义多样性差别值:
    Figure PCTCN2021083075-appb-100001
    其中,D(S i,S j)为任意一对语音数据(S i,S j)的语义多样性差别值,
    Figure PCTCN2021083075-appb-100002
    为所述语音数据对中识别的字c的混合分布,KL为对称K-L散度(symmetrical Kullback-Leibler Divergence),是一种量化两种混合分布之间差异的算法。
  5. 如权利要求1所述的语音数据选择方法,其中,所述计算所述每帧语音数据的说话人多样性分数,包括:
    提取所述语音数据中的说话人信息;
    根据所述说话人信息中不同属性的数据,计算说话人的属性类别比例;
    根据所述说话人的属性类别比例及预设的多样性计算方法,计算得到所述说话人多样性分数。
  6. 如权利要求1所述的语音数据选择方法,其中,所述利用所述语义多样性分数及所述说话人多样性分数得到所述标准语音数据集合中每帧语音数据的最终分数,并根据所述最终分数从所述原始语音数据集合中筛选得到标准训练集,包括:
    获取所述标准语音数据集合中各帧语音数据的语义多样性分数及说话人多样性分数;
    利用所述语义多样性分数及所述说话人多样性分数计算每个语音数据的最终分数;
    从所述标准语音数据集合中根据所述最终分数的排序,选择预设数量的语音数据作为所述标准训练集。
  7. 如权利要求1所述的语音数据选择方法,其中,所述利用所述标准训练集对预构 建的语音识别模型进行训练,得到标准语音识别模型,包括:
    利用所述预构建的语音识别模型计算所述标准训练集中每帧语音数据的预测概率;
    根据预设的解码方法对所述预测概率进行解码处理,当解码后的数据使得所述语音识别模型中的对齐函数收敛时,得到所述标准语音识别模型。
  8. 一种语音数据选择装置,其中,所述装置包括:
    预处理模块,用于获取原始语音数据集合,对所述原始语音数据集合中的语音数据进行预处理及特征提取,得到标准语音数据集合;
    多样性计算模块,用于计算所述标准语音数据集合中每帧语音数据的语义多样性分数,及计算所述每帧语音数据的说话人多样性分数;
    分数计算模块,用于利用所述语义多样性分数及所述说话人多样性分数得到所述标准语音数据集合中每帧语音数据的最终分数,并根据所述最终分数从所述原始语音数据集合中筛选得到标准训练集;
    模型训练模块,用于利用所述标准训练集对预构建的语音识别模型进行训练,得到标准语音识别模型。
  9. 一种电子设备,其中,所述电子设备包括:
    至少一个处理器;以及,
    与所述至少一个处理器通信连接的存储器;其中,
    所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如下步骤:
    获取原始语音数据集合,对所述原始语音数据集合中的语音数据进行预处理及特征提取,得到标准语音数据集合;
    计算所述标准语音数据集合中每帧语音数据的语义多样性分数,及计算所述每帧语音数据的说话人多样性分数;
    利用所述语义多样性分数及所述说话人多样性分数得到所述标准语音数据集合中每帧语音数据的最终分数,并根据所述最终分数从所述原始语音数据集合中筛选得到标准训练集;
    利用所述标准训练集对预构建的语音识别模型进行训练,得到标准语音识别模型。
  10. 如权利要求9所述的电子设备,其中,所述对所述原始语音数据集合中的语音数据进行预处理及特征提取,得到标准语音数据集合,包括:
    对所述原始语音数据集合中的语音数据进行预加重、分帧及加窗操作,得到预处理语音数据;
    利用预设的特征提取算法对所述预处理语音数据进行特征提取,得到语音特征参数,并汇总所述语音特征参数得到所述标准语音数据集合。
  11. 如权利要求9所述的电子设备,其中,所述计算所述标准语音数据集合中每帧语音数据的语义多样性分数,包括:
    利用预构建的语音识别模型计算所述标准语音数据集合中每帧语音数据的预测概率;
    根据所述预测概率确定所述每帧语音数据的混合分布;
    根据所述混合分布计算所述标准语音数据集合中每帧语音数据的语义多样性差别值,并得到所述语义多样性分数。
  12. 如权利要求11所述的电子设备,其中,根据所述混合分布计算所述标准语音数据集合中每帧语音数据的语义多样性差别值,包括:
    利用下述公式计算所述语义多样性差别值:
    Figure PCTCN2021083075-appb-100003
    其中,D(S i,S j)为任意一对语音数据(S i,S j)的语义多样性差别值,
    Figure PCTCN2021083075-appb-100004
    为所述语音数据对中识别的字c的混合分布,KL为对称K-L散度(symmetrical Kullback-Leibler Divergence),是一种量化两种混合分布之间差异的算法。
  13. 如权利要求9所述的电子设备,其中,所述计算所述每帧语音数据的说话人多样性分数,包括:
    提取所述语音数据中的说话人信息;
    根据所述说话人信息中不同属性的数据,计算说话人的属性类别比例;
    根据所述说话人的属性类别比例及预设的多样性计算方法,计算得到所述说话人多样性分数。
  14. 如权利要求9所述的电子设备,其中,所述利用所述语义多样性分数及所述说话人多样性分数得到所述标准语音数据集合中每帧语音数据的最终分数,并根据所述最终分数从所述原始语音数据集合中筛选得到标准训练集,包括:
    获取所述标准语音数据集合中各帧语音数据的语义多样性分数及说话人多样性分数;
    利用所述语义多样性分数及所述说话人多样性分数计算每个语音数据的最终分数;
    从所述标准语音数据集合中根据所述最终分数的排序,选择预设数量的语音数据作为所述标准训练集。
  15. 如权利要求9所述的电子设备,其中,所述利用所述标准训练集对预构建的语音识别模型进行训练,得到标准语音识别模型,包括:
    利用所述预构建的语音识别模型计算所述标准训练集中每帧语音数据的预测概率;
    根据预设的解码方法对所述预测概率进行解码处理,当解码后的数据使得所述语音识别模型中的对齐函数收敛时,得到所述标准语音识别模型。
  16. 一种计算机可读存储介质,存储有计算机程序,其中,所述计算机程序被处理器执行时实现如下步骤:
    获取原始语音数据集合,对所述原始语音数据集合中的语音数据进行预处理及特征提取,得到标准语音数据集合;
    计算所述标准语音数据集合中每帧语音数据的语义多样性分数,及计算所述每帧语音数据的说话人多样性分数;
    利用所述语义多样性分数及所述说话人多样性分数得到所述标准语音数据集合中每帧语音数据的最终分数,并根据所述最终分数从所述原始语音数据集合中筛选得到标准训练集;
    利用所述标准训练集对预构建的语音识别模型进行训练,得到标准语音识别模型。
  17. 如权利要求16所述的计算机可读存储介质,其中,所述对所述原始语音数据集合中的语音数据进行预处理及特征提取,得到标准语音数据集合,包括:
    对所述原始语音数据集合中的语音数据进行预加重、分帧及加窗操作,得到预处理语音数据;
    利用预设的特征提取算法对所述预处理语音数据进行特征提取,得到语音特征参数,并汇总所述语音特征参数得到所述标准语音数据集合。
  18. 如权利要求16所述的计算机可读存储介质,其中,所述计算所述标准语音数据集合中每帧语音数据的语义多样性分数,包括:
    利用预构建的语音识别模型计算所述标准语音数据集合中每帧语音数据的预测概率;
    根据所述预测概率确定所述每帧语音数据的混合分布;
    根据所述混合分布计算所述标准语音数据集合中每帧语音数据的语义多样性差别值,并得到所述语义多样性分数。
  19. 如权利要求18所述的计算机可读存储介质,其中,根据所述混合分布计算所述标准语音数据集合中每帧语音数据的语义多样性差别值,包括:
    利用下述公式计算所述语义多样性差别值:
    Figure PCTCN2021083075-appb-100005
    其中,D(S i,S j)为任意一对语音数据(S i,S j)的语义多样性差别值,
    Figure PCTCN2021083075-appb-100006
    为所述语音数据对中识别的字c的混合分布,KL为对称K-L散度(symmetrical Kullback-Leibler Divergence),是一种量化两种混合分布之间差异的算法。
  20. 如权利要求16所述的计算机可读存储介质,其中,所述计算所述每帧语音数据的说话人多样性分数,包括:
    提取所述语音数据中的说话人信息;
    根据所述说话人信息中不同属性的数据,计算说话人的属性类别比例;
    根据所述说话人的属性类别比例及预设的多样性计算方法,计算得到所述说话人多样性分数。
PCT/CN2021/083075 2020-11-23 2021-03-25 语音数据选择方法、装置、电子设备及存储介质 WO2021208700A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011320979.2A CN112489628B (zh) 2020-11-23 2020-11-23 语音数据选择方法、装置、电子设备及存储介质
CN202011320979.2 2020-11-23

Publications (1)

Publication Number Publication Date
WO2021208700A1 true WO2021208700A1 (zh) 2021-10-21

Family

ID=74933589

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/083075 WO2021208700A1 (zh) 2020-11-23 2021-03-25 语音数据选择方法、装置、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN112489628B (zh)
WO (1) WO2021208700A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489628B (zh) * 2020-11-23 2024-02-06 平安科技(深圳)有限公司 语音数据选择方法、装置、电子设备及存储介质
US20220351055A1 (en) * 2021-04-28 2022-11-03 GE Precision Healthcare LLC Data diversity visualization and quantification for machine learning models

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100023331A1 (en) * 2008-07-17 2010-01-28 Nuance Communications, Inc. Speech recognition semantic classification training
CN111026884A (zh) * 2019-12-12 2020-04-17 南昌众荟智盈信息技术有限公司 一种提升人机交互对话语料质量与多样性的对话语料库生成方法
CN111209363A (zh) * 2019-12-25 2020-05-29 华为技术有限公司 语料数据处理方法、装置、服务器和存储介质
CN112185359A (zh) * 2020-09-28 2021-01-05 广州秉理科技有限公司 一种基于词覆盖率的语音训练集最小化方法
CN112308143A (zh) * 2020-10-30 2021-02-02 江苏云从曦和人工智能有限公司 一种基于多样性的样本筛选方法、系统、设备及介质
CN112489628A (zh) * 2020-11-23 2021-03-12 平安科技(深圳)有限公司 语音数据选择方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3061086B1 (en) * 2013-10-24 2019-10-23 Bayerische Motoren Werke Aktiengesellschaft Text-to-speech performance evaluation
CN110428842A (zh) * 2019-08-13 2019-11-08 广州国音智能科技有限公司 语音模型训练方法、装置、设备及计算机可读存储介质
CN111816162B (zh) * 2020-07-09 2022-08-23 腾讯科技(深圳)有限公司 一种语音变化信息检测方法、模型训练方法以及相关装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100023331A1 (en) * 2008-07-17 2010-01-28 Nuance Communications, Inc. Speech recognition semantic classification training
CN111026884A (zh) * 2019-12-12 2020-04-17 南昌众荟智盈信息技术有限公司 一种提升人机交互对话语料质量与多样性的对话语料库生成方法
CN111209363A (zh) * 2019-12-25 2020-05-29 华为技术有限公司 语料数据处理方法、装置、服务器和存储介质
CN112185359A (zh) * 2020-09-28 2021-01-05 广州秉理科技有限公司 一种基于词覆盖率的语音训练集最小化方法
CN112308143A (zh) * 2020-10-30 2021-02-02 江苏云从曦和人工智能有限公司 一种基于多样性的样本筛选方法、系统、设备及介质
CN112489628A (zh) * 2020-11-23 2021-03-12 平安科技(深圳)有限公司 语音数据选择方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112489628B (zh) 2024-02-06
CN112489628A (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
WO2022116420A1 (zh) 语音事件检测方法、装置、电子设备及计算机存储介质
WO2021232594A1 (zh) 语音情绪识别方法、装置、电子设备及存储介质
WO2021208696A1 (zh) 用户意图分析方法、装置、电子设备及计算机存储介质
WO2022227190A1 (zh) 语音合成方法、装置、电子设备及存储介质
WO2022160449A1 (zh) 文本分类方法、装置、电子设备及存储介质
WO2021208703A1 (zh) 问题解析方法、装置、电子设备及存储介质
WO2021179701A1 (zh) 多语种语音识别方法、装置及电子设备
WO2022121176A1 (zh) 语音合成方法、装置、电子设备及可读存储介质
WO2021208700A1 (zh) 语音数据选择方法、装置、电子设备及存储介质
WO2022142105A1 (zh) 文本转语音方法、装置、电子设备及存储介质
WO2022121157A1 (zh) 语音合成方法、装置、电子设备及存储介质
WO2022179123A1 (zh) 数据更新及展示方法、装置、电子设备及存储介质
CN113205814B (zh) 语音数据标注方法、装置、电子设备及存储介质
WO2023029507A1 (zh) 基于数据分析的服务分发方法、装置、设备及存储介质
WO2022178933A1 (zh) 基于上下文的语音情感检测方法、装置、设备及存储介质
WO2022194062A1 (zh) 疾病标签检测方法、装置、电子设备及存储介质
WO2022121158A1 (zh) 语音合成方法、装置、电子设备及存储介质
WO2023178979A1 (zh) 问题标注方法、装置、电子设备及存储介质
CN113704410A (zh) 情绪波动检测方法、装置、电子设备及存储介质
US20240311931A1 (en) Method, apparatus, device, and storage medium for clustering extraction of entity relationships
WO2022141867A1 (zh) 语音识别方法、装置、电子设备及可读存储介质
CN113011164B (zh) 数据质量检测方法、装置、电子设备及介质
WO2022121152A1 (zh) 智能对话方法、装置、电子设备及存储介质
CN114155832A (zh) 基于深度学习的语音识别方法、装置、设备及介质
WO2021196477A1 (zh) 基于声纹特征与关联图谱数据的风险用户识别方法、装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21788308

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21788308

Country of ref document: EP

Kind code of ref document: A1