WO2017124876A1

WO2017124876A1 - 一种语音播放方法和装置

Info

Publication number: WO2017124876A1
Application number: PCT/CN2016/111636
Authority: WO
Inventors: 曾戟
Original assignee: 曾戟
Priority date: 2016-01-20
Filing date: 2016-12-23
Publication date: 2017-07-27
Also published as: CN105632489A

Abstract

一种语音播放方法和装置，其中该方法包括：获取包含至少一个说话者的原始音频流（S101）；根据预设训练算法，对该原始音频流进行训练（S102）；将训练后的音频流加载在流媒体文件中，以进行播放（S103）。以此，可以播放出精确度较高、失真度较小的音频数据。

Description

一种语音播放方法和装置

技术领域

本发明属于语音识别技术领域，尤其涉及一种语音播放方法和装置。

背景技术

声纹识别是一种利用人的声音实现的识别技术，由于人在讲话时使用的发声器官存在一定的差异性，任何两个人声音的声纹图谱都有差异，所以声纹可以作为表征个体差异的生物特征，也即可以通过建立声纹特征模型来表征不同的个体，进而利用该声纹特征模型进行识别不同的个体等。目前声纹特征模型的应用存在一个两难的选择，主要体现在训练语料的长度选取上，一般而言，声纹训练语料越长，建立的特征模型越精确，识别准确率越高，但是实用性不强；声纹训练语料较短，能保证较好的实用性，但识别准确率不高。而在实际应用中，比如手机屏幕声纹解锁的应用等，既要求有较高的识别准确率，以满足安全性，又要求训练语料不能太长，以保证较好的实用性。

现有的声纹特征模型建立方法是通过在声纹注册阶段，由用户手动多次训练，每次训练均为短语料，最终将他们组合成较长的训练语料来生成特征模型。然而，由用户手动多次录入一定时长的训练语料，会给用户较差的体验，不具备较高的实用性；组合起来的训练语料长度仍然有限，不能生成较精确的特征模型，识别准确率无法进一步提升；语速语调的变化、情绪波动等也都会影响模型建立的精确度。所以，如何在保证较高的实用性前提下，提高声纹特征模型精确度，进而提高识别准确率是急需解决的问题。

发明内容

基于此，为了解决上述问题，提供了一种语音播放方法和装置。

一种语音播放方法，所述方法包括：

获取包含至少一个说话者的原始音频流；

根据预设训练算法，对所述原始音频流进行训练；

将所述训练后的音频流加载在流媒体文件中，以进行播放。

在其中一个实施例中，所述方法还包括：

建立训练样本库。

在其中一个实施例中，所述根据预设训练算法，对所述原始音频流进行训练包括：

对原始音频流进行分割，得到模拟音频流和真实音频流；

对模拟音频流和真实音频流进行冲激，根据冲激音频流。

在其中一个实施例中，所述将所述训练后的音频流加载在流媒体文件中，以进行播放包括：

判断所述冲激音频流在所述训练样本库中是否找到匹配的样本对象；

若匹配，则将该冲激音频流作为训练后的音频流加载在流媒体文件中，以进行播放。

在其中一个实施例中，所述方法还包括：

测试所述流媒体文件是否失真。

一种语音播放装置，所述装置包括：

获取模块，用于获取包含至少一个说话者的原始音频流；

训练模块，用于根据预设训练算法，对所述原始音频流进行训练；

播放模块，用于将所述训练后的音频流加载在流媒体文件中，以进行播放。

在其中一个实施例中，所述装置还包括：

建立模块，用于建立训练样本库。

在其中一个实施例中，所述训练模块包括：

分割单元，用于对原始音频流进行分割，得到模拟音频流和真实音频流；

冲激单元，用于对模拟音频流和真实音频流进行冲激，根据冲激音频流。

在其中一个实施例中，所述播放模块包括：

判断单元，用于判断所述冲激音频流在所述训练样本库中是否找到匹配的样本对象；

播放单元，用于当匹配，则将该冲激音频流作为训练后的音频流加载在流媒体文件中，以进行播放。

在其中一个实施例中，所述装置还包括：

测试模块，用于测试所述流媒体文件是否失真。

有益效果：

一种语音播放方法，所述方法包括：获取包含至少一个说话者的原始音频流；根据预设训练算法，对所述原始音频流进行训练；将所述训练后的音频流加载在流媒体文件中，以进行播放。以此，可以播放出精确度较高、失真度较小的音频数据。

附图说明

图1是本发明一种语音播放方法的方法流程图。

图2是本发明一种语音播放装置的模块框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

如图1所示，一种语音播放方法，所述方法包括：

S101：获取包含至少一个说话者的原始音频流；

S102：根据预设训练算法，对所述原始音频流进行训练；

S103：将所述训练后的音频流加载在流媒体文件中，以进行播放。

在本实施例中，所述方法还包括：

建立训练样本库。

在本实施例中，所述根据预设训练算法，对所述原始音频流进行训练包括：

对原始音频流进行分割，得到模拟音频流和真实音频流；

对模拟音频流和真实音频流进行冲激，根据冲激音频流。

在本实施例中，所述将所述训练后的音频流加载在流媒体文件中，以进行播放包括：

在本实施例中，所述方法还包括：

测试所述流媒体文件是否失真。

实施例2

一种语音播放装置，所述装置包括：

获取模块201，用于获取包含至少一个说话者的原始音频流；

训练模块202，用于根据预设训练算法，对所述原始音频流进行训练；

播放模块203，用于将所述训练后的音频流加载在流媒体文件中，以进行播放。

在本实施例中，所述装置还包括：

建立模块，用于建立训练样本库。

在本实施例中，所述训练模块包括：

在本实施例中，所述播放模块包括：

在本实施例中，所述装置还包括：

测试模块，用于测试所述流媒体文件是否失真。

需要说明的是，该装置可以为包括手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、POS(Point of Sales，销售终端)、车载电脑等终端设备，以终端为手机为例，手机包括RF(Radio Frequency，射频)电路、存储器、输入单元、显示单元、传感器、音频电路、WiFi(wireless fidelity，无线保真)模块、处理器、以及电源等部件。本RF电路可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器处理；另外，将设计上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(Code Division Multiple Access，码分多址)、WCDMA(Wideband Code Division Multiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service，短消息服务)等。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元可包括触控面板以及其他输入设备。触控面板，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器，并能接收处理器发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板。除了触控面板，输入单元还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元可包括显示面板，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板。进一步的，触控面板可覆盖显示面板，当触控面板检测到在其上或附近的触摸操作后，传送给处理器以确定触摸事件的类型，随后处理器根据触摸事件的类型在显示面板上提供相应的视觉输出。

手机还可包括至少一种传感器，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在手机移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路、扬声器，传声器可提供用户与手机之间的音频接口。音频电路可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路接收后转换为音频数据，再将音频数据输出处理器处理后，经RF电路以发送给比如另一手机，或者将音频数据输出至存储器以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。

手机还包括给各个部件供电的电源(比如电池)，优选的，电源可以通过电源管理系统与处理器逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

需要说明的是，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种语音播放方法，其特征在于，所述方法包括：

获取包含至少一个说话者的原始音频流；

根据预设训练算法，对所述原始音频流进行训练；

将所述训练后的音频流加载在流媒体文件中，以进行播放。
如权利要求1所述的方法，其特征在于，所述方法还包括：

建立训练样本库。
如权利要求1或2所述的方法，其特征在于，所述根据预设训练算法，对所述原始音频流进行训练包括：

对原始音频流进行分割，得到模拟音频流和真实音频流；

对模拟音频流和真实音频流进行冲激，根据冲激音频流。
如权利要求3中所述的方法，其特征在于，所述将所述训练后的音频流加载在流媒体文件中，以进行播放包括：

判断所述冲激音频流在所述训练样本库中是否找到匹配的样本对象；

若匹配，则将该冲激音频流作为训练后的音频流加载在流媒体文件中，以进行播放。
如权利要求1所述的方法，其特征在于，所述方法还包括：

测试所述流媒体文件是否失真。
一种语音播放装置，其特征在于，所述装置包括：

获取模块，用于获取包含至少一个说话者的原始音频流；

训练模块，用于根据预设训练算法，对所述原始音频流进行训练；

播放模块，用于将所述训练后的音频流加载在流媒体文件中，以进行播放。
如权利要求6所述的装置，其特征在于，所述装置还包括：

建立模块，用于建立训练样本库。
如权利要求7所述的装置，其特征在于，所述训练模块包括：

分割单元，用于对原始音频流进行分割，得到模拟音频流和真实音频流；

冲激单元，用于对模拟音频流和真实音频流进行冲激，根据冲激音频流。
如权利要求8所述的装置，其特征在于，所述播放模块包括：

判断单元，用于判断所述冲激音频流在所述训练样本库中是否找到匹配的样本对象；

播放单元，用于当匹配，则将该冲激音频流作为训练后的音频流加载在流媒体文件中，以进行播放。
如权利要求6所述的装置，其特征在于，所述装置还包括：

测试模块，用于测试所述流媒体文件是否失真。