WO2021017302A1

WO2021017302A1 - 一种数据提取方法、装置、计算机系统及可读存储介质

Info

Publication number: WO2021017302A1
Application number: PCT/CN2019/118025
Authority: WO
Inventors: 晏倩
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-07-31
Filing date: 2019-11-13
Publication date: 2021-02-04
Also published as: CN110428668A; CN110428668B

Abstract

一种数据提取方法、装置、计算机系统及可读存储介质，基于人工智能技术，包括以下步骤：获得单词调节时间和整句调节时间；根据选择信号获取听力文件，播放听力文件并记录播放开始时间；记录接收到单词信号时的时间，并将时间设定为单词标定时间；或记录接收到整句信号时的时间，并将时间设定为整句标定时间；根据单词标定时间与单词调节时间相减，获得单词修正时间；根据单词修正时间在听力文档中获得标记单词；或根据整句标定时间与整句调节时间相减，获得整句修正时间；根据整句修正时间在听力文档中获得标记整句。本方法保证了用户在输入单词信号或整句信号时所要获得的标记单词与标记整句，与用户听到播放内容中的关键点一致。

Description

一种数据提取方法、装置、计算机系统及可读存储介质

本申请申明享有2019年7月31日递交的申请号为CN 201910699310X、名称为“一种数据提取方法、装置、计算机系统及可读存储介质”的中国专利申请的优先权，该中国专利申请的整体内容以参考的方式结合在本申请中。

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据提取方法、装置、计算机系统及可读存储介质。

背景技术

目前外语听力训练软件大部分都是文字和语音结合，但对听力学习而言存在以下问题：

在训练听力的时候，多数采用通过文本与音频同步，使用户边听边看，以实现听看两方面同时进行的训练效果；虽然这种方式的初衷在于保证用户对英文听力的理解，但是，使用者在遇到陌生词汇或关键语句需要暂停学习时，往往因该词汇或语句已播放完毕而需要使用者手动回放，去获取该陌生词汇；不仅为使用者带来的极大的不便，还使得用户因多次回放，而错过对整段内容理解的时机，导致对听力文件的理解极为碎片化。

申请内容

本申请的目的是提供一种数据提取方法、装置、计算机系统及可读存储介质，用于解决在遇到陌生词汇或关键语句需要暂停学习时，因该词汇或语句已播放完毕而需要使用者手动回放所带来的不便，以及错过对整段内容理解的时机的问题。

为实现上述目的，本申请提供一种数据提取方法，包括以下步骤：

S1：利用听力文件并通过设定规则获得单词调节时间和整句调节时间，保存单词调节时间和整句调节时间后生成设定完成信号；接收由用户端根据所述设定完成信号输出的选择信号，并根据所述选择信号获取听力文件；将听力文件在用户端播放并记录播放开始时间；

S2：接收单词标定信号，记录接收到所述单词信号时的时间，并将所述时间设定为单词标定时间；或

接收整句标定信号，记录接收到所述整句信号时的时间，并将所述时间设定为整句标定时间；

S3：根据所述单词信号提取单词调节时间；或

根据所述整句信号提取整句调节时间；

S4：根据所述单词标定时间与单词调节时间相减，获得单词修正时间；根据所述单词修正时间在听力文档中获得标记单词；或

根据所述整句标定时间与整句调节时间相减，获得整句修正时间；根据所述整句修正时间在听力文档中获得标记整句；

S5：汇总所述听力文件中的标记单词形成单词标记集并将其保存至标记数据库；或

汇总所述听力文件中的标记整句形成整句标记集并将其保存至标记数据库。

为实现上述目的，本申请还提供一种数据提取装置，包括：

选择播放模块，用于利用听力文件并通过设定规则获得单词调节时间和整句调节时间，保存单词调节时间和整句调节时间后生成设定完成信号；接收由用户端根据所述设定完成信号输出的选择信号，并根据所述选择信号获取听力文件；将听力文件在用户端播放并记录播放开始时间；

信号接收模块，用于接收单词标定信号，记录接收到所述单词信号时的时间，并将所述时间设定为单词标定时间；或接收整句标定信号，记录接收到所述整句信号时的时间，并将所述时间设定为整句标定时间；

调节时间提取模块，用于根据所述单词信号提取单词调节时间；或根据所述整句信号提取整句调节时间；

调节修正模块，用于根据所述单词标定时间与单词调节时间相减，获得单词修正时间；根据所述单词修正时间在听力文档中获得标记单词；或根据所述整句标定时间与整句调节时间相减，获得整句修正时间；根据所述整句修正时间在听力文档中获得标记整句；

汇总模块，用于汇总所述听力文件中的标记单词形成单词标记集并将其保存至标记数据库；或汇总所述听力文件中的标记整句形成整句标记集并将其保存至标记数据库。

为实现上述目的，本申请还提供一种计算机系统，其包括多个计算机设备，各计算机设备包括存储器.处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述多个计算机设备的处理器执行所述计算机程序时共同实现上述数据提取方法的以下步骤：

S3：根据所述单词信号提取单词调节时间；或

根据所述整句信号提取整句调节时间；

为实现上述目的，本申请还提供一种计算机可读存储介质，其包括多个存储介质，各存储介质上存储有计算机程序，所述多个存储介质存储的所述计算机程序被处理器执行时共同实现上述数据提取方法的以下步骤：

S3：根据所述单词信号提取单词调节时间；或

根据所述整句信号提取整句调节时间；

本申请提供的一种数据提取方法、装置、计算机系统及可读存储介质，通过选择播放模块，播放听力文件并记录播放开始时间；利用信号接收模块接收单词信号或整句信号；由于用户听到播放内容中的关键点后，做出反应输入单词信号或整句信号的整个过程是需要时间的，因此利用调节时间提取模块和调节修正模块，使得用户可根据输入单词信号或整句信号的习惯和速度，制定单词调节时间和整句调节时间，以消除用户听到关键点的时点，与输入单词信号或整句信号的时点的时间差，进而保证用户在输入单词信号或整句信号时所要获得的标记单词与标记整句，与用户听到播放内容中的关键点一致，提高了用户的学习效率和学习效果；利用汇总模块形成单词标记集或整句标记集，将所述单词标记集或整句标记集输出，或将所述单词标记集和整句标记集同时输出，其中，单词标记集和整句标记集为用户认为是关键点的未知词汇，以及具有未知词汇、未知语法和重要语言点的整句；因此用户可在听完听力文件的播放内容后，集中学习单词标记集和整句标记集中的关键点，提高了听力训练的学习效果；同时，利用推荐模块根据所述推荐请求输出推荐文件，使用户能够获得具有上述关键点的其他听力文件，提升了听力训练的效果。

附图说明

图1为本申请数据提取方法实施例一的流程图；

图2为本申请数据提取方法实施例一中数据提取装置与用户端之间的工作流程图；

图3为本申请数据提取装置实施例二的程序模块示意图；

图4为本申请计算机系统实施例三中计算机设备的硬件结构示意图。

附图标记：

1、数据提取装置 2、用户端 3、计算机设备

10、创设模块 11、选择播放模块 12、信号接收模块

13、调节时间提取模块 14、调节修正模块 15、汇总模块

16、推荐模块 31、存储器 32、处理器

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供的数据提取方法、装置、计算机系统及可读存储介质，适用于通信领域，为提供一种基于选择播放模块、信号接收模块、调节时间提取模块、调节修正模块和汇总模块的数据提取方法。本申请通过选择播放模块，播放听力文件并记录播放开始时间；利用信号接收模块接收单词信号或整句信号；利用调节时间提取模块和调节修正模块，使得用户可根据输入单词信号或整句信号的习惯和速度，制定单词调节时间和整句调节时间，以消除用户听到关键点的时点，与输入单词信号或整句信号的时点的时间差；利用汇总模块形成单词标记集或整句标记集，将所述单词标记集或整句标记集输出，或将所述单词标记集和整句标记集同时输出；利用推荐模块根据所述推荐请求输出推荐文件。

实施例一：

请参阅图1和图2，本实施例的一种数据提取方法，利用数据提取装置1，包括以下步骤：

S1：利用听力文件并通过设定规则获得单词调节时间和整句调节时间，保存单词调节时间和整句调节时间后生成设定完成信号；将设定完成信号输出至用户端2，接收由用户端根据所述设定完成信号输出的选择信号，并根据所述选择信号获取听力文件；将听力文件在用户端2播放并记录播放开始时间；

S3：根据所述单词信号提取单词调节时间；或

根据所述整句信号提取整句调节时间；

在一个优选的实施例中，在所述步骤S1之前还包括步骤S0，所述步骤S0包括创设听力数据库，并获得听力文件；

具体的，所述步骤S0包括以下步骤：

S01：创设听力数据库，并生成创设成功信号；

S02：根据所述创设成功信号从互联网中加载听力音频；

S03：将利用语音文字转换工具将所述听力音频进行文字转换，并获得听力文档；

S04：利用语音单词同步规则将所述听力音频和听力文档同步，并制成听力文件；

S05：将所述听力文件储存至所述听力数据库。

进一步的，所述语音文字转换工具可为音乐字幕制作工具，如Sayatoo卡拉字幕精灵，也可为当前开放的语音转文字平台。

进一步的，所述步骤S03包括以下步骤：

S03-01：对听力音频进行语句切分，形成听力语句集；其中，听力语句集中至少具有一个听力语句；

S03-02：将听力语句集上传至语音文字转换工具进行文字转换；

其中，所述语音转换装置中安装有文字转换算法，所述文字转换算法可为DTW(Dynamic Time Warping，动态时间归整)算法，或基于非参数模型的矢量量化方法，或基于参数模型的隐马尔可夫模型的方法，或基于人工神经网络和支持向量机的语音识别方法；通过文字转换算法将听力语句集中的听力语句依次进行文字转换形成文字信息并输出；

S03-03：接收由语音转换装置输出的文字信息，并将所述文字信息汇总形成听力文档。

进一步的，所述步骤S04中的语音单词同步规则包括以下步骤：

S04-1：分别获取听力音频中各单词的单词播放结束时间，并将所述单词播放结束时间作为所述单词的音频时间戳；

S04-2：依次将各所述音频时间戳，与所述听力文档中各单词进行关联，使所述听力音频播放的单词，与所述听力文档的单词同步。

例如：听力音频包括“I love China”，听力文档的单词包括“I”、“love”“China”；其中，单词“I”的单词播放结束时间为“00：00：15”，那么，单词“I”的音频时间戳为“00：00：15”；单词“love”的单词播放结束时间为“00：00：58”，那么单词“love”的音频时间戳为“00：00：58”；单词“China”的单词播放结束时间为“00：01：25”，那么单词“China”的音频时间戳为“00：01：25”。

S04-3：以句号为分隔符，对听力文档的进行分句获得至少一个整句；

获取所述整句位于首位的单词的音频时间戳，作为首位时间戳；

获取所述整句位于尾部的单词的音频时间戳，作为尾部时间戳；

根据所述首位时间戳和尾部时间戳，获得以所述首位时间戳作为上限，以尾部时间戳作为下限的音频时间段。

例如：听力音频具有整句“I love China”，听力文档的单词包括“I”、“love”“China”；其中，单词“I”的音频时间戳为“00：00：15”，单词“love”的音频时间戳为“00：00：58”，单词“China”的音频时间戳为“00：01：25”。将单词“I”的音频时间戳作为首位时间戳，将单词“love”的音频时间戳作为尾部时间戳，因此，获得音频时间段(00：00：15，00：01：25)。

优选的，在所述步骤S1中的设定规则，包括以下步骤：

S1-01：从所述听力数据库中获取听力文件，并向用户端2输出训练准备信号；接收由所述用户端2根据训练准备信号输出的训练开始信号，并记录接收到所述训练开始信号的时间，将所述时间设为训练开始时间；根据所述训练开始信号将所述听力文件的听力音频输出至用户端2并播放；

本步骤中，还可将所述听力文件的听力文档输出至用户端2并显示；

S1-02：接收由所述用户端2输出的单词训练标定信号，记录接收到所述单词训练标定信号时的时间，并将所述时间设定为单词训练标定时间；

S1-03：将所述单词训练标定时间和训练开始时间相减，获得单词训练标定时间戳，并向用户端2输出听力文件的听力文档；

S1-04：接收所述用户端2从所述听力文档中选择的调整单词，获取所述调整单词的音频时间戳，并将所述音频时间戳设为调整训练时间戳；

S1-05：将所述单词训练标定时间戳与所述调整时间训练戳相减，获得单词调节时间并保存。

优选的，在所述步骤S1中的设定规则，还包括：

S1-11：从所述听力数据库中获取听力文件，并向用户端2输出训练准备信号；接收由所述用户端2根据训练准备信号输出的训练开始信号，并记录接收到所述训练开始信号的时间，将所述时间设为训练开始时间；根据所述训练开始信号将所述听力文件的听力音频输出至用户端2并播放；

S1-12：接收由所述用户端2输出的整句训练标定信号，记录接收到所述整句训练标定信号时的时间，并将所述时间设定为整句训练标定时间；

S1-13：将所述整句训练标定时间和训练开始时间相减，获得整句训练标定时间戳，并向用户端2输出听力文件的听力文档；

S1-14：接收所述用户端2从所述听力文档中选择的调整整句，获取所述调整整句的音频时间段，并将所述音频时间段设为调整训练时间段；

S1-15：将所述调整训练时间段的上限和下限相加再除以二，获得所述调整训练时间段的均值时间戳；将所述整句训练标定时间戳与所述均值时间戳相减，获得整句调节时间并保存。

具体的，在所述步骤S2中，可通过客户需求设置单词信号和整句信号的输入方式。

如：通过敲击用户端2键盘或触摸屏两次，为单词信号；通过敲击用户端2键盘或触摸屏三次，为整句信号。

具体的，所述步骤S4包括以下步骤：

S41：将单词标定时间与播放开始时间相减获得单词标定时间戳；或

将整句标定时间与播放开始时间相减获得整句标定时间戳；

S42：将所述单词标定时间戳与所述单词调节时间相减，获得单词修正时间；或

将所述整句标定时间戳时间与所述整句调节时间相减，获得整句修正时间；

S43：设定单词调整阈值；将所述单词修正时间与单词调整阈值相减，获得单词修正上限；将所述单词调整阈值与单词修正时间相加，获得单词修正下限；获得由所述单词修正上限和单词修正下限构成的单词修正时间段；或

设定整句调整阈值；将所述整句修正时间与整句调整阈值相减，获得整句修正上限；将所述整句修正时间与整句调整阈值相加，获得证据修正下限；获得由所述整句修正上限和整句修正下限构成的整句修正时间段；

S44：在听力音频中获取在所述单词修正时间段内的音频时间戳，并在听力文档中将所述音频时间戳所对应的单词设为标记单词；

在听力音频中获取重合范围与所述整句修正时间段最大的音频时间段，并在所述听力文档中将所述音频时间段所对应的整句设为标记整句。

具体的，所述步骤S5中的标记数据库为预先创制并用于储存单词标记集和整句标记集的数据储存模块。

在一个优选的实施例中，所述步骤S5之后还包括步骤S6，所述S6包括：若所述标记数据库中仅具有单词标记集或整句标记集，则将所述单词标记集或整句标记集输出；接收推荐请求，并根据所述推荐请求输出推荐文件；

若所述标记数据库中同时具有单词标记集和整句标记集，则将所述单词标记集和整句标记集同时输出；接受推荐请求，并根据所述推荐请求输出推荐文件。

具体的，所述步骤S6包括以下步骤：

S6-01：若所述标记数据库中仅具有单词标记集或整句标记集，则将所述单词标记集或整句标记集输出至用户端2；

S6-02：所述用户端2根据所述单词标记集或整句标记集输出推荐请求；

S6-03：若所述标记数据库中仅具有单词标记集，则根据所述推荐请求将所述单词标记集中的所有标记单词作为关键字，利用搜索引擎在所述听力数据库中搜索与所述关键字匹配的文本文件；在各匹配的文本文件中，获取与所述关键字匹配度最高的文本文件，将具有所述文本文件的听力文件作为推荐文件；

若所述标记数据库中仅具有整句标记集，则根据所述推荐请求首先对所述整句标记集中的整句依次进行分词，获得若干个单词，再将所述若干个单词去重后获得若干个关键单词；将所述若干个关键单词作为关键字，利用搜索引擎在所述听力数据库中搜索与所述关键字匹配的文本文件；在各匹配的文本文件中，获取与所述关键字匹配度最高的文本文件，将具有所述文本文件的听力文件作为推荐文件；

S6-04：将所述推荐文件输出至所述用户端2。

具体的，所述步骤S6还包括以下步骤：

S6-11：若所述标记数据库中同时具有单词标记集或整句标记集，则将所述单词标记集和整句标记集输出至用户端2；

S6-12：所述用户端2根据所述单词标记集和整句标记集输出推荐请求；

S6-13：则根据所述推荐请求首先对所述整句标记集中的整句依次进行分词，获得若干个单词，再将所述若干个单词去重后获得若干个关键单词；将所述若干个关键单词与所述单词标记集中的标记单词汇总并去重，获得词句标记集；将所述词句标记集中的所有单词作为关键字，利用搜索引擎在所述听力数据库中搜索与所述关键字匹配的文本文件；在各所述匹配的文本文件中，获取与所述关键字匹配度最高的文本文件，将具有所述文本文件的听力文件作为推荐文件；

S6-14：将所述推荐文件输出至所述用户端2。

实施例二：

请参阅图3，本实施例的一种数据提取装置1，包括：

选择播放模块11，用于利用听力文件并通过设定规则获得单词调节时间和整句调节时间，保存单词调节时间和整句调节时间后生成设定完成信号；接收由用户端2根据所述设定完成信号输出的选择信号，并根据所述选择信号获取听力文件；将听力文件在用户端2播放并记录播放开始时间；

信号接收模块12，用于接收单词标定信号，记录接收到所述单词信号时的时间，并将所述时间设定为单词标定时间；或接收整句标定信号，记录接收到所述整句信号时的时间，并将所述时间设定为整句标定时间；

调节时间提取模块13，用于根据所述单词信号提取单词调节时间；或根据所述整句信号提取整句调节时间；

调节修正模块14，用于根据所述单词标定时间与单词调节时间相减，获得单词修正时间；根据所述单词修正时间在听力文档中获得标记单词；或根据所述整句标定时间与整句调节时间相减，获得整句修正时间；根据所述整句修正时间在听力文档中获得标记整句；

汇总模块15，用于汇总所述听力文件中的标记单词形成单词标记集并将其保存至标记数据库；或汇总所述听力文件中的标记整句形成整句标记集并将其保存至标记数据库。

进一步地，还包括推荐模块16，用于若所述标记数据库中仅具有单词标记集或整句标记集，则将所述单词标记集或整句标记集输出；接收推荐请求，并根据所述推荐请求输出推荐文件；若所述标记数据库中同时具有单词标记集和整句标记集，则将所述单词标记集和整句标记集同时输出；接受推荐请求，并根据所述推荐请求输出推荐文件。

进一步地，还包括创设模块10，用于创设听力数据库，并获得听力文件。

本技术方案基于人工智能的语音语义技术，通过选择播放模块，播放听力文件并记录播放开始时间；利用信号接收模块接收单词信号或整句信号；利用调节时间提取模块和调节修正模块，使得用户可根据输入单词信号或整句信号的习惯和速度，制定单词调节时间和整句调节时间，以消除用户听到关键点的时点，与输入单词信号或整句信号的时点的时间差；利用汇总模块形成单词标记集或整句标记集，将所述单词标记集或整句标记集输出，或将所述单词标记集和整句标记集同时输出；利用推荐模块根据所述推荐请求输出推荐文件；实现了基于动态时间规整的语音处理效果。

实施例三：

为实现上述目的，本申请还提供一种计算机系统，该计算机系统包括多个计算机设备3，实施例二的数据提取装置1的组成部分可分散于不同的计算机设备中，计算机设备可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于：可通过系统总线相互通信连接的存储器31、处理器32，如图4所示。需要指出的是，图4仅示出了具有组件-的计算机设备，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器31(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器31可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，存储器31也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器31还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，存储器31通常用于存储安装于计算机设备的操作系统和各类应用软件，例如实施例一的数据提取装置的程序代码等。此外，存储器31还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器32在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器32通常用于控制计算机设备的总体操作。本实施例中，处理器32用于运行存储器31中存储的程序代码或者处理数据，例如运行数据提取装置，以实现实施例一的数据提取方法。

实施例四：

为实现上述目的，本申请还提供一种计算机可读存储系统，其包括多个存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器32执行时实现相应功能。本实施例的计算机可读存储介质用于存储数据提取装置，被处理器32执行时实现实施例一的数据提取方法。

Claims

一种数据提取方法，其特征在于，包括以下步骤：

S1：利用听力文件并通过设定规则获得单词调节时间和整句调节时间，保存单词调节时间和整句调节时间后生成设定完成信号；接收由用户端根据所述设定完成信号输出的选择信号，并根据所述选择信号获取听力文件；将听力文件在用户端播放并记录播放开始时间；

S2：接收单词标定信号，记录接收到所述单词信号时的时间，并将所述时间设定为单词标定时间；或

接收整句标定信号，记录接收到所述整句信号时的时间，并将所述时间设定为整句标定时间；

S3：根据所述单词信号提取单词调节时间；或

根据所述整句信号提取整句调节时间；

S4：根据所述单词标定时间与单词调节时间相减，获得单词修正时间；根据所述单词修正时间在听力文档中获得标记单词；或

根据所述整句标定时间与整句调节时间相减，获得整句修正时间；根据所述整句修正时间在听力文档中获得标记整句；

S5：汇总所述听力文件中的标记单词形成单词标记集并将其保存至标记数据库；或

汇总所述听力文件中的标记整句形成整句标记集并将其保存至标记数据库。
根据权利要求1所述的数据提取方法，其特征在于，所述步骤S1之前还包括步骤S0，所述步骤S0包括创设听力数据库，并获得听力文件。
根据权利要求2所述的数据提取方法，其特征在于，所述步骤S0包括以下步骤：

S01：创设听力数据库，并生成创设成功信号；

S02：根据所述创设成功信号从互联网中加载听力音频；

S03：利用语音文字转换工具将所述听力音频进行文字转换，并获得听力文档；

S04：利用语音单词同步规则将所述听力音频和听力文档同步，并制成听力文件；

S05：将所述听力文件储存至所述听力数据库。
根据权利要求3所述的数据提取方法，其特征在于，所述步骤S03包括以下步骤：

S03-01：对听力音频进行语句切分，形成听力语句集；其中，听力语句集中至少具有一个听力语句；

S03-02：将听力语句集上传至语音文字转换工具进行文字转换；

S03-03：接收由语音转换装置输出的文字信息，并将所述文字信息汇总形成听力文档；

所述步骤S04中的语音单词同步规则包括以下步骤：

S04-1：分别获取听力音频中各单词的单词播放结束时间，并将所述单词播放结束时间作为所述单词的音频时间戳；

S04-2：依次将各所述音频时间戳，与所述听力文档中各单词进行关联，使所述听力音频播放的单词与所述听力文档的单词同步；

S04-3：以句号为分隔符，对听力文档的进行分句获得至少一个整句；

获取所述整句位于首位的单词的音频时间戳，作为首位时间戳；

获取所述整句位于尾部的单词的音频时间戳，作为尾部时间戳；

根据所述首位时间戳和尾部时间戳，获得以所述首位时间戳作为上限，以尾部时间戳作为下限的音频时间段。
根据权利要求2所述的数据提取方法，其特征在于，所述步骤S1中的设定规则，包括以下步骤：

S1-01：从所述听力数据库中获取听力文件，并向用户端输出训练准备信号；接收由所述用户端根据训练准备信号输出的训练开始信号，并记录接收到所述训练开始信号的时间，将所述时间设为训练开始时间；根据所述训练开始信号将所述听力文件的听力音频输出至用户端并播放；

S1-02：接收由所述用户端输出的单词训练标定信号，记录接收到所述单词训练标定信号时的时间，并将所述时间设定为单词训练标定时间；

S1-03：将所述单词训练标定时间和训练开始时间相减，获得单词训练标定时间戳，并向用户端输出听力文件的听力文档；

S1-04：接收所述用户端从所述听力文档中选择的调整单词，获取所述调整单词的音频时间戳，并将所述音频时间戳设为调整训练时间戳；

S1-05：将所述单词训练标定时间戳与所述调整时间训练戳相减，获得单词调节时间并保存。
根据权利要求2所述的数据提取方法，其特征在于，所述步骤S1中的设定规则，还包括：

S1-11：从所述听力数据库中获取听力文件，并向用户端输出训练准备信号；接收由所述用户端根据训练准备信号输出的训练开始信号，并记录接收到所述训练开始信号的时间，将所述时间设为训练开始时间；根据所述训练开始信号将所述听力文件的听力音频输出至用户端并播放；

S1-12：接收由所述用户端输出的整句训练标定信号，记录接收到所述整句训练标定信号时的时间，并将所述时间设定为整句训练标定时间；

S1-13：将所述整句训练标定时间和训练开始时间相减，获得整句训练标定时间戳，并向用户端输出听力文件的听力文档；

S1-14：接收所述用户端从所述听力文档中选择的调整整句，获取所述调整整句的音频时间段，并将所述音频时间段设为调整训练时间段；

S1-15：将所述调整训练时间段的上限和下限相加再除以二，获得所述调整训练时间段的均值时间戳；将所述整句训练标定时间戳与所述均值时间戳相减，获得整句调节时间并保存。
根据权利要求1所述的数据提取方法，其特征在于，所述步骤S5之后还包括步骤S6，所述S6包括：

若所述标记数据库中仅具有单词标记集或整句标记集，则将所述单词标记集或整句标记集输出；接收推荐请求，并根据所述推荐请求输出推荐文件；

若所述标记数据库中同时具有单词标记集和整句标记集，则将所述单词标记集和整句标记集同时输出；接受推荐请求，并根据所述推荐请求输出推荐文件。
根据权利要求1所述的数据提取方法，其特征在于，所述步骤S4包括以下步骤：

S41：将单词标定时间与播放开始时间相减获得单词标定时间戳；或

将整句标定时间与播放开始时间相减获得整句标定时间戳；

S42：将所述单词标定时间戳与所述单词调节时间相减，获得单词修正时间；或

将所述整句标定时间戳时间与所述整句调节时间相减，获得整句修正时间；

S43：设定单词调整阈值；将所述单词修正时间与单词调整阈值相减，获得单词修正上限；将所述单词调整阈值与单词修正时间相加，获得单词修正下限；获得由所述单词修正上限和单词修正下限构成的单词修正时间段；或

设定整句调整阈值；将所述整句修正时间与整句调整阈值相减，获得整句修正上限；将所述整句修正时间与整句调整阈值相加，获得证据修正下限；获得由所述整句修正上限和整句修正下限构成的整句修正时间段；

S44：在听力音频中获取在所述单词修正时间段内的音频时间戳，并在听力文档中将所述音频时间戳所对应的单词设为标记单词；

在听力音频中获取重合范围与所述整句修正时间段最大的音频时间段，并在所述听力文档中将所述音频时间段所对应的整句设为标记整句。
一种数据提取装置，其特征在于，包括：

选择播放模块，用于利用听力文件并通过设定规则获得单词调节时间和整句调节时间，保存单词调节时间和整句调节时间后生成设定完成信号；接收由用户端根据所述设定完成信号输出的选择信号，并根据所述选择信号获取听力文件；将听力文件在用户端播放并记录播放开始时间；

信号接收模块，用于接收单词标定信号，记录接收到所述单词信号时的时间，并将所述时间设定为单词标定时间；或接收整句标定信号，记录接收到所述整句信号时的时间，并将所述时间设定为整句标定时间；

调节时间提取模块，用于根据所述单词信号提取单词调节时间；或根据所述整句信号提取整句调节时间；

调节修正模块，用于根据所述单词标定时间与单词调节时间相减，获得单词修正时间；根据所述单词修正时间在听力文档中获得标记单词；或根据所述整句标定时间与整句调节时间相减，获得整句修正时间；根据所述整句修正时间在听力文档中获得标记整句；

汇总模块，用于汇总所述听力文件中的标记单词形成单词标记集并将其保存至标记数据库；或汇总所述听力文件中的标记整句形成整句标记集并将其保存至标记数据库。
一种计算机系统，其包括多个计算机设备，各计算机设备包括存储器.处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述多个计算机设备的处理器执行所述计算机程序时共同实现所述数据提取方法的以下步骤：

S1：利用听力文件并通过设定规则获得单词调节时间和整句调节时间，保存单词调节时间和整句调节时间后生成设定完成信号；接收由用户端根据所述设定完成信号输出的选择信号，并根据所述选择信号获取听力文件；将听力文件在用户端播放并记录播放开始时间；

S2：接收单词标定信号，记录接收到所述单词信号时的时间，并将所述时间设定为单词标定时间；或

接收整句标定信号，记录接收到所述整句信号时的时间，并将所述时间设定为整句标定时间；

S3：根据所述单词信号提取单词调节时间；或

根据所述整句信号提取整句调节时间；

S4：根据所述单词标定时间与单词调节时间相减，获得单词修正时间；根据所述单词修正时间在听力文档中获得标记单词；或

根据所述整句标定时间与整句调节时间相减，获得整句修正时间；根据所述整句修正时间在听力文档中获得标记整句；

S5：汇总所述听力文件中的标记单词形成单词标记集并将其保存至标记数据库；或

汇总所述听力文件中的标记整句形成整句标记集并将其保存至标记数据库。
根据权利要求10所述的计算机系统，其特征在于，所述步骤S1之前还包括步骤S0，所述步骤S0包括创设听力数据库，并获得听力文件；

所述步骤S0包括以下步骤：

S01：创设听力数据库，并生成创设成功信号；

S02：根据所述创设成功信号从互联网中加载听力音频；

S03：利用语音文字转换工具将所述听力音频进行文字转换，并获得听力文档；

S04：利用语音单词同步规则将所述听力音频和听力文档同步，并制成听力文件；

S05：将所述听力文件储存至所述听力数据库；

所述步骤S03包括以下步骤：

S03-01：对听力音频进行语句切分，形成听力语句集；其中，听力语句集中至少具有一个听力语句；

S03-02：将听力语句集上传至语音文字转换工具进行文字转换；

S03-03：接收由语音转换装置输出的文字信息，并将所述文字信息汇总形成听力文档；

所述步骤S04中的语音单词同步规则包括以下步骤：

S04-1：分别获取听力音频中各单词的单词播放结束时间，并将所述单词播放结束时间作为所述单词的音频时间戳；

S04-2：依次将各所述音频时间戳，与所述听力文档中各单词进行关联，使所述听力音频播放的单词与所述听力文档的单词同步；

S04-3：以句号为分隔符，对听力文档的进行分句获得至少一个整句；

获取所述整句位于首位的单词的音频时间戳，作为首位时间戳；

获取所述整句位于尾部的单词的音频时间戳，作为尾部时间戳；

根据所述首位时间戳和尾部时间戳，获得以所述首位时间戳作为上限，以尾部时间戳作为下限的音频时间段。
根据权利要求11所述的计算机系统，其特征在于，所述步骤S1中的设定规则，包括以下步骤：

S1-01：从所述听力数据库中获取听力文件，并向用户端输出训练准备信号；接收由所述用户端根据训练准备信号输出的训练开始信号，并记录接收到所述训练开始信号的时间，将所述时间设为训练开始时间；根据所述训练开始信号将所述听力文件的听力音频输出至用户端并播放；

S1-02：接收由所述用户端输出的单词训练标定信号，记录接收到所述单词训练标定信号时的时间，并将所述时间设定为单词训练标定时间；

S1-03：将所述单词训练标定时间和训练开始时间相减，获得单词训练标定时间戳，并向用户端输出听力文件的听力文档；

S1-04：接收所述用户端从所述听力文档中选择的调整单词，获取所述调整单词的音频时间戳，并将所述音频时间戳设为调整训练时间戳；

S1-05：将所述单词训练标定时间戳与所述调整时间训练戳相减，获得单词调节时间并保存。

所述步骤S1中的设定规则，还包括：

S1-11：从所述听力数据库中获取听力文件，并向用户端输出训练准备信号；接收由所述用户端根据训练准备信号输出的训练开始信号，并记录接收到所述训练开始信号的时间，将所述时间设为训练开始时间；根据所述训练开始信号将所述听力文件的听力音频输出至用户端并播放；

S1-12：接收由所述用户端输出的整句训练标定信号，记录接收到所述整句训练标定信号时的时间，并将所述时间设定为整句训练标定时间；

S1-13：将所述整句训练标定时间和训练开始时间相减，获得整句训练标定时间戳，并向用户端输出听力文件的听力文档；

S1-14：接收所述用户端从所述听力文档中选择的调整整句，获取所述调整整句的音频时间段，并将所述音频时间段设为调整训练时间段；

S1-15：将所述调整训练时间段的上限和下限相加再除以二，获得所述调整训练时间段的均值时间戳；将所述整句训练标定时间戳与所述均值时间戳相减，获得整句调节时间并保存。
根据权利要求10所述的计算机系统，其特征在于，所述步骤S5之后还包括步骤S6，所述S6包括：

若所述标记数据库中仅具有单词标记集或整句标记集，则将所述单词标记集或整句标记集输出；接收推荐请求，并根据所述推荐请求输出推荐文件；

若所述标记数据库中同时具有单词标记集和整句标记集，则将所述单词标记集和整句标记集同时输出；接受推荐请求，并根据所述推荐请求输出推荐文件。
根据权利要求10所述的计算机系统，其特征在于，所述步骤S4包括以下步骤：

S41：将单词标定时间与播放开始时间相减获得单词标定时间戳；或

将整句标定时间与播放开始时间相减获得整句标定时间戳；

S42：将所述单词标定时间戳与所述单词调节时间相减，获得单词修正时间；或

将所述整句标定时间戳时间与所述整句调节时间相减，获得整句修正时间；

S43：设定单词调整阈值；将所述单词修正时间与单词调整阈值相减，获得单词修正上限；将所述单词调整阈值与单词修正时间相加，获得单词修正下限；获得由所述单词修正上限和单词修正下限构成的单词修正时间段；或

设定整句调整阈值；将所述整句修正时间与整句调整阈值相减，获得整句修正上限；将所述整句修正时间与整句调整阈值相加，获得证据修正下限；获得由所述整句修正上限和整句修正下限构成的整句修正时间段；

S44：在听力音频中获取在所述单词修正时间段内的音频时间戳，并在听力文档中将所述音频时间戳所对应的单词设为标记单词；

在听力音频中获取重合范围与所述整句修正时间段最大的音频时间段，并在所述听力文档中将所述音频时间段所对应的整句设为标记整句。
一种计算机可读存储介质，其包括多个存储介质，各存储介质上存储有计算机程序，其特征在于，所述多个存储介质存储的所述计算机程序被处理器执行时共同实现所述数据提取方法的以下步骤：

S1：利用听力文件并通过设定规则获得单词调节时间和整句调节时间，保存单词调节时间和整句调节时间后生成设定完成信号；接收由用户端根据所述设定完成信号输出的选择信号，并根据所述选择信号获取听力文件；将听力文件在用户端播放并记录播放开始时间；

S2：接收单词标定信号，记录接收到所述单词信号时的时间，并将所述时间设定为单词标定时间；或

接收整句标定信号，记录接收到所述整句信号时的时间，并将所述时间设定为整句标定时间；

S3：根据所述单词信号提取单词调节时间；或

根据所述整句信号提取整句调节时间；

S4：根据所述单词标定时间与单词调节时间相减，获得单词修正时间；根据所述单词修正时间在听力文档中获得标记单词；或

根据所述整句标定时间与整句调节时间相减，获得整句修正时间；根据所述整句修正时间在听力文档中获得标记整句；

S5：汇总所述听力文件中的标记单词形成单词标记集并将其保存至标记数据库；或

汇总所述听力文件中的标记整句形成整句标记集并将其保存至标记数据库。
根据权利要求15所述的计算机可读存储介质，其特征在于，所述步骤S1之前还包括步骤S0，所述步骤S0包括创设听力数据库，并获得听力文件；

所述步骤S0包括以下步骤：

S01：创设听力数据库，并生成创设成功信号；

S02：根据所述创设成功信号从互联网中加载听力音频；

S03：利用语音文字转换工具将所述听力音频进行文字转换，并获得听力文档；

S04：利用语音单词同步规则将所述听力音频和听力文档同步，并制成听力文件；

S05：将所述听力文件储存至所述听力数据库；

所述步骤S03包括以下步骤：

S03-01：对听力音频进行语句切分，形成听力语句集；其中，听力语句集中至少具有一个听力语句；

S03-02：将听力语句集上传至语音文字转换工具进行文字转换；

S03-03：接收由语音转换装置输出的文字信息，并将所述文字信息汇总形成听力文档；

所述步骤S04中的语音单词同步规则包括以下步骤：

S04-1：分别获取听力音频中各单词的单词播放结束时间，并将所述单词播放结束时间作为所述单词的音频时间戳；

S04-2：依次将各所述音频时间戳，与所述听力文档中各单词进行关联，使所述听力音频播放的单词与所述听力文档的单词同步；

S04-3：以句号为分隔符，对听力文档的进行分句获得至少一个整句；

获取所述整句位于首位的单词的音频时间戳，作为首位时间戳；

获取所述整句位于尾部的单词的音频时间戳，作为尾部时间戳；

根据所述首位时间戳和尾部时间戳，获得以所述首位时间戳作为上限，以尾部时间戳作为下限的音频时间段。
根据权利要求16所述的计算机可读存储介质，其特征在于，所述步骤S1中的设定规则，包括以下步骤：

S1-01：从所述听力数据库中获取听力文件，并向用户端输出训练准备信号；接收由所述用户端根据训练准备信号输出的训练开始信号，并记录接收到所述训练开始信号的时间，将所述时间设为训练开始时间；根据所述训练开始信号将所述听力文件的听力音频输出至用户端并播放；

S1-02：接收由所述用户端输出的单词训练标定信号，记录接收到所述单词训练标定信号时的时间，并将所述时间设定为单词训练标定时间；

S1-03：将所述单词训练标定时间和训练开始时间相减，获得单词训练标定时间戳，并向用户端输出听力文件的听力文档；

S1-04：接收所述用户端从所述听力文档中选择的调整单词，获取所述调整单词的音频时间戳，并将所述音频时间戳设为调整训练时间戳；

S1-05：将所述单词训练标定时间戳与所述调整时间训练戳相减，获得单词调节时间并保存。
根据权利要求16所述的计算机可读存储介质，其特征在于，所述步骤S1中的设定规则，还包括：

S1-11：从所述听力数据库中获取听力文件，并向用户端输出训练准备信号；接收由所述用户端根据训练准备信号输出的训练开始信号，并记录接收到所述训练开始信号的时间，将所述时间设为训练开始时间；根据所述训练开始信号将所述听力文件的听力音频输出至用户端并播放；

S1-12：接收由所述用户端输出的整句训练标定信号，记录接收到所述整句训练标定信号时的时间，并将所述时间设定为整句训练标定时间；

S1-13：将所述整句训练标定时间和训练开始时间相减，获得整句训练标定时间戳，并向用户端输出听力文件的听力文档；

S1-14：接收所述用户端从所述听力文档中选择的调整整句，获取所述调整整句的音频时间段，并将所述音频时间段设为调整训练时间段；

S1-15：将所述调整训练时间段的上限和下限相加再除以二，获得所述调整训练时间段的均值时间戳；将所述整句训练标定时间戳与所述均值时间戳相减，获得整句调节时间并保存。
根据权利要求15所述的计算机可读存储介质，其特征在于，所述步骤S5之后还包括步骤S6，所述S6包括：

若所述标记数据库中仅具有单词标记集或整句标记集，则将所述单词标记集或整句标记集输出；接收推荐请求，并根据所述推荐请求输出推荐文件；

若所述标记数据库中同时具有单词标记集和整句标记集，则将所述单词标记集和整句标记集同时输出；接受推荐请求，并根据所述推荐请求输出推荐文件。
根据权利要求15所述的计算机可读存储介质，其特征在于，所述步骤S4包括以下步骤：

S41：将单词标定时间与播放开始时间相减获得单词标定时间戳；或

将整句标定时间与播放开始时间相减获得整句标定时间戳；

S42：将所述单词标定时间戳与所述单词调节时间相减，获得单词修正时间；或

将所述整句标定时间戳时间与所述整句调节时间相减，获得整句修正时间；

S43：设定单词调整阈值；将所述单词修正时间与单词调整阈值相减，获得单词修正上限；将所述单词调整阈值与单词修正时间相加，获得单词修正下限；获得由所述单词修正上限和单词修正下限构成的单词修正时间段；或

设定整句调整阈值；将所述整句修正时间与整句调整阈值相减，获得整句修正上限；将所述整句修正时间与整句调整阈值相加，获得证据修正下限；获得由所述整句修正上限和整句修正下限构成的整句修正时间段；

S44：在听力音频中获取在所述单词修正时间段内的音频时间戳，并在听力文档中将所述音频时间戳所对应的单词设为标记单词；

在听力音频中获取重合范围与所述整句修正时间段最大的音频时间段，并在所述听力文档中将所述音频时间段所对应的整句设为标记整句。