WO2019227582A1

WO2019227582A1 - 一种信息查询方法、装置、计算机设备及存储介质

Info

Publication number: WO2019227582A1
Application number: PCT/CN2018/094373
Authority: WO
Inventors: 黄锦伦
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-05-29
Filing date: 2018-07-03
Publication date: 2019-12-05
Also published as: CN108829765A

Abstract

本申请公开了一种信息查询方法、装置、计算机设备及存储介质，所述方法包括：获取多媒体文件；对多媒体文件的文件扩展名进行正则匹配，确定多媒体文件的文件类型；根据文件类型对应的预设解析方式，对多媒体文件进行解析，得到多媒体文件的内容文本信息，以及每个内容文本信息对应的时间戳信息；建立多媒体文件的文件标识、内容文本信息和时间戳信息之间的映射关系，并作为文件转写记录，保存到多媒体知识库中；若接收到用户的查询请求，则基于多媒体知识库，将查询关键字与内容文本信息进行匹配，并将匹配成功的文件转写记录作为查询结果。本申请的技术方案实现了对不同文件类型的多媒体文件的解析和查询，提高了多媒体文件的查询效率。

Description

一种信息查询方法、装置、计算机设备及存储介质

本申请以2018年5月29日提交的申请号为201810529526.7，名称为“一种信息查询方法、装置、终端设备及存储介质”的中国发明专利申请为基础，并要求其优先权。

技术领域

本申请涉及计算机网络技术领域，尤其涉及一种信息查询方法、装置、计算机设备及存储介质。

背景技术

随着计算机硬件技术和软件技术的快速发展，计算机网络技术应用也越来越丰富，能够满足人们多元化的需要。计算机网络技术作为一种新的科学技术，它极大地改变了社会的发展形态和发展方向，并且成为了一种所广泛应用的技术，在现代社会中发挥了重要的作用。计算机网络技术结合了计算机技术和网络技术的优点，能够实现信息的有效传递，它加快了信息传输的速度，降低了人们信息传输的成本和时间，使人们之间的信息交换越来越频繁，它逐渐地改变了人们的生活方式和商业形态等，对于社会的发展具有重要的影响。

当前，信息的存储方式比较多样化，日常生活中，人们常用的信息存储方式为采用多媒体文件来存储常用信息，多媒体文件包括但不限于：视频文件、音频文件、图片文件和文本文件等，但是，大多数资料库只针对文本文件内的内容可以做有效检索，针对视频文件、音频文件和图片文件中的内容无法直接检索，导致多媒体文件查询的效率低。

发明内容

基于此，有必要针对上述技术问题，提供一种可以提高当前多媒体文件查询效率的信息查询方法、装置、计算机设备及存储介质。

一种信息查询方法，包括：

获取多媒体文件；

采用预设的正则表达式，对所述多媒体文件的文件扩展名进行正则匹配，确定所述多媒体文件的文件类型；

根据所述文件类型对应的预设解析方式，对所述多媒体文件进行解析，得到所述多媒体文件的内容文本信息，以及每个所述内容文本信息对应的时间戳信息；

建立所述多媒体文件的文件标识、所述内容文本信息和所述时间戳信息之间的映射关系，并将所述文件标识、所述内容文本信息、所述时间戳信息，以及所述映射关系作为所述多媒体文件的文件转写记录，保存到多媒体知识库中；

若接收到用户发送的包含查询关键字的查询请求，则基于所述多媒体知识库，将所述查询关键字与所述内容文本信息进行匹配，并将匹配成功的文件转写记录作为查询结果；

输出所述查询结果。

一种信息查询装置，包括：

数据获取模块，用于获取多媒体文件；

类型确定模型，用于采用预设的正则表达式，对所述多媒体文件的文件扩展名进行正则匹配，确定所述多媒体文件的文件类型；

文件解析模块，用于根据所述文件类型对应的预设解析方式，对所述多媒体文件进行解析，得到所述多媒体文件的内容文本信息，以及每个所述内容文本信息对应的时间戳信息；

记录保存模块，用于建立所述多媒体文件的文件标识、所述内容文本信息和所述时间戳信息之间的映射关系，并将所述文件标识、所述内容文本信息、所述时间戳信息，以及所述映射关系作为所述多媒体文件的文件转写记录，保存到多媒体知识库中；

匹配查询模块，用于若接收到用户发送的包含查询关键字的查询请求，则基于所述多媒体知识库，将所述查询关键字与所述内容文本信息进行匹配，并将匹配成功的文件转写记录作为查询结果；

结果输出模块，用于输出所述查询结果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述信息查询方法的步骤。

一个或多个存储有计算机可读指令的非易失性可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行上述信息查询方法的步骤。

本申请的一个或多个实施例的细节在下面的附图和描述中提出，本申请的其他特征和优点将从说明书、附图以及权利要求变得明显。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的信息查询方法的应用环境示意图；

图2是本申请实施例提供的信息查询方法的实现流程图；

图3是本申请实施例提供的信息查询方法中步骤S3的实现流程图；

图4是本申请实施例提供的信息查询方法中步骤S3的另一实现流程图；

图5是本申请实施例提供的信息查询方法中对查询结果中的多媒体文件进行加载的实现流程图；

图6是本申请实施例提供的信息查询装置的示意图；

图7是本申请实施例提供的计算机设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1示出本申请实施例提供的信息查询方法的应用环境。该信息查询方法应用针对多媒体文件的查询场景中。该查询场景包括服务端和客户端，其中，服务端和客户端之间通过网络进行连接，用户通过客户端将多媒体文件存储到服务端，并根据需要通过客户端对服务端的多媒体文件进行查询，服务端通过对多媒体文件进行相应处理后存入多媒体文件库中，在接收到客户端查询请求时，从多媒体文件库中获取对应的多媒体文件，客户端具体可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。

请参阅图2，图2示出本申请实施例提供的一种信息查询方法，以该方法应用在图1中的服务端为例进行说明，详述如下：

S1：获取多媒体文件。

具体地，在接收到用户通过客户端发送的多媒体文件发送请求时，接收该请求中包含的多媒体文件。

其中，多媒体文件是指媒体的各种编码数据在计算机中都是以文件的形式存储形成的文件，是二进制数据的集合。文件的命名遵循特定的规则，一般由主名和扩展名两部分组成，主名与扩展名之间用“.”隔开，扩展名用于表示文件的格式类型，多媒体文件包括但不限于：音频文件、视频文件、图片文件或者文档文件等。

其中，客户端与服务端之间的多媒体文件传输通过文件传输协议(File Transfer Protocol，FTP)进行文件传输。

需要说明的是，服务端在接收到客户端发送的多媒体文件后，会生成一个唯一的文件标识来标识该多媒体文件。

S2：采用预设的正则表达式，对多媒体文件的文件扩展名进行正则匹配，确定该多媒体文件的文件类型。

具体地，服务端在接收到多媒体文件后，获取该多媒体文件的文件名，由步骤S1中多媒体文件的描述可知，多媒体文件的文件名包括主名与扩展名，通对使用预设的正则表达式，对多媒体文件的扩展名进行正则匹配，得到该多媒体的文件类型。

其中，文件类型是指电脑为了存储信息而使用的对信息的特殊编码方式，是用于识别内部储存的资料。比如有的储存图片，有的储存程序，有的储存文字信息。每一类信息，都可以一种或多种文件格式保存在电脑存储中。扩展名可以帮助应用程序识别的文件格式。

其中，预设的正则表示式的模型为：“^\S+\.扩展名$”，扩展名可以文件类型为视频的扩展名，包括不限于：AVI、MPEG/1/2/4、RM、RMVB、WMV、VCD/SVCD、DAT、VOB、MOV、MP4、MKV、ASF和FLV等，也可以是文件类型为音频的扩展名，包括但不限于：WAVE/WAV、AIFF、AU、MP3、MIDI、WMA、RealAudio、VQF、OggVorbis、AAC和APE等，也可以是文件类型为图片的扩展名，包括但不限于：BMP、JPG、PNG、TIFF、GIF、PCX、TGA、EXIF、FPX、SVG、PSD、CDR、PCD、DXF、UFO、EPS、AI、RAW、WMF和WEBP等，也可以是文件类型为文档的扩展名，包括但不限于：WORD、PDF、TXT和INI等。

例如，在一具体实施方式中，服务端接收到一个多媒体文件，获取到该多媒体文件的文件名为“第八次会议录音.WMA”，通过使用预设的正则表达式进行正则匹配，获取到该多媒体文件的文件名的扩展名为“WMA”，其文件格式为音频。

S3：根据文件类型对应的预设解析方式，对多媒体文件进行解析，得到该多媒体文件的内容文本信息，以及每个内容文本信息对应的时间戳信息。

具体地，根据步骤S2中获取到的多媒体文件的文件类型，选取该文件类型对应的预设解析方式，对该多媒体文件进行解析，并按照实际需要，将解析结果中的一个或多个数据记录到独自的文本中，将该文本作为多媒体文件的内容文本信息，并为针对每个内容文本信息生成该数据对应的时间戳信息。

例如，在一具体实施方式中，获取到的多媒体文件的文件标识为20180504，根据正则匹配知悉文件类型为音频，根据音频的预设解析方式，对该多媒体文件进行解析，得到三个内容文本信息分别为：“现在”、“我宣布”、“会议正式开始”，按照这三个内容文本信息对应的音频数据在该多媒体文件中的时间帧信息，得到这三个内容文本信息对应的时间戳信息分别为：“00：00”、“00：02”和“00：06”。

S4：建立多媒体文件的文件标识、内容文本信息和时间戳信息之间的映射关系，并将文件标识、内容文本信息、时间戳信息和映射关系作为该多媒体文件的文件转写记录，保存到多媒体知识库中。

具体地，在生成内容文本信息和时间戳信息之后，建立多媒体文件的文件标识、该内容文本信息和该时间戳信息之间的映射关系，并将文件标识、内容文本信息、时间戳信息和映射关系作为多媒体文件的文件转写记录，保存到多媒体知识库中，以便在后续查询时，可以根据文件转写记录找到内容文本信息对应的文件标识，从而找到对应的多媒体文件。

其中，多媒体知识库是指存储有海量多媒体文件信息的知识库。

以步骤S3中得到的内容文本信息和时间戳信息为例，对文件标识、内容文本信息和该内容文本信息对应的时间戳信息建立映射关系，得到三个文件转写记录分别为“20180504，现在，00：00”、“20180504，我宣布，00：02”和“20180504，会议正式开始，00：06”，并将这三个文件转写记录分别存储到多媒体知识库中。

S5：若接收到用户发送的包含查询关键字的查询请求，则基于多媒体知识库，将该查询关键字与内容文本信息进行匹配，并将匹配成功的文件转写记录作为查询结果。

具体地，在接收到用户通过客户端发送的包含查询关键字的查询请求时，基于多媒体知识库，在文件转写记录中查找是否存在对应的内容文本信息包含该查询关键字，若存在，则将匹配成功的文件转写记录记为目标文件转写记录，并作为查询结果。

应理解，得到的查询结果可以为一个，也可以为多个。

例如，在一具体实施方式中，查询关键字为“坐席”，在文件转写记录的内容文本信息中，查询到两条内容文本信息包含查询关键字“坐席”，这两条内容文本信息为“坐席的外呼监控”和“提升坐席沟通业务熟练度”，对应的文件转写记录为：“20180505，坐席的外呼监控，12：26”和“20180503，提升坐席沟通业务熟练度，46：11”，将这两个文件转写记录记作目标文件转写记录，并作为查询结果。

S6：输出查询结果。

具体地，将步骤S5中得到的查询结果发送到客户端显示，以供用户查阅。

在本实施例中，通过采用预设的正则表达式，对获取到的多媒体文件的文件扩展名进行正则匹配，确定该多媒体文件的文件类型，并根据该文件类型对应的预设解析方式，对多媒体文件进行解析，得到该多媒体文件的内容文本信息，以及每个内容文本信息对应的时间戳信息，进而建立多媒体文件标识、内容文本信息和时间戳信息之间的映射关系，并作为文件转写记录存入到多媒体知识库中，实现了对不同文件类型的多媒体文件均可以采用相应的解析方式进行解析后，形成内容文本信息和时间戳信息，并以文件转写记录的方式保存在多媒体知识库中，当接收到用户的查询请求时，直接通过查询请求中的关键字与多媒体知识库中的内容文本信息进行匹配，即可快速查询到用户所需要的多媒体文件，并能根据时间戳信息及时准确地获取关键字在多媒体文件中的具体位置，从而提高了多媒体文件的查询效率。

在一实施例中，多媒体文件的文件类型为音频，如图3所示，步骤S3中，即根据文件类型对应的预设解析方式，对多媒体文件进行解析，得到该多媒体文件的内容文本信息，以及每个内容文本信息对应的时间戳信息，具体包括如下步骤：

S311：获取多媒体文件的音频格式。

具体地，根据步骤S2中的正则表达匹配的方式，得到该多媒体文件的音频格式，例如，多媒体文件“会议开场伴奏.MP3”经过正则表达得到的音频格式为MP3格式。

S312：若音频格式为非预设的音频格式，则对多媒体文件进行标准格式转换，得到预设的音频格式的目标音频文件。

具体地，检测步骤S311中获取到的音频格式是否与预设的音频格式相同，若获取到的音频格式为非预设的音频格式，则将该多媒体文件进行格式转换，转化成预设的音频格式的多媒体文件。

优选地，本申请实施例预设的音频格式为WMA(Windows Media Audio，微软音频格式)，WMA在压缩比和音质方面都超过了MP3(MPEG Audio Layer3)，更是远胜于RA(Real Audio，即时播音系统)，即使在较低的采样频率下也能产生较好的音质，有利于提高后续进行语音识别的准确率。

S313：对目标音频文件进行语音增强和降噪处理，得到包含基础语音帧的帧集合。

具体地，对目标音频文件进行语音增强和降噪处理，从而减少干扰，进一步提高语音的质量，并通过静音检测的方式来对语音信号进行分帧，将目标音频文件中的语音信号分成包含若干个基础语音帧的帧集合。

其中，本实施例中对语音增强和降噪处理，采用谱减法，即在提取目标音频文件的语音信号后，用该语音信号中带噪信号的频谱减去噪声信号的频谱。谱减法基于一个简单的假设：假设语音中的噪声只有加性噪声，只要将带噪语音谱减去噪声谱，就可以得到纯净语音信号。

在得到纯净的语音信号后，通过静音检测的方式，找出静音段，并根据静音段，对纯净语音信号进行切分，将该纯净语音信号切分成包含若干个基础语音帧的帧集合。

其中，静音检测的方式包括但不限于：语音端点检测、探测音频静音算法和语音活动检测(Voice Activity Detection，VAD)算法等。

优选地，本申请实施例使用语音活动检测对得到的纯净语音信号进行静音检测。

S314：对帧集合中的每个基础语音帧进行语音识别，生成内容文本信息。

具体地，针对每个基础语音帧进行语音识别，得到该基础语音帧对应的内容文本信息。

其中，对基础语音帧进行语音识别，可采用语音识别算法，也可以使用具有语音识别功能的第三方工具，具体不作限制。语音识别算法包括但不限于：基于声道模型的语音识别算法、语音模板匹配识别算法和或人工神经网络的语音识别算法等。

优选地，本申请实施例采用的语音识别算法为基于声道模型的语音识别算法。

例如，在一具体实施方式中，目标音频文件“关于加强坐席外呼监控会议记录.WAV”经过步骤S313的增强和降噪后，得到包含120个基础语音帧的帧集合，对每一个基础语音帧进行语音识别，得到120个内容文本信息。

S315：针对每个内容文本信息，按照预设方式生成该内容文本信息在帧集合中对应的时间戳信息，作为该内容文本信息对应的时间戳信息。

具体地，按照预设方式生成该内容文本信息在帧集合中对应的时间戳信息，作为该内容文本信息对应的时间戳信息，是指在对基础语音帧进行语音识别后，获取该基础语音帧在目标语音文件中对应的时间戳信息，并将该时间戳信息作为语音识别后得到的内容文本信息对应的时间戳信息。

在本实施例中，通过对获取到多媒体文件的音频格式进行判断，并将非预设的音频格式的多媒体文件进行标准格式转换，得到预设音频格式的目标音频文件，对目标音频文件进行语音增强和降噪处理，得到包含基础语音帧的帧集合，进而对帧集合中的每个基础语音帧进行语音识别，生成内容文本信息，并获取每个内容文本信息对应的时间戳信息，使得文件格式为音频的多媒体文件被解析为文字类型的文件，使得在后续查询的时候能根据多媒体文件中的内容信息快速查询到该多媒体文件，从而有利于提高了多媒体文件查询的效率。

在一实施例中，多媒体文件的文件类型为视频，在步骤S311之前，该信息查询方法还包括：

按照预设的音频格式提取多媒体文件的音频编码，并将该音频编码作为更新后的多媒体文件。

具体地，针对文件类型为视频的多媒体文件，可以通过第三方工具，也可以通过音频提取算法，对多媒体文件进行音频编码提取，并将得到的音频编码转换为预设的音频格式，将转换成预设音频格式的音频编码作为更新后的多媒体文件。其中，本实施例中预设的音频格式为WAV，也可以根据实际需要进行设置，此处不作具体限制。

其中，根据编码方式的不同，音频编码分为三种：波形编码、参数编码和混合编码。一般来说，波形编码的话音质量高，但编码速率也很高；参数编码的编码速率很低，产生的合成语音的音质不高；混合编码使用参数编码技术和波形编码技术，编码速率和音质介于它们之间。

优选地，本实施例采用的音频编码为波形编码，该编码方式语音质量较高，在利于提高后续对音频格式的多媒体文件的识别的准确率。

其中，第三方工具包括但不限于：格式工厂(Format Factory)和FFMPEG(Fast Forward Moving Picture Experts Group)等，音频提取算法包括但不限于：基于哈希的音频指纹提取算法、音频稀疏表达(Sparse Representation-based Classifier，SRC)算法和离散傅氏变换的快速算法(Fast Fourier Transformation，FFT)等，第三方工具或音频提取算法可以根据实际情况进行选取，此处不作具体限制。

在本实施例中，当多媒体文件的文件格式为视频时，提取视频中的音频编码，并将该音频编码保存为预设的音频格式的多媒体文件，作为更新后的多媒体文件，通过对文件格式为视频的多媒体文件提取音频编码，从而转化成包含音频信息的多媒体文件来处理，在后续通过对音频进行语音识别来获取其中包含的信息，从而实现文件类型为视频的多媒体文件的信息提取。

在一实施例中，多媒体文件的文件类型为图片，如图4所示，步骤S3中，即根据文件类型对应的预设解析方式，对多媒体文件进行解析，得到该多媒体文件的内容文本信息，以及每个内容文本信息对应的时间戳信息，具体包括如下步骤：

S331：对多媒体文件进行图片预处理，得到目标图片文件。

具体地，对图片预处理，主要目的是消除图片中无关的信息，恢复有用的真实信息，增强有关信息的可检测性和最大限度地简化数据，从而改进特征抽取、图片分割、匹配和识别的可靠性。

在本申请实施例中，对图片预处理是指对图片进行灰度(Gray Processing)处理、锐化(Image Sharpening)处理和二值化(Image Binarization)处理等，通过图片预处理，去除背景或者噪点，突出文字部分，并缩放图片为适合处理的大小。

其中，灰度处理是指将彩色图片转化成为灰度图片的过程，目的是为了改善画质，使图片的显示效果更加清晰。灰度处理包括但不限于：分量法、最大值法、平均值法和加权平均法等。

其中，锐化处理是指是补偿图片的轮廓，增强图片的边缘及灰度跳变的部分，使图片变得清晰，分为空域处理和频域处理两类，锐化处理是为了突出图片上地物的边缘、轮廓，或某些线性目标要素的特征。

其中，二值化处理就是将图片上的像素点的灰度值设置为0或255，也就是将整个图片呈现出明显的黑白效果的过程，图片的二值化使图片中数据量大为减少，从而能凸显出目标的轮廓。

S332：使用场景文本检测算法，获取目标图片文件中的文字区域。

具体地，由于图片文件中的文字识别为自然场景下的文字识别，因而在对图片进行预处理，得到目标图片后，需要确定目标图片中的文字区域，以便进行文字识别。

文字区域的确定方法包括但不限于：霍夫投票(Hough Transform)算法、基于隐马尔可夫模型(Hidden Markov Model，HMM)的字符识别算法、区域特征提取(Maximally Stable Extremal Regions，MSER)算法和场景文本检测(Connectionist Text Proposal Network)算法。

优选地，本申请实施例采用场景文本检测算法来确定目标图片文件中的文字区域，其实现方式为：通过使用卷积神经网络(Convolutional Neural Networks，CNN)模型对目标图片文件进行训练，得到图片的深度特征；进而根据深度特征与文本线构造算法(Side Refinement)来预测字符边缘，并按照预设大小的矩形框，将字符边缘处于同一行的字符放入同一个矩形框；将矩形框串成序列，并输入到循环神经网络(Recurrent Neural Networks，RNN)模型中进行训练，最后将训练结果使用全连接层来回归，得到正确的字符边缘，并将正确的字符边缘连接成线，从而得到目标图片文件中的文字区域。

S333：采用光学字符识别的方式，提取文字区域的文字内容，作为内容文本信息。

具体地，在步骤S332中获取到的文字区域内，采用光学字符识别(Optical Character Recognition，OCR)的方式，对该文字区域内的图片进行文字识别，并提取出识别到的文字信息，作为内容文本信息。

其中，光学字符识别是指通过光学字符识别软件检查图片上的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对图片上的字符，采用光学的方式将图片中的文字转换成为黑白点阵的图片文件，并通过识别软件将图片中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

S334：将内容文本信息对应的时间戳信息设置为空。

具体地，由于本申请实施例中所提的图片文件为静态的图片文件，在后续用户进行多媒体文件查询时，不需要获取图片文件的时间戳信息，因此，将内容文本信息对应的时间戳设置为空。

在本实施例中，通过对多媒体文件进行图片预处理，得到目标图片文件，并使用场景文本检测算法，获取目标图片文件中的文字区域，进而采用光学字符识别的方式，识别出文字区域的文字内容，作为内容文本信息，使得图片上包含的文字信息被提取出来，在后续用户在根据查询关键字查询时，可以快速便捷的查询出包含有该查询关键字的图片，提高了查询效率。

在一实施例中，服务端根据接收到的加载指令，对查询结果对应的多媒体文件进行加载，如图5所示，在步骤S6之后，该信息查询还包括如下步骤：

S71：若接收到用户对查询结果的加载指令，则根据加载指令确定待加载的文件转写记录。

具体的，在接收到用户对查询结果的加载指令时，获取该查询结果对应的文件转写记录，将该文件转写记录作为待加载的文件转写记录。

值得说明的是，用户可以通过在客户端使用鼠标点击或者按下键盘快捷键的方式，向服务端发送加载指令。

以步骤S5中得到的两个查询结果“20180505，坐席的外呼监控，12：26”和“20180503，提升坐席沟通业务熟练度，46：11”为例，当用户使用鼠标点击查询结果“20180505，坐席的外呼监控，12：26”后，即完成向服务端发送该查询结果的加载指令，服务端获取该加载指令中包含的文件转写记录，将该文件转写记录作为待加载的文件转写记录。

S72：根据待加载的文件转写记录中的文件标识，获取该文件标识对应的目标多媒体文件。

具体地，文件转写记录中包括文件标识、内容文本信息、时间戳信息和映射关系，根据待加载的文件转写记录中的文件标识，可以确定该文件标识对应的多媒体文件，进而获取该多媒体文件作为目标多媒体文件。

以步骤S71中得到的待加载的文件转写记录为例，该待加载的文件转写记录中包含的文件标识为“20180505”，进而在多媒体知识库中找到文件标识“20180505”对应的目标多媒体文件“关于加强坐席外呼监控会议记录.WAV”。

S73：若目标多媒体文件的文件类型为图片，则显示该目标多媒体文件。

具体地，在获取到目标多媒体文件后，使用步骤S2提供的正则匹配的方式确定目标多媒体文件的文件类型，当目标多媒体文件的文件类型为图片时，直接传输该图片文件到客户端显示，以便供用户去查阅。

S74：若目标多媒体文件的文件类型为音频或视频，则获取待加载的文件转写记录中的时间戳信息包含的目标时间点，并驱动该目标多媒体文件从目标时间点处开始执行。

具体地，在获取到目标多媒体文件后，使用步骤S2提供的正则匹配的方式确定目标多媒体文件的文件类型，当目标多媒体文件的文件类型为视频或音频时，获取待加载的文件转写记录中信息戳信息包含的目标时间点，驱动该目标多媒体文件从目标时间点开始播放。

以步骤S72获取到的待加载的文件转写记录“20180505，坐席的外呼监控，12：26”和目标多媒体文件“关于加强坐席外呼监控会议记录.WAV”为例，该待加载的文件转写记录中时间戳信息为“12：26”，包含的目标时间点为第12分钟第26秒，驱动目标多媒体文件“关于加强坐席外呼监控会议记录.WAV”从第12分钟第26秒开始播放。

在本实施例中，在接收到用户对查询结果的加载指令时，根据加载指令确定待加载的文件转写记录，并根据该待加载的文件转写记录中的文件标识，获取对应的目标多媒体文件，并对该目标多媒体文件进行文件类型确认，若文件类型为图片，则直接加载该目标多媒体文件，若文件类型为音频或视频，则获取待加载的文件转写记录中的时间戳信息包含的目标时间点，驱动应用程序从该时间点打开目标多媒体文件，使得再接收到用户对查询结果的加载指令时，可以快速打开对应的目标多媒体文件，且对音频或者视频文件，可以直接定位到用户查询的关键字对应的时间点开始播放，供用户去查阅，提高了多媒体文件查询的效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在一实施例中，提供一种信息查询装置，该信息查询装置与上述实施例中信息查询方法一一对应。如图6所示，该信息查询装置包括数据获取模块10、类型确定模块20、文件解析模块30、记录保存模块40、匹配查询模块50和结果输出模块60。各功能模块详细说明如下：

数据获取模块10，用于获取多媒体文件；

类型确定模型20，用于采用预设的正则表达式，对多媒体文件的文件扩展名进行正则匹配，确定该多媒体文件的文件类型；

文件解析模块30，用于根据文件类型对应的预设解析方式，对多媒体文件进行解析，得到该多媒体文件的内容文本信息，以及每个内容文本信息对应的时间戳信息；

记录保存模块40，用于建立多媒体文件的文件标识、内容文本信息和时间戳信息之间的映射关系，并将文件标识、内容文本信息、时间戳信息和映射关系作为该多媒体文件的文件转写记录，保存到多媒体知识库中；

匹配查询模块50，用于若接收到用户发送的包含查询关键字的查询请求，则基于多媒体知识库，将该查询关键字与内容文本信息进行匹配，并将匹配成功的文件转写记录作为查询结果；

结果输出模块60，用于输出查询结果。

进一步地，文件类型为音频，文件解析模块30包括：

格式获取单元311，用于获取多媒体文件的音频格式；

格式转换单元312，用于若音频格式为非预设的音频格式，则对多媒体文件进行标准格式转换，得到预设的音频格式的目标音频文件；

数据处理单元313，用于对目标音频文件进行语音增强和降噪处理，得到包含基础语音帧的帧集合；

语音识别单元314，用于对帧集合中的每个基础语音帧进行语音识别，生成内容文本信息；

时间标识单元315，用于针对每个内容文本信息，按照预设方式生成该内容文本信息在帧集合中对应的时间戳信息，作为该内容文本信息对应的时间戳信息。

进一步地，文件类型为视频，文件解析模块30还包括：

音频提取单元321，用于按照预设的音频格式提取多媒体文件的音频编码，并将该音频编码作为更新后的多媒体文件。

进一步地，文件类型为图片，文件解析模块30还包括：

图片处理单元331，用于对多媒体文件进行图片预处理，得到目标图片文件；

区域确定单元332，用于使用场景文本检测算法，获取目标图片文件中的文字区域；

文字提取单元333，用于采用光学字符识别的方式，提取文字区域的文字内容，作为内容文本信息；

时间设置单元334，用于将内容文本信息对应的时间戳信息设置为空。

进一步地，该信息查询装置还包括：

记录确定模块71，用于若接收到用户对查询结果的加载指令，则根据加载指令确定待加载的文件转写记录；

文件获取模块72，用于根据待加载的文件转写记录中的文件标识，获取该文件标识对应的目标多媒体文件；

图片显示模块73，用于若目标多媒体文件的文件类型为图片，则显示该目标多媒体文件；

文件播放模块74，用于若目标多媒体文件的文件类型为音频或视频，则获取待加载的文件转写记录中的时间戳信息包含的目标时间点，并驱动该目标多媒体文件从目标时间点处开始执行。

关于信息查询装置的具体限定可以参见上文中对于信息查询方法的限定，在此不再赘述。上述信息查询装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储信息查询方法中的多媒体知识库与多媒体知识库中文件标识对应的多媒体文件。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种信息查询方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现上述实施例信息查询方法的步骤，例如图2所示的步骤S1至步骤S6。或者，处理器执行计算机可读指令时实现上述实施例信息查询装置的各模块/单元的功能，例如图6所示的模块10至模块60。为避免重复，这里不再赘述。

在一个实施例中，提供了一个或多个非易失性可读存储介质，其上存储有计算机可读指令，计算机可读指令被处理器执行时实现上述实施例信息查询方法的步骤，或者，计算机可读指令被处理器执行时实现上述实施例信息查询装置的各模块/单元的功能，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一个或多个非易失性可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种信息查询方法，其特征在于，所述信息查询方法包括：

获取多媒体文件；

采用预设的正则表达式，对所述多媒体文件的文件扩展名进行正则匹配，确定所述多媒体文件的文件类型；

根据所述文件类型对应的预设解析方式，对所述多媒体文件进行解析，得到所述多媒体文件的内容文本信息，以及每个所述内容文本信息对应的时间戳信息；

建立所述多媒体文件的文件标识、所述内容文本信息和所述时间戳信息之间的映射关系，并将所述文件标识、所述内容文本信息、所述时间戳信息，以及所述映射关系作为所述多媒体文件的文件转写记录，保存到多媒体知识库中；

若接收到用户发送的包含查询关键字的查询请求，则基于所述多媒体知识库，将所述查询关键字与所述内容文本信息进行匹配，并将匹配成功的文件转写记录作为查询结果；

输出所述查询结果。
如权利要求1所述的信息查询方法，其特征在于，所述文件类型为音频，所述根据所述文件类型对应的预设解析方式，对所述多媒体文件进行解析，得到所述多媒体文件的内容文本信息，以及每个所述内容文本信息对应的时间戳信息包括：

获取所述多媒体文件的音频格式；

若所述音频格式为非预设的音频格式，则对所述多媒体文件进行标准格式转换，得到所述预设的音频格式的目标音频文件；

对所述目标音频文件进行语音增强和降噪处理，得到包含基础语音帧的帧集合；

对所述帧集合中的每个所述基础语音帧进行语音识别，生成所述内容文本信息；

针对每个所述内容文本信息，按照预设方式生成该内容文本信息在所述帧集合中对应的时间戳信息，作为该内容文本信息对应的时间戳信息。
如权利要求2所述的信息查询方法，其特征在于，所述文件类型为视频，在所述获取所述多媒体文件的音频格式之前，所述信息查询方法还包括：

按照预设的音频格式提取所述多媒体文件的音频编码，并将所述音频编码作为更新后的所述多媒体文件。
如权利要求1所述的信息查询方法，其特征在于，所述文件类型为图片，所述根据所述文件类型对应的预设解析方式，对所述多媒体文件进行解析，得到所述多媒体文件的内容文本信息，以及所述内容文本信息对应的时间戳信息还包括：

对所述多媒体文件进行图片预处理，得到目标图片文件；

使用场景文本检测算法，获取所述目标图片文件中的文字区域；

采用光学字符识别的方式，提取所述文字区域的文字内容，作为所述内容文本信息；

将所述内容文本信息对应的时间戳信息设置为空。
如权利要求1至4任一项所述的信息查询方法，其特征在于，在所述输出所述查询结果之后，所述信息查询方法还包括：

若接收到所述用户对所述查询结果的加载指令，则根据所述加载指令确定待加载的文件转写记录；

根据所述待加载的文件转写记录中的文件标识，获取该文件标识对应的目标多媒体文件；

若所述目标多媒体文件的文件类型为图片，则显示所述目标多媒体文件；

若所述目标多媒体文件的文件类型为音频或视频，则获取所述待加载的文件转写记录中的时间戳信息包含的目标时间点，并驱动所述目标多媒体文件从所述目标时间点处开始执行。
一种信息查询装置，其特征在于，所述信息查询装置包括：

数据获取模块，用于获取多媒体文件；

类型确定模型，用于采用预设的正则表达式，对所述多媒体文件的文件扩展名进行正则匹配，确定所述多媒体文件的文件类型；

文件解析模块，用于根据所述文件类型对应的预设解析方式，对所述多媒体文件进行解析，得到所述多媒体文件的内容文本信息，以及每个所述内容文本信息对应的时间戳信息；

记录保存模块，用于建立所述多媒体文件的文件标识、所述内容文本信息和所述时间戳信息之间的映射关系，并将所述文件标识、所述内容文本信息、所述时间戳信息，以及所述映射关系作为所述多媒体文件的文件转写记录，保存到多媒体知识库中；

匹配查询模块，用于若接收到用户发送的包含查询关键字的查询请求，则基于所述多媒体知识库，将所述查询关键字与所述内容文本信息进行匹配，并将匹配成功的文件转写记录作为查询结果；

结果输出模块，用于输出所述查询结果。
如权利要求6所述的信息查询装置，其特征在于，所述文件类型为音频，所述文件解析模块包括：

格式获取单元，用于获取所述多媒体文件的音频格式；

格式转换单元，用于若所述音频格式为非预设的音频格式，则对所述多媒体文件进行标准格式转换，得到所述预设的音频格式的目标音频文件；

数据处理单元，用于对所述目标音频文件进行语音增强和降噪处理，得到包含基础语音帧的帧集合；

语音识别单元，用于对所述帧集合中的每个所述基础语音帧进行语音识别，生成所述内容文本信息；

时间标识单元，用于针对每个所述内容文本信息，按照预设方式生成该内容文本信息在所述帧集合中对应的时间戳信息，作为该内容文本信息对应的时间戳信息。
如权利要求6所述的信息查询装置，其特征在于，所述文件类型为图片，所述文件解析模块包括：

图片处理单元，用于对所述多媒体文件进行图片预处理，得到目标图片文件；

区域确定单元，用于使用场景文本检测算法，获取所述目标图片文件中的文字区域；

文字提取单元，用于采用光学字符识别的方式，提取所述文字区域的文字内容，作为所述内容文本信息；

时间设置单元，用于将所述内容文本信息对应的时间戳信息设置为空。
如权利要求7所述的信息查询装置，其特征在于，所述文件类型为视频，所述信息查询装置还包括：

音频提取单元，用于按照预设的音频格式提取所述多媒体文件的音频编码，并将所述音频编码作为更新后的所述多媒体文件。
如权利要求6至9任一项所述的信息查询装置，其特征在于，所述信息查询装置还包括：

记录确定模块，用于若接收到所述用户对所述查询结果的加载指令，则根据所述加载指令确定待加载的文件转写记录；

文件获取模块，用于根据所述待加载的文件转写记录中的文件标识，获取该文件标识对应的目标多媒体文件；

图片显示模块，用于若所述目标多媒体文件的文件类型为图片，则显示所述目标多媒体文件；

文件播放模块，用于若所述目标多媒体文件的文件类型为音频或视频，则获取所述待加载的文件转写记录中的时间戳信息包含的目标时间点，并驱动所述目标多媒体文件从所述目标时间点处开始执行。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如下步骤：

获取多媒体文件；

采用预设的正则表达式，对所述多媒体文件的文件扩展名进行正则匹配，确定所述多媒体文件的文件类型；

根据所述文件类型对应的预设解析方式，对所述多媒体文件进行解析，得到所述多媒体文件的内容文本信息，以及每个所述内容文本信息对应的时间戳信息；

建立所述多媒体文件的文件标识、所述内容文本信息和所述时间戳信息之间的映射关系，并将所述文件标识、所述内容文本信息、所述时间戳信息，以及所述映射关系作为所述多媒体文件的文件转写记录，保存到多媒体知识库中；

若接收到用户发送的包含查询关键字的查询请求，则基于所述多媒体知识库，将所述查询关键字与所述内容文本信息进行匹配，并将匹配成功的文件转写记录作为查询结果；

输出所述查询结果。
如权利要求11所述的终端设备，其特征在于，所述文件类型为音频，所述根据所述文件类型对应的预设解析方式，对所述多媒体文件进行解析，得到所述多媒体文件的内容文本信息，以及每个所述内容文本信息对应的时间戳信息包括：

获取所述多媒体文件的音频格式；

若所述音频格式为非预设的音频格式，则对所述多媒体文件进行标准格式转换，得到所述预设的音频格式的目标音频文件；

对所述目标音频文件进行语音增强和降噪处理，得到包含基础语音帧的帧集合；

对所述帧集合中的每个所述基础语音帧进行语音识别，生成所述内容文本信息；

针对每个所述内容文本信息，按照预设方式生成该内容文本信息在所述帧集合中对应的时间戳信息，作为该内容文本信息对应的时间戳信息。
如权利要求12所述的终端设备，其特征在于，所述文件类型为视频，在所述获取所述多媒体文件的音频格式之前，所述处理器执行所述计算机可读指令时还包括实现如下步骤：

按照预设的音频格式提取所述多媒体文件的音频编码，并将所述音频编码作为更新后的所述多媒体文件。
如权利要求11所述的终端设备，其特征在于，所述文件类型为图片，所述根据所述文件类型对应的预设解析方式，对所述多媒体文件进行解析，得到所述多媒体文件的内容文本信息，以及所述内容文本信息对应的时间戳信息还包括：

对所述多媒体文件进行图片预处理，得到目标图片文件；

使用场景文本检测算法，获取所述目标图片文件中的文字区域；

采用光学字符识别的方式，提取所述文字区域的文字内容，作为所述内容文本信息；

将所述内容文本信息对应的时间戳信息设置为空。
如权利要求11至14任一项所述的终端设备，其特征在于，在所述输出所述查询结果之后，所述处理器执行所述计算机可读指令时还包括实现如下步骤：

若接收到所述用户对所述查询结果的加载指令，则根据所述加载指令确定待加载的文件转写记录；

根据所述待加载的文件转写记录中的文件标识，获取该文件标识对应的目标多媒体文件；

若所述目标多媒体文件的文件类型为图片，则显示所述目标多媒体文件；

若所述目标多媒体文件的文件类型为音频或视频，则获取所述待加载的文件转写记录中的时间戳信息包含的目标时间点，并驱动所述目标多媒体文件从所述目标时间点处开始执行。
一个或多个存储有计算机可读指令的非易失性可读存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

获取多媒体文件；

采用预设的正则表达式，对所述多媒体文件的文件扩展名进行正则匹配，确定所述多媒体文件的文件类型；

根据所述文件类型对应的预设解析方式，对所述多媒体文件进行解析，得到所述多媒体文件的内容文本信息，以及每个所述内容文本信息对应的时间戳信息；

建立所述多媒体文件的文件标识、所述内容文本信息和所述时间戳信息之间的映射关系，并将所述文件标识、所述内容文本信息、所述时间戳信息，以及所述映射关系作为所述多媒体文件的文件转写记录，保存到多媒体知识库中；

若接收到用户发送的包含查询关键字的查询请求，则基于所述多媒体知识库，将所述查询关键字与所述内容文本信息进行匹配，并将匹配成功的文件转写记录作为查询结果；

输出所述查询结果。
如权利要求16所述的非易失性可读存储介质，其特征在于，所述文件类型为音频，所述根据所述文件类型对应的预设解析方式，对所述多媒体文件进行解析，得到所述多媒体文件的内容文本信息，以及每个所述内容文本信息对应的时间戳信息包括：

获取所述多媒体文件的音频格式；

若所述音频格式为非预设的音频格式，则对所述多媒体文件进行标准格式转换，得到所述预设的音频格式的目标音频文件；

对所述目标音频文件进行语音增强和降噪处理，得到包含基础语音帧的帧集合；

对所述帧集合中的每个所述基础语音帧进行语音识别，生成所述内容文本信息；

针对每个所述内容文本信息，按照预设方式生成该内容文本信息在所述帧集合中对应的时间戳信息，作为该内容文本信息对应的时间戳信息。
如权利要求17所述的非易失性可读存储介质，其特征在于，所述文件类型为视频，在所述获取所述多媒体文件的音频格式之前，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器还执行如下步骤：

按照预设的音频格式提取所述多媒体文件的音频编码，并将所述音频编码作为更新后的所述多媒体文件。
如权利要求16所述的非易失性可读存储介质，其特征在于，所述文件类型为图片，所述根据所述文件类型对应的预设解析方式，对所述多媒体文件进行解析，得到所述多媒体文件的内容文本信息，以及所述内容文本信息对应的时间戳信息还包括：

对所述多媒体文件进行图片预处理，得到目标图片文件；

使用场景文本检测算法，获取所述目标图片文件中的文字区域；

采用光学字符识别的方式，提取所述文字区域的文字内容，作为所述内容文本信息；

将所述内容文本信息对应的时间戳信息设置为空。
如权利要求16至19任一项所述的非易失性可读存储介质，其特征在于，在所述输出所述查询结果之后，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器还执行如下步骤：

若接收到所述用户对所述查询结果的加载指令，则根据所述加载指令确定待加载的文件转写记录；

根据所述待加载的文件转写记录中的文件标识，获取该文件标识对应的目标多媒体文件；

若所述目标多媒体文件的文件类型为图片，则显示所述目标多媒体文件；

若所述目标多媒体文件的文件类型为音频或视频，则获取所述待加载的文件转写记录中的时间戳信息包含的目标时间点，并驱动所述目标多媒体文件从所述目标时间点处开始执行。