WO2019227582A1 - 一种信息查询方法、装置、计算机设备及存储介质 - Google Patents

一种信息查询方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
WO2019227582A1
WO2019227582A1 PCT/CN2018/094373 CN2018094373W WO2019227582A1 WO 2019227582 A1 WO2019227582 A1 WO 2019227582A1 CN 2018094373 W CN2018094373 W CN 2018094373W WO 2019227582 A1 WO2019227582 A1 WO 2019227582A1
Authority
WO
WIPO (PCT)
Prior art keywords
file
multimedia
information
multimedia file
text information
Prior art date
Application number
PCT/CN2018/094373
Other languages
English (en)
French (fr)
Inventor
黄锦伦
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2019227582A1 publication Critical patent/WO2019227582A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Definitions

  • the present application relates to the technical field of computer networks, and in particular, to an information query method, device, computer equipment, and storage medium.
  • Computer network technology combines the advantages of computer technology and network technology to achieve the effective transmission of information. It accelerates the speed of information transmission, reduces the cost and time of people's information transmission, and makes the information exchange between people more and more frequent. It has gradually changed people's lifestyles and business forms, etc., and has an important impact on the development of society.
  • Multimedia files include, but are not limited to, video files, audio files, picture files, and text files.
  • Most of the databases can only perform effective retrieval only for the content in the text file, and cannot directly retrieve the content in the video file, audio file and picture file, resulting in low efficiency of multimedia file query.
  • An information query method includes:
  • the query results are output.
  • An information query device includes:
  • a type determination model configured to use a preset regular expression to perform regular matching on a file extension of the multimedia file to determine a file type of the multimedia file;
  • a file parsing module configured to parse the multimedia file according to a preset parsing method corresponding to the file type, to obtain content text information of the multimedia file, and time stamp information corresponding to each of the content text information;
  • a record keeping module configured to establish a mapping relationship between the multimedia file's file identifier, the content text information, and the timestamp information, and convert the file identifier, the content text information, and the timestamp information And the mapping relationship is saved as a file transcoding record of the multimedia file in a multimedia knowledge base;
  • the matching query module is configured to match the query keyword with the content text information based on the multimedia knowledge base if a query request including a query keyword sent by a user is received, and transfer the successfully matched file to the server. Write records as query results;
  • a result output module is configured to output the query result.
  • a computer device includes a memory, a processor, and computer-readable instructions stored in the memory and executable on the processor.
  • the processor executes the computer-readable instructions, the information query method is implemented. step.
  • One or more non-volatile readable storage media storing computer-readable instructions, and when the computer-readable instructions are executed by one or more processors, the one or more processors cause the information query method described above to be executed A step of.
  • FIG. 1 is a schematic diagram of an application environment of an information query method according to an embodiment of the present application
  • step S3 is a flowchart of implementing step S3 in the information query method according to an embodiment of the present application
  • step S3 is another implementation flowchart of step S3 in the information query method according to an embodiment of the present application.
  • FIG. 5 is an implementation flowchart of loading a multimedia file in a query result in an information query method according to an embodiment of the present application
  • FIG. 6 is a schematic diagram of an information query device according to an embodiment of the present application.
  • FIG. 7 is a schematic diagram of a computer device according to an embodiment of the present application.
  • FIG. 1 illustrates an application environment of an information query method provided by an embodiment of the present application.
  • the information query method is applied to a query scenario for multimedia files.
  • the query scenario includes a server and a client, where the server and the client are connected through a network, a user stores a multimedia file to the server through the client, and queries the server's multimedia file through the client as needed.
  • the server processes the multimedia files and stores them in the multimedia file library.
  • the server obtains the corresponding multimedia files from the multimedia file library.
  • the client can specifically but not limited to various personal computers, For laptop computers, smart phones, tablet computers, and portable wearable devices, the server can be implemented by an independent server or a server cluster composed of multiple servers.
  • FIG. 2 illustrates an information query method provided by an embodiment of the present application. This method is applied to the server in FIG. 1 as an example for description, as follows:
  • the multimedia file included in the request is received.
  • multimedia files refer to files in which various encoded data of media are stored in the form of files in a computer, and are a collection of binary data.
  • the naming of the file follows a specific rule. It generally consists of a main name and an extension. The main name and the extension are separated by a ".”. The extension is used to indicate the format type of the file.
  • Multimedia files include but are not limited to: audio Files, video files, picture files, or document files.
  • the multimedia file transfer between the client and the server uses the File Transfer Protocol (FTP) for file transfer.
  • FTP File Transfer Protocol
  • the server After receiving the multimedia file sent by the client, the server generates a unique file identifier to identify the multimedia file.
  • S2 Use a preset regular expression to perform regular matching on the file extension of the multimedia file to determine the file type of the multimedia file.
  • the server After receiving the multimedia file, the server obtains the file name of the multimedia file.
  • the file name of the multimedia file includes the main name and the extension, and the preset regular expression is used in common.
  • the file type refers to a special encoding method for information used by a computer to store information, and is used to identify internally stored data. For example, some store pictures, some store programs, and some store text messages. Each type of information can be stored in computer storage in one or more file formats.
  • the extension can help the application recognize the file format.
  • the model of the preset regular expression is: " ⁇ ⁇ S + ⁇ . Extension $", and the extension can be a file extension of the video type, including not limited to: AVI, MPEG / 1/2/4, RM, RMVB, WMV, VCD / SVCD, DAT, VOB, MOV, MP4, MKV, ASF and FLV, etc.
  • the server receives a multimedia file, and obtains the file name of the multimedia file as "eighth meeting recording. WMA”.
  • WMA the file name of the multimedia file
  • the server receives a multimedia file, and obtains the file name of the multimedia file as "eighth meeting recording. WMA”.
  • S3 Parse the multimedia file according to the preset parsing method corresponding to the file type to obtain the content text information of the multimedia file and the time stamp information corresponding to each content text information.
  • a preset parsing method corresponding to the file type is selected, the multimedia file is parsed, and one or more data in the analysis result are recorded according to actual needs.
  • the text is used as content text information of the multimedia file, and time stamp information corresponding to the data is generated for each content text information.
  • the obtained file identifier of the multimedia file is 20180504, it is known that the file type is audio according to regular matching, and the multimedia file is parsed according to a preset audio parsing method to obtain three content text information. Respectively: “Now”, “I announce”, “Meeting officially started”, according to the time frame information of the audio data in the multimedia file corresponding to the three content text information, get the time stamps corresponding to the three content text information The information is: “00:00", "00:02" and "00:06".
  • S4 Establish a mapping relationship between the file identifier, content text information, and timestamp information of the multimedia file, and use the file identifier, content text information, timestamp information, and mapping relationship as the file transcoding record of the multimedia file, and save it to the multimedia In the knowledge base.
  • a file identifier of the multimedia file After generating content text information and time stamp information, a file identifier of the multimedia file, a mapping relationship between the content text information and the time stamp information are established, and the file identifier, content text information, time stamp information, and mapping are established.
  • the relationship is saved as a file transcoding record of the multimedia file in the multimedia knowledge base, so that in subsequent inquiries, the file identifier corresponding to the content text information can be found according to the file transcoding record, thereby finding the corresponding multimedia file.
  • the multimedia knowledge base refers to a knowledge base storing a large amount of multimedia file information.
  • a mapping relationship is established between the file identifier, the content text information, and the time stamp information corresponding to the content text information, and the three file transcoding records are respectively “20180504, ", 00:00", “20180504, I announced, 00:00” and "20180504, the meeting officially started, 00:06", and stored the three file transliteration records in the multimedia knowledge base respectively.
  • the file transcribing record when receiving a query request containing a query keyword sent by a user through a client, based on the multimedia knowledge base, it is found in the file transcribing record whether the corresponding content text information includes the query keyword, and if it exists, then Record the successful file transcoding record as the target file transcoding record and use it as the query result.
  • query results obtained may be one or multiple.
  • the query keyword is "seat”
  • the content text information of the file transcribing record two pieces of content text information are queried including the query keyword "seat” and the two pieces of content text information are "Outbound call monitoring for agents” and "Improve agent communication business proficiency”
  • the corresponding file transfer records are: "20180505, agent's outbound call monitoring, 12:26" and "20180503, improving agent communication business proficiency, 46 : 11 ", record these two file transcoding records as the target file transcoding record, and use it as the query result.
  • step S5 the query result obtained in step S5 is sent to the client for display, for user's reference.
  • the multimedia file is parsed to obtain the content text information of the multimedia file and the timestamp information corresponding to each content text information, and then establish a mapping relationship between the multimedia file identifier, the content text information, and the timestamp information, and rewrite it as a file Records are stored in the multimedia knowledge base, and the multimedia files of different file types can be parsed by using the corresponding parsing method to form content text information and time stamp information, and stored in the multimedia knowledge by means of file transcribing records.
  • the keywords in the query request are directly matched with the content text information in the multimedia knowledge base, and the multimedia files required by the user can be quickly queried, and based on the time stamp information Get keywords timely and accurately in multimedia text The specific location, thereby improving the efficiency of the query multimedia files.
  • the file type of the multimedia file is audio.
  • the multimedia file is parsed according to a preset parsing method corresponding to the file type to obtain content text information of the multimedia file.
  • the time stamp information corresponding to each content text message including the following steps:
  • the audio format of the multimedia file is obtained.
  • the audio format obtained by the regular expression of the multimedia file "Conference Opening Accompaniment. MP3" is the MP3 format.
  • step S311 it is detected whether the audio format acquired in step S311 is the same as the preset audio format. If the acquired audio format is a non-preset audio format, the multimedia file is format converted to be converted into the preset audio. Format multimedia files.
  • the preset audio format in the embodiment of the present application is WMA (Windows Media Audio, Microsoft Audio Format).
  • WMA exceeds MP3 (MPEG Audio Layer 3) in terms of compression ratio and sound quality, and is far superior to RA (Real Audio).
  • RA Real Audio
  • Instant broadcast system can produce better sound quality even at a lower sampling frequency, which is conducive to improving the accuracy of subsequent speech recognition.
  • S313 Perform voice enhancement and noise reduction processing on the target audio file to obtain a frame set including basic voice frames.
  • the target audio file is subjected to speech enhancement and noise reduction processing, thereby reducing interference, further improving the quality of the speech, and framing the speech signal by using the mute detection method, and dividing the speech signal in the target audio file into several A collection of frames of basic speech frames.
  • the speech enhancement and noise reduction processing in this embodiment uses spectral subtraction, that is, after extracting the speech signal of the target audio file, the frequency spectrum of the noise signal in the speech signal is used to subtract the frequency spectrum of the noise signal.
  • Spectral subtraction is based on a simple assumption: assuming that the noise in the speech is only additive noise, as long as the noise spectrum is subtracted from the noise spectrum, a pure speech signal can be obtained.
  • the silence segment is found by the silence detection method, and the pure voice signal is segmented according to the silence segment, and the pure voice signal is divided into a frame set including several basic voice frames.
  • the silence detection methods include, but are not limited to, voice endpoint detection, sound detection mute algorithm, and voice activity detection (VAD) algorithm.
  • the embodiment of the present application uses voice activity detection to perform mute detection on the obtained pure voice signal.
  • S314 Perform speech recognition on each basic speech frame in the frame set to generate content text information.
  • speech recognition is performed for each basic speech frame to obtain content text information corresponding to the basic speech frame.
  • Speech recognition algorithms include, but are not limited to, speech recognition algorithms based on channel models, speech template matching recognition algorithms, or artificial neural network speech recognition algorithms.
  • the speech recognition algorithm used in the embodiment of the present application is a speech recognition algorithm based on a channel model.
  • step S313 After the target audio file "Enhance Agent Outbound Call Monitoring Conference Record. WAV" is enhanced and reduced in step S313, a frame set including 120 basic voice frames is obtained, and for each basic voice Frame for speech recognition to get 120 content text information.
  • the time stamp information corresponding to the content text information in the frame set is generated in a preset manner as the time stamp information corresponding to the content text information.
  • the time stamp information corresponding to the content text information in the frame set is generated according to a preset manner, and as the time stamp information corresponding to the content text information, it refers to acquiring the basic voice frame after performing speech recognition on the basic voice frame.
  • the timestamp information in the target voice file corresponds to the timestamp information in the target voice file, and uses the timestamp information as the timestamp information corresponding to the content text information obtained after speech recognition.
  • the audio format of the obtained multimedia file is determined, and the multimedia file of the non-preset audio format is converted into a standard format to obtain the target audio file of the preset audio format, and the target audio file is voiced.
  • Enhance and reduce noise processing to obtain a frame set containing basic speech frames, and then perform speech recognition on each basic speech frame in the frame set, generate content text information, and obtain time stamp information corresponding to each content text information, so that the file
  • the multimedia file in audio format is parsed into a text-type file, so that the multimedia file can be quickly queried according to the content information in the multimedia file during subsequent query, thereby improving the efficiency of multimedia file query.
  • the file type of the multimedia file is video.
  • the information query method further includes:
  • audio encoding and extraction of multimedia files can be performed through third-party tools or audio extraction algorithms, and the obtained audio encoding is converted into a preset audio format, which will be converted into The audio encoding of the preset audio format is used as the updated multimedia file.
  • the preset audio format in this embodiment is WAV, and it can also be set according to actual needs, which is not specifically limited here.
  • audio encoding is divided into three types: waveform encoding, parameter encoding, and hybrid encoding.
  • waveform encoding the voice quality of waveform coding is high, but the coding rate is also high; the coding rate of parameter coding is low, and the sound quality of the synthesized speech is not high; the hybrid coding uses parameter coding technology and waveform coding technology, coding rate and sound quality Somewhere in between.
  • the audio encoding used in this embodiment is a waveform encoding.
  • This encoding method has high speech quality, which is beneficial to improving the accuracy of subsequent recognition of multimedia files in audio format.
  • third-party tools include, but are not limited to, Format Factory (FF), Fast Forwarding, Moving Pictures, Experts Group, etc.
  • audio extraction algorithms include, but are not limited to: hash-based audio fingerprint extraction algorithms, audio sparse expression (Sparse Representation-based Classifier (SRC) algorithm and Fast Fourier Transform (FFT) algorithm, etc.
  • Third-party tools or audio extraction algorithms can be selected according to the actual situation, which is not specifically limited here.
  • the audio encoding in the video is extracted, and the audio encoding is saved as a multimedia file with a preset audio format, as the updated multimedia file, Extract audio encoding for the multimedia files of the video, convert them into multimedia files containing audio information for processing, and then obtain the information contained in the audio by speech recognition, so as to achieve the information extraction of multimedia files whose file type is video.
  • the file type of the multimedia file is a picture.
  • the multimedia file is parsed according to a preset parsing method corresponding to the file type to obtain content text information of the multimedia file.
  • the time stamp information corresponding to each content text message including the following steps:
  • S331 Perform image preprocessing on the multimedia file to obtain a target image file.
  • the main purpose of image pre-processing is to eliminate irrelevant information in the picture, restore useful real information, enhance the detectability of the information and simplify the data to the greatest extent, thereby improving the feature extraction, picture segmentation, matching and recognition. reliability.
  • image pre-processing refers to performing gray processing (Image processing), image sharpening (Image sharpening) processing, and image binarization (Image binarization) processing on an image, etc., to remove the background through image pre-processing or Noise, highlight text, and scale the picture to a size suitable for processing.
  • gray-scale processing refers to the process of converting a color picture into a gray-scale picture.
  • the purpose is to improve the picture quality and make the display effect of the picture clearer.
  • the gray-scale processing includes, but is not limited to, a component method, a maximum method, an average method, a weighted average method, and the like.
  • sharpening refers to compensating the outline of the picture, enhancing the edges of the picture and the grayscale transitions to make the picture clearer. It is divided into two categories: spatial domain processing and frequency domain processing. Sharpening processing is to highlight the picture. Feature edges, outlines, or some linear target features.
  • the binarization process is to set the gray value of the pixels on the picture to 0 or 255, that is, the process of rendering the entire picture to have obvious black and white effects.
  • the binarization of the picture greatly reduces the amount of data in the picture. So that the outline of the target can be highlighted.
  • S332 Use the scene text detection algorithm to obtain the text area in the target picture file.
  • the text recognition in the picture file is text recognition in a natural scene
  • the text area in the target picture needs to be determined for text recognition.
  • the text region determination method includes, but is not limited to: Hough transform (Hough transform) algorithm, character recognition algorithm based on Hidden Markov Model (HMM), Maximal Stable Extreme Regions (MSER) algorithm, and Scene text detection (Connectionist Text Proposal Network) algorithm.
  • Hough transform Hough transform
  • HMM Hidden Markov Model
  • MSER Maximal Stable Extreme Regions
  • Scene text detection Connectionist Text Proposal Network
  • the embodiment of the present application uses a scene text detection algorithm to determine the text area in the target picture file.
  • the implementation method is as follows: the target picture file is trained by using a Convolutional Neural Networks (CNN) model to obtain a picture. The depth of the feature; and then predict the edge of the character based on the depth feature and the text line construction algorithm (Side: Refinement), and according to the preset size of the rectangular frame, the characters on the same line of the character edges are placed in the same rectangular frame; Form a sequence and input it into a Recurrent Neural Networks (RNN) model for training. Finally, use the fully connected layer to regress the training results to get the correct character edges and connect the correct character edges into lines to get The text area in the destination image file.
  • CNN Convolutional Neural Networks
  • S333 Use optical character recognition to extract the text content of the text area as content text information.
  • an optical character recognition (Optical Character Recognition, OCR) method is used to perform text recognition on the picture in the text area, and the recognized text information is extracted as content. Text information.
  • OCR Optical Character Recognition
  • optical character recognition refers to the process of inspecting characters on a picture through optical character recognition software, determining the shape by detecting dark and light patterns, and then translating the shape into computer text using character recognition methods; that is, for the characters on the picture
  • the picture file mentioned in the embodiment of the present application is a static picture file, it is not necessary to obtain the time stamp information of the picture file when a subsequent user performs a multimedia file query, so the time stamp corresponding to the content text information is set. Is empty.
  • the target image file is obtained by pre-processing the image of the multimedia file, and the text area in the target image file is obtained using the scene text detection algorithm, and then the text in the text area is identified by means of optical character recognition.
  • Content as content text information, enables text information contained in pictures to be extracted, and subsequent users can quickly and easily query pictures containing the query keyword when querying based on the query keyword, improving query efficiency.
  • the server loads the multimedia file corresponding to the query result according to the received loading instruction.
  • the information query further includes the following steps:
  • a file transfer record corresponding to the query result is obtained, and the file transfer record is used as a file transfer record to be loaded.
  • the user can send a loading instruction to the server by clicking on the client with the mouse or pressing a keyboard shortcut.
  • step S5 Take the two query results "20180505, agent's outbound monitoring, 12:26” and “20180503, improve agent communication business proficiency, 46:11" obtained in step S5 as examples, when the user clicks the query result "20180505 ,
  • the agent's outbound monitoring, after 12:26 ", the load instruction to send the query result to the server is completed, and the server obtains the file transfer record contained in the load instruction, and uses the file transfer record as the to-be-loaded File transcribing records.
  • the file transcoding record includes a file identifier, content text information, time stamp information, and mapping relationship. According to the file identifier in the file transcoding record to be loaded, a multimedia file corresponding to the file identifier can be determined, and then the multimedia is obtained. The file is the target multimedia file.
  • the file identification contained in the file transcoding record to be loaded is "20180505"
  • the target multimedia corresponding to the file identification "20180505” is found in the multimedia knowledge base File "About Strengthening Agent Outgoing Surveillance Meeting Record. WAV”.
  • the file type of the target multimedia file is determined by using the regular matching method provided in step S2.
  • the file type of the target multimedia file is a picture
  • the picture file is directly transmitted to the client for display, so that For users to consult.
  • step S2 use the regular matching method provided in step S2 to determine the file type of the target multimedia file.
  • the file type of the target multimedia file is video or audio
  • the target time point contained in the information stamp information drives the target multimedia file to start playing from the target time point.
  • a file transfer record to be loaded is determined according to the load instruction, and a corresponding target multimedia is obtained according to a file identifier in the file transfer record to be loaded.
  • File and confirm the file type of the target multimedia file. If the file type is an image, load the target multimedia file directly. If the file type is audio or video, then obtain the time stamp information in the transcoding record of the file to be loaded.
  • the driver application opens the target multimedia file from this time point, so that when the user receives a load instruction for the query result, the corresponding target multimedia file can be quickly opened, and the audio or video file can be directly located
  • the keywords searched by the user start to play at the time corresponding to the keywords for users to check, which improves the efficiency of multimedia file query.
  • an information query device is provided, and the information query device corresponds to the information query method in the above-mentioned embodiment.
  • the information query device includes a data acquisition module 10, a type determination module 20, a file analysis module 30, a record storage module 40, a matching query module 50, and a result output module 60.
  • the detailed description of each function module is as follows:
  • a data acquisition module 10 configured to acquire a multimedia file
  • a type determination model 20 is configured to use a preset regular expression to perform regular matching on a file extension of a multimedia file to determine a file type of the multimedia file;
  • the file parsing module 30 is configured to parse a multimedia file according to a preset parsing method corresponding to a file type, to obtain content text information of the multimedia file, and time stamp information corresponding to each content text information;
  • Record storage module 40 configured to establish a mapping relationship between a file identifier, content text information, and timestamp information of a multimedia file, and transcode the file identifier, content text information, timestamp information, and mapping relationship as a file of the multimedia file Record and save to multimedia knowledge base;
  • the matching query module 50 is configured to: if a query request including a query keyword sent by a user is received, based on the multimedia knowledge base, match the query keyword with the content text information, and use the successfully copied file transfer record as a query. result;
  • the result output module 60 is configured to output a query result.
  • file type is audio
  • file parsing module 30 includes:
  • a format obtaining unit 311, configured to obtain an audio format of a multimedia file
  • a format conversion unit 312 configured to perform a standard format conversion on a multimedia file if the audio format is a non-preset audio format, to obtain a target audio file of the preset audio format;
  • the data processing unit 313 is configured to perform speech enhancement and noise reduction processing on the target audio file to obtain a frame set including basic speech frames;
  • the time identification unit 315 is configured to generate, for each content text information, the time stamp information corresponding to the content text information in the frame set in a preset manner, as the time stamp information corresponding to the content text information.
  • file type is video
  • file parsing module 30 further includes:
  • the audio extraction unit 321 is configured to extract an audio code of a multimedia file according to a preset audio format, and use the audio code as an updated multimedia file.
  • file type is an image
  • file parsing module 30 further includes:
  • a picture processing unit 331, configured to perform picture preprocessing on the multimedia file to obtain a target picture file
  • a character extraction unit 333 configured to extract the text content of the text area as the text information of the content by using an optical character recognition method
  • the time setting unit 334 is configured to set the time stamp information corresponding to the content text information to be empty.
  • the information query device further includes:
  • the record determining module 71 is configured to, if a loading instruction for a query result is received by a user, determine a transcoding record of a file to be loaded according to the loading instruction;
  • a file obtaining module 72 configured to obtain a target multimedia file corresponding to the file identifier according to a file identifier in a file transcoding record to be loaded;
  • a picture display module 73 configured to display the target multimedia file if the file type of the target multimedia file is a picture
  • the file playback module 74 is configured to obtain the target time point contained in the timestamp information in the file transcription record to be loaded if the file type of the target multimedia file is audio or video, and drive the target multimedia file from the target time point. start execution.
  • Each module in the above-mentioned information query device may be implemented in whole or in part by software, hardware, and a combination thereof.
  • the above-mentioned modules may be embedded in the hardware in or independent of the processor in the computer device, or may be stored in the memory of the computer device in the form of software, so that the processor can call and execute the operations corresponding to the above modules.
  • a computer device is provided.
  • the computer device may be a server, and its internal structure diagram may be as shown in FIG. 7.
  • the computer device includes a processor, a memory, a network interface, and a database connected through a system bus.
  • the processor of the computer device is used to provide computing and control capabilities.
  • the memory of the computer device includes a non-volatile storage medium and an internal memory.
  • the non-volatile storage medium stores an operating system, computer-readable instructions, and a database.
  • the internal memory provides an environment for the operation of the operating system and computer-readable instructions in a non-volatile storage medium.
  • the database of the computer equipment is used to store the multimedia knowledge base in the information query method and the multimedia file corresponding to the file identification in the multimedia knowledge base.
  • the network interface of the computer device is used to communicate with an external terminal through a network connection.
  • the computer-readable instructions are executed by a processor to implement an information query method.
  • a computer device which includes a memory, a processor, and computer-readable instructions stored on the memory and executable on the processor.
  • the processor executes the computer-readable instructions to implement the information query of the foregoing embodiment.
  • the steps of the method are, for example, steps S1 to S6 shown in FIG. 2.
  • the processor executes the computer-readable instructions
  • the functions of the modules / units of the information query apparatus of the foregoing embodiment are implemented, for example, modules 10 to 60 shown in FIG. 6. To avoid repetition, we will not repeat them here.
  • one or more non-volatile readable storage media are provided, on which computer-readable instructions are stored, and the computer-readable instructions are executed by a processor to implement the steps of the information query method of the foregoing embodiment, or When the computer-readable instructions are executed by the processor, the functions of the modules / units of the information query device of the above embodiment are implemented. To avoid repetition, details are not described herein again.
  • Non-volatile memory may include read-only memory (ROM), programmable ROM (PROM), electrically programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), or flash memory.
  • Volatile memory can include random access memory (RAM) or external cache memory.
  • RAM is available in various forms, such as static RAM (SRAM), dynamic RAM (DRAM), synchronous DRAM (SDRAM), dual data rate SDRAM (DDRSDRAM), enhanced SDRAM (ESDRAM), synchronous chain (Synchlink) DRAM (SLDRAM), memory bus (Rambus) direct RAM (RDRAM), direct memory bus dynamic RAM (DRDRAM), and memory bus dynamic RAM (RDRAM).

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种信息查询方法、装置、计算机设备及存储介质,所述方法包括:获取多媒体文件;对多媒体文件的文件扩展名进行正则匹配,确定多媒体文件的文件类型;根据文件类型对应的预设解析方式,对多媒体文件进行解析,得到多媒体文件的内容文本信息,以及每个内容文本信息对应的时间戳信息;建立多媒体文件的文件标识、内容文本信息和时间戳信息之间的映射关系,并作为文件转写记录,保存到多媒体知识库中;若接收到用户的查询请求,则基于多媒体知识库,将查询关键字与内容文本信息进行匹配,并将匹配成功的文件转写记录作为查询结果。本申请的技术方案实现了对不同文件类型的多媒体文件的解析和查询,提高了多媒体文件的查询效率。

Description

一种信息查询方法、装置、计算机设备及存储介质
本申请以2018年5月29日提交的申请号为201810529526.7,名称为“一种信息查询方法、装置、终端设备及存储介质”的中国发明专利申请为基础,并要求其优先权。
技术领域
本申请涉及计算机网络技术领域,尤其涉及一种信息查询方法、装置、计算机设备及存储介质。
背景技术
随着计算机硬件技术和软件技术的快速发展,计算机网络技术应用也越来越丰富,能够满足人们多元化的需要。计算机网络技术作为一种新的科学技术,它极大地改变了社会的发展形态和发展方向,并且成为了一种所广泛应用的技术,在现代社会中发挥了重要的作用。计算机网络技术结合了计算机技术和网络技术的优点,能够实现信息的有效传递,它加快了信息传输的速度,降低了人们信息传输的成本和时间,使人们之间的信息交换越来越频繁,它逐渐地改变了人们的生活方式和商业形态等,对于社会的发展具有重要的影响。
当前,信息的存储方式比较多样化,日常生活中,人们常用的信息存储方式为采用多媒体文件来存储常用信息,多媒体文件包括但不限于:视频文件、音频文件、图片文件和文本文件等,但是,大多数资料库只针对文本文件内的内容可以做有效检索,针对视频文件、音频文件和图片文件中的内容无法直接检索,导致多媒体文件查询的效率低。
发明内容
基于此,有必要针对上述技术问题,提供一种可以提高当前多媒体文件查询效率的信息查询方法、装置、计算机设备及存储介质。
一种信息查询方法,包括:
获取多媒体文件;
采用预设的正则表达式,对所述多媒体文件的文件扩展名进行正则匹配,确定所述多媒体文件的文件类型;
根据所述文件类型对应的预设解析方式,对所述多媒体文件进行解析,得到所述多媒体文件的内容文本信息,以及每个所述内容文本信息对应的时间戳信息;
建立所述多媒体文件的文件标识、所述内容文本信息和所述时间戳信息之间的映射关系,并将所述文件标识、所述内容文本信息、所述时间戳信息,以及所述映射关系作为所述多媒体文件的文件转写记录,保存到多媒体知识库中;
若接收到用户发送的包含查询关键字的查询请求,则基于所述多媒体知识库,将所述查询关键字与所述内容文本信息进行匹配,并将匹配成功的文件转写记录作为查询结果;
输出所述查询结果。
一种信息查询装置,包括:
数据获取模块,用于获取多媒体文件;
类型确定模型,用于采用预设的正则表达式,对所述多媒体文件的文件扩展名进行正则匹配,确定所述多媒体文件的文件类型;
文件解析模块,用于根据所述文件类型对应的预设解析方式,对所述多媒体文件进行解析,得到所述多媒体文件的内容文本信息,以及每个所述内容文本信息对应的时间戳信息;
记录保存模块,用于建立所述多媒体文件的文件标识、所述内容文本信息和所述时间戳信息之间的映射关系,并将所述文件标识、所述内容文本信息、所述时间戳信息,以及所述映射关系作为所述多媒体文件的文件转写记录,保存到多媒体知识库中;
匹配查询模块,用于若接收到用户发送的包含查询关键字的查询请求,则基于所述多媒体知识库,将所述查询关键字与所述内容文本信息进行匹配,并将匹配成功的文件转写记录作为查询结果;
结果输出模块,用于输出所述查询结果。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述信息查询方法的步骤。
一个或多个存储有计算机可读指令的非易失性可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行上述信息查询方法的步骤。
本申请的一个或多个实施例的细节在下面的附图和描述中提出,本申请的其他特征和优点将从说明书、附图以及权利要求变得明显。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的信息查询方法的应用环境示意图;
图2是本申请实施例提供的信息查询方法的实现流程图;
图3是本申请实施例提供的信息查询方法中步骤S3的实现流程图;
图4是本申请实施例提供的信息查询方法中步骤S3的另一实现流程图;
图5是本申请实施例提供的信息查询方法中对查询结果中的多媒体文件进行加载的实现流程图;
图6是本申请实施例提供的信息查询装置的示意图;
图7是本申请实施例提供的计算机设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,图1示出本申请实施例提供的信息查询方法的应用环境。该信息查询方法应用针对多媒体文件的查询场景中。该查询场景包括服务端和客户端,其中,服务端和客户端之间通过网络进行连接,用户通过客户端将多媒体文件存储到服务端,并根据需要通过客户端对服务端的多媒体文件进行查询,服务端通过对多媒体文件进行相应处理后存入多媒体文件库中,在接收到客户端查询请求时,从多媒体文件库中获取对应的多媒体文件,客户端具体可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。
请参阅图2,图2示出本申请实施例提供的一种信息查询方法,以该方法应用在图1中的服务端为例进行说明,详述如下:
S1:获取多媒体文件。
具体地,在接收到用户通过客户端发送的多媒体文件发送请求时,接收该请求中包含的多媒体文件。
其中,多媒体文件是指媒体的各种编码数据在计算机中都是以文件的形式存储形成的文件,是二进制数据的集合。文件的命名遵循特定的规则,一般由主名和扩展名两部分组成,主名与扩展名之间用“.”隔开,扩展名用于表示文件的格式类型,多媒体文件包括但不限于:音频文件、视频文件、图片文件或者文档文件等。
其中,客户端与服务端之间的多媒体文件传输通过文件传输协议(File Transfer Protocol,FTP)进行文件传输。
需要说明的是,服务端在接收到客户端发送的多媒体文件后,会生成一个唯一的文件标识来标识该多媒体文件。
S2:采用预设的正则表达式,对多媒体文件的文件扩展名进行正则匹配,确定该多媒体文件的文件类型。
具体地,服务端在接收到多媒体文件后,获取该多媒体文件的文件名,由步骤S1中多媒体文件的描述可知,多媒体文件的文件名包括主名与扩展名,通对使用预设的正则表达式,对多媒体文件的扩展名进行正则匹配,得到该多媒体的文件类型。
其中,文件类型是指电脑为了存储信息而使用的对信息的特殊编码方式,是用于识别内部储存的资料。比如有的储存图片,有的储存程序,有的储存文字信息。每一类信息, 都可以一种或多种文件格式保存在电脑存储中。扩展名可以帮助应用程序识别的文件格式。
其中,预设的正则表示式的模型为:“^\S+\.扩展名$”,扩展名可以文件类型为视频的扩展名,包括不限于:AVI、MPEG/1/2/4、RM、RMVB、WMV、VCD/SVCD、DAT、VOB、MOV、MP4、MKV、ASF和FLV等,也可以是文件类型为音频的扩展名,包括但不限于:WAVE/WAV、AIFF、AU、MP3、MIDI、WMA、RealAudio、VQF、OggVorbis、AAC和APE等,也可以是文件类型为图片的扩展名,包括但不限于:BMP、JPG、PNG、TIFF、GIF、PCX、TGA、EXIF、FPX、SVG、PSD、CDR、PCD、DXF、UFO、EPS、AI、RAW、WMF和WEBP等,也可以是文件类型为文档的扩展名,包括但不限于:WORD、PDF、TXT和INI等。
例如,在一具体实施方式中,服务端接收到一个多媒体文件,获取到该多媒体文件的文件名为“第八次会议录音.WMA”,通过使用预设的正则表达式进行正则匹配,获取到该多媒体文件的文件名的扩展名为“WMA”,其文件格式为音频。
S3:根据文件类型对应的预设解析方式,对多媒体文件进行解析,得到该多媒体文件的内容文本信息,以及每个内容文本信息对应的时间戳信息。
具体地,根据步骤S2中获取到的多媒体文件的文件类型,选取该文件类型对应的预设解析方式,对该多媒体文件进行解析,并按照实际需要,将解析结果中的一个或多个数据记录到独自的文本中,将该文本作为多媒体文件的内容文本信息,并为针对每个内容文本信息生成该数据对应的时间戳信息。
例如,在一具体实施方式中,获取到的多媒体文件的文件标识为20180504,根据正则匹配知悉文件类型为音频,根据音频的预设解析方式,对该多媒体文件进行解析,得到三个内容文本信息分别为:“现在”、“我宣布”、“会议正式开始”,按照这三个内容文本信息对应的音频数据在该多媒体文件中的时间帧信息,得到这三个内容文本信息对应的时间戳信息分别为:“00:00”、“00:02”和“00:06”。
S4:建立多媒体文件的文件标识、内容文本信息和时间戳信息之间的映射关系,并将文件标识、内容文本信息、时间戳信息和映射关系作为该多媒体文件的文件转写记录,保存到多媒体知识库中。
具体地,在生成内容文本信息和时间戳信息之后,建立多媒体文件的文件标识、该内容文本信息和该时间戳信息之间的映射关系,并将文件标识、内容文本信息、时间戳信息和映射关系作为多媒体文件的文件转写记录,保存到多媒体知识库中,以便在后续查询时,可以根据文件转写记录找到内容文本信息对应的文件标识,从而找到对应的多媒体文件。
其中,多媒体知识库是指存储有海量多媒体文件信息的知识库。
以步骤S3中得到的内容文本信息和时间戳信息为例,对文件标识、内容文本信息和该内容文本信息对应的时间戳信息建立映射关系,得到三个文件转写记录分别为“20180504,现在,00:00”、“20180504,我宣布,00:02”和“20180504,会议正式开始,00:06”,并将这三个文件转写记录分别存储到多媒体知识库中。
S5:若接收到用户发送的包含查询关键字的查询请求,则基于多媒体知识库,将该查询关键字与内容文本信息进行匹配,并将匹配成功的文件转写记录作为查询结果。
具体地,在接收到用户通过客户端发送的包含查询关键字的查询请求时,基于多媒体知识库,在文件转写记录中查找是否存在对应的内容文本信息包含该查询关键字,若存在,则将匹配成功的文件转写记录记为目标文件转写记录,并作为查询结果。
应理解,得到的查询结果可以为一个,也可以为多个。
例如,在一具体实施方式中,查询关键字为“坐席”,在文件转写记录的内容文本信息中,查询到两条内容文本信息包含查询关键字“坐席”,这两条内容文本信息为“坐席的外呼监控”和“提升坐席沟通业务熟练度”,对应的文件转写记录为:“20180505,坐席的外呼监控,12:26”和“20180503,提升坐席沟通业务熟练度,46:11”,将这两个文件转写记录记作目标文件转写记录,并作为查询结果。
S6:输出查询结果。
具体地,将步骤S5中得到的查询结果发送到客户端显示,以供用户查阅。
在本实施例中,通过采用预设的正则表达式,对获取到的多媒体文件的文件扩展名进行正则匹配,确定该多媒体文件的文件类型,并根据该文件类型对应的预设解析方式,对多媒体文件进行解析,得到该多媒体文件的内容文本信息,以及每个内容文本信息对应的时间戳信息,进而建立多媒体文件标识、内容文本信息和时间戳信息之间的映射关系,并作为文件转写记录存入到多媒体知识库中,实现了对不同文件类型的多媒体文件均可以采用相应的解析方式进行解析后,形成内容文本信息和时间戳信息,并以文件转写记录的方式保存在多媒体知识库中,当接收到用户的查询请求时,直接通过查询请求中的关键字与多媒体知识库中的内容文本信息进行匹配,即可快速查询到用户所需要的多媒体文件,并能根据时间戳信息及时准确地获取关键字在多媒体文件中的具体位置,从而提高了多媒体文件的查询效率。
在一实施例中,多媒体文件的文件类型为音频,如图3所示,步骤S3中,即根据文件类型对应的预设解析方式,对多媒体文件进行解析,得到该多媒体文件的内容文本信息,以及每个内容文本信息对应的时间戳信息,具体包括如下步骤:
S311:获取多媒体文件的音频格式。
具体地,根据步骤S2中的正则表达匹配的方式,得到该多媒体文件的音频格式,例如,多媒体文件“会议开场伴奏.MP3”经过正则表达得到的音频格式为MP3格式。
S312:若音频格式为非预设的音频格式,则对多媒体文件进行标准格式转换,得到预设的音频格式的目标音频文件。
具体地,检测步骤S311中获取到的音频格式是否与预设的音频格式相同,若获取到的音频格式为非预设的音频格式,则将该多媒体文件进行格式转换,转化成预设的音频格式的多媒体文件。
优选地,本申请实施例预设的音频格式为WMA(Windows Media Audio,微软音频格式),WMA在压缩比和音质方面都超过了MP3(MPEG Audio Layer3),更是远胜于RA(Real  Audio,即时播音系统),即使在较低的采样频率下也能产生较好的音质,有利于提高后续进行语音识别的准确率。
S313:对目标音频文件进行语音增强和降噪处理,得到包含基础语音帧的帧集合。
具体地,对目标音频文件进行语音增强和降噪处理,从而减少干扰,进一步提高语音的质量,并通过静音检测的方式来对语音信号进行分帧,将目标音频文件中的语音信号分成包含若干个基础语音帧的帧集合。
其中,本实施例中对语音增强和降噪处理,采用谱减法,即在提取目标音频文件的语音信号后,用该语音信号中带噪信号的频谱减去噪声信号的频谱。谱减法基于一个简单的假设:假设语音中的噪声只有加性噪声,只要将带噪语音谱减去噪声谱,就可以得到纯净语音信号。
在得到纯净的语音信号后,通过静音检测的方式,找出静音段,并根据静音段,对纯净语音信号进行切分,将该纯净语音信号切分成包含若干个基础语音帧的帧集合。
其中,静音检测的方式包括但不限于:语音端点检测、探测音频静音算法和语音活动检测(Voice Activity Detection,VAD)算法等。
优选地,本申请实施例使用语音活动检测对得到的纯净语音信号进行静音检测。
S314:对帧集合中的每个基础语音帧进行语音识别,生成内容文本信息。
具体地,针对每个基础语音帧进行语音识别,得到该基础语音帧对应的内容文本信息。
其中,对基础语音帧进行语音识别,可采用语音识别算法,也可以使用具有语音识别功能的第三方工具,具体不作限制。语音识别算法包括但不限于:基于声道模型的语音识别算法、语音模板匹配识别算法和或人工神经网络的语音识别算法等。
优选地,本申请实施例采用的语音识别算法为基于声道模型的语音识别算法。
例如,在一具体实施方式中,目标音频文件“关于加强坐席外呼监控会议记录.WAV”经过步骤S313的增强和降噪后,得到包含120个基础语音帧的帧集合,对每一个基础语音帧进行语音识别,得到120个内容文本信息。
S315:针对每个内容文本信息,按照预设方式生成该内容文本信息在帧集合中对应的时间戳信息,作为该内容文本信息对应的时间戳信息。
具体地,按照预设方式生成该内容文本信息在帧集合中对应的时间戳信息,作为该内容文本信息对应的时间戳信息,是指在对基础语音帧进行语音识别后,获取该基础语音帧在目标语音文件中对应的时间戳信息,并将该时间戳信息作为语音识别后得到的内容文本信息对应的时间戳信息。
在本实施例中,通过对获取到多媒体文件的音频格式进行判断,并将非预设的音频格式的多媒体文件进行标准格式转换,得到预设音频格式的目标音频文件,对目标音频文件进行语音增强和降噪处理,得到包含基础语音帧的帧集合,进而对帧集合中的每个基础语音帧进行语音识别,生成内容文本信息,并获取每个内容文本信息对应的时间戳信息,使得文件格式为音频的多媒体文件被解析为文字类型的文件,使得在后续查询的时候能根据多媒体文件中的内容信息快速查询到该多媒体文件,从而有利于提高了多媒体文件查询的 效率。
在一实施例中,多媒体文件的文件类型为视频,在步骤S311之前,该信息查询方法还包括:
按照预设的音频格式提取多媒体文件的音频编码,并将该音频编码作为更新后的多媒体文件。
具体地,针对文件类型为视频的多媒体文件,可以通过第三方工具,也可以通过音频提取算法,对多媒体文件进行音频编码提取,并将得到的音频编码转换为预设的音频格式,将转换成预设音频格式的音频编码作为更新后的多媒体文件。其中,本实施例中预设的音频格式为WAV,也可以根据实际需要进行设置,此处不作具体限制。
其中,根据编码方式的不同,音频编码分为三种:波形编码、参数编码和混合编码。一般来说,波形编码的话音质量高,但编码速率也很高;参数编码的编码速率很低,产生的合成语音的音质不高;混合编码使用参数编码技术和波形编码技术,编码速率和音质介于它们之间。
优选地,本实施例采用的音频编码为波形编码,该编码方式语音质量较高,在利于提高后续对音频格式的多媒体文件的识别的准确率。
其中,第三方工具包括但不限于:格式工厂(Format Factory)和FFMPEG(Fast Forward Moving Picture Experts Group)等,音频提取算法包括但不限于:基于哈希的音频指纹提取算法、音频稀疏表达(Sparse Representation-based Classifier,SRC)算法和离散傅氏变换的快速算法(Fast Fourier Transformation,FFT)等,第三方工具或音频提取算法可以根据实际情况进行选取,此处不作具体限制。
在本实施例中,当多媒体文件的文件格式为视频时,提取视频中的音频编码,并将该音频编码保存为预设的音频格式的多媒体文件,作为更新后的多媒体文件,通过对文件格式为视频的多媒体文件提取音频编码,从而转化成包含音频信息的多媒体文件来处理,在后续通过对音频进行语音识别来获取其中包含的信息,从而实现文件类型为视频的多媒体文件的信息提取。
在一实施例中,多媒体文件的文件类型为图片,如图4所示,步骤S3中,即根据文件类型对应的预设解析方式,对多媒体文件进行解析,得到该多媒体文件的内容文本信息,以及每个内容文本信息对应的时间戳信息,具体包括如下步骤:
S331:对多媒体文件进行图片预处理,得到目标图片文件。
具体地,对图片预处理,主要目的是消除图片中无关的信息,恢复有用的真实信息,增强有关信息的可检测性和最大限度地简化数据,从而改进特征抽取、图片分割、匹配和识别的可靠性。
在本申请实施例中,对图片预处理是指对图片进行灰度(Gray Processing)处理、锐化(Image Sharpening)处理和二值化(Image Binarization)处理等,通过图片预处理,去除背景或者噪点,突出文字部分,并缩放图片为适合处理的大小。
其中,灰度处理是指将彩色图片转化成为灰度图片的过程,目的是为了改善画质,使 图片的显示效果更加清晰。灰度处理包括但不限于:分量法、最大值法、平均值法和加权平均法等。
其中,锐化处理是指是补偿图片的轮廓,增强图片的边缘及灰度跳变的部分,使图片变得清晰,分为空域处理和频域处理两类,锐化处理是为了突出图片上地物的边缘、轮廓,或某些线性目标要素的特征。
其中,二值化处理就是将图片上的像素点的灰度值设置为0或255,也就是将整个图片呈现出明显的黑白效果的过程,图片的二值化使图片中数据量大为减少,从而能凸显出目标的轮廓。
S332:使用场景文本检测算法,获取目标图片文件中的文字区域。
具体地,由于图片文件中的文字识别为自然场景下的文字识别,因而在对图片进行预处理,得到目标图片后,需要确定目标图片中的文字区域,以便进行文字识别。
文字区域的确定方法包括但不限于:霍夫投票(Hough Transform)算法、基于隐马尔可夫模型(Hidden Markov Model,HMM)的字符识别算法、区域特征提取(Maximally Stable Extremal Regions,MSER)算法和场景文本检测(Connectionist Text Proposal Network)算法。
优选地,本申请实施例采用场景文本检测算法来确定目标图片文件中的文字区域,其实现方式为:通过使用卷积神经网络(Convolutional Neural Networks,CNN)模型对目标图片文件进行训练,得到图片的深度特征;进而根据深度特征与文本线构造算法(Side Refinement)来预测字符边缘,并按照预设大小的矩形框,将字符边缘处于同一行的字符放入同一个矩形框;将矩形框串成序列,并输入到循环神经网络(Recurrent Neural Networks,RNN)模型中进行训练,最后将训练结果使用全连接层来回归,得到正确的字符边缘,并将正确的字符边缘连接成线,从而得到目标图片文件中的文字区域。
S333:采用光学字符识别的方式,提取文字区域的文字内容,作为内容文本信息。
具体地,在步骤S332中获取到的文字区域内,采用光学字符识别(Optical Character Recognition,OCR)的方式,对该文字区域内的图片进行文字识别,并提取出识别到的文字信息,作为内容文本信息。
其中,光学字符识别是指通过光学字符识别软件检查图片上的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对图片上的字符,采用光学的方式将图片中的文字转换成为黑白点阵的图片文件,并通过识别软件将图片中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
S334:将内容文本信息对应的时间戳信息设置为空。
具体地,由于本申请实施例中所提的图片文件为静态的图片文件,在后续用户进行多媒体文件查询时,不需要获取图片文件的时间戳信息,因此,将内容文本信息对应的时间戳设置为空。
在本实施例中,通过对多媒体文件进行图片预处理,得到目标图片文件,并使用场景文本检测算法,获取目标图片文件中的文字区域,进而采用光学字符识别的方式,识别出 文字区域的文字内容,作为内容文本信息,使得图片上包含的文字信息被提取出来,在后续用户在根据查询关键字查询时,可以快速便捷的查询出包含有该查询关键字的图片,提高了查询效率。
在一实施例中,服务端根据接收到的加载指令,对查询结果对应的多媒体文件进行加载,如图5所示,在步骤S6之后,该信息查询还包括如下步骤:
S71:若接收到用户对查询结果的加载指令,则根据加载指令确定待加载的文件转写记录。
具体的,在接收到用户对查询结果的加载指令时,获取该查询结果对应的文件转写记录,将该文件转写记录作为待加载的文件转写记录。
值得说明的是,用户可以通过在客户端使用鼠标点击或者按下键盘快捷键的方式,向服务端发送加载指令。
以步骤S5中得到的两个查询结果“20180505,坐席的外呼监控,12:26”和“20180503,提升坐席沟通业务熟练度,46:11”为例,当用户使用鼠标点击查询结果“20180505,坐席的外呼监控,12:26”后,即完成向服务端发送该查询结果的加载指令,服务端获取该加载指令中包含的文件转写记录,将该文件转写记录作为待加载的文件转写记录。
S72:根据待加载的文件转写记录中的文件标识,获取该文件标识对应的目标多媒体文件。
具体地,文件转写记录中包括文件标识、内容文本信息、时间戳信息和映射关系,根据待加载的文件转写记录中的文件标识,可以确定该文件标识对应的多媒体文件,进而获取该多媒体文件作为目标多媒体文件。
以步骤S71中得到的待加载的文件转写记录为例,该待加载的文件转写记录中包含的文件标识为“20180505”,进而在多媒体知识库中找到文件标识“20180505”对应的目标多媒体文件“关于加强坐席外呼监控会议记录.WAV”。
S73:若目标多媒体文件的文件类型为图片,则显示该目标多媒体文件。
具体地,在获取到目标多媒体文件后,使用步骤S2提供的正则匹配的方式确定目标多媒体文件的文件类型,当目标多媒体文件的文件类型为图片时,直接传输该图片文件到客户端显示,以便供用户去查阅。
S74:若目标多媒体文件的文件类型为音频或视频,则获取待加载的文件转写记录中的时间戳信息包含的目标时间点,并驱动该目标多媒体文件从目标时间点处开始执行。
具体地,在获取到目标多媒体文件后,使用步骤S2提供的正则匹配的方式确定目标多媒体文件的文件类型,当目标多媒体文件的文件类型为视频或音频时,获取待加载的文件转写记录中信息戳信息包含的目标时间点,驱动该目标多媒体文件从目标时间点开始播放。
以步骤S72获取到的待加载的文件转写记录“20180505,坐席的外呼监控,12:26”和目标多媒体文件“关于加强坐席外呼监控会议记录.WAV”为例,该待加载的文件转写记录中时间戳信息为“12:26”,包含的目标时间点为第12分钟第26秒,驱动目标多媒体 文件“关于加强坐席外呼监控会议记录.WAV”从第12分钟第26秒开始播放。
在本实施例中,在接收到用户对查询结果的加载指令时,根据加载指令确定待加载的文件转写记录,并根据该待加载的文件转写记录中的文件标识,获取对应的目标多媒体文件,并对该目标多媒体文件进行文件类型确认,若文件类型为图片,则直接加载该目标多媒体文件,若文件类型为音频或视频,则获取待加载的文件转写记录中的时间戳信息包含的目标时间点,驱动应用程序从该时间点打开目标多媒体文件,使得再接收到用户对查询结果的加载指令时,可以快速打开对应的目标多媒体文件,且对音频或者视频文件,可以直接定位到用户查询的关键字对应的时间点开始播放,供用户去查阅,提高了多媒体文件查询的效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在一实施例中,提供一种信息查询装置,该信息查询装置与上述实施例中信息查询方法一一对应。如图6所示,该信息查询装置包括数据获取模块10、类型确定模块20、文件解析模块30、记录保存模块40、匹配查询模块50和结果输出模块60。各功能模块详细说明如下:
数据获取模块10,用于获取多媒体文件;
类型确定模型20,用于采用预设的正则表达式,对多媒体文件的文件扩展名进行正则匹配,确定该多媒体文件的文件类型;
文件解析模块30,用于根据文件类型对应的预设解析方式,对多媒体文件进行解析,得到该多媒体文件的内容文本信息,以及每个内容文本信息对应的时间戳信息;
记录保存模块40,用于建立多媒体文件的文件标识、内容文本信息和时间戳信息之间的映射关系,并将文件标识、内容文本信息、时间戳信息和映射关系作为该多媒体文件的文件转写记录,保存到多媒体知识库中;
匹配查询模块50,用于若接收到用户发送的包含查询关键字的查询请求,则基于多媒体知识库,将该查询关键字与内容文本信息进行匹配,并将匹配成功的文件转写记录作为查询结果;
结果输出模块60,用于输出查询结果。
进一步地,文件类型为音频,文件解析模块30包括:
格式获取单元311,用于获取多媒体文件的音频格式;
格式转换单元312,用于若音频格式为非预设的音频格式,则对多媒体文件进行标准格式转换,得到预设的音频格式的目标音频文件;
数据处理单元313,用于对目标音频文件进行语音增强和降噪处理,得到包含基础语音帧的帧集合;
语音识别单元314,用于对帧集合中的每个基础语音帧进行语音识别,生成内容文本信息;
时间标识单元315,用于针对每个内容文本信息,按照预设方式生成该内容文本信息 在帧集合中对应的时间戳信息,作为该内容文本信息对应的时间戳信息。
进一步地,文件类型为视频,文件解析模块30还包括:
音频提取单元321,用于按照预设的音频格式提取多媒体文件的音频编码,并将该音频编码作为更新后的多媒体文件。
进一步地,文件类型为图片,文件解析模块30还包括:
图片处理单元331,用于对多媒体文件进行图片预处理,得到目标图片文件;
区域确定单元332,用于使用场景文本检测算法,获取目标图片文件中的文字区域;
文字提取单元333,用于采用光学字符识别的方式,提取文字区域的文字内容,作为内容文本信息;
时间设置单元334,用于将内容文本信息对应的时间戳信息设置为空。
进一步地,该信息查询装置还包括:
记录确定模块71,用于若接收到用户对查询结果的加载指令,则根据加载指令确定待加载的文件转写记录;
文件获取模块72,用于根据待加载的文件转写记录中的文件标识,获取该文件标识对应的目标多媒体文件;
图片显示模块73,用于若目标多媒体文件的文件类型为图片,则显示该目标多媒体文件;
文件播放模块74,用于若目标多媒体文件的文件类型为音频或视频,则获取待加载的文件转写记录中的时间戳信息包含的目标时间点,并驱动该目标多媒体文件从目标时间点处开始执行。
关于信息查询装置的具体限定可以参见上文中对于信息查询方法的限定,在此不再赘述。上述信息查询装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储信息查询方法中的多媒体知识库与多媒体知识库中文件标识对应的多媒体文件。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种信息查询方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时实现上述实施例信息查询方法的步骤,例如图2所示的步骤S1至步骤S6。或者,处理器执行计算机可读指令时实现上述实施例信息查询装置的各模块/单元的功能,例如图6所示的模块10至模块60。 为避免重复,这里不再赘述。
在一个实施例中,提供了一个或多个非易失性可读存储介质,其上存储有计算机可读指令,计算机可读指令被处理器执行时实现上述实施例信息查询方法的步骤,或者,计算机可读指令被处理器执行时实现上述实施例信息查询装置的各模块/单元的功能,为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一个或多个非易失性可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (20)

  1. 一种信息查询方法,其特征在于,所述信息查询方法包括:
    获取多媒体文件;
    采用预设的正则表达式,对所述多媒体文件的文件扩展名进行正则匹配,确定所述多媒体文件的文件类型;
    根据所述文件类型对应的预设解析方式,对所述多媒体文件进行解析,得到所述多媒体文件的内容文本信息,以及每个所述内容文本信息对应的时间戳信息;
    建立所述多媒体文件的文件标识、所述内容文本信息和所述时间戳信息之间的映射关系,并将所述文件标识、所述内容文本信息、所述时间戳信息,以及所述映射关系作为所述多媒体文件的文件转写记录,保存到多媒体知识库中;
    若接收到用户发送的包含查询关键字的查询请求,则基于所述多媒体知识库,将所述查询关键字与所述内容文本信息进行匹配,并将匹配成功的文件转写记录作为查询结果;
    输出所述查询结果。
  2. 如权利要求1所述的信息查询方法,其特征在于,所述文件类型为音频,所述根据所述文件类型对应的预设解析方式,对所述多媒体文件进行解析,得到所述多媒体文件的内容文本信息,以及每个所述内容文本信息对应的时间戳信息包括:
    获取所述多媒体文件的音频格式;
    若所述音频格式为非预设的音频格式,则对所述多媒体文件进行标准格式转换,得到所述预设的音频格式的目标音频文件;
    对所述目标音频文件进行语音增强和降噪处理,得到包含基础语音帧的帧集合;
    对所述帧集合中的每个所述基础语音帧进行语音识别,生成所述内容文本信息;
    针对每个所述内容文本信息,按照预设方式生成该内容文本信息在所述帧集合中对应的时间戳信息,作为该内容文本信息对应的时间戳信息。
  3. 如权利要求2所述的信息查询方法,其特征在于,所述文件类型为视频,在所述获取所述多媒体文件的音频格式之前,所述信息查询方法还包括:
    按照预设的音频格式提取所述多媒体文件的音频编码,并将所述音频编码作为更新后的所述多媒体文件。
  4. 如权利要求1所述的信息查询方法,其特征在于,所述文件类型为图片,所述根据所述文件类型对应的预设解析方式,对所述多媒体文件进行解析,得到所述多媒体文件的内容文本信息,以及所述内容文本信息对应的时间戳信息还包括:
    对所述多媒体文件进行图片预处理,得到目标图片文件;
    使用场景文本检测算法,获取所述目标图片文件中的文字区域;
    采用光学字符识别的方式,提取所述文字区域的文字内容,作为所述内容文本信息;
    将所述内容文本信息对应的时间戳信息设置为空。
  5. 如权利要求1至4任一项所述的信息查询方法,其特征在于,在所述输出所述查询 结果之后,所述信息查询方法还包括:
    若接收到所述用户对所述查询结果的加载指令,则根据所述加载指令确定待加载的文件转写记录;
    根据所述待加载的文件转写记录中的文件标识,获取该文件标识对应的目标多媒体文件;
    若所述目标多媒体文件的文件类型为图片,则显示所述目标多媒体文件;
    若所述目标多媒体文件的文件类型为音频或视频,则获取所述待加载的文件转写记录中的时间戳信息包含的目标时间点,并驱动所述目标多媒体文件从所述目标时间点处开始执行。
  6. 一种信息查询装置,其特征在于,所述信息查询装置包括:
    数据获取模块,用于获取多媒体文件;
    类型确定模型,用于采用预设的正则表达式,对所述多媒体文件的文件扩展名进行正则匹配,确定所述多媒体文件的文件类型;
    文件解析模块,用于根据所述文件类型对应的预设解析方式,对所述多媒体文件进行解析,得到所述多媒体文件的内容文本信息,以及每个所述内容文本信息对应的时间戳信息;
    记录保存模块,用于建立所述多媒体文件的文件标识、所述内容文本信息和所述时间戳信息之间的映射关系,并将所述文件标识、所述内容文本信息、所述时间戳信息,以及所述映射关系作为所述多媒体文件的文件转写记录,保存到多媒体知识库中;
    匹配查询模块,用于若接收到用户发送的包含查询关键字的查询请求,则基于所述多媒体知识库,将所述查询关键字与所述内容文本信息进行匹配,并将匹配成功的文件转写记录作为查询结果;
    结果输出模块,用于输出所述查询结果。
  7. 如权利要求6所述的信息查询装置,其特征在于,所述文件类型为音频,所述文件解析模块包括:
    格式获取单元,用于获取所述多媒体文件的音频格式;
    格式转换单元,用于若所述音频格式为非预设的音频格式,则对所述多媒体文件进行标准格式转换,得到所述预设的音频格式的目标音频文件;
    数据处理单元,用于对所述目标音频文件进行语音增强和降噪处理,得到包含基础语音帧的帧集合;
    语音识别单元,用于对所述帧集合中的每个所述基础语音帧进行语音识别,生成所述内容文本信息;
    时间标识单元,用于针对每个所述内容文本信息,按照预设方式生成该内容文本信息在所述帧集合中对应的时间戳信息,作为该内容文本信息对应的时间戳信息。
  8. 如权利要求6所述的信息查询装置,其特征在于,所述文件类型为图片,所述文件解析模块包括:
    图片处理单元,用于对所述多媒体文件进行图片预处理,得到目标图片文件;
    区域确定单元,用于使用场景文本检测算法,获取所述目标图片文件中的文字区域;
    文字提取单元,用于采用光学字符识别的方式,提取所述文字区域的文字内容,作为所述内容文本信息;
    时间设置单元,用于将所述内容文本信息对应的时间戳信息设置为空。
  9. 如权利要求7所述的信息查询装置,其特征在于,所述文件类型为视频,所述信息查询装置还包括:
    音频提取单元,用于按照预设的音频格式提取所述多媒体文件的音频编码,并将所述音频编码作为更新后的所述多媒体文件。
  10. 如权利要求6至9任一项所述的信息查询装置,其特征在于,所述信息查询装置还包括:
    记录确定模块,用于若接收到所述用户对所述查询结果的加载指令,则根据所述加载指令确定待加载的文件转写记录;
    文件获取模块,用于根据所述待加载的文件转写记录中的文件标识,获取该文件标识对应的目标多媒体文件;
    图片显示模块,用于若所述目标多媒体文件的文件类型为图片,则显示所述目标多媒体文件;
    文件播放模块,用于若所述目标多媒体文件的文件类型为音频或视频,则获取所述待加载的文件转写记录中的时间戳信息包含的目标时间点,并驱动所述目标多媒体文件从所述目标时间点处开始执行。
  11. 一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如下步骤:
    获取多媒体文件;
    采用预设的正则表达式,对所述多媒体文件的文件扩展名进行正则匹配,确定所述多媒体文件的文件类型;
    根据所述文件类型对应的预设解析方式,对所述多媒体文件进行解析,得到所述多媒体文件的内容文本信息,以及每个所述内容文本信息对应的时间戳信息;
    建立所述多媒体文件的文件标识、所述内容文本信息和所述时间戳信息之间的映射关系,并将所述文件标识、所述内容文本信息、所述时间戳信息,以及所述映射关系作为所述多媒体文件的文件转写记录,保存到多媒体知识库中;
    若接收到用户发送的包含查询关键字的查询请求,则基于所述多媒体知识库,将所述查询关键字与所述内容文本信息进行匹配,并将匹配成功的文件转写记录作为查询结果;
    输出所述查询结果。
  12. 如权利要求11所述的终端设备,其特征在于,所述文件类型为音频,所述根据所述文件类型对应的预设解析方式,对所述多媒体文件进行解析,得到所述多媒体文件的内 容文本信息,以及每个所述内容文本信息对应的时间戳信息包括:
    获取所述多媒体文件的音频格式;
    若所述音频格式为非预设的音频格式,则对所述多媒体文件进行标准格式转换,得到所述预设的音频格式的目标音频文件;
    对所述目标音频文件进行语音增强和降噪处理,得到包含基础语音帧的帧集合;
    对所述帧集合中的每个所述基础语音帧进行语音识别,生成所述内容文本信息;
    针对每个所述内容文本信息,按照预设方式生成该内容文本信息在所述帧集合中对应的时间戳信息,作为该内容文本信息对应的时间戳信息。
  13. 如权利要求12所述的终端设备,其特征在于,所述文件类型为视频,在所述获取所述多媒体文件的音频格式之前,所述处理器执行所述计算机可读指令时还包括实现如下步骤:
    按照预设的音频格式提取所述多媒体文件的音频编码,并将所述音频编码作为更新后的所述多媒体文件。
  14. 如权利要求11所述的终端设备,其特征在于,所述文件类型为图片,所述根据所述文件类型对应的预设解析方式,对所述多媒体文件进行解析,得到所述多媒体文件的内容文本信息,以及所述内容文本信息对应的时间戳信息还包括:
    对所述多媒体文件进行图片预处理,得到目标图片文件;
    使用场景文本检测算法,获取所述目标图片文件中的文字区域;
    采用光学字符识别的方式,提取所述文字区域的文字内容,作为所述内容文本信息;
    将所述内容文本信息对应的时间戳信息设置为空。
  15. 如权利要求11至14任一项所述的终端设备,其特征在于,在所述输出所述查询结果之后,所述处理器执行所述计算机可读指令时还包括实现如下步骤:
    若接收到所述用户对所述查询结果的加载指令,则根据所述加载指令确定待加载的文件转写记录;
    根据所述待加载的文件转写记录中的文件标识,获取该文件标识对应的目标多媒体文件;
    若所述目标多媒体文件的文件类型为图片,则显示所述目标多媒体文件;
    若所述目标多媒体文件的文件类型为音频或视频,则获取所述待加载的文件转写记录中的时间戳信息包含的目标时间点,并驱动所述目标多媒体文件从所述目标时间点处开始执行。
  16. 一个或多个存储有计算机可读指令的非易失性可读存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如下步骤:
    获取多媒体文件;
    采用预设的正则表达式,对所述多媒体文件的文件扩展名进行正则匹配,确定所述多媒体文件的文件类型;
    根据所述文件类型对应的预设解析方式,对所述多媒体文件进行解析,得到所述多媒体文件的内容文本信息,以及每个所述内容文本信息对应的时间戳信息;
    建立所述多媒体文件的文件标识、所述内容文本信息和所述时间戳信息之间的映射关系,并将所述文件标识、所述内容文本信息、所述时间戳信息,以及所述映射关系作为所述多媒体文件的文件转写记录,保存到多媒体知识库中;
    若接收到用户发送的包含查询关键字的查询请求,则基于所述多媒体知识库,将所述查询关键字与所述内容文本信息进行匹配,并将匹配成功的文件转写记录作为查询结果;
    输出所述查询结果。
  17. 如权利要求16所述的非易失性可读存储介质,其特征在于,所述文件类型为音频,所述根据所述文件类型对应的预设解析方式,对所述多媒体文件进行解析,得到所述多媒体文件的内容文本信息,以及每个所述内容文本信息对应的时间戳信息包括:
    获取所述多媒体文件的音频格式;
    若所述音频格式为非预设的音频格式,则对所述多媒体文件进行标准格式转换,得到所述预设的音频格式的目标音频文件;
    对所述目标音频文件进行语音增强和降噪处理,得到包含基础语音帧的帧集合;
    对所述帧集合中的每个所述基础语音帧进行语音识别,生成所述内容文本信息;
    针对每个所述内容文本信息,按照预设方式生成该内容文本信息在所述帧集合中对应的时间戳信息,作为该内容文本信息对应的时间戳信息。
  18. 如权利要求17所述的非易失性可读存储介质,其特征在于,所述文件类型为视频,在所述获取所述多媒体文件的音频格式之前,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器还执行如下步骤:
    按照预设的音频格式提取所述多媒体文件的音频编码,并将所述音频编码作为更新后的所述多媒体文件。
  19. 如权利要求16所述的非易失性可读存储介质,其特征在于,所述文件类型为图片,所述根据所述文件类型对应的预设解析方式,对所述多媒体文件进行解析,得到所述多媒体文件的内容文本信息,以及所述内容文本信息对应的时间戳信息还包括:
    对所述多媒体文件进行图片预处理,得到目标图片文件;
    使用场景文本检测算法,获取所述目标图片文件中的文字区域;
    采用光学字符识别的方式,提取所述文字区域的文字内容,作为所述内容文本信息;
    将所述内容文本信息对应的时间戳信息设置为空。
  20. 如权利要求16至19任一项所述的非易失性可读存储介质,其特征在于,在所述输出所述查询结果之后,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器还执行如下步骤:
    若接收到所述用户对所述查询结果的加载指令,则根据所述加载指令确定待加载的文件转写记录;
    根据所述待加载的文件转写记录中的文件标识,获取该文件标识对应的目标多媒体文 件;
    若所述目标多媒体文件的文件类型为图片,则显示所述目标多媒体文件;
    若所述目标多媒体文件的文件类型为音频或视频,则获取所述待加载的文件转写记录中的时间戳信息包含的目标时间点,并驱动所述目标多媒体文件从所述目标时间点处开始执行。
PCT/CN2018/094373 2018-05-29 2018-07-03 一种信息查询方法、装置、计算机设备及存储介质 WO2019227582A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810529526.7A CN108829765A (zh) 2018-05-29 2018-05-29 一种信息查询方法、装置、计算机设备及存储介质
CN201810529526.7 2018-05-29

Publications (1)

Publication Number Publication Date
WO2019227582A1 true WO2019227582A1 (zh) 2019-12-05

Family

ID=64146081

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/094373 WO2019227582A1 (zh) 2018-05-29 2018-07-03 一种信息查询方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN108829765A (zh)
WO (1) WO2019227582A1 (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582823A (zh) * 2018-11-21 2019-04-05 平安科技(深圳)有限公司 视频信息链式存储方法、装置、计算机设备及存储介质
CN109657181B (zh) * 2018-12-13 2024-05-14 平安科技(深圳)有限公司 互联网信息链式存储方法、装置、计算机设备及存储介质
CN111353065A (zh) * 2018-12-20 2020-06-30 北京嘀嘀无限科技发展有限公司 语音档案存储方法、装置、设备以及计算机可读存储介质
CN109933973B (zh) * 2019-01-24 2024-01-19 平安科技(深圳)有限公司 密码校验方法、装置、计算机设备及存储介质
CN109885491B (zh) * 2019-02-12 2022-07-05 科华恒盛股份有限公司 对存在数据溢出表达式的检测方法及终端设备
CN109976669B (zh) * 2019-03-15 2023-07-28 百度在线网络技术(北京)有限公司 一种边缘存储方法、装置和存储介质
CN110110099A (zh) * 2019-04-12 2019-08-09 华勤通讯技术有限公司 一种多媒体文件检索方法及装置
CN110399339A (zh) * 2019-06-18 2019-11-01 平安科技(深圳)有限公司 知识库管理系统的文件分类方法、装置、设备及存储介质
CN110390104B (zh) * 2019-07-23 2023-05-05 思必驰科技股份有限公司 用于语音对话平台的不规则文本转写方法及系统
CN112559444A (zh) * 2019-09-25 2021-03-26 北京国双科技有限公司 Sql文件迁移方法、装置、存储介质及设备
CN111049887A (zh) * 2019-11-29 2020-04-21 天脉聚源(杭州)传媒科技有限公司 基于动态搜索策略的下载控制方法、系统及存储介质
CN111314297B (zh) * 2020-01-16 2022-03-25 深圳软牛科技有限公司 musicdb媒体数据提取方法、装置及计算机可读存储介质
CN111506747B (zh) * 2020-04-16 2023-09-08 Oppo(重庆)智能科技有限公司 文件解析方法、装置、电子设备及存储介质
CN111863043B (zh) * 2020-07-29 2022-09-23 安徽听见科技有限公司 音频转写文件生成方法、相关设备及可读存储介质
CN112115282A (zh) * 2020-09-17 2020-12-22 北京达佳互联信息技术有限公司 基于搜索的问答方法、装置、设备及存储介质
CN112163104B (zh) * 2020-09-29 2022-04-15 北京字跳网络技术有限公司 搜索目标内容的方法、装置、电子设备及存储介质
CN112417113A (zh) * 2020-11-10 2021-02-26 绿瘦健康产业集团有限公司 一种基于语音识别技术的智能问答方法及系统
CN112071305A (zh) * 2020-11-16 2020-12-11 成都启英泰伦科技有限公司 一种本地离线智能语音批量识别模组及方法
CN112347061A (zh) * 2020-11-27 2021-02-09 中国农业银行股份有限公司 一种文件上传方法及装置
CN112836693B (zh) * 2021-02-04 2024-05-24 北京秒针人工智能科技有限公司 一种光学字符识别重复检测方法和系统
CN112883235A (zh) * 2021-03-11 2021-06-01 深圳市一览网络股份有限公司 视频内容的搜索方法、装置、计算机设备及存储介质
CN115883648A (zh) * 2021-08-09 2023-03-31 中移物联网有限公司 一种数据集成方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793515A (zh) * 2014-02-11 2014-05-14 安徽科大讯飞信息科技股份有限公司 一种客服语音智能搜索和分析系统及方法
CN105005578A (zh) * 2015-05-21 2015-10-28 中国电子科技集团公司第十研究所 多媒体目标信息可视化分析系统
CN105095211A (zh) * 2014-04-22 2015-11-25 北大方正集团有限公司 多媒体数据的获取方法和装置
CN106021368A (zh) * 2016-05-10 2016-10-12 东软集团股份有限公司 播放多媒体文件的方法及装置
US20170228399A1 (en) * 2016-02-05 2017-08-10 National Taipei University Of Technology Method of searching for multimedia image

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996195B (zh) * 2009-08-28 2012-07-11 中国移动通信集团公司 音频文件中语音信息的搜索方法、装置及设备
CN102880713B (zh) * 2012-09-29 2016-08-03 北京奇虎科技有限公司 文件清理方法及装置
CN108595520B (zh) * 2013-07-05 2022-06-10 华为技术有限公司 一种生成多媒体文件的方法和装置
CN106446051A (zh) * 2016-08-31 2017-02-22 北京新奥特云视科技有限公司 Eagle媒资深度搜索方法
CN106982286B (zh) * 2017-04-26 2020-06-09 温州青苗影视传媒有限公司 一种录音方法、设备和计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793515A (zh) * 2014-02-11 2014-05-14 安徽科大讯飞信息科技股份有限公司 一种客服语音智能搜索和分析系统及方法
CN105095211A (zh) * 2014-04-22 2015-11-25 北大方正集团有限公司 多媒体数据的获取方法和装置
CN105005578A (zh) * 2015-05-21 2015-10-28 中国电子科技集团公司第十研究所 多媒体目标信息可视化分析系统
US20170228399A1 (en) * 2016-02-05 2017-08-10 National Taipei University Of Technology Method of searching for multimedia image
CN106021368A (zh) * 2016-05-10 2016-10-12 东软集团股份有限公司 播放多媒体文件的方法及装置

Also Published As

Publication number Publication date
CN108829765A (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
WO2019227582A1 (zh) 一种信息查询方法、装置、计算机设备及存储介质
KR102241972B1 (ko) 환경 콘텍스트를 이용한 질문 답변
US9786279B2 (en) Answering questions using environmental context
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
US9031840B2 (en) Identifying media content
CN1723455A (zh) 基于语义关联的内容检索
US20070288237A1 (en) Method And Apparatus For Multimedia Data Management
US11501546B2 (en) Media management system for video data processing and adaptation data generation
CN109473103A (zh) 一种会议纪要生成方法
WO2020119064A1 (zh) 互联网信息链式存储方法、装置、计算机设备及存储介质
WO2023173539A1 (zh) 一种视频内容处理方法、系统、终端及存储介质
US12020697B2 (en) Systems and methods for fast filtering of audio keyword search
TW202211077A (zh) 多國語言語音辨識及翻譯方法與相關的系統
CN114691907B (zh) 一种跨模态检索的方法、设备及介质
CN116486812A (zh) 基于语料关系的多领域唇语识别样本自动生成方法及系统
CN115270818A (zh) 一种意图识别方法及装置、存储介质、计算机设备
WO2021017302A1 (zh) 一种数据提取方法、装置、计算机系统及可读存储介质
CN112951274A (zh) 语音相似度确定方法及设备、程序产品
KR20220079029A (ko) 문서 기반 멀티 미디어 콘텐츠 자동 제작 서비스 제공 방법
CN111506764A (zh) 音频数据筛选方法、计算机设备和存储介质
CN111161737A (zh) 数据处理方法、装置、电子设备和存储介质
Rajan et al. A novel reading technique for visually impaired person using enhanced optical character recognition method
WO2023160515A1 (zh) 视频处理方法、装置、设备及介质
KR101923960B1 (ko) 음성 인식에 기반하여 음향 데이터로부터 전사문을 생성하는 방법 및 이를 이용한 장치
Wei et al. Embedded system for speech recognition and image processing

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18921240

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 11/03/2021)

122 Ep: pct application non-entry in european phase

Ref document number: 18921240

Country of ref document: EP

Kind code of ref document: A1