WO2018107605A1 - 一种将音视频数据转化成文字记录的系统和方法 - Google Patents

一种将音视频数据转化成文字记录的系统和方法 Download PDF

Info

Publication number
WO2018107605A1
WO2018107605A1 PCT/CN2017/077035 CN2017077035W WO2018107605A1 WO 2018107605 A1 WO2018107605 A1 WO 2018107605A1 CN 2017077035 W CN2017077035 W CN 2017077035W WO 2018107605 A1 WO2018107605 A1 WO 2018107605A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
speaker
audio
participant
text
Prior art date
Application number
PCT/CN2017/077035
Other languages
English (en)
French (fr)
Inventor
李纯冬
Original Assignee
广州视源电子科技股份有限公司
广州视臻信息科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 广州视源电子科技股份有限公司, 广州视臻信息科技有限公司 filed Critical 广州视源电子科技股份有限公司
Publication of WO2018107605A1 publication Critical patent/WO2018107605A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Definitions

  • the present invention relates to a data processing technique, and in particular to a system and method for converting audio and video data into a text record.
  • the camera in order to record the content of the conference, the camera usually collects video data and microphone to collect audio data or uses only a microphone to collect audio data, and saves the audio and video data or audio data into a multimedia file and stores it in the storage device; Play multimedia files to watch or listen to the meeting content.
  • the special meeting recorder can record the content of the meeting by inputting a device such as a computer or by handwriting.
  • the method of recording audio and video data by using a camera, a microphone, and the like requires storing the audio and video files in the storage device, so that a large storage space is required, the cost is high, and the multimedia content is used to view the conference content later.
  • Quickly browse and navigate to specific topics so it takes a lot of time, and there may be missing content, resulting in inefficiency.
  • Recording the content of the meeting by means of transcripts helps to quickly browse and locate specific topics, but the requirements for the recorder are high. If the recording speed is much lower than the speed discussed in the meeting, it is easy to omission and error, resulting in incomplete content and Careful, and the subsequent view of the record can not restore the situation at the time.
  • the prior art discloses a method for bidirectional reversible speech conversion of Chinese foreign language audio image data and adding subtitles, and recognizes the voice information into text by recognizing the audio image data, and The text is translated into a specified foreign language, superimposed on the screen in the form of subtitles, and stored or synchronized with the original voice, so that the audio image data becomes the audio image data with the specified foreign language subtitle.
  • the method simply recognizes the speech into text and translates the text into a specified foreign language and then displays it on the screen in the form of subtitles, but does not organize the subtitles into content closer to the real situation according to the difference of the speakers.
  • the present invention provides a system and method for converting audio and video data into a text record, and the technical solution is as follows.
  • a system for converting audio and video data into a transcript comprising a data collection portion, a data identification portion, and a data organization portion;
  • the data collection part includes an audio collection module and a video collection module
  • the audio collection module is configured to capture audio data of a current speaker and record a start time of the speech
  • the video capture module is configured to capture an image of a current speaker and record a start time of the speech
  • the data identification portion includes a voice and voiceprint recognition module and a face and expression recognition module;
  • the voice and voiceprint recognition module processes the audio data captured by the audio collection module, converts the text data into text information, and processes the audio data captured by the audio collection module to identify the current speech. And assign an identity tag to each speaker;
  • the face and expression recognition module processes the image captured by the video capture module by using an expression recognition technology, identifies an expression of the current speaker, obtains the emotion of the speaker, and Processing the image captured by the video capture module to identify the current speaker and assigning an identity tag to each speaker;
  • the data organization portion generates a genre record based on the text information, the start time of the recognition, the current speaker's identity tag, and the current speaker's mood.
  • transcript is recorded as a transcript in the form of a conversation.
  • system further includes a data supplementation and correction section for supplementing and correcting the transcript.
  • the audio collection module is a microphone
  • the video collection module is a camera
  • system further includes a storage module that stores a data table that records the identity tag, the voiceprint feature data, and the face feature data of the speaker.
  • a method of converting audio and video data into a text record comprising the following steps:
  • Step S21 data collection: capturing audio data of the current speaker and an image of the current speaker, and recording the start time of the speech;
  • Step S22 data identification: processing the captured audio data, converting it into text information in text format; processing the captured image, identifying the current speaker's expression, obtaining the speaker's emotion; and capturing the audio data And/or processing the captured image to identify the current speaker and assigning an identity tag to each speaker;
  • Step 23 Data organization: The data organization part generates a transcript according to the text information, the start time of the recognition, the identity tag of the current speaker, and the emotion of the current speaker.
  • transcript is recorded as a transcript in the form of a conversation.
  • the method further includes step S24, data supplementation and correction: supplementing and correcting the text record.
  • the identity tag and the voiceprint feature data and/or the number of facial features of the speaker According to the associated storage in the storage module, before assigning an identity tag to each speaker, it is firstly found whether an identity tag matching the speaker has been stored in the storage module, and if not found, the speaker is assigned to the speaker. An identity tag.
  • a method of converting audio and video data into a text record comprising the following steps:
  • Step S30 Preparing work: starting the microphone and the camera, creating a speaker list, and creating a file address for saving the text, wherein the item of the speaker list includes the speaker's unique identity tag, the speaker's voiceprint feature data, and the face feature data. ;
  • Step S31 Capture data: when the speaker starts speaking, the microphone captures the voice input of the speaker who is currently speaking to obtain the audio data of the speaker who is currently speaking, and records the start time of the audio data of the currently speaking participant; meanwhile, the camera captures the current speaking. The image of the speaker obtains the video data of the speaker currently speaking, and records the start time of the video data of the participant currently speaking;
  • Step S32 analyzing and processing the audio data of the currently speaking speaker obtained by the microphone using voiceprint recognition technology, and performing voiceprint feature recognition; analyzing and processing the video data of the currently speaking speaker obtained by the camera using the face recognition technology, And performing facial feature recognition;
  • Step S33 determining whether the voiceprint feature data is successfully recognized and whether the facial feature data is successfully recognized. If the voiceprint feature data and/or the face feature data are successfully recognized, the process proceeds to step S34; if the voiceprint is not successfully recognized Feature data and facial feature data, proceed to step S35;
  • Step S34 determining whether there is already a speaker in the speaker list that matches the voiceprint feature data and/or the facial feature data, and if yes, proceeding to step S35, while supplementing the relevant information of the speaker; If not, add a new entry in the speaker list, save the new speaker's identity tag, voiceprint feature data and face feature data, and proceed to step S35;
  • Step S35 analyzing and processing audio data using voice recognition technology, and performing audio data conversion Operation into text;
  • Step S36 determining whether the audio data is successfully converted into text, if yes, proceeding to step S37; if not, returning to step S35 to continue the conversion operation;
  • Step S37 analyzing and processing the video data by using the expression recognition technology to obtain the emotion of the speaker who is currently speaking;
  • Step S38 Obtain the current date and time
  • Step S39 Organizing the date, time, the identity tag of the speaker matching the voiceprint and/or facial feature data, the voice recognition character, and the emotion of the expression recognition into a dialogue record in the form of a dialogue, and saving in the created file address. ;
  • Step S40 Returning to step S31 to continue execution, the content of the speech of different speakers is saved until the end of the session process.
  • the invention preserves the whole audio and video data process in a more detailed and complete manner, and is closer to the real situation; the invention converts the audio and video data into a text format for storage, greatly reduces the cost of storage and transmission, and facilitates subsequent viewing of the record, which can be faster. Browse and locate the meeting content.
  • the invention utilizes the voiceprint recognition technology and the face recognition technology to identify different participants; and organizes and organizes the text content obtained by the voice recognition technology and the expression recognition technology to form a text record in a dialogue form.
  • the invention provides an interface for the user to supplement the correction record to ensure the correctness of the text record and improve the readability.
  • FIG. 1 is a structural block diagram of a system for converting audio and video data into a text record according to the present invention
  • FIG. 2 is a schematic structural diagram of a system for converting audio and video data into a text record according to the present invention
  • FIG. 3 is a first flow chart of a method for converting audio and video data into a text record proposed by the present invention
  • FIG. 4 is a second flow chart of a method for converting audio and video data into a text record proposed by the present invention.
  • the present invention requires the use of well-known techniques such as speech recognition technology, voiceprint recognition technology, face recognition technology, and expression recognition technology for acquiring necessary data.
  • the existing identification technologies have been relatively perfect, and can realize "text-independent voiceprint recognition”, “face tracking”, “face motion recognition”, “expression change recognition”, etc., and the present invention no longer does these techniques.
  • the system and method for converting audio and video data into a text record proposed by the present invention can organize audio and video data into a complete and visual dialogue in the form of a dialogue based on the data.
  • the system for converting audiovisual data into a transcript of the present invention includes a data collection portion, a data identification portion, a data organization portion, and a data supplementation and correction portion.
  • the data collection part includes a data acquisition device such as a microphone and a camera.
  • the microphone is used to capture the audio data of the currently speaking participant.
  • the microphone collects the audio data of the currently speaking participant, according to the strength of the collected audio data.
  • the degree of judging judges whether the currently speaking participant is speaking or pauses. If the pause exceeds a certain time (for example, 3s), the participant is considered to have finished speaking, and the start time and end time of the audio data of the currently speaking participant are recorded, and the current speech is attended.
  • the audio data of the person is transmitted to the data identification portion together with the start time (which may also be added to the end time) and the device identifier of the microphone.
  • the device identifier in which the microphone is transmitted is used to distinguish different conference parties during multiparty conferences.
  • the camera is used to capture the image of the currently speaking participant.
  • the camera collects the image of the currently speaking participant, and according to the collected image, determines whether the currently speaking participant is speaking or pauses, if the pause is more than a certain time (for example, 3s), the participant is considered to have finished speaking, and the start time and end time of the current speaking participant's speech are recorded, and the acquired image is transmitted together with the start time (and the end time) and the device identifier of the camera.
  • the device identifier of the transmitting camera is used to distinguish different meeting parties in a multi-party conference.
  • the microphone and the camera adopt the same standard time.
  • the data recognition section includes a voice and voiceprint recognition module and a face and expression recognition module.
  • the voice and voiceprint recognition module receives the audio data captured by the microphone, the start time (which may also add an end time), and the device identifier of the microphone; the captured audio data is processed by the voice recognition technology, and the audio data of the audio format is converted into Textual information in text format, and the captured audio data is processed using voiceprint recognition technology to identify the participant currently speaking.
  • the face and expression recognition module receives the image captured by the camera, the start time (may also add the end time) and the device identifier of the camera, and uses the expression recognition technology to process the captured image to identify the expression of the currently speaking participant and obtain The attendees’ emotions at the time, and the face recognition technology was used to process the captured images to identify the current speech.
  • the voiceprint recognition technology can identify the voiceprint feature data of the currently speaking participant, and the face recognition technology can identify the facial feature data of the currently speaking participant. Therefore, the voice and voiceprint recognition module according to the voiceprint feature data and The face and expression recognition module can identify and distinguish different participants based on the facial feature data. In addition, the voice and voiceprint recognition module utilizes the device identifier of the microphone and the face and expression recognition module to identify and distinguish different conference parties using the device identifier of the camera.
  • the voice and voiceprint recognition module and the face and expression recognition module assign a unique identity tag to each speaker in the process, for example, when a party is in a conference, "Participant A”, “Participant B”, Participant C is assigned to the participant as an identity tag.
  • Participants can be assigned to the participant by using the participant A1, participant B2, and participant C1.
  • One character "A”, “B”, “C” represents each conference party, and the second character “1", "2" represents a participant in a conference party.
  • the voice and voiceprint recognition module and the face and expression recognition module should give the same identity tag to the same participant, for example, the voice and voiceprint recognition module can be based on the received start time and The identity tags of the participants identified by the face and expression recognition module are unified.
  • a data table including the identity tag, the voiceprint feature data and the face feature data of the participant may be created for recording the information of the participant who is speaking, and the data table is stored in the storage module (not shown in the figure) Shown).
  • the voiceprint feature data and the face feature data can be obtained by voiceprint recognition technology and face recognition technology, for example, a face recognition technology by using a 21-point model to locate a position, and the features of the face can be described by these key points, and the accuracy can be obtained. Up to 96%.
  • the data organization part performs the data according to a certain format according to the text information processed by the data identification part, the start time, the identity tag of the participant, the emotion of the participant, and the like. Organize and generate a transcript containing the start time, the identity tag of the participant, the emotional and textual information of the participant, and save it.
  • the organizational format can be, for example:
  • the content of the same date can be integrated.
  • the aforementioned records can be integrated into:
  • the data supplement and correction section is used to supplement and correct the transcripts saved in the data organization part to improve the readability of the transcript and ensure the correctness of the transcript. For example, an interface and a prompt for facilitating the user to supplement and correct the saved text record are provided, and the name of the supplement and the corrector, the supplement and correction time, the supplement and the correction content are recorded for easy reference.
  • the supplementary method and content are, for example, providing an input box for the user to input the theme of the meeting, a summary of the problem, a conclusion of the meeting, and the like, so that others can quickly understand the content of the meeting;
  • the corrected content is, for example, a text error in the text record, or it may be replaced with some information.
  • the entire conference process recognizes that there are 3 participants speaking, and a pop-up prompt box prompts the user whether to "participant A, B". Replace the identity tags of C and C with their real names.
  • the invention also proposes a method for converting audio and video data into a text record.
  • the method flow chart is shown in FIG. 3 and comprises the following steps:
  • Step S21 data collection:
  • the microphone collects the audio data of the currently speaking participant, and judges whether the currently speaking participant is speaking or pause according to the intensity of the collected audio data, and if the pause exceeds a certain time (for example, 3s), the participant is considered to be present. Ending the speech, recording the start time and end time of the audio data of the currently speaking participant, and transmitting the audio data of the currently speaking participant together with the start time (and the end time) and the device identifier of the microphone to the data identification. step.
  • the device identifier of the transmitting microphone is used to distinguish different meeting parties in a multi-party conference;
  • the camera is used to capture the image of the currently speaking participant.
  • the camera collects the image of the currently speaking participant, and according to the collected image, determines whether the currently speaking participant is speaking or pauses, if the pause is more than a certain time (for example, 3s), the participant is considered to have finished speaking, and the start time and end time of the participant who is currently speaking are recorded.
  • the acquired image is transmitted to the data identification step along with the start time (which may also be added to the end time) and the device identifier of the camera.
  • the device identifier of the transmitting camera is used to distinguish different meeting parties in a multi-party conference.
  • the microphone and the camera adopt the same standard time.
  • the start time may also add the end time
  • the device identifier of the camera using the expression recognition technology to process the captured image, identifying the expression of the currently speaking participant, and obtaining the emotion of the participant at that time. And using the face recognition technology to process the captured image to identify the participant currently speaking.
  • the voiceprint recognition technology can identify the voiceprint feature data of the currently speaking participant, and the face recognition technology can identify the facial feature data of the currently speaking participant. Therefore, the voice and voiceprint recognition module according to the voiceprint feature data and The face and expression recognition module can identify and distinguish different participants based on the facial feature data. In addition, the voice and voiceprint recognition module utilizes the device identifier of the microphone and the face and expression recognition module to identify and distinguish different conference parties using the device identifier of the camera.
  • the voice and voiceprint recognition module and the face and expression recognition module assign a unique identity tag to each speaker in the process, for example, when a party is in a conference, "Participant A”, “Participant B", Participant C is assigned to the participant as an identity tag.
  • participants can be assigned to the participant by using the participant A1, participant B2, and participant C1.
  • One character "A”, “B”, “C” represents each meeting party, second
  • the bit characters "1" and "2" represent a participant in a conference party.
  • the voice and voiceprint recognition module and the face and expression recognition module should assign the same identity tag to the same participant. For example, the voice and voiceprint recognition module and the face and the face can be based on the received start time.
  • the identity tags of the participants identified by the expression recognition module are unified.
  • a data table including the identity tag, the voiceprint feature data, and the face feature data of the participant may be established, and the information of the participant who is speaking is recorded, and the identity tag of the same participant is unique and guaranteed.
  • the voiceprint feature data and the face feature data are consistent with the identity tags of the corresponding participants.
  • the voiceprint feature data and the face feature data can be obtained by voiceprint recognition technology and face recognition technology, for example, a face recognition technology by using a 21-point model to locate a position, and the features of the face can be described by these key points, and the accuracy can be obtained. Up to 96%.
  • the data is organized according to a certain format to generate an identifier including the start time, the identity of the participant, and the participant.
  • the transcript of emotional and textual information is saved in the form of a dialogue.
  • the organizational format can be, for example:
  • the aforementioned records can be integrated into:
  • Step S24 data supplementation and correction
  • Complement and correct the transcripts saved in the data organization step to improve the readability of the transcript and ensure the correctness of the transcript.
  • an interface and a prompt for facilitating the user to supplement and correct the saved text record are provided, and the name of the supplement and the corrector, the supplement and correction time, the supplement and the correction content are recorded for easy reference.
  • the supplementary method and content are, for example, providing an input box for the user to input the theme of the meeting, a summary of the problem, a conclusion of the meeting, and the like, so that others can quickly understand the content of the meeting;
  • the corrected content is, for example, a text error in the text record, or it may be replaced with some information.
  • the entire conference process recognizes that there are 3 participants speaking, and a pop-up prompt box prompts the user whether to "participant A, B". Replace the identity tags of C and C with their real names.
  • the invention also proposes a method for converting audio and video data into a text record.
  • the method flow chart is as shown in FIG. 4 and includes the following steps:
  • participant list includes a unique identity tag of the participant, and further includes voiceprint feature data and facial feature data of the participant to be subsequently acquired;
  • Each participant is given a unique identity tag. For example, when a party is in a conference, it can be assigned to the participant by using Participant A, Participant B, and Participant C as the identity tag.
  • the participant ID is assigned to the participant by using the participant A1, the participant B2, the participant C1, and the like.
  • the first characters “A”, “B”, and “C” in the tag represent the conference parties.
  • the second character "1", "2" represents a participant in a conference party.
  • Step S31 When the participant starts speaking, the microphone captures the voice input of the currently speaking participant to obtain the audio data of the currently speaking participant, and records the start time of the currently speaking participant audio data; and the camera captures the current speaking participant's The image obtains video data of the currently speaking participant, and records the start time of the currently speaking participant video data;
  • Step S32 analyzing and processing the audio data of the currently speaking participant obtained by the microphone using voiceprint recognition technology, and performing voiceprint feature recognition; analyzing and processing the video data of the currently speaking participant obtained by the camera using the face recognition technology, And performing facial feature recognition;
  • Step S33 determining whether the voiceprint feature data is successfully recognized and whether the facial feature data is successfully recognized. If the voiceprint feature data and/or the face feature data are successfully recognized, the process proceeds to step S34; if the voiceprint is not successfully recognized Feature data and facial feature data, proceed to step S35;
  • Step S34 determining whether there is already a participant in the participant list that matches the voiceprint feature data and/or the facial feature data, and if yes, proceeding to step S35, and supplementing the relevant information of the participant (ie, If there are only voiceprint feature data in the participant list If there is no facial feature data, the facial feature data is supplemented; if only the facial feature data exists in the participant list without the voiceprint feature data, the voiceprint feature data is supplemented; if not, the participant list is added a new entry, save the identity tag, voiceprint feature data and face feature data of the new participant, and proceeds to step S35;
  • Step S35 analyzing and processing the audio data by using a voice recognition technology, and performing an operation of converting the audio data into characters;
  • Step S36 determining whether the audio data is successfully converted into text, if yes, proceeding to step S37; if not, returning to step S35 to continue the conversion operation;
  • Step S37 analyzing and processing the video data by using the expression recognition technology to obtain the emotion of the currently speaking participant;
  • Step S38 Obtain the current date and time
  • Step S39 Organizing the date, time, the identity tag of the participant matching the voiceprint and/or facial feature data, the voice recognition character, and the emotion of the expression recognition into a dialogue record in the form of a dialogue, and saving in the created file address. ;
  • the format can be, for example:
  • the aforementioned records can be integrated into:
  • Step S40 Returning to step S31 to continue execution, the content of the speech of the different participants is saved until the entire conference ends.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

一种将音视频数据转化成文字记录的系统和方法,其中系统包括数据收集部分、数据识别部分以及数据组织部分;数据收集部分包括音频采集模块和视频采集模块;数据识别部分包括语音和声纹识别模块以及人脸和表情识别模块;数据组织部分根据文字信息、识别的开始时间、当前说话者的身份标签、当前说话者的情绪,生成文字记录。该系统和方法可以更加细致完整地保存整个音视频数据过程,更贴近真实的情况;将音视频数据转换为文本格式进行保存,大大降低了存储和传输的成本,也便于后续查看记录,可以更加快速地浏览和定位会议内容。

Description

一种将音视频数据转化成文字记录的系统和方法 技术领域
本发明涉及一种数据处理技术,具体涉及一种将音视频数据转化成文字记录的系统和方法。
背景技术
在召开音视频会议时,为了记录会议内容,通常使用摄像头采集视频数据和麦克风采集音频数据或者仅使用麦克风采集音频数据,将音视频数据或音频数据保存成多媒体文件,存储到存储设备中;通过播放多媒体文件,可以观看或收听到会议内容。或者可以由专门的会议记录员通过计算机等输入设备或者手写方式进行笔录,记录下会议内容。
采用摄像头、麦克风等设备记录音视频数据的方式,需要将音视频文件存储到存储设备中,因此需要占用较大的存储空间,成本较高,并且后期是通过播放多媒体文件来查看会议内容,不能快速浏览和定位到具体的话题上,因此需要花费较多的时间,并且可能会出现内容的遗漏,导致效率低下。采用笔录的方式记录会议内容虽然有助于快速浏览和定位具体话题,但对记录员的要求较高,如果记录速度远低于会议中讨论的速度,就容易遗漏和出错,导致内容不够完整和细致,并且在后续查看记录无法还原当时的情景。
现有技术公开了一种汉语外语有声影像资料双向可逆语音转换并加注字幕的方法,通过识别有声影像资料,将其中的语音识别成文本,并 将文本翻译成指定的外文,以字幕的形式叠加在画面上,与原来的语音一起存储或同步输出,从而使有声影像资料变成带有指定外文字幕的有声影像资料。但该方法只是简单地将语音识别成文本,并将文本翻译成指定外文后以字幕的形式在画面上同步显示,但没有根据说话者的不同而将字幕组织成更加贴近真实情况的内容。
发明内容
为了解决上述记录的会议内容不完整和细致,并且在后续查看记录无法还原当时的情景的技术问题,本发明提供了一种将音视频数据转化成文字记录的系统和方法,技术方案如下。
一种将音视频数据转化成文字记录的系统,包括数据收集部分、数据识别部分以及数据组织部分;
所述数据收集部分包括音频采集模块和视频采集模块;
所述音频采集模块用于捕获当前说话者的音频数据,并记录其说话的开始时间;
所述视频采集模块用于捕获当前说话者的图像,并记录其说话的开始时间;
所述数据识别部分包括语音和声纹识别模块以及人脸和表情识别模块;
所述语音和声纹识别模块对所述音频采集模块捕获的音频数据进行处理,将其转化成文本格式的文字信息,并对所述音频采集模块捕获的音频数据进行处理,用以识别当前说话者,并对每个说话者赋予一个身份标签;
所述人脸和表情识别模块利用表情识别技术对所述视频采集模块捕获的图像进行处理,识别当前说话者的表情,获得该说话者的情绪,并 对所述视频采集模块捕获的图像进行处理,用以识别当前说话者,并对每个说话者赋予一个身份标签;
所述数据组织部分根据所述文字信息、识别的开始时间、当前说话者的身份标签以及当前说话者的情绪,生成文字记录。
进一步地,所述文字记录为对话形式的文字记录。
进一步地,所述系统还包括数据补充和修正部分,所述数据补充和修正部分用于对所述文字记录进行补充和修正。
进一步地,所述音频采集模块为麦克风,和/或,所述视频采集模块为摄像头。
进一步地,所述系统还包括存储模块,所述存储模块存储有记录包含说话者的身份标签、声纹特征数据和脸部特征数据的数据表。
一种将音视频数据转化成文字记录的方法,包括以下步骤:
步骤S21、数据收集:捕获当前说话者的音频数据和当前说话者的图像,并记录其说话的开始时间;
步骤S22、数据识别:对捕获的音频数据进行处理,将其转化成文本格式的文字信息;对捕获的图像进行处理,识别当前说话者的表情,获得该说话者的情绪;对捕获的音频数据和/或对捕获的图像进行处理,用以识别当前说话者,并为每个说话者赋予一个身份标签;
步骤23、数据组织:所述数据组织部分根据所述文字信息、识别的开始时间、当前说话者的身份标签以及当前说话者的情绪,生成文字记录。
进一步地,所述文字记录为对话形式的文字记录。
进一步地,所述方法还包括步骤S24、数据补充和修正:对所述文字记录进行补充和修正。
进一步地,所述身份标签与说话者的声纹特征数据和/或脸部特征数 据相关联地存储在存储模块中,在对每个说话者赋予身份标签前,先查找该存储模块中是否已经存储有与该说话者匹配的身份标签,如果没有查找到,则赋予该说话者一个身份标签。
一种将音视频数据转化成文字记录的方法,包括以下步骤:
步骤S30、准备工作:启动麦克风和摄像头,创建说话者列表,创建保存文本的文件地址,其中说话者列表的项目包括说话者的唯一的身份标签、说话者的声纹特征数据和脸部特征数据;
步骤S31:捕获数据:说话者开始发言时,麦克风捕获当前发言的说话者的语音输入获得当前发言的说话者的音频数据,记录当前发言的与会者音频数据的开始时间;同时摄像头捕获当前发言的说话者的图像获得当前发言的说话者的视频数据,记录当前发言的与会者视频数据的开始时间;
步骤S32:使用声纹识别技术分析和处理麦克风获取的当前发言的说话者的音频数据,并进行声纹特征识别;使用人脸识别技术分析和处理摄像头获取的当前发言的说话者的视频数据,并进行脸部特征识别;
步骤S33:判断是否成功识别到声纹特征数据以及是否成功识别到脸部特征数据,如果成功识别到声纹特征数据和/或脸部特征数据,则进入步骤S34;如果未成功识别到声纹特征数据和脸部特征数据,则进入步骤S35;
步骤S34:判断说话者列表中是否已经存在与该声纹特征数据和/或该脸部特征数据相匹配的说话者,如果存在,则进入步骤S35,同时补充完整该说话者的相关信息;如果不存在,则在说话者列表中加入新条目,保存新说话者的身份标签、声纹特征数据和脸部特征数据,同时进入步骤S35;
步骤S35:使用语音识别技术分析处理音频数据,进行音频数据转化 成文字的操作;
步骤S36:判断音频数据是否成功转化成文字,如果是,则进入步骤S37;如果否,则返回步骤S35继续进行转化操作;
步骤S37:使用表情识别技术分析处理视频数据,获取当前发言的说话者的情绪;
步骤S38:获取当前的日期和时间;
步骤S39:将日期、时间、匹配声纹和/或脸部特征数据的说话者的身份标签、语音识别的文字、表情识别的情绪组织成对话形式的文字记录,并保存在创建的文件地址中;
步骤S40:返回步骤S31继续执行,保存不同说话者发言的内容,直到会话过程结束。
本发明的有益效果:
本发明更加细致完整地保存整个音视频数据过程,更贴近真实的情况;本发明将音视频数据转换为文本格式进行保存,大大降低了存储和传输的成本,也便于后续查看记录,可以更加快速地浏览和定位会议内容。
本发明利用声纹识别技术、人脸识别技术,识别出不同的与会者;并将语音识别技术和表情识别技术得到的文本内容进行整理和组织,形成对话形式的文字记录。
本发明提供方便用户进行补充修正记录的接口,以保证文字记录的正确性,提高可读性。
附图说明
图1是本发明提出的将音视频数据转化成文字记录的系统的结构框图;
图2是本发明提出的将音视频数据转化成文字记录的系统的结构示意图;
图3本发明提出的将音视频数据转化成文字记录的方法的第一种流程图;
图4本发明提出的将音视频数据转化成文字记录的方法的第二种流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。实施例中以视频会议录像为例进行说明,但本领域技术人员知晓,该方法可用在所有视频影像中,并不局限于附图和以下实施例。
本发明需要利用语音识别技术、声纹识别技术、人脸识别技术、表情识别技术等公知技术,用于获取必要的数据。现有的各个识别技术已经相对完善,可以实现“与文本无关的声纹识别”、“脸部跟踪”、“脸部动作识别”、“表情变化识别”等,本发明不再对这些技术做详细的描述和说明。本发明提出的将音视频数据转化成文字记录的系统和方法根据这些数据能够将音视频数据组织成完整又形象的对话形式的文字记录。
实施例1:
如图1和图2所示,本发明提出的将音视频数据转化成文字记录的系统包括数据收集部分、数据识别部分、数据组织部分以及数据补充和修正部分。
数据收集部分包括麦克风、摄像头等数据采集装置。
麦克风用于捕获当前发言的与会者的音频数据,与会者开始发言时,麦克风采集当前发言的与会者的音频数据,根据采集到的音频数据的强 度大小判断当前发言的与会者正在发言还是停顿,如果停顿超过一定时间(例如3s)则认为该与会者发言结束,记录当前发言的与会者音频数据的开始时间和结束时间,将当前发言的与会者的音频数据连同开始时间(也可以加上结束时间)以及麦克风的设备标识符一起传送给数据识别部分。其中传送麦克风的设备标识符的作用是为了在多方会议时用以区分不同的会议方。
摄像头用于捕获当前发言的与会者的图像,与会者开始发言时,摄像头采集当前发言的与会者的图像,根据采集到的图像判断当前发言的与会者正在发言还是停顿,如果停顿超过一定时间(例如3s)则认为该与会者发言结束,记录当前发言的与会者发言的起始时间和结束时间,将采集的图像连同开始时间(也可以加上结束时间)以及摄像头的设备标识符一起传送给数据识别部分。其中传送摄像头的设备标识符的作用是为了在多方会议时用以区分不同的会议方。
其中,为了保证麦克风和摄像头记录的时间一致,麦克风和摄像头采用相同的标准时间。
数据识别部分包括语音和声纹识别模块以及人脸和表情识别模块。
语音和声纹识别模块接收麦克风捕获的音频数据、开始时间(也可以加上结束时间)以及麦克风的设备标识符;利用语音识别技术对捕获的音频数据进行处理,将音频格式的音频数据转化成文本格式的文字信息,并利用声纹识别技术对捕获的音频数据进行处理,用以识别当前发言的与会者。
人脸和表情识别模块接收摄像头捕获的图像、开始时间(也可以加上结束时间)以及摄像头的设备标识符,利用表情识别技术对捕获的图像进行处理,识别当前发言的与会者的表情,获得该与会者当时的情绪,并利用人脸识别技术对捕获的图像进行处理,用以识别当前发言的与会 者。
利用声纹识别技术可以识别当前发言的与会者的声纹特征数据,利用人脸识别技术可以识别当前发言的与会者的脸部特征数据,因此,语音和声纹识别模块根据声纹特征数据以及人脸和表情识别模块根据脸部特征数据可以识别和区分出不同的与会者。另外,语音和声纹识别模块利用麦克风的设备标识符以及人脸和表情识别模块利用摄像头的设备标识符可以识别和区分出不同的会议方。
语音和声纹识别模块以及人脸和表情识别模块在处理过程中给每个发言的与会者赋予唯一的身份标签,例如:一方会议时,可以用“与会者A”、“与会者B”、“与会者C”等作为身份标签赋给与会者;多方会议时,可以用“与会者A1”、“与会者B2”、“与会者C1”等作为身份标签赋给与会者,其中标签中第一位字符“A”、“B”、“C”代表各会议方,第二位字符“1”、“2”代表某会议方中的某位与会者。为了方便数据组织部分组织文字记录,语音和声纹识别模块以及人脸和表情识别模块对同一与会者赋予的身份标签应当相同,例如,可以根据接收到的开始时间将语音和声纹识别模块以及人脸和表情识别模块识别出的与会者的身份标签进行统一。
为了便于查找和管理,可以建立记录包含与会者的身份标签、声纹特征数据和脸部特征数据的数据表,用于记录发言的与会者的信息,该数据表存储在存储模块(图中未示出)中。声纹特征数据和脸部特征数据通过声纹识别技术和人脸识别技术可以得到,例如通过21点模型定位位置的人脸识别技术,通过这些关键点就可以描述脸部的特征,精确度可达到96%。
数据组织部分根据数据识别部分处理得到的文字信息、开始时间、与会者的身份标签、与会者的情绪等数据,按照一定的格式将这些数据 组织起来,生成包含开始时间、与会者的身份标签、与会者的情绪和文字信息的文字记录并保存。
为了便于查看,不同与会者的内容换行记录。
组织格式例如可以是:
【日期】
【时分秒】【与会者】(【情绪】):“【文本】”
【日期】
【时分秒】【与会者】(【情绪】):“【文本】”
……
上述组织格式中,符号“【】”表示从前述各部分获得的内容;
符号“()”表示是该内容为可选内容,有数据就添加;
符号“:”表示其后为发言的内容。
例如:
2016年11月15日
09:24:12与会者A:“我们先讨论问题a”
2016年11月15日
09:24:16与会者B(生气):“问题a已经讨论过了,应该讨论问题b”
……
为了精简记录内容,可以将同个日期的内容进行整合,例如前述的记录可以整合为:
2016年11月15日
09:24:12与会者A:“我们先讨论问题a”
09:24:16与会者B(生气):“问题a已经讨论过了,应该讨论问题b”
……
数据补充和修正部分用于对数据组织部分保存的文字记录进行补充和修正,以提高文字记录的可读性,保证文字记录的正确性。例如提供方便用户对保存的文字记录进行补充和修正的界面和提示,并将补充和修正者的姓名、补充和修正时间、补充和修正内容进行记录,便于查阅。
补充的方式和内容例如为:提供输入框让用户输入会议的主题、问题的摘要、会议结论等信息,方便他人快速了解会议内容;
修正的内容例如为文字记录中的文字错误,也可以为替换某些信息,例如:整个会议过程识别到有3个与会者发言,此时弹出提示框提示用户是否需要将“与会者A、B、C”的身份标签替换成各自真实的名字。
实施例2:
本发明还提出了一种将音视频数据转化成文字记录的方法,该方法流程图如图3所示,包括以下步骤:
步骤S21、数据收集:
与会者开始发言时,麦克风采集当前发言的与会者的音频数据,根据采集到的音频数据的强度大小判断当前发言的与会者正在发言还是停顿,如果停顿超过一定时间(例如3s)则认为该与会者发言结束,记录当前发言的与会者音频数据的开始时间和结束时间,将当前发言的与会者的音频数据连同开始时间(也可以加上结束时间)以及麦克风的设备标识符一起传送给数据识别步骤。其中传送麦克风的设备标识符的作用是为了在多方会议时用以区分不同的会议方;
摄像头用于捕获当前发言的与会者的图像,与会者开始发言时,摄像头采集当前发言的与会者的图像,根据采集到的图像判断当前发言的与会者正在发言还是停顿,如果停顿超过一定时间(例如3s)则认为该与会者发言结束,记录当前发言的与会者发言的起始时间和结束时间, 将采集的图像连同开始时间(也可以加上结束时间)以及摄像头的设备标识符一起传送给数据识别步骤。其中传送摄像头的设备标识符的作用是为了在多方会议时用以区分不同的会议方。
其中,为了保证麦克风和摄像头记录的时间一致,麦克风和摄像头采用相同的标准时间。
步骤S22、数据识别:
接收麦克风捕获的音频数据、开始时间(也可以加上结束时间)以及麦克风的设备标识符;利用语音识别技术对捕获的音频数据进行处理,将音频格式的音频数据转化成文本格式的文字信息,并利用声纹识别技术对捕获的音频数据进行处理,用以识别当前发言的与会者。
接收摄像头捕获的图像、开始时间(也可以加上结束时间)以及摄像头的设备标识符,利用表情识别技术对捕获的图像进行处理,识别当前发言的与会者的表情,获得该与会者当时的情绪,并利用人脸识别技术对捕获的图像进行处理,用以识别当前发言的与会者。
利用声纹识别技术可以识别当前发言的与会者的声纹特征数据,利用人脸识别技术可以识别当前发言的与会者的脸部特征数据,因此,语音和声纹识别模块根据声纹特征数据以及人脸和表情识别模块根据脸部特征数据可以识别和区分出不同的与会者。另外,语音和声纹识别模块利用麦克风的设备标识符以及人脸和表情识别模块利用摄像头的设备标识符可以识别和区分出不同的会议方。
语音和声纹识别模块以及人脸和表情识别模块在处理过程中给每个发言的与会者赋予唯一的身份标签,例如:一方会议时,可以用“与会者A”、“与会者B”、“与会者C”等作为身份标签赋给与会者;多方会议时,可以用“与会者A1”、“与会者B2”、“与会者C1”等作为身份标签赋给与会者,其中标签中第一位字符“A”、“B”、“C”代表各会议方,第二 位字符“1”、“2”代表某会议方中的某位与会者。为了方便组织文字信息,语音和声纹识别模块以及人脸和表情识别模块对同一与会者赋予的身份标签应当相同,例如,可以根据接收到的开始时间将语音和声纹识别模块以及人脸和表情识别模块识别出的与会者的身份标签进行统一。
为了便于查找和管理,可以建立记录包含与会者的身份标签、声纹特征数据和脸部特征数据的数据表,用于记录发言的与会者的信息,保证同一与会者的身份标签唯一,并且保证声纹特征数据和脸部特征数据与相应的与会者的身份标签对应一致。声纹特征数据和脸部特征数据通过声纹识别技术和人脸识别技术可以得到,例如通过21点模型定位位置的人脸识别技术,通过这些关键点就可以描述脸部的特征,精确度可达到96%。
步骤S23、数据组织:
根据数据识别步骤处理得到的文字信息、开始时间、与会者的身份标签、与会者的情绪等数据,按照一定的格式将这些数据组织起来,生成包含开始时间、与会者的身份标签、与会者的情绪和文字信息的文字记录并以对话的形式进行保存。
为了便于查看,不同与会者的内容换行记录。
组织格式例如可以是:
【日期】
【时分秒】【与会者】(【情绪】):“【文本】”
【时分秒】【与会者】(【情绪】):“【文本】”
……
上述组织格式中,符号“【】”表示从前述各步骤获得的内容;
符号“()”表示是该内容为可选内容,有数据就添加;
符号“:”表示其后为发言的内容。
例如:
2016年11月15日
09:24:12与会者A:“我们先讨论问题a”
2016年11月15日
09:24:16与会者B(生气):“问题a已经讨论过了,应该讨论问题b”
……
为了精简记录内容,节约存储空间,可以将同个日期的内容进行整合,例如前述的记录可以整合为:
2016年11月15日
09:24:12与会者A:“我们先讨论问题a”
09:24:16与会者B(生气):“问题a已经讨论过了,应该讨论问题b”
……
步骤S24、数据补充和修正
对数据组织步骤保存的文字记录进行补充和修正,以提高文字记录的可读性,保证文字记录的正确性。例如提供方便用户对保存的文字记录进行补充和修正的界面和提示,并将补充和修正者的姓名、补充和修正时间、补充和修正内容进行记录,便于查阅。
补充的方式和内容例如为:提供输入框让用户输入会议的主题、问题的摘要、会议结论等信息,方便他人快速了解会议内容;
修正的内容例如为文字记录中的文字错误,也可以为替换某些信息,例如:整个会议过程识别到有3个与会者发言,此时弹出提示框提示用户是否需要将“与会者A、B、C”的身份标签替换成各自真实的名字。
实施例3:
本发明还提出了一种将音视频数据转化成文字记录的方法,该方法流程图如图4所示,包括以下步骤:
步骤S30、准备工作:
启动麦克风和摄像头,创建与会者列表,创建保存文本的文件地址,其中与会者列表包括与会者的唯一的身份标签,还包括后续要采集的与会者的声纹特征数据和脸部特征数据;
每个与会者被赋予唯一的身份标签,例如:一方会议时,可以用“与会者A”、“与会者B”、“与会者C”等作为身份标签赋给与会者;多方会议时,可以用“与会者A1”、“与会者B2”、“与会者C1”等作为身份标签赋给与会者,其中标签中第一位字符“A”、“B”、“C”代表各会议方,第二位字符“1”、“2”代表某会议方中的某位与会者。
步骤S31:与会者开始发言时,麦克风捕获当前发言的与会者的语音输入获得当前发言的与会者的音频数据,记录当前发言的与会者音频数据的开始时间;同时摄像头捕获当前发言的与会者的图像获得当前发言的与会者的视频数据,记录当前发言的与会者视频数据的开始时间;
步骤S32:使用声纹识别技术分析和处理麦克风获取的当前发言的与会者的音频数据,并进行声纹特征识别;使用人脸识别技术分析和处理摄像头获取的当前发言的与会者的视频数据,并进行脸部特征识别;
步骤S33:判断是否成功识别到声纹特征数据以及是否成功识别到脸部特征数据,如果成功识别到声纹特征数据和/或脸部特征数据,则进入步骤S34;如果未成功识别到声纹特征数据和脸部特征数据,则进入步骤S35;
步骤S34:判断与会者列表中是否已经存在与该声纹特征数据和/或该脸部特征数据相匹配的与会者,如果存在,则进入步骤S35,同时补充完整该与会者的相关信息(即如果与会者列表中仅存在声纹特征数据而 没有脸部特征数据,则补充脸部特征数据;如果与会者列表中仅存在脸部特征数据而没有声纹特征数据,则补充声纹特征数据);如果不存在,则在与会者列表中加入新条目,保存新与会者的身份标签、声纹特征数据和脸部特征数据,同时进入步骤S35;
步骤S35:使用语音识别技术分析处理音频数据,进行音频数据转化成文字的操作;
步骤S36:判断音频数据是否成功转化成文字,如果是,则进入步骤S37;如果否,则返回步骤S35继续进行转化操作;
步骤S37:使用表情识别技术分析处理视频数据,获取当前发言的与会者的情绪;
步骤S38:获取当前的日期和时间;
步骤S39:将日期、时间、匹配声纹和/或脸部特征数据的与会者的身份标签、语音识别的文字、表情识别的情绪组织成对话形式的文字记录,并保存在创建的文件地址中;
所述格式例如可以是:
【日期】
【时分秒】【与会者】(【情绪】):“【文本】”
【时分秒】【与会者】(【情绪】):“【文本】”
……
上述组织格式中,符号“【】”表示从前述各步骤获得的内容;
符号“()”表示是该内容为可选内容,有数据就添加;
符号“:”表示其后为发言的内容。
例如:
2016年11月15日
09:24:12与会者A:“我们先讨论问题a”
2016年11月15日
09:24:16与会者B(生气):“问题a已经讨论过了,应该讨论问题b”
……
为了精简记录内容,节约存储空间,可以将同个日期的内容进行整合,例如前述的记录可以整合为:
2016年11月15日
09:24:12与会者A:“我们先讨论问题a”
09:24:16与会者B(生气):“问题a已经讨论过了,应该讨论问题b”
……
步骤S40:返回步骤S31继续执行,保存不同与会者发言的内容,直到整个会议结束。
以上,对本发明的实施方式进行了说明。但是,本发明不限定于上述实施方式。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

  1. 一种将音视频数据转化成文字记录的系统,其特征在于,包括数据收集部分、数据识别部分以及数据组织部分;
    所述数据收集部分包括音频采集模块和视频采集模块;
    所述音频采集模块用于捕获当前说话者的音频数据,并记录其说话的开始时间;
    所述视频采集模块用于捕获当前说话者的图像,并记录其说话的开始时间;
    所述数据识别部分包括语音和声纹识别模块以及人脸和表情识别模块;
    所述语音和声纹识别模块对所述音频采集模块捕获的音频数据进行处理,将其转化成文本格式的文字信息,并对所述音频采集模块捕获的音频数据进行处理,用以识别当前说话者,并对每个说话者赋予一个身份标签;
    所述人脸和表情识别模块利用表情识别技术对所述视频采集模块捕获的图像进行处理,识别当前说话者的表情,获得该说话者的情绪,并对所述视频采集模块捕获的图像进行处理,用以识别当前说话者,并对每个说话者赋予一个身份标签;
    所述数据组织部分根据所述文字信息、识别的开始时间、当前说话者的身份标签以及当前说话者的情绪,生成文字记录。
  2. 根据权利要求1所述的系统,其特征在于,所述文字记录为对话形式的文字记录。
  3. 根据权利要求1或2所述的系统,其特征在于,所述系统还包括数据补充和修正部分,所述数据补充和修正部分用于对所述文字记录进行补充和修正。
  4. 根据权利要求1或2所述的系统,其特征在于,所述音频采集模块为麦克风,和/或,所述视频采集模块为摄像头。
  5. 根据权利要求1或2所述的系统,其特征在于,所述系统还包括存储模块,所述存储模块存储有记录包含说话者的身份标签、声纹特征数据和脸部特征数据的数据表。
  6. 一种将音视频数据转化成文字记录的方法,其特征在于,包括以下步骤:
    步骤S21、数据收集:捕获当前说话者的音频数据和当前说话者的图像,并记录其说话的开始时间;
    步骤S22、数据识别:对捕获的音频数据进行处理,将其转化成文本格式的文字信息;对捕获的图像进行处理,识别当前说话者的表情,获得该说话者的情绪;对捕获的音频数据和/或对捕获的图像进行处理,用以识别当前说话者,并为每个说话者赋予一个身份标签;
    步骤23、数据组织:所述数据组织部分根据所述文字信息、识别的开始时间、当前说话者的身份标签以及当前说话者的情绪,生成文字记录。
  7. 根据权利要求6所述的方法,其特征在于,所述文字记录为对话形式的文字记录。
  8. 根据权利要求6或7所述的方法,其特征在于,所述方法还包括步骤S24、数据补充和修正:对所述文字记录进行补充和修正。
  9. 根据权利要求6或7所述的方法,其特征在于,所述身份标签与说话者的声纹特征数据和/或脸部特征数据相关联地存储在存储模块中,在对每个说话者赋予身份标签前,先查找该存储模块中是否已经存储有与该说话者匹配的身份标签,如果没有查找到,则赋予该说话者一个身份标签。
  10. 一种将音视频数据转化成文字记录的方法,其特征在于,包括以下步骤:
    步骤S30、准备工作:启动麦克风和摄像头,创建说话者列表,创建保存文本的文件地址,其中说话者列表的项目包括说话者的唯一的身份标签、说话者的声纹特征数据和脸部特征数据;
    步骤S31:捕获数据:说话者开始发言时,麦克风捕获当前发言的说话者的语音输入获得当前发言的说话者的音频数据,记录当前发言的与会者音频数据的开始时间;同时摄像头捕获当前发言的说话者的图像获得当前发言的说话者的视频数据,记录当前发言的与会者视频数据的开始时间;
    步骤S32:使用声纹识别技术分析和处理麦克风获取的当前发言的说话者的音频数据,并进行声纹特征识别;使用人脸识别技术分析和处理摄像头获取的当前发言的说话者的视频数据,并进行脸部特征识别;
    步骤S33:判断是否成功识别到声纹特征数据以及是否成功识别到脸部特征数据,如果成功识别到声纹特征数据和/或脸部特征数据,则进入步骤S34;如果未成功识别到声纹特征数据和脸部特征数据,则进入步骤S35;
    步骤S34:判断说话者列表中是否已经存在与该声纹特征数据和/或该脸部特征数据相匹配的说话者,如果存在,则进入步骤S35,同时补充完整该说话者的相关信息;如果不存在,则在说话者列表中加入新条目,保存新说话者的身份标签、声纹特征数据和脸部特征数据,同时进入步骤S35;
    步骤S35:使用语音识别技术分析处理音频数据,进行音频数据转化成文字的操作;
    步骤S36:判断音频数据是否成功转化成文字,如果是,则进入步骤S37;如果否,则返回步骤S35继续进行转化操作;
    步骤S37:使用表情识别技术分析处理视频数据,获取当前发言的说话者的情绪;
    步骤S38:获取当前的日期和时间;
    步骤S39:将日期、时间、匹配声纹和/或脸部特征数据的说话者的身份标签、语音识别的文字、表情识别的情绪组织成对话形式的文字记录,并保存在创建的文件地址中;
    步骤S40:返回步骤S31继续执行,保存不同说话者发言的内容,直到会话过程结束。
PCT/CN2017/077035 2016-12-16 2017-03-17 一种将音视频数据转化成文字记录的系统和方法 WO2018107605A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201611170040.6A CN106782545B (zh) 2016-12-16 2016-12-16 一种将音视频数据转化成文字记录的系统和方法
CN201611170040.6 2016-12-16

Publications (1)

Publication Number Publication Date
WO2018107605A1 true WO2018107605A1 (zh) 2018-06-21

Family

ID=58892306

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2017/077035 WO2018107605A1 (zh) 2016-12-16 2017-03-17 一种将音视频数据转化成文字记录的系统和方法

Country Status (2)

Country Link
CN (1) CN106782545B (zh)
WO (1) WO2018107605A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109525800A (zh) * 2018-11-08 2019-03-26 江西国泰利民信息科技有限公司 一种远程会议语音识别数据传输方法
CN109817245A (zh) * 2019-01-17 2019-05-28 深圳壹账通智能科技有限公司 会议纪要的生成方法、装置、计算机设备及存储介质
CN110838291A (zh) * 2018-08-16 2020-02-25 北京搜狗科技发展有限公司 一种输入方法、装置和电子设备
CN110853646A (zh) * 2019-11-20 2020-02-28 深圳前海微众银行股份有限公司 会议发言角色的区分方法、装置、设备及可读存储介质
CN111785271A (zh) * 2020-05-15 2020-10-16 深圳奥尼电子股份有限公司 语音识别处理方法及系统、电子设备
CN111860915A (zh) * 2020-07-31 2020-10-30 贵州东冠科技有限公司 基于监狱管理的亲情帮扶系统
CN111860523A (zh) * 2020-07-28 2020-10-30 上海兑观信息科技技术有限公司 一种声像档案的智能著录系统与方法
CN111899743A (zh) * 2020-07-31 2020-11-06 斑马网络技术有限公司 获取目标声音的方法、装置、电子设备及存储介质
EP3617946A4 (en) * 2018-07-02 2020-12-30 Beijing Baidu Netcom Science Technology Co., Ltd. CONTEXT ACQUISITION PROCESS AND DEVICE BASED ON VOICE INTERACTION
CN112185391A (zh) * 2020-09-30 2021-01-05 深圳供电局有限公司 一种用于客服笔录自动修改处理方法
CN114299953A (zh) * 2021-12-29 2022-04-08 湖北微模式科技发展有限公司 一种结合嘴部运动分析的话者角色区分方法与系统
CN116757646A (zh) * 2023-08-15 2023-09-15 成都市青羊大数据有限责任公司 一种教学综合管理系统

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019286B (zh) * 2017-07-19 2021-10-29 中国移动通信有限公司研究院 一种基于用户社交关系的表情推荐方法及装置
CN109285548A (zh) 2017-07-19 2019-01-29 阿里巴巴集团控股有限公司 信息处理方法、系统、电子设备、和计算机存储介质
CN107609045B (zh) * 2017-08-17 2020-09-29 深圳壹秘科技有限公司 一种会议记录生成装置及其方法
CN107818785A (zh) * 2017-09-26 2018-03-20 平安普惠企业管理有限公司 一种从多媒体文件中提取信息的方法及终端设备
CN107689225B (zh) * 2017-09-29 2019-11-19 福建实达电脑设备有限公司 一种自动生成会议记录的方法
CN107885723B (zh) * 2017-11-03 2021-04-09 广州杰赛科技股份有限公司 对话角色区分方法和系统
CN108062359B (zh) * 2017-11-28 2021-03-16 歌尔科技有限公司 一种机器人采访与撰稿的方法和采访与撰稿的机器人
CN107918771B (zh) * 2017-12-07 2023-11-24 河北工业大学 人物识别方法和佩戴式人物识别系统
CN109920428A (zh) * 2017-12-12 2019-06-21 杭州海康威视数字技术股份有限公司 一种笔录录入方法、装置、电子设备及存储介质
JP2019153099A (ja) * 2018-03-05 2019-09-12 コニカミノルタ株式会社 会議支援システム及び会議支援プログラム
CN110278398B (zh) * 2018-03-16 2022-01-21 杭州海康威视数字技术股份有限公司 数据存储方法、视频片段搜索方法、装置及电子设备
CN108256513A (zh) * 2018-03-23 2018-07-06 中国科学院长春光学精密机械与物理研究所 一种智能视频分析方法及智能视频记录系统
CN108764010A (zh) * 2018-03-23 2018-11-06 姜涵予 情绪状态确定方法及装置
CN108573033A (zh) * 2018-03-27 2018-09-25 中国科学院长春光学精密机械与物理研究所 基于人脸识别的电子人脉网建立方法及相关设备
CN108537508A (zh) * 2018-03-30 2018-09-14 上海爱优威软件开发有限公司 会议记录方法及系统
CN108922538B (zh) * 2018-05-29 2023-04-07 平安科技(深圳)有限公司 会议信息记录方法、装置、计算机设备及存储介质
CN110557678B (zh) * 2018-05-31 2022-05-03 北京百度网讯科技有限公司 视频处理方法、装置及设备
CN108810446A (zh) * 2018-06-07 2018-11-13 北京智能管家科技有限公司 一种视频会议的标签生成方法、装置、设备和介质
CN110661923A (zh) * 2018-06-28 2020-01-07 视联动力信息技术股份有限公司 一种在会议中记录发言信息的方法和装置
CN108986825A (zh) * 2018-07-02 2018-12-11 北京百度网讯科技有限公司 基于语音交互的上下文获取方法及设备
CN109150556A (zh) * 2018-07-31 2019-01-04 何镝 基于语音识别的多人远程会议记录系统
CN109118626B (zh) * 2018-08-08 2022-09-13 腾讯科技(深圳)有限公司 锁具的控制方法、装置、存储介质及电子装置
CN108712624A (zh) * 2018-08-08 2018-10-26 上海启诺信息科技有限公司 基于文字记录的录像存档装置及方法
CN110895575B (zh) * 2018-08-24 2023-06-23 阿里巴巴集团控股有限公司 一种音频处理方法及装置
CN109325737A (zh) * 2018-09-17 2019-02-12 态度国际咨询管理(深圳)有限公司 一种企业智能虚拟助理系统及其方法
CN109361825A (zh) * 2018-11-12 2019-02-19 平安科技(深圳)有限公司 会议纪要记录方法、终端及计算机存储介质
CN111291179B (zh) * 2018-12-06 2023-12-08 北京嘀嘀无限科技发展有限公司 一种对话分类方法、装置、电子设备及存储介质
CN109788232A (zh) * 2018-12-18 2019-05-21 视联动力信息技术股份有限公司 一种视频会议的会议记要记录方法、装置和系统
CN109817221B (zh) * 2018-12-26 2021-01-01 出门问问信息科技有限公司 多人视频方法、装置、设备及存储介质
CN109979458A (zh) * 2019-01-17 2019-07-05 平安科技(深圳)有限公司 基于人工智能的新闻采访稿自动生成方法及相关设备
WO2020154916A1 (zh) * 2019-01-29 2020-08-06 深圳市欢太科技有限公司 视频字幕合成方法、装置、存储介质及电子设备
CN110139062B (zh) * 2019-05-09 2022-10-18 平安科技(深圳)有限公司 一种视频会议记录的创建方法、装置及终端设备
CN110378226A (zh) * 2019-06-14 2019-10-25 平安科技(深圳)有限公司 基于远程庭审的图像处理方法、装置、计算机设备和存储介质
CN110232925A (zh) * 2019-06-28 2019-09-13 百度在线网络技术(北京)有限公司 生成会议记录的方法、装置和会议终端
CN110297907B (zh) * 2019-06-28 2022-03-08 谭浩 生成访谈报告的方法、计算机可读存储介质和终端设备
TWI764020B (zh) * 2019-07-24 2022-05-11 圓展科技股份有限公司 視訊會議系統及其方法
CN110196914B (zh) * 2019-07-29 2019-12-27 上海肇观电子科技有限公司 一种将人脸信息录入数据库的方法和装置
CN112584078B (zh) * 2019-09-27 2022-03-18 深圳市万普拉斯科技有限公司 视频通话方法、装置、计算机设备和存储介质
CN110674351A (zh) * 2019-10-09 2020-01-10 常州市小先信息技术有限公司 一种用于监控系统的音频数字标签检索系统及方法
CN111369384A (zh) * 2019-12-23 2020-07-03 国网河南省电力公司郑州供电公司 变电运维隐患全过程管控系统
CN111221987A (zh) * 2019-12-30 2020-06-02 秒针信息技术有限公司 混合音频标记方法和装置
CN111708912A (zh) * 2020-05-06 2020-09-25 深圳震有科技股份有限公司 视频会议记录查询处理方法、装置
CN111883123B (zh) * 2020-07-23 2024-05-03 平安科技(深圳)有限公司 基于ai识别的会议纪要生成方法、装置、设备及介质
CN112037791B (zh) * 2020-08-12 2023-01-13 广东电力信息科技有限公司 会议纪要转录方法、设备和存储介质
CN111968657B (zh) * 2020-08-17 2022-08-16 北京字节跳动网络技术有限公司 语音处理方法、装置、电子设备和计算机可读介质
CN111916053B (zh) * 2020-08-17 2022-05-20 北京字节跳动网络技术有限公司 语音生成方法、装置、设备和计算机可读介质
CN111938674A (zh) * 2020-09-07 2020-11-17 南京宇乂科技有限公司 一种对话的情绪识别控制系统
CN114333853A (zh) * 2020-09-25 2022-04-12 华为技术有限公司 一种音频数据的处理方法、设备和系统
CN112669847A (zh) * 2020-12-03 2021-04-16 安徽宝信信息科技有限公司 一种可用于会议记录自动编辑整理的智慧屏
CN115050375A (zh) * 2021-02-26 2022-09-13 华为技术有限公司 一种设备的语音操作方法、装置和电子设备
CN114023351B (zh) * 2021-12-17 2022-07-08 广东讯飞启明科技发展有限公司 一种基于嘈杂环境的语音增强方法及系统
CN114630069B (zh) * 2022-02-22 2024-10-29 东南大学 音视频优化方法、音频终端及存储介质
CN114745213B (zh) * 2022-04-11 2024-05-28 深信服科技股份有限公司 一种会议记录生成方法、装置及电子设备和存储介质
CN117577115B (zh) * 2024-01-15 2024-03-29 杭州讯意迪科技有限公司 一种智慧型无纸化会议系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298694A (zh) * 2011-06-21 2011-12-28 广东爱科数字科技有限公司 一种应用于远程信息服务的人机交互识别系统
CN103903074A (zh) * 2012-12-24 2014-07-02 华为技术有限公司 一种视频交流的信息处理方法及装置
US20150235654A1 (en) * 2011-06-17 2015-08-20 At&T Intellectual Property I, L.P. Speaker association with a visual representation of spoken content
CN104932665A (zh) * 2014-03-19 2015-09-23 联想(北京)有限公司 一种信息处理方法以及一种电子设备
CN105512348A (zh) * 2016-01-28 2016-04-20 北京旷视科技有限公司 用于处理视频和相关音频的方法和装置及检索方法和装置
CN106033339A (zh) * 2015-03-13 2016-10-19 联想(北京)有限公司 一种信息处理方法及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150235654A1 (en) * 2011-06-17 2015-08-20 At&T Intellectual Property I, L.P. Speaker association with a visual representation of spoken content
CN102298694A (zh) * 2011-06-21 2011-12-28 广东爱科数字科技有限公司 一种应用于远程信息服务的人机交互识别系统
CN103903074A (zh) * 2012-12-24 2014-07-02 华为技术有限公司 一种视频交流的信息处理方法及装置
CN104932665A (zh) * 2014-03-19 2015-09-23 联想(北京)有限公司 一种信息处理方法以及一种电子设备
CN106033339A (zh) * 2015-03-13 2016-10-19 联想(北京)有限公司 一种信息处理方法及电子设备
CN105512348A (zh) * 2016-01-28 2016-04-20 北京旷视科技有限公司 用于处理视频和相关音频的方法和装置及检索方法和装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3617946A4 (en) * 2018-07-02 2020-12-30 Beijing Baidu Netcom Science Technology Co., Ltd. CONTEXT ACQUISITION PROCESS AND DEVICE BASED ON VOICE INTERACTION
CN110838291A (zh) * 2018-08-16 2020-02-25 北京搜狗科技发展有限公司 一种输入方法、装置和电子设备
CN109525800A (zh) * 2018-11-08 2019-03-26 江西国泰利民信息科技有限公司 一种远程会议语音识别数据传输方法
CN109817245A (zh) * 2019-01-17 2019-05-28 深圳壹账通智能科技有限公司 会议纪要的生成方法、装置、计算机设备及存储介质
CN110853646A (zh) * 2019-11-20 2020-02-28 深圳前海微众银行股份有限公司 会议发言角色的区分方法、装置、设备及可读存储介质
CN110853646B (zh) * 2019-11-20 2023-11-03 深圳前海微众银行股份有限公司 会议发言角色的区分方法、装置、设备及可读存储介质
CN111785271A (zh) * 2020-05-15 2020-10-16 深圳奥尼电子股份有限公司 语音识别处理方法及系统、电子设备
CN111860523A (zh) * 2020-07-28 2020-10-30 上海兑观信息科技技术有限公司 一种声像档案的智能著录系统与方法
CN111860523B (zh) * 2020-07-28 2024-04-30 上海兑观信息科技技术有限公司 一种声像档案的智能著录系统与方法
CN111899743A (zh) * 2020-07-31 2020-11-06 斑马网络技术有限公司 获取目标声音的方法、装置、电子设备及存储介质
CN111860915A (zh) * 2020-07-31 2020-10-30 贵州东冠科技有限公司 基于监狱管理的亲情帮扶系统
CN112185391A (zh) * 2020-09-30 2021-01-05 深圳供电局有限公司 一种用于客服笔录自动修改处理方法
CN114299953A (zh) * 2021-12-29 2022-04-08 湖北微模式科技发展有限公司 一种结合嘴部运动分析的话者角色区分方法与系统
CN116757646A (zh) * 2023-08-15 2023-09-15 成都市青羊大数据有限责任公司 一种教学综合管理系统
CN116757646B (zh) * 2023-08-15 2023-11-10 成都市青羊大数据有限责任公司 一种教学综合管理系统

Also Published As

Publication number Publication date
CN106782545A (zh) 2017-05-31
CN106782545B (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
WO2018107605A1 (zh) 一种将音视频数据转化成文字记录的系统和方法
CN106657865B (zh) 会议纪要的生成方法、装置及视频会议系统
US11699456B2 (en) Automated transcript generation from multi-channel audio
CN107911646B (zh) 一种会议分享、生成会议记录的方法及装置
US11431517B1 (en) Systems and methods for team cooperation with real-time recording and transcription of conversations and/or speeches
US6687671B2 (en) Method and apparatus for automatic collection and summarization of meeting information
KR20070118038A (ko) 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램
US8315866B2 (en) Generating representations of group interactions
CN109003608A (zh) 庭审控制方法、系统、计算机设备及存储介质
CN109361825A (zh) 会议纪要记录方法、终端及计算机存储介质
CN111193890A (zh) 会议记录解析装置、方法和会议记录播放系统
US11611600B1 (en) Streaming data processing for hybrid online meetings
US20170092277A1 (en) Search and Access System for Media Content Files
JP2008032825A (ja) 発言者表示システム、発言者表示方法および発言者表示プログラム
TWM594323U (zh) 智能會議記錄系統
JP6091690B1 (ja) 議会運営支援システム及び議会運営支援方法
US8615153B2 (en) Multi-media data editing system, method and electronic device using same
US20220013127A1 (en) Electronic Speech to Text Court Reporting System For Generating Quick and Accurate Transcripts
KR101618777B1 (ko) 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법
CN114240342A (zh) 一种会议控制的方法和装置
US8553855B2 (en) Conference support apparatus and conference support method
CN211788155U (zh) 智能会议记录系统
US20140078331A1 (en) Method and system for associating sound data with an image
CN111221987A (zh) 混合音频标记方法和装置
KR101783872B1 (ko) 동영상 검색 시스템 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17881577

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS (EPO FORM 1205A DATED 24.10.2019)

122 Ep: pct application non-entry in european phase

Ref document number: 17881577

Country of ref document: EP

Kind code of ref document: A1