WO2022142610A1 - 一种语音记录方法、装置、计算机设备及可读存储介质 - Google Patents

一种语音记录方法、装置、计算机设备及可读存储介质 Download PDF

Info

Publication number
WO2022142610A1
WO2022142610A1 PCT/CN2021/125178 CN2021125178W WO2022142610A1 WO 2022142610 A1 WO2022142610 A1 WO 2022142610A1 CN 2021125178 W CN2021125178 W CN 2021125178W WO 2022142610 A1 WO2022142610 A1 WO 2022142610A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound source
voiceprint
sample
matching factor
initial
Prior art date
Application number
PCT/CN2021/125178
Other languages
English (en)
French (fr)
Inventor
刘微微
赵之砚
Original Assignee
深圳壹账通智能科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳壹账通智能科技有限公司 filed Critical 深圳壹账通智能科技有限公司
Publication of WO2022142610A1 publication Critical patent/WO2022142610A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification

Definitions

  • the present application relates to the technical field of voiceprint recognition, and in particular, to a voice recording method, apparatus, computer equipment and readable storage medium.
  • this method of meeting minutes requires a dedicated person to record the entire content of the meeting, which is labor-intensive.
  • the recorder In order to avoid forgetting and ensure the accuracy of the content, the recorder usually records the whole meeting content with a tape recorder.
  • a voice recording method comprising:
  • the second sound source position is compared with the first sound source position stored in the database to determine the sound source matching factor
  • the second voiceprint feature is compared with the first voiceprint feature stored in the database to determine the sound source matching factor.
  • a voice recording device comprising:
  • a voice acquisition module configured to acquire a first piece of voice information, and determine a first sound source position and a first voiceprint feature of the first piece of voice information
  • the translation storage module is used to translate the first paragraph of voice information into text content, add it to the speech record of the first speaker, and compare the position of the first sound source, the first voiceprint feature and the first speaker.
  • a speaker is associated and stored in the database;
  • the voice acquisition module is also used to obtain the second segment of voice information, and determines the second sound source position and the second voiceprint feature of the second segment of voice information;
  • a comparison module configured to compare the second sound source position with the stored sound source position of the first speaker stored in the database to determine a sound source matching factor, and store the second voiceprint features with the database respectively The stored voiceprint features of the first speaker are compared to determine the voiceprint matching factor;
  • a model identification module for inputting the compared sound source matching factor and voiceprint matching factor into the joint model for identification and judgment, and outputting whether the second piece of voice information belongs to the first speaker;
  • the translation storage module is also used to translate the second paragraph of voice information into text content if it belongs to the first speaker, and add it to the speech record of the first speaker; if it does not belong to the first speaker , then the second paragraph of voice information is translated into text content, added to the speech record of the new speaker, and the second sound source position and the second voiceprint feature are associated with the new speaker and stored to the database;
  • the repetition module is used to obtain the next piece of speech information, and obtain the corresponding sound source matching factor and the corresponding voiceprint matching factor, and input the corresponding sound source matching factor and the corresponding voiceprint matching factor to the joint model for re-identification and judgment , until the audio recording ends.
  • a computer device comprising a memory and a processor, wherein the memory stores computer-readable instructions, and the processor implements the voice of the first aspect when executing the computer-readable instructions Document the steps of the method.
  • a readable storage medium having computer-readable instructions stored thereon, and when the computer-readable instructions are executed by a processor, the steps of voice recording described in the first aspect are implemented.
  • the present application can automatically record the speech text into the speech content of the corresponding speaker when recording the speech, without manual text division, saving human resources, and the obtained speech recording is more in line with the needs of the user.
  • FIG. 1 is a flowchart of an embodiment of a voice recording method of the present application
  • FIG. 2 is a structural block diagram of an embodiment of the voice recording device of the application
  • FIG. 3 is a schematic structural diagram of a computer device of the present application.
  • the embodiment of the present application provides a voice recording method, which can automatically record the voice text into the speech content of the corresponding speaker during voice recording, without manual text division, saving human resources, and the obtained voice recording is more in line with user needs.
  • the voice recording method of this embodiment includes the following steps:
  • Step 101 Acquire a first piece of voice information, and determine a first sound source position and a first voiceprint feature of the first piece of voice information.
  • the user pre-installs the corresponding APP on the user end or installs the corresponding applet in the instant messaging, so that the radio device can send the recorded voice information to the user end, and the APP or applet on the user end will use the sound source.
  • the positioning algorithm determines the position of the first sound source of the first piece of speech information, and uses the voiceprint feature algorithm to determine the first voiceprint feature of the first piece of speech information.
  • Step 102 the first paragraph of speech information is translated into text content, added to the speech record of the first speaker, and the first sound source position, the first voiceprint feature and the first speaker are associated and stored in the database.
  • the first paragraph of voice information is translated into text content, it is added to the speech record of the first speaker, and the recorded content is displayed in real time through an APP or a small program.
  • the position of the first sound source and the first voiceprint feature are stored, so as to compare the sound source and the voiceprint in the later stage, and determine whether the speaker whose voice is later recorded belongs to the speaker stored in the database.
  • Step 103 Acquire the second piece of voice information, and determine the second sound source position and the second voiceprint feature of the second piece of voice information.
  • the second piece of voice information is voice information other than the first piece of voice information recorded for the first time, and the corresponding second sound source position and second voiceprint are also obtained by using the sound source localization algorithm and the voiceprint feature algorithm. feature.
  • Step 104 compare the second sound source position with the first sound source position stored in the database to determine the sound source matching factor, and compare the second voiceprint feature with the first voiceprint feature stored in the database to determine the voiceprint matching factor.
  • the distance difference between the second sound source position and the first sound source position is calculated, and the smaller the distance difference corresponds to the larger the sound source matching factor, wherein the sound source matching factor has a linear relationship with the distance difference.
  • Each voiceprint feature contains multiple sets of voiceprint information, and each voiceprint information of the second voiceprint feature is compared with each voiceprint information of the first voiceprint feature, and the matching voiceprint information is determined.
  • Quantity P calculate the ratio value of the quantity P to the total number M of voiceprint information in the first voiceprint feature, and convert the ratio value into a percentage as a voiceprint matching factor.
  • Step 105 Input the compared sound source matching factor and voiceprint matching factor into the joint model for identification and judgment, and output whether the second piece of voice information belongs to the first speaker, if yes, go to Step 106, otherwise go to Step 107.
  • the joint model is obtained through repeated training using a large amount of sample data in advance, and can comprehensively judge whether the two speeches belong to the same person by combining the sound source matching factor and the voiceprint matching factor.
  • Step 106 Translate the second piece of voice information into text content and add it to the speech record of the first speaker.
  • the second paragraph of voice information is translated into text content, added to the speech record of the first speaker, and recorded in real time through the APP or applet content is displayed.
  • Step 107 Translate the second paragraph of voice information into text content, add it to the speech record of the new speaker, and store the second sound source position, the second voiceprint feature and the new speaker in the database after associating with the new speaker .
  • the speaker of the second segment of speech information is not the first speaker.
  • a new speaker is established, and the The translated text is added to the new speaker's transcript.
  • Step 108 Obtain the next piece of speech information, obtain the corresponding sound source matching factor and the corresponding voiceprint matching factor, and input the corresponding sound source matching factor and the corresponding voiceprint matching factor into the joint model for re-identification and judgment until Voice recording ends.
  • the instruction to stop voice recording may be that the user triggers the corresponding stop button on the recording device, or the user uses voice control to send a voice stop instruction (for example, end the meeting, shut down, stop recording, etc.) to the recording device, and after receiving the stop voice recording instruction.
  • a voice stop instruction for example, end the meeting, shut down, stop recording, etc.
  • the APP of the user terminal or the applet in the instant messaging software ends the entire voice recording process, and packs and saves the recorded results.
  • the voice text can be automatically recorded into the speech content of the corresponding speaker during voice recording, without manual text division, saving human resources, and the obtained voice recording is more in line with the needs of users.
  • the pre-built joint model includes an input layer, a sound source judgment layer, a voiceprint judgment layer and an output layer, then step 105 specifically includes:
  • Step 1051 Input the sound source matching factor and the voiceprint matching factor from the input layer.
  • the input layer judges the input information. If the input information is a sound source matching factor, the sound source matching factor is sent to the sound source judgment layer. If it is a voiceprint matching factor, the voiceprint matching factor is sent to the sound source matching factor. Texture judgment layer.
  • Step 1052 use the sound source judgment layer to judge the sound source matching factor, when the sound source matching factor ⁇ the sound source threshold, the result is determined that the sound source matching is successful and sent to the output layer, otherwise the determined result is that the sound source matching failed and sent to the output layer.
  • a sound source threshold is pre-stored in the sound source judgment layer, and the sound source threshold is a judgment condition for a sound source matching factor determined after training with a large amount of sample data, whether two pieces of sound are the same. Further, the received sound source matching factor can be compared with the sound source threshold, and then whether the sound source is matched can be determined according to the comparison result. and output the result to the output layer.
  • Step 1053 Use the voiceprint judgment layer to judge the voiceprint matching factor, when the voiceprint matching factor ⁇ the voiceprint threshold, determine that the voiceprint matching is successful and send it to the output layer, otherwise the determination result is that the voiceprint matching fails and send to the output layer.
  • a voiceprint threshold is pre-stored in the voiceprint judgment layer, and the voiceprint threshold is a judgment condition for a voiceprint matching factor determined after training with a large amount of sample data, whether two voices are the same. Further, the received voiceprint matching factor can be compared with the voiceprint threshold, and then it can be judged whether the voiceprint matches according to the comparison result. and output the result to the output layer.
  • Step 1054 when the output layer receives the sound source matching success and/or the voiceprint matching success, it is determined that the second piece of voice information belongs to the first speaker and output, otherwise the output result is empty.
  • the speaker of the corresponding voice information can be more intelligently identified, and the translated text of the second piece of voice information can be added to the speech content of the corresponding speaker, without the need to manually identify the speaker, which is convenient for use.
  • the method before step 105, the method further includes:
  • Step A1 Acquire multiple sample combinations in advance, wherein each sample combination includes a sample sound source matching factor and a sample voiceprint matching factor. The number of sample combinations obtained can be selected as required.
  • Step A2 constructing an initial joint model with an initial input layer, an initial sound source judgment layer, an initial voiceprint judgment layer, and an initial output layer.
  • the initial input layer is connected to the initial sound source judgment layer and the initial voiceprint judgment layer, respectively, and the initial sound source judgment layer and the initial voiceprint judgment layer are connected to the initial output layer.
  • Step A3 Set an initial sound source threshold for the initial sound source judgment layer, and set an initial voiceprint threshold for the voiceprint judgment layer.
  • the corresponding sound source initial threshold and initial voiceprint threshold may be set to 100%.
  • Step A4 the sample sound source matching factor and the sample voiceprint matching factor in a sample combination are input through the initial input layer, the input layer sends the sample sound source matching factor to the initial sound source judgment layer, and sends the sample voiceprint matching factor. to the initial voiceprint judgment layer.
  • Step A5 the initial sound source judgment layer judges whether the sample sound source matching factor ⁇ the initial threshold of the sound source, then the output sample sound source matching is successful and sent to the initial output layer, otherwise the output sample sound source matching fails and is sent to the initial output layer.
  • Step A6 the initial voiceprint judgment layer judges whether the sample voiceprint matching factor ⁇ the voiceprint initial threshold, then the output sample voiceprint matching is successful and sent to the initial output layer, otherwise the output sample voiceprint matching fails and is sent to the initial output layer.
  • Step A7 when the initial output layer receives the successful matching of the sample sound source and/or the successful matching of the sample voiceprint, the output result is that it belongs to the same person, and the next sample combination is input to the initial joint model for processing, otherwise the output result is empty, Use the sample sound source matching factor of the corresponding processed sample combination to replace the sound source initial threshold, use the sample voiceprint matching factor of the corresponding processed sample combination to replace the voiceprint initial threshold, and then input the next sample combination into the initial joint model for training processing .
  • Step A8 After the initial joint model has completed all training processing for all sample combinations, the initial joint model is used as the joint model.
  • step A1 specifically includes:
  • Step A11 Acquire sample speeches of multiple persons in advance, wherein the sample speeches of each person include two sample speech information.
  • Step A12 Perform sound source localization on each sample speech information to obtain the sample sound source position, and perform voiceprint feature processing to obtain the sample voiceprint feature.
  • step A13 the sample sound source position of the voice sample information of the same sample voice information and the sample voiceprint feature are associated to form an associated sample, and two associated samples of the same person are combined.
  • Step A81 Obtain a predetermined number of test sample combinations, wherein each test sample combination includes a test sound source matching factor and a test voiceprint matching factor.
  • Step A812 Perform sound source localization on each test sample speech information to obtain a corresponding test sound source position, and perform voiceprint feature processing to obtain a corresponding test voiceprint feature.
  • Step A813 Compare the positions of the two test sound sources in each group to determine the test sound source matching factor, and compare the two test voiceprint features to determine the test voiceprint matching factor.
  • Step A814 Correlate the test sound source matching factor and the test voiceprint matching factor of each group to form a test sample combination.
  • Step A82 Mark in advance whether the test sample combination belongs to the same person.
  • step A83 a predetermined number of test sample combinations are sequentially input into the joint model for processing.
  • the joint model obtained by training can be tested by using a combination of test samples to determine the recognition accuracy of the joint model. Once the accuracy does not meet the requirements, the joint model can be retrained, which can make the joint model recognition accurate. Sex can be effectively guaranteed.
  • the radio device is provided with at least two radios, then step 101 specifically includes:
  • Step 1011 Calculate the distance difference between the first segment of speech information reaching at least two microphones according to the time difference between the first segment of speech information collected by the at least two radios, and use a geometric algorithm to determine the location of the first sound source.
  • Step 1012 Perform Fourier analysis according to the first segment of speech to obtain a spectrum graph of the speech spectrum of the first segment of speech changing with time, and use the spectrum graph as the first voiceprint feature.
  • the other voice information recorded by the audio recording device should also be processed in advance to determine the corresponding sound source position and voiceprint feature.
  • the processing scheme is the same as the processing scheme of the above-mentioned first piece of voice information.
  • the first piece of voice information is converted into the position of the sound source and the voiceprint feature that are convenient for identification and judgment, so that the comparison and identification can be carried out according to the position of the sound source and the voiceprint feature, and it can be determined whether the voice information entered later is a historical record.
  • the voice of the speaker in .
  • step 1012 specifically includes:
  • Step 10121 Framing the first segment of speech to obtain x(m, n), and performing Fourier transform on x(m, n) to obtain X(m, n), where n is the frame length and m is the frame length. number;
  • voice information recorded by the audio recording device should also be processed in advance to determine the corresponding voiceprint features.
  • the processing scheme is the same as the above-mentioned voiceprint feature acquisition scheme of the first piece of voice information.
  • the voiceprint features can be displayed and stored in the form of a spectrogram, so that the stored voiceprint features are more comprehensive, and it is convenient to compare the voiceprint features according to the spectrogram.
  • the first sound source position and the first voiceprint feature of the recorded first piece of voice information are translated and recorded into the speech content of the first speaker, and the first sound source position is recorded.
  • the first voiceprint feature and the first speaker are associated and stored, and the recorded second piece of voice information is compared with the stored first sound source position and the first voiceprint feature to determine the corresponding sound source matching factor and sound.
  • input the sound source matching factor and the voiceprint matching factor into the pre-trained joint model for identification and judgment to determine whether the two pieces of speech belong to the same person. If so, record the translation content of the second piece of speech information to In the content of the speech of the first speaker, otherwise, the second paragraph of voice information belongs to the content of the speech of the new speaker.
  • the position of the second sound source and the second voiceprint feature are associated and stored with the second speaker, and the process of recording and recognizing is repeated continuously until an instruction to stop voice recording is received.
  • the voice text can be automatically recorded into the speech content of the corresponding speaker, and manual text division is not required, which saves human resources, and the obtained voice record is more in line with the needs of the user.
  • a voice recording method which includes the following steps:
  • a radio device with at least 2 microphones is set in the middle of the conference room in advance, and a client (APP) corresponding to the radio device is installed on the user terminal (such as a mobile phone, tablet, etc.), and the user The terminal establishes a connection with the radio device, and then displays the corresponding conference content through the client. Convert the collected first piece of voice information into a voice digital signal.
  • APP client
  • S3 Compare the position of the second sound source with the position of the first sound source, and determine that the position of the second sound source conforms to the sound source matching factor of the position of the first sound source.
  • the second voiceprint feature is compared with the first voiceprint feature, and it is determined that the second voiceprint feature conforms to the voiceprint matching factor of the first voiceprint feature.
  • S4 Input the sound source matching factor and the voiceprint matching factor into the joint model, and perform judgment processing to determine whether the second piece of voice information belongs to the first speaker.
  • S415 Compare the positions of the two sample sound sources in the sample combination, determine a sample sound source matching factor that matches the two sample sound source positions, and compare the two sample voiceprint features in the sample combination By comparison, a sample voiceprint matching factor matching the two sample voiceprint features is determined.
  • S417 Set an initial sound source threshold for the initial sound source judgment layer, and set an initial voiceprint threshold for the initial voiceprint judgment layer.
  • the corresponding values of the initial threshold of the sound source and the initial threshold of the voiceprint are set relatively high.
  • the matching value of the voiceprint matching between the Nth sentence and the N+1th sentence obtained after voiceprint recognition is 89 points, which is close to the same person, but the sound source The spatial direction of the positioning result is exactly opposite.
  • the matching factor of the voiceprint belonging to the same person is 60%
  • the matching factor of the sound source belonging to the same person determined after the sound source localization process is 40%
  • the matching factor of the voiceprint is 60 % is greater than 50%
  • the sound source matching factor is 40% and less than 50%.
  • the mobile APP display content style is as follows:
  • Speaker A Participants: Speaker A, Speaker B, Speaker C (The speaker address can be automatically brought in according to the context, and manual modification or editing is also supported, for example, Speaker B is automatically confirmed as "Manager Zhang” according to the context)
  • an embodiment of the present application provides a voice recording device. As shown in FIG. 2 , the device includes:
  • the voice acquisition module 21 is used to acquire the first piece of voice information, and to determine the first sound source position and the first voiceprint feature of the first piece of voice information;
  • the comparison module 23 is configured to compare the second sound source position with the stored sound source position of the first speaker stored in the database to determine the sound source matching factor, and compare the second voiceprint feature with the first speaker stored in the database respectively.
  • the speaker's stored voiceprint features are compared to determine the voiceprint matching factor;
  • the translation storage module 22 is also used to translate the second paragraph of voice information into text content if it belongs to the first speaker, and add it to the speech record of the first speaker;
  • the segment of voice information is translated into text content, added to the speech record of the new speaker, and the second sound source position is used as the new stored sound source position, and the second voiceprint feature is used as the new stored voiceprint feature.
  • the spokespeople of the company are associated and stored in the database;
  • the joint model includes an input layer, a sound source judgment layer, a voiceprint judgment layer and an output layer, and the model identification module 24 is specifically used for:
  • the voiceprint matching factor ⁇ the voiceprint threshold the result is determined that the voiceprint matching is successful and sent to Output layer, otherwise it is determined that the result is voiceprint matching failure and sent to the output layer; when the output layer receives sound source matching success and/or voiceprint matching success, it is determined that the second piece of voice information belongs to the first speaker and output, otherwise The output result is empty.
  • the apparatus further includes a model training module.
  • the voiceprint judgment unit is used for the initial voiceprint judgment layer to judge whether the sample voiceprint matching factor ⁇ the voiceprint initial threshold is, then the output sample voiceprint matching is successful and sent to the initial output layer, otherwise the output sample voiceprint matching fails and is sent to the initial output layer .
  • the model determining unit is used to use the initial joint model as the joint model after all the training processing of all the sample combinations is completed.
  • the acquiring unit specifically includes:
  • the combining unit is used to associate the sample sound source position of the voice sample information of the same sample voice information and the sample voiceprint feature to form an associated sample, and combine the two associated samples of the same person;
  • the matching unit is used to compare the sound source positions of the two samples in the combined two associated samples to determine the sample sound source matching factor, and compare the voiceprint features of the two samples in the combined two associated samples. To determine the sample voiceprint matching factor;
  • the association unit is used for associating the sample sound source matching factor and the sample voiceprint matching factor of the same person to form a sample combination.
  • the device further includes a model testing module, which is specifically used for:
  • each test sample combination includes a test sound source matching factor and a test voiceprint matching factor; pre-mark whether the test sample combination belongs to the same person; input the predetermined number of test sample combinations in turn To the joint model for processing; the statistical output result is the same as the test probability of the mark, if the test probability ⁇ the probability threshold, the joint model is used as the final joint model, if the test probability ⁇ probability threshold, re-acquire a new sample combination to train the joint model Process until the test probability of the obtained joint model is greater than or equal to the probability threshold, and the joint model is used as the final joint model.
  • the voice acquisition module 21 specifically includes:
  • the voiceprint feature determination unit is specifically used for:
  • an embodiment of the present application further provides a computer device, as shown in FIG. 3 , including a memory 32 and a processor 31 , wherein the memory 32 and the processor 31 are both set on the bus 33.
  • the memory 32 stores computer-readable instructions
  • the processor 31 implements the voice recording method shown in FIG. 1 when the processor 31 executes the computer-readable instructions.
  • the technical solution of the present application can be embodied in the form of a software product, and the software product can be stored in a non-volatile memory (which can be a CD-ROM, U disk, mobile hard disk, etc.), including several instructions It is used to cause a computer device (which may be a personal computer, a server, or a network device, etc.) to execute the methods described in various implementation scenarios of this application.
  • a non-volatile memory which can be a CD-ROM, U disk, mobile hard disk, etc.
  • a computer device which may be a personal computer, a server, or a network device, etc.
  • the device can also be connected to a user interface, a network interface, a camera, a radio frequency (Radio Frequency, RF) circuit, a sensor, an audio circuit, a WI-FI module, and the like.
  • the user interface may include a display screen (Display), an input unit such as a keyboard (Keyboard), etc., and the optional user interface may also include a USB interface, a card reader interface, and the like.
  • Optional network interfaces may include standard wired interfaces, wireless interfaces (such as Bluetooth interfaces, WI-FI interfaces), and the like.
  • an embodiment of the present application further provides a readable storage medium on which computer-readable instructions are stored, and the computer-readable instructions are When executed by the processor, the above voice recording method shown in FIG. 1 is implemented.
  • the readable storage medium may further include an operating system and a network communication module.
  • An operating system is a program that manages the hardware and software resources of a computer device and supports the operation of information processing programs and other software and/or programs.
  • the network communication module is used to implement communication between components in the readable storage medium, as well as communication with other hardware and software in the computer device.
  • the position of the second sound source and the second voiceprint feature are associated and stored with the second speaker, and the process of recording and recognizing is repeated continuously until an instruction to stop voice recording is received.
  • voice recording when voice recording is performed, the voice text can be automatically recorded into the speech content of the corresponding speaker, no manual text division is required, human resources are saved, and the obtained voice record is more in line with the needs of the user.

Abstract

一种语音记录方法、装置、计算机设备及可读存储介质,属于声纹识别领域。将收录的第一段语音信息的第一声源位置和第一声纹特征进行转译记录至第一发言人的发言内容中,将收录的第二段语音信息与存储的第一声源位置和第一声纹特征进行比对确定对应的声源匹配因子和声纹匹配因子,并输入至预先训练好的联合模型中进行识别判断,确定两段语音是否属于同一个人,若是,记录至同一个人的发言内容中,否则,将第二段语音信息的转译内容记录至新的发言人的发言内容中,并不断重复收录和识别的过程,直至接收到停止语音收录指令。这样,在进行语音记录时能够将语音文本自动记录至对应的发言人的发言内容中,无需人工进行文本划分,方便用户。

Description

一种语音记录方法、装置、计算机设备及可读存储介质
本申请要求与2020年12月28日提交中国专利局、申请号为202011576937.5、申请名称为“一种语音记录方法、装置、电子设备及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在申请中。
技术领域
本申请涉及声纹识别技术领域,特别是涉及一种语音记录方法、装置、计算机设备及可读存储介质。
背景技术
传统开会记录会议纪要时,有专人进行人工全程记录所有与会人的说话内容。十分耗费人力,且对记录人有较高的速度、准确率的要求。
但是,这种会议记录方式,需有专人对会议内容进行全程记录,耗费人力。记录员通常为了避免遗忘确保内容的准确性,先用录音笔记录全程会议内容。但需后续记录员从头到尾反复听取音频内容,较为耗时。记录员通常还要在听取内容的同时,区分不同说话人,靠人工较为不准确。
发明内容
有鉴于此,本申请提供了一种语音记录方法、装置、计算机设备及可读存储介质。依据本申请的第一方面,提供了一种语音记录方法,步骤包括:
获取第一段语音信息,并确定所述第一段语音信息的第一声源位置和第一声纹特征;
将所述第一段语音信息转译为文本内容,添加至第一发言人的发言记录中,将所述第一声源位置、所述第一声纹特征与所述第一发言人关联存储至数据库中;
获取第二段语音信息,并确定所述第二段语音信息的第二声源位置和第二声纹特征;
将所述第二声源位置与数据库存储的第一声源位置进行比对确定声源匹配因子,以及,将所述第二声纹特征与数据库存储的第一声纹特征进行比对确定声纹匹配因子;
将比对后的声源匹配因子和声纹匹配因子输入至联合模型中进行识别判断,输出所述第二段语音信息是否属于第一发言人;
如果属于第一发言人,则将所述第二段语音信息转译为文本内容,添加至所述第一发言人的发言记录中;
如果不属于第一发言人,则将所述第二段语音信息转译为文本内容,添加至新的发言人的发言记录中,并将所述第二声源位置、第二声纹特征与新的发言人进行关联后存储至数据库中;
获取下一段语音信息,并得到对应的声源匹配因子和对应的声纹匹配因子,并将对应的声源匹配因子和对应的声纹匹配因子输入至联合模型进行再次识别判断,直至语音收录结束。
依据本申请的第二方面,提供了一种语音记录装置,所述装置包括:
语音获取模块,用于获取第一段语音信息,并确定所述第一段语音信息的第一声源位置和第一声纹特征;
转译存储模块,用于将所述第一段语音信息转译为文本内容,添加至第一发言人的发言记录中,将所述第一声源位置、所述第一声纹特征与所述第一发言人关联存储至数据库中;
所述语音获取模块,还用于获取第二段语音信息,并确定所述第二段语音信息的第二 声源位置和第二声纹特征;
比对模块,用于将所述第二声源位置与数据库存储的第一发言人的存储声源位置进行比对确定声源匹配因子,以及,将所述第二声纹特征分别与数据库存储的第一发言人的存储声纹特征进行比对确定声纹匹配因子;
模型识别模块,用于将比对后的声源匹配因子和声纹匹配因子输入至联合模型中进行识别判断,输出所述第二段语音信息是否属于第一发言人;
所述转译存储模块,还用于如果属于第一发言人,则将所述第二段语音信息转译为文本内容,添加至所述第一发言人的发言记录中;如果不属于第一发言人,则将所述第二段语音信息转译为文本内容,添加至新的发言人的发言记录中,并将所述第二声源位置、第二声纹特征与新的发言人进行关联后存储至数据库中;
重复模块,用于获取下一段语音信息,并得到对应的声源匹配因子和对应的声纹匹配因子,并将对应的声源匹配因子和对应的声纹匹配因子输入至联合模型进行再次识别判断,直至语音收录结束。
依据本申请的第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现第一方面所述语音记录方法的步骤。
依据本申请的第四方面,提供了一种可读存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现第一方面所述语音记录的步骤。
本申请在进行语音记录时能够将语音文本自动记录至对应的发言人的发言内容中,无需人工进行文本划分,节省了人力资源,得到的语音记录更加符合用户的需要。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请的语音记录方法的一个实施例的流程图;
图2为本申请的语音记录装置的一个实施例的结构框图;
图3为本申请的计算机设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本申请实施例提供了一种语音记录方法,能够在进行语音记录时将语音文本自动记录至对应的发言人的发言内容中,无需人工进行文本划分,节省了人力资源,得到的语音记录更加符合用户的需要。
如图1所示,本实施例的语音记录方法,包括如下步骤:
步骤101,获取第一段语音信息,并确定第一段语音信息的第一声源位置和第一声纹特征。
其中,用户预先在用户端上安装对应的APP或者在即时通讯中安装对应的小程序,这样收音设备就可以将收录的语音信息发送至用户端,用户端上的APP或者小程序会利用声源定位算法确定第一段语音信息的第一声源位置,以及利用声纹特征算法确定第一段语音信息的第一声纹特征。
步骤102,将第一段语音信息转译为文本内容,添加至第一发言人的发言记录中,将第 一声源位置、第一声纹特征与第一发言人关联存储至数据库中。
其中,将第一段语音信息转译成文本内容后,添加至第一发言人的发言记录中,并通过APP或者小程序实时的将收录的内容进行展示。
将第一声源位置和第一声纹特征进行存储,以便后期进行声源和声纹比对,确定后期收录语音的发言人是否属于数据库中存储的发言人。
步骤103,获取第二段语音信息,并确定第二段语音信息的第二声源位置和第二声纹特征。
其中,第二段语音信息为除第一次收录的第一段语音信息以外的的语音信息,并同样利用声源定位算法和声纹特征算法获取对应的第二声源位置和第二声纹特征。
步骤104,将第二声源位置与数据库存储的第一声源位置进行比对确定声源匹配因子,以及,将第二声纹特征与数据库存储的第一声纹特征进行比对确定声纹匹配因子。
其中,计算第二声源位置与第一声源位置的距离差,距离差越小对应的声源匹配因子越大,其中,声源匹配因子与距离差呈线性关系。
每个声纹特征中包含有多组声纹信息,将第二声纹特征的各个声纹信息与第一声纹特征中的各个声纹信息进行比对,并确定相匹配的声纹信息的数量P,计算数量P占第一声纹特征中声纹信息的总数M的比例值,将比例值转换成百分数作为声纹匹配因子。
步骤105,将比对后的声源匹配因子和声纹匹配因子输入至联合模型中进行识别判断,输出第二段语音信息是否属于第一发言人,是则进入步骤106,否则进入步骤107。
其中,联合模型是预先利用大量的样本数据经过反复训练得到的,能够综合声源匹配因子和声纹匹配因子判断两段语音是否属于同一个人。
步骤106,将第二段语音信息转译为文本内容,添加至第一发言人的发言记录中。
其中,如果联合模型的输出结果为属于第一发言人,则将第二段语音信息转译成文本内容后,添加至第一发言人的发言记录中,并通过APP或者小程序实时的将收录的内容进行展示。
步骤107,将第二段语音信息转译为文本内容,添加至新的发言人的发言记录中,并将第二声源位置、第二声纹特征与新的发言人进行关联后存储至数据库中。
其中,如果联合模型的输出结果为空,则证明第二段语音信息的发言人不是第一发言人,需要将第二段语音信息转译成文本内容后,建立一个新的发言人,并将转译后的文本内容添加至新的发言人的发言记录中。
步骤108,获取下一段语音信息,并得到对应的声源匹配因子和对应的声纹匹配因子,并将对应的声源匹配因子和对应的声纹匹配因子输入至联合模型进行再次识别判断,直至语音收录结束。
其中,接收到停止语音收录指令后,语音收录结束。停止语音收录指令可以是用户触发收录设备上的对应停止按键,或者用户利用语音控制,向收录设备发出一个语音停止指令(例如,会议结束、关机、停止录音等),接收到停止语音收录指令后关闭收录设备并向用户端发出关机指令。用户终端的APP或者即时通讯软件中的小程序在接收到关机指令后结束整个语音记录过程,并将记录的结果进行打包保存。
通过上述技术方案,在进行语音记录时能够将语音文本自动记录至对应的发言人的发言内容中,无需人工进行文本划分,节省了人力资源,得到的语音记录更加符合用户的需要。
在具体实施例中,预先构建的联合模型包括输入层、声源判断层、声纹判断层和输出层,则步骤105具体包括:
步骤1051,将声源匹配因子和声纹匹配因子从输入层输入。
其中,输入层对输入的信息进行判断,如果输入的信息是声源匹配因子,则将声源匹配因子发送至声源判断层,如果是声纹匹配因子,则将声纹匹配因子发送至声纹判断层。
步骤1052,利用声源判断层对声源匹配因子进行判断,当声源匹配因子≥声源阈值时, 确定结果为声源匹配成功并发送至输出层,否则确定结果为声源匹配失败并发送至输出层。
其中,声源判断层中预先存储有声源阈值,该声源阈值为利用大量样本数据训练后确定的分别两段声音是否相同的声源匹配因子的判断条件。进而可以根据接收到的声源匹配因子与声源阈值进行比较,进而根据比较结果判断声源是否匹配。并将结果输出至输出层。
步骤1053,利用声纹判断层对声纹匹配因子进行判断,当声纹匹配因子≥声纹阈值时,确定结果为声纹匹配成功并发送至输出层,否则确定结果为声纹匹配失败并发送至输出层。
其中,声纹判断层中预先存储有声纹阈值,该声纹阈值为利用大量样本数据训练后确定的分别两段声音是否相同的声纹匹配因子的判断条件。进而可以根据接收到的声纹匹配因子与声纹阈值进行比较,进而根据比较结果判断声纹是否匹配。并将结果输出至输出层。
步骤1054,当输出层接收到声源匹配成功和/或声纹匹配成功后,确定第二段语音信息属于第一发言人并输出,否则输出结果为空。
通过上述方案,能够更加智能的辨别对应语音信息的发音人,并将第二段语音信息的转译文本添加至对应发音人的发言内容中,无需人工分辨发言人,方便使用。
在具体实施例中,在步骤105之前,方法还包括:
步骤A1,预先获取多个样本组合,其中,每个样本组合中包含有样本声源匹配因子和样本声纹匹配因子。获取的样本组合的数量可以根据需要进行选择。
步骤A2,构建具有初始输入层、初始声源判断层、初始声纹判断层和初始输出层的初始联合模型。
其中,初始输入层与初始声源判断层和初始声纹判断层分别相连,初始声源判断层和初始声纹判断层与初始输出层相连。
步骤A3,为初始声源判断层设置声源初始阈值,为声纹判断层设置初始声纹阈值。
例如,对应的声源初始阈值和初始声纹阈值可以设置为100%。
步骤A4,将一个样本组合中的样本声源匹配因子和样本声纹匹配因子通过初始输入层进行输入,输入层将样本声源匹配因子发送至初始声源判断层,将样本声纹匹配因子发送至初始声纹判断层。
步骤A5,初始声源判断层判断是否样本声源匹配因子≥声源初始阈值是则输出样本声源匹配成功发送至初始输出层,否则输出样本声源匹配失败发送至初始输出层。
步骤A6,初始声纹判断层判断是否样本声纹匹配因子≥声纹初始阈值是则输出样本声纹匹配成功发送至初始输出层,否则输出样本声纹匹配失败发送至初始输出层。
步骤A7,初始输出层接收到样本声源匹配成功和/或样本声纹匹配成功时,输出结果为属于同一个人,并将下一个样本组合输入至初始联合模型进行处理,否则输出结果为空,利用对应处理的样本组合的样本声源匹配因子替换声源初始阈值,利用对应处理的样本组合的样本声纹匹配因子替换声纹初始阈值,再将下一个样本组合输入至初始联合模型进行训练处理。
步骤A8,当初始联合模型对所有的样本组合全部训练处理完成后,将初始联合模型作为联合模型。
通过上述方案,预先利用大量的样本组合对初始联合模型进行训练,这样能够使得声源判断层和声纹判断层中保存的声源阈值和声纹阈值更加符合实际的判断情况,使得得到的联合模型的判断准确率更高。
在具体实施例中,步骤A1具体包括:
步骤A11,预先获取多个人的样本语音,其中,每个人的样本语音中包含两个样本语音信息。
步骤A12,对每个样本语音信息进行声源定位对应得到样本声源位置,以及进行声纹特征处理对应得到样本声纹特征。
步骤A13,将同一个样本语音信息的语音样本信息的样本声源位置和样本声纹特征进行关联形成关联样本,将相同人的两个关联样本进行组合。
步骤A14,将组合后的两个关联样本中的两个样本声源位置进行比对确定样本声源匹配因子,以及将组合后的两个关联样本中的两个样本声纹特征进行比对确定样本声纹匹配因子。
步骤A15,将同一个人的样本声源匹配因子和样本声纹匹配因子进行关联形成样本组合。
通过上述方案,利用都属于同一个人的样本声源匹配因子和样本声纹匹配因子能够更加便于对初始联合模型进行训练,能够准确的获知训练结果是否正确,如果不正确,进而及时对初始联合模型进行修正。
在具体实施例中,在步骤A8之后,方法还包括:
步骤A81,获取预定数量的测试样本组合,其中,每个测试样本组合中包含测试声源匹配因子和测试声纹匹配因子。
该步骤中,测试样本组合可以是相同人的两段语音信息的比对结果,也可以是不同人的两段语音信息的比对结果。
具体获取过程为:
步骤A811,预先获取多组测试样本语音,其中,每组测试样本语音为相同人的两段测试样本语音信息或者不同人的两段测试样本语音信息。
步骤A812,对每个测试样本语音信息进行声源定位对应得到测试声源位置,以及进行声纹特征处理对应得到测试声纹特征。
步骤A813,将每组中的两个两个测试声源位置进行比对确定测试声源匹配因子,以及将两个测试声纹特征进行比对确定测试声纹匹配因子。
步骤A814,将每组的测试声源匹配因子和测试声纹匹配因子进行关联形成测试样本组合。
步骤A82,预先对测试样本组合是否属于同一个人进行标记。
步骤A83,将预定数量的测试样本组合依次输入至联合模型中进行处理。
步骤A84,统计输出结果与标记相同的测试概率,若测试概率≥概率阈值,将联合模型作为最终联合模型,若测试概率<概率阈值,重新获取新的样本组合对联合模型进行训练处理,直至得到的联合模型的测试概率≥概率阈值,将联合模型作为最终联合模型。
通过上述技术方案,能够利用测试样本组合对训练得到的联合模型进行测试处理,判断联合模型的识别准确性,一旦准确性不符合要求则重新对联合模型进行训练,这样能够使得联合模型的识别准确性能够得到有效保证。
在具体实施例中,收音设备上设有至少两个收音器,则步骤101具体包括:
步骤1011,根据至少两个收音器采集的第一段语音信息之间的时间差,计算第一段语音信息到达至少两个收音器的距离差,利用几何算法呢确定第一声源位置。
步骤1012,根据第一段语音进行傅里叶分析,得到第一段语音的语音频谱随时间变化的语谱图形,将语谱图形作为第一声纹特征。
其中,针对收音设备收录的其他语音信息也要预先进行处理确定对应的声源位置和声纹特征。处理方案与上述第一段语音信息的处理方案相同。
通过上述方案,预先将第一段语音信息转换成方便识别判断的声源位置和声纹特征,这样可以根据声源位置和声纹特征进行比对识别,确定后期录入的语音信息是否属于历史记录中的发言人的语音。
在具体实施例中,步骤1012具体包括:
步骤10121,对第一段语音进行分帧得到x(m,n),对x(m,n)进行傅里叶变换得到X(m,n),其中,n为帧长,m为帧的个数;
步骤10122,计算第一段语音的周期图Y(m,n),Y(m,n)=X(m,n)*X(m,n)’,计算Z(m,n)=10*log10(Y(m,n)),并根据Z(m,n)绘制语谱图形,将 语谱图形作为第一声纹特征。
其中,针对收音设备收录的其他语音信息也要预先进行处理确定对应的声纹特征。处理方案与上述第一段语音信息的声纹特征获取方案相同。
通过上述方案,能够通过语谱图的方式展示和存储声纹特征,使得存储的声纹特征更加全面,方便根据语谱图进行声纹特征比对。
基于上述实施例描述的方案,首先,将收录的第一段语音信息的第一声源位置和第一声纹特征进行转译记录至第一发言人的发言内容中,并对第一声源位置和第一声纹特征与第一发言人进行关联并存储,将收录的第二段语音信息与存储的第一声源位置和第一声纹特征进行比对确定对应的声源匹配因子和声纹匹配因子,然后将声源匹配因子和声纹匹配因子输入至预先训练好的联合模型中进行识别判断,确定两段语音是否属于同一个人,若是,将第二段语音信息的转译内容记录至第一发言人的发言内容中,否则,第二段语音信息属于新的发言人的发言内容,将第二段语音信息的转译内容记录至新的发言人的发言内容中,同时还要将第二声源位置和第二声纹特征与第二发言人进行关联并存储,并不断重复收录和识别的过程,直至接收到停止语音收录指令。这样,在进行语音记录时能够将语音文本自动记录至对应的发言人的发言内容中,无需人工进行文本划分,节省了人力资源,得到的语音记录更加符合用户的需要。
基于图1所示的上述实施的方案,本申请的另一个实施例提出了语音记录方法,包括如下步骤:
S1,利用收音设备收录第一个发言人的第一段语音信息,并确定第一段语音信息的第一声源位置和第一声纹特征。
其中,预先将设有至少2个麦克风的收音设备设置在会议室中与会人中间位置,并在用户终端(例如手机、平板等)安装对应收音设备的客户端(APP),通过客户端将用户终端与收音设备建立连接,进而通过该客户端显示对应的会议内容。将采集到的第一段语音信息转化成语音数字信号。
具体为:
S11,根据收音设备上至少两个麦克风采集的第一段语音信息之间的时间差,计算第一段语音信息到达至少两个麦克风的距离差,并结合几何算法确定第一声源位置。
S12,提取所述第一段语音信息中的第一声纹特征。
其中,声纹特征包括:音调分贝值、声纹信息、语速等信息。
S13,为第一个发言人构建对应的第一存储单元,将第一个发言人的第一声源位置和第一声纹特征存储在第一存储单元中。
S14,将所述第一段语音信息转译为文本内容,添加至第一个发言人的发言记录中。
S2,利用收音设备获取第二段语音信息,对所述第二段语音信息进行声源定位得到对应的第二声源位置,以及对所述第二段语音信息进行声纹鉴定处理得到第二声纹特征。
其中,将采集到的第二段语音信息转化成语音数字信号。
S3,将第二声源位置与第一声源位置进行比对,确定所述第二声源位置符合所述第一声源位置的声源匹配因子。将第二声纹特征与第一声纹特征进行比对,确定所述第二声纹特征符合第一声纹特征的声纹匹配因子。
S4,将所述声源匹配因子和所述声纹匹配因子输入至联合模型中,进行判断处理,确定所述第二段语音信息是否属于第一个发言人。
具体为:
S41,预先构建联合模型。
具体为:
S411,预先获取多个人的语音样本信息,其中,每个人对应获取两个语音样本信息。
S412,对每个语音样本信息进行声源定位对应得到样本声源位置,以及进行声纹特征处理对应得到样本声纹特征。
S413,将每个语音样本信息的样本声源位置和样本声纹特征进行关联形成关联样本。
S414,将相同人的两个关联样本进行组合,构成样本组合。
S415,将所述样本组合中的两个样本声源位置进行比对,确定两个样本声源位置相符合的样本声源匹配因子,以及将所述样本组合中的两个样本声纹特征进行比对,确定两个样本声纹特征相符合的样本声纹匹配因子。
其中,预先将各个样本组合中的两个关联样本全部进行比对处理完成。
S416,构建初始声源判断层和初始声纹判断层,初始声源判断层和初始声纹判断层进行组合构成初始联合模型。
S417,为所述初始声源判断层设置声源初始阈值,为所述初始声纹判断层设置声纹初始阈值。为了便于后期的训练修改过程,对应的声源初始阈值和声纹初始阈值设置的数值相对较高。
S418,将样本组合中的样本声源匹配因子和样本声纹匹配因子输入至初始联合模型中,利用初始联合模型中的初始声源判断层进行判断,以及利用初始联合模型中的初始声纹判断层进行判断,当样本声源匹配因子≥声源初始阈值或者样本声纹匹配因子≥声纹初始阈值时,输出样本组合内的两个关联样本属于同一个人的结果,否则,输出不属于同一个人的结果。
S419,若输出结果为不属于同一个人,则利用该样本声源匹配因子替代对应的声源初始阈值,以及利用样本声纹匹配因子替代对应的声纹初始阈值,然后再利用初始联合模型对下一个样本组合样本声源匹配因子和样本声纹匹配因子进行处理,若输出结果为属于同一个人,则直接利用初始联合模型对下一个样本组合的样本声源匹配因子和样本声纹匹配因子进行处理。
S4110,不断重复S418和S419的过程,直至所有的样本组合全部处理完成,将得到的初始联合模型作为联合模型。
S42,将所述声源匹配因子和所述声纹匹配因子输入至联合模型中,利用联合模型中的声源判断层对所述声源匹配因子进行判断,以及利用联合模型中的声纹判断层进行判断,当所述声源匹配因子≥声源阈值或者所述声纹匹配因子≥声纹阈值时,确定所述第二段语音信息属于第一个发言人,否则,所述第二段语音信息不属于第一个发言人。
S5,若是,则将所述第二段语音信息转译文本内容,添加至第一个发言人的发言记录中,否则,将所述第二段语音信息的发言人确定为下一个发言人,将所述第二段语音信息转译文本内容,添加至下一个发言人的发言记录中,不断重复上述过程直至语音收录结束。
还包括:
S51,为第二个发言人构建对应的第二存储单元,将第二个发言人的第二声源位置和第二声纹特征存储在第二存储单元中。
例如:若第N句话和第N+1句话,声纹识别后得到的第N句话和第N+1句话相符合的声纹匹配数值为89分,接近同一人,但声源定位结果空间方向恰好相反,此时属于同一个人声纹匹配因子为60%,根据声源定位处理后确定的属于同一个人的声源匹配因子为40%,那么通过计算,声纹匹配因子为60%大于50%,声源匹配因子为40%小于50%,虽然声源定位不属于同一人,但是以声纹确定的结果为准,确定属于同一个人。这样能够避免单一因子的依赖。
最后输出时,手机APP显示内容样式如下:
会议开始时间:2020-10-20 15:35:20
与会人:说话人A、说话人B、说话人C(可自动根据上下文带入说话人称呼、也支持手动修改或编辑,例如说话人B自动根据上下文确认为“张经理”)
说话人A 2020-10-20 15:35:40
今天我们大家一起开会讨论一下明年的plan,下面有请张经理发表意见
说话人B 2020-10-20 15:35:59(张经理)
那我先说下,今天我们的KPI是1000万,已达成目标。明年…
说话人C 2020-10-20 15:36:35
张经理,不好意思打断一下,这个idea非常好,可否再细节说下供我们学习参考XXX。
进一步的,作为图1方法的具体实现,本申请实施例提供了一种语音记录装置,如图2所示,装置包括:
语音获取模块21,用于获取第一段语音信息,并确定第一段语音信息的第一声源位置和第一声纹特征;
转译存储模块22,用于将第一段语音信息转译为文本内容,添加至第一发言人的发言记录中,将第一声源位置作为存储声源位置、第一声纹特征作为存储声纹特征与第一发言人关联存储至数据库中;
语音获取模块21,还用于获取第二段语音信息,并确定第二段语音信息的第二声源位置和第二声纹特征;
比对模块23,用于将第二声源位置与数据库存储的第一发言人的存储声源位置进行比对确定声源匹配因子,以及,将第二声纹特征分别与数据库存储的第一发言人的存储声纹特征进行比对确定声纹匹配因子;
模型识别模块24,用于将比对后的声源匹配因子和声纹匹配因子输入至联合模型中进行识别判断,输出第二段语音信息是否属于第一发言人;
转译存储模块22,还用于如果属于第一发言人,则将第二段语音信息转译为文本内容,添加至第一发言人的发言记录中;如果不属于第一发言人,则将第二段语音信息转译为文本内容,添加至新的发言人的发言记录中,并将第二声源位置作为新的存储声源位置,将第二声纹特征作为新的存储声纹特征,与新的发言人进行关联后存储至数据库中;
重复模块25,用于获取下一段语音信息,并得到对应的声源匹配因子和对应的声纹匹配因子,并将对应的声源匹配因子和对应的声纹匹配因子输入至联合模型进行再次识别判断,直至语音收录结束。
在具体实施例中,联合模型包括输入层、声源判断层、声纹判断层和输出层,则模型识别模块24具体用于:
将声源匹配因子和声纹匹配因子从输入层输入;利用声源判断层对声源匹配因子进行判断,当声源匹配因子≥声源阈值时,确定结果为声源匹配成功并发送至输出层,否则确定结果为声源匹配失败并发送至输出层;利用声纹判断层对声纹匹配因子进行判断,当声纹匹配因子≥声纹阈值时,确定结果为声纹匹配成功并发送至输出层,否则确定结果为声纹匹配失败并发送至输出层;当输出层接收到声源匹配成功和/或声纹匹配成功后,确定第二段语音信息属于第一发言人并输出,否则输出结果为空。
在具体实施例中,装置还包括模型训练模块。
模型训练模块具体包括:
获取单元,用于预先获取多个样本组合,其中,每个样本组合中包含有样本声源匹配因子和样本声纹匹配因子。
初始构建单元,用于构建具有初始输入层、初始声源判断层、初始声纹判断层和初始输出层的初始联合模型;为初始声源判断层设置声源初始阈值,为声纹判断层设置初始声纹阈值。
输入单元,用于将一个样本组合中的样本声源匹配因子和样本声纹匹配因子通过初始输入层进行输入,输入层将样本声源匹配因子发送至初始声源判断层,将样本声纹匹配因子发送至初始声纹判断层。
声源判断单元,用于初始声源判断层判断是否样本声源匹配因子≥声源初始阈值是则输出样本声源匹配成功发送至初始输出层,否则输出样本声源匹配失败发送至初始输出层。
声纹判断单元,用于初始声纹判断层判断是否样本声纹匹配因子≥声纹初始阈值是则输出样本声纹匹配成功发送至初始输出层,否则输出样本声纹匹配失败发送至初始输出层。
输出单元,用于初始输出层接收到样本声源匹配成功和/或样本声纹匹配成功时,输出结果为属于同一个人,并将下一个样本组合输入至初始联合模型进行处理,否则输出结果为空,利用对应处理的样本组合的样本声源匹配因子替换声源初始阈值,利用对应处理的样本组合的样本声纹匹配因子替换声纹初始阈值,再将下一个样本组合输入至初始联合模型进行训练处理。
模型确定单元,用于当初始联合模型对所有的样本组合全部训练处理完成后,将初始联合模型作为联合模型。
在具体实施例中,获取单元具体包括:
语音获取单元,用于预先获取多个人的样本语音,其中,每个人的样本语音中包含两个样本语音信息;
声源声纹获取单元,用于对每个样本语音信息进行声源定位对应得到样本声源位置,以及进行声纹特征处理对应得到样本声纹特征;
组合单元,用于将同一个样本语音信息的语音样本信息的样本声源位置和样本声纹特征进行关联形成关联样本,将相同人的两个关联样本进行组合;
匹配单元,用于将组合后的两个关联样本中的两个样本声源位置进行比对确定样本声源匹配因子,以及将组合后的两个关联样本中的两个样本声纹特征进行比对确定样本声纹匹配因子;
关联单元,用于将同一个人的样本声源匹配因子和样本声纹匹配因子进行关联形成样本组合。
在具体实施例中,装置还包括模型测试模块,具体用于:
获取预定数量的测试样本组合,其中,每个测试样本组合中包含测试声源匹配因子和测试声纹匹配因子;预先对测试样本组合是否属于同一个人进行标记;将预定数量的测试样本组合依次输入至联合模型中进行处理;统计输出结果与标记相同的测试概率,若测试概率≥概率阈值,将联合模型作为最终联合模型,若测试概率<概率阈值,重新获取新的样本组合对联合模型进行训练处理,直至得到的联合模型的测试概率≥概率阈值,将联合模型作为最终联合模型。
在具体实施例中,语音获取模块21具体包括:
声源位置确定单元,用于根据至少两个收音器采集的第一段语音信息之间的时间差,计算第一段语音信息到达至少两个收音器的距离差,利用几何算法呢确定第一声源位置;
声纹特征确定单元,用于根据第一段语音进行傅里叶分析,得到第一段语音的语音频谱随时间变化的语谱图形,将语谱图形作为第一声纹特征。
在具体实施例中,声纹特征确定单元,具体用于:
对第一段语音进行分帧得到x(m,n),对x(m,n)进行傅里叶变换得到X(m,n),其中,n为帧长,m为帧的个数;计算第一段语音的周期图Y(m,n),Y(m,n)=X(m,n)*X(m,n)’,计算Z(m,n)=10*log10(Y(m,n)),并根据Z(m,n)绘制语谱图形,将语谱图形作为第一声纹特征。
基于上述图1所示方法和图2所示装置的实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,如图3所示,包括存储器32和处理器31,其中存储器32和处理器31均设置在总线33上存储器32存储有计算机可读指令,处理器31执行计算机可读指令时实现图1所示的语音记录方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储器(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
可选地,该设备还可以连接用户接口、网络接口、摄像头、射频(Radio Frequency, RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备的结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
基于上述如图1所示方法和图2所示装置的实施例,相应的,本申请实施例还提供了一种可读存储介质,其上存储有计算机可读指令,该计算机可读指令被处理器执行时实现上述如图1所示的语音记录方法。
可读存储介质中还可以包括操作系统、网络通信模块。操作系统是管理计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现可读存储介质内部各组件之间的通信,以及与计算机设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。
通过应用本申请的技术方案,首先,将收录的第一段语音信息的第一声源位置和第一声纹特征进行转译记录至第一发言人的发言内容中,并对第一声源位置和第一声纹特征与第一发言人进行关联并存储,将收录的第二段语音信息与存储的第一声源位置和第一声纹特征进行比对确定对应的声源匹配因子和声纹匹配因子,然后将声源匹配因子和声纹匹配因子输入至预先训练好的联合模型中进行识别判断,确定两段语音是否属于同一个人,若是,将第二段语音信息的转译内容记录至第一发言人的发言内容中,否则,第二段语音信息属于新的发言人的发言内容,将第二段语音信息的转译内容记录至新的发言人的发言内容中,同时还要将第二声源位置和第二声纹特征与第二发言人进行关联并存储,并不断重复收录和识别的过程,直至接收到停止语音收录指令。这样,在进行语音记录时能够将语音文本自动记录至对应的发言人的发言内容中,无需人工进行文本划分,节省了人力资源,得到的语音记录更加符合用户的需要。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (20)

  1. 一种语音记录方法,其中,步骤包括:
    获取第一段语音信息,并确定所述第一段语音信息的第一声源位置和第一声纹特征;
    将所述第一段语音信息转译为文本内容,添加至第一发言人的发言记录中,将所述第一声源位置、所述第一声纹特征与所述第一发言人关联存储至数据库中;
    获取第二段语音信息,并确定所述第二段语音信息的第二声源位置和第二声纹特征;
    将所述第二声源位置与数据库存储的第一声源位置进行比对确定声源匹配因子,以及,将所述第二声纹特征与数据库存储的第一声纹特征进行比对确定声纹匹配因子;
    将比对后的声源匹配因子和声纹匹配因子输入至联合模型中进行识别判断,输出所述第二段语音信息是否属于第一发言人;
    如果属于第一发言人,则将所述第二段语音信息转译为文本内容,添加至所述第一发言人的发言记录中;
    如果不属于第一发言人,则将所述第二段语音信息转译为文本内容,添加至新的发言人的发言记录中,并将所述第二声源位置、第二声纹特征与新的发言人进行关联后存储至数据库中;
    获取下一段语音信息,并得到对应的声源匹配因子和对应的声纹匹配因子,并将对应的声源匹配因子和对应的声纹匹配因子输入至联合模型进行再次识别判断,直至语音收录结束。
  2. 根据权利要求1所述的方法,其中,所述联合模型包括输入层、声源判断层、声纹判断层和输出层,所述将比对后的声源匹配因子和声纹匹配因子输入至联合模型中进行识别判断,输出所述第二段语音信息是否属于第一发言人,具体包括:
    将所述声源匹配因子和所述声纹匹配因子从输入层输入;
    利用所述声源判断层对所述声源匹配因子进行判断,当所述声源匹配因子≥声源阈值时,确定结果为声源匹配成功并发送至所述输出层,否则确定结果为声源匹配失败并发送至所述输出层;
    利用所述声纹判断层对所述声纹匹配因子进行判断,当所述声纹匹配因子≥声纹阈值时,确定结果为声纹匹配成功并发送至所述输出层,否则确定结果为声纹匹配失败并发送至所述输出层;
    当所述输出层接收到所述声源匹配成功和/或所述声纹匹配成功后,确定所述第二段语音信息属于第一发言人并输出,否则输出结果为空。
  3. 根据权利要求1或2所述的方法,其中,在所述将比对后的声源匹配因子和声纹匹配因子输入至联合模型中进行识别判断,输出所述第二段语音信息是否属于第一发言人之前,所述方法还包括:
    预先获取多个样本组合,其中,每个样本组合中包含有样本声源匹配因子和样本声纹匹配因子;
    构建具有初始输入层、初始声源判断层、初始声纹判断层和初始输出层的初始联合模型;
    为所述初始声源判断层设置声源初始阈值,为所述声纹判断层设置初始声纹阈值;
    将一个样本组合中的样本声源匹配因子和样本声纹匹配因子通过所述初始输入层进行输入,所述输入层将所述样本声源匹配因子发送至所述初始声源判断层,将所述样本声纹匹配因子发送至所述初始声纹判断层;
    所述初始声源判断层判断是否所述样本声源匹配因子≥声源初始阈值是则输出样本声源匹配成功发送至所述初始输出层,否则输出样本声源匹配失败发送至所述初始输出层;
    所述初始声纹判断层判断是否所述样本声纹匹配因子≥声纹初始阈值是则输出样本声纹匹配成功发送至所述初始输出层,否则输出样本声纹匹配失败发送至所述初始输出层;
    所述初始输出层接收到所述样本声源匹配成功和/或所述样本声纹匹配成功时,输出结果为属于同一个人,并将下一个样本组合输入至初始联合模型进行处理,否则输出结果为空,利用对应处理的样本组合的样本声源匹配因子替换所述声源初始阈值,利用对应处理的样本组合的样本声纹匹配因子替换所述声纹初始阈值,再将下一个样本组合输入至初始联合模型进行训练处理;
    当所述初始联合模型对所有的样本组合全部训练处理完成后,将所述初始联合模型作为联合模型。
  4. 根据权利要求3所述的方法,其中,所述预先获取多个样本组合,具体包括:
    预先获取多个人的样本语音,其中,每个人的样本语音中包含两个样本语音信息;
    对每个样本语音信息进行声源定位对应得到样本声源位置,以及进行声纹特征处理对应得到样本声纹特征;
    将同一个样本语音信息的语音样本信息的样本声源位置和样本声纹特征进行关联形成关联样本,将相同人的两个关联样本进行组合;
    将组合后的两个关联样本中的两个样本声源位置进行比对确定样本声源匹配因子,以及将组合后的两个关联样本中的两个样本声纹特征进行比对确定样本声纹匹配因子;
    将同一个人的所述样本声源匹配因子和所述样本声纹匹配因子进行关联形成样本组合。
  5. 根据权利要求3所述的方法,其中,在所述当所述初始联合模型对所有的样本组合全部处理完成后,将所述初始联合模型作为联合模型之后,所述方法还包括:
    获取预定数量的测试样本组合,其中,每个测试样本组合中包含测试声源匹配因子和测试声纹匹配因子;
    预先对所述测试样本组合是否属于同一个人进行标记;
    将预定数量的所述测试样本组合依次输入至联合模型中进行处理;
    统计输出结果与所述标记相同的测试概率,若所述测试概率≥概率阈值,将所述联合模型作为最终联合模型,若所述测试概率<概率阈值,重新获取新的样本组合对所述联合模型进行训练处理,直至得到的联合模型的测试概率≥概率阈值,将所述联合模型作为最终联合模型。
  6. 根据权利要求1所述的方法,其中,所述获取第一段语音信息,并确定所述第一段语音信息的第一声源位置和第一声纹特征,具体包括:
    根据至少两个收音器采集的第一段语音信息之间的时间差,计算所述第一段语音信息到达所述至少两个收音器的距离差,利用几何算法呢确定第一声源位置;
    根据所述第一段语音进行傅里叶分析,得到所述第一段语音的语音频谱随时间变化的语谱图形,将所述语谱图形作为第一声纹特征。
  7. 根据权利要求6所述的方法,其中,所述根据所述第一段语音进行傅里叶分析,得到所述第一段语音的语音频谱随时间变化的语谱图形,将所述语谱图形作为第一声纹特征,具体包括:
    对所述第一段语音进行分帧得到x(m,n),对x(m,n)进行傅里叶变换得到X(m,n),其中,n为帧长,m为帧的个数;
    计算所述第一段语音的周期图Y(m,n),Y(m,n)=X(m,n)*X(m,n)’,计算Z(m,n)=10*log10(Y(m,n)),并根据Z(m,n)绘制语谱图形,将所述语谱图形作为第一声纹特征。
  8. 一种语音记录装置,其中,所述装置包括:
    语音获取模块,用于获取第一段语音信息,并确定所述第一段语音信息的第一声源位置和第一声纹特征;
    转译存储模块,用于将所述第一段语音信息转译为文本内容,添加至第一发言人的发 言记录中,将所述第一声源位置、所述第一声纹特征与所述第一发言人关联存储至数据库中;
    所述语音获取模块,还用于获取第二段语音信息,并确定所述第二段语音信息的第二声源位置和第二声纹特征;
    比对模块,用于将所述第二声源位置与数据库存储的第一发言人的存储声源位置进行比对确定声源匹配因子,以及,将所述第二声纹特征分别与数据库存储的第一发言人的存储声纹特征进行比对确定声纹匹配因子;
    模型识别模块,用于将比对后的声源匹配因子和声纹匹配因子输入至联合模型中进行识别判断,输出所述第二段语音信息是否属于第一发言人;
    所述转译存储模块,还用于如果属于第一发言人,则将所述第二段语音信息转译为文本内容,添加至所述第一发言人的发言记录中;如果不属于第一发言人,则将所述第二段语音信息转译为文本内容,添加至新的发言人的发言记录中,并将所述第二声源位置、第二声纹特征与新的发言人进行关联后存储至数据库中;
    重复模块,用于获取下一段语音信息,并得到对应的声源匹配因子和对应的声纹匹配因子,并将对应的声源匹配因子和对应的声纹匹配因子输入至联合模型进行再次识别判断,直至语音收录结束。
  9. 一种计算机设备,包括存储器和处理器,所述存储器存储有计算机可读指令,其中,所述处理器执行所述计算机可读指令时实现语音记录方法的步骤,包括:
    获取第一段语音信息,并确定所述第一段语音信息的第一声源位置和第一声纹特征;
    将所述第一段语音信息转译为文本内容,添加至第一发言人的发言记录中,将所述第一声源位置、所述第一声纹特征与所述第一发言人关联存储至数据库中;
    获取第二段语音信息,并确定所述第二段语音信息的第二声源位置和第二声纹特征;
    将所述第二声源位置与数据库存储的第一声源位置进行比对确定声源匹配因子,以及,将所述第二声纹特征与数据库存储的第一声纹特征进行比对确定声纹匹配因子;
    将比对后的声源匹配因子和声纹匹配因子输入至联合模型中进行识别判断,输出所述第二段语音信息是否属于第一发言人;
    如果属于第一发言人,则将所述第二段语音信息转译为文本内容,添加至所述第一发言人的发言记录中;
    如果不属于第一发言人,则将所述第二段语音信息转译为文本内容,添加至新的发言人的发言记录中,并将所述第二声源位置、第二声纹特征与新的发言人进行关联后存储至数据库中;
    获取下一段语音信息,并得到对应的声源匹配因子和对应的声纹匹配因子,并将对应的声源匹配因子和对应的声纹匹配因子输入至联合模型进行再次识别判断,直至语音收录结束。
  10. 根据权利要求9所述的计算机设备,其中,所述联合模型包括输入层、声源判断层、声纹判断层和输出层,所述将比对后的声源匹配因子和声纹匹配因子输入至联合模型中进行识别判断,输出所述第二段语音信息是否属于第一发言人,具体包括:
    将所述声源匹配因子和所述声纹匹配因子从输入层输入;
    利用所述声源判断层对所述声源匹配因子进行判断,当所述声源匹配因子≥声源阈值时,确定结果为声源匹配成功并发送至所述输出层,否则确定结果为声源匹配失败并发送至所述输出层;
    利用所述声纹判断层对所述声纹匹配因子进行判断,当所述声纹匹配因子≥声纹阈值时,确定结果为声纹匹配成功并发送至所述输出层,否则确定结果为声纹匹配失败并发送至所述输出层;
    当所述输出层接收到所述声源匹配成功和/或所述声纹匹配成功后,确定所述第二段语音信息属于第一发言人并输出,否则输出结果为空。
  11. 根据权利要求9或10所述的计算机设备,其中,在所述将比对后的声源匹配因子和声纹匹配因子输入至联合模型中进行识别判断,输出所述第二段语音信息是否属于第一发言人之前,所述方法还包括:
    预先获取多个样本组合,其中,每个样本组合中包含有样本声源匹配因子和样本声纹匹配因子;
    构建具有初始输入层、初始声源判断层、初始声纹判断层和初始输出层的初始联合模型;
    为所述初始声源判断层设置声源初始阈值,为所述声纹判断层设置初始声纹阈值;
    将一个样本组合中的样本声源匹配因子和样本声纹匹配因子通过所述初始输入层进行输入,所述输入层将所述样本声源匹配因子发送至所述初始声源判断层,将所述样本声纹匹配因子发送至所述初始声纹判断层;
    所述初始声源判断层判断是否所述样本声源匹配因子≥声源初始阈值是则输出样本声源匹配成功发送至所述初始输出层,否则输出样本声源匹配失败发送至所述初始输出层;
    所述初始声纹判断层判断是否所述样本声纹匹配因子≥声纹初始阈值是则输出样本声纹匹配成功发送至所述初始输出层,否则输出样本声纹匹配失败发送至所述初始输出层;
    所述初始输出层接收到所述样本声源匹配成功和/或所述样本声纹匹配成功时,输出结果为属于同一个人,并将下一个样本组合输入至初始联合模型进行处理,否则输出结果为空,利用对应处理的样本组合的样本声源匹配因子替换所述声源初始阈值,利用对应处理的样本组合的样本声纹匹配因子替换所述声纹初始阈值,再将下一个样本组合输入至初始联合模型进行训练处理;
    当所述初始联合模型对所有的样本组合全部训练处理完成后,将所述初始联合模型作为联合模型。
  12. 根据权利要求11所述的计算机设备,其中,所述预先获取多个样本组合,具体包括:
    预先获取多个人的样本语音,其中,每个人的样本语音中包含两个样本语音信息;
    对每个样本语音信息进行声源定位对应得到样本声源位置,以及进行声纹特征处理对应得到样本声纹特征;
    将同一个样本语音信息的语音样本信息的样本声源位置和样本声纹特征进行关联形成关联样本,将相同人的两个关联样本进行组合;
    将组合后的两个关联样本中的两个样本声源位置进行比对确定样本声源匹配因子,以及将组合后的两个关联样本中的两个样本声纹特征进行比对确定样本声纹匹配因子;
    将同一个人的所述样本声源匹配因子和所述样本声纹匹配因子进行关联形成样本组合。
  13. 根据权利要求11所述的计算机设备,其中,在所述当所述初始联合模型对所有的样本组合全部处理完成后,将所述初始联合模型作为联合模型之后,所述方法还包括:
    获取预定数量的测试样本组合,其中,每个测试样本组合中包含测试声源匹配因子和测试声纹匹配因子;
    预先对所述测试样本组合是否属于同一个人进行标记;
    将预定数量的所述测试样本组合依次输入至联合模型中进行处理;
    统计输出结果与所述标记相同的测试概率,若所述测试概率≥概率阈值,将所述联合模型作为最终联合模型,若所述测试概率<概率阈值,重新获取新的样本组合对所述联合模型进行训练处理,直至得到的联合模型的测试概率≥概率阈值,将所述联合模型作为最终联合模型。
  14. 根据权利要求9所述的计算机设备,其中,所述获取第一段语音信息,并确定所述第一段语音信息的第一声源位置和第一声纹特征,具体包括:
    根据至少两个收音器采集的第一段语音信息之间的时间差,计算所述第一段语音信息 到达所述至少两个收音器的距离差,利用几何算法呢确定第一声源位置;
    根据所述第一段语音进行傅里叶分析,得到所述第一段语音的语音频谱随时间变化的语谱图形,将所述语谱图形作为第一声纹特征。
  15. 一种可读存储介质,其上存储有计算机可读指令,其中,所述计算机可读指令被处理器执行时实现语音记录方法的步骤,包括:
    获取第一段语音信息,并确定所述第一段语音信息的第一声源位置和第一声纹特征;
    将所述第一段语音信息转译为文本内容,添加至第一发言人的发言记录中,将所述第一声源位置、所述第一声纹特征与所述第一发言人关联存储至数据库中;
    获取第二段语音信息,并确定所述第二段语音信息的第二声源位置和第二声纹特征;
    将所述第二声源位置与数据库存储的第一声源位置进行比对确定声源匹配因子,以及,将所述第二声纹特征与数据库存储的第一声纹特征进行比对确定声纹匹配因子;
    将比对后的声源匹配因子和声纹匹配因子输入至联合模型中进行识别判断,输出所述第二段语音信息是否属于第一发言人;
    如果属于第一发言人,则将所述第二段语音信息转译为文本内容,添加至所述第一发言人的发言记录中;
    如果不属于第一发言人,则将所述第二段语音信息转译为文本内容,添加至新的发言人的发言记录中,并将所述第二声源位置、第二声纹特征与新的发言人进行关联后存储至数据库中;
    获取下一段语音信息,并得到对应的声源匹配因子和对应的声纹匹配因子,并将对应的声源匹配因子和对应的声纹匹配因子输入至联合模型进行再次识别判断,直至语音收录结束。
  16. 根据权利要求15所述的可读存储介质,其中,所述联合模型包括输入层、声源判断层、声纹判断层和输出层,所述将比对后的声源匹配因子和声纹匹配因子输入至联合模型中进行识别判断,输出所述第二段语音信息是否属于第一发言人,具体包括:
    将所述声源匹配因子和所述声纹匹配因子从输入层输入;
    利用所述声源判断层对所述声源匹配因子进行判断,当所述声源匹配因子≥声源阈值时,确定结果为声源匹配成功并发送至所述输出层,否则确定结果为声源匹配失败并发送至所述输出层;
    利用所述声纹判断层对所述声纹匹配因子进行判断,当所述声纹匹配因子≥声纹阈值时,确定结果为声纹匹配成功并发送至所述输出层,否则确定结果为声纹匹配失败并发送至所述输出层;
    当所述输出层接收到所述声源匹配成功和/或所述声纹匹配成功后,确定所述第二段语音信息属于第一发言人并输出,否则输出结果为空。
  17. 根据权利要求15或16所述的可读存储介质,其中,在所述将比对后的声源匹配因子和声纹匹配因子输入至联合模型中进行识别判断,输出所述第二段语音信息是否属于第一发言人之前,所述方法还包括:
    预先获取多个样本组合,其中,每个样本组合中包含有样本声源匹配因子和样本声纹匹配因子;
    构建具有初始输入层、初始声源判断层、初始声纹判断层和初始输出层的初始联合模型;
    为所述初始声源判断层设置声源初始阈值,为所述声纹判断层设置初始声纹阈值;
    将一个样本组合中的样本声源匹配因子和样本声纹匹配因子通过所述初始输入层进行输入,所述输入层将所述样本声源匹配因子发送至所述初始声源判断层,将所述样本声纹匹配因子发送至所述初始声纹判断层;
    所述初始声源判断层判断是否所述样本声源匹配因子≥声源初始阈值是则输出样本声源匹配成功发送至所述初始输出层,否则输出样本声源匹配失败发送至所述初始输出层;
    所述初始声纹判断层判断是否所述样本声纹匹配因子≥声纹初始阈值是则输出样本声纹匹配成功发送至所述初始输出层,否则输出样本声纹匹配失败发送至所述初始输出层;
    所述初始输出层接收到所述样本声源匹配成功和/或所述样本声纹匹配成功时,输出结果为属于同一个人,并将下一个样本组合输入至初始联合模型进行处理,否则输出结果为空,利用对应处理的样本组合的样本声源匹配因子替换所述声源初始阈值,利用对应处理的样本组合的样本声纹匹配因子替换所述声纹初始阈值,再将下一个样本组合输入至初始联合模型进行训练处理;
    当所述初始联合模型对所有的样本组合全部训练处理完成后,将所述初始联合模型作为联合模型。
  18. 根据权利要求17所述的可读存储介质,其中,所述预先获取多个样本组合,具体包括:
    预先获取多个人的样本语音,其中,每个人的样本语音中包含两个样本语音信息;
    对每个样本语音信息进行声源定位对应得到样本声源位置,以及进行声纹特征处理对应得到样本声纹特征;
    将同一个样本语音信息的语音样本信息的样本声源位置和样本声纹特征进行关联形成关联样本,将相同人的两个关联样本进行组合;
    将组合后的两个关联样本中的两个样本声源位置进行比对确定样本声源匹配因子,以及将组合后的两个关联样本中的两个样本声纹特征进行比对确定样本声纹匹配因子;
    将同一个人的所述样本声源匹配因子和所述样本声纹匹配因子进行关联形成样本组合。
  19. 根据权利要求17所述的可读存储介质,其中,在所述当所述初始联合模型对所有的样本组合全部处理完成后,将所述初始联合模型作为联合模型之后,所述方法还包括:
    获取预定数量的测试样本组合,其中,每个测试样本组合中包含测试声源匹配因子和测试声纹匹配因子;
    预先对所述测试样本组合是否属于同一个人进行标记;
    将预定数量的所述测试样本组合依次输入至联合模型中进行处理;
    统计输出结果与所述标记相同的测试概率,若所述测试概率≥概率阈值,将所述联合模型作为最终联合模型,若所述测试概率<概率阈值,重新获取新的样本组合对所述联合模型进行训练处理,直至得到的联合模型的测试概率≥概率阈值,将所述联合模型作为最终联合模型。
  20. 根据权利要求15所述的可读存储介质,其中,所述获取第一段语音信息,并确定所述第一段语音信息的第一声源位置和第一声纹特征,具体包括:
    根据至少两个收音器采集的第一段语音信息之间的时间差,计算所述第一段语音信息到达所述至少两个收音器的距离差,利用几何算法呢确定第一声源位置;
    根据所述第一段语音进行傅里叶分析,得到所述第一段语音的语音频谱随时间变化的语谱图形,将所述语谱图形作为第一声纹特征。
PCT/CN2021/125178 2020-12-28 2021-10-21 一种语音记录方法、装置、计算机设备及可读存储介质 WO2022142610A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011576937.5 2020-12-28
CN202011576937.5A CN112767941A (zh) 2020-12-28 2020-12-28 一种语音记录方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
WO2022142610A1 true WO2022142610A1 (zh) 2022-07-07

Family

ID=75697718

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/125178 WO2022142610A1 (zh) 2020-12-28 2021-10-21 一种语音记录方法、装置、计算机设备及可读存储介质

Country Status (2)

Country Link
CN (1) CN112767941A (zh)
WO (1) WO2022142610A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116911817A (zh) * 2023-09-08 2023-10-20 浙江智加信息科技有限公司 一种无纸化会议记录归档方法及系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112767941A (zh) * 2020-12-28 2021-05-07 深圳壹账通智能科技有限公司 一种语音记录方法、装置、电子设备及存储介质
CN113571101B (zh) * 2021-09-10 2022-09-20 深圳市升迈电子有限公司 智能录音方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107564531A (zh) * 2017-08-25 2018-01-09 百度在线网络技术(北京)有限公司 基于声纹特征的会议记录方法、装置及计算机设备
CN109388701A (zh) * 2018-08-17 2019-02-26 深圳壹账通智能科技有限公司 会议记录生成方法、装置、设备和计算机存储介质
CN109817225A (zh) * 2019-01-25 2019-05-28 广州富港万嘉智能科技有限公司 一种基于位置的会议自动记录方法、电子设备及存储介质
CN110767226A (zh) * 2019-10-30 2020-02-07 山西见声科技有限公司 具有高准确度的声源定位方法、装置、语音识别方法、系统、存储设备及终端
US20200051584A1 (en) * 2018-08-08 2020-02-13 Fujitsu Limited Storage medium, sound source direction estimation method, and sound source direction estimation device
CN112037791A (zh) * 2020-08-12 2020-12-04 广东电力信息科技有限公司 会议纪要转录方法、设备和存储介质
CN112767941A (zh) * 2020-12-28 2021-05-07 深圳壹账通智能科技有限公司 一种语音记录方法、装置、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107564531A (zh) * 2017-08-25 2018-01-09 百度在线网络技术(北京)有限公司 基于声纹特征的会议记录方法、装置及计算机设备
US20200051584A1 (en) * 2018-08-08 2020-02-13 Fujitsu Limited Storage medium, sound source direction estimation method, and sound source direction estimation device
CN109388701A (zh) * 2018-08-17 2019-02-26 深圳壹账通智能科技有限公司 会议记录生成方法、装置、设备和计算机存储介质
CN109817225A (zh) * 2019-01-25 2019-05-28 广州富港万嘉智能科技有限公司 一种基于位置的会议自动记录方法、电子设备及存储介质
CN110767226A (zh) * 2019-10-30 2020-02-07 山西见声科技有限公司 具有高准确度的声源定位方法、装置、语音识别方法、系统、存储设备及终端
CN112037791A (zh) * 2020-08-12 2020-12-04 广东电力信息科技有限公司 会议纪要转录方法、设备和存储介质
CN112767941A (zh) * 2020-12-28 2021-05-07 深圳壹账通智能科技有限公司 一种语音记录方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116911817A (zh) * 2023-09-08 2023-10-20 浙江智加信息科技有限公司 一种无纸化会议记录归档方法及系统
CN116911817B (zh) * 2023-09-08 2023-12-01 浙江智加信息科技有限公司 一种无纸化会议记录归档方法及系统

Also Published As

Publication number Publication date
CN112767941A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
WO2022142610A1 (zh) 一种语音记录方法、装置、计算机设备及可读存储介质
US11699456B2 (en) Automated transcript generation from multi-channel audio
US7995732B2 (en) Managing audio in a multi-source audio environment
TWI616868B (zh) 會議記錄裝置及其自動生成會議記錄的方法
JP4085924B2 (ja) 音声処理装置
CN111785279A (zh) 视频说话人的识别方法、装置、计算机设备及存储介质
EP2879130A1 (en) Methods and systems for splitting a digital signal
US9251808B2 (en) Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof
US20130253932A1 (en) Conversation supporting device, conversation supporting method and conversation supporting program
WO2016197708A1 (zh) 一种录音方法及终端
US20140046666A1 (en) Information processing apparatus, computer program product, and information processing method
US11373638B2 (en) Presentation assistance device for calling attention to words that are forbidden to speak
US20200194003A1 (en) Meeting minute output apparatus, and control program of meeting minute output apparatus
CN110460798B (zh) 视频访谈服务处理方法、装置、终端与存储介质
WO2019228135A1 (zh) 匹配阈值的调整方法、装置、存储介质及电子设备
CN110111778B (zh) 一种语音处理方法、装置、存储介质及电子设备
US20180366127A1 (en) Speaker recognition based on discriminant analysis
JP2015087544A (ja) 音声認識装置及び音声認識プログラム
US11600279B2 (en) Transcription of communications
CN112908336A (zh) 一种用于语音处理装置的角色分离方法及其语音处理装置
TWI769520B (zh) 多國語言語音辨識及翻譯方法與相關的系統
JP2009086207A (ja) 議事録情報生成システム、議事録情報生成方法、及び議事録情報生成プログラム
US10505879B2 (en) Communication support device, communication support method, and computer program product
JP6596913B2 (ja) スケジュール作成装置、スケジュール作成方法、プログラム
JP2015036826A (ja) コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21913355

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205 DATED 05/10/2023)