WO2021087665A1 - 数据处理方法、装置、服务器和存储介质 - Google Patents
数据处理方法、装置、服务器和存储介质 Download PDFInfo
- Publication number
- WO2021087665A1 WO2021087665A1 PCT/CN2019/115337 CN2019115337W WO2021087665A1 WO 2021087665 A1 WO2021087665 A1 WO 2021087665A1 CN 2019115337 W CN2019115337 W CN 2019115337W WO 2021087665 A1 WO2021087665 A1 WO 2021087665A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- keyword
- recognized text
- target segment
- presentation format
- keyword table
- Prior art date
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 64
- 230000011218 segmentation Effects 0.000 claims description 47
- 238000013519 translation Methods 0.000 claims description 47
- 230000008859 change Effects 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 33
- 230000015654 memory Effects 0.000 claims description 31
- 238000001914 filtration Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 239000012634 fragment Substances 0.000 abstract description 14
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000001360 synchronised effect Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000005291 magnetic effect Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 229930182555 Penicillin Natural products 0.000 description 4
- JGSARLDLIJGVTE-MBNYWOFBSA-N Penicillin G Chemical compound N([C@H]1[C@H]2SC([C@@H](N2C1=O)C(O)=O)(C)C)C(=O)CC1=CC=CC=C1 JGSARLDLIJGVTE-MBNYWOFBSA-N 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 229940049954 penicillin Drugs 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005294 ferromagnetic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Definitions
- the determining the target segment in the recognized text that meets the first preset condition includes at least one of the following:
- the keyword database includes at least two keyword tables; each keyword table in the at least two keyword tables corresponds to a different format; each keyword table in the at least two keyword tables corresponds to a different Priority
- the method further includes:
- the updating the first keyword table based on the word segmentation result includes:
- the weight of the corresponding word is determined based on the number of occurrences and the number of word elements; the weight changes with the change in the number of occurrences of the corresponding word in the recognized text; the recognized text follows the to-be-processed Voice data changes and changes;
- the first keyword table is updated according to the keywords that meet the second preset condition and the weights corresponding to the keywords; the keywords correspond to at least one language.
- the word that meets the second preset condition in the result of determining the word segmentation includes at least one of the following:
- the embodiment of the application also provides a data processing device, including:
- Figure 1 is a schematic diagram of the system architecture of the application of simultaneous interpretation methods in related technologies
- FIG. 4 is a schematic flowchart of a method for determining a first presentation format according to an embodiment of the application
- FIG. 2 is a schematic flowchart of a data processing method according to an embodiment of the application; as shown in FIG. 2, the method includes:
- the first presentation format is different from the second presentation format;
- the second presentation format is a presentation format of characters other than the target segment in the recognized text.
- the recognized text obtained from the voice data can correspond to one or more languages, and the recognized texts of different languages are used to display to users of different languages.
- the translation model is used to translate text in one language into text in another language.
- step 202 the determining the target segment in the recognized text that meets the first preset condition includes at least one of the following:
- the determining the first presentation format of the target segment includes:
- the keyword database may include at least two keyword tables; each keyword table in the at least two keyword tables corresponds to a different format; each keyword table in the at least two keyword tables Corresponding to different priorities;
- the first keyword table is updated; the first keyword table is a keyword table in the keyword database; the keywords in the first keyword table and the weights of the keywords follow It changes with the change of the voice data to be processed.
- Each word can correspond to 3 attributes:
- the font change factor can be a decimal or an integer (for example: 0.5 as a step, specifically 0.5, 1.0, 1.5, 2.0 and other numbers can be used); in the process of continuous changes in voice data, as the weight of keywords changes, the font The size also changes accordingly.
- the font change factor specifically refers to the font size of the target segment that needs to be enlarged; assuming that the original font size (ie, the second presentation format) of the recognized text is 2, the determined font change factor is 1.0; then the first presentation format is: The font size is 3. There can be a maximum limit for the size of the font size, and the font size will not change after the maximum limit is reached.
- the above-mentioned segmentation of the recognized text in the first language is performed to determine the keywords; after the keywords are determined, the preset translation engine is used to translate the keywords to obtain keywords in other languages.
- the content of the translation is more accurate, which can improve the accuracy of each keyword in the keyword table.
- a keyword table containing professional terms can be preset to determine the professional terms that need to be specially displayed in the recognized text.
- the method further includes:
- Term extraction is performed on the bilingual data of the machine translation model, and a second keyword table is generated based on the extracted terms; the second keyword table is used as a keyword table in the keyword database.
- Speech recognition that is, words in the first language
- automatic speech recognition that is, words in the second language
- 0.02 that is, weight
- the third keyword table is different from the first keyword table and the second keyword table, and the third keyword table is set by professionals in the corresponding field according to their experience. This is considering that each field actually has certain professional terms, such as medicine, aerospace, real estate, etc.
- the keywords set by professional and technical personnel in their fields are more authoritative and accurate.
- the priority of the third keyword table may be higher than the priority of the first keyword table, and the priority of the first keyword table may be higher than the priority of the second keyword table.
- the keywords contained in them can be translated in other languages to obtain the translation result.
- the target segment can be determined by querying the keyword table.
- the method can be applied to servers, mobile terminals, cloud devices, and so on.
- the keyword database may be composed of at least one keyword table.
- the term list T1 is equivalent to the second keyword list in the method shown in FIG. 2, and each term has a weight.
- the format of the term list T1 can be as shown in Table 1 below:
- Words in the first language Words in the second language Weights machine translation machine translation 0.03 Speech Recognition automatic speech recognition 0.02
- the step 301 includes: obtaining a manually maintained term list T2 as a keyword table in the keyword database.
- Step 302 Determine the voice data in the simultaneous interpretation process, perform text recognition on the voice data, and obtain recognized text.
- the first presentation format is different from the second presentation format;
- the second presentation format is a presentation format of characters other than the target segment in the recognized text.
- Step 3031 Look up the term list T1, the term list T2, and the term list D according to the text T;
- the first presentation format can be F+4 (that is, the font size plus 4, F is the initial font size of the text), and it is marked in red;
- the first presentation format may be F+3 (that is, the font size plus 3); the first presentation format may also include setting the color of the text, such as marking the color of the text as green to highlight the included fragments;
- the first presentation format can be F+2 (that is, the font size plus 2); the first presentation format can also be to set the color of the text, such as marking the color of the text as blue to highlight the included fragments .
- the keywords in the glossary T1 and T2 will not change, but the keywords in the glossary D are constantly changing, that is, the attribute of the word (specifically refers to the frequency attribute, The weight attribute) is also changing. Changes in these attributes can also be reflected in a method. Specifically, the weight can be mapped to a font change factor as a factor to be enlarged for the keyword; the font change factor can be a decimal or an integer (assuming 0.5 is a step, the font change factor can be 0.5, 1.0, 1.5, 2.0 etc.). In the process of simultaneous interpretation, according to the font change factor, the keywords in the recognized text will be gradually enlarged. Of course, the font size has a maximum limit, and it will not change if it exceeds the maximum limit.
- the data processing method provided in this application can determine the key information in the recognized text (such as the above terms) in the simultaneous interpretation scene, and display the key information in the speaker’s speech by changing its font size and color. Remind users so that they can capture the main content of the lecturer in a short time; in this way, users can have a general understanding of the lecture content without having to watch the full screen content, especially suitable for the lecturer's speech. Fast scene.
- Step 401 When determining a target segment in the recognized text that meets a first preset condition, determine a candidate keyword table corresponding to the target segment;
- Step 402 Determine the number of candidate keyword tables. When the number of candidate keyword tables is one, perform step 403; when the number of candidate keyword tables is at least two, perform step 404;
- FIG. 5 is a schematic diagram of the composition structure of a data processing device according to an embodiment of the application; as shown in FIG. 5, the data processing device includes:
- the first processing unit 52 is configured to search a keyword library according to the recognized text, and determine a target segment in the recognized text that meets a first preset condition;
- the keyword database may include at least two keyword tables; each keyword table in the at least two keyword tables corresponds to a different format; each keyword table in the at least two keyword tables corresponds to a different Priority.
- the first keyword table is updated; the first keyword table is a keyword table in the keyword database; the keywords in the first keyword table and the weights of the keywords follow It changes with the change of the voice data to be processed.
- the third processing unit is specifically configured to determine, for each word in the word segmentation result, the number of occurrences and the number of tokens of the corresponding word;
- the first keyword table is updated according to the keywords and the weights corresponding to the keywords that meet the second preset condition; the keywords correspond to at least one language.
- the second processing unit 53 is configured to determine the format corresponding to the font change factor as the first presentation format when the target keyword table corresponding to the target segment is the first keyword table.
- the device provided in the above embodiment performs data processing
- only the division of the above-mentioned program modules is used as an example.
- the above-mentioned processing can be allocated by different program modules as needed, that is, the terminal
- the internal structure is divided into different program modules to complete all or part of the processing described above.
- the device provided in the above-mentioned embodiment and the data processing method embodiment belong to the same concept. For the specific implementation process, please refer to the method embodiment, which will not be repeated here.
- FIG. 6 is a schematic diagram of the hardware composition structure of the server according to an embodiment of the present application.
- the server 60 includes a memory 63, a processor 62, and a storage device.
- a computer program that is on the memory 63 and can run on the processor 62; when the processor 62 located on the server executes the program, the method provided by one or more technical solutions on the server side is implemented.
- the processor 62 located in the server 60 executes the program, it realizes: obtain the voice data to be processed, perform text recognition on the voice data, and obtain the recognized text; the recognized text is used when the voice data is played Perform presentation; search a keyword library according to the recognized text to determine a target segment in the recognized text that meets a first preset condition; determine the first presentation format of the target segment, so that when the recognized text is presented The first presentation format presents the target segment; the first presentation format is different from the second presentation format; the second presentation format is a presentation format of other words in the recognized text except the target segment.
- the server further includes a communication interface 61; various components in the server are coupled together through the bus system 64. It can be understood that the bus system 64 is configured to implement connection and communication between these components. In addition to the data bus, the bus system 64 also includes a power bus, a control bus, and a status signal bus.
- the memory 63 in this embodiment may be a volatile memory or a non-volatile memory, and may also include both volatile and non-volatile memory.
- the non-volatile memory can be a read-only memory (ROM, Read Only Memory), a programmable read-only memory (PROM, Programmable Read-Only Memory), an erasable programmable read-only memory (EPROM, Erasable Programmable Read- Only Memory, Electrically Erasable Programmable Read-Only Memory (EEPROM, Electrically Erasable Programmable Read-Only Memory), magnetic random access memory (FRAM, ferromagnetic random access memory), flash memory (Flash Memory), magnetic surface memory , CD-ROM, or CD-ROM (Compact Disc Read-Only Memory); magnetic surface memory can be magnetic disk storage or tape storage.
- the volatile memory may be a random access memory (RAM, Random Access Memory), which is used as an external cache.
- RAM random access memory
- SRAM static random access memory
- SSRAM synchronous static random access memory
- Synchronous Static Random Access Memory Synchronous Static Random Access Memory
- the method disclosed in the foregoing embodiments of the present application may be applied to the processor 62 or implemented by the processor 62.
- the processor 62 may be an integrated circuit chip with signal processing capabilities. In the implementation process, the steps of the foregoing method can be completed by an integrated logic circuit of hardware in the processor 62 or instructions in the form of software.
- the aforementioned processor 62 may be a general-purpose processor, a DSP, or other programmable logic devices, discrete gates or transistor logic devices, discrete hardware components, and the like.
- the processor 62 may implement or execute various methods, steps, and logical block diagrams disclosed in the embodiments of the present application.
- the general-purpose processor may be a microprocessor or any conventional processor or the like.
- the steps of the method disclosed in the embodiments of the present application can be directly embodied as being executed and completed by a hardware decoding processor, or executed and completed by a combination of hardware and software modules in the decoding processor.
- the software module may be located in a storage medium, and the storage medium is located in a memory.
- the processor 62 reads the information in the memory and completes the steps of the foregoing method in combination with its hardware.
- the embodiments of the present application also provide a storage medium, which is specifically a computer storage medium, and more specifically, a computer-readable storage medium.
- Computer instructions that is, computer programs, are stored thereon, and when the computer instructions are executed by the processor, the method provided by one or more technical solutions on the server side is provided.
- the disclosed method and smart device can be implemented in other ways.
- the device embodiments described above are merely illustrative.
- the division of the units is only a logical function division, and there may be other divisions in actual implementation, such as: multiple units or components can be combined, or It can be integrated into another system, or some features can be ignored or not implemented.
- the coupling, or direct coupling, or communication connection between the components shown or discussed may be indirect coupling or communication connection through some interfaces, devices or units, and may be in electrical, mechanical or other forms. of.
- the functional units in the embodiments of the present application may all be integrated into a second processing unit, or each unit may be individually used as a unit, or two or more units may be integrated into one unit;
- the above-mentioned integrated unit may be implemented in the form of hardware, or may be implemented in the form of hardware plus software functional units.
- the foregoing program can be stored in a computer readable storage medium. When the program is executed, it is executed. Including the steps of the foregoing method embodiment; and the foregoing storage medium includes: various media that can store program codes, such as a mobile storage device, ROM, RAM, magnetic disk, or optical disk.
- the above-mentioned integrated unit of the present application is implemented in the form of a software function module and sold or used as an independent product, it may also be stored in a computer readable storage medium.
- the computer software product is stored in a storage medium and includes several instructions for A computer device (which may be a personal computer, a server, or a network device, etc.) executes all or part of the methods described in the various embodiments of the present application.
- the aforementioned storage media include: removable storage devices, ROM, RAM, magnetic disks, or optical disks and other media that can store program codes.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
一种数据处理方法、装置、服务器和存储介质。其中,所述方法包括:获得待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;所述识别文本用于在播放所述语音数据时进行呈现(201);根据所述识别文本查找关键词库,确定所述识别文本中符合第一预设条件的目标片段(202);确定所述目标片段的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标片段;所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为所述识别文本中除所述目标片段外的其它文字的呈现格式(203)。
Description
本申请涉及同声传译技术,具体涉及一种数据处理方法、装置、服务器和存储介质。
随着人工智能技术的飞速发展,人工智能(AI,Artificial Intelligence)概念已从实验室中的黑科技逐步落地现实,应用到现实生活中的方方面面。
同传系统是近些年出现的针对会议场景的语音翻译产品,其运用AI技术为会议演讲者的演讲内容提供多语种的文本翻译和文本展现。
相关同传系统中,通过文字对演讲内容进行展示,但对于用户来说不能够通过展示的内容真正直观了解到演讲内容的关键信息。
发明内容
为解决相关技术问题,本申请实施例提供了一种数据处理方法、装置、服务器和存储介质。
本申请实施例提供了一种数据处理方法,应用于服务器,包括:
获得待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;所述识别文本用于在播放所述语音数据时进行呈现;
根据所述识别文本查找关键词库,确定所述识别文本中符合第一预设条件的目标片段;
确定所述目标片段的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标片段;所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为所述识别文本中除所述目标片段外的其它文字的呈现格式。
上述方案中,所述确定所述识别文本中符合第一预设条件的目标片段,包括以下至少之一:
从所述识别文本中确定与所述关键词库中任一关键词匹配的目标片段;
从所述识别文本中确定至少两个关键词;基于所述至少两个关键词中各关键词的权重确定所述目标片段。
上述方案中,所述关键词库包括至少一个关键词表;
所述确定所述目标片段的第一呈现格式,包括:
确定所述目标片段对应的目标关键词表;所述目标关键词表包括与所述目标片段匹配的关键词;
将所述目标关键词表对应的格式,作为所述第一呈现格式。
上述方案中,所述关键词库包括至少两个关键词表;所述至少两个关键词表中各关键词表对应不同的格式;所述至少两个关键词表中各关键词表对应不同的优先级;
所述确定所述目标片段对应的目标关键词表,包括:
确定所述目标片段对应的至少两个候选关键词表;
将所述至少两个候选关键词表中优先级高的候选关键词表作为目标关键词表。
上述方案中,所述方法还包括:
对所述识别文本进行分词,得到至少一个词;
对所述至少一个词进行过滤,将滤除后得到的词,作为所述分词结果;
基于所述分词结果,更新第一关键词表;所述第一关键词表为所述关键词库中的一个关键词表;所述第一关键词表中的关键词和关键词的权重随着所述待处理的语音数据的变化而变化。
上述方案中,所述基于所述分词结果,更新第一关键词表,包括:
针对所述分词结果中的每个词,确定相应词的出现次数和词元数;
基于所述出现次数和所述词元数确定所述相应词的权重;所述权重随着所述相应词在识别文本中出现次数的变化而变化;所述识别文本随着所述待处理的语音数据的变化而变化;
确定所述分词结果中符合第二预设条件的词,作为关键词;
根据符合第二预设条件的关键词和关键词对应的权重,更新所述第一关键词表;所述关键词对应有至少一种语种。
上述方案中,所述确定所述分词结果中符合第二预设条件的词,包括以下至少之一:
确定所述分词结果中权重超过预设权重阈值的词;
确定所述分词结果中出现次数超过预设次数阈值的词。
上述方案中,所述第一关键词表中各关键词对应有字体变化因子,所述字体变化因子与所述权重相关;
所述确定所述目标片段的第一呈现格式,包括:
当所述目标片段对应的目标关键词表为第一关键词表时,确定所述字体变化因子对应的格式,作为所述第一呈现格式。
上述方案中,所述方法还包括:
对机器翻译模型的双语数据进行术语抽取,基于抽取的术语生成第二关键词表;所述第二关键词表为关键词库中的一个关键词表。
本申请实施例还提供了一种数据处理装置,包括:
获取单元,配置为获得待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;所述识别文本用于在播放所述语音数据时进行呈现;
第一处理单元,配置为根据所述识别文本查找关键词库,确定所述识别文本中符合第一预设条件的目标片段;
第二处理单元,配置为确定所述目标片段的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标片段;所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为所述识别文本中除所述目标片段外的其它文字的呈现格式。
本申请实施例又提供了一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一数据处理方法的步骤。
本申请实施例还提供了一种存储介质,其上存储有计算机指令,所述指令被处理器执行时实现上述任一数据处理方法的步骤。
本申请实施例提供的数据处理方法、装置、服务器和存储介质,获得待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;所述识别文本用于在播放所述语音数据时进行呈现;根据所述识别文本查找关键词库,确定所述识别文本中符合第一预设条件的目标片段;确定所述目标片段的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标片段;所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为所述识别文本中除所述目标片段外的其它文字的呈现格式,如此,能够对语音数据进行关键信息提取,并将关键信息在识别文本中进行重点呈现,从而能够使用户直观的了解到语音数据的关键信息。
图1为相关技术中同声传译方法应用的系统架构示意图;
图2为本申请实施例的数据处理方法的一种流程示意图;
图3为本申请实施例的数据处理方法的另一种流程示意图;
图4为本申请实施例的第一呈现格式的确定方法的流程示意图;
图5为本申请实施例的数据处理装置的组成结构示意图;
图6为本申请实施例的服务器的组成结构示意图。
下面结合附图及实施例对本申请作进一步详细的说明。
在对本申请实施例的技术方案进行详细说明之前,首先对相关技术中的同声传译方法应用的系统进行简单说明。
图1为相关技术中同声传译方法应用的系统架构示意图;如图1所示, 所述系统可包括:机器同传服务端、语音处理服务器、观众移动端、个人电脑(PC,Personal Computer)客户端、显示屏幕。
实际应用中,演讲者可以通过PC客户端进行会议演讲,在进行会议演讲的过程中,PC客户端采集演讲者的语音数据,将采集的语音数据发送给机器同传服务端,所述机器同传服务端通过语音处理服务器对语音数据进行识别,得到识别结果(所述识别结果可以是与语音数据相同语种的识别文本,也可以是对所述识别文本进行翻译后得到的其他语种的翻译文本);机器同传服务端可以将识别结果发送给PC客户端,由PC客户端将识别结果投屏到显示屏幕上;还可以将识别结果发送给观众移动端(具体依据用户所需的语种,对应发送相应语种的识别结果),为用户展示识别结果,从而实现将演讲者的演讲内容翻译成用户需要的语种并进行展示。
然而仅对语音数据进行文本识别和翻译,并通过文字对演讲内容进行展示,并没有对演讲内容中的关键信息进行提取,更不能讲关键信息突出展示给用户,对于用户来说不能够通过展示的内容真正直观了解到演讲内容的关键信息,不够便捷。
基于此,在本申请的各种实施例中,对语音数据进行识别,得到识别文本,运用关键词库查询识别文本,确定目标片段;在呈现识别文本时,以不同于识别文本中除目标片段外的其他文字的格式来呈现目标片段;从而能够对语音数据进行关键信息(即所述目标片段)的提取,并对关键信息进行重点展示,使用户能够直观地了解到语音数据的关键信息。
本申请实施例提供了一种数据处理方法,应用于服务器,图2为本申请实施例的数据处理方法的一种流程示意图;如图2所示,所述方法包括:
步骤201:获得待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;
这里,所述识别文本用于在播放所述语音数据时进行呈现。
步骤202:根据所述识别文本查找关键词库,确定所述识别文本中符合第一预设条件的目标片段;
步骤203:确定所述目标片段的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标片段;
这里,所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为所述识别文本中除所述目标片段外的其它文字的呈现格式。
其中,在步骤201中,实际应用时,所述待处理的语音数据可以由第一终端采集并发送给所述服务器。所述第一终端可以是个人电脑、平板电脑等移动终端。所述第一终端可以设有或者连接有语音采集模块,如麦克风,通过所述语音采集模块进行声音采集,得到所述待处理的语音数据。
在步骤201中,在播放所述语音数据时呈现识别文本,指在播放语音数据的同时呈现识别文本,即所述数据数据处理方法应用于同声传译的场景。
具体来说,在同声传译场景下,当演讲者进行演讲时,第一终端(如图1所示的PC)利用语音采集模块实时采集演讲内容,即得到待处理的语音数据。所述第一终端与所述服务器之间可以建立通信连接,所述第一终端将获取的语音数据发送给服务器,所述服务器即可实时获取所述待处理的语音数据。所述服务器对所述待处理的语音数据进行文本识别,获得识别文本并进行呈现,即实现在播放所述语音数据的同时呈现识别文本。
所述同声传译场景可以采用如图1所示系统架构,本申请方法应用于服务器中,所述服务器可以是在图1系统架构中新增加的服务器,用于实现本申请的方案(即图2所示方法),也可以是对图1架构中所述语音处理服务器进行改进,以实现本申请的方案即可。
实际应用中,根据语音数据得到的识别文本可以对应有一种或多种语种,不同语种的识别文本用以展示给不同语种的用户。
这里,所述识别文本对应有至少一种语种,所述识别文本可以是与所述待处理的语音数据相同语种(记做第一语种)的识别文本,也可以是针对第一语种的识别文本进行翻译后的其他语种的识别文本,具体可以是第二语种的识别文本、……、第N语种的识别文本,N大于或等于1。
当所述识别文本为与所述待处理的语音数据相同语种的文本时,所述对所述语音数据进行文本识别,获得识别文本,包括:
对所述语音数据进行语音识别(ASR,Automatic Speech Recognition),获得第一语种的识别文本;所述第一语种与所述语音数据对应的语种相同。
当所述识别文本为与所述待处理的语音数据不同语种的文本时,所述对所述语音数据进行文本识别,获得识别文本,包括:
对所述语音数据进行语音识别,获得第一语种的识别文本;所述第一语种与所述语音数据对应的语种相同;
运用预设的翻译模型对所述第一语种的识别文本进行机器翻译(MT,Machine Translation),获得其他语种的识别文本。
通过上述方式对所述语音数据进行文本识别,获得的识别文本对应有至少一种语种,即根据所述语音数据可以得到第一语种的识别文本、第二语种的识别文本、……、第N语种的识别文本,N大于或等于1。
这里,所述翻译模型,用于将一种语种的文本翻译为另一种语种的文本。
在一实施例中,所述服务器获得识别文本后,可以将获得的识别文本发送给用户持有的第二终端(如图1所示的观众移动端),在播放所述语音数据时由第二终端呈现识别文本,用户即可阅读识别文本,以了解所述语音数据的内容。这里,持有第二终端的用户还可以通过第二终端的人机交互界面进行语种选择,第二终端将选择的语种发送给服务器,服务器根据用户选择的语种发送相应语种的识别文本。
在另一实施例中,所述服务器也可以将识别文本发送给第一终端,由 第一终端通过连接的显示屏幕(即运用投屏技术进行投屏)呈现至少一种语种的识别文本,用户阅读相应语种的识别文本,以了解所述语音数据的内容。
其中,在步骤202中,实际应用时,所述识别文本中可以有一个或多个目标片段。所述目标片段指所述识别文本中一串字符,如术语、关键词等。
在步骤202中,所述确定所述识别文本中符合第一预设条件的目标片段,包括以下至少之一:
从所述识别文本中确定与所述关键词库中任一关键词匹配的目标片段;
从所述识别文本中确定至少两个关键词;基于所述至少两个关键词中各关键词的权重确定所述目标片段。
具体来说,当所述识别文本中的一串字符仅与关键词库中的一个关键词匹配,则认为上述与一个关键词匹配的字符为一个目标片段。
当所述识别文本中的一串字符可以与所述关键词库中的至少两个关键词匹配时,确定所述至少两个关键词的权重,基于权重高的关键词确定目标片段。
举例来说,关键词库中包括两个关键词:翻译、机器翻译,当识别文本中包含一串字符:机器翻译,所述字符“机器翻译”可以与上述两个关键词匹配,此时,确定关键词“翻译”和“机器翻译”的权重,若关键词“翻译”的权重高,则确定目标片段为:翻译;反之,若关键词“机器翻译”的权重高,则确定目标片段为:机器翻译。
实际应用中,目标片段的选择标准可能不同,例如可以是针对识别文本中的技术术语、反复提及的内容等;为了可以按照多种标准确定目标片段,可以由至少一个关键词表组成关键词库。
基于此,在一实施例中,所述关键词库,可以包括至少一个关键词表;
所述确定所述目标片段的第一呈现格式,包括:
确定所述目标片段对应的目标关键词表;所述目标关键词表包括与所述目标片段匹配的关键词;
将所述目标关键词表对应的格式,作为所述第一呈现格式。
这里,所述第二呈现格式可以是预设的识别文本的呈现格式。所述第一呈现格式与关键词表对应,并区别于第二呈现格式。
实际应用中,所述关键词库,可以包括至少两个关键词表;所述至少两个关键词表中各关键词表对应不同的格式;所述至少两个关键词表中各关键词表对应不同的优先级;
所述目标片段存在对应至少两个关键词表(即所述目标片段匹配的关键词存在于至少两个关键词表)的情况,此时,所述确定所述目标片段的第一呈现格式,包括:
确定所述目标片段对应的至少两个候选关键词表;
将所述至少两个候选关键词表中优先级高的候选关键词表作为目标关键词表。
举例来说,所述关键词库包括:关键词表一和关键词表二;关键词表一的优先级高于所述关键词表二的优先级;关键词表一对应呈现格式一,关键词表二对应呈现格式二。关键词表一包括有关键词A、关键词B;所述关键词表二包括有关键词B、关键词C;服务器根据识别文本查找关键词库,确定目标片段:关键词B;即所述目标片段匹配的关键词存在于两个关键词表,由于两个关键词表分别对应不同的呈现格式;此时,选择优先极高的关键词表一对应的呈现格式一,作为所述目标片段的第一呈现格式。
这里,为了使用户更直观地了解到目标片段是基于哪个关键词表确定的,针对至少两个关键词表中各关键词表可以对应有不同的一呈现格式。
这里,考虑到不同的关键词表可能具有相同的关键词,为了确定存在于不同关键词表的目标片段所对应的第一呈现格式,这里针对至少两个关键词表中各关键词表可以对应有不同的优先级,选择优先级高的关键词表对应的呈现格式。
实际应用时,可以将每个词的权重与识别文本中每个词的重复程度相关联,根据词的重复程度来更新每个词的权重,使得确定的目标片段可以更准确的反映出语音数据的重点,从而帮助用户直观的了解语音数据的重点内容。
基于此,在一实施例中,所述方法还包括:
对所述识别文本进行分词,得到至少一个词;
对所述至少一个词进行过滤,将滤除后得到的词,作为所述分词结果;
基于所述分词结果,更新第一关键词表;所述第一关键词表为所述关键词库中的一个关键词表;所述第一关键词表中的关键词和关键词的权重随着所述待处理的语音数据的变化而变化。
这里,所述对所述至少一个词进行过滤,包括:
从所述至少一个词中滤除与预设停用词表中各停用词相同的词,将滤除后得到的词,作为所述分词结果。
所述停用词表可以是预先设定的,所述停用词表可以包括常规的停顿词,如:此、之等,还可以包括:用户希望滤除的、不会成为目标片段的停用词,如:国家名等容易反复提及,但并不需要进行特殊呈现的词。
具体地,所述基于所述分词结果,更新第一关键词表,包括:
针对所述分词结果中的每个词,确定相应词的出现次数和词元数;
基于所述出现次数和所述词元数确定所述相应词的权重;所述权重随着所述相应词在识别文本中出现次数的变化而变化;所述识别文本随着所述待处理的语音数据的变化而变化;
确定所述分词结果中符合第二预设条件的词,作为关键词;
根据符合第二预设条件的所述关键词和所述关键词对应的权重,更新所述第一关键词表;所述关键词对应有至少一种语种。
这里,随着所述待处理的语音数据不断变化,所述识别文本不断变化,基于所述识别文本得到的分词结果也不断变化,从而相应词的出现次数不断变化;本实施例中,词的权重与出现次数相关,从而词的权重随着所述待处理的语音数据不断变化而变化。
以下针对第一关键词表作具体说明。
所述第一关键词表中的词以n-gram(n表征词元数,最大为3)为单位进行统计。例如:机器的词元数为1;机器翻译由词“机器”和“翻译”组成,其词元数即为2;机器翻译评测由词“机器”、“翻译”和“评测”组成,其词元数即为3。
累计第一关键词表中每个词的出现次数,将出现次数作为全局变量存储在第一关键词表中。每个词可以对应3个属性:
频次属性(即出现次数)、内置价值属性(所述内置价值与词元数相关,在一示例中,1-gram的价值可以为1,2-gram的价值为3,3-gram的价值为5)、权重属性(权重的值=频次*内置价值)。
第一关键词表的格式可以为:n-gram(表征词)、freq(表征频次属性)、value(表征内置价值属性)、weight(表征权重属性)。
例如:第一关键词表可以包括:
机器(即n-gram)、20(即freq)、1(即value)、20(即weight);对应有至少一种语种,例如,英语:Machine;
机器翻译(即n-gram)、12(即freq)、3(即value)、36(即weight);对应有至少一种语种,例如,英语:Machine Translation;
机器翻译评测(即n-gram)、4(即freq)、5(即value)、20(即weight);对应有至少一种语种,例如,英语:Machine Translation Evaluation。
需要说明的是,考虑到低阶gram的频次肯定要高于高阶gram,如“机器”(一种低阶gram)对应的频次,必然高于“机器翻译”、“机器翻译评测”(高阶gram)对应的频次。而术语很多都是高阶gram,当然也不排除一些术语是低阶gram,所以当高阶gram与低阶gram都匹配的情况下,可以依据权重来选择目标片段,即当目标片段与至少两个关键词匹配时,依据权重高的关键词确定目标片段。
具体地,所述确定所述分词结果中符合第二预设条件的词,包括以下至少之一:
确定所述分词结果中权重超过预设权重阈值的词;
确定所述分词结果中出现次数超过预设次数阈值的词。
这里,所述预设权重阈值和预设次数阈值可以预先设定并保存在服务器中。
具体地,所述第一关键词表中各关键词对应有字体变化因子,所述 字体变化因子与所述权重相关;
所述确定所述目标片段的第一呈现格式,包括:
当所述目标片段对应的目标关键词表为第一关键词表时,确定所述字体变化因子对应的格式,作为所述第一呈现格式。
这里,考虑到第一关键词表中的关键词和各关键词的权重是不停变动的,可以将权重映射成一个用来变化关键词字体的因子,即所述字体变化因子,所述字体变化因子可以为一个小数或者整数(例如:以0.5为阶梯,具体可以采用0.5、1.0、1.5、2.0等数字);在语音数据不停变化的过程中,随着关键词的权重的变化,字体的大小也对应变化。这里,所述字体变化因子具体指目标片段需变大的字号;假设识别文本的原始字号(即第二呈现格式)为2,确定的字体变化因子为1.0;则所述第一呈现格式为:字号为3。字号的大小可以设有最高限度,达到最高限度后字号将不再变化。
需要说明的是,所述数据处理方法可以应用在会议的同声传译场景下,在会议进行时,所述待处理的语音数据不断变化,相应的,所述识别文本不断变化,从而基于所述识别文本得到的分词结果也不断变化,运用本实施例的方法可以基于所述分词结果,不断更新第一关键词表。当会议结束后,所述第一关键词表更新结束,所述第一关键词表可以从所述关键词库中删除,以节省存储空间。
实际应用中,为了可以与至少一种语种的识别文本进行匹配,所述第一关键词表中的关键词也需对应有至少一种语种,以针对不同语种的识别文本确定其包含的目标片段,并按第一呈现格式进行呈现。
基于此,在一实施例中,所述方法还包括:
确定关键词后,运用预设的翻译引擎,翻译所述关键词,得到其他语种的关键词。
相应的,所述根据符合第二预设条件的所述关键词和关键词对应的权重,更新所述第一关键词表;包括:
根据关键词、其他语种的关键词和关键词对应的权重,更新第一关键词表。
这里,针对每个关键词,可以对应有:第一语种的关键词、第二语种的关键词、……、第N语种的关键词;所述识别文本对应的语种和所述关键词对应的语种存在对应关系,所述第一语种即为所述语音数据对应的语种。
需要说明的是,为了可以确定任意一种语种的识别文本中的目标片段,可以对与语音数据相同语种(即第一语种)的识别文本进行分词,得到至少一个关键词,翻译所述关键词,得到各个关键词对应的翻译结果,将各个关键词与关键词对应的翻译结果对应保存在关键词表中;从而,针对任意一种语种的识别文本,均可以通过查询关键词表的方式确定目标片段。这里,翻译所述关键词指翻译与语音数据相同语种(即第一语种)的关键 词,从而得到第二语种的关键词、……、第N语种的关键词。
上述先对第一语种的识别文本进行分词,以确定关键词;在确定关键词后,运用预设的翻译引擎,翻译所述关键词,得到其他语种的关键词,是考虑到翻译引擎对短的内容翻译的更准确,从而可以提高关键词表中每个关键词的准确性。
当然,为了可以确定任意一种语种的识别文本的目标片段,也可以对任意一种语种的识别文本分别进行分词,得到该语种识别文本对应的分词结果,基于分词结果更新关键词表;即每种语种的识别文本对应一个相应语种的关键词表;这里不做限定。
实际应用中,为了对专业术语(一种关键词)进行特殊显现,可预先设有包含专业术语的关键词表,以确定识别文本中需要特殊显示的专业术语。
基于此,在一实施例中,所述方法还包括:
对机器翻译模型的双语数据进行术语抽取,基于抽取的术语生成第二关键词表;所述第二关键词表作为关键词库中的一个关键词表。
这里,可以结合文本重排序(text-reranking)、自举法(Bootstrapping)、深度学习等方法进行术语抽取,对术语抽取的方法不做限定。
所述第二关键词表的格式为:关键词、权重;所述关键词对应有至少一种语种。以两种语种的关键词举例说明,所述第二关键词表包括:
机器翻译(即第一语种的词)、machine translation(即第二语种对应的词)、0.03(即权重);
语音识别(即第一语种的词)、automatic speech recognition(即第二语种对应的词)、0.02(即权重)。
在另一实施例中,所述方法还包括:接收人工设置的关键词和所述关键词对应的权重,基于人工设置的关键词和所述关键词对应的权重生成第三关键词表。
第三关键词表的格式可以为:关键词、权重;所述关键词对应有至少一种语种。以两种语种的关键词举例说明,所述第二关键词表可包括:
青霉素(即第一语种的词)、Penicillin(即第二语种对应的词)、0.5(权重)。
这里,所述第三关键词表与第一关键词表、第二关键词表不同,所述第三关键词表由相应领域内的专业技术人员根据其经验的设定。这是考虑到每个领域,其实都有一定的专业术语,比如医学、航天、房地产等,由其领域内的专业技术人员设定的关键词更权威、更准确。所述第三关键词表的优先级可以高于第一关键词表的优先级,所述第一关键词表的优先级可以高于第二关键词表的优先级。
需要说明的是,在同声传译过程中,第二关键词表、第三关键词表中的关键词是不会变的,但是第一关键词表中的关键词是随着语音数据的变 化而不停的变动。同传传译结束后,所述第二关键词表和第三关键词表仍然保存在关键词库中,所述第一关键词表可以从关键词库中删除,以节省存储空间;当然也可以将第一关键词表与识别文本对应保存,以方便用户进行文件整理,这里不做限定。
另外,为了可以确定任意一种语种的识别文本中的目标片段,应了解,针对第二关键词表、第三关键词,均可以对其中包含的关键词进行其他语种的文本翻译,得到翻译结果,并将关键词与关键词对应的翻译结果对应保存在关键词表中,从而,针对任意一种语种的识别文本,均可以通过查询关键词表的方式确定目标片段。
本申请实施例提供的数据处理方法,具体可以应用于同声传译场景,比如会议的同声传译,在这种场景下,演讲者进行演讲,服务器得到演讲者的语音数据,对所述语音数据进行文本识别,得到识别文本;运用关键词库确定识别文本中的目标片段,对目标片段进行突出显示(即采用第一呈现格式进行呈现),帮助用户更直接的确定演讲的重点和演讲中提到的专业术语;从而帮助用户更好地接纳演讲内容。
应理解,上述实施例中说明各步骤(如生成第一关键词表、生成第二关键词表、生成第三关键词表等)的顺序并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本申请实施例提供的数据处理方法,获得待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;所述识别文本用于在播放所述语音数据时进行呈现;根据所述识别文本查找关键词库,确定所述识别文本中符合第一预设条件的目标片段;确定所述目标片段的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标片段;所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为所述识别文本中除所述目标片段外的其它文字的呈现格式,如此,能够对语音数据的内容进行关键信息提取,并进行重点展示,从而能够使用户直观的了解到语音内容的关键信息,帮助用户更好地接纳演讲内容,提升用户体验。
图3为本申请实施例的数据处理方法的另一种流程示意图;如图3所示,所述方法包括:
步骤301:预生成关键词库;
这里,所述方法可以应用于服务器、移动终端、云端设备等。
实际应用中,为了可以按照多种标准(例如可以是针对识别文本中的技术术语、反复提及的内容等)确定目标片段,关键词库可以由至少一个关键词表组成。
基于此,在一实施例中,所述关键词库可以包括术语列表T1;
所述步骤301,包括:对机器翻译模型的大规模双语数据进行术语抽取,根据抽取的术语生成术语列表T1;所述术语列表T1作为所述关键词库中 的一个关键词表。
所述术语列表T1相当于图2所示方法中的第二关键词表,每个术语都有一个权重。术语列表T1的格式可以如下表1所示:
第一语种的词 | 第二语种的词 | 权重 |
机器翻译 | machine translation | 0.03 |
语音识别 | automatic speech recognition | 0.02 |
表1
这里,所述关键词库还可以包括术语列表T2;
所述步骤301,包括:获取人工维护的术语列表T2,作为所述关键词库中的一个关键词表。
这里,考虑到每个领域都有一定的专业术语(包括术语的简称等),比如医学、航天、房地产等领域,人工维护相应领域的术语其准确度更高,因此提供术语列表T2。
所述术语列表T2相当于图2所示方法中的第三关键词表,每个术语都有一个权重,其格式可以如下表2所示:
第一语种的词 | 第二语种的词 | 权重 |
青霉素 | Penicillin | 0.5 |
表2
步骤302:确定同声传译过程中的语音数据,对所述语音数据进行文本识别,获得识别文本。
这里,所述步骤302,包括:获取演讲者的语音数据(记做S);对语音数据进行文本识别,得到识别文本。
所述识别文本包括:与语音数据相同语种的文本(记做文本T)、翻译文本T后得到的其他语种的翻译文本(记做文本R)。所述翻译文本可以为多个,即翻译所述文本T后得到多种语种的翻译文本。
步骤303:根据所述识别文本查找关键词库,得到目标片段,确定所述目标片段的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标片段;
这里,所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为所述识别文本中除所述目标片段外的其它文字的呈现格式。
这里,针对文本T,所述步骤303,包括:
步骤3031:根据文本T查找所述术语表T1、所述术语表T2和术语表D;
这里,所述术语表D是根据所述待处理的语音数据更新的,其中的关键词和关键词的权重随着所述待处理的语音数据的变化而变化;所述术语表T2的优先级高于术语表D的优先级,术语表D的优先级高于术语表T1的优先级;
步骤3032:当在文本T中包含部分片段存在于术语表T2中,则将包 含的片段的字体按术语表T2对应的第一呈现格式进行呈现;
这里,第一呈现格式可以为F+4(即字号加4,F为文本初始的字号),并标红;
步骤3033:当文本T中包含部分片段存在于术语表D中,则将包含的片段的字体按术语表D对应的第一呈现格式进行呈现;
这里,第一呈现格式可以为F+3(即字号加3);所述第一呈现格式还可以包括对文字进行颜色设置,如将文字的颜色标记为绿色,以突出所述包含的片段;
需要说明的是,如果存在于术语表D的片段也存在于术语表T2,则该片段按术语表T2对应的第一呈现格式进行呈现。
步骤3034、当文本T中包含部分片段存在于术语表T1中,则将包含的片段的字体按术语表T1对应的第一呈现格式进行呈现;
这里,第一呈现格式可以为F+2(即字号加2);所述第一呈现格式还可以是对文字进行颜色设置,如将文字的颜色标记为蓝色,以突出所述包含的片段。
需要说明的是,如果存在于术语表T1的片段也存在于术语表T2,则该片段按术语表T2对应的第一呈现格式进行呈现;需要说明的是,如果存在于术语表T1的片段也存在于术语表D中、但不存在于术语表T2中,则该片段按术语表T2对应的第一呈现格式进行呈现。
针对文本R的操作与上述针对文本T的操作相同,可以参考步骤3031-3034,这里不再赘述。
这里,根据所述待处理的语音数据更新术语表D,可以包括:
对文本T进行分词,获得至少一个词;从所述至少一个词中滤除与预设停用词表中各停用词相同的词,将滤除后得到的词,作为所述分词结果;基于所述分词结果,更新术语表D。
这里,采用停用词表对分词获得的至少一个词进行过滤,是考虑到同声传译过程中演讲者的内容较少,直接通过文本的重复度来判定关键词,信息量太少,抽取出来的关键词噪声很多,通过停用词表对分词获得的至少一个词进行过滤,可以降低关键词噪声。
这里,可以将T和R分开,只对T进行分词操作,得到术语表D;再运用翻译引擎对术语表D中的每个词进行翻译,是考虑到翻译引擎对短的内容翻译的更准确。
所述术语表D中的词以n-gram(n最大为3)为单位统计,针对n-gram的说明已在图2所示方法中具体说明,这里不再赘述。
所述术语表D相当于图2所示方法中的第一关键词表,更新术语表D的方法可以参照图2中更新第一关键词表的方法,这里不多赘述。
随着同传过程的进行,术语表T1、术语表T2中的关键词是不会变的,但是术语表D中的关键词是在不停的变动,即词的属性(具体指频次属性、 权重属性)也在变动。这些属性的变动,还可以通过一个方法体现。具体来说,可以将权重映射成字体变化因子,作为关键词要放大的因子;所述字体变化因子可以是一个小数或者整数(假设以0.5为阶梯,字体变化因子可以为0.5、1.0、1.5、2.0等)。在同传进行过程中,根据字体变化因子,识别文本中的关键词将会逐渐放大。当然,字体大小有个最高限度,超过最高限度将不再变化。
通过上述方案,展台前的同声传译显示屏幕接收并呈现演讲者的语音识别结果(如文本T)和机器翻译结果(文本R)。在呈现上述结果中,有部分文字,会通过不同的颜色、不同字号(不同的颜色、不同字号可以表示基于不同的术语表确定的目标片段,例如术语表T2是人工维护的关键词表,可信度是最高的,基于术语表T2确定的目标片段的字号也可以是最大的)进行显示,从而可以醒目的提醒观众。
本申请提供的数据处理方法,可以在同声传译场景下,确定出识别文本中的关键信息(如上述术语),通过变换其字号和颜色,把演讲者话语中的关键信息显示出来,醒目的提醒用户,让用户能够在短时间内捕获到演讲者的主要内容;这样,用户在不需要全部看完全屏内容的情况下,即可对演讲内容有了大概了解,尤其适用于演讲者话语较快的场景。
图4为本申请实施例的第一呈现格式的确定方法的流程示意图;如图4所示,所述方法包括:
步骤401:确定所述识别文本中符合第一预设条件的目标片段时,确定所述目标片段对应的候选关键词表;
这里,所述候选关键词表包括与所述目标片段匹配的关键词;
步骤402:确定所述候选关键词表的数量,当所述候选关键词表的数量为一个时,执行步骤403;当所述候选关键词表的数量为至少两个时,执行步骤404;
步骤403:将所述候选关键词表作为目标关键词表,将所述候选关键词表对应的格式,作为所述第一呈现格式。
步骤404:确定所述至少两个候选关键词表中各候选关键词表对应的优先级,基于优先级对所述至少两个候选关键词表按优先级大小进行排序,确定优先级最高的候选关键词表;将优先级最高的候选关键词表对应的格式,作为所述第一呈现格式。
需要说明的是,所述至少两个关键词表中各关键词表对应不同的格式,且所述至少两个关键词表中各关键词表对应不同的优先级时,可以采用步骤404所述的方法,在所述关键词库包括至少两个关键词表时,将优先级最高的候选关键词表对应的格式,作为所述第一呈现格式。若关键词库中各个关键词表对应的相同,则无需采用步骤404的操作,而是直接选择任意一个候选关键词表对应的格式,作为所述第一呈现格式。
为实现本申请实施例的数据处理方法,本申请实施例还提供了一种数 据处理装置。图5为本申请实施例的数据处理装置的组成结构示意图;如图5所示,所述数据处理装置包括:
获取单元51,配置为获得待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;所述识别文本用于在播放所述语音数据时进行呈现;
第一处理单元52,配置为根据所述识别文本查找关键词库,确定所述识别文本中符合第一预设条件的目标片段;
第二处理单元53,配置为确定所述目标片段的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标片段;所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为所述识别文本中除所述目标片段外的其它文字的呈现格式。
在一实施例中,所述第一处理单元52,配置为采用以下至少一个方法,确定所述识别文本中符合第一预设条件的目标片段:
从所述识别文本中确定与所述关键词库中任一关键词匹配的目标片段;
从所述识别文本中确定至少两个关键词;基于所述至少两个关键词中各关键词的权重确定所述目标片段。
在一实施例中,所述第二处理单元53,配置为确定所述目标片段对应的目标关键词表;所述目标关键词表包括与所述目标片段匹配的关键词;将所述目标关键词表对应的格式,作为所述第一呈现格式。
这里,所述关键词库,包括至少一个关键词表。
这里,所述关键词库,可以包括至少两个关键词表;所述至少两个关键词表中各关键词表对应不同的格式;所述至少两个关键词表中各关键词表对应不同的优先级。
在一实施例中,所述第二处理单元53,配置为确定所述目标片段对应至少的两个候选关键词表;
将所述至少两个候选关键词表中优先级高的候选关键词表作为目标关键词表。
在一实施例中,所述装置还包括第三处理单元,配置为对所述识别文本进行分词,得到至少一个词;
对所述至少一个词进行过滤,将滤除后得到的词,作为所述分词结果;
基于所述分词结果,更新第一关键词表;所述第一关键词表为所述关键词库中的一个关键词表;所述第一关键词表中的关键词和关键词的权重随着所述待处理的语音数据的变化而变化。
这里,所述第三处理单元,具体配置为针对所述分词结果中的每个词,确定相应词的出现次数和词元数;
基于所述出现次数和所述词元数确定所述相应词的权重;所述权重随 着所述相应词在识别文本中出现次数的变化而变化;所述识别文本随着所述待处理的语音数据的变化而变化;
确定所述分词结果中符合第二预设条件的词,作为关键词;
根据符合第二预设条件的所述关键词和关键词对应的权重,更新所述第一关键词表;所述关键词对应有至少一种语种。
这里,确定所述分词结果中符合第二预设条件的词,包括以下至少之一:
确定所述分词结果中权重超过预设权重阈值的词;
确定所述分词结果中出现次数超过预设次数阈值的词。
在一实施例中,所述第一关键词表中各关键词对应有字体变化因子,所述字体变化因子与所述权重相关。
所述第二处理单元53,配置为当所述目标片段对应的目标关键词表为第一关键词表时,确定所述字体变化因子对应的格式,作为所述第一呈现格式。
在一实施例中,所述装置还包括第四处理单元,配置为对机器翻译模型的双语数据进行术语抽取,基于抽取的术语生成第二关键词表;所述第二关键词表为关键词库中的一个关键词表。
实际应用时,所述获取单元51可通过通信接口实现;所述第一处理单元52、所述第二处理单元53、第三处理单元、第四处理单元均可由所述服务器中的处理器,比如中央处理器(CPU,Central Processing Unit)、数字信号处理器(DSP,Digital Signal Processor)、微控制单元(MCU,Microcontroller Unit)或可编程门阵列(FPGA,Field-Programmable Gate Array)等实现。
需要说明的是:上述实施例提供的装置在进行数据处理时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将终端的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的装置与数据处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
基于上述设备的硬件实现,本申请实施例还提供了一种服务器,图6为本申请实施例的服务器的硬件组成结构示意图,如图6所示,服务器60包括存储器63、处理器62及存储在存储器63上并可在处理器62上运行的计算机程序;位于服务器的处理器62执行所述程序时实现上述服务器侧一个或多个技术方案提供的方法。
具体地,位于服务器60的处理器62执行所述程序时实现:获得待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;所述识别文本用于在播放所述语音数据时进行呈现;根据所述识别文本查找关键词库,确定所述识别文本中符合第一预设条件的目标片段;确定所 述目标片段的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标片段;所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为所述识别文本中除所述目标片段外的其它文字的呈现格式。
需要说明的是,位于服务器60的处理器62执行所述程序时实现的具体步骤已在上文详述,这里不再赘述。
可以理解,服务器还包括通信接口61;服务器中的各个组件通过总线系统64耦合在一起。可理解,总线系统64配置为实现这些组件之间的连接通信。总线系统64除包括数据总线之外,还包括电源总线、控制总线和状态信号总线等。
可以理解,本实施例中的存储器63可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本申请实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
上述本申请实施例揭示的方法可以应用于处理器62中,或者由处理器62实现。处理器62可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器62中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器62可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。 处理器62可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器,处理器62读取存储器中的信息,结合其硬件完成前述方法的步骤。
本申请实施例还提供了一种存储介质,具体为计算机存储介质,更具体的为计算机可读存储介质。其上存储有计算机指令,即计算机程序,该计算机指令被处理器执行时上述服务器侧一个或多个技术方案提供的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和智能设备,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个第二处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是:“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
另外,本申请实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
Claims (12)
- 一种数据处理方法,应用于服务器,包括:获得待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;所述识别文本用于在播放所述语音数据时进行呈现;根据所述识别文本查找关键词库,确定所述识别文本中符合第一预设条件的目标片段;确定所述目标片段的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标片段;所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为所述识别文本中除所述目标片段外的其它文字的呈现格式。
- 根据权利要求1所述的方法,其中,所述确定所述识别文本中符合第一预设条件的目标片段,包括以下至少之一:从所述识别文本中确定与所述关键词库中任一关键词匹配的目标片段;从所述识别文本中确定至少两个关键词;基于所述至少两个关键词中各关键词的权重确定所述目标片段。
- 根据权利要求1所述的方法,其中,所述关键词库包括至少一个关键词表;所述确定所述目标片段的第一呈现格式,包括:确定所述目标片段对应的目标关键词表;所述目标关键词表包括与所述目标片段匹配的关键词;将所述目标关键词表对应的格式,作为所述第一呈现格式。
- 根据权利要求3所述的方法,其中,所述关键词库包括至少两个关键词表;所述至少两个关键词表中各关键词表对应不同的格式;所述至少两个关键词表中各关键词表对应不同的优先级;所述确定所述目标片段对应的目标关键词表,包括:确定所述目标片段对应的至少两个候选关键词表;将所述至少两个候选关键词表中优先级高的候选关键词表作为目标关键词表。
- 根据权利要求3所述的方法,其中,所述方法还包括:对所述识别文本进行分词,得到至少一个词;对所述至少一个词进行过滤,将滤除后得到的词,作为所述分词结果;基于所述分词结果,更新第一关键词表;所述第一关键词表为所述关键词库中的一个关键词表;所述第一关键词表中的关键词和关键词的权重随着所述待处理的语音数据的变化而变化。
- 根据权利要求5所述的方法,其中,所述基于所述分词结果,更新第一关键词表,包括:针对所述分词结果中的每个词,确定相应词的出现次数和词元数;基于所述出现次数和所述词元数确定所述相应词的权重;所述权重随着所述相应词在识别文本中出现次数的变化而变化;所述识别文本随着所述待处理的语音数据的变化而变化;确定所述分词结果中符合第二预设条件的词,作为关键词;根据符合第二预设条件的关键词和关键词对应的权重,更新所述第一关键词表;所述关键词对应有至少一种语种。
- 根据权利要求6所述的方法,其中,所述确定所述分词结果中符合第二预设条件的词,包括以下至少之一:确定所述分词结果中权重超过预设权重阈值的词;确定所述分词结果中出现次数超过预设次数阈值的词。
- 根据权利要求5所述的方法,其中,所述第一关键词表中各关键词对应有字体变化因子,所述字体变化因子与所述权重相关;所述确定所述目标片段的第一呈现格式,包括:当所述目标片段对应的目标关键词表为第一关键词表时,确定所述字体变化因子对应的格式,作为所述第一呈现格式。
- 根据权利要求3所述的方法,其中,所述方法还包括:对机器翻译模型的双语数据进行术语抽取,基于抽取的术语生成第二关键词表;所述第二关键词表为关键词库中的一个关键词表。
- 一种数据处理装置,包括:获取单元,配置为获得待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;所述识别文本用于在播放所述语音数据时进行呈现;第一处理单元,配置为根据所述识别文本查找关键词库,确定所述识别文本中符合第一预设条件的目标片段;第二处理单元,配置为确定所述目标片段的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标片段;所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为所述识别文本中除所述目标片段外的其它文字的呈现格式。
- 一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至9任一项所述方法的步骤。
- 一种存储介质,其上存储有计算机指令,所述指令被处理器执行时实现权利要求1至9任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201980100284.2A CN114402384A (zh) | 2019-11-04 | 2019-11-04 | 数据处理方法、装置、服务器和存储介质 |
PCT/CN2019/115337 WO2021087665A1 (zh) | 2019-11-04 | 2019-11-04 | 数据处理方法、装置、服务器和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2019/115337 WO2021087665A1 (zh) | 2019-11-04 | 2019-11-04 | 数据处理方法、装置、服务器和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021087665A1 true WO2021087665A1 (zh) | 2021-05-14 |
Family
ID=75848699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2019/115337 WO2021087665A1 (zh) | 2019-11-04 | 2019-11-04 | 数据处理方法、装置、服务器和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114402384A (zh) |
WO (1) | WO2021087665A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114781407A (zh) * | 2022-04-21 | 2022-07-22 | 语联网(武汉)信息技术有限公司 | 语音实时翻译方法、系统与可视化终端 |
CN116137149A (zh) * | 2023-04-18 | 2023-05-19 | 杰创智能科技股份有限公司 | 语音识别方法、装置和设备 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12112748B2 (en) * | 2022-01-20 | 2024-10-08 | Zoom Video Communications, Inc. | Extracting filler words and phrases from a communication session |
US12026199B1 (en) * | 2022-03-09 | 2024-07-02 | Amazon Technologies, Inc. | Generating description pages for media entities |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190026787A1 (en) * | 2015-05-13 | 2019-01-24 | Google Llc | Speech recognition for keywords |
CN109658931A (zh) * | 2018-12-19 | 2019-04-19 | 平安科技(深圳)有限公司 | 语音交互方法、装置、计算机设备及存储介质 |
CN110070853A (zh) * | 2019-04-29 | 2019-07-30 | 盐城工业职业技术学院 | 一种语音识别转化方法及系统 |
CN110083837A (zh) * | 2019-04-26 | 2019-08-02 | 科大讯飞股份有限公司 | 一种关键词生成方法及装置 |
-
2019
- 2019-11-04 CN CN201980100284.2A patent/CN114402384A/zh active Pending
- 2019-11-04 WO PCT/CN2019/115337 patent/WO2021087665A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190026787A1 (en) * | 2015-05-13 | 2019-01-24 | Google Llc | Speech recognition for keywords |
CN109658931A (zh) * | 2018-12-19 | 2019-04-19 | 平安科技(深圳)有限公司 | 语音交互方法、装置、计算机设备及存储介质 |
CN110083837A (zh) * | 2019-04-26 | 2019-08-02 | 科大讯飞股份有限公司 | 一种关键词生成方法及装置 |
CN110070853A (zh) * | 2019-04-29 | 2019-07-30 | 盐城工业职业技术学院 | 一种语音识别转化方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114781407A (zh) * | 2022-04-21 | 2022-07-22 | 语联网(武汉)信息技术有限公司 | 语音实时翻译方法、系统与可视化终端 |
CN116137149A (zh) * | 2023-04-18 | 2023-05-19 | 杰创智能科技股份有限公司 | 语音识别方法、装置和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114402384A (zh) | 2022-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021087665A1 (zh) | 数据处理方法、装置、服务器和存储介质 | |
US20220214775A1 (en) | Method for extracting salient dialog usage from live data | |
US11409813B2 (en) | Method and apparatus for mining general tag, server, and medium | |
US20200210468A1 (en) | Document recommendation method and device based on semantic tag | |
WO2020220636A1 (zh) | 文本数据增强方法及装置、电子设备、计算机非易失性可读存储介质 | |
US20190385599A1 (en) | Speech recognition method and apparatus, and storage medium | |
US11132108B2 (en) | Dynamic system and method for content and topic based synchronization during presentations | |
WO2019000782A1 (zh) | 一种搜索词推荐方法、机顶盒和存储介质 | |
CN108304375A (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
JP2017534941A (ja) | オーファン発話検出システム及び方法 | |
US20140164371A1 (en) | Extraction of media portions in association with correlated input | |
US9940355B2 (en) | Providing answers to questions having both rankable and probabilistic components | |
CN108170294B (zh) | 词汇显示、字段转换方法及客户端、电子设备和计算机存储介质 | |
WO2019173085A1 (en) | Intelligent knowledge-learning and question-answering | |
WO2021102754A1 (zh) | 数据处理方法、装置和存储介质 | |
WO2021120174A1 (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN111126084B (zh) | 数据处理方法、装置、电子设备和存储介质 | |
US20140163956A1 (en) | Message composition of media portions in association with correlated text | |
US9747891B1 (en) | Name pronunciation recommendation | |
WO2021097629A1 (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN110992960A (zh) | 控制方法、装置、电子设备和存储介质 | |
WO2021062757A1 (zh) | 同声传译方法、装置、服务器和存储介质 | |
CN110888940A (zh) | 文本信息提取方法、装置、计算机设备及存储介质 | |
CN115831117A (zh) | 实体识别方法、装置、计算机设备和存储介质 | |
CN112989011B (zh) | 数据查询方法、数据查询装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19951319 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19951319 Country of ref document: EP Kind code of ref document: A1 |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19951319 Country of ref document: EP Kind code of ref document: A1 |