WO2023241409A1 - 用于确定文本中说话者的方法、装置、设备和存储介质 - Google Patents

用于确定文本中说话者的方法、装置、设备和存储介质 Download PDF

Info

Publication number
WO2023241409A1
WO2023241409A1 PCT/CN2023/098688 CN2023098688W WO2023241409A1 WO 2023241409 A1 WO2023241409 A1 WO 2023241409A1 CN 2023098688 W CN2023098688 W CN 2023098688W WO 2023241409 A1 WO2023241409 A1 WO 2023241409A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
semantic information
speaker
determining
sample
Prior art date
Application number
PCT/CN2023/098688
Other languages
English (en)
French (fr)
Inventor
伍林
殷翔
马泽君
Original Assignee
北京有竹居网络技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京有竹居网络技术有限公司 filed Critical 北京有竹居网络技术有限公司
Publication of WO2023241409A1 publication Critical patent/WO2023241409A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Definitions

  • Embodiments of the present disclosure relate generally to the field of text processing, and specifically to methods, apparatuses, devices and storage media for determining speakers in text.
  • neural network technology has been used in more and more industries to process various data.
  • neural networks can also be used to analyze and process various text data in the process of generating speech from text, including using neural networks to determine the speaker in the text.
  • problems that need to be solved in the process of generating speech.
  • a method for determining a speaker in a text includes determining textual semantic information of the text based on the text including the target dialogue. The method also includes determining the location of the target dialogue within the text. The method also includes determining the speaker of the target conversation based on textual semantic information and location.
  • an apparatus for determining a speaker in text includes a textual semantic information determination module configured to determine textual semantic information of the text based on a text including a target dialogue; a position determination module configured to determine a location of the target dialogue in the text; and a speaker determination module, Configured to determine the speaker of a target conversation based on textual semantic information and location.
  • an electronic device including at least one processor; and a storage device for storing at least one program.
  • the at least one program When executed by at least one processor, the at least one processor implements A method according to a first aspect of the present disclosure.
  • Figure 2 illustrates a flowchart of a method 200 for determining a speaker in text, in accordance with an embodiment of the present disclosure
  • FIG. 3 illustrates a schematic diagram of a speaker determination model 300 for determining speakers in text, according to an embodiment of the present disclosure
  • FIG. 4 illustrates a schematic diagram of a method 400 for determining speaker location according to an embodiment of the present disclosure
  • Figure 5 illustrates a schematic diagram of a dialogue encoder 500 according to an embodiment of the present disclosure
  • Figure 6 illustrates a schematic diagram of a speaker encoder 600 in accordance with an embodiment of the present disclosure
  • Figure 7 illustrates a schematic diagram of a feedforward module 700 according to an embodiment of the present disclosure
  • FIG. 8 illustrates a schematic diagram of a process 800 of generating speech according to an embodiment of the present disclosure
  • FIG. 9 illustrates a schematic block diagram of an apparatus 900 for determining a speaker in a text according to an embodiment of the present disclosure
  • the speaker of the dialogue sentence can be determined by using the pipeline form and using the three modules of character word extraction, dialogue attribution, and reference disambiguation in series.
  • the three modules in the pipeline are trained independently using neural networks, so errors accumulate.
  • the methods in the pipeline are based on feature engineering and do not utilize the textual semantic information of the text. The above method results in low overall speaker determination accuracy and cannot provide a good user experience.
  • embodiments of the present disclosure propose a method for determining speakers in text.
  • the computing device determines textual semantic information including text of the target dialogue and then determines the location of the target dialogue in the text.
  • the computing device determines the speaker of the target conversation based on the text semantic information and the position of the target conversation in the text.
  • FIG. 1 illustrates an example environment 100 in which devices and/or methods of embodiments of the present disclosure may be implemented.
  • a computing device 104 for processing text 102 to determine a speaker 108 of a target conversation 106 in the text 102 .
  • Text 102 is a piece of text including target dialogue 106 .
  • the text 102 is a piece of text including the target dialogue extracted by preprocessing chapters or paragraphs in books or web pages including the dialogue.
  • the dialogue when identifying a book or a chapter of a book, if a dialogue is found, such as a dialogue marked by double quotation marks, the dialogue will be regarded as the target dialogue. Then based on the target dialogue, a part of the sentences before the target dialogue and a part of the sentences after the target dialogue are obtained to form the text 102. Construct text in target dialogue 106 In the process, the position of the target dialogue 106 in the text 102 can be determined. In one example, the text 102 includes 300 words, of which the target dialogue contains 100-160 words, and the position of the target dialogue can be identified by [100,160]. The above examples are only used to describe the present disclosure, but not to specifically limit the present disclosure.
  • the computing device 104 uses the obtained text semantic information of the text 102 combined with the position of the target dialogue 106 in the text 102 to perform certain processing to determine the speaker of the target dialogue.
  • computing device 104 runs within a speaker determination model that is used to determine the speaker of the target conversation.
  • the speaking model includes the BERT model, the dialogue attribution model for determining the speaker's location, and the reference disambiguation model for determining the speaker.
  • Text 102 is used as an input to the speaker determination model. For example, the speaker determines that the size of text processed by the model at one time is 300 characters, then the size of text 102 can be 300 characters. The speaker determination model is then used to determine the speaker of the target conversation.
  • Computing device 104 is shown receiving text 102 in FIG. 1, which is an example only and is not a specific limitation of the present disclosure. Computing device 104 may also generate text 102 . Through this method, error propagation and complexity can be reduced, determination accuracy can be improved, and user experience can be improved
  • FIG. 1 A block diagram of an example environment 100 in which embodiments of the present disclosure can be implemented is described above in conjunction with FIG. 1 .
  • a flowchart of a method 200 for determining a speaker in a text according to an embodiment of the present disclosure is described below with reference to FIG. 2 .
  • Method 200 may be performed at computing device 104 of FIG. 1 implement.
  • the computing device 104 determines textual semantic information for the text based on the text including the target dialogue.
  • the text to be processed is obtained by preprocessing some chapters and paragraphs in books or web pages through the computing device 104 or other computing devices.
  • the computing device 104 obtains textual semantic information of the text by performing semantic analysis processing on the text 102 .
  • computing device 104 obtains text semantic information by applying a language representation model to the text.
  • text 102 is processed using a BERT model or other suitable language representation model developed now or in the future to obtain textual semantic information of text 102 .
  • the computing device 104 determines the location of the target dialogue in the text.
  • the position is used to indicate the position of the target dialogue in the text 102 . For example, if the text length is 300 and the target dialogue is the 100th-160th word, its position can be indicated by [100,160]. As mentioned above, this position is set during preprocessing.
  • the location of the target conversation in the text is received when the text 102 is received by the computing device 104 .
  • the text 102 and location of the target conversation shown in FIG. 1 are received externally by the computing device 104 and are examples only.
  • the computing device 104 may also preprocess data sources including text, such as books or web pages, to determine the locations of the text 102 and the target conversation 106 .
  • the computing device 104 determines the speaker of the target conversation based on the textual semantic information and the location.
  • the computing device 104 may use the obtained text semantic information and the position of the target dialogue 106 in the text 102 to determine a target referent of the speaker 108 of the target dialogue 106, where the target referent is the name of the speaker who speaks the target dialogue.
  • the location of the target conversation is also referred to as the first location.
  • the computing device 104 utilizes the textual semantic information and the first position to determine a second position in the text of the speaker of the target conversation.
  • the computing device 104 determines the second location by applying a dialogue attribution model to the textual semantic information and the first location, the dialogue attribution model utilizing the textual semantic information of the sample text and the location of the sample dialogue in the sample text and the first location.
  • the position of the speaker of the sample dialogue in the sample text is trained. The training of the dialogue attribution model will be described in Figure 3.
  • the computing device 104 utilizes the speaker's second position in the text to determine a second portion of the semantic information corresponding to the second position from the textual semantic information. For example, as mentioned earlier, the speaker whose target conversation position is [100,160] is located at [90,91]. Then the embedding vector corresponding to the [90,91]th word in the text embedding vector is obtained as the second part of semantic information. The computing device 104 then utilizes the second portion of the semantic information and the textual semantic information to determine at least one reference. In one example, computing device 104 generates the second adjustment information by averaging vectors representing the second portion of semantic information. Next, computing device 104 combines the second adjustment information into the textual semantic information for determining at least one reference.
  • the computing device 104 disambiguates the conversation by combining the conversational attribution model and The model is applied to text semantic information and location to determine the speaker.
  • the dialogue attribution model and the referential disambiguation model use the text semantic information of the sample text, the location of the sample dialogue in the sample text, and the location of the speaker of the sample dialogue in the sample text.
  • the sample reference of the speaker who talks to the sample in the sample text is jointly trained.
  • the speaker determination model 300 includes a Bert model, a conversation attribution model 326, and a reference disambiguation model 328.
  • Figure 3 illustrates speaker determination for determining a speaker in accordance with an embodiment of the present disclosure. Schematic of model 300. The process for determining the second position (and speaker position) is described below in conjunction with FIG. 4 , which may be implemented in the dialogue encoder described in FIG. 5 .
  • a schematic diagram of a method 400 for determining a speaker location according to an embodiment of the present disclosure is described above in conjunction with FIG. 4 .
  • a schematic diagram of a dialogue encoder 500 according to an embodiment of the present disclosure is described below with reference to FIG. 5 .
  • Operation 508 combines the self-attention-adjusted vector with the conversation embedding vector, eg, adding corresponding vector portions of the vectors. Then the averaging module 510 performs averaging processing on each part of the combined embedding vector to obtain an average embedding vector as the adjustment information.
  • Operation 512 combines the adjustment information into the text embedding vector 516 .
  • a vector corresponding to the adjustment information is added after the embedding vector corresponding to each word in the text embedding vector. This is then fed into the feed forward module 514 for processing and then input into the speaker identification classifier to determine the second location.
  • the structure of the feedforward module is described in conjunction with Figure 7.
  • a schematic diagram of a dialogue encoder 500 according to an embodiment of the present disclosure is described above in conjunction with FIG. 5 .
  • a schematic diagram of a speaker encoder 600 according to an embodiment of the present disclosure is described below in conjunction with FIG. 6 .
  • the feedforward module 700 includes a three-layer structure for processing data. After the input data is processed by the dense layer 704, it is processed by the Relu activation function and the normalization layer at 706, and then further adjusted by the random deactivation layer 708.
  • the location determination module based on semantic information includes: an adjustment module configured to perform self-attention adjustment on the first part of the semantic information to generate the adjusted first part of the semantic information; a first combination a module configured to combine the adjusted first portion of semantic information and the first portion of semantic information to determine combined semantic information; a first averaging module configured to combine vectors representing the combined semantic information by Averaging is performed to generate first adjustment information; and a position determination module based on adjustment information is configured to determine the second position based on the first adjustment information and the text semantic information.
  • the reference determination module includes a reference disambiguation model application module configured to determine the at least one reference by applying a reference disambiguation model to the second position and the textual semantic information.
  • the reference disambiguation model is trained using the text semantic information of the sample text, the position of the speaker of the sample conversation in the sample text, and the sample reference of the speaker of the sample conversation in the sample text. owned.
  • the apparatus further includes a voice information generation module configured to generate voice information for the speaker corresponding to the target conversation.
  • FIG. 10 shows a schematic block diagram of an example device 1000 that may be used to implement embodiments of the present disclosure.
  • Computing device 104 in FIG. 1 may be implemented using device 1000.
  • device 1000 includes a central processing unit (CPU) 1001 that can operate on a computer in accordance with computer program instructions stored in read-only memory (ROM) 1002 or loaded from storage unit 1008 into random access memory (RAM) 1003 Program instructions to perform various appropriate actions and processes.
  • ROM read-only memory
  • RAM 1003 random access memory
  • RAM 1003 device 1000 operations may also be stored Various programs and data required.
  • CPU 1001, ROM 1002, and RAM 1003 are connected to each other through bus 1004.
  • An input/output (I/O) interface 1005 is also connected to bus 1004.
  • Computer-readable storage media may be tangible devices that can retain and store instructions for use by an instruction execution device.
  • the computer-readable storage medium may be, for example, but not limited to, an electrical storage device, a magnetic storage device, an optical storage device, an electromagnetic storage device, a semiconductor storage device, or any suitable combination of the above. More specific examples (non-exhaustive list) of computer-readable storage media include: portable computer disks, hard disks, random access memory (RAM), read-only memory (ROM), erasable programmable read-only memory (EPROM) or Flash memory), Static Random Access Memory (SRAM), Compact Disk Read Only Memory (CD-ROM), Digital Versatile Disk (DVD), Memory Stick, Floppy Disk, Mechanical Coding Device, such as a printer with instructions stored on it.
  • RAM random access memory
  • ROM read-only memory
  • EPROM erasable programmable read-only memory
  • Flash memory Static Random Access Memory
  • CD-ROM Compact Disk Read Only Memory
  • DVD Digital Versatile Disk
  • Memory Stick
  • Computer-readable storage media as used herein are not to be interpreted as transient signals per se, such as radio waves or other freely propagating electromagnetic waves, through Electromagnetic waves propagated through waveguides or other transmission media (for example, light pulses through fiber optic cables), or electrical signals transmitted through wires.
  • Computer-readable program instructions described herein may be downloaded from a computer-readable storage medium to various computing/processing devices, or to an external computer or external storage device over a network, such as the Internet, a local area network, a wide area network, and/or a wireless network.
  • the network may include copper transmission cables, fiber optic transmission, wireless transmission, routers, firewalls, switches, gateway computers, and/or edge servers.
  • a network adapter card or network interface in each computing/processing device receives computer-readable program instructions from the network and forwards the computer-readable program instructions for storage on a computer-readable storage medium in the respective computing/processing device .
  • Computer program instructions for performing operations of the present disclosure may be assembly instructions, instruction set architecture (ISA) instructions, machine instructions, machine-related instructions, microcode, firmware instructions, state setting data, or instructions in one or more programming languages.
  • the computer-readable program instructions may execute entirely on the user's computer, partly on the user's computer, as a stand-alone software package, partly on the user's computer and partly on a remote computer or entirely on the remote computer or server implement.
  • These computer-readable program instructions may be provided on a general-purpose computer, a special-purpose computer, or a A processing unit of a computer or other programmable data processing apparatus, thereby producing a machine such that these instructions, when executed by a processing unit of a computer or other programmable data processing apparatus, produce an implementation of one or more of the flowcharts and/or block diagrams.
  • These computer-readable program instructions can also be stored in a computer-readable storage medium. These instructions cause the computer, programmable data processing device and/or other equipment to work in a specific manner. Therefore, the computer-readable medium storing the instructions includes An article of manufacture that includes instructions that implement aspects of the functions/acts specified in one or more blocks of the flowcharts and/or block diagrams.
  • Computer-readable program instructions may also be loaded onto a computer, other programmable data processing apparatus, or other equipment, causing a series of operating steps to be performed on the computer, other programmable data processing apparatus, or other equipment to produce a computer-implemented process , thereby causing instructions executed on a computer, other programmable data processing apparatus, or other equipment to implement the functions/actions specified in one or more blocks in the flowcharts and/or block diagrams.
  • each block in the flowchart or block diagrams may represent a module, segment, or portion of instructions that embody one or more elements for implementing the specified logical function(s).
  • Executable instructions may occur out of the order noted in the figures. For example, two consecutive blocks may actually execute substantially in parallel, or they may sometimes execute in the reverse order, depending on the functionality involved.
  • each block of the block diagram and/or flowchart illustration, and combinations of blocks in the block diagram and/or flowchart illustration can be implemented by special purpose hardware-based systems that perform the specified functions or acts. , or can be implemented using a combination of specialized hardware and computer instructions.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本公开的实施例涉及用于确定文本中说话者的方法、装置、设备和存储介质。该方法包括基于包括目标对话的文本,确定文本的文本语义信息。该方法还包括确定目标对话在文本中的位置。该方法还包括基于文本语义信息和位置,确定目标对话的说话者。通过该方法,能够降低误差传播和复杂性,并且提高判定精度,改进了用户体验。

Description

用于确定文本中说话者的方法、装置、设备和存储介质
相关申请的交叉引用
本申请要求申请号为202210693486.6,题为“用于确定文本中说话者的方法、装置、设备和存储介质”、申请日为2022年6月17日的中国发明专利申请的优先权,通过引用的方式将该申请整体并入本文。
技术领域
本公开的实施例总体涉及文本处理领域,具体涉及确定文本中说话者的方法、装置、设备和存储介质。
背景技术
近年来,随着文本识别和语音技术的进步,人们对文本转语音(Text-to-Speech,TTS)技术进行了很大的探索并取得了很大的进展,并且可以产生无法自然区分的高质量语音演讲。因此,TTS技术已应用于智能客户服务和语音生成等各个领域。其中从文本生成语音是为了便于人们阅读书籍,将文本转换成语音以供用户收听。这个过程主要涉及文本内容的识别、说话者的确定以及说话者的情感识别。
另外,神经网络技术已经被用于越来越多的行业去处理各种数据。同样,在从文本生成语音的过程中也可以利用神经网络来进行各种文本数据的分析和处理,包括利用神经网络来确定文本中的说话者。然而,在生成语音的过程中还存在许多需要解决的问题。
发明内容
本公开的实施例提供了一种用于确定文本中说话者的方法、装置、设备和存储介质。
根据本公开的第一方面,提供了一种用于确定文本中说话者的方 法。该方法包括基于包括目标对话的文本,确定文本的文本语义信息。该方法还包括确定目标对话在文本中的位置。该方法还包括基于文本语义信息和位置,确定目标对话的说话者。
在本公开的第二方面中,提供了一种用于确定文本中说话者的装置。该装置包括文本语义信息确定模块,被配置为基于包括目标对话的文本,确定文本的文本语义信息;位置确定模块,被配置为确定目标对话在所述文本中的位置;以及说话者确定模块,被配置为基于文本语义信息和位置,确定目标对话的说话者。
在本公开的第三方面中,提供了一种电子设备,包括至少一个处理器;以及存储装置,用于存储至少一个程序,当至少一个程序被至少一个处理器执行,使得至少一个处理器实现根据本公开的第一方面的方法。
在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
应当理解,该内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例中,相同的参考标号通常代表相同部件。
图1图示了本公开的实施例的设备和/或方法可以在其中被实施的示例环境100的示意图;
图2图示了根据本公开的实施例的用于确定文本中说话者的方法200的流程图;
图3图示了根据本公开的实施例的用于确定文本中说话者的说话者确定模型300的示意图;
图4图示了根据本公开的实施例的用于确定说话者位置的方法400的示意图;
图5图示了根据本公开的实施例的对话编码器500的示意图;
图6图示了根据本公开的实施例的说话者编码器600的示意图;
图7图示了根据本公开的实施例的前馈模块700的示意图;
图8图示了根据本公开的实施例的生成语音的过程800的示意图;
图9图示了根据本公开实施例的用于确定文本中说话者的装置900的示意性框图;
图10图示了适于用来实施本公开内容的实施例的示例设备1000的示意性框图。
在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如上所述,随着技术的发展,生成语音的技术也在快速进步。在多播有声小说制作中,为了提升制作效率,降低生产成本,往往需要自动识别小说章节中对话的角色,从而配上相应的音色,实现多播有 声小说。
对于说话者的判定,可以通过采用流水线的形式,使用人物词提取、对话归属、指代消歧三个模块串联,实现对话句子的说话者的判定。流水线中的三个模块都是利用神经网络独立训练,从而会出现误差积累的现象。而且,流水线中的方法是基于特征工程的,并没有利用文本的文本语义信息。上述方式导致整体说话者判定精度不高,不能提供很好的用户体验。
至少为了解决上述和其他潜在问题,本公开的实施例提出了一种用于确定文本中说话者的方法。在该方法中,计算设备确定包括目标对话的文本的文本语义信息,然后确定出目标对话在文本中的位置。计算设备根据文本语义信息和目标对话在文本中的位置,确定出目标对话的说话者。通过该方法,可以降低误差传播和复杂性,并且提高了判定精度,改进了用户体验。
下面将进一步结合附图来详细描述本公开的实施例,其中图1示出了本公开的实施例的设备和/或方法可以在其中被实施的示例环境100。
在环境100中包括计算设备104,计算设备104用于对文本102进行处理来确定文本102中的目标对话106的说话者108。
计算设备104的示例包括但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备(诸如移动电话、个人数字助理(PDA)、媒体播放器等)、多处理器系统、消费电子产品、小型计算机、大型计算机、包括上述系统或设备中的任意一个的分布式计算环境等。
文本102是包括有目标对话106的一段文字。具体地,文本102是通过对包括有对话的书本、网页中的章节或段落进行预处理而提取的包括目标对话的一段文字。
例如,在对书本或书本的章节段落进行识别时,如果查找到一段对话,诸如由双引号标记的一段对话,则将该段对话作为目标对话。然后以该目标对话为基础,获取该目标对话前面的一部分语句和该目标对话后面的一部分语句来形成文本102。在目标对话106构造文本 的过程中,可以确定出目标对话106在文本102中的位置。在一个示例中,文本102包括300个字,目标对话为其中100-160个字,则目标对话的位置可用[100,160]标识。上述示例仅是用于描述本公开,而非对本公开的具体限定。
在一些实施例中,计算设备104会对文本102对行处理来获得文本102的文本语义信息。在一个示例中,计算设备104使用语言表示模型,例如BERT(Bidirectional Encoder Representations from Transformers)模型来处理文本102来获得文本102的文本语义信息,例如文本嵌入向量。在另一个示例中,计算设备104使用其他的语言表示模型来获得文本102的文本语义信息。在双一个示例中,还可以基于文字与向量的映射关系来确定与文本102相对应的向量以表示文本的文本语义信息。上述示例仅是用于描述本公开,而非对本公开的具体限定。
然后计算设备104利用获得的文本102的文本语义信息结合目标对话106在文本102中的位置进行一定处理来确定出目标对话的说话者。
在一些实施例中,计算设备104内运行有说话者确定模型,该说话者确定模型用于确定目标对话的说话者。说话模型包括BERT模型,用于确定说话者位置的对话归属模型和用于确定说话者的指代消歧模型。文本102用作说话者确定模型的一个输入。例如说话者确定模型一次处理的文本大小是300个字符,则文本102的大小可以为300个字符。然后利用该说话者确定模型确定出目标对话的说话者。
图1中示出了计算设备104接收文本102,其仅是示例,而非对本公开的具体限定。计算设备104也可以对生成文本102。通过该方法,能够降低误差传播和复杂性,并且提高了判定精度,改进了用户体验
上面结合图1描述了本公开的实施例能够在其中被实现的示例环境100的框图。下面结合图2描述根据本公开的实施例的确定文本中说话者的方法200的流程图。方法200可以在图1的计算设备104处 执行。
在框202处,计算设备104基于包括目标对话的文本,确定文本的文本语义信息。如上面所述,要处理的文本是通过计算设备104或其他的计算设备对书本或网页中的一些章节和段落进行预处理得到的。计算设备104通过对文本102进行语义分析处理来获得文本的文本语义信息。
在一些实施例中,计算设备104通过将语言表示模型应用于文本来获得文本语义信息。例如,使用BERT模型或现在或将来开发的其他合适的语言表示模型来处理文本102以获得文本102的文本语义信息。
在框204处,计算设备104确定目标对话在文本中的位置。该位置是用于指示目标对话在该文本102中的位置。例如,如果文本长度为300,目标对话为其中第100-160个字,则其位置可用[100,160]指示。如上所述,该位置在预处理过程中设置。在计算设备104接收文本102时接收目标对话在文本中的位置。图1中示出了文本102及目标对话的位置是计算设备104从外部接收的,其仅是示例。计算设备104也可以对书本或网页等包括文字的数据源进行预处理来确定文本102及目标对话106的位置。
在框206处,计算设备104基于文本语义信息和位置,确定目标对话的说话者。计算设备104利用获得的文本语义信息及目标对话106在文本102中的位置可确定出目标对话106的说话者108的目标指代,该目标指代为说出目标对话的说话者的人名。
在一些实施例中,为了便于描述,目标对话的位置也称为第一位置。在确定说话者108时,计算设备104利用文本语义信息和第一位置,确定目标对话的说话者在文本中的第二位置。
在一些实施例中,计算设备104利用第一位置,从文本语义信息中确定与目标对话相对应的第一部分语义信息。例如,文本语义信息为文本嵌入向量,如果目标对话的位置为[100,160],则从文本嵌入向量中选对与文本中第100-160个字符相对应的向量作为第一部分语义 信息。然后,计算设备104利用第一部分语义信息和文本语义信息,确定第二位置。利用第一部分语义信息和文本语义信息确定第二位置的过程在下面结合图4进行描述。
在一些实施例中,计算设备104通过将对话归属模型应用于文本语义信息和第一位置来确定第二位置,对话归属模型是利用样本文本的文本语义信息和样本文本中的样本对话的位置及样本文本中样本对话的说话者的位置训练得到的。其中对话归属模型的训练将在图3中进行描述。
在获得了说话者在文本中的第二位置后,计算设备104利用文本语义信息和第二位置,从文本中确定出表示说话者的至少一个指代。然后从至少一个指代中确定针对说话者的目标指代。例如,计算设备104根据相同指代的数目以及指代包括姓氏来从至少一个指代中选择目标指代。例如选取最多数目的且包括姓氏的相同指代来作为目标指代。
在一些实施例中,计算设备104利用说话者在文本中的第二位置,从文本语义信息中确定与第二位置相对应的第二部分语义信息。例如,如前面所述的,目标对话的位置为[100,160]的说话者的位置在[90,91]。则获取文本嵌入向量中与第[90,91]个字相对应的嵌入向量作为第二部分语义信息。然后计算设备104利用第二部分语义信息和文本语义信息,来确定至少一个指代。在一个示例中,计算设备104通过对表示第二部分语义信息的向量进行均值化处理来生成第二调整信息。接下来,计算设备104将第二调整信息组合到文本语义信息中以用于确定至少一个指代。
在一些实施例中,计算设备104通过将指代消歧模型应用于第二位置和文本语义信息以确定至少一个指代,指代消歧模型是利用样本文本的文本语义信息、样本文本中的样本对话的说话者的位置、和样本文本中样本对话的说话者的样本指代训练得到的。指代消歧模型的训练将在图3中进行描述。
在一些实施例中,计算设备104通过将对话归属模型和指代消歧 模型应用于文本语义信息和位置来确定说话者,对话归属模型和指代消歧模型是利用样本文本的文本语义信息、样本文本中的样本对话的位置、样本文本中样本对话的说话者的位置和样本文本中样本对话的说话者的样本指代联合训练得到的。
计算设备104在获得了目标对话的说话者之后,利用获得这些信息生成针对说话者的与目标对话对应的语音信息,例如生成的语音信息使语音设备以说话者的声音来朗读目标对话。通过该方法,能够降低误差传播和复杂性,并且提高了判定精度,改进了用户体验。
图3示出了根据本公开的实施例的用于确定文本中的说话者的说话者确定模型300的示意图。说话者确定模型300包括Bert模型、对话归属模型326和指代消歧模型328。
下面先结合图3描述确定文本中说话者确定模型的训练过程。首先计算设备获得输入文本302,其是样本文本,包括有目标对话。然后输入Bert模型306来生成文本嵌入向量308。计算设备还会获取到目标对话在输入文本302中的目标对话位置304(即第一位置)。然后文本嵌入向量308和目标对话位置304被输入对话归属模型326。
在对话归属模型326中,计算设备执行截取操作332,以获得与目标对话相对应的对话嵌入向量310。例如,输入文本302的文本嵌入向量308表示为C={e1,e2,e3,…,eN},其中N为文本中的字符数,ei表示文本中第i个字符的向量,如果目标对话位置为[i,j],其中1≤i<j≤N,则对话嵌入向量310为D={ei,ei+1,…,ej}。
然后对话嵌入向量310和文本嵌入向量308输入对话编码器312,对话编码器312对输入的数据进行向量变换。然后结合说话者标识分类器314确定出预测的说话者位置316。对于对话编码器312,下面将结合附图5进一步进行描述。然后基于样本输入文本中的目标说话者位置来计算损失函数。
在训练指代消歧模型328时,利用文本嵌入向量308和目标说话者位置330作为训练输入。然后利用截取操作334来获得说话者嵌入向量318。例如,输入文本302的文本嵌入向量308表示为 C={e1,e2,e3,…,eN},其中N为文本中的字符数,ei表示文本中第i个字符的向量。输入文本302中的目标对话的目标说话者的位置为[k,m],其中1≤k≤m≤N,则说话者嵌入向量318为S={ek,ek+1,…,em}。然后将说话者嵌入向量318和文本嵌入向量308输入说话者编码器320以进行向量变换。然后输入指代消歧分类器322,以确定出与输入文本302中其他位置处针对目标说话者的预测的指代位置324。其中说话者编码器下面将结合图6进行描述。备选地或附加地,对话归属模型326和指代消歧模型328是采用相同输入文本的文本嵌入向量联合训练得到的。
在联合训练过程中,模型训练的总损失由下面式(1)表示:
L=λ*LS+(1-λ)*LC        (1)
其中LS为对话归属模型326的损失函数,其由下面的式(2)表示,LC为指代消歧模型328的损失函数,其由下面的式(3)表示,λ表示针对对话归属模型326的损失函数的权重。

其中S表示对话归属模型,C表示指代消歧模型,表示针对对话归属模型的第i个输入文本序列中的第j个字符的预测logit;表示针对对话归属模型的对应标签,表示针对指代消歧模型的第i个输入文本序列中的第j个字符的预测logit;表示针对指代消歧模型的对应标签,M是输入序列的总数目,N是一个输入序列中的字符的数目,α是权重系统,γ是设置的因子。
模型的推理过程与模型的训练过程基本相似,但是区别在于在推是过程中不再使用目标对话位置330,而是使用预测的说话者位置316结合文本嵌入向量308来输入指代消歧模型328。
通过该方法,可以降低误差传播和复杂性,并且提高了判定精度,改进了用户体验。
图3示出了根据本公开的实施例的用于确定说话者的说话者确定 模型300的示意图。下面结合图4描述用于确定第二位置(及说话者位置)的过程,其可以在图5中描述的对话编码器中实现。
在框402处,计算设备104对第一部分语义信息进行自注意调整以生成经调整的第一部分语义信息。通过自注意调整,可以增强第一部分语义信息中的各个部分之间的联系。
然后计算设备在框404处,组合经调整的第一部分语义信息和第一部分语义信息,以确定组合语义信息。例如,将经调整的第一部分语义信息的嵌入向量和第一部分语义信息的嵌入向量进行相加操作。在框406处,计算设备通过对表示组合语义信息的向量进行均值化处理来生成第一调整信息。例如,对组合语义信息中的所有嵌入向量求平均。在框408处,计算设备基于第一调整信息和文本语义信息,确定第二位置。
通过该方法,可以降低误差传播和复杂性,并且提高了判定精度,改进了用户体验。
上面结合图4描述了根据本公开的实施例的用于确定说话者位置的方法400的示意图。下面结合图5描述根据本公开的实施例的对话编码器500的示意图。
如图5的所示,对话嵌入向量502可以为图4中的第一部分语义信息或图3中的对话嵌入向量310。对话嵌入向量502输入对话编码器504。自注意处理模块506会对输入的对话嵌入向量502进行自注意处理以得到调整的嵌入向量,此时向量大小未变。
操作508将经自注意调整的向量与对话嵌入向量组合,例如,将向量中对应的向量部分相加。然后均值化模块510对组合的嵌入向量中的各个部分进行均值化处理得到一个平均的嵌入向量,作为调整信息。
操作512将调整信息结合到文本嵌入向量516。在这个过程中,在文本嵌入向量中与每个字相对应的嵌入向量后增加调整信息对应的向量。然后,其被送入前馈模块514进行处理,接着输入说话者标识分类器以确定第二位置。前馈模块的结构结合图7进行描述。
上面结合图5描述了根据本公开的实施例的对话编码器500的示意图。下面结合图6描述根据本公开的实施例的说话者编码器600的示意图。
说话者嵌入向量602输入说话者编码器604。说话者嵌入向量602可以为图3中的说话者嵌入向量318。然后由均值化模块606对说话者嵌入模块进行处理。例如,对与文本中说话者位置中的每个字对应的嵌入向量进行均值化操作,以得到一个向量均值。然后在操作608将该操作均值结合到文本嵌入向量612。例如,将该向量均值结合到与文本中的每个文字相对应的嵌入向量后面以形成针对每个文字的新的嵌入向量。然后将调整的文本嵌入向量输入前馈模块610。前馈模块610在图7中进行描述。
图7图示了根据本公开的实施例的前馈模块700的示意图。前馈模块700可以实现图5和图6中的前馈模块。
前馈模块700包括三层结构用于对数据进行处理。输入的数据经致密层704处理后,在706处由Relu激活函数和归一化层进行处理,然后由随机失活层708进行进一步的调整。
图8图示了根据本公开的实施例的生成语音的过程800的示意图。
在该过程中,输入文本802输入说话者确定模块804进行处理,确定出目标对话的说话者,然后分配说话者标签806,同时该输入文本802还经由情感分类模块808进行处理,然后标记对应的情感标签810。将说话者标签806、情感标签810结合到输入文本中生成处理的文本812。该文本中每句话都分配了说话者和对应的情感。然后输入文本转语音(text-to-speech,TTS)系统814。最后形成对应的语音信息816。
图9示出了根据本公开实施例的用于确定文本中说话者的装置的示意性框图。如图9所示,装置900包括文本语义信息确定模块902,被配置为基于包括目标对话的文本,确定所述文本的文本语义信息;位置确定模块904,被配置为确定所述目标对话在所述文本中的位置;以及说话者确定模块906,被配置为基于所述文本语义信息和所述位 置,确定所述目标对话的说话者。
在一些实施例中,文本语义信息确定模块902包括语言表示模型应用模块,被配置为通过将语言表示模型应用于所述文本来获得所述文本语义信息。
在一些实施例中,其中所述位置是第一位置,所述说话者确定模块906包括第二位置确定模块,被配置为基于所述文本语义信息和所述第一位置,确定所述目标对话的所述说话者在所述文本中的第二位置;指代确定模块,被配置为基于所述文本语义信息和所述第二位置,确定所述文本中表示所述说话者的至少一个指代;以及基于指代的说话者确定模块,被配置为从所述至少一个指代中确定所述说话者的目标指代。
在一些实施例中,第二位置确定模块包括:第一部分语义信息确定模块,被配置为基于所述第一位置,从所述文本语义信息中确定与所述目标对话相对应的第一部分语义信息;以及基于语义信息的位置确定模块,被配置为基于所述第一部分语义信息和所述文本语义信息,确定所述第二位置。
在一些实施例中,其中所述基于语义信息的位置确定模块包括:调整模块,被配置为对所述第一部分语义信息进行自注意调整以生成经调整的所述第一部分语义信息;第一组合模块,被配置为组合所述经调整的所述第一部分语义信息和所述第一部分语义信息,以确定组合语义信息;第一均值化模块,被配置为通过对表示所述组合语义信息的向量进行均值化来生成第一调整信息;以及基于调整信息的位置确定模块,被配置为基于所述第一调整信息和所述文本语义信息,确定所述第二位置。
在一些实施例中,其中所述第二位置确定模块包括:对话归属模型应用模块,被配置为通过将对话归属模型应用于所述文本语义信息和所述第一位置来确定所述第二位置,所述对话归属模型是利用样本文本的文本语义信息和所述样本文本中的样本对话的位置及所述样本文本中所述样本对话的说话者的位置训练得到的。
在一些实施例中,其中所述指代确定模块包括第二部分语义信息确定模块,被配置为基于所述第二位置,从所述文本语义信息中确定与所述第二位置相对应的第二部分语义信息;以及基于语义信息的指代确定模块,被配置为基于所述第二部分语义信息和所述文本语义信息,确定所述至少一个指代。
在一些实施例中,其中基于语义信息的指代确定模块包括第二均值化模块,被配置为通过对表示所述第二部分语义信息的向量进行均值化来生成第二调整信息;以及基于调整信息的指代确定模块,被配置为将所述第二调整信息组合到所述文本语义信息中以用于确定所述至少一个指代。
在一些实施例中,其中指代确定模块包括指代消歧模型应用模块,被配置为通过将指代消歧模型应用于所述第二位置和所述文本语义信息以确定所述至少一个指代,所述指代消歧模型是利用所述样本文本的文本语义信息、样本文本中的样本对话的说话者的位置、和所述样本文本中所述样本对话的说话者的样本指代训练得到的。
在一些实施例中,其中说话者确定模块包括联合应用模块,被配置为通过将对话归属模型和指代消歧模型应用于所述文本语义信息和所述位置来确定所述说话者,所述对话归属模型和指代消歧模型是利用样本文本的文本语义信息、所述样本文本中的样本对话的位置、所述样本文本中所述样本对话的说话者的位置和所述样本文本中所述样本对话的说话者的样本指代联合训练得到的。
在一些实施例中,该装置还包括语音信息生成模块,被配置为生成针对所述说话者的与所述目标对话对应的语音信息。
图10示出了可以用来实施本公开的实施例的示例设备1000的示意性框图。图1中的计算设备104可以利用设备1000来实现。如图所示,设备1000包括中央处理单元(CPU)1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序指令或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序指令,来执行各种适当的动作和处理。在RAM 1003中,还可存储设备1000操作 所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储页面1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,例如方法200和400,可由处理单元1001执行。例如,在一些实施例中,方法200和400可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序被加载到RAM1003并由CPU 1001执行时,可以执行上文描述的方法200和400的一个或多个动作。
本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过 波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或 其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者 使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (14)

  1. 一种用于确定文本中说话者的方法,包括:
    基于包括目标对话的文本,确定所述文本的文本语义信息;
    确定所述目标对话在所述文本中的位置;以及
    基于所述文本语义信息和所述位置,确定所述目标对话的说话者。
  2. 根据权利要求1所述的方法,其中确定所述文本语义信息包括:
    通过将语言表示模型应用于所述文本来获得所述文本语义信息。
  3. 根据权利要求1所述的方法,其中所述位置是第一位置,确定所述说话者包括:
    基于所述文本语义信息和所述第一位置,确定所述目标对话的所述说话者在所述文本中的第二位置;
    基于所述文本语义信息和所述第二位置,确定所述文本中表示所述说话者的至少一个指代;以及
    从所述至少一个指代中确定针对所述说话者的目标指代。
  4. 根据权利要求3所述的方法,其中确定所述第二位置包括:
    基于所述第一位置,从所述文本语义信息中确定与所述目标对话相对应的第一部分语义信息;以及
    基于所述第一部分语义信息和所述文本语义信息,确定所述第二位置。
  5. 根据权利要求4所述的方法,其中基于所述第一部分语义信息和所述文本语义信息,确定所述第二位置包括:
    对所述第一部分语义信息进行自注意调整以生成经调整的所述第一部分语义信息;
    组合所述经调整的所述第一部分语义信息和所述第一部分语义信息,以确定组合语义信息;
    通过对表示所述组合语义信息的向量进行均值化来生成第一调整信息;以及
    基于所述第一调整信息和所述文本语义信息,确定所述第二位置。
  6. 根据权利要求3所述方法,其中确定所述第二位置包括:
    通过将对话归属模型应用于所述文本语义信息和所述第一位置来确定所述第二位置,所述对话归属模型是利用样本文本的语义信息和所述样本文本中的样本对话的位置及所述样本文本中所述样本对话的说话者的位置训练得到的。
  7. 根据权利要求3所述的方法,其中确定所述至少一个指代包括:
    基于所述第二位置,从所述文本语义信息中确定与所述第二位置相对应的第二部分语义信息;以及
    基于所述第二部分语义信息和所述文本语义信息,确定所述至少一个指代。
  8. 根据权利要求7所述的方法,其中基于所述第二部分语义信息和所述文本语义信息确定所述至少一个指代包括:
    通过对表示所述第二部分语义信息的向量进行均值化来生成第二调整信息;以及
    将所述第二调整信息组合到所述文本语义信息中以用于确定所述至少一个指代。
  9. 根据权利要求3所述的方法,其中确定所述至少一个指代包括:
    通过将指代消歧模型应用于所述第二位置和所述文本语义信息以确定所述至少一个指代,所述指代消歧模型是利用样本文本的文本语义信息、样本文本中的样本对话的说话者的位置、和所述样本文本中所述样本对话的说话者的样本指代训练得到的。
  10. 根据权利要求1所述的方法,其中确定所述说话者包括:
    通过将对话归属模型和指代消歧模型应用于所述文本语义信息和所述位置来确定所述说话者,所述对话归属模型和指代消歧模型是利用样本文本的文本语义信息、所述样本文本中的样本对话的位置、所述样本文本中所述样本对话的说话者的位置和所述样本文本中所述样本对话的说话者的样本指代而联合训练得到的。
  11. 根据权利要求1所述的方法,还包括:
    生成针对所述说话者的与所述目标对话对应的语音信息。
  12. 一种用于确定文本中说话者的装置,包括:
    文本语义信息确定模块,被配置为基于包括目标对话的文本,确定所述文本的文本语义信息;
    位置确定模块,被配置为确定所述目标对话在所述文本中的位置;以及
    说话者确定模块,被配置为基于所述文本语义信息和所述位置,确定所述目标对话的说话者。
  13. 一种电子设备,包括:
    至少一个处理器;以及
    存储装置,用于存储至少一个程序,当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现根据权利要求1-11中任一项所述的方法。
  14. 一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-11中任一项所述的方法。
PCT/CN2023/098688 2022-06-17 2023-06-06 用于确定文本中说话者的方法、装置、设备和存储介质 WO2023241409A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210693486.6 2022-06-17
CN202210693486.6A CN115034226A (zh) 2022-06-17 2022-06-17 用于确定文本中说话者的方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
WO2023241409A1 true WO2023241409A1 (zh) 2023-12-21

Family

ID=83124344

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2023/098688 WO2023241409A1 (zh) 2022-06-17 2023-06-06 用于确定文本中说话者的方法、装置、设备和存储介质

Country Status (2)

Country Link
CN (1) CN115034226A (zh)
WO (1) WO2023241409A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115034226A (zh) * 2022-06-17 2022-09-09 北京有竹居网络技术有限公司 用于确定文本中说话者的方法、装置、设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750996A (zh) * 2018-07-18 2020-02-04 广州阿里巴巴文学信息技术有限公司 多媒体信息的生成方法、装置及可读存储介质
CN112270167A (zh) * 2020-10-14 2021-01-26 北京百度网讯科技有限公司 角色标注方法、装置、电子设备和存储介质
CN112765971A (zh) * 2019-11-05 2021-05-07 北京火山引擎科技有限公司 文本语音的转换方法、装置、电子设备及存储介质
US20210142785A1 (en) * 2019-11-12 2021-05-13 International Business Machines Corporation Dynamic text reader
CN112837672A (zh) * 2019-11-01 2021-05-25 北京字节跳动网络技术有限公司 对话归属的确定方法、装置、电子设备及存储介质
CN113409766A (zh) * 2021-05-31 2021-09-17 北京搜狗科技发展有限公司 一种识别方法、装置、用于识别的装置及语音合成方法
CN115034226A (zh) * 2022-06-17 2022-09-09 北京有竹居网络技术有限公司 用于确定文本中说话者的方法、装置、设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9053096B2 (en) * 2011-12-01 2015-06-09 Elwha Llc Language translation based on speaker-related information
CN111859910B (zh) * 2020-07-15 2022-03-18 山西大学 一种用于语义角色识别的融合位置信息的词特征表示方法
CN112269862B (zh) * 2020-10-14 2024-04-26 北京百度网讯科技有限公司 文本角色标注方法、装置、电子设备和存储介质
CN112434492B (zh) * 2020-10-23 2021-10-15 北京百度网讯科技有限公司 文本标注方法、装置及电子设备
CN112270198B (zh) * 2020-10-27 2021-08-17 北京百度网讯科技有限公司 角色确定方法、装置、电子设备及存储介质
CN112906380A (zh) * 2021-02-02 2021-06-04 北京有竹居网络技术有限公司 文本中角色的识别方法、装置、可读介质和电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750996A (zh) * 2018-07-18 2020-02-04 广州阿里巴巴文学信息技术有限公司 多媒体信息的生成方法、装置及可读存储介质
CN112837672A (zh) * 2019-11-01 2021-05-25 北京字节跳动网络技术有限公司 对话归属的确定方法、装置、电子设备及存储介质
CN112765971A (zh) * 2019-11-05 2021-05-07 北京火山引擎科技有限公司 文本语音的转换方法、装置、电子设备及存储介质
US20210142785A1 (en) * 2019-11-12 2021-05-13 International Business Machines Corporation Dynamic text reader
CN112270167A (zh) * 2020-10-14 2021-01-26 北京百度网讯科技有限公司 角色标注方法、装置、电子设备和存储介质
CN113409766A (zh) * 2021-05-31 2021-09-17 北京搜狗科技发展有限公司 一种识别方法、装置、用于识别的装置及语音合成方法
CN115034226A (zh) * 2022-06-17 2022-09-09 北京有竹居网络技术有限公司 用于确定文本中说话者的方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN115034226A (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
US10698932B2 (en) Method and apparatus for parsing query based on artificial intelligence, and storage medium
KR102582291B1 (ko) 감정 정보 기반의 음성 합성 방법 및 장치
CN107590135B (zh) 自动翻译方法、设备和系统
CN109887484B (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN107077841B (zh) 用于文本到语音的超结构循环神经网络
US9558743B2 (en) Integration of semantic context information
US9501470B2 (en) System and method for enriching spoken language translation with dialog acts
EP4033393A1 (en) Determining state of automated assistant dialog
EP2956931A2 (en) Facilitating development of a spoken natural language interface
CN109754809A (zh) 语音识别方法、装置、电子设备及存储介质
JP7266683B2 (ja) 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム
US11929060B2 (en) Consistency prediction on streaming sequence models
US11645460B2 (en) Punctuation and capitalization of speech recognition transcripts
WO2023241409A1 (zh) 用于确定文本中说话者的方法、装置、设备和存储介质
US11978434B2 (en) Developing an automatic speech recognition system using normalization
Sugiura et al. A cloud robotics approach towards dialogue-oriented robot speech
Zhu et al. Catslu: The 1st chinese audio-textual spoken language understanding challenge
CN113160820B (zh) 语音识别的方法、语音识别模型的训练方法、装置及设备
Granell et al. Multimodality, interactivity, and crowdsourcing for document transcription
JP2023546930A (ja) 言語間音声合成を改良するための音声認識の使用
López-Ludeña et al. LSESpeak: A spoken language generator for Deaf people
Liu et al. Paraphrastic language models
US20220277732A1 (en) Method and apparatus for training speech recognition model, electronic device and storage medium
Veliz et al. Comparing MT approaches for text normalization
US20180033425A1 (en) Evaluation device and evaluation method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23822978

Country of ref document: EP

Kind code of ref document: A1