WO2021212817A1 - 用于语音对话的纠正方法及装置 - Google Patents

用于语音对话的纠正方法及装置 Download PDF

Info

Publication number
WO2021212817A1
WO2021212817A1 PCT/CN2020/129337 CN2020129337W WO2021212817A1 WO 2021212817 A1 WO2021212817 A1 WO 2021212817A1 CN 2020129337 W CN2020129337 W CN 2020129337W WO 2021212817 A1 WO2021212817 A1 WO 2021212817A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
text information
semantic keyword
semantic
skill
Prior art date
Application number
PCT/CN2020/129337
Other languages
English (en)
French (fr)
Inventor
林永楷
樊帅
Original Assignee
思必驰科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 思必驰科技股份有限公司 filed Critical 思必驰科技股份有限公司
Priority to US17/996,643 priority Critical patent/US11804217B2/en
Priority to JP2022563122A priority patent/JP7413568B2/ja
Priority to EP20932568.7A priority patent/EP4141865A4/en
Publication of WO2021212817A1 publication Critical patent/WO2021212817A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Definitions

  • the present invention relates to the field of intelligent speech, in particular to a correction method and device for speech dialogue.
  • Smart devices perform semantic understanding and recognition of the voice input by the user, thereby obtaining the user's intention, and then feedback the corresponding operation to the user. If an error is identified, the user can usually correct it, for example:
  • the chat bot replied: Find out if Lin Yongkai's phone number is dialing for you.
  • the recognition result of the user's voice it is a model of a model.
  • the chat bot replied: Find out if Lin Yongkai's phone number is dialing for you.
  • the recognition result of the user's voice it is the station of the station.
  • an embodiment of the present invention provides a correction method for a voice conversation, including:
  • the first text information includes: a first semantic keyword determined by a plurality of candidate words;
  • an embodiment of the present invention provides a correction device for voice dialogue, including:
  • a candidate word feedback program module which is used to feed back the multiple candidate words to the user in response to the user's selection of the first semantic keyword in the first result
  • an embodiment of the present invention provides a storage medium on which a computer program is stored, characterized in that, when the program is executed by a processor, the steps of the method for correcting a voice conversation in any embodiment of the present invention are implemented.
  • Figure 2 is a software implementation flow chart of a method for correcting voice conversations according to an embodiment of the present invention
  • Fig. 3 is a schematic structural diagram of a correction device for voice dialogue provided by an embodiment of the present invention.
  • FIG. 4 is a schematic structural diagram of an embodiment of the electronic device of the present invention.
  • the embodiment of the present invention provides a correction method for voice dialogue, which is applied to an electronic device.
  • the electronic device may be a smart TV, a smart phone, a smart speaker, a smart car device, a smart screen, etc., which is not limited in the present invention.
  • Fig. 1 is a flowchart of a method for correcting voice conversations according to an embodiment of the present invention. The method is applied to an electronic device, and the method includes the following steps:
  • the electronic device recognizes the first text information of the dialogue voice input by the user, where the first text information includes: a first semantic keyword determined by a plurality of candidate words;
  • S12 The electronic device feeds back the first result with the first semantic keyword to the user based on the first text information
  • S14 The electronic device receives the second semantic keyword input by the user, corrects the first text information based on the second semantic keyword, and determines the corrected second text information based on the second text information Feedback the second result with the second semantic keyword to the user.
  • the microphone array in order to be able to distinguish the dialogue voice of other users, taking into account the need to support multi-modality, in the first round of the multi-modal dialogue system, the microphone array usually converts the recognized audio into text or uses the keyboard to directly input text As input.
  • the microphone array is composed of a certain number of microphones, which are used to record voice and audio signals.
  • the microphone array can identify the direction of the sound source, and at the same time, it can also remove the background sound to a certain extent, thereby improving the automatic voice Accuracy of recognition.
  • the automatic speech recognition service By using the microphone array to capture the audio stream, and using the network to transmit to the cloud to the automatic speech recognition service to obtain the text information corresponding to the voice, the automatic speech recognition service based on the acoustic model and language model in the home environment can also improve the accuracy of the text recognition Spend.
  • the recognized text will be directly sent to the semantic analysis module in the cloud, and the semantic analysis module can parse a sentence of text into a semantic entity.
  • the user input is the voice "I want to see the heartbeat”.
  • speech recognition there are a certain amount of multiple candidate words for each word to adjust the sentence.
  • the voice of "pounded heartbeat” due to the user's pronunciation problem or language model, it is easy to identify the two words “pounded heartbeat” and “pumped star motion”, and these two words It happens to be in the movie semantic slot.
  • the system will select a candidate word with high confidence as the keyword of the sentence. Furthermore, this makes the voice input by the user "I want to watch the heartbeat", and then, the recognition result is "I want to see the star motion".
  • step S12 "I want to watch the star animation” determined by the recognition in step S11, give feedback to the user, for example, “find the following content that matches the star animation for you, which one do you want to watch” .
  • the first semantic keyword determined from a plurality of candidate words includes:
  • the feeding back the multiple candidate words to the user includes:
  • the design of the candidate word window includes, but is not limited to, lists and grids.
  • step S14 the user clicks to select "Popular Heartbeat" from the candidate list, and the smart device corrects it, and finds the following content that meets the pounding heartbeat for you again. May I ask which one you want to look at. Then there is the normal voice dialogue process: User: the first one. Smart device: Show you the heartbeat of Director Rob Reiner, the specific process is shown in Figure 2.
  • the second semantic keyword input by the user includes:
  • the corrected dialogue voice When the user inputs the corrected dialogue voice, the corrected dialogue voice is recognized, and the second semantic keyword is determined according to the recognition result.
  • the second semantic keyword is determined according to the corrected text.
  • Method 1 Correct the results of this round of speech recognition directly through keyboard or virtual keyboard input.
  • the second semantic keyword input by the user further includes:
  • the method further includes: recording each round of feedback to the user with multiple rounds of results with semantic keywords;
  • the user is constantly communicating with the smart device, and the smart device records the conversation record with the user through the screen, for example:
  • the first result of the text with the first skill is fed back to the user through the first skill.
  • the second skill is re-determined according to the first text information, and the text with the second skill is fed back to the user through the second skill The second result of; or
  • the user selects the word video in the prompt language returned by the dialogue system.
  • the user selects an audio book by clicking.
  • the error correction function provided can not only deal with true ambiguity in the dialogue, but also deal with semantic parsing errors, which improves the dialogue system's ability to handle errors in response to errors.
  • Figure 3 is a schematic structural diagram of a voice dialogue correction device provided by an embodiment of the present invention.
  • the device can execute the voice dialogue correction method described in any of the above embodiments and is configured in a terminal .
  • the correction device for speech dialogue includes: a speech recognition program module 11, a result feedback program module 12, a candidate word feedback program module 13, and a correction program module 14.
  • the voice recognition program module 11 is used to recognize the first text information of the dialogue voice input by the user, where the first text information includes: a first semantic keyword determined by a plurality of candidate words; the result feedback program module 12 uses In order to feed back the first result with the first semantic keyword to the user based on the first text information; the candidate word feedback program module 13 is used to respond to the user’s comments on the first semantic in the first result The selection of keywords, the multiple candidate words are fed back to the user; the correction program module 14 is used to receive the second semantic keyword input by the user, and compare the first text based on the second semantic keyword The information is corrected, the corrected second text information is determined, and the second result with the second semantic keyword is fed back to the user based on the second text information.
  • speech recognition program module is used for:
  • the candidate word feedback program module is used for:
  • the multiple candidate words are sorted according to the recognition confidence, and the list window of the multiple candidate words is fed back to the user.
  • the embodiment of the present invention also provides a non-volatile computer storage medium, the computer storage medium stores computer-executable instructions, and the computer-executable instructions can execute the correction method for voice dialogue in any of the foregoing method embodiments;
  • the non-volatile computer storage medium of the present invention stores computer executable instructions, and the computer executable instructions are set as:
  • the first text information includes: a first semantic keyword determined by a plurality of candidate words;
  • Receive the second semantic keyword input by the user correct the first text information based on the second semantic keyword, determine the corrected second text information, and report to the user based on the second text information Feedback the second result with the second semantic keyword.
  • non-volatile computer-readable storage medium it can be used to store non-volatile software programs, non-volatile computer-executable programs and modules, such as program instructions/modules corresponding to the methods in the embodiments of the present invention.
  • One or more program instructions are stored in a non-volatile computer-readable storage medium, and when executed by a processor, execute the correction method for voice dialogue in any of the foregoing method embodiments.
  • the non-volatile computer-readable storage medium may include a storage program area and a storage data area.
  • the storage program area may store an operating system and an application program required by at least one function; Data etc.
  • the non-volatile computer-readable storage medium may include a high-speed random access memory, and may also include a non-volatile memory, such as at least one magnetic disk storage device, a flash memory device, or other non-volatile solid-state storage devices.
  • the non-volatile computer-readable storage medium may optionally include memories remotely provided with respect to the processor, and these remote memories may be connected to the device through a network. Examples of the aforementioned networks include, but are not limited to, the Internet, corporate intranets, local area networks, mobile communication networks, and combinations thereof.
  • An embodiment of the present invention further provides an electronic device, which includes: at least one processor, and a memory communicatively connected to the at least one processor, wherein the memory stores instructions that can be executed by the at least one processor , The instruction is executed by the at least one processor, so that the at least one processor can execute:
  • the first text information includes: a first semantic keyword determined by a plurality of candidate words;
  • Receive the second semantic keyword input by the user correct the first text information based on the second semantic keyword, determine the corrected second text information, and report to the user based on the second text information Feedback the second result with the second semantic keyword.
  • the first semantic keyword determined from a plurality of candidate words includes: selecting a candidate word with the highest recognition confidence from the plurality of candidate words and determining it as the first semantic keyword;
  • the feeding back the plurality of candidate words to the user includes: sorting the plurality of candidate words according to recognition confidence, and feeding back a list window of the plurality of candidate words to the user.
  • the second semantic keyword input by the user includes:
  • the second semantic keyword is determined according to the corrected text.
  • the receiving the second semantic keyword input by the user further includes:
  • the corrected text in the image information is recognized, and the second semantic keyword is determined according to the corrected text.
  • the processor is further configured to: record each round of feedback to the user with multiple rounds of results with semantic keywords; in response to the user’s selection of semantic keywords in any round of results, The multiple candidate words corresponding to the semantic keywords are fed back to the user.
  • the feeding back the first result with the first semantic keyword to the user based on the first text information includes:
  • the first result of the text with the first skill is fed back to the user through the first skill.
  • the processor is further configured to: in response to the user's selection of the text of the first skill in the first result, feedback the multiple candidate skills to the user;
  • the second skill is re-determined according to the first text information, and the text with the second skill is fed back to the user through the second skill The second result of; or
  • the corresponding third skill is re-determined according to the first text information, and the third skill is used to feed back the first text with the third skill to the user.
  • Fig. 4 is a schematic diagram of the hardware structure of an electronic device for performing a correction method for voice dialogue according to another embodiment of the present invention. As shown in Fig. 4, the device includes:
  • One or more processors 410 and a memory 420 are taken as an example in FIG. 4.
  • the device for performing the correction method for the voice dialogue may further include: an input device 430 and an output device 440.
  • the processor 410, the memory 420, the input device 430, and the output device 440 may be connected by a bus or in other ways. In FIG. 4, the connection by a bus is taken as an example.
  • the memory 420 can be used to store non-volatile software programs, non-volatile computer-executable programs and modules, such as the method for correcting voice conversations in the embodiments of the present invention Corresponding program instructions/modules.
  • the processor 410 executes various functional applications and data processing of the server by running the non-volatile software programs, instructions, and modules stored in the memory 420, that is, implements the correction method for the voice dialogue in the foregoing method embodiment.
  • the memory 420 may include a storage program area and a storage data area.
  • the storage program area may store an operating system and an application program required by at least one function; the storage data area may store data created according to the use of the correction device for voice dialogue. Wait.
  • the memory 420 may include a high-speed random access memory, and may also include a non-volatile memory, such as at least one magnetic disk storage device, a flash memory device, or other non-volatile solid-state storage devices.
  • the memory 420 may optionally include a memory remotely provided with respect to the processor 410, and these remote memories may be connected to a correction device for voice dialogue via a network. Examples of the aforementioned networks include, but are not limited to, the Internet, corporate intranets, local area networks, mobile communication networks, and combinations thereof.
  • the input device 430 may receive inputted numeric or character information, and generate signals related to user settings and function control of the correction device for voice dialogue.
  • the output device 440 may include a display device such as a display screen.
  • the one or more modules are stored in the memory 420, and when executed by the one or more processors 410, the correction for the voice dialogue in any of the foregoing method embodiments is performed.
  • the electronic devices in the embodiments of the present invention exist in various forms, including but not limited to:
  • Mobile communication equipment This type of equipment is characterized by mobile communication functions, and its main goal is to provide voice and data communications.
  • Such terminals include: smart phones, multimedia phones, functional phones, and low-end phones.
  • Ultra-mobile personal computer equipment This type of equipment belongs to the category of personal computers, has calculation and processing functions, and generally also has mobile Internet features.
  • Such terminals include: PDA, MID and UMPC devices, such as tablet computers.
  • Portable entertainment equipment This type of equipment can display and play multimedia content. Such devices include: audio, video players, handheld game consoles, e-books, as well as smart toys and portable car navigation devices.
  • the device embodiments described above are merely illustrative.
  • the units described as separate components may or may not be physically separated, and the components displayed as units may or may not be physical units, that is, they may be located in One place, or it can be distributed to multiple network units.
  • Some or all of the modules can be selected according to actual needs to achieve the objectives of the solutions of the embodiments. Those of ordinary skill in the art can understand and implement it without creative work.
  • each implementation manner can be implemented by software plus a necessary general hardware platform, and of course, it can also be implemented by hardware.
  • the above technical solution essentially or the part that contributes to the existing technology can be embodied in the form of a software product, and the computer software product can be stored in a computer-readable storage medium, such as ROM/RAM, magnetic A disc, an optical disc, etc., include several instructions to make a computer device (which may be a personal computer, a server, or a network device, etc.) execute the methods described in each embodiment or some parts of the embodiment.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种用于语音对话的纠正方法,包括:识别用户输入的对话语音的第一文本信息,其中,第一文本信息包括:由多个候选词确定的第一语义关键字(S11);基于第一文本信息向用户反馈带有第一语义关键字的第一结果(S12);响应于用户对第一结果内第一语义关键字的选择,将多个候选词向用户反馈(S13);接收用户输入的第二语义关键字,基于第二语义关键字对第一文本信息进行纠正,确定纠正后的第二文本信息,基于第二文本信息向用户反馈带有第二语义关键字的第二结果(S14)。还提供一种用于语音对话的纠正装置。能够解决客观存在的真歧义问题,同时也提升了对话装置的对应错误的容忍与处理能力。

Description

用于语音对话的纠正方法及装置 技术领域
本发明涉及智能语音领域,尤其涉及一种用于语音对话的纠正方法及装置。
背景技术
随着智能语音的发展,用户与智能设备的沟通更加便捷,智能设备对用户输入的语音进行语义理解以及识别,从而获取用户的意图,进而向用户反馈相应的操作。如果识别错误时,用户通常可以对其进行纠正,例如:
用户语音的识别结果:打电话给林永凯。
聊天机器人回复:为你找到林永凯的电话是否拔打。
用户语音的识别结果:是楷模的楷。
聊天机器人回复:为你找到林永楷的电话是否拔打。
又如:
用户语音的识别结果:导航去精英公寓。
聊天机器人回复:抱歉没有找到精英公寓。
用户语音的识别结果:是草字头的菁英。
聊天机器人回复:即将为您导航到菁英公寓。
又如:
用户语音的识别结果:我要去西藏。
聊天机器人回复:即将为您导航到西藏。
用户语音的识别结果:是站台的站。
聊天机器人回复:好的,即将为您导航到西站。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
通过语音主动纠正上一轮或前几轮的说法,在使用纠正时通常需要描述清楚错误的文字,以及需要纠正后的文字,当文本比较长时,或者文本有重复时容易导致用户的表述比较困难。比如:
“我想买一张从北京西站去西藏的票”当出现识别错误时可能会变 成,“我想买一张从北京新站去西站的票”,当用户想要纠正时需要说“不是北京新站是北京西站,而且也不是西站是西藏自治区的西藏”一则说法比较复杂,另外也可能无法处理纠正说法本身带来的识别错误,比如上句纠正的说法仍然可能会被误识别为“不是北京新站是北京西站,而且也不是新站是西藏自治区的西藏”。
或者是由于语言模型的原因,在上述对话中,即使用户再度重复n次“xi er qi”,也仍然会被识别成“西二奇”而不是“西二旗”。
受限于语音识别的本身的误识别,进行纠正时的说法识别结果也仍然是错误的。
进行语音纠正时,虽然用户发音正确,但是用户想要输入的词语刚好仍然不是置信度最高的那个词,仍然会被识别成其他词语。
在识别内容比较长时,容易出现多个发音相似的词语,又或者当多个语义槽识别的内容发音比较接近时,将导致不容易准确地确定需要进行纠正的词语的位置。
发明内容
为了至少解决现有技术中由于语言模型的原因,使得识别错误或识别出其他词语,对内容比较长的句子,或发音比较接近的句子,确定需要纠正词语的位置不容易确定的问题。
第一方面,本发明实施例提供一种用于语音对话的纠正方法,包括:
识别用户输入的对话语音的第一文本信息,其中,所述第一文本信息包括:由多个候选词确定的第一语义关键字;
基于所述第一文本信息向所述用户反馈带有所述第一语义关键字的第一结果;
响应于所述用户对所述第一结果内第一语义关键字的选择,将所述多个候选词向所述用户反馈;
接收所述用户输入的第二语义关键字,基于所述第二语义关键字对所述第一文本信息进行纠正,确定纠正后的第二文本信息,基于所述第二文本信息向所述用户反馈带有所述第二语义关键字的第二结果。
第二方面,本发明实施例提供一种用于语音对话的纠正装置,包括:
语音识别程序模块,用于识别用户输入的对话语音的第一文本信息,其中,所述第一文本信息包括:由多个候选词确定的第一语义关键字;
结果反馈程序模块,用于基于所述第一文本信息向所述用户反馈带有所述第一语义关键字的第一结果;
候选词反馈程序模块,用于响应于所述用户对所述第一结果内第一语义关键字的选择,将所述多个候选词向所述用户反馈;
纠正程序模块,用于接收所述用户输入的第二语义关键字,基于所述第二语义关键字对所述第一文本信息进行纠正,确定纠正后的第二文本信息,基于所述第二文本信息向所述用户反馈带有所述第二语义关键字的第二结果。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用于语音对话的纠正方法的步骤。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的用于语音对话的纠正方法的步骤。
本发明实施例的有益效果在于:在对话系统中引入本方法的主动纠错功能后将能提高对话系统的实用性,并且能够解决客观存在的真歧义问题(在人与人的对话中同样存在),同时也提升了对话系统的对应错误的容忍与处理能力,有助于对话系统在智能语音产品上,尤其是带屏设备,为用户提供更加优异的用户体验。
对语音识别输入法中,尤其在智能终端上,识别错误的问题一直是不可避免的。当前市场主流的产品并没有对纠错提供用户体验良好的设计,只能使用光标定位到特定位置后手动删除内容再使用文本输入法编写出正确的文本。可以遇见当语音输入法引入了基于多模态的主动纠错后,在进行纠错时就能够基于上下文直接点击或者选中词语,接着从系统反馈的高置信度的候选词中选择对应正确的词语,可以避免每次纠错都需要使用键盘进行修改,这将极大的提升语音输入法的性能瓶颈与用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种用于语音对话的纠正方法的流程图;
图2是本发明一实施例提供的一种用于语音对话的纠正方法的软件实现流程图;
图3是本发明一实施例提供的一种用于语音对话的纠正装置的结构示意图;
图4为本发明的电子设备的一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种用于语音对话的纠正方法,应用于电子设备。该电子设备可以为智能电视、智能手机、智能音箱、智能车机装置、智慧屏等,本发明对此不作限定。
如图1所示为本发明一实施例提供的一种用于语音对话的纠正方法的流程图,该方法应用于电子设备,该方法包括如下步骤:
S11:电子设备识别用户输入的对话语音的第一文本信息,其中,所述第一文本信息包括:由多个候选词确定的第一语义关键字;
S12:电子设备基于所述第一文本信息向所述用户反馈带有所述第一语义关键字的第一结果;
S13:响应于所述用户对所述第一结果内第一语义关键字的选择,电 子设备将所述多个候选词向所述用户反馈;
S14:电子设备接收所述用户输入的第二语义关键字,基于所述第二语义关键字对所述第一文本信息进行纠正,确定纠正后的第二文本信息,基于所述第二文本信息向所述用户反馈带有所述第二语义关键字的第二结果。
在本实施方式中,在对话系统开发过程中,工程师更多的是面对单轮对话,在单轮对话中,普遍倾向于输出置信度最高的识别结果以及语义解析结果。由于真岐义相对假岐义会更不频繁,因此对于歧义出现时,工程师会更多考虑如何自动消解假岐义。同时在实际使用对话系统的过程中对于“真歧义”的情况,往往是无法通过自动消歧策略来处理的。
比如:播放西游记。即可以是影视也可以是电台节目时,系统往往无法总是正确的响应用户的需求。
再比如“我想看怦然星动”与“我想看怦然心动”,一个是2015年陈国辉导演的电影,另一个则是2010罗伯·莱纳导演的电影,两个发音极为相似,无论语音识别成哪个结果,都可能不是正确的。
对于语音对话系统开发来说,比较直接的想法就是通过下一轮的交互对上一轮的错别字进行纠正,但这就存在上面背景技术中所述的问题.另外,由于各种主观或者客观的因素,比如人工智能技术的发展仍然处于比较低阶的阶段,这也导致了比较少的工程师会重视真岐义,以及纠错的功能,也因此不容易想到使用多模态进行纠正。进而本方法利用多模态进行纠正。
对于步骤S11,为了能够之别用户的对话语音,考虑到需要支持多模态,在支持多模态的对话系统的首轮通常由麦克风阵列将识别到的音频转为文本或者使用键盘直接输入文本作为输入。
其中,麦克风阵列是由一定数量的麦克风组成的,用于记录语音音频信号,通过信号处理算法,麦克风阵列能够识别声源的方向,同时还能够一定程度的将背景声音清除掉,进而提升自动语音识别的准确度。
通过利用麦克风阵列捕获音频流,并利用网络传送到云端送给自动语音识别服务获取到语音对应的文本信息,自动语音识别服务基于家居环境下的声学模型与语言模型同样也能够提高识别文本的准确度。识别得到的 文本将在云端直接送给语义解析模块,语义解析模块能够将一句文本解析为语义实体。
例如,用户输入的是语音“我想看怦然心动”。在语音识别时,对于每个词都有一定量的多个候选词对该句话进行调整。例如,“怦然心动”的语音,由于用户的发音问题,或者是语言模型的原因,很容易会识别出“怦然心动”,“怦然星动”这两个词语,而这两个词语恰巧在电影语义槽中都有。通常来说,系统会选择一个置信度高的候选词,作为该句的关键字。进而,这就使得用户输入的语音是“我想看怦然心动”,然后,识别的结果为“我想看怦然星动”。
对于步骤S12,通过在步骤S11的识别确定的“我想看怦然星动”,为用户进行反馈,例如,“为你找到以下符合怦然星动的内容,请问你要看哪一部”。
对于步骤S13,由于使用了多模态,用户可以通过鼠标或者触摸屏选中语音识别结果中的“怦然星动”。当进行选中操作时,如果用户用的是点击操作,则只需要点击怦然星动中的任一个字即可。如果选中操作使用是点击后拖动的形式,则无论用户选中的是星或者星动,或者怦然星动都可以。在上述选中过程中,选中操作包括但不限于点击、点击后拖拉、画个圈等形式。
在用户选中“怦然星动”后,将识别时确定的多个候选词(怦然星动、怦然心动)向用户反馈。
作为一种实施方式,所述由多个候选词中确定的第一语义关键字包括:
从所述多个候选词中选取识别置信度最高的候选词确定为第一语义关键字;
所述将所述多个候选词向所述用户反馈包括:
将所述多个候选词按照识别置信度排序,向所述用户反馈所述多个候选词的列表窗口。
在本实施方式中,例如与用户交流的是带有图形界面的智能设备,在对话中,图形界面控件自动弹出候选词列表:
1.怦然星动
2.怦然心动
3.怦然行动
4.烹饪行动
5.……
或者网络形式的列表:
1.怦然星动 2.怦然心动 3.怦然行动
4.烹饪行动 5.……     6.……
7.……     8.……     9.……
在实际使用中,候选词窗口的设计包括但不局限于列表以及网格等形式。
对于步骤S14,用户从候选列表中通过点击选择了“怦然心动”,智能设备纠正后,得到,重新为你找到以下符合怦然心动的内容,请问你要看哪一部。再之后就是正常的语音对话流程:用户:第一个。智能设备:为你播放罗伯·莱纳导演的怦然心动,具体流程如图2所示。
通过该实施方式可以看出,在对话系统中引入本方法的主动纠错功能后将能提高对话系统的实用性,并且能够解决客观存在的真歧义问题(在人与人的对话中同样存在),同时也提升了对话系统的对应错误的容忍与处理能力,有助于对话系统在智能语音产品上,尤其是带屏设备,为用户提供更加优异的用户体验。
对语音识别输入法中,尤其在智能终端上,识别错误的问题一直是不可避免的。当前市场主流的产品并没有对纠错提供用户体验良好的设计,只能使用光标定位到特定位置后手动删除内容再使用文本输入法编写出正确的文本。可以预见当语音输入法引入了基于多模态的主动纠错后,在进行纠错时就能够基于上下文直接点击或者选中词语,接着从系统反馈的高置信度的候选词中选择对应正确的词语,可以避免每次纠错都需要使用键盘进行修改,这将极大的提升语音输入法的性能瓶颈与用户体验。
作为一种实施方式,在本实施例中,所述接收所述用户输入的第二语义关键字包括:
当所述用户从所述多个候选词中选择词语时,将所选词语确定为所述 第二语义关键字;
当所述用户输入纠正对话语音时,识别所述纠正对话语音,根据识别结果确定所述第二语义关键字。
当所述用户输入纠正文本时,根据所述纠正文本确定所述第二语义关键字。
在本实施方式中,当第一次用户通过语音输入:我想看怦然心动时,由于怦然星动的搜索热度更高,因此系统返回了2015年陈国辉导演的怦然星动。但是用户实际上想要看的是2010罗伯·莱纳导演的电影怦然心动,用户发现识别的错误后,点击了对话图形界面控件上的语音识别结果中的怦然星动。类似的,用户也可以点击对话系统回复中的怦然星动进行纠错,由于怦然星动属于语义槽解析结果,所以此时对话图形界面控件只需要将本轮对话返回的候选结果以列表或者网络的形式展示到屏幕,如果在本轮对话中,用户想要纠正的内容并非完整的语义槽,或者由于错别字导致没有语义解析结果,那么对话系统将有可能没有返回该错别词对应词语的候选结果,当用户选中后将会由对话图形界面控件请求对话系统动态地获取对应的候选词语。
对于极端的情况,比如一些刚出现的网络词语或者新的网络电影,候选列表是有可能不包含用户想要的结果的,此时用户可以:
方法一:直接通过键盘或者虚拟键盘输入对本轮语音识别的结果进行纠正。
方法二:由于用户此时已经选中了错别字,可以直接通过语音说“心情的心”或者直接说正确的内容,比如当数字136因为突然的环境噪音而不是发音无法区分的情况,导致136被识别为133时,只需要选中133后直接说136即可(本方法错别字纠错是已经先执行过选中的操作,因此不会因为识别内容很长,或者包含多个发音相似的字(比如xing,xin)时而出现不能确定哪个字是想要纠正的字)。
通过该实施方式可以看出,提供了多种方式供用户输入纠正的信息,确保准确的同时,提高用户的体验。
作为一种实施方式,在本实施例中,所述接收所述用户输入的第二语 义关键字还包括:
当所述用户输入图像信息时,识别所述图像信息内的纠正文本,根据所述纠正文本确定所述第二语义关键字。
在本实施方式中,对于键盘环境不友好,例如,电视、智慧屏或者不熟悉键盘的用户还可以借助摄像头配合手势,指出文本内容。例如:
用户:我想再买一盒瑞士莲巧克力。
系统:为你找到以下瑞氏莲巧克力,请问你要买哪一个?
用户:用户拿出手边的巧克力盒子,指着盒子上的瑞士莲文字,说“不是这三个字,我想要的是这三个字”。
系统:通过语音识别的结果,以及文字识别的结果,综合处理后返回:为你找到以下瑞士莲巧克力,请问你要买哪一个?
通过该实施方式可以看出,提供了图像方式供用户输入纠正的信息,进一步提高用户的体验。
作为一种实施方式,在本实施例中,所述方法还包括:记录每一轮向所述用户反馈带有语义关键字的多轮结果;
响应于所述用户对任一轮结果内语义关键字的选择,将与所述语义关键字对应的多个候选词向所述用户反馈。
在本实施方式中,用户在与智能设备不断的沟通,智能设备通过屏幕记录下与用户的对话记录,例如:
用户:我想看怦然星动。
系统:为你找到以下符合怦然星动的内容,请问你要看哪一部。
用户:怦然心动。
系统:为你找到以下符合怦然心动的内容,请问你要看哪一部。
此时用户可以在上述多轮对话中任一选择,可以选择最新的“为你找到以下符合怦然心动的内容,请问你要看哪一部”。同时前面这三轮对话同样可以选择。来为用户提供纠正历史对话中的错误。进一步提高用户的体验。
作为一种实施方式,在本实施例中,所述基于所述第一文本信息向所述用户反馈带有所述第一语义关键字的第一结果包括:
基于所述第一文本信息确定对应的第一技能,当所述第一文本信息命中多个候选技能时,选取预设优先级最高的技能确定为所述第一技能;
通过所述第一技能向所述用户反馈带有所述第一技能的文本的第一结果。
响应于所述用户对所述第一结果内第一技能的文本的选择,将所述多个候选技能向所述用户反馈;
当所述用户的输入包含第二技能的语音对话时,根据所述第一文本信息重新确定所述第二技能,通过所述第二技能向所述用户反馈带有所述第二技能的文本的第二结果;或
当用户输入包含第一技能的否定语气对话时,根据所述第一文本信息重新确定对应的第三技能,通过所述第三技能向所述用户反馈带有所述第三技能的文本的第三结果。
在本实施方式中,对于语义解析错误进行纠正。例如:
用户:播放西游记。
系统:为你找到以下西游记的视频
①用户:我想听的是有声书。
系统:为你播放有声书西游记。
②用户:我不要看视频。
系统:为你播放有声书西游记。
如上述所示,当用户直接说播放西游记时,语义解析会给出置信度最高的技能[影视],虽然[有声书]技能的置信度也很高,但是这个结果并不一定会被显示出来,因此用户可以在结果不符合预期时,通过主动纠正的形式进行二次交互。
如下述所示,当用户不满意语义解析结果时,可以直接通过纠正对话结果中的语义槽内容纠正:
用户:播放西游记。
系统:为你找到以下西游记的视频。
用户选中对话系统返回的提示语中的视频这个词。
系统:对话图形界面控件自动弹出候选词窗口,窗口中显示了可以使用的其它技能
1.有声书
2.少儿动画
3.音乐
4.儿歌精选
5.百科
用户通过点击选择了有声书。
系统:为你播放有声书西游记。
虽然以上实施例中举的例子都是对中文文字进行纠正,本文所述方法也可以用于纠正其他语言的语音识别错误以及语义解析结果。
通过该实施方式可以看出,提供的纠错功能不但可以处理对话中的真歧义,同时也可以处理语义解析错误,提高了对话系统对应错误的处理能力。
如图3所示为本发明一实施例提供的一种用于语音对话的纠正装置的结构示意图,该装置可执行上述任意实施例所述的用于语音对话的纠正方法,并配置在终端中。
本实施例提供的一种用于语音对话的纠正装置包括:语音识别程序模块11,结果反馈程序模块12,候选词反馈程序模块13和纠正程序模块14。
其中,语音识别程序模块11用于识别用户输入的对话语音的第一文本信息,其中,所述第一文本信息包括:由多个候选词确定的第一语义关键字;结果反馈程序模块12用于基于所述第一文本信息向所述用户反馈带有所述第一语义关键字的第一结果;候选词反馈程序模块13用于响应于所述用户对所述第一结果内第一语义关键字的选择,将所述多个候选词向所述用户反馈;纠正程序模块14用于接收所述用户输入的第二语义关键字,基于所述第二语义关键字对所述第一文本信息进行纠正,确定纠正后的第二文本信息,基于所述第二文本信息向所述用户反馈带有所述第二语义关键字的第二结果。
进一步地,所述语音识别程序模块用于:
从所述多个候选词中选取识别置信度最高的候选词确定为第一语义关键字;
所述候选词反馈程序模块用于:
将所述多个候选词按照识别置信度排序,向所述用户反馈所述多个候选词的列表窗口。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的用于语音对话的纠正方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
识别用户输入的对话语音的第一文本信息,其中,所述第一文本信息包括:由多个候选词确定的第一语义关键字;
基于所述第一文本信息向所述用户反馈带有所述第一语义关键字的第一结果;
响应于所述用户对所述第一结果内第一语义关键字的选择,将所述多个候选词向所述用户反馈;
接收所述用户输入的第二语义关键字,基于所述第二语义关键字对所述第一文本信息进行纠正,确定纠正后的第二文本信息,基于所述第二文本信息向所述用户反馈带有所述第二语义关键字的第二结果。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的用于语音对话的纠正方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及 与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行:
识别用户输入的对话语音的第一文本信息,其中,所述第一文本信息包括:由多个候选词确定的第一语义关键字;
基于所述第一文本信息向所述用户反馈带有所述第一语义关键字的第一结果;
响应于所述用户对所述第一结果内第一语义关键字的选择,将所述多个候选词向所述用户反馈;
接收所述用户输入的第二语义关键字,基于所述第二语义关键字对所述第一文本信息进行纠正,确定纠正后的第二文本信息,基于所述第二文本信息向所述用户反馈带有所述第二语义关键字的第二结果。
在一些实施例中,由多个候选词中确定的第一语义关键字包括:从所述多个候选词中选取识别置信度最高的候选词确定为第一语义关键字;
所述将所述多个候选词向所述用户反馈包括:将所述多个候选词按照识别置信度排序,向所述用户反馈所述多个候选词的列表窗口。
在一些实施例中,所述接收所述用户输入的第二语义关键字包括:
当所述用户从所述多个候选词中选择词语时,将所选词语确定为所述第二语义关键字;
当所述用户输入纠正对话语音时,识别所述纠正对话语音,根据识别结果确定所述第二语义关键字;
当所述用户输入纠正文本时,根据所述纠正文本确定所述第二语义关键字。
在一些实施例中,所述接收所述用户输入的第二语义关键字还包括:
当所述用户输入图像信息时,识别所述图像信息内的纠正文本,根据所述纠正文本确定所述第二语义关键字。
在一些实施例中,处理器还用于:记录每一轮向所述用户反馈带有语义关键字的多轮结果;响应于所述用户对任一轮结果内语义关键字的选择,将与所述语义关键字对应的多个候选词向所述用户反馈。
在一些实施例中,所述基于所述第一文本信息向所述用户反馈带有所述第一语义关键字的第一结果包括:
基于所述第一文本信息确定对应的第一技能,当所述第一文本信息命中多个候选技能时,选取预设优先级最高的技能确定为所述第一技能;
通过所述第一技能向所述用户反馈带有所述第一技能的文本的第一结果。
在一些实施例中,处理器还用于:响应于所述用户对所述第一结果内第一技能的文本的选择,将所述多个候选技能向所述用户反馈;
当所述用户的输入包含第二技能的语音对话时,根据所述第一文本信息重新确定所述第二技能,通过所述第二技能向所述用户反馈带有所述第二技能的文本的第二结果;或
当用户输入包含第一技能的否定语气对话时,根据所述第一文本信息重新确定对应的第三技能,通过所述第三技能向所述用户反馈带有所述第三技能的文本的第三结果。
图4是本发明另一实施例提供的执行用于语音对话的纠正方法的电子设备的硬件结构示意图,如图4所示,该设备包括:
一个或多个处理器410以及存储器420,图4中以一个处理器410为例。
执行用于语音对话的纠正方法的设备还可以包括:输入装置430和输出装置440。
处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接,图4中以通过总线连接为例。
存储器420作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的用于语音对话的纠正方法对应的程序指令/模块。处理器410通过运行存储在存储器420中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例用于语音对话的纠正方法。
存储器420可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据 用于语音对话的纠正装置的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器420可选包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至用于语音对话的纠正装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可接收输入的数字或字符信息,以及产生与用于语音对话的纠正装置的用户设置以及功能控制有关的信号。输出装置440可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器420中,当被所述一个或者多个处理器410执行时,执行上述任意方法实施例中的用于语音对话的纠正。
本发明实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据处理功能的电子装置。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

  1. 一种用于语音对话的纠正方法,用于电子设备,所述方法包括:
    所述电子设备识别用户输入的对话语音的第一文本信息,其中,所述第一文本信息包括:由多个候选词确定的第一语义关键字;
    所述电子设备基于所述第一文本信息向所述用户反馈带有所述第一语义关键字的第一结果;
    响应于所述用户对所述第一结果内第一语义关键字的选择,所述电子设备将所述多个候选词向所述用户反馈;
    所述电子设备接收所述用户输入的第二语义关键字,基于所述第二语义关键字对所述第一文本信息进行纠正,确定纠正后的第二文本信息,基于所述第二文本信息向所述用户反馈带有所述第二语义关键字的第二结果。
  2. 根据权利要求1所述的方法,其中,所述由多个候选词中确定的第一语义关键字包括:
    从所述多个候选词中选取识别置信度最高的候选词确定为第一语义关键字;
    所述将所述多个候选词向所述用户反馈包括:
    将所述多个候选词按照识别置信度排序,向所述用户反馈所述多个候选词的列表窗口。
  3. 根据权利要求1所述的方法,其中,所述接收所述用户输入的第二语义关键字包括:
    当所述用户从所述多个候选词中选择词语时,将所选词语确定为所述第二语义关键字;
    当所述用户输入纠正对话语音时,识别所述纠正对话语音,根据识别结果确定所述第二语义关键字;
    当所述用户输入纠正文本时,根据所述纠正文本确定所述第二语义关键字。
  4. 根据权利要求3所述的方法,其中,所述接收所述用户输入的第二语义关键字还包括:
    当所述用户输入图像信息时,识别所述图像信息内的纠正文本,根据所述纠正文本确定所述第二语义关键字。
  5. 根据权利要求1所述的方法,其中,所述方法还包括:
    记录每一轮向所述用户反馈带有语义关键字的多轮结果;
    响应于所述用户对任一轮结果内语义关键字的选择,将与所述语义关键字对应的多个候选词向所述用户反馈。
  6. 根据权利要求1所述的方法,其中,所述基于所述第一文本信息向所述用户反馈带有所述第一语义关键字的第一结果包括:
    基于所述第一文本信息确定对应的第一技能,当所述第一文本信息命中多个候选技能时,选取预设优先级最高的技能确定为所述第一技能;
    通过所述第一技能向所述用户反馈带有所述第一技能的文本的第一结果。
  7. 根据权利要求6所述的方法,其中,所述方法还包括:
    响应于所述用户对所述第一结果内第一技能的文本的选择,将所述多个候选技能向所述用户反馈;
    当所述用户的输入包含第二技能的语音对话时,根据所述第一文本信息重新确定所述第二技能,通过所述第二技能向所述用户反馈带有所述第二技能的文本的第二结果;或
    当用户输入包含第一技能的否定语气对话时,根据所述第一文本信息重新确定对应的第三技能,通过所述第三技能向所述用户反馈带有所述第三技能的文本的第三结果。
  8. 一种用于语音对话的纠正装置,包括:
    语音识别程序模块,用于识别用户输入的对话语音的第一文本信息,其中,所述第一文本信息包括:由多个候选词确定的第一语义关键字;
    结果反馈程序模块,用于基于所述第一文本信息向所述用户反馈带有所述第一语义关键字的第一结果;
    候选词反馈程序模块,用于响应于所述用户对所述第一结果内第一语义关键字的选择,将所述多个候选词向所述用户反馈;
    纠正程序模块,用于接收所述用户输入的第二语义关键字,基于所述第二语义关键字对所述第一文本信息进行纠正,确定纠正后的第二文本信息,基于所述第二文本信息向所述用户反馈带有所述第二语义关键字的第二结果。
  9. 一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。
  10. 一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
PCT/CN2020/129337 2020-04-20 2020-11-17 用于语音对话的纠正方法及装置 WO2021212817A1 (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/996,643 US11804217B2 (en) 2020-04-20 2020-11-17 Method and apparatus for correcting voice dialogue
JP2022563122A JP7413568B2 (ja) 2020-04-20 2020-11-17 音声対話の訂正方法及び装置
EP20932568.7A EP4141865A4 (en) 2020-04-20 2020-11-17 METHOD AND APPARATUS FOR CORRECTING VOICE DIALOGUE

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010311357.7 2020-04-20
CN202010311357.7A CN111540356B (zh) 2020-04-20 2020-04-20 用于语音对话的纠正方法及系统

Publications (1)

Publication Number Publication Date
WO2021212817A1 true WO2021212817A1 (zh) 2021-10-28

Family

ID=71978839

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/129337 WO2021212817A1 (zh) 2020-04-20 2020-11-17 用于语音对话的纠正方法及装置

Country Status (5)

Country Link
US (1) US11804217B2 (zh)
EP (1) EP4141865A4 (zh)
JP (1) JP7413568B2 (zh)
CN (1) CN111540356B (zh)
WO (1) WO2021212817A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114023302A (zh) * 2022-01-10 2022-02-08 北京中电慧声科技有限公司 文本语音处理装置及文本读音处理方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111540356B (zh) * 2020-04-20 2022-05-17 思必驰科技股份有限公司 用于语音对话的纠正方法及系统
CN112417867B (zh) * 2020-12-07 2022-10-18 四川长虹电器股份有限公司 一种语音识别后的视频片名纠错方法及系统
CN112700768B (zh) * 2020-12-16 2024-04-26 科大讯飞股份有限公司 语音识别方法以及电子设备、存储装置
CN112684913B (zh) * 2020-12-30 2023-07-14 维沃移动通信有限公司 信息修正方法、装置及电子设备
CN115457961B (zh) * 2022-11-10 2023-04-07 广州小鹏汽车科技有限公司 语音交互方法、车辆、服务器、系统及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160379513A1 (en) * 2015-06-26 2016-12-29 John Nicholas DuQuette Dynamic Feedback and Scoring of Transcription of a Dictation
CN107093423A (zh) * 2017-05-27 2017-08-25 努比亚技术有限公司 一种语音输入修正方法、装置及计算机可读存储介质
CN108091328A (zh) * 2017-11-20 2018-05-29 北京百度网讯科技有限公司 基于人工智能的语音识别纠错方法、装置及可读介质
CN108121455A (zh) * 2016-11-29 2018-06-05 渡鸦科技(北京)有限责任公司 识别纠正方法及装置
CN109215661A (zh) * 2018-08-30 2019-01-15 上海与德通讯技术有限公司 语音转文字方法、装置设备及存储介质
CN111540356A (zh) * 2020-04-20 2020-08-14 苏州思必驰信息科技有限公司 用于语音对话的纠正方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6789231B1 (en) 1999-10-05 2004-09-07 Microsoft Corporation Method and system for providing alternatives for text derived from stochastic input sources
US7149970B1 (en) 2000-06-23 2006-12-12 Microsoft Corporation Method and system for filtering and selecting from a candidate list generated by a stochastic input method
JP2005043461A (ja) 2003-07-23 2005-02-17 Canon Inc 音声認識方法及び音声認識装置
JP2005275228A (ja) 2004-03-26 2005-10-06 Equos Research Co Ltd ナビゲーション装置
US8972268B2 (en) * 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
JP6897677B2 (ja) 2016-06-15 2021-07-07 ソニーグループ株式会社 情報処理装置及び情報処理方法
JP2018097029A (ja) 2016-12-08 2018-06-21 三菱電機株式会社 音声認識装置および音声認識方法
JP6416309B1 (ja) 2017-04-12 2018-10-31 株式会社アドバンスト・メディア 端末装置及びプログラム
US10861446B2 (en) * 2018-12-10 2020-12-08 Amazon Technologies, Inc. Generating input alternatives
JP2020187163A (ja) 2019-05-10 2020-11-19 本田技研工業株式会社 音声操作システム、音声操作制御方法、及び音声操作制御プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160379513A1 (en) * 2015-06-26 2016-12-29 John Nicholas DuQuette Dynamic Feedback and Scoring of Transcription of a Dictation
CN108121455A (zh) * 2016-11-29 2018-06-05 渡鸦科技(北京)有限责任公司 识别纠正方法及装置
CN107093423A (zh) * 2017-05-27 2017-08-25 努比亚技术有限公司 一种语音输入修正方法、装置及计算机可读存储介质
CN108091328A (zh) * 2017-11-20 2018-05-29 北京百度网讯科技有限公司 基于人工智能的语音识别纠错方法、装置及可读介质
CN109215661A (zh) * 2018-08-30 2019-01-15 上海与德通讯技术有限公司 语音转文字方法、装置设备及存储介质
CN111540356A (zh) * 2020-04-20 2020-08-14 苏州思必驰信息科技有限公司 用于语音对话的纠正方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4141865A4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114023302A (zh) * 2022-01-10 2022-02-08 北京中电慧声科技有限公司 文本语音处理装置及文本读音处理方法

Also Published As

Publication number Publication date
CN111540356B (zh) 2022-05-17
JP2023515897A (ja) 2023-04-14
EP4141865A1 (en) 2023-03-01
US20230223015A1 (en) 2023-07-13
US11804217B2 (en) 2023-10-31
JP7413568B2 (ja) 2024-01-15
EP4141865A4 (en) 2023-11-01
CN111540356A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
WO2021212817A1 (zh) 用于语音对话的纠正方法及装置
US11152009B1 (en) Routing natural language commands to the appropriate applications
US9947317B2 (en) Pronunciation learning through correction logs
JP4854259B2 (ja) 音声コマンドを明瞭化する集中化された方法およびシステム
US10891952B2 (en) Speech recognition
EP2678861B1 (en) Hybridized client-server speech recognition
US11355098B1 (en) Centralized feedback service for performance of virtual assistant
CN100578614C (zh) 用语音应用语言标记执行的语义对象同步理解
EP2438533B1 (en) Recognition using re-recognition and statistical classification
JP2020102234A (ja) 会話型インターフェースの一部として動的に適用されるフィルタリングオペレータを伴う適応会話状態管理のための方法
US20220188361A1 (en) Voice-based Auto-Completions and Auto-Responses for Assistant Systems
US10860289B2 (en) Flexible voice-based information retrieval system for virtual assistant
US11093110B1 (en) Messaging feedback mechanism
JP7328265B2 (ja) 音声インタラクション制御方法、装置、電子機器、記憶媒体及びシステム
CN107430616A (zh) 语音查询的交互式再形成
US10453477B2 (en) Method and computer system for performing audio search on a social networking platform
CA3185271A1 (en) Voice identification for optimizing voice search results
WO2021098175A1 (zh) 录制语音包功能的引导方法、装置、设备和计算机存储介质
WO2021077528A1 (zh) 人机对话打断方法
KR102017544B1 (ko) 메신저 플랫폼에 관계없이 복수의 메신저를 이용하는 사용자간 다양한 형식의 채팅 서비스를 제공하는 대화형 ai 에이전트 시스템, 방법 및 컴퓨터 판독가능 기록 매체
US20230138820A1 (en) Real-time name mispronunciation detection
WO2022143349A1 (zh) 一种确定用户意图的方法及装置
US20230169272A1 (en) Communication framework for automated content generation and adaptive delivery
US20220161131A1 (en) Systems and devices for controlling network applications
KR20190094080A (ko) 사용자간 대화 세션에 대한 모니터링에 기초하여 능동적으로 주문 또는 예약 서비스를 제공하는 대화형 ai 에이전트 시스템, 방법 및 컴퓨터 판독가능 기록 매체

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20932568

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022563122

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020932568

Country of ref document: EP

Effective date: 20221121