WO2018153130A1

WO2018153130A1 - 一种翻译方法及装置

Info

Publication number: WO2018153130A1
Application number: PCT/CN2017/112384
Authority: WO
Inventors: 涂兆鹏; 王龙跃; 杜金华
Original assignee: 华为技术有限公司
Priority date: 2017-02-22
Filing date: 2017-11-22
Publication date: 2018-08-30
Also published as: EP3547163A1; CN108460026A; EP3547163A4; US11244108B2; US20190311038A1; CN108460026B

Abstract

一种翻译方法及装置，涉及机器翻译领域，解决了面向对话领域翻译时翻译效果差、准确率较低的问题。该方法包括：获取待翻译语句，待翻译语句为指定对话任务中第一语言表示的语句；确定待翻译语句中的第一命名实体集，以及第一命名实体集中每个第一命名实体的实体类型；根据第一命名实体集和每个第一命名实体的实体类型，确定第二语言表示的第二命名实体集；确定待翻译语句的源语义模板，并从指定对话任务对应的语义模板对应关系中获取与源语义模板对应的目标语义模板，语义模板对应关系为第一语言表示的语义模板与第二语言表示的语义模板之间的对应关系；根据第二命名实体集和目标语义模板，确定目标翻译语句。

Description

一种翻译方法及装置

本申请要求于2017年02月22日提交中国专利局、申请号为201710097655.9、申请名称为“一种翻译方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及机器翻译领域，尤其涉及一种翻译方法及装置。

背景技术

机器翻译是指利用计算机将一种语言的语句转换为另一种语言的语句的过程，且根据翻译方法大致可以将机器翻译分为基于统计的机器翻译和基于分析的机器翻译。其中，基于分析的机器翻译是指对第一语言的语句进行语素、句法和语义分析，并将分析的结构转换为第二语言，之后生成对应的第二语言的语句。

目前，基于分析的机器翻译的研究和应用仅限于通用领域和一些少数限定领域，比如，新闻和翻译软件等单向的翻译，而面向对话的双向翻译则相对较少。不同于其他的应用领域，面向对话领域的机器翻译具有其自身的特点。其中，对话情景中的口语化会导致语句偏短、多种句法成分被省略，从而使得信息表达具有多样性和歧义性。比如，在酒店预订的对话场景中，“single”和“twin”是指特定的房间类型，即单人房和双人房，而使用翻译软件等进行翻译时，“single”会被翻译为一个、单打或者单身的，“twin”会被翻译为双胞胎，与单人房和双人房的意思完全不同。因此，常用的机器翻译方法在对话领域的翻译效果差，准确率较低。

发明内容

本发明的实施例提供一种翻译方法及装置，解决了现有技术中面向对话领域翻译时翻译效果差、准确率较低的问题。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，提供一种翻译方法，该方法包括：获取待翻译语句；其中，待翻译语句为指定对话任务中第一语言表示的语句；确定待翻译语句中的第一命名实体集，以及第一命名实体集中每个第一命名实体的实体类型；其中，第一命名实体集包括至少一个第一命名实体；根据第一命名实体集和每个第一命名实体的实体类型，确定第二语言表示的第二命名实体集；其中，第二命名实体集包括至少一个第二命名实体，且至少一个第二命名实体与至少一个第一命名实体对应；确定待翻译语句的源语义模板，并从指定对话任务对应的语义模板对应关系中获取与源语义模板对应的目标语义模板；其中，语义模板对应关系为第一语言表示的语义模板与第二语言表示的语义模板之间的对应关系；根据第二命名实体集和目标语义模板，确定目标翻译语句；其中，目标翻译语句为第二语言表示的与待翻译语句对应的翻译后的语句。

上述技术方案中，在面向对话领域的翻译时，针对待翻译语句所在的指定对话任务，确定待翻译语句中的第一命名实体集和每个第一命名实体的实体类型，以及确定与其对应的第二命名实体集，并在确定待翻译语句的源语义模板之后，根据指定对话任务对应的语义模板对应关系获取与其对应的目标语义模块，之后根据第二命名实体集和目标语句模板确定目标翻译语句，从而可以结合指定对话任务的特点和对话内容的语义理解，有针对性的对待翻译语句进行翻译，进而可以提高翻译效果以及保证较高的翻译准确率。

在第一方面的一种可能的实现方式中，根据第一命名实体集和每个第一命名实体的实体类型，确定第二语言表示的第二命名实体集，包括：对于第一命名实体集中的每个第一命名实体，根据第一命名实体的实体类型，从指定对话任务对应的命名实体对应关系中获取与第一命名实体对应的第二命名实体，从而得到第二命名实体集；其中，命名实体对应关系为第一语言表示的命名实体与第二语言表示的命名实体之间的对应关系。上述可能的实现方式中，通过从指定对话任务对应的命名实体对应关系中获取第一命名实体对应的第二命名实体，可以提高第一命名实体翻译的准确性，避免第一命名实体因为语意多样性而导致翻译错误或歧义性大。

在第一方面的一种可能的实现方式中，该方法还包括：根据指定对话任务对应的训练语料，确定指定对话任务对应的命名实体对应关系；其中，训练语料至少包括第一语言表示的训练语料、以及与第一语言表示的训练语料对应的第二语言表示的训练语料。上述可能的实现方式中，通过对指定对话任务对应的训练语料进行训练，得到指定对话任务对应的命名实体对应关系，可以保证该命名实体对应关系中命名实体之间翻译的有效性和准确性，进而在根据该命名实体对应关系确定第二命名实体时可以提高第二命名实体翻译的准确性。

在第一方面的一种可能的实现方式中，该方法还包括：根据指定对话任务对应的训练语料，确定指定对话任务对应的语义模板对应关系；其中，训练语料至少包括第一语言表示的训练语料、以及与第一语言表示的训练语料对应的第二语言表示的训练语料。上述可能的实现方式中，通过对指定对话任务对应的训练语料进行训练，得到指定对话任务对应的语义模板对应关系，可以保证该语义模板对应关系语义模板之间翻译的有效性和准确性，进而在根据该语义模板对应关系翻译源语义模板时可以提高源语义模板翻译的准确性。

在第一方面的一种可能的实现方式中，该方法还包括：显示第一语义信息，第一语义信息包括第一命名实体集和每个第一命名实体对应的实体类型；和/或，显示第二语义信息，第二语义信息包括第二命名实体集和每个第二命名实体对应的实体类型。上述可能的实现方式中，通过显示第一语义信息和/或显示第二语义信息可以使指定对话任务中的对话参与者根据显示的第一语言信息和/或第二语言信息，充分理解对方的意图和语意，从而确保翻译的准确性及指定对话任务的正确性。

在第一方面的一种可能的实现方式中，显示第一语义信息和/或显示第二语义信息之后，该方法还包括：若接收到修改指令，则获取待翻译语句修改后的语句，并对修改后的语句进行翻译。上述可能的实现方式中，当对话参与者触发修改操作时，对话参与者可以通过修改待翻译语句使其表达的语意更清楚、语法成分更完整，从而机器翻译系统重新获取待翻译语句修改后的语句，并对修改后语句进行翻译，进而可以进一步保证翻译的准确性，以及保证指定对话任务的顺利进行。

在第一方面的一种可能的实现方式中，该方法还包括：若确定指定对话任务对应的命名实体对应关系中不存在第一命名实体集中的第一命名实体，则根据第一命名实体的实体类型，获取与第一命名实体对应的第二语言表示的第三命名实体；根据第一命名实体的实体类型、第一命名实体和第三命名实体，更新指定对话任务对应的命名实体对应关系。上述可能的实现方式中，在指定对话任务对应的命名实体对应关系中不存在第一命名实体集中的第一命名实体时，可以通过接收人工输入的第三命名实体、或者通过内置的词典接口进行翻译等方法获取与第一命名实体对应的第二语言表示的第三命名实体，并对指定对话任务对应的命名实体对应关系进行更新，从而在后续进行翻译时可以直接使用，提高后续翻译的效率。

第二方面，提供一种翻译装置，该装置包括：获取单元，用于获取待翻译语句；其中，待翻译语句为指定对话任务中第一语言表示的语句；第一确定单元，用于确定待翻译语句中的第一命名实体集，以及第一命名实体集中每个第一命名实体的实体类型；其中，第一命名实体集包括至少一个第一命名实体；第一确定单元，还用于根据第一命名实体集和每个第一命名实体的实体类型，确定第二语言表示的第二命名实体集；其中，第二命名实体集包括至少一个第二命名实体，且至少一个第二命名实体与至少一个第一命名实体对应；第二确定单元，用于确定待翻译语句的源语义模板，并从指定对话任务对应的语义模板对应关系中获取与源语义模板对应的目标语义模板；其中，语义模板对应关系为第一语言表示的语义模板与第二语言表示的语义模板之间的对应关系；翻译单元，用于根据第二命名实体集和目标语义模板，确定目标翻译语句；其中，目标翻译语句为第二语言表示的与待翻译语句对应的翻译后的语句。

在第二方面的一种可能的实现方式中，第一确定单元具体用于：对于第一命名实体集中的每个第一命名实体，根据第一命名实体的实体类型，从指定对话任务对应的命名实体对应关系中获取与第一命名实体对应的第二命名实体，从而得到第二命名实体集；其中，命名实体对应关系为第一语言表示的命名实体与第二语言表示的命名实体之间的对应关系。

在第二方面的一种可能的实现方式中，该装置还包括：训练单元，用于根据指定对话任务对应的训练语料，确定指定对话任务对应的命名实体对应关系；其中，训练语料至少包括第一语言表示的训练语料、以及与第一语言表示的训练语料对应的第二语言表示的训练语料。

在第二方面的一种可能的实现方式中，该装置还包括：训练单元，用于根据指定对话任务对应的训练语料，确定指定对话任务对应的语义模板对应关系；其中，训练语料至少包括第一语言表示的训练语料、以及与第一语言表示的训练语料对应的第二语言表示的训练语料。

在第二方面的一种可能的实现方式中，该装置还包括：显示单元，用于显示第一语义信息，第一语义信息包括第一命名实体集和每个第一命名实体对应的实体类型；和/或，显示单元，还用于显示第二语义信息，第二语义信息包括第二命名实体集和每个第二命名实体对应的实体类型。

在第二方面的一种可能的实现方式中，获取单元还用于，若翻译装置接收到修改指令，获取待翻译语句修改后的语句，并对修改后的语句进行翻译。

在第二方面的一种可能的实现方式中，获取单元，还用于若确定指定对话任务对应的命名实体对应关系中不存在第一命名实体集中的第一命名实体，则根据第一命名实体的实体类型，获取与第一命名实体对应的第二语言表示的第三命名实体；该装置还包括：更新单元，用于根据第一命名实体的实体类型、第一命名实体和第三命名实体，更新指定对话任务对应的命名实体对应关系。

第三方面，提供一种翻译装置，该翻译装置包括存储器、处理器、总线和通信接口，存储器中存储代码和数据，处理器与存储器通过总线连接，处理器运行存储器中的代码使得该翻译装置执行上述第一方面或第一方面任一种可能的实现方式所提供的翻译方法。

本申请的又一方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

本申请的又一方面提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

可以理解地，上述提供的任一种翻译方法的装置、计算机存储介质或者计算机程序产品均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

附图说明

图1为本发明实施例提供的一种机器翻译系统的结构示意图；

图2为本发明实施例提供的另一种机器翻译系统的结构示意图；

图3为本发明实施例提供的一种翻译方法的流程图；

图4为本发明实施例提供的另一种翻译方法的流程图；

图5为本发明实施例提供的一种翻译实例的示意图；

图6为本发明实施例提供的又一种翻译方法的流程图；

图7为本发明实施例提供的一种训练语料的训练示意图；

图8为本发明实例提供的一种翻译结果的比较示意图；

图9为本发明实施例提供的一种翻译装置的结构示意图；

图10为本发明实施例提供的另一种翻译装置的结构示意图。

具体实施方式

在介绍本申请之前，首先对本申请涉及的技术名词进行解释说明。

指定对话任务，是指面向对话型翻译的某一任务，该指定对话任务可以是预设任务中的任意一个任务。该预设任务为对话方使用不同的语言进行对话，且对话的内容具有一定的范围。比如，预设任务可以包括面向国际业务的酒店预订、在线购物、健康咨询、餐厅预订、机票预订以及电视电话会议等等。

训练语料，是指用于进行训练的不同语言对应的语句对，语句对是指同一语意通过不同种语言表示的语句，比如，汉语和英语对应的语句对(比如，我是515房间的艾米哈里斯，I am Amy Hams from Room 515)。其中，训练语料可以是两种语言对应的训练语料，也可以是三种或者三种以上的语言对应的训练语料。指定对话任务下的训练语料，是指训练语料的内容或语意是关于指定对话任务的不同语言对应的语句对。

命名实体，是指语句中的关键信息，该关键信息可以是语句中具体的数字、人名、地名或者组织名等等。比如，某一语句为：我是515房间的艾米哈里斯，则该语句中的命名实体可以包括：515、艾米哈里斯。

命名实体的实体类型，用于表示命名实体的属性。在本发明的实施例中，命名实体的实体类型与命名实体的语句、以及该语句所在的指定对话任务紧密相关，通过命名实体的实体类型可以进一步表明命名实体在其语句中的含义。比如，命名实体“515”的实体类型可以为房间号，命名实体“艾米哈里斯”的实体类型可以为客户姓名。

命名实体对应关系，是指同一实体类型下，不同种语言表示的同一命名实体之间的对应关系。比如，酒店预订任务下的命名实体对应关系可以如下表1所示，表1中以命名实体对应关系包括汉语表示的命名实体与英语表示的命名实体之间的对应关系为例进行说明。

表1

语义模板，是指用于表示某一特定语意的语句模板。其中，语义模板中具体的命名实体的内容可以缺失，或者通过命名实体的实体类型进行替换表示。比如，I am Amy Hams from Room 515对应的语义模板可以为：I am<Customer Name>from<Room NO.>。

语义模板对应关系，是指不同语言表示的同一语意的语义模板之间的对应关系。比如，酒店预订任务下的语义模板对应关系可以如下表2所示，表2中以语义模板对应关系包括汉语表示的语义模板与英语表示的语义模板之间的对应关系为例进行说明。

表2

语义信息，用于通过预设实体类型和语句中包括的命名实体表示该语句对应的语意的信息。其中，语义信息可以包括至少一个预设实体类型、以及某一语句中包括的至少一个命名实体所对应的命名实体的实体类型之间关系的信息。第一语义信息是指第一语言表示的信息，第二语义信息是指第二语言表示的信息。

比如，酒店预订任务下，以第一语言为汉语，第二语言为英语，则第一语义信息可以如下表3所示，第二语义信息可以如下表4所示。表3和表4以酒店预订任务下的对话语句包括：“hello，this is Hilton Hotel”，“我想预定一间9月11日的双人房”为例进行说明。其中，第一个语句对应的命名实体包括：Hilton Hotel，第二个语句对应的命名实体包括：9月11日和双人房。Hilton Hotel对应的实体类型为Hotel Name，9月11日对应的实体类型为日期，双人房对应的实体类型为房间类型。

表3第一语义信息

项目(预设实体类型)	内容(命名实体)
酒店名称	希尔顿酒店
客户姓名
地址
电话号码
入住日期	9月11日
房间类型	双人房
……	……

表4第二语义信息

Item	Content
Hotel Name	Hilton Hotel
Customer Name
Address
Tele.NO.
Date	11th of September
Room Type	Twin Room
……	……

图1为本发明实施例提供的一种机器翻译系统的结构示意图，参见图1，机器翻译系统包括第一确定单元101、第二确定单元102和翻译单元103。

其中，第一确定单元101用于对语句中的命名实体进行识别和翻译。具体的，在命名实体训练过程中，可用于对任一指定对话任务下的训练语料进行命名实体的识别、实体类型的定义，以及将实体类型相同且对应的命名实体存储在命名实体对应关系中。比如，第一确定单元101可通过监督式学习、领域自适应以及规则方法识别命名实体，并定义命名实体的实体类型。在翻译语句时，第一确定单元101可用于识别语句中的命名实体、以及命名实体的实体类型，并根据命名实体对应关系将每个命名实体翻译为目标语言对应的命名实体。此外，为了避免根据训练语料识别的命名实体不能涵盖所有的命名实体，第一确定单元101还可以设置有词典接口，利用基于词典的命名实体识别来添加用户自定义的命名实体。

第二确定单元102用于对语句进行语义分析，得到语义模板。其中，语义模板表示的形式是多种多样的，可以是逻辑表达式，也可以是句子句型。比如，第二确定单元102可通过监督式学习或规则，根据上下文内容，利用第一确定单元101识别的命名实体、以及实体类型构建语义模板。

翻译单元103用于将待翻译语句翻译为目标翻译语句。待翻译语句可以是第一语言表示的语句，比如，待翻译语句为汉语表示的句子。目标翻译语句可以是与待翻译语句的语意相同的第二语言表示的语句，比如，目标翻译语句为英语表示的句子。在翻译之后，机器翻译系统还可以将目标翻译语句呈现给用户，比如，可以将目标翻译语句显示给用户，或者通过语音、视频等播放给用户。

如图2所示，为本发明实施例提供的另一种机器翻译系统的结构示意图，该机器翻译系统两种语言之间的翻译，为便于描述，将第一种语言对应的翻译称为源端，第二种语言对应的翻译称为目标端，则该机器翻译系统可以包括源端第一确定单元111、源端第二确定单元112、目标端第一确定单元121、目标端第二确定单元122和翻译单元130。其中，源端第一确定单元111、源端第二确定单元112用于对第一种语言表示的语句和语料进行识别和分析，以得到第一种语言表示的命名实体和语义模板集。目标端第一确定单元121、目标端第二确定单元122用于对第二种语言表示的语句和语料进行识别和分析，以得到第二种语言表示的命名实体和语义模板。翻译单元130用于进行两种语言之间的语句翻译。

本发明实施例的基本原理在于，通过对基于对话任务的训练语料进行命名实体和实体类型的识别训练，得到命名实体对应关系，以及进行语义模板的识别训练，得到语义模板对应关系。在对待翻译语句进行翻译时，对待翻译语句进行命名实体识别和翻译、以及识别待翻译语句中的源语义模板并获取其对应的目标语义模板，之后将翻译后的命名实体根据对应的实体类型填入与目标语义模板中，从而完成待翻译语句的翻译。其中，通过命名实体对应关系和语义模板对应关系，对待翻译语句对应的命名实体和源语义模板进行翻译，可以增强命名实体和源语义模板翻译的准确率，同时通过显示语义信息，可以使对话的双方充分理解对方的语意，确保翻译后的目标翻译语句的准确性，提高任务完成的成功率。

图3为本发明实施例提供的一种翻译方法的流程图，参见图3，该方法可以包括以下几个步骤。

步骤201：获取待翻译语句，待翻译语句为指定对话任务中第一语言表示的语句。

指定对话任务是指面向对话型翻译中的某一任务，指定对话任务可以是预设任务中的任意一个任务。该预设任务为对话方使用不同的语言进行对话，且对话的内容具有一定的范围。比如，预设任务可以包括面向国际业务的酒店预订、在线购物、健康咨询、餐厅预订、机票预订以及电视电话会议等。

在指定对话任务中，对话双方使用不同的语言进行交流，为了使双方可以无障碍的进行对话交流，可以使用上述图1所示的机器翻译系统对对话双方的语句进行翻译，即将一种语言的语句转换为另一种语言的语句，双方对话中的语句即称为待翻译语句。其中，将对话双方使用的语言可以称为第一语言和第二语言，第一语言和第二语言为不同的语言。比如，第一语言可以为汉语、第二语言为英语，或者第一语言为英语，第二语言为汉语。

步骤202：确定待翻译语句中的第一命名实体集，以及第一命名实体集中每个第一命名实体的实体类型，第一命名实体集包括至少一个第一命名实体。

当获取到待翻译语句时，机器翻译系统可以对待翻译语句进行语素、句法和语义等一系列分析，以及通过领域自适应、迁移学习、半监督式学习以及规则等技术进行识别处理，从而得到待翻译语句中的第一命名实体集，并确定第一命名实体集中每个第一命名实体的实体类型。

其中，本发明实施例中确定的第一命名实体的实体类型与现有技术中确定的命名实体的实体类型存在很大不同。现有技术中，确定的命名实体的实体类型是比较广泛的类型，比如，对于数字类型的命名实体，现有的命名识别方法只能识别出其实体类型为数字类型，而不会进一步判断该数字为电话号码、信用卡号或者房卡号等。而本发明实施例确定的第一命名实体的实体类型是进一步判断后确定的实体类型，即本发明实施例确定的实体类型与待翻译语句、以及指定对话任务紧密相关，通过该实体类型可以进一步表明第一命名实体在待翻译语句中的含义。

比如，待翻译语句为：我是515房间的艾米哈里斯，待翻译语句中的第一命名实体可以包括：515、艾米哈里斯，则现有技术中，确定的第一命名实体“515”的实体类型为数字、第一命名实体“艾米哈里斯”的实体类型为人名，本发明实施例中确定的第一命名实体“515”的实体类型为房间号、第一命名实体“艾米哈里斯”的实体类型为客户姓名。

步骤203：根据第一命名实体集和每个第一命名实体的实体类型，确定第二语言表示的第二命名实体集。其中，第二命名实体集包括至少一个第二命名实体，且至少一个第二命名实体与至少一个第一命名实体对应。

当确定第一命名实体集和每个第一命名实体的实体类型之后，对于第一命名实体集中的每个第一命名实体，机器翻译系统可以根据该第一命名实体的类型，确定该第一命名实体对应的第二语言表示的第二命名实体，从而对于第一命名实体集中的至少一个第一命名实体，可以确定得到第二命名实体集，第二命名实体集包括至少一个第二命名实体。

需要说明的是，至少一个第一命名实体与至少一个第二命名实体对应，可以是一一对应，也可以是一对多，本发明实施例对此不做限定。当一个第一命名实体与至少两个第二命名实体对应时，至少两个第二命名实体的意思是一样的，只是两个不同的表述，比如，first和NO.1。

具体的，当机器翻译系统根据第一命名实体集和每个第一命名实体的实体类型，确定第二语言表示的第二命名实体集时，对于第一命名实体集中的每个第一命名实体，机器翻译系统可以将该第一命名实体直接翻译为第二命名实体，从而得到第二命名实体集。比如，第一命名实体为9月11日，实体类型为日期，则根据9月11日翻译的第二命名实体为11th of September。

或者，对于第一命名实体集中的每个第一命名实体，机器翻译系统根据该第一命名实体的实体类型，从指定对话任务对应的命名实体对应关系中获取与该第一命名实体对应的第二命名实体，从而得到第二命名实体集。比如，若指定对话任务对应的命名实体对应关系如上述表1所示，第一命名实体为单人房，实体类型为房间类型，则机器翻译系统根据房间类型，从上述表1所示的命名实体对应关系中获取与单人房对应的第二命名实体为Single Room。

或者，对于第一命名实体集中的第一部分的第一命名实体进行直接翻译，对于第二部分的第一命名实体从指定对话任务对应的命名实体对应关系中获取，从而得到第二命名实体集。其中，第一部分的第一命名实体可以是常用且容易翻译的命名实体，比如时间、日期等等，第二部分的第一命名实体可以是固定词组，比如酒店名称、房间类型等等。

进一步的，当机器翻译系统根据第一命名实体的实体类型，从指定对话任务对应的命名实体对应关系中获取与该第一命名实体对应的第二命名实体时，机器翻译系统可以查询该命名实体对应关系中是否存在该第一命名实体。若确定存在，则根据该第一命名实体的实体类型，从该命名实体对应关系中获取与该第一命名实体对应的第二命名实体。若确定不存在，则根据第一命名实体的实体类型，获取与第一命名实体对应的第二语言表示的第三命名实体。其中，获取第三命名实体的方法可以包括：接收人工输入的第三命名实体、或者通过内置的词典接口获取词典翻译得到的第三命名实体等。

当机器翻译系统获取第一命名实体对应的第三命名实体之后，为了便于后续在进行翻译时可以直接使用，机器翻译系统可以根据第一命名实体的实体类型、第一命名实体和第三命名实体，更新指定对话任务对应的命名实体对应关系。具体为：机器翻译系统根据第一命名实体的实体类型，将第一命名实体和第三命名实体存储在该命名实体对应关系中的第一语言表示的命名实体与第二语言表示的命名实体之间的对应关系中。

比如，当命名实体对应关系如上述表1所示时，若第一命名实体为京都观光饭店且实体类型为酒店名称，对应的第三命名实体为Kyoto Hotel，则机器翻译系统根据第一命名实体的实体类型、第一命名实体和第三命名实体，更新指定对话任务对应的命名实体对应关系如下表5所示。

表5

步骤204：确定待翻译语句的源语义模板，并从指定对话任务对应的语义模板对应关系中获取与源语义模板对应的目标语义模板，语义模板对应关系为第一语言表示的语义模板与第二语言表示的语义模板之间的对应关系。

其中，确定待翻译语句的源语义模板，具体可以是在确定待翻译语句中的第一命名实体集以及每个第一命名实体的实体类型之后，将待翻译语句中的第一命名实体删除，或者将其替换为对应的实体类型，即得到待翻译语句的源语义模板。当确定源语义模板之后，可以从指定对话任务对应的语义模板对应关系中，获取与源语义模板对应的目标语义模板。

比如，若指定对话任务对应的语义模板对应关系如上述表2所示，待翻译语句为：我是515房间的艾米哈里斯，则确定的源语义模板可以为：我是<房间号>的<客户姓名>，从上述表2获取的与源语义模板对应的目标语义模板为：I am<Customer Name>from<Room NO.>。

步骤205：根据第二命名实体集和目标语义模板，确定目标翻译语句，目标翻译语句为第二语言表示的与待翻译语句对应的翻译后的语句。

当机器翻译系统确定第二命名实体集和目标语义模板之后，机器翻译系统可以根据第二命名实体中每个第二命名实体的实体类型，将其对应的填充在目标语义模板中对应的位置上，从而得到目标翻译语句。其中，第二命名实体的实体类型与其对应的第一命名实体的实体类型一致。

比如，待翻译语句为：我想预定一间9月11日的双人房，根据上述步骤201-步骤204确定的第一命名实体集包括：9月11日(日期)和双人房(房间类型)，其对应的第二命名实体集包括：11th of September(Date)、Twin Room(Room Type)，目标语义模板为I'd like to book a<Room Type>on<Date>，则根据第二命名实体集和目标语义模板，确定的目标翻译语句为：I'd like to book a twin room on 11th of September。

最后，当机器翻译系统确定目标翻译语句之后，机器翻译系统可以将该目标翻译语句呈现给指定对话任务中的对话参与者，比如将汉语表示的待翻译语句翻译为英语表示的目标翻译语句后，将英语表示的目标翻译语句呈现给使用英语进行对话的对话参与者，从而促进指定对话参与者之间的对话交流。

在本发明实施例中，通过确定第一语言表示的待翻译语句中的第一命名实体集、每个第一命名实体的实体类型，确定与每个第一命名实体对应的第二命名实体，得到第二命名实体集，以及确定待翻译语句的源语义模板并获取与其对应的目标语义模板，从而基于第二命名实体集和目标语义模板，确定目标翻译语句，即将确定的第二语言表示的命名实体插入到目标语言模板的相应位置，从而提高了命名实体和语义模板翻译的准确性，进而保证了语句翻译的准确性以及指定对话任务的顺利进行。

进一步的，参见图4，该方法还包括：步骤202a和/或步骤203a。其中，步骤202a可以位于步骤202之后且与步骤203-步骤205可以不分先后顺序，步骤203a可以位于步骤203之后且与步骤204-步骤205可以不分先后顺序。

步骤202a：显示第一语义信息，第一语义信息包括第一命名实体集和每个第一命名实体对应的实体类型。

当机器翻译系统确定待翻译语句中的第一命名实体集和每个第一命名实体的实体类型之后，机器翻译系统可以通过显示第一语义信息的方式将其呈现给指定对话任务中的对话参与者。具体的，机器翻译系统可以将包括第一命名实体集和每个第一命名实体的实体类型的第一语义信息呈现给使用第一语言的对话参与者，以使该对话参与者确认其正确性。

步骤203a：显示第二语义信息，第二语义信息包括第二命名实体集和每个第二命名实体对应的实体类型。

同理，当机器翻译系统确定第二命名实体集之后，机器翻译系统可以通过显示第二语义信息的方式将第二命名实体集和每个第二命名实体的实体类型呈现给指定对话任务中的对话参与者。具体的，机器翻译系统可以将包括第二命名实体集和每个第二命名实体的实体类型的第二语义信息呈现给使用第二语言的对话参与者，以使该对话参与者确认其正确性。

在实际应用中，第一语义信息和第二语义信息可以包括指定对话任务中的一句待翻译语句的信息，也可以包括多句待翻译语句的信息，即在指定对话任务中，机器翻译系统可以对于对话中的每一句待翻译语句，显示第一语义信息和/或第二语义信息，也可以对于对话中的多句待翻译语句显示第一语义信息和/或第二语义信息，本发明实施例对此不做限定。

另外，第一语义信息也可以包括第二语义信息的内容，第二语义信息也可以包括第一语义信息的内容。即机器翻译系统可以将第一语义信息和第二语义信息的内容同时呈现给指定对话任务中的一个或者多个对话参与者，使其不仅可以看到使用第一语言和第二语言表示的语义信息。

比如，如图5所示，若第一语言为汉语，第二语言为英语，待翻译语句为：我想预定一间9月11日的双人房，按照上述步骤201-步骤203确定第二命名实体集之后，机器翻译系统将图5中所示的第二语义信息呈现给对话参与者。

再者，第一语义信息和/或第二语义信息还可以包括其他信息，该其他信息可以根据指定对话任务的具体任务内容进行设置。比如，对于酒店预订中的一个完整的对话，第二语义信息可以如下表6所示，表6中包括多个待翻译语句中的第一命名实体、与其对应的第二命名实体、以及实体类型，同时还包括对这些内容的分类，比如酒店信息(Hotel Information)、客户信息(Customer Information)、预订信息(Booking Information)和其他(Others)等。

表6

在本发明实施例中，通过显示第一语言信息和/或显示第二语言信息，可以使指定对话任务中的对话参与者根据显示的第一语言信息和/或第二语言信息，充分理解对方的意图和语意，从而确保翻译的准确性及指定对话任务的正确性。

进一步的，当机器翻译系统显示第一语义信息和/或显示第二语义信息之后，该方法还包括：若接收到修改指令，则获取待翻译语句修改后的语句，并对修改后的语句进行翻译。

其中，当机器翻译系统显示第一语义信息和/或显示第二语义信息之后，若指定对话任务的对话参与者确定显示的内容不正确，则对话参与者可以通过指定操作向机器翻译系统触发修改指令，当机器翻译系统接收修改指令时，可以获取待翻译语句修改后的语句，并对修改后的语句按照上述步骤202-步骤205所述的方法进行翻译。

在本发明实施例中，由于指定对话任务中的待翻译语句偏口语化，其语句较短，且语法成分也可能被省略，因此当对话参与者通过机器翻译系统触发修改操作时，对话参与者可以通过修改待翻译语句使其表达的语意更清楚、语法成分更完整，从而机器翻译系统重新获取待翻译语句修改后的语句，并对修改后语句进行翻译，进而可以保证翻译的准确性，以及确保指定对话任务的顺利进行。

进一步的，参见图6，该方法还包括：步骤200a和/或步骤200b。其中，步骤200a和步骤200b可以位于步骤202之前，步骤200a和步骤200b不分先后顺序，图6中以该方法包括步骤200a和步骤200b，且位于步骤201之前为例进行说明。

步骤200a：根据指定对话任务对应的训练语料，确定指定对话任务对应的命名实体对应关系。

其中，训练语料至少包括第一语言表示的训练语料、以及与第一语言表示的训练语料对应的第二语言表示的训练语料。

该训练语料可以是指定对话任务常用的对话语料，也可以包括一些扩充的与指定对话任务有关的训练语料。扩充的训练语料可以是通过数据筛选技术从大量的对话型语料中选择出与指定对话任务有关的对话，比如，可以通过数据筛选技术从与指定对话任务有关的电影、电视剧等多语对话型语料中筛选。

具体的，当机器翻译系统根据指定对话任务对应的训练语料，确定指定对话任务对应的命名实体对应关系时，机器翻译系统可以通过多种不同的训练方式进行训练，比如，可以通过序列标注模型进行监督式学习，或者结合领域自适应以及规则匹配等方法，对指定对话任务的训练语料进行训练，得到对应的命名实体对应关系。

步骤200b：根据指定对话任务对应的训练语料，确定指定对话任务对应的语义模板对应关系。

具体的，当机器翻译系统根据指定对话任务对应的训练语料，确定指定对话任务对应的语义模板对应关系时，机器翻译系统可以监督式学习和规则等方法，结合对话状态、实体类型等信息，从指定对话任务对应的训练语料，确定对应的语义模板对应关系。其中，对话状态可以是指一句话的语意的类别表示，比如，“请问您贵姓”和“您叫什么名字？”，这两句的意图都是询问对方的姓名信息，进而可以用同一的类别(比如，询问姓名)表示该语意。

比如，以汉语表示的训练语料和英语表示的训练语料之间的训练为例，指定对话任务为酒店预订，则机器翻译系统通过上述步骤200a获取命名实体对应关系、以及通过上述步骤200b获取语义模板对应关系的过程可以如图7所示。图7中的客户(customer)使用的语言为英语，酒店的客服(agent)使用的语言为汉语为例进行说明。

其中，以图7中所示的训练语料为例，机器翻译系统通过对英语表示的训练语料进行训练，得到英语表示的命名实体包括：Kyoto Hotel、twin room和11th of September，通过对对应的汉语表示的训练语料进行训练，得到汉语表示的命名实体包括：京都观光饭店、9月11日和双人房，且确定的Kyoto Hotel和京都观光饭店的实体类型为酒店名称(Hotel Name)、twin room和双人房的实体类型为房间类型(Room Type)、11th of September和9月11日的实体类型为日期(Date)，从而机器翻译系统训练得到的命名实体对应关系可以如下表7所示。

表7

需要说明的是，机器翻译系统可以在命名实体对应关系中不存储直接翻译难度较小的命名实体对和其实体类型，比如，实体类型为日期(Date)的命名实体对(9月11日和11th of September)，从而可以节省机器翻译系统的内存空间，且在翻译时可以根据确定实体类型直接进行翻译也不会影响到翻译的准确性。当然，机器翻译系统也可以将其存储在命名实体对应关系中，本发明实施例对此不作具体限定。

另外，机器翻译系统通过对英语表示的训练语料进行训练，得到英语表示的语义模板包括：“this is<Hotel Name>front desk”和“I'd like to book a<Room Type>on<Date>”，通过对对应的汉语表示的训练语料进行训练，得到汉语表示的语义模板：“这里是<酒店名称>前台”和“我想预定一间<日期>的<房间类型>”，从而机器翻译系统训练得到的语义模板对应关系可以如下表8所示。

表8

进而，当机器翻译系统对酒店预订中的待翻译语句进行翻译时，可以基于上述表7所示的命名实体对应关系和上述表8所示的语义模板对应关系进行翻译，并将翻译后的目标语句呈现给客户(customer)和/或客服(agent)。

在本发明的实施例中，命名实体对应关系中包括的第一语言表示的命名实体与第二语言表示的命名实体之间的对应关系可以是一对一、一对多、多对一、或者多对多的关系，本发明实施例对此不作限定。比如，双人房也可以称为双床房，对应的英文可以为twin room，也可以为double room。同理，语义模板对应关系中包括的第一语言表示的语义模板与第二语言表示的语义模板之间的对应关系也可以也可以是一对一、一对多、多对一、或者多对多的关系，本发明实施例对此不作限定。

进一步的，当机器翻译系统确定待翻译语句中第一命名实体集包括的每个命名实体的实体类型之后，机器翻译系统还可以对实体类型进行规范化处理。其中，规范处理就是将同一事物的不同描述方式规范为一种描述方式，规范化以后的描述方式可以是书面化的描述方式、或者比较通用的描述方式。比如，将第一命名实体艾米哈里斯的实体类型确定为客户名称时，机器翻译系统可以对客户名称进行规范，将其规范化为客户姓名。

同理，当机器翻译系统确定待翻译语句的源语义模板之后，机器翻译系统还可以对源语义模板进行规范化处理，即将源语义模板规范化为书面化的描述方式、或者比较通用的描述方式。

其中，通过本发明实施例提供的确定命名实体的方法，在标准数据集上对酒店预订的实际翻译效果进行评测，结果如下表9所示。在标准数据集(测试集)上，本发明实施例在命名实体的识别与翻译上均取得很高的准确率(P)和召回率(R)，92.59％和96.37％的翻译F值可以确保进入机器翻译系统的命名实体的可信度。

表9

另外，在标准数据集(测试集)上，通过本发明实施例提供的翻译方法，其翻译结果与谷歌翻译和翻译官翻译相比，其准确率如图8所示。对于英语到汉语的翻译，本发明实施例提供的方法准确率为30.7％，而谷歌翻译和翻译官翻译仅为15％左右；对于汉语到英语的翻译，本发明实施例提供的方法准确率为20.3％，而谷歌翻译和翻译官翻译仅为10％左右。

在本发明实施例中，对于指定对话任务，通过确定第一语言表示的待翻译语句中的第一命名实体集、每个第一命名实体的实体类型，以及根据训练语料训练得到的命名实体对应关系确定与每个第一命名实体对应的第二命名实体，从而可以提高了命名实体翻译的准确率，同时确定待翻译语句的源语义模板，并根据练语料训练得到的语义模板对应关系获取与其对应的目标语义模板，从而可以保证语义模板翻译的准确性，之后基于第二命名实体集和目标语义模板，确定目标翻译语句，即将确定的第二语言表示的命名实体插入到目标语言模板的相应位置，从而保证了待翻译语句翻译的准确性，使得指定对话任务可以正确顺利的进行。

上述主要从设备执行翻译方法流程的角度对本发明实施例提供的方案进行了介绍。可以理解的是，设备(例如，翻译装置等)为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的设备及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对翻译装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图9示出了上述实施例中所涉及的翻译装置的一种可能的结构示意图，翻译装置300包括：获取单元301、第一确定单元302、第二确定单元303和翻译单元304。其中，获取单元301用于执行图3、图4或图6中的步骤201；第一确定单元302用于执行图3、图4或图6中的步骤202和步骤203；第二确定单元303用于执行图3、图4或图6中的步骤204；翻译单元304用于执行图3、图4或图6中的步骤205。进一步的，翻译装置300还可以包括：训练单元305，和/或显示单元306，和/或更新单元307；其中，训练单元305用于执行图6中的步骤200a和步骤200b；显示单元306用于执行图4和图6中的步骤202a和步骤203a。上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

在硬件实现上，上述第一确定单元302、第二确定单元303、翻译单元304、训练单元305和更新单元307可以为处理器，获取单元301可以为输入设备(比如键盘、触摸屏等)，显示单元306可以为显示器。

图10所示，为本发明的实施例提供的上述实施例中所涉及的翻译装置310的一种可能的逻辑结构示意图。翻译装置310包括：处理器312、通信接口313、存储器311、输入设备314、显示器315以及总线316。处理器312、通信接口313、存储器311、输入设备314、以及显示器315通过总线316相互连接。在本发明的实施例中，处理器312用于对翻译装置310的动作进行控制管理，例如，处理器312用于执行图3、图4或图6中的步骤202-步骤205，图4或图6中的步骤202a和步骤203a，图6中的步骤200a和步骤200b，和/或用于本文所描述的技术的其他过程。通信接口313用于支持翻译装置310进行通信。存储器311，用于存储翻译装置310的程序代码和数据。输入设备314用于支持翻译装置310的外部输入。显示器315用于支持翻译装置310进行显示。

其中，处理器312可以是中央处理器单元，通用处理器，数字信号处理器，专用集成电路，现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理器和微处理器的组合等等。总线316可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

在本发明实施例中，对于指定对话任务，翻译装置通过确定第一语言表示的待翻译语句中的第一命名实体集、每个第一命名实体的实体类型，以及根据训练语料训练得到的命名实体对应关系确定与每个第一命名实体对应的第二命名实体，从而可以提高了命名实体翻译的准确率，同时确定待翻译语句的源语义模板，并根据练语料训练得到的语义模板对应关系获取与其对应的目标语义模板，从而可以保证语义模板翻译的准确性，之后基于第二命名实体集和目标语义模板，确定目标翻译语句，即将确定的第二语言表示的命名实体插入到目标语言模板的相应位置，从而保证了待翻译语句翻译的准确性，使得指定对话任务可以正确顺利的进行。

最后应说明的是：以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种翻译方法，其特征在于，所述方法包括：

获取待翻译语句；其中，所述待翻译语句为指定对话任务中第一语言表示的语句；

确定所述待翻译语句中的第一命名实体集，以及所述第一命名实体集中每个第一命名实体的实体类型；其中，所述第一命名实体集包括至少一个第一命名实体；

根据所述第一命名实体集和每个第一命名实体的实体类型，确定第二语言表示的第二命名实体集；其中，所述第二命名实体集包括至少一个第二命名实体，且所述至少一个第二命名实体与所述至少一个第一命名实体对应；

确定所述待翻译语句的源语义模板，并从所述指定对话任务对应的语义模板对应关系中获取与所述源语义模板对应的目标语义模板；其中，所述语义模板对应关系为所述第一语言表示的语义模板与所述第二语言表示的语义模板之间的对应关系；

根据所述第二命名实体集和所述目标语义模板，确定目标翻译语句；其中，所述目标翻译语句为所述第二语言表示的与所述待翻译语句对应的翻译后的语句。
根据权利要求1所述的方法，其特征在于，所述根据所述第一命名实体集和每个第一命名实体的实体类型，确定第二语言表示的第二命名实体集，包括：

对于所述第一命名实体集中的每个第一命名实体，根据所述第一命名实体的实体类型，从所述指定对话任务对应的命名实体对应关系中获取与所述第一命名实体对应的第二命名实体，从而得到第二命名实体集；其中，所述命名实体对应关系为所述第一语言表示的命名实体与所述第二语言表示的命名实体之间的对应关系。
根据权利要求2所述的方法，其特征在于，所述方法还包括：

根据所述指定对话任务对应的训练语料，确定所述指定对话任务对应的命名实体对应关系；其中，所述训练语料至少包括所述第一语言表示的训练语料、以及与所述第一语言表示的训练语料对应的所述第二语言表示的训练语料。
根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

根据所述指定对话任务对应的训练语料，确定所述指定对话任务对应的语义模板对应关系；其中，所述训练语料至少包括所述第一语言表示的训练语料、以及与所述第一语言表示的训练语料对应的所述第二语言表示的训练语料。
根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

显示第一语义信息，所述第一语义信息包括所述第一命名实体集和每个第一命名实体对应的实体类型；和/或，

显示第二语义信息，所述第二语义信息包括所述第二命名实体集和每个第二命名实体对应的实体类型。
根据权利要求2所述的方法，其特征在于，所述方法还包括：

若确定所述指定对话任务对应的命名实体对应关系中不存在所述第一命名实体集中的第一命名实体，则根据所述第一命名实体的实体类型，获取与所述第一命名实体对应的所述第二语言表示的第三命名实体；

根据所述第一命名实体的实体类型、所述第一命名实体和所述第三命名实体，更新所述指定对话任务对应的命名实体对应关系。
一种翻译装置，其特征在于，所述装置包括：

获取单元，用于获取待翻译语句；其中，所述待翻译语句为指定对话任务中第一语言表示的语句；

第一确定单元，用于确定所述待翻译语句中的第一命名实体集，以及所述第一命名实体集中每个第一命名实体的实体类型；其中，所述第一命名实体集包括至少一个第一命名实体；

所述第一确定单元，还用于根据所述第一命名实体集和每个第一命名实体的实体类型，确定第二语言表示的第二命名实体集；其中，所述第二命名实体集包括至少一个第二命名实体，且所述至少一个第二命名实体与所述至少一个第一命名实体对应；

第二确定单元，用于确定所述待翻译语句的源语义模板，并从所述指定对话任务对应的语义模板对应关系中获取与所述源语义模板对应的目标语义模板；其中，所述语义模板对应关系为所述第一语言表示的语义模板与所述第二语言表示的语义模板之间的对应关系；

翻译单元，用于根据所述第二命名实体集和所述目标语义模板，确定目标翻译语句；其中，所述目标翻译语句为所述第二语言表示的与所述待翻译语句对应的翻译后的语句。
根据权利要求7所述的装置，其特征在于，所述第一确定单元，具体用于：

对于所述第一命名实体集中的每个第一命名实体，根据所述第一命名实体的实体类型，从所述指定对话任务对应的命名实体对应关系中获取与所述第一命名实体对应的第二命名实体，从而得到第二命名实体集；其中，所述命名实体对应关系为所述第一语言表示的命名实体与所述第二语言表示的命名实体之间的对应关系。
根据权利要求8所述的装置，其特征在于，所述装置还包括：

训练单元，用于根据所述指定对话任务对应的训练语料，确定所述指定对话任务对应的命名实体对应关系；其中，所述训练语料至少包括所述第一语言表示的训练语料、以及与所述第一语言表示的训练语料对应的所述第二语言表示的训练语料。
根据权利要求7-9任一项所述的装置，其特征在于，所述装置还包括：

训练单元，用于根据所述指定对话任务对应的训练语料，确定所述指定对话任务对应的语义模板对应关系；其中，所述训练语料至少包括所述第一语言表示的训练语料、以及与所述第一语言表示的训练语料对应的所述第二语言表示的训练语料。
根据权利要求7-10任一项所述的装置，其特征在于，所述装置还包括：

显示单元，用于显示第一语义信息，所述第一语义信息包括所述第一命名实体集和每个第一命名实体对应的实体类型；和/或，

所述显示单元，还用于显示第二语义信息，所述第二语义信息包括所述第二命名实体集和每个第二命名实体对应的实体类型。
根据权利要求8所述的装置，其特征在于，

所述获取单元，还用于若确定所述指定对话任务对应的命名实体对应关系中不存在所述第一命名实体集中的第一命名实体，则根据所述第一命名实体的实体类型，获取与所述第一命名实体对应的所述第二语言表示的第三命名实体；

所述装置还包括：更新单元，用于根据所述第一命名实体的实体类型、所述第一命名实体和所述第三命名实体，更新所述指定对话任务对应的命名实体对应关系。