WO2021233112A1

WO2021233112A1 - 基于多模态机器学习的翻译方法、装置、设备及存储介质

Info

Publication number: WO2021233112A1
Application number: PCT/CN2021/091114
Authority: WO
Inventors: 孟凡东; 尹永竞; 苏劲松; 周杰
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2020-05-20
Filing date: 2021-04-29
Publication date: 2021-11-25
Also published as: JP2023509031A; US20220245365A1; CN111597830A; US12056458B2

Abstract

一种基于多模态机器学习的翻译方法，涉及人工智能技术领域。对n个模态的源语句进行语义关联，构建语义关联图，在语义关联图中采用第一连接边来连接同一模态的语义节点、且采用第二连接边来连接不同模态的语义节点，以语义关联图充分的表示出多个模态的源语句之间的语义关联，继而对语义关联图中的特征向量进行充分的语义融合，得到编码后的编码特征向量，进而在对编码特征向量进行解码处理后，得到更准确的目标语句，目标语句与多模态的源语句综合表达的内容、情感以及语言环境等更贴近。

Description

基于多模态机器学习的翻译方法、装置、设备及存储介质

本申请要求于2020年05月20日提交的申请号为2020104325972、发明名称为“基于多模态机器学习的翻译方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，特别涉及一种基于多模态机器学习的翻译方法、装置、设备及存储介质。

背景技术

机器翻译是利用计算机将一种自然语言转变为另一种自然语言的过程。

在一些应用场景中，可以通过机器翻译模型将多种不同表现形式的源语言翻译成目标语言，即将多模态源语言翻译成目标语言；示例性的，获取图片与对应的英文注释，通过机器翻译模型，分别对图片与英文注释进行特征提取，之后对提取到的特征进行融合，进而基于融合后的特征，翻译得出图片与英文注释对应的法文注释。

发明内容

本申请实施例提供了一种基于多模态机器学习的翻译方法、装置、设备及存储介质，可以在特征编码的过程中，对多个模态的源语言进行充分的语义融合，使编码向量解码出的目标语句与源语言所表达的内容与情感等更贴近。所述技术方案如下：

根据本申请的一方面，提供了一种基于多模态机器学习的翻译方法，由计算机设备执行，该方法包括：

基于属于不同模态的n个源语句，构建语义关联图，所述语义关联图包括n种不同模态的语义节点、用于连接同一模态的语义节点的第一连接边，以及用于连接不同模态的语义节点的第二连接边，所述语义节点用于表示一种模态下所述源语句的一个语义单元，n为大于1的正整数；

从所述语义关联图中，提取出多个第一词向量；

对所述多个第一词向量进行编码，得到n个编码特征向量；

对所述n个编码特征向量进行解码，得到翻译后的目标语句。

根据本申请的另一方面，提供了一种基于多模态机器学习的翻译装置，该装置包括：

语义关联模块，用于基于属于不同模态的n个源语句，构建语义关联图，所述语义关联图包括n种不同模态的语义节点、用于连接同一模态的语义节点的第一连接边，以及用于连接不同模态的语义节点的第二连接边，所述语义节点用于表示一种模态下所述源语句的一个语义单元，n为大于1的正整数；

特征提取模块，用于从所述语义关联图中，提取出多个第一词向量；

向量编码模块，用于对所述多个第一词向量进行编码，得到n个编码特征向量；

向量解码模块，用于对所述n个编码特征向量进行解码，得到翻译后的目标语句。

根据本申请的另一方面，提供了一种计算机设备，该计算机设备包括：

存储器；

与存储器相连的处理器；

其中，处理器被配置为加载并执行可执行指令以实现如上一个方面及其可选实施例所述的基于多模态机器学习的翻译方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，上述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，上述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上一个方面及其可选实施例所述的基于多模态机器学习的翻译方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的多模态机器翻译模型的结构示意图；

图2是本申请一个示例性实施例提供的计算机系统的结构示意图；

图3是本申请一个示例性实施例提供的基于多模态机器学习的翻译方法的流程图；

图4是本申请一个示例性实施例提供的语义关联图构建的流程图；

图5是本申请另一个示例性实施例提供的基于多模态机器学习的翻译方法的流程图；

图6是本申请另一个示例性实施例提供的基于多模态机器学习的翻译方法的流程图；

图7是本申请另一个示例性实施例提供的多模态机器翻译模型的结构示意图；

图8是本申请一个示例性实施例提供的模型测试结果的曲线图；

图9是本申请另一个示例性实施例提供的模型测试结果的曲线图；

图10是本申请另一个示例性实施例提供的模型测试结果的曲线图；

图11是本申请一个示例性实施例提供的基于多模态机器学习的翻译装置的框图；

图12是本申请一个示例性实施例提供的服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

对本申请中涉及的名词进行解释如下：

人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能、感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统的技术科学。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，包括硬件层面的技术与软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，自然语言处理(Nature Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、类比学习等技术。

在本申请中提供了一种多模态机器翻译模型，可以将n个不同模态的源语句准确的翻译为目标语句。其中，模态是指语言的表现形式，比如，语句可以采用图表示或者文字表示等方式；源语句是指待翻译语句，待翻译语句包括文本形式的第一语言类的待翻译句子和非文本形式的待翻译语言；目标语句是指文本形式的第二语言类的已翻译句子，第二语言类与第一语言类不同。示例性的，源语句包括英文语句和该英文语句的配图，通过多模态机器翻译模型可以翻译得到上述英文语句和其配图对应的中文语句。

如图1，示出了本申请中一个示例性实施例提供的多模态机器翻译模型100的结构示意图，该多模态机器翻译模型100包括多模态图表示层101、第一词向量层102、多模态融合编码器103和解码器104；

多模态图表示层101，用于对n个模态的源语言进行语义关联，获取语义关联图，该语义关联图包括n种不同模态的语义节点，用于连接同一模态的语义节点的第一连接边，以及用于连接不同模态的语义节点的第二连接边，n为大于1的正整数；其中，一个语义节点用于表示一种模态下的源语句的一个语义单元，以英文为例，一个语义节点对应于一个单词，以中文为例，一个语义节点对应于一个汉字。

第一词向量层102，用于从语义关联图中，提取出多个第一词向量；

多模态融合编码器103，用于对该多个第一词向量进行编码，得到n个编码特征向量；

解码器104，用于对n个编码特征向量进行解码处理，得到翻译后的目标语句。

在一些可选实施例中，多模态图表示层101，用于获取n组语义节点，一组语义节点对应于一个模态的源语句；在同一模态的任两个所述语义节点之间添加所述第一连接边，在不同模态的任两个所述语义节点之间添加所述第二连接边，得到所述语义关联图。

在一些可选实施例中，多模态图表示层101，用于从每一个模态的源语言中提取语义节点，得到n个模态的源语言对应的n组语义节点；

多模态图表示层101，用于采用第一连接边对n组语义节点进行同一模态内的语义节点之间的连接，且采用第二连接边对n组语义节点进行不同模态间的语义节点之间的连接，得到语义关联图。

在一些可选实施例中，n个模态的源语句中包括文本形式的第一源语句和非文本形式的第二源语句，n组语义节点包括第一语义节点和第二语义节点；

多模态图表示层101，用于获取所述第一语义节点，所述第一语义节点为对所述第一源语句进行处理得到；获取候选语义节点，所述候选语义节点为对所述第二源语句进行处理得到；获取所述候选语义节点的第一概率分布，所述第一概率分布按照所述第一语义节点与所述候选语义节点之间的语义关联进行计算得到；从所述候选语义节点中，确定出所述第二语义节点，所述第二语义节点由所述多模态图表示层根据所述第一概率分布确定。

在一些可选实施例中，多模态图表示层101，用于从第一源语句中提取出第一语义节点，且从第二源语句中提取出候选语义节点；按照第一语义节点与候选语义节点之间的语义关联计算候选语义节点的第一概率分布；根据第一概率分布从候选语义节点中确定出第二语义节点。

在一些可选实施例中，多模态图表示层101，用于在第i组语义节点中将同一模态内的任两个语义节点之间添加第i种第一连接边，所述第i种第一连接边对应于第i个模态，i是小于或等于n的正整数。

也即是，多模态图表示层101，用于确定出第i个模态对应的第i种第一连接边，采用第i种第一连接边对第i组语义节点进行同一模态内的语义节点之间的连接，i是小于或等于n的正整数。

在一些可选实施例中，n个编码特征向量通过下述过程获取：对所述多个第一词向量进行e次模态内融合和模态间融合，得到所述编码特征向量，其中，所述模态内融合是指在同一模态内的所述第一词向量之间进行语义融合，所述模态间融合是指在不同模态的所述第一词向量之间进行语义融合，其中，e为正整数。

在一些可选实施例中，多模态融合编码器103包括e个串联的编码模块1031，每一个编码模块1031均包括与n个模态一一对应的n个模态内融合层11和n个模态间融合层12，e为正整数；

第1个编码模块1031，用于将第一词向量分别输入第1个编码模块中的n个模态内融合层11，通过n个模态内融合层11分别对第一词向量进行相同模态内部的语义融合，得到n个第一隐层向量，一个所述第一隐层向量对应于一个模态，也即是，得到与n个模态一一对应的n个第一隐层向量；

第1个编码模块1031，用于将n个第一隐层向量输入第1个编码模块中的每一个模态间融合层12，通过每一个模态间融合层12对所述n个第一隐层向量进行不同模态间的语义融合，得到n个第一中间向量，一个所述中间向量对于一个模态，也即是，得到与n个模态一一对应的n个第一中间向量；

第j个编码模块1031，用于对n个第一中间向量进行第j次编码处理，直至最后一个编码模块输出n个编码特征向量，一个所述编码特征向量与一个模态对应，也即是，直至最后一个编码模块输出与n个模态一一对应的n个编码特征向量，j为大于1且小于等于e的正整数。

在一些可选实施例中，每一个编码模块1031还包括：n个第一向量转换层13，所述一个向量转换层对应于一个模态，也即是，与n个模态一一对应的n个第一向量转换层13；

编码模块1031，还用于将n个第一中间向量分别输入所属模态对应的n个第一向量转换层13中进行非线性转换，得到非线性转换后的n个第一中间向量。

在一些可选实施例中，e个串联的编码模块1031中每一个编码模块1031中的层级结构相同。

在一些可选实施例中，不同的模态内融合层中设置有不同或者相同的自注意力函数，且不同的模态间融合层中设置有不同或者相同的特征融合函数。

在一些可选实施例中，该多模态机器翻译模型100还包括第二词向量层105和分类器106，且解码器104包括d个串联的解码模块1042，d为正整数；

第二词向量层105，用于获取第一目标词语，第一目标词语是所述目标语句中的已翻译词语；对所述第一目标词语进行特征提取，得到第二词向量；

解码器104，用于通过d个串联的解码模块1042结合第二词向量和编码特征向量进行特征提取，得到解码特征向量；

分类器106，用于确定解码特征向量对应的概率分布，且根据概率分布，确定出第一目标词语之后的第二目标词语。

在一些可选实施例中，d个串联的解码模块1042中每一个解码模块1042均包括第一自注意力层21和第二自注意力层22；

第1个解码模块1042，用于将第二词向量输入第1个解码模块1042中第一自注意力层21，通过第一自注意力层21对第二词向量进行特征提取，得到第二隐层向量；

第1个解码模块1042，用于将第二隐层向量和编码特征向量输入第1个解码模块1042中第二自注意力层22，通过第二自注意力层22结合第二隐层向量和编码特征向量进行特征提取，得到第二中间向量；

第k个解码模块，用于将第二中间向量输入第k个解码模块1042中进行第k次解码处理，直至最后一个解码模块输出解码特征向量，k为大于1且小于等于d的正整数。

在一些可选实施例中，每一个解码模块1042还包括：第二向量转换层23；

解码模块1042，用于将第二中间向量输入第二向量转换层23中进行非线性转换，得到非线性转换后的第二中间向量。

综上所述，本实施例提供的多模态机器翻译模型，通过多模态图表示层对n个模态的源语言进行语义关联，获取语义关联图，在语义关联图中采用第一连接边连接同一模态的语义节点、且采用第二连接边连接不同模态的语义节点，以语义关联图充分的表示出多个模态的源语言之间的语义关联，继而通过多模态融合编码器对语义关联图中的特征向量进行充分的语义融合，得到编码后的编码特征向量，进而在对编码特征向量进行解码处理后，得到更准确的目标语句，该目标语句与多模态的源语句综合表达的内容、情感、以及语言环境等更贴近。

请参考图2，示出了本申请一个示例性实施例提供的计算机系统的结构示意图，该计算机系统包括终端220和服务器240。

终端220上安装有操作系统；该操作系统上安装有应用程序，该应用程序支持多模态源语言的翻译功能。示例性的，上述应用程序可以包括即时通信软件、金融软件、游戏软件、购物软件、视频播放软件、社区服务软件、音频软件、教育软件、支付软件、以及翻译软件等，上述应用程序中集成有上述多模态源语言的翻译功能。

终端220和服务器240通过有线或者无线网络相互连接。服务器240包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。示例性的，服务器240包括处理器和存储器，其中，存储器中存储有计算机程序，处理器读取并执行上述计算机程序可以实现多模态源语言的翻译功能。

可选地，服务器240承担主要计算工作，终端220承担次要计算工作；或者，服务器240承担次要计算工作，终端220承担主要计算工作；或者，服务器240和终端220二者之间采用分布式计算架构进行协同计算。

在一些可选实施例中，实现上述多模态语言的翻译功能的过程中，服务器240为终端220上的应用程序提供后台服务。示例性的，终端220采集n个模态的源语句，将上述n个模态的源语句发送至服务器240中，由服务器240执行本申请提供的基于多模态机器学习的翻译方法，n为大于1的正整数。

示例性的，终端220上包括数据传输控件；终端220通过上述数据传输控件将待翻译语句和与待翻译语句匹配的图像这两个不同模态的源语句上传至服务器240中，由服务器240执行本申请提供的基于多模态机器学习的翻译方法，将两个模态的源语句翻译成为目标语句。

在一些可选实施例中，源语句可以包括语音信号；若n个模态的源语句中包括语音信号，在对n个模态的源语句进行翻译之前，终端220或者服务器240首先将语音信号转换为文字文本。示例性的，终端220通过麦克风采集语音信号，或者，终端220接收其他终端发送的语音信号。

上述基于多模态机器学习的翻译方法可以应用于多媒体新闻翻译场景，示例性的，终端220将包括文字和图像的多媒体新闻上传至服务器240，由服务器240执行本申请提供的基于多模态机器学习的翻译方法，将多媒体新闻中第一语言类的文字翻译成第二语言类的文字。

上述基于多模态机器学习的翻译方法可以应用于外文文献翻译场景，示例性的，终端220将外文文献中的文字和与文字对应的插图上传至服务器240，由服务器240执行本申请提供的基于多模态机器学习的翻译方法，将外文文献中第一语言类的文字翻译成第二语言类的文字。

上述基于多模态机器学习的翻译方法可以应用于外文网站翻译场景，示例性的，终端220采集外文网站上的文字和文字配图，将上述文字和文字配图上传至服务器240，由服务器240执行本申请提供的基于多模态机器学习的翻译方法，将外文网站中第一语言类的文字翻译成第二语言类的文字，进而实现对外文网站的翻译。

在一些可选实施例中，终端220对翻译出的文字展示的方式包括语音形式或者文字形式。

需要说明的是，在一些可选实施例中，终端220执行本申请提供的基于多模态机器学习的翻译方法，进而对n个模态的源语句进行翻译。

终端220可以泛指多个终端中的一个，本实施例仅以终端220来举例说明。该终端220可以包括：智能手机、平板电脑、电子书阅读器、动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III，MP3)播放器、动态影像专家压缩标准音频层面4(Moving Picture Experts Group Audio Layer IV，MP4)播放器、膝上型便携计算机和台式计算机中、笔记本电脑的至少一种。以下实施例以终端220包括智能手机和个人计算机设备来举例说明。

本领域技术人员可以知晓，上述终端220的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量。本申请实施例对终端220的数量和设备类型不加以限定。

请参考图3，示出了本申请一个示例性实施例提供的基于多模态机器学习的翻译方法的流程图，该方法应用于如图2所示的计算机设备中，该计算机设备包括终端或者服务器，该方法包括：

步骤301，计算机设备对n个模态的源语句进行语义关联，构建语义关联图。

上述语义关联图包括n种不同模态的语义节点，用于连接同一模态的语义节点的第一连接边，以及用于连接不同模态的语义节点的第二连接边，n为大于1的正整数。

以一个模态的源语句来举例，该源语句对应于一组语义节点，该一组语义节点包括至少一个用于表示源语句中语义单元的语义节点。

该计算机设备中设置有多模态融合编码器和解码器，计算机设备通过多模态图表示层从每一个模态的源语句提取语义节点，得到n个模态的源语句对应的n组语义节点；通过多模态图表示层采用第一连接边对n组语义节点进行同一模态内的语义节点之间的连接，也即是，在同一模态的任两个语义节点之间添加第一连接边，且采用第二连接边对n组语义节点进行不同模态间的语义节点之间的连接，，也即是，在不同模态的语义节点之间添加第二连接边，得到语义关联图。

可选的，n个模态的源语句中包括文本形式的第一源语句和非文本形式的第二源语句，n组语义节点包括第一语义节点和第二语义节点；计算机设备通过多模态图表示层从第一源语句中提取出第一语义节点，且从第二源语句中提取出候选语义节点；调用多模态图表示层，按照第一语义节点与候选语义节点之间的语义关联，计算候选语义节点的第一概率分布；调用多模态图表示层，根据第一概率分布，从候选语义节点中确定出第二语义节点。

其中，对于文本形式的第一源语句中语义节点的提取，计算机设备对第一源语句进行分词处理，得到分词后的m个词语，m个词语对应于第一源语句中的第一语义节点，m为正整数；

对于非文本形式的第二源语句中语义节点的提取，计算机设备从第二源语句中提取出与m个词语中至少一个词语的语义对应的目标，该目标即为第二源语句中的第二语义节点。

示例性的，如图4，2个模态的源语句包括待翻译图像31和待翻译语句32，待翻译语句32的内容包括“Two boys are playing with a toy car.”，每一个英文单词对应一个第一语义节点，分别为Vx1、Vx2、Vx3、Vx4、Vx5、Vx6、Vx7、和Vx8；计算机设备基于语义节点的语义，从待翻译图像31中截取出候选图像，根据语义节点与候选图像之间的语义关联，计算出第一概率分布，根据第一概率分布，从候选图像中确定出与Vx1和Vx2的语义对应的目标图像1和目标图像2，以及与Vx6、Vx7、和Vx8的语义对应的目标图像3，目标图像1、目标图像2和目标图像3分别对应的Vo1、Vo2和Vo3即为待翻译图像31中的三个第二语义节点。计算机设备在Vx1、Vx2、Vx3、Vx4、Vx5、Vx6、Vx7、和Vx8两两之间采用第一连接边(实线)进行模态内语义连接，在Vo1、Vo2和Vo3两两之间采用第一连接边进行模态内语义连接，在第一语义节点与第二语义节点之间采用第二连接边(虚线)进行模态间语义连接。

可选地，不同的模态对应设置有不同的第一连接边；计算机设备在对语义节点进行模态内连接时，通过多模态图表示层确定出第i个模态对应的第i种第一连接边，采用第i种第一连接边，对第i组语义节点进行同一模态内的语义节点之间的连接，也即是，对第i组语义节点中的任两个语义节点之间添加第i种第一连接边，i是小于或等于n的正整数。

可选地，对2个模态的源语句进行翻译，若2个模态的源语句分别为文字和图像，计算机设备通过视觉落地(visual grounding)工具来建立2个模态的源语句之间的语义关联，构建出语义关联图。

步骤302，计算机设备从语义关联图中提取出多个第一词向量。

示例性的，计算机设备采用词嵌入的方式，对语义关联图进行处理，得到多个第一词向量；词嵌入是指将单词映射为词向量，可选地，词嵌入的方法包括以下4种的至少一种：

通过神经网络模型进行词嵌入；

通过对词语同现矩阵降维进行词嵌入；

通过概率模型进行词嵌入；

通过单词所在上下文的语义对单词进行词嵌入。

比如，通过独热编码(One-Hot Encoding)对文本形式的源语句中的单词进行表示，继而通过嵌入矩阵进行词嵌入。

步骤303，计算机设备对多个第一词向量进行编码，得到n个编码特征向量。

计算机设备通过多模态融合编码器，对第一词向量进行模态内的特征提取，继而对特征提取得到的向量进行模态间的特征融合。

示例性的，以n取值3为例，多模态融合编码器中包括第1模态对应的第一特征提取函数，第2模态对应的第二特征提取函数，以及第3模态对应的第三特征提取函数；计算机设备通过第一特征提取函数，对第一词向量进行第1模态内的特征提取，通过第二特征提取函数，对第一词向量进行第2模态内的特征提取，通过第三特征提取函数，对第一词向量进行第3模态内的特征提取，最终得到三个隐层函数。多模态融合编码器中还包括第1模态对应的第一特征融合函数，第2模态对应的第二特征融合函数，以及第3模态对应的第三特征融合函数；计算机设备通过第一特征融合函数对上述三个隐层函数进行模态间的特征融合，通过第二特征融合函数，对上述三个隐层函数进行模态间的特征融合，通过第三特征融合函数，对上述三个隐层函数进行模态间的特征融合，得到三个特征融合后的隐层向量，即为编码特征向量。

步骤304，计算机设备对n个编码特征向量进行解码处理，得到翻译后的目标语句。

计算机设备调用解码器对n个编码特征向量进行解码处理，得到翻译后的目标语句，该目标语句是将n个模态的源语句翻译成为指定语言类得到的语句。

综上所述，本实施例提供的基于多模态机器学习的翻译方法，通过多模态图表示层对n个模态的源语句进行语义关联，构建语义关联图，在语义关联图中采用第一连接边连接同一模态的语义节点、且采用第二连接边连接不同模态的语义节点，以语义关联图充分的表示出多个模态的源语句之间的语义关联，继而通过多模态融合编码器对语义关联图中的特征向量进行充分的语义融合，得到编码后的编码特征向量，进而在对编码特征向量进行解码处理后得到更准确的目标语句，该目标语句与多模态的源语句综合表达的内容、情感、以及语言环境等更贴近。

基于图3，多模态融合编码器包括e个串联的编码模块，每一个编码模块均包括与n个模态一一对应的n个模态内融合层和n个模态间融合层，e为正整数；因此，步骤303可以包括步骤3031，如图5，步骤如下：

步骤3031，计算机设备通过e个串联的编码模块对多个第一词向量进行e次模态内融合和模态间融合，得到n个编码特征向量。

其中，模态内融合是指在同一模态内的第一词向量之间进行语义融合，模态间融合是指在不同模态的第一词向量之间进行语义融合。

示例性的，上述编码特征向量的模态内和模态间融合可以通过以下步骤实现：

1)将第一词向量分别输入第1个编码模块中的n个模态内融合层，由过n个模态内融合层分别对第一词向量进行相同模态内部的语义融合，得到n个第一隐层向量，一个所述第一隐层向量对应于一个模态，也即是，得到与n个模态一一对应的n个第一隐层向量。

示例性的，计算机设备将第一词向量输入第1个编码模块中第1个模态内融合层，由第1个模态内融合层对第一词向量进行模态内的语义融合，得到第1个第一隐层向量；将第一词向量输入第1个编码模块中第2个模态内融合层，由第2个模态内融合层对第一词向量进行模态内的语义融合，得到第2个第一隐层向量；······；将第一词向量输入第1个编码模块中第n个模态内融合层，由第n个模态内融合层对第一词向量进行模态内的语义融合，得到第n个第一隐层向量。

模态内融合层中设置有特征提取函数，可选地，特征提取函数包括自注意力函数。可选地，不同的模态内融合层中设置有不同或者相同的自注意力函数。需要说明的是，自注意力函数的不同是指函数内参数不同；若不同模态对应的自注意力函数不同，则不同模态对应的函数内参数不同。

2)将n个第一隐层向量输入第1个编码模块中的每一个模态间融合层，通过每一个模态间融合层对n个第一隐层向量进行不同模态间的语义融合，得到n个第一中间向量，一个所述中间向量对于一个模态，也即是，得到与n个模态一一对应的n个第一中间向量。

示例性的，计算机设备将n个第一隐层向量输入第1个编码模块中的第1个模态间融合层，由第1个模态间融合层对n个第一隐层向量进行模态间的语义融合，得到与第1个模态对应的第1个第一中间向量；将n个第一隐层向量输入第1个编码模块中的第2个模态间融合层，由第2个模态间融合层对n个第一隐层向量进行模态间的语义融合，得到与第2个模态对应的第2个第一中间向量；······；将n个第一隐层向量输入第1个编码模块中的第n个模态间融合层，由第n个模态间融合层对n个第一隐层向量进行模态间的语义融合，得到与第n个模态对应的第n个第一中间向量。

模态间融合层长设置有特征融合函数，可选地，不同的模态间融合层中设置的特征融合函数不同或者相同。需要说明的是，特征融合函数的不同是指函数内参数不同，或者，是指函数的计算方式不同。

可选地，每一个编码模块还包括：与n个模态一一对应的n个第一向量转换层；在得到n个第一中间向量之后，计算机设备还将n个第一中间向量分别输入所属模态对应的n个第一向量转换层中进行非线性转换，得到非线性转换后的n个第一中间向量。

3)将n个第一中间向量输入第j个编码模块中进行第j次编码处理，直至最后一个编码模块输出n个编码特征向量，一个所述编码特征向量与一个模态对应，也即是，直至最后一个编码模块输出与n个模态一一对应的n个编码特征向量。

计算机设备将n个中间向量输入第2个编码模块中进行第2次编码处理，得到n个重新编码后的第一中间向量；······；将n个重新编码后的第一中间向量间向量输入第j个编码模块中进行第j次编码处理，得到n个重新编码后的第一中间向量；······；将n个重新编码后的第一中间向量输入第e个编码模块中进行第e次编码处理，得到n个编码特征向量；其中，j为大于1且小于等于e的正整数。可选地，e个串联的编码模块中所述每一个编码模块中的层级结构相同，即第j个编码模块按照第1个编码模块对第一中间向量进行编码的步骤进行处理，直至最后一个编码模块输出编码特征向量。

示例性的，本实施例中采用自注意力机制来建模相同模态内部的语义信息，则第j个编码模块计算文本语句对应的第一隐层向量

公式为：

其中，

是指文本语句对应的第一词向量或者第(j-1)个编码模块输出的第一中间向量；x用于标识文本语句的语义节点、以及由文本语句的语义节点计算得到的向量；MultiHead(Q,K,V)是多重注意力机制建模函数，以三元组(Queries,Key,Values)作为输入，Q为查询矩阵，K为密钥矩阵，V为值矩阵，其中，Q、K、V由

与参数向量计算得到。

第j个多模态融合编码器计算图像对应的第一隐层向量

公式为：

其中，

是指图像对应的第一词向量或者第(j-1)个编码模块输出的第一中间向量；

本实施例中还采用基于门机制跨模态融合机制来建模多模态间的语义融合，则第j个编码模块计算文本语句对应的第一中间向量或者编码特征向量

公式为：

其中，A表示集合，对应的，

是第一语义节点

在语义关联图中的邻居节点的集合；

表示文本语句的第u个语义节点，u为正整数；

是在第j个编码模块中图像的第s个语义节点的语义表示向量；

是在第j个编码模块中文本语句的第u个语义节点的语义表示向量；

和

是参数矩阵；⊙表示同或运算；Sigmoid()是s曲线型函数；o用于标识图像的语义节点、以及由图像的语义节点计算得到的向量。还以相同的计算方式计算图像对应的第一中间向量或者编码特征向量

在此不再加以赘述。

经过多模态间融合后，本实施例中还采用前馈神经网络(FeedForward Neural，FFN)生成最终的编码特征向量，文本语句对应的编码特征向量和图像对应的编码特征向量分别为：

其中，

{}表示集合，

表示是在第j个编码模块中文本语句的第u个语义节点对应的编码特征向量，

是在第j个编码模块中图像的第s个语义节点对应的编码特征向量。

综上所述，本实施例提供的基于多模态机器学习的翻译方法，通过多模态图表示层对n个模态的源语言进行语义关联，构建语义关联图，在语义关联图中采用第一连接边连接同一模态的语义节点、且采用第二连接边连接不同模态的语义节点，以语义关联图充分的表示出多个模态的源语言之间的语义关联，继而通过多模态融合编码器对语义关联图中的特征向量进行充分的语义融合，得到编码后的编码特征向量，进而在对编码特征向量进行解码处理后，得到更准确的目标语句，该目标语句与多模态的源语言综合表达的内容、情感、以及语言环境等更贴近。

该方法中多模态融合编码器中包括e个串联的编码模块，每一个编码模块中均包括模态内融合层和模特间融合层，通过多次模态内与模特间的交替特征融合，得到语义融合更完全的编码特征向量，进而能够解码出n个模态的源语言对应的更准确的目标语句。

基于图3，解码器还包括d个串联的解码模块，d为正整数，因此，步骤304可以包括步骤3041至步骤3044，如图6，步骤如下：

步骤3041，计算机设备通过第二词向量层获取第一目标词语。

其中，第一目标词语是目标语句中的已翻译词语。计算机设备对目标语句中的词语一一翻译，在翻译出目标语句中第r个词语之后，将第r个词语作为第一目标词语，用于对第r+1个词语进行翻译；也就是说，计算机设备将第r个词语输入第二词向量层，r为非负整数。

步骤3042，计算机设备通过第二词向量层对第一目标词语进行特征提取，得到第二词向量。

示例性的，计算机设备通过第二向量层对第一目标词语进行词嵌入，得到第二词向量。词嵌入是将单词在向量空间中表示为实数向量的技术；本实施例中词嵌入是指单词映射为的词向量；比如，将“我”进行映射得到词向量(0.1,0.5,5)，(0.1,0.5,5)即为对“我”词嵌入后的词向量。

步骤3043，计算机设备通过d个串联的解码模块结合第二词向量和编码特征向量进行特征提取，得到解码特征向量。

计算机设备调用d个串联的解码模块基于注意力机制对编码特征向量和第二词向量进行处理，提取出解码特征向量。

可选地，d个串联的解码模块中每一个解码模块均包括1个第一自注意力层和1个第二自注意力层和1个第二向量转换层；对于解码特征向量的提取，计算机设备将第二词向量输入第1个解码模块中第一自注意力层，通过第一自注意力层对第二词向量进行特征提取，得到第二隐层向量；将第二隐层向量和编码特征向量输入第1个解码模块中第二自注意力层，通过第二自注意力层结合第二隐层向量和编码特征向量进行特征提取，得到第二中间向量；将第二中间向量输入第k个解码模块中进行第k次解码处理，直至最后一个解码模块输出解码特征向量，k为大于1且小于等于d的正整数。

其中，第一自注意力层用于基于自注意力机制，对第二词向量进行处理，提取出第二隐层向量；第二自注意力层用于基于注意力机制，采用目标语句的语言类对第二隐层向量和编码特征向量进行处理，得到第二中间向量。第一自注意力层中包括第一自注意力函数，第二自注意力层中包括第二自注意力函数，第一自注意力函数与第二自注意力函数的参数不同。

可选地，每一个解码模块还包括：第二向量转换层；在计算得到第二中间向量之后，计算机设备还将第二中间向量输入第二向量转换层中进行非线性转换，得到非线性转换后的第二中间向量。

步骤3044，计算机设备将解码特征向量输入分类器，通过分类器计算解码特征向量对应的概率分布，且根据概率分布确定出第一目标词语之后的第二目标词语。

可选地，分类器中包括归一化(softmax)函数，计算机设备通过softmax函数计算解码特征向量对应的概率分布，且根据解码特征向量对应的概率分布确定出第一目标词语之后的第二目标词语。

综上所述，本实施例提供的基于多模态机器学习的翻译方法，通过多模态图表示层对n个模态的源语言进行语义关联，构建语义关联图，在语义关联图中采用第一连接边连接同一模态的语义节点、且采用第二连接边连接不同模态的语义节点，以语义关联图充分的表示出多个模态的源语言之间的语义关联，继而通过多模态融合编码器对语义关联图中的特征向量进行充分的语义融合，得到编码后的编码特征向量，进而在对编码特征向量进行解码处理后得到更准确的目标语句，该目标语句与多模态的源语言综合表达的内容、情感、以及语言环境等更贴近。

该方法还通过d个解码模块采用目标语句的语言类反复对编码特征向量和第二隐层向量进行注意，以解码出更准确地目标语句。

还需要说明的是，将本申请提供的多模态机器翻译模型与以前的多模态神经机器翻译(Neural Machine Translation，NMT)进行测试比对，可以明显地看出本申请提供的多模态机器翻译模型的翻译效果最好。示例性的，以输入数据为图像和文本这两种源语言为例，对上述测试比对进行详细的说明如下：

本申请提供的多模态机器翻译模型是基于注意力的编解码框架构建的，以训练数据的对数似然最大化为目标函数。本质上，本申请提供的多模态融合编码器可以是看做一个多模态增强图神经网络(Graph Neural Network，GNN)。为了构建多模态融合编码器，将输入的图像和文本对应表示为一个多模态图(即语义关联图)；之后基于上述多模态图，叠加多个多模态融合层来学习节点(即语义节点)表示，为解码器提供了基于注意力的上下文向量。

一、对于多模态图的构建，形式上多模态图是无向的，可以形式化为G＝(V,E)。其中，在节点集V中，每个节点表示文本词语或视觉对象，在此将文本对应的节点称为语义节点，将视觉对象对应的节点称为视觉节点，且采用以下策略来构建节点之间的语义关联：

1、节点的提取；

(1)为了充分利用文本信息，将文本中所有单词作为单独的文本节点，例如，在图4中多模态图总共包括8个文本节点，每个文本节点对应于输入语句(即待翻译语句)中的一个单词；(2)使用斯坦福解析器(Stanford parser)来识别输入语句中的所有名词短语，然后应用视觉落地工具包来识别每个名词短语在输入图像(即待翻译图像)中对应的边界框(视觉对象)。之后，所有检测到的视觉对象都被作为独立的视觉节点，例如，在图4中文本节点Vx1和Vx2对应视觉节点Vo1和Vo2，文本节点Vx6、Vx7和Vx8对应视觉节点Vo3。

2、为了捕捉多模态语义单元之间的各种语义关联，采用了两种边缘(即连接边)来连接语义节点，边缘集E中的两种边缘包括：(1)同一模态中的任何两个语义节点都由一个模态内边缘(第一连接边)连接；(2)任何文本节点和相应的视觉节点都由一个模态间边缘(第二连接边)连接。示例性的，如图4，Vo1和Vo2之间采用模态内边缘(实线)来连接，Vo1和Vx1之间采用模态间边缘(实线)来连接。

二、对于嵌入层，在将多模态图输入到堆叠的多模态融合层之前，需要引入一个词嵌入层来初始化节点状态。对于每个文本节点Vxu，将其初始状态Hxu定义词嵌入和位置嵌入之和。对于视觉节点Vos的初始状态Hos，需要通过Faster-RCNN中兴趣区域化池(Region Of Interest pooling，ROI池)层的完全连接层(fully-connected layer)来提取视觉特征，然后使用以线性整流函数(Rectified Linear Unit,ReLU)作为激活函数的多层感知器将视觉特征投影到与文本表示相同的空间上。

其中，RCCN即是用于精确物体定位和语义分割的丰富特征层次结构(Rich feature hierarchies for accurate object detection and semantic segmentation)。

三、如图7，左边部分所示编码器，嵌入层402顶部堆栈了e层基于图的多模态融合层，以对上述多模态图进行编码。在多模态融合层中，依次进行模态内和模态间融合，以更新所有节点状态。这样，最终的节点状态同时编码了同一模态中的上下文信息和跨模态语义信息。特别是，由于视觉节点和文本节点是包含不同模式信息的两种语义单元，采用操作相似但参数不同的函数来建模节点的状态更新过程。

示例性的，在j个多模态融合层中，文本节点状态

和视觉节点状态

的更新主要涉及以下步骤：

步骤1：模态内融合。在这一步骤中，使用自注意力进行同一模态内的相邻节点之间的信息融合，以生成每个节点的上下文表示。形式上，所有文本节点的上下文表示

的计算公式如下：

其中，MultiHead(Q,K,V)是多重注意力机制建模函数(也叫做多头自注意力函数)，以查询矩阵Q、密钥矩阵K和值矩阵V作为输入。同样，所有视觉节点的上下文表示

的计算公式如下：

特别是，由于视觉对象的初始状态是由深度学习算法(deep CNNs)提取出来的，因此，应用一个简化的多头自注意力来表示视觉对象的初始状态，其中，删除已获取的线性项目值和最终输出。

步骤2：模态间融合。在多模态间进行特征融合时，采用一种具有元素操作特性的跨模态门控机制，来学习每个节点的跨模态邻域的语义信息。具体地，生成文本节点Vxu的状态表示

的方式如下：

其中，

是节点Vxu在多模态图中的邻居节点的集合；

和

是参数矩阵。同样，生成文本节点Vos的状态表示

的方式如下：

其中，

是节点Vos在多模态图中的邻居节点的集合；

和

是参数矩阵。

经过上述多模态融合过程后，采用前馈神经网络生成最终德尔隐层表示。文本节点状态

和图像节点状态

的计算过程为：

其中，

表示更新了全部的文本节点状态和图像节点状态。

四、对于解码器，类似于传统的变压器(Transformer)解码器。由于视觉信息已经通过多个基于图的多模态融合层被融入到所有文本节点中，允许解码器只关注文本节点状态，来动态地利用多模态上下文，即仅将文本节点状态输入至解码器中。

如图7右部分所示，叠加d个相同的层来生成目标侧隐藏状态，其中，每个层由三个子层组成。具体地，前两个子层分别是掩蔽自注意力Ej和编解码器注意力Tj，以集成目标和源语言侧上下文：

E ^(j)＝MultiHead(S ^j-1，S ^j-1，S ^j-1)；

其中，S(j-1)表示第j-1层中的目标侧隐藏状态。尤其是，S(0)是是输入的目标词语的嵌入向量，

解码器中顶层的隐藏状态。然后，一个位置方向的全连接前馈神经网络被用于生成S(j)，公式如下：

S ^(j)＝FFN(T ^(j))；

最后，利用softmax层定义生成目标语句的概率分布，该层以顶层的隐藏状态

为输入：

其中X为输入的待翻译语句，I为输入的待翻译图像，Y为目标语句(即翻译语句)，W和b为softmax层的参数。

在实验过程中，将英文翻译成法文与德文作为翻译任务，数据集采用Multi30K数据集，其中，数据集中每幅图像对应与英文描述、人为翻译出的德文和法文成对。训练、验证和测试集分别包含29000个、1014个和1000个实例。此外，还评估了WMT17测试集上的各种模型和模糊MSCOCO测试集，它们分别包含1000个和461个实例。本实验中，直接使用预处理的语句，通过字节对编码和10000个合并操作将单词分割为子单词。

视觉特征：首先采用斯坦福(Stanford)解析器从每个源语句中识别名词短语，然后使用视觉落地工具包，来检测识别的名词短语的相关视觉对象。对于每个短语，保持其对应的视觉对象的预测概率最高，以减少丰富的视觉对象的负面影响。在每个句子中，物体和单词的平均数量分别在3.5和15.0左右。最后，使用预先训练的ResNet-100Faster RCNN计算这些对象的2048维特征。

设置：使用变压器作为基础。由于训练语料库较小，训练后的模型倾向于过度拟合，首先进行一个小的网格搜索，以获得一组英译德验证集上的超参数。具体地，词嵌入维数和隐藏大小分别为128和256。解码器具有4层，注意力头数为4。辍学率设置为0.5。每批由大约2000个源代码符和目标令牌组成。应用具有预定学习率的Adam优化器来优化各种模型，且使用与之相同的其他设置。最后，使用双语评估替代(Bilingual EvaLuation Understudy，BLEU)指标和METEOR指标来评估翻译的质量。需要说明的是，在每个实验中对所有模型运行三次，并报告了平均结果。

基础模型：除了基于文本的变压器(TransFormer，TF)外，还利用了视觉特征，采用了几种有效的方法来进行变换，并将本申请实施例提供的模型与变压器进行了比较：

1、ObjectAsToken(TF)。它是变压器的一个变体，所有的视觉对象都被视为额外的源代码符，并放置在输入语句的前面。

2、Enc-att(TF)。变压器中采用了基于编码器的图像注意力机制，它增加了每个源注释与基于注意力的视觉特征向量。

3、Doubly-att(TF)。它是一个双注意力的变压器。在每个解码层中，在全连接的前馈层之前插入一个跨模态多头注意力子层，以基于视觉特征生成视觉上下文向量。

相应地，还展示了几种主要的多模态神经机器翻译(Neural Machine Translation，NMT)模型的性能，如Doubly-att(RNN)、Soft-att(RNN)、Stochastlc-att(RNN)、Fusion-conv(RNN)、Trg-mul(RNN)、VMM T(RNN)和Dellberation Network(TF)。其中，RNN是循环神经网络(Recurrent Neural Netword)。

多模态融合层的数目e是一项重要的超参数，直接决定了编码器中细粒度语义融合的程度。因此，首先检查它对英译德验证集的影响。图8示出了实验结果，在e为3时，模型达到了最佳的p形态。因此，在所有后续实验中使用e＝3。

表1

表1显示了英译德任务的主要结果。在METEOR上与Fusion-conv(RNN)和Trg-mul(RNN)进行比较，本申请实施例所提供的的模型性能优于大多数以前的模型。两组结果取决于WMT2017测试集上的系统状态，该WMT2017测试集是基于METEOR选择的。与基础模型进行比较，可以得出以下结论。

首先，本申请实施例提供的模型优于ObjectAsToken(TF)，该模型将区域视觉特征与文本连接起来，形成了可关注序列，并利用自注意力机制进行多模态融合。其基本原因包括两个方面：一是对不同模态的语义单元之间的语义对应关系进行了建模，二是对不同模态的模型参数进行了区分。

其次，本申请实施例提供的模型也显著优于Enc-att(TF)。其中，Enc-att(TF)可以被认为是单层语义融合编码器。除了语义对应关系建模的优点之外，还猜想多层多模态语义交互也有利于NMT。

第三，与单纯利用注意力机制提取视觉信息的Doubly-att(TF)相比，由于编码器中提供充分的多模态融合，本申请实施例提供的模型取得了显著的改进。

表2

此外，根据源句的长度和名词短语的数量将测试集分成不同的组，然后比较每组测试集下不同模型的性能。图9和图10显示了上述分组的BLEU分数。总的来说，本申请实施例提供的模型仍然在所有组中始终达到最佳的性能。因此，再次证实了本申请实施例提供的模型的有效性和通用性。需要注意的是，在短语较多的句子中，通常是长句，本申请实施例提供的模型相对于基础模型的改进更有意义。推测长句中往往含有较多的歧义词。因此，与短句相比，长句可能需要更好地利用视觉信息作为补充信息，这可以通过本申请实施例提供的模型的多模态语义交互来实现。

进一步地，还在表4中示出了本申请实施例提供的模型以及基础模型的训练和解码速度。在训练过程中，本申请实施例提供的模型每秒可以处理大约1.1K的令牌，这与其他多模态模型相当。当涉及到解码过程时，本申请实施例提供的模型每秒翻译大约16.7句，与变压器相比，速度略有下降。此外，本申请实施例提供的模型只引入了少量的额外参数，并获得了更好的性能。

表3

为了研究不同成分的有效性，进一步进行了实验，将本申请实施例提供的模型与表2中的以下变体进行了比较：

(1)模态间融合。在这个变体中，使用两个独立的变压器编码器分别学习单词和视觉对象的语义表示，然后使用双注意力解码器将文本和视觉上下文合并到解码器中。表2中第3行的结果表明，去除模态间融合会导致显著的性能下降。这表明多模态语义单元之间的语义交互对于多模态表示学习确实是有用的。

(2)视觉落地到全连接。将单词和视觉对象完全连接起来，建立模态间的对应关系。表2中第4行的结果表明，这一变化导致了显著的性能下降。其根本原因是完全连接的语义对应给本申请实施例提供的模型带来了很大的噪声。

(3)不同参数到统一参数。在构造此变体时，分配统一参数来更新不同模式下的节点状态。显然，表2中第5行报告的性能下降也证明了使用不同参数的方法的有效性。

(4)注意视觉节点。与只考虑文本节点的模型不同，允许这个变体的解码器使用双注意力解码器来考虑这两种类型的节点。从表2中第6行的结果，可以观察到，考虑所有节点并没有带来进一步的改进。上述结果证实了先前的假设，即视觉信息已经完全纳入编码器中的文本节点。

(5)注意文本节点与注意视觉节点。然而，当只考虑视觉节点时，模型性能急剧下降，如表2中第7行所示。这是因为视觉节点的数量远远少于文本节点，而文本节点无法产生足够的翻译上下文。

示例性的，还在英译法数据集上进行实验。从表3上看，与所有以前的模型相比，本申请实施例提供的模型仍然取得了更好的性能，这再次证明了在多模态NMT中本申请实施例提供的模型对不同的语言对是有效的和通用的。

在表2中，与相关的多模态NMT系统和本申请实施例提供的多模态NMT系统中提供机器翻译模型进行比对，通过BLEU和METEOR指标可以明显地看出对于英法之间的翻译，本申请提供的机器翻译模型也取得了较好的效果，4个指标值有三个均是最高值(加粗的数字)。

表4

请参考图11，示出了本申请一个示例性实施例提供的基于多模态机器学习的翻译装置，该装置通过软件、硬件或者二者结合成为计算机设备的部分或者全部，该装置包括：

语义关联模块501，用于基于属于不同模态的n个源语句，获取语义关联图，所述语义关联图包括n种不同模态的语义节点、用于连接同一模态的语义节点的第一连接边，以及用于连接不同模态的语义节点的第二连接边，所述语义节点用于表示一种模态下所述源语句的一个语义单元，n为大于1的正整数。

可选地，用于通过多模态图表示层对n个模态的源语言进行语义关联，构建语义关联图，语义关联图包括n种不同模态的语义节点，用于连接同一模态的语义节点的第一连接边，以及用于连接不同模态的语义节点的第二连接边，n为大于1的正整数；

特征提取模块502，用于从所述语义关联图中，提取出多个第一词向量，可选地，通过第一词向量层从语义关联图中提取出第一词向量；

向量编码模块503，用于对所述多个第一词向量进行编码，得到n个编码特征向量，可选地，通过多模态融合编码器对第一词向量进行编码，得到编码特征向量；

向量解码模块504，用于对所述n个编码特征向量进行解码，得到翻译后的目标语句，可选地，调用解码器对编码特征向量进行解码处理，得到翻译后的目标语句。

在一些可选实施例中，语义关联模块501，用于获取n组语义节点，一组语义节点对应于一个模态的源语句；在同一模态的任两个所述语义节点之间添加所述第一连接边，在不同模态的任两个所述语义节点之间添加所述第二连接边，得到所述语义关联图。可选地，语义关联模块501，用于通过多模态图表示层从每一个模态的源语言中提取语义节点，得到n个模态的源语言对应的n组语义节点；通过多模态图表示层采用第一连接边对n组语义节点进行同一模态内的语义节点之间的连接，且采用第二连接边对n组语义节点进行不同模态间的语义节点之间的连接，得到语义关联图。

在一些可选实施例中，n个模态的源语言中包括文本形式的第一源语言和非文本形式的第二源语言，n组语义节点包括第一语义节点和第二语义节点；

语义关联模块501，用于获取所述第一语义节点，所述第一语义节点由多模态图表示层对所述第一源语句进行处理得到；获取候选语义节点，所述候选语义节点由多模态图表示层对所述第二源语句进行处理得到；获取所述候选语义节点的第一概率分布，所述第一概率分布由所述多模态图表示层按照所述第一语义节点与所述候选语义节点之间的语义关联进行计算得到；从所述候选语义节点中，确定出所述第二语义节点，所述第二语义节点由所述多模态图表示层根据所述第一概率分布确定。

可选地，语义关联模块501，用于通过多模态图表示层从第一源语句中提取出第一语义节点，且从第二源语言中提取出候选语义节点；调用多模态图表示层按照第一语义节点与候选语义节点之间的语义关联计算候选语义节点的第一概率分布；调用多模态图表示层根据第一概率分布从候选语义节点中确定出第二语义节点。

在一些可选实施例中，语义关联模块501，用于在第i组语义节点中将同一模态内的任两个语义节点之间添加第i种第一连接边，所述第i种第一连接边对应于第i个模态，i是小于或等于n的正整数。

可选地，语义关联模块501，用于通过多模态图表示层确定出第i个模态对应的第i种第一连接边，采用第i种第一连接边对第i组语义节点进行同一模态内的语义节点之间的连接，i是小于或等于n的正整数。

在一些可选实施例中，向量编码模块503，用于对所述多个第一词向量进行e次模态内融合和模态间融合，得到所述n个编码特征向量，其中，所述模态内融合是指在同一模态内的所述第一词向量之间进行语义融合，所述模态间融合是指在不同模态的所述第一词向量之间进行语义融合，其中，e为正整数。

可选地，多模态融合编码器包括e个串联的编码模块，e为正整数；

向量编码模块503，用于通过e个串联的编码模块对第一词向量进行e次模态内融合和模态间融合，得到编码特征向量，其中，所述模态内融合是指在同一模态内的所述第一词向量之间进行语义融合，所述模态间融合是指在不同模态的所述第一词向量之间进行语义融合；

在一些可选实施例中，每一个编码模块均包括与n个模态一一对应的n个模态内融合层和n个模态间融合层；

向量编码模块503，用于将第一词向量分别输入第1个编码模块中的n个模态内融合层，由n个模态内融合层分别对第一词向量进行相同模态内部的语义融合，得到n个第一隐层向量，一个所述第一隐层向量对应于一个模态，也即是，得到与n个模态一一对应的n个第一隐层向量；

将n个第一隐层向量输入第1个编码模块中的每一个模态间融合层，由每一个模态间融合层对n个第一隐层向量进行不同模态间的语义融合，得到n个第一中间向量，一个所述中间向量对于一个模态，也即是，得到与n个模态一一对应的n个第一中间向量；

将n个第一中间向量输入第j个编码模块中进行第j次编码处理，直至最后一个编码模块输出n个编码特征向量，一个所述编码特征向量与一个模态对应，也即是，直至最后一个编码模块输出与n个模态一一对应的n个编码特征向量，j为大于1且小于等于e的正整数。

在一些可选实施例中，每一个编码模块还包括：n个第一向量转换层，所述一个向量转换层对应于一个模态，也即是，与n个模态一一对应的n个第一向量转换层；

向量编码模块503，还用于将n个第一中间向量分别输入所属模态对应的n个第一向量转换层中进行非线性转换，得到非线性转换后的n个第一中间向量。

在一些可选实施例中，e个串联的编码模块中每一个编码模块中的层级结构相同。

在一些可选实施例中，向量解码模块504，用于对第一目标词语进行特征提取，得到第二词向量，所述第一目标词语是所述目标语句中的已翻译词语；将所述第二词向量结合所述编码特征向量进行特征提取，得到解码特征向量；确定所述解码特征向量对应的概率分布，且根据所述概率分布，确定出所述第一目标词语之后的第二目标词语。

可选地，解码器包括d个串联的解码模块，d为正整数；

向量解码模块504，用于通过第二词向量层获取第一目标词语，第一目标词语是目标语句中的已翻译词语；通过第二词向量层对第一目标词语进行特征提取，得到第二词向量；

通过d个串联的解码模块将第二词向量结合编码特征向量进行特征提取，得到解码特征向量；将解码特征向量输入分类器，通过分类器计算解码特征向量对应的概率分布，且根据概率分布确定出第一目标词语之后的第二目标词语。

在一些可选实施例中，d个串联的解码模块中每一个解码模块均包括第一自注意力层和第二自注意力层；

向量解码模块504，用于将第二词向量输入第1个解码模块中第一自注意力层，由第一自注意力层对第二词向量进行特征提取，得到第二隐层向量；

将第二隐层向量和编码特征向量输入第1个解码模块中第二自注意力层，由第二自注意力层结合第二隐层向量和编码特征向量进行特征提取，得到第二中间向量；

将第二中间向量输入第k个解码模块中进行第k次解码处理，直至最后一个解码模块输出解码特征向量，k为大于1且小于等于d的正整数。

在一些可选实施例中，每一个解码模块还包括：第二向量转换层；

向量解码模块504，还用于将第二中间向量输入第二向量转换层中进行非线性转换，得到非线性转换后的第二中间向量。

综上所述，本实施例提供的基于多模态机器学习的翻译装置，通过多模态图表示层对n个模态的源语言进行语义关联，构建语义关联图，在语义关联图中采用第一连接边连接同一模态的语义节点、且采用第二连接边连接不同模态的语义节点，以语义关联图充分的表示出多个模态的源语言之间的语义关联，继而通过多模态融合编码器对语义关联图中的特征向量进行充分的语义融合，得到编码后的编码特征向量，进而在对编码特征向量进行解码处理后得到更准确的目标语句，该目标语句与多模态的源语言综合表达的内容、情感、以及语言环境等更贴近。

请参考图12，示出了本申请一个实施例提供的服务器的结构示意图。该服务器用于实施上述实施例中提供的基于多模态机器学习的翻译方法的步骤。具体来讲：

所述服务器600包括CPU(Central Processing Unit，中央处理器)601、包括RAM(Random Access Memory，随机存取存储器)602和ROM(Read-Only Memory，只读存储器)603的系统存储器604，以及连接系统存储器604和中央处理单元601的系统总线605。所述服务器600还包括帮助计算机内的各个器件之间传输信息的基本I/O(Input/Output，输入/输出)系统606，和用于存储操作系统613、应用程序614和其他程序模块615的大容量存储设备607。

所述基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中所述显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。所述基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。所述大容量存储设备607及其相关联的计算机可读介质为服务器600提供非易失性存储。也就是说，所述大容量存储设备607可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory，只读光盘)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read-Only Memory，可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory，电可擦可编程只读存储器)、闪存(Flash Memory)或其他固态存储其技术，CD-ROM、DVD(Digital Versatile Disc，数字通用光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。

根据本申请的各种实施例，所述服务器600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器600可以通过连接在所述系统总线605上的网络接口单元611连接到网络612，或者说，也可以使用网络接口单元611来连接到其他类型的网络或远程计算机系统(未示出)。

在示例性实施例中，还提供了一种包括计算机可读存储介质，例如包括指令的存储器602，上述指令可由服务器600的处理器601执行以完成上述基于多模态机器学习的翻译方法。可选的，计算机可读存储介质可以是非临时性存储介质，例如，所述非临时性存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，包括计算机程序，该计算机程序可以由电子设备的处理器执行，以实现上述基于多模态机器学习的翻译方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种基于多模态机器学习的翻译方法，由计算机设备执行，其中，所述方法包括：

基于属于不同模态的n个源语句，获取语义关联图，所述语义关联图包括n种不同模态的语义节点、用于连接同一模态的语义节点的第一连接边，以及用于连接不同模态的语义节点的第二连接边，所述语义节点用于表示一种模态下所述源语句的一个语义单元，n为大于1的正整数；

从所述语义关联图中，提取出多个第一词向量；

对所述多个第一词向量进行编码，得到n个编码特征向量；

对所述n个编码特征向量进行解码，得到翻译后的目标语句。
根据权利要求1所述的方法，其中，所述基于属于不同模态的n个源语句，获取语义关联图，包括：

获取n组语义节点，一组语义节点对应于一个模态的源语句；

在同一模态的任两个所述语义节点之间添加所述第一连接边，在不同模态的任两个所述语义节点之间添加所述第二连接边，得到所述语义关联图。
根据权利要求2所述的方法，其中，所述n个模态的源语句中包括文本形式的第一源语句和非文本形式的第二源语句，所述n组语义节点包括第一语义节点和第二语义节点；

所述获取n组语义节点，包括：

获取所述第一语义节点，所述第一语义节点由多模态图表示层对所述第一源语句进行处理得到；

获取候选语义节点，所述候选语义节点由多模态图表示层对所述第二源语句进行处理得到；

获取所述候选语义节点的第一概率分布，所述第一概率分布由所述多模态图表示层按照所述第一语义节点与所述候选语义节点之间的语义关联进行计算得到；

从所述候选语义节点中，确定出所述第二语义节点，所述第二语义节点由所述多模态图表示层根据所述第一概率分布确定。
根据权利要求2所述的方法，其中，所述在同一模态的任两个所述语义节点之间添加所述第一连接边，包括：

在第i组语义节点中将同一模态内的任两个语义节点之间添加第i种第一连接边，所述第i种第一连接边对应于第i个模态，i是小于或等于n的正整数。
根据权利要求1至4任一所述的方法，其中，所述对所述多个第一词向量进行编码，得到n个编码特征向量，包括：

对所述多个第一词向量进行e次模态内融合和模态间融合，得到所述n个编码特征向量，其中，所述模态内融合是指在同一模态内的所述第一词向量之间进行语义融合，所述模态间融合是指在不同模态的所述第一词向量之间进行语义融合，其中，e为正整数。
根据权利要求5所述的方法，其中，多模态融合编码器包括e个串联的编码模块；

每一个所述编码模块均包括与n个模态一一对应的n个模态内融合层和n个模态间融合层；

所述对所述多个第一词向量进行e次模态内融合和模态间融合，得到所述n个编码特征向量，包括：

将所述多个第一词向量分别输入第1个所述编码模块中的n个模态内融合层，由所述n个模态内融合层，分别对所述多个第一词向量进行相同模态内部的语义融合，得到n个第一隐层向量，一个所述第一隐层向量对应于一个模态；

将所述n个第一隐层向量输入所述第1个编码模块中的每一个模态间融合层，由所述每一个模态间融合层对所述n个第一隐层向量进行不同模态间的语义融合，得到n个第一中间向量，一个所述中间向量对于一个模态；

将所述n个第一中间向量输入第j个编码模块中进行第j次编码处理，直至最后一个编码模块输出n个编码特征向量，一个所述编码特征向量与一个模态对应，j为大于1且小于等于e的正整数。
根据权利要求6所述的方法，其中，所述每一个编码模块还包括：n个第一向量转换层，所述一个向量转换层对应于一个模态；

所述方法还包括：

将所述n个第一中间向量分别输入所属模态对应的所述n个第一向量转换层中进行非线性转换，得到非线性转换后的n个第一中间向量。
根据权利要求6所述的方法，其中，所述e个串联的编码模块中所述每一个编码模块中的层级结构相同。
根据权利要求6所述的方法，其中，不同的所述模态内融合层中设置有不同或者相同的自注意力函数，且不同的所述模态间融合层中设置有不同或者相同的特征融合函数。
根据权利要求1至4任一所述的方法，其中，所述对所述n个编码特征向量进行解码，得到翻译后的目标语句，包括：

对第一目标词语进行特征提取，得到第二词向量，所述第一目标词语是所述目标语句中的已翻译词语；

将所述第二词向量结合所述编码特征向量进行特征提取，得到解码特征向量；

确定所述解码特征向量对应的概率分布，且根据所述概率分布，确定出所述第一目标词语之后的第二目标词语。
根据权利要求10所述的方法，其中，解码器包括d个串联的解码模块，d为正整数，所述d个串联的解码模块中每一个解码模块均包括第一自注意力层和第二自注意力层；

所述将所述第二词向量结合所述编码特征向量进行特征提取，得到解码特征向量，包括：

将所述第二词向量输入第1个解码模块中第一自注意力层，由所述第一自注意力层对所述第二词向量进行特征提取，得到第二隐层向量；

将所述第二隐层向量和所述编码特征向量输入所述第1个解码模块中第二自注意力层，由所述第二自注意力层结合所述第二隐层向量和所述编码特征向量进行特征提取，得到第二中间向量；

将所述第二中间向量输入第k个解码模块中进行第k次解码处理，直至最后一个解码模块输出所述解码特征向量，k为大于1且小于等于d的正整数。
根据权利要求11所述的方法，其中，所述每一个解码模块还包括：第二向量转换层；

所述方法还包括：

将所述第二中间向量输入所述第二向量转换层中进行非线性转换，得到非线性转换后的第二中间向量。
一种基于多模态机器学习的翻译装置，其中，所述装置包括：

语义关联模块，用于基于属于不同模态的n个源语句，构建语义关联图，所述语义关联图包括n种不同模态的语义节点、用于连接同一模态的语义节点的第一连接边，以及用于连接不同模态的语义节点的第二连接边，所述语义节点用于表示一种模态下所述源语句的一个语义单元，n为大于1的正整数；

特征提取模块，用于从所述语义关联图中，提取出多个第一词向量；

向量编码模块，用于对所述多个第一词向量进行编码，得到n个编码特征向量；

向量解码模块，用于对所述编码特征向量进行解码，得到翻译后的目标语句。
一种计算机设备，其中，所述计算机设备包括：

存储器；

与所述存储器相连的处理器；

其中，所述处理器被配置为加载并执行可执行指令以实现如权利要求1至12任一所述的基于多模态机器学习的翻译方法。
一种计算机可读存储介质，其中，所述计算机可读存储介质中存储有至少一段程序；所述至少一段程序由处理器加载并执行以实现如权利要求1至12任一所述的基于多模态机器学习的翻译方法。