WO2023016163A1

WO2023016163A1 - 文字识别模型的训练方法、识别文字的方法和装置

Info

Publication number: WO2023016163A1
Application number: PCT/CN2022/104891
Authority: WO
Inventors: 王晓燕; 吕鹏原; 范森; 章成全; 姚锟
Original assignee: 北京百度网讯科技有限公司
Priority date: 2021-08-13
Filing date: 2022-07-11
Publication date: 2023-02-16
Also published as: CN113657391A

Abstract

本公开提供了一种文字识别模型的训练方法、识别文字的方法、装置、设备、存储介质以及程序产品，涉及人工智能技术领域，具体涉及计算机视觉和深度学习技术领域，可应用于OCR光学字符识别等场景。具体实现方案为：根据多个单语种语料，确定多个第一样本图片以及所述多个第一样本图片的内容标签和语种标签；根据多个混合语种语料，确定多个第二样本图片以及所述多个第二样本图片的内容标签和语种标签；以及根据所述多个第一样本图片、所述多个第一样本图片的内容标签和语种标签、所述多个第二样本图片以及所述多个第二样本图片的内容标签和语种标签，对文字识别模型进行训练。

Description

文字识别模型的训练方法、识别文字的方法和装置

本申请要求于2021年8月13日提交的、申请号为202110934328.0的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本公开涉及人工智能技术领域，具体涉及计算机视觉和深度学习技术领域，可应用于OCR光学字符识别等场景。

背景技术

在生活中有很多文档、图片、视频等文件中包含多个语种的语言。例如文档、图片、视频等文件中除了汉语外，还包括英语、西班牙语、葡萄牙语、俄语、波兰语等多国语言文字。识别出文件中的多国语言文字的内容，输出相应的语种类别，是抽取各个语种文字信息和翻译的前提。该识别过程对信息审核、文化传递、商务交流等都具有重要意义。

发明内容

本公开提供了一种文字识别模型的训练方法、识别文字的方法、装置、设备、存储介质以及程序产品。

根据本公开的一方面，提供了一种文字识别模型的训练方法，包括：根据多个单语种语料，确定多个第一样本图片以及多个第一样本图片的内容标签和语种标签；根据多个混合语种语料，确定多个第二样本图片以及多个第二样本图片的内容标签和语种标签；以及根据多个第一样本图片、多个第一样本图片的内容标签和语种标签、多个第二样本图片以及多个第二样本图片的内容标签和语种标签，对文字识别模型进行训练。

根据本公开的另一方面，提供了一种识别文字的方法，包括：获取包含文字信息的待识别图片；将待识别图片输入文字识别模型，得到待识别图片的内容识别结果和语种识别结果，其中，内容识别结果用于表示待识别图片中包含的文字信息，语种识别结果用于表示文字信息所对应的语种，其中，文字识别模型是根据本公开实施例的方法训练的。

根据本公开的另一方面，提供了一种文字识别模型的训练装置，包括：第一确定模块，用于根据多个单语种语料，确定多个第一样本图片以及多个第一样本图片的内容标签和语种标签；第二确定模块，用于根据多个混合语种语料，确定多个第二样本图片以及多个第二样本图片的内容标签和语种标签；以及训练模块，用于根据多个第一样本图片、多个第一样本图片的内容标签和语种标签、多个第二样本图片以及多个第二样本图片的内容标签和语种标签，对文字识别模型进行训练。

根据本公开的另一方面，提供了一种识别文字的装置，包括：获取模块，用于获取包含文字信息的待识别图片；输入模块，用于将待识别图片输入文字识别模型，得到待识别图片的内容识别结果和语种识别结果，其中，内容识别结果用于表示待识别图片中包含的文字信息，语种识别结果用于表示文字信息所对应的语种，其中，文字识别模型是根据本公开实施例的装置训练的。

本公开的另一个方面提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开实施例所示的方法。

根据本公开实施例的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开实施例所示的方法。

根据本公开实施例的另一方面，提供了一种计算机程序产品，计算机程序，计算机程序在被处理器执行时实现本公开实施例所示的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的文字识别模型的训练方法的流程图；

图2是根据本公开实施例的文字识别模型的示意图；

图3是根据本公开实施例的对文字识别模型进行训练的方法的流程图；

图4示意性示出了根据本公开的实施例的对文字识别模型进行训练的方法的示意图；

图5示意性示出了根据本公开的实施例的识别文字的方法的流程图；

图6示意性示出了根据本公开的实施例的识别文字的方法的示意图；

图7示意性示出了根据本公开实施例的文字识别模型的训练装置的框图；

图8示意性示出了根据本公开实施例的识别文字的装置的框图；以及

图9示意性示出了可以用来实施本公开的实施例的示例电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本公开实施例的文字识别模型的训练方法的流程图。

如图1所示，该方法100包括在操作S110，根据多个单语种语料，确定多个第一样本图片以及多个第一样本图片的内容标签和语种标签。

然后，在操作S120，根据多个混合语种语料，确定多个第二样本图片以及多个第二样本图片的内容标签和语种标签。

在操作S130，根据多个第一样本图片、多个第一样本图片的内容标签和语种标签、多个第二样本图片以及多个第二样本图片的内容标签和语种标签，对文字识别模型进行训练。

根据本公开的实施例，文字识别模型可以用于确定输入图片的内容识别结果和语种识别结果。其中，内容识别结果可以用于表示输入图片中包含的文字信息，语种识别结果可以用于表示文字信息所对应的语种。

根据本公开的实施例，经训练的文字识别模型可以在识别图片中包含的文字的同时自动输出这些文字所对应的语种。

相关技术从现实场景中可以搜集到的不同语种的图片，并进行标注，作为样本图片用于模型训练。但是从现实场景中可以搜集到的不同语种的图片数量有限，且标注难度高。

根据本公开的实施例，除现实场景中搜集到的不同语种的图片外，还可以收集各个语种的文本语料，根据这些语料合成大量带文字的图片用于模型训练。

根据本公开的实施例，例如可以针对包含混合语种的文本，根据预定语种的字符集(也称字典)过滤该文本中不需要的语种。然后将过滤后的文本的每一行作为一个语料。

基于此，根据本公开的实施例，可以针对多个单语种语料中的每个单语种语料，生成包含单语种语料的图片，作为第一样本图片。然后根据单语种语料的文本内容，确定第一样本图片的内容标签。根据单语种语料的语种，确定第一样本图片的语种标签。

根据本公开的实施例，可以对多个语种的原始语料进行混合拼接处理，将多个语种的语料拼接成的一个文本，得到多个混合语料。然后针对多个混合语种语料中的每个混合语种语料，生成包含混合语种语料的图片，作为第二样本图片。根据混合语种语料的文本内容，确定第二样本图片的内容标签。根据混合语种语料的语种，确定第二样本图片的语种标签。示例性地，混合语种语料的语种标签可以为混合语种语料中字数最多的语种。在混合语种语料中有多个语种的字数并列最多的情况下，可以确定该多个语种中任意一个作为混合语种语料的语种标签。

根据本公开的另一些实施例，输入文字识别模型的图片可能大小不一，从而影响识别精度。为此，可以在图片输入文字模型前，将图片的大小调整到预设范围之间。示例性地，本实施例中，可以将图片竖直方向的高调整到32像素至48像素之间，相应地，将图片水平方向的宽按照图片原有比例等比缩放。另外，还可以限定图片的宽最长不超过512像素。

下面参考图2，结合具体实施例对上文所示的文字识别模型做进一步说明。本领域技术人员可以理解，以下示例实施例仅用于理解本公开，本公开并不局限于此。

图2是根据本公开实施例的文字识别模型的示意图。

如图2所示，文字识别模型可以包括第一卷积神经网络(CNN)210、循环神经网络(Recurrent Neural Network，RNN)220、联结时序分类网络(Connectionist Temporal Classification，CTC)230和第二卷积神经网络240。

根据本公开的实施例，第一卷积神经网络210可以用于对输入文字识别模型的图片21进行特征提取，得到该图片的特征向量22。该特征向量22中的特征以时间步(time step)排序。循环神经网络220可以用于根据第一卷积神经网络210提取的特征向量22进一步提取序列特征。联结时序分类网络230可以用于根据循环神经网络提取的序列特征，确定针对该图片的内容识别结果23。另外，可以根据特征向量22确定多元特征向量(N-gram)24，第二卷积神经网络240可以用于根据该多元特征向量24确定语种识别结果25。

根据本公开实施例的文字识别模型中模型的个数较少，从而减少了计算资源，简化了系统流程。

下面参考图3，结合具体实施例对上文所示的对文字识别模型进行训练的方法做进一步说明。本领域技术人员可以理解，以下示例实施例仅用于理解本公开，本公开并不局限于此。

图3是根据本公开实施例的对文字识别模型进行训练的方法的流程图。

如图3所示，该方法330包括在操作S331，获取多个第一样本图片和多个第二样本图片中的一个样本图片。

在操作S332，使用文字识别模型来确定样本图片的内容识别结果和语种识别结果。

在操作S333，根据内容识别结果和样本图片的内容标签，确定第一损失，并根据语种识别结果和样本图片的语种标签，确定第二损失。

根据本公开的实施例，例如可以根据第一损失函数确定内容识别结果和样本图片的内容标签之间的损失(loss)，即第一损失。可以根据第二损失函数确定语种识别结果和样本图片的语种标签之间的损失，即第二损失。需要说明的是，第一损失函数和第二损失函数可以相同也可以不同。

在操作S334，根据第一损失和第二损失，确定总损失。

根据本公开的实施，可以将第一损失和第二损失加权相加，得到总损失。其中，第一损失和第二损失的权重可以按照实际需要来确定。示例性地，本实施例中，第二损失的权重可以低于第一损失的权重。

在操作S335，根据总损失，调整文字识别模型的参数。

在操作S336，获取多个第一样本图片和多个第二样本图片中的另一个样本图片，并跳转执行操作S332，以使用文字识别模型来确定该另一个样本图片的内容识别结果和语种识别结果。

下面参考图4，结合具体实施例对上文所示的对文字识别模型进行训练的方法做进一步说明。本领域技术人员可以理解，以下示例实施例仅用于理解本公开，本公开并不局限于此。

图4示意性示出了根据本公开的实施例的对文字识别模型进行训练的方法的示意图。

在图4中示出了，在对文字识别模型进行训练的过程中，可以使用第一卷积神经网络410确定样本图片41的特征向量42。然后基于该特征向量42，以两个分支分别进行文字识别和语种分类。在文字识别所对应的分支，可以使用循环神经网络420，根据特征向量42来确定序列特征，并使用联结时序分类网络430，根据序列特征来确定内容识别结果43。另一方面，在语种分类所对应的分支，可以根据特征向量42，确定N-gram特征向量44，并使用第二卷积神经网络440，根据N-gram特征向量来确定语种识别结果45。

接下来，可以根据内容识别结果43和样本图片41的内容标签，确定第一损失46，并根据语种识别结果45和样本图片41的语种标签，确定第二损失47。然后根据第一损失46和第二损失47，确定总损失48。根据总损失48，调整文字识别模型的参数，即实现误差返传。

根据本公开的实施例，通过使多语种的文字识别和语种分类两个分支共享底层的特征向量，同时进行前向计算和误差反传。两者互补学习，可以提升泛化效果。

另外，语种类别有助于区分形近字符，提高语种字符识别精度，比如英文字符n和俄语字符й；反之，语种文字中的特有字符，也有助于分类语种类别，比如й出现在俄语、乌克兰语等语种中。根据本公开实施例的文字识别模型通过提取图片卷积特征向量的n-gram特征向量，利用了相邻字符之间的语义相关性，可以进一步提高语种分类精度。

图5示意性示出了根据本公开的实施例的识别文字的方法的流程图。

如图5所示，该方法包括在操作S510，获取包含文字信息的待识别图片。

然后，在操作S520，将待识别图片输入文字识别模型，得到待识别图片的内容识别结果和语种识别结果。

根据本公开的实施例，文字识别模型例如可以根据上文所示的文字识别模型的训练方法进行训练得到。文字识别模型的输出可以包括内容识别结果和语种识别结果。其中，内容识别结果可以用于表示待识别图片中包含的文字信息，语种识别结果可以用于表示文字信息所对应的语种。

下面参考图6，结合具体实施例对上文所示的识别文字的方法做进一步说明。本领域技术人员可以理解，以下示例实施例仅用于理解本公开，本公开并不局限于此。

图6示意性示出了根据本公开的实施例的识别文字的方法的示意图。

在图6中示出了，根据本公开的实施例，文字识别模型可以包括第一卷积神经网络CNN、循环神经网络、联结时序分类网络和第二卷积神经网络。基于此，可以使用第一卷积神经网络610确定待识别图片61的特征向量62。然后可以使用循环神经网络620，根据特征向量62来确定序列特征，并使用联结时序分类网络630，根据序列特征来确定针对待识别图片61的内容识别结果63。另一方面，可以根据特征向量62，确定N-gram特征向量64，并使用第二卷积神经网络640，根据N-gram特征向量64来确定针对待识别图片61的语种识别结果65。

图7示意性示出了根据本公开实施例的文字识别模型的训练装置的框图。

如图7所示，该文字识别模型的训练装置700可以包括第一确定模块710、第二确定模块720和训练模块730。

第一确定模块710，可以用于根据多个单语种语料，确定多个第一样本图片以及多个第一样本图片的内容标签和语种标签。

第二确定模块720，可以用于根据多个混合语种语料，确定多个第二样本图片以及多个第二样本图片的内容标签和语种标签。

训练模块730，可以用于根据多个第一样本图片、多个第一样本图片的内容标签和语种标签、多个第二样本图片以及多个第二样本图片的内容标签和语种标签，对文字识别模型进行训练。

根据本公开的实施例，第一确定模块可以包括第一生成子模块、第一内容标签确定子模块和第一语种标签确定子模块。其中，第一生成子模块，可以用于针对多个单语种语料中的每个单语种语料，生成包含单语种语料的图片，作为第一样本图片。第一内容标签确定子模块，可以用于根据单语种语料的文本内容，确定第一样本图片的内容标签。第一语种标签确定子模块，可以用于根据单语种语料的语种，确定第一样本图片的语种标签。

根据本公开的实施例，上述装置还可以包括拼接模块，可以用于对多个语种的原始语料进行混合拼接处理，得到多个混合语料。

根据本公开的实施例，第二确定模块可以包括第二生成子模块、第二内容标签确定子模块和第二语种标签确定子模块。其中，第二生成子模块，可以用于针对多个混合语种语料中的每个混合语种语料，生成包含混合语种语料的图片，作为第二样本图片。第二内容标签确定子模块，可以用于根据混合语种语料的文本内容，确定第二样本图片的内容标签。第二语种标签确定子模块，可以用于根据混合语种语料的语种，确定第二样本图片的语种标签。

根据本公开的实施例，训练模块可以包括识别子模块、第一损失确定子模块、第二损失确定子模块和调整子模块。其中，识别子模块，可以用于使用文字识别模型来确定多个第一样本图片和多个第二样本图片中的一个样本图片的内容识别结果和语种识别结果。第一损失确定子模块，可以用于根据内容识别结果和样本图片的内容标签，确定第一损失，并根据语种识别结果和样本图片的语种标签，确定第二损失。第二损失确定子模块，可以用于根据第一损失和第二损失，确定总损失。调整子模块，可以用于根据总损失，调整文字识别模型的参数，并针对多个第一样本图片和多个第二样本图片中的另一个样本图片返回使用文字识别模型来确定内容识别结果和语种识别结果的步骤。

根据本公开的实施例，文字识别模型可以包括第一卷积神经网络、循环神经网络、联结时序分类网络和第二卷积神经网络。

根据本公开的实施例，识别子模块，包括特征向量确定单元、内容识别单元和语种识别单元。其中，特征向量确定单元，可以用于使用第一卷积神经网络确定样本图片的特征向量。内容识别单元，可以用于使用循环神经网络，根据特征向量来确定序列特征，并使用联结时序分类网络，根据序列特征来确定内容识别结果。语种识别单元，可以用于根据特征向量，确定多元特征向量，并使用第二卷积神经网络，根据多元特征向量来确定语种识别结果。

图8示意性示出了根据本公开实施例的识别文字的装置的框图。

如图8所示，该识别文字的装置800可以包括获取模块810和输入模块820。

获取模块810，可以用于获取包含文字信息的待识别图片；

输入模块820，可以用于将待识别图片输入文字识别模型，得到待识别图片的内容识别结果和语种识别结果，其中，内容识别结果用于表示待识别图片中包含的文字信息，语种识别结果用于表示文字信息所对应的语种。

根据本公开的实施例，文字识别模型是上文的文字识别模型的训练装置训练的。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示意性示出了可以用来实施本公开的实施例的示例电子设备900的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900 操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如文字识别模型的训练方法和识别文字的方法。例如，在一些实施例中，文字识别模型的训练方法和识别文字的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的文字识别模型的训练方法和识别文字的方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文字识别模型的训练方法和识别文字的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

一种文字识别模型的训练方法，包括：

根据多个单语种语料，确定多个第一样本图片以及所述多个第一样本图片的内容标签和语种标签；

根据多个混合语种语料，确定多个第二样本图片以及所述多个第二样本图片的内容标签和语种标签；以及

根据所述多个第一样本图片、所述多个第一样本图片的内容标签和语种标签、所述多个第二样本图片以及所述多个第二样本图片的内容标签和语种标签，对文字识别模型进行训练。
根据权利要求1所述的方法，其中，所述根据多个单语种语料，确定多个第一样本图片以及所述多个第一样本图片的内容标签和语种标签，包括：

针对所述多个单语种语料中的每个单语种语料，

生成包含所述单语种语料的图片，作为所述第一样本图片；

根据所述单语种语料的文本内容，确定所述第一样本图片的内容标签；以及

根据所述单语种语料的语种，确定所述第一样本图片的语种标签。
根据权利要求1所述的方法，还包括：

对多个语种的原始语料进行混合拼接处理，得到所述多个混合语料。
根据权利要求3所述的方法，其中，所述根据多个混合语种语料，确定多个第二样本图片以及所述多个第二样本图片的内容标签和语种标签，包括：

针对所述多个混合语种语料中的每个混合语种语料，

生成包含所述混合语种语料的图片，作为所述第二样本图片；

根据所述混合语种语料的文本内容，确定所述第二样本图片的内容标签；以及

根据所述混合语种语料的语种，确定所述第二样本图片的语种标签。
根据权利要求1所述的方法，其中，所述根据所述多个第一样本图片、所述多个第一样本图片的内容标签和语种标签、所述多个第二样本图片以及所述多个第二样本图片的内容标签和语种标签，对文字识别模型进行训练，包括：

使用所述文字识别模型来确定所述多个第一样本图片和所述多个第二样本图片中的一个样本图片的内容识别结果和语种识别结果；

根据所述内容识别结果和所述样本图片的内容标签，确定第一损失，并根据所述语种识别结果和所述样本图片的语种标签，确定第二损失；

根据所述第一损失和所述第二损失，确定总损失；以及

根据所述总损失，调整所述文字识别模型的参数，并针对所述多个第一样本图片和所述多个第二样本图片中的另一个样本图片返回使用所述文字识别模型来确定内容识别结果和语种识别结果的步骤。
根据权利要求5所述的方法，其中，所述文字识别模型包括第一卷积神经网络、循环神经网络、联结时序分类网络和第二卷积神经网络。
根据权利要求6所述的方法，其中，所述使用所述文字识别模型来确定所述样本图片的内容识别结果和语种识别结果，包括：

使用所述第一卷积神经网络确定所述样本图片的特征向量；

使用所述循环神经网络，根据所述特征向量来确定序列特征，并使用所述联结时序分类网络，根据所述序列特征来确定所述内容识别结果；以及

根据所述特征向量，确定多元特征向量，并使用第二卷积神经网络，根据所述多元特征向量来确定所述语种识别结果。
一种识别文字的方法，包括：

获取包含文字信息的待识别图片；

将所述待识别图片输入文字识别模型，得到所述待识别图片的内容识别结果和语种识别结果，其中，所述内容识别结果用于表示所述待识别图片中包含的文字信息，所述语种识别结果用于表示所述文字信息所对应的语种，

其中，所述文字识别模型是根据权利要求1-7中任一项所述的方法训练的。
一种文字识别模型的训练装置，包括：

第一确定模块，用于根据多个单语种语料，确定多个第一样本图片以及所述多个第一样本图片的内容标签和语种标签；

第二确定模块，用于根据多个混合语种语料，确定多个第二样本图片以及所述多个第二样本图片的内容标签和语种标签；以及

训练模块，用于根据所述多个第一样本图片、所述多个第一样本图片的内容标签和语种标签、所述多个第二样本图片以及所述多个第二样本图片的内容标签和语种标签，对文字识别模型进行训练。
根据权利要求9所述的装置，其中，所述第一确定模块包括：

第一生成子模块，用于针对所述多个单语种语料中的每个单语种语料，生成包含所述单语种语料的图片，作为所述第一样本图片；

第一内容标签确定子模块，用于根据所述单语种语料的文本内容，确定所述第一样本图片的内容标签；以及

第一语种标签确定子模块，用于根据所述单语种语料的语种，确定所述第一样本图片的语种标签。
根据权利要求9所述的装置，还包括：

拼接模块，用于对多个语种的原始语料进行混合拼接处理，得到所述多个混合语料。
根据权利要求11所述的装置，其中，所述第二确定模块，包括：

第二生成子模块，用于针对所述多个混合语种语料中的每个混合语种语料，生成包含所述混合语种语料的图片，作为所述第二样本图片；

第二内容标签确定子模块，用于根据所述混合语种语料的文本内容，确定所述第二样本图片的内容标签；以及

第二语种标签确定子模块，用于根据所述混合语种语料的语种，确定所述第二样本图片的语种标签。
根据权利要求9所述的装置，其中，所述训练模块，包括：

识别子模块，用于使用所述文字识别模型来确定所述多个第一样本图片和所述多个第二样本图片中的一个样本图片的内容识别结果和语种识别结果；

第一损失确定子模块，用于根据所述内容识别结果和所述样本图片的内容标签，确定第一损失，并根据所述语种识别结果和所述样本图片的语种标签，确定第二损失；

第二损失确定子模块，用于根据所述第一损失和所述第二损失，确定总损失；以及

调整子模块，用于根据所述总损失，调整所述文字识别模型的参数，并针对所述多个第一样本图片和所述多个第二样本图片中的另一个样本图片返回使用所述文字识别模型来确定内容识别结果和语种识别结果的步骤。
根据权利要求13所述的装置，其中，所述文字识别模型包括第一卷积神经网络、循环神经网络、联结时序分类网络和第二卷积神经网络。
根据权利要求14所述的装置，其中，所述识别子模块，包括：

特征向量确定单元，用于使用所述第一卷积神经网络确定所述样本图片的特征向量；

内容识别单元，用于使用所述循环神经网络，根据所述特征向量来确定序列特征，并使用所述联结时序分类网络，根据所述序列特征来确定所述内容识别结果；以及

语种识别单元，用于根据所述特征向量，确定多元特征向量，并使用第二卷积神经网络，根据所述多元特征向量来确定所述语种识别结果。
一种识别文字的装置，包括：

获取模块，用于获取包含文字信息的待识别图片；

输入模块，用于将所述待识别图片输入文字识别模型，得到所述待识别图片的内容识别结果和语种识别结果，其中，所述内容识别结果用于表示所述待识别图片中包含的文字信息，所述语种识别结果用于表示所述文字信息所对应的语种，

其中，所述文字识别模型是根据权利要求9-15中任一项所述的装置训练的。
一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。
一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。