WO2022135323A1

WO2022135323A1 - 图像生成方法、装置和电子设备

Info

Publication number: WO2022135323A1
Application number: PCT/CN2021/139569
Authority: WO
Inventors: 明昊
Original assignee: 维沃移动通信（杭州）有限公司
Priority date: 2020-12-23
Filing date: 2021-12-20
Publication date: 2022-06-30
Also published as: CN112711366A

Abstract

本申请公开了一种图像生成方法、装置和电子设备，属于语音识别技术领域。其中，图像生成方法包括：显示会话界面，所述会话界面包括语音会话消息；接收第一输入；响应于所述第一输入，生成目标图像，其中，所述目标图像包括所述语音会话消息对应的文字信息。

Description

图像生成方法、装置和电子设备

相关申请的交叉引用

本申请主张在2020年12月23日在中国提交的中国专利申请No.202011537104.8的优先权，其全部内容通过引用包含于此。

技术领域

本申请属于语音识别技术领域，具体涉及一种图像生成方法、装置和电子设备。

背景技术

鉴于语音聊天方式相较于文字聊天方式具有更加方便、快捷的优势，使得语音聊天方式在人们生活中的应用越来越广泛。

但是，在某些需要使用语音通话内容的应用场景下，用户需要通过回想语音通话的内容，或者再次咨询上述语音通话中的另一方，例如：用户甲通过语音聊天与用户乙沟通了会议时间、会议地址等信息之后，若用户甲忘记了会议地址，则需要再次询问用户乙。

由此可见，语音聊天方式中的语音信息存在不便于查询的缺陷。

发明内容

本申请实施例的目的是提供一种图像生成方法、装置和电子设备，能够解决语音聊天方式中的语音信息存在的不便于查询的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种图像生成方法，该方法包括：

显示会话界面，所述会话界面包括语音会话消息；

接收用户的第一输入；

响应于所述第一输入，生成目标图像，其中，所述目标图像包括所述语音会话消息对应的文字信息。

第二方面，本申请实施例提供了一种图像生成装置，包括：

第一显示模块，用于显示会话界面，所述会话界面包括语音会话消息；

用户输入模块，用于接收用户的第一输入；

响应模块，用于响应于所述第一输入，生成目标图像，其中，所述目标图像包括所述语音会话消息对应的文字信息。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法的步骤。

第六方面，提供了一种计算机程序产品，所述计算机程序产品被存储在非易失的存储介质中，所述计算机程序产品被至少一个处理器执行以实现如第一方面所述的方法的步骤。

第七方面，提供了一种通信设备，被配置为执行如第一方面所述的方法的步骤。

在本申请实施例中，显示会话界面，所述会话界面包括语音会话消息；接收用户的第一输入；响应于所述第一输入，生成目标图像，其中，所述目标图像包括所述语音会话消息对应的文字信息。通过在目标图像中展示语音会话消息对应的文字信息，这样，便于用户对该目标图像进行显示、转发等后续处理，从而能够实现对语音会话消息的消息内容进行便捷的查看和分享等操作。

附图说明

图1是本申请实施例提供的一种图像生成方法的流程图；

图2a是本申请实施例提供的一种图像生成方法的应用场景图之一；

图2b是本申请实施例提供的一种图像生成方法的应用场景图之二；

图2c是本申请实施例提供的一种图像生成方法的应用场景图之三；

图2d是本申请实施例提供的一种图像生成方法的应用场景图之四；

图3是本申请实施例提供的另一种图像生成方法的流程图；

图4a是本申请实施例提供的另一种图像生成方法的应用场景图之一；

图4b是本申请实施例提供的另一种图像生成方法的应用场景图之二；

图5是本申请实施例提供的一种图像生成装置的结构图；

图6是本申请实施例提供的一种电子设备的结构图；

图7是本申请实施例提供的另一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的图像生成方法、图像生成装置和电子设备进行详细地说明。

请参阅图1，是本申请实施例提供的一种图像生成方法的流程图，如图1 所示，该图像生成方法可以包括以下步骤：

步骤101、显示会话界面，所述会话界面包括语音会话消息。

在具体实施中，上述会话界面可以是任意具有会话功能的应用程序中的会话界面，该会话界面可以显示会话应用程序所接收和发送语音会话消息，例如：语音通话消息或语音消息，其中，语音通话消息，表示为：在至少两个会话联系人之间建立语音通话，以使该至少两个会话联系人通过该语音通话进行语音会话的消息，另外，上述语音消息与语音通话消息的不同之处在于，上述语音消息由一个会话联系人发送至另一会话联系人，且该语音消息的录音时长往往比较短，例如：15秒或者30秒等，而语音通话消息可以供至少两个会话联系人进行对话，且其通话时长往往没有限制。

需要说明的是，上述会话界面中除了语音会话消息之外，还可以包括文字会话消息、图像会话消息等，在此不作具体限定。

步骤102、接收用户的第一输入。

在具体实施中，上述第一输入可以包括：触控输入和对硬件按钮的按压操作中的至少一种，其用于触发将会话界面中的语音会话消息转化为文字会话消息，并显示于目标图像内，在此对第一输入的具体形式不作具体限定。

例如：通过在包括语音会话消息的会话界面上，执行用于截取所述会话界面的截图操作，则可以响应于该截图操作执行步骤103，或者，还可以在显示语音会话消息和预设控件(例如：语音转换按钮)的勤快下，通过对该预设控件的触控输入，以触发对步骤103的执行过程。

步骤103、响应于所述第一输入，生成目标图像，其中，所述目标图像包括所述语音会话消息对应的文字信息。

在实施中，上述语音会话消息对应的文字信息，可以理解为：对语音会话消息进行语音识别，以识别语音会话消息的会话内容，并将该会话内容以文字形式进行输出，从而得到对所述语音会话消息对应的文字信息。这样，通过查看该目标图像，便可以查看到语音会话消息的会话内容。

另外，上述目标图像可以是静态图像或者动态图像，在实施中，可以对该目标图像进行查看、转发、分享、记录等后续处理，以实现对语音会话消息的更多处理方式。

例如：假设联系人A与联系人B通过语音通话消息，沟通了某一问题，且在沟通后联系人A想要将对该问题讨论的过程和结论分享到聊天群聊里，以让其他联系人看到，此时，在当前的社交聊天软件下，联系人A只能回忆语音通话的内容，并重新编辑成文字后，再发送到群里。

而通过本申请实施例提供的图像生成方法，能够将语音会话消息转化为携带有文字信息的目标图像，以便于对该目标图像进行查看、转发、分享、记录等后续操作。

作为一种可选的实施方式，在所述语音会话消息为语音通话消息的情况下，所述响应于所述第一输入，生成目标图像，包括：

响应于作用在第一预设控件上的第一输入，对所述语音通话消息进行语音识别处理，以得到语音识别结果，其中，所述语音识别结果包括：所述语音通话消息中的每一段语音分别对应的文字信息，以及所述每一段语音分别对应的通话联系人；

生成目标图像，其中，所述目标图像包括所述语音识别结果。

其中，在会话界面上预先显示有所述第一预设控件，或者通过用户的输入操作，以触发在所述会话界面上显示所述第一预设控件，例如：在显示的会话界面中包括语音通话消息时，若接收到用户对语音通话消息的长按输入，则显示如图2a所示界面，该界面包括转换选项22，该转换选项22即为第一预设控件。

另外，上述目标图像包括所述语音识别结果目标图像包括所述语音识别结果，可以理解为：按照所述语音通话中的语音顺序，将转化后的文字信息与对应的通话联系人进行关联显示。这样，用户通过查看该目标图像便可以获知该语音通话中的通话内容，且明确每一段语音对应的文字是哪一个联系人发出的，从而使得所述目标图像中显示的语音识别结果更加清晰。

例如：如图2a所示，假设联系人A与联系人B在会话界面20内通过语音通话，沟通了某一问题，且在沟通后联系人A想要将对该问题讨论的过程和结论分享到聊天群聊里，以让其他联系人看到，此时，联系人A仅需对会话界面20内显示的语音通话消息21进行长按操作，便可以显示与该语音通话消息21对应的编辑框22，该编辑框22内包括用于将语音通话消息21转化为目标图片的转换选项221和转换为文字的转换选项222，当用户点击该转换选项221时，显示如图2b所示会话界面，该会话界面内包括目标图片23，该目标图片23内显示有对所述语音通话消息21进行语音识别后的识别结果，该识别结果可以包括联系人A和联系人B分别发出的语音信息对应的文字信息。这样，用户可以对该目标图片23进行转发、查看等操作。

可选地，在进行语音通话时，可以进行录音操作，便于后续对语音通话消息内容进行语音识别处理。

在实施中，上述目标图像中除了包括所述语音会话消息对应的文字信息之外，还可以包括所述语音会话消息的信息，例如：如图2b所示，在目标图片23的右下角显示有语音通话图标和语音通话时长信息，这样，用户看到该语音通话图标和语音通话时长信息时，便能够获知该目标图片23为语音通话对应的目标图像，且该语音通话的通话时长为3分28秒。

进一步的，在如图2b所示实施例中显示的语音通话图标的基础上，还可以通过上述语音通话图标将目标图像与语音通话相关联，以通过触控该语音通话图标，便可以播放语音通话的音频内容。

这样，在对语音识别不够清晰，或者用户对目标图像中显示的文字内容有疑问等应用场景下，可以通过播放语音通话的音频内容，以进行确认，从而提升本申请实施例提供的所述图像生成方法的可靠性。

需要说明的是，在实施中，上述语音会话消息除了可以包括语音通话消息之外，其还可以包括语音消息，通过本申请实施例提供的图像生成方法，能够通过第一输入实现将所述会话界面中的语音消息分别转化为对应的文字信息，并在目标图像中显示。

作为一种可选的实施方式，在所述语音会话消息包括至少两条语音消息的情况下，所述响应于所述第一输入，生成目标图像，包括：

响应于第一子输入，生成中间图像，其中，所述中间图像包括所述至少两条语音消息，所述第一输入包括第一子输入和第二子输入；

响应于作用在第二预设控件上的所述第二子输入，分别将所述至少两条语音消息转化为文字信息，并分别将所述中间图像中与语音消息对应的显示区域更新为所述语音消息对应的文字信息，以生成所述目标图像。

在具体实施中，上述第一子输入可以是截图输入，上述中间图像可以是对会话界面的截图。

另外，上述第二预设控件可以是与第一预设控件相同的控件，且可以基于相同的方式进行显示。

当然，上述第二预设控件也可以是与第一预设控件不同的控件。例如：在显示的会话界面中包括语音消息时，若接收到用户的截图操作，则显示如图2c所示界面，该界面内包括语音转换按钮28，通过触控该语音转换按钮28，便可以触发将该截图中的语音消息转化为文字信息，此时，该语音转换按钮28即为第二预设控件。

在实施中，在上述会话界面还包括除了上述至少两条语音消息之外的文字信息或者图片信息的情况下，还可以将与所述至少两条语音消息分别对应的文字信息按照所述会话界面的会话顺序显示，例如：如图2c所示，假设联系人A与联系人B在会话界面20内进行会话沟通，且沟通过程中，联系人A发出了两条语音消息24，该语音消息24夹杂在联系人B发出的文字消息25和联系人A自己发出的文字消息25之间，则在接收到用户对语音转换按钮28的点击操作的情况下，将所述语音消息24分别转化为文字信息，并生成并显示如图2d所示的目标图像26，该目标图像26中，与会话界面20内的语音消息24对应的显示区域显示有该条语音消息24转化后的文字信息27。

在实施中，在目标图像中包括会话界面内的文字会话消息和对语音消息进行转化后的文字信息的情况下，可以将两者进行区别显示，例如：显示为具有不同的文字框或者具有不同的文字颜色等。

需要说明的是，在实施中，若会话界面内同时包括语音通话消息和语音消息的情况下，也可以对该语音通话消息和语音消息分别进行语音文字转化处理，以使生成的目标图像中，可以包括对所述语音通话消息进行语音文字转化处理后的文字信息，和对该语音消息进行语音文字转化处理后的文字信息。

请参阅图3，是本申请实施例提供的另一种图像生成方法的流程图，该另一种图像生成方法与如图1所示图像生成方法的不同之处在于，本申请实施例提供的另一种图像生成方法仅应用于：在所述会话界面中的语音会话消息为至少两个的情况下，且本实施方式还能够对所述至少两个语音会话消息中的部分语音会话消息进行选取，以仅将选中的语音会话消息进行语音识别转换，对于未被选中的语音会话消息则不进行语音识别转换。

如图3所示，该另一种图像生成方法，可以包括以下步骤：

步骤301、显示会话界面，所述会话界面包括语音会话消息。

本步骤与如图1所示方法实施例中的步骤101具有相同含义，不同之处仅在于所述会话界面的语音会话消息为至少两个，在此不再赘述。

步骤302、在接收到第一子输入的情况下，生成框选所述会话界面的预设窗口，并在所述预设窗口内显示与所述会话界面中的每一条语音会话消息分别对应的选择控件。

在实施中，上述第一子输入可以包括用于截取所述会话界面的截图操作，另外，在执行截图操作之后，可以输出提示信息，以提示用户是否选择将该会话界面中的语音会话消息转化为文字信息，若用户选择“是”，则执行生成框选所述会话界面的预设窗口，并在所述预设窗口内显示与所述会话界面中的每一条语音会话消息分别对应的选择控件的步骤；用户选择“否”，则直接生成截图，该截图与现有技术中的截图相同，在此不再赘述。

可选地，框选会话界面的预设窗口可以是一个新生成的一个窗口，包括会话界面的目标区域中的会话内容。当然，可以调节该窗口的位置和大小来调节该窗口中的会话内容。

另外，上述预设窗口可以是一个框选区域，例如：如图4a所示界面中的框选区域41，以通过该框选区域41框选中会话界面中显示的会话消息，该会话消息中包括至少两条语音消息42，且还可以包括其他文字消息43甚至图片消息等，且每一条语音消息42分别对应显示有选择控件44。

步骤303、在接收到对目标语音会话消息对应的选择控件的第二子输入的情况下，将所述预设窗口内的所述目标语音会话消息转化为文字信息。

在实施中，上述第二子输入可以是对选择控件的点击等触控输入，从而选中该选择控件对应的目标语音会话消息，该第二子输入可以通过下一任一种方式结束：

方式一，在停止对选择控件进行操作的预设时间长度(例如：2秒或3秒等)之后，确定所述第二子输入结束，从而执行所述将所述预设窗口内的所述目标语音会话消息转化为文字信息的步骤。

方式二，在所述预设窗口内还可以显示预设控件，例如：如图4a所示的语音转换按钮45，在对选择控件44进行点击之后，再对该语音转换按钮45进行触控操作，以确定第二子输入结束，从而执行所述将所述预设窗口内的所述目标语音会话消息转化为文字信息的步骤，从而将第二子输入选中的语音消息42转化为文字信息，以在如图4b所示界面中，将该语音消息42显示为对应的文字信息47。

本实施例中，上述将目标语音会话消息转化为文字信息的过程，与如图1所示方法实施例中，将语音会话消息转化为文字信息的过程相同，不同之处在于，本实施例中仅对选中的目标语音会话消息进行文字转化，而如图1 所示方法实施例中，对会话界面内的语音会话消息都进行文字转化，在此对文字转化的过程不再赘述。

步骤304、生成目标图像，所述目标图像包括与所述目标语音会话消息分别对应的文字信息，和所述预设窗口中除了所述目标语音会话消息之外的其他语音会话消息分别对应的语音图标。

其中，目标图像中的语音图标可以不具备语音播放功能，也不能够查看到文字信息，即在显示该目标图像时，仅能够通过该语音图标得知此处有一条语音消息，但是对于该语音消息的具体内容却不能得知。

例如：在如图4a中，有未被选中的语音消息46，则如图4b所示，进行语音文字转化处理后得到的会话文件中，该未被选中的语音消息46被显示为语音图标48。

本步骤与如图1所示方法实施例中的步骤103相似，不同之处在于，本实施方式中生成的目标图像中，仅选中的目标语音会话消息显示为对应的文字信息，对于未选中的其他语音会话消息则显示为语音图标；而如图1所示方法实施例中，能够在目标图像中，将会话界面内的全部语音会话消息均显示为对应的文字信息。

本申请实施例与，在如图1所示方法实施例的基础上，还能够对会话界面内的部分语音会话消息进行选取操作，以仅对选中的语音会话消息进行语音文字转化处理，以在目标图像中展示转化后的文字信息，而不对未选中的语音会话消息进行语音文字转化处理，这样，可以避免对隐私语音消息或者无关的语音消息进行语音文字转化处理，并展示在目标图像中，在简化语音文字转化处理过程的同时，还能够保护用户的隐私。

需要说明的是，本申请实施例提供的图像生成方法，执行主体可以为图像生成装置，或者该图像生成装置中的用于执行图像生成方法的控制模块。本申请实施例中以图像生成装置执行加载图像生成方法为例，说明本申请实施例提供的图像生成装置。

请参阅图5，是本申请实施例提供的一种图像生成装置的结构图，如图5 所示，该图像生成装置500可以包括：

第一显示模块501，用于显示会话界面，所述会话界面包括语音会话消息；

用户输入模块502，用于接收用户的第一输入；

生成模块503，用于响应于所述第一输入，生成目标图像，其中，所述目标图像包括所述语音会话消息对应的文字信息。

可选的，在所述语音会话消息为语音通话消息的情况下，生成模块503，包括：

语音识别单元，用于响应于作用在第一预设控件上的第一输入，对所述语音通话消息进行语音识别处理，以得到语音识别结果，其中，所述语音识别结果包括：所述语音通话消息中的每一段语音分别对应的文字信息，以及所述每一段语音分别对应的通话联系人；

第一生成单元，用于生成目标图像，其中，所述目标图像包括所述语音识别结果。

可选的，在所述语音会话消息包括至少两条语音消息的情况下，生成模块503，包括：

第二生成单元，用于响应于第一子输入，生成中间图像，其中，所述中间图像包括所述至少两条语音消息，所述第一输入包括第一子输入和第二子输入；

更新单元，用于响应于作用在第二预设控件上的所述第二子输入，分别将所述至少两条语音消息转化为文字信息，并分别将所述中间图像中与语音消息对应的显示区域更新为所述语音消息对应的文字信息，以生成所述目标图像。

可选的，所述第一输入包括用于截取所述会话界面的截图操作。

可选的，在所述会话界面中的语音会话消息为至少两个的情况下，生成模块503，包括：

第三生成单元，用于在接收到第一子输入的情况下，生成框选所述会话界面的预设窗口；

显示单元，用于在所述预设窗口内显示与所述会话界面中的每一条语音会话消息分别对应的选择控件；

文字转化单元，用于在接收到对目标语音会话消息对应的选择控件的第二子输入的情况下，将所述预设窗口内的所述目标语音会话消息转化为文字信息，其中，所述第一输入包括所述第一子输入和所述第二子输入；

第四生成单元，用于生成目标图像，所述目标图像包括与所述目标语音会话消息分别对应的文字信息，和所述预设窗口中除了所述目标语音会话消息之外的其他语音会话消息分别对应的语音图标。

本申请实施例提供的图像生成装置，能够实现如图1或图3所示方法实施例中的各个过程，且能够取得相同的有益效果，为避免重复，在此不再赘述。

本申请实施例中的图像生成装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的图像生成装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的图像生成装置能够实现图1或图3的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选的，如图6所示，本申请实施例还提供一种电子设备600，包括处理器601，存储器602，存储在存储器602上并可在所述处理器601上运行的程序或指令，该程序或指令被处理器601执行时实现上述图像生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要注意的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图7为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备700包括但不限于：射频单元701、网络模块702、音频输出单元703、输入单元704、传感器705、显示单元706、用户输入单元707、接口单元708、存储器709、以及处理器710等部件。

本领域技术人员可以理解，电子设备700还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器710逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图7中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，显示单元706，用于显示会话界面，所述会话界面包括语音会话消息；

用户输入单元707，用于接收用户的第一输入；

处理器710，用于响应于所述第一输入，生成目标图像，其中，所述目标图像包括所述语音会话消息对应的文字信息。

可选地，在所述语音会话消息为语音通话消息的情况下，处理器710执行的所述用于响应于所述第一输入，生成目标图像，包括：

可选地，在所述语音会话消息包括至少两条语音消息的情况下，处理器710执行的所述用于响应于所述第一输入，生成目标图像，包括：

可选地，在所述会话界面中的语音会话消息为至少两个的情况下，处理器710执行的所述用于响应于所述第一输入，生成目标图像，包括：

在通过用户输入单元707接收到第一子输入的情况下，生成框选所述会话界面的预设窗口，并控制显示单元706在所述预设窗口内显示与所述会话界面中的每一条语音会话消息分别对应的选择控件；

在通过用户输入单元707接收到对目标语音会话消息对应的选择控件的第二子输入的情况下，将所述预设窗口内的所述目标语音会话消息转化为文字信息，其中，所述第一输入包括所述第一子输入和所述第二子输入；

生成目标图像，所述目标图像包括与所述目标语音会话消息分别对应的文字信息，和所述预设窗口中除了所述目标语音会话消息之外的其他语音会话消息分别对应的语音图标。

本申请实施例提供的电子设备700能够执行如图1或图3所示方法实施例中的各个过程，且能够取得相同的有益效果，为避免重复，在此不再赘述。

应理解的是，本申请实施例中，输入单元704可以包括图形处理器(Graphics Processing Unit，GPU)和麦克风，图形处理器对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元706可包括显示面板，可以采用液晶显示器、有机发光二极管等形式来配置显示面板。用户输入单元707包括触控面板以及其他输入设备。触控面板，也称为触摸屏。触控面板可包括触摸检测装置和触摸控制器两个部分。其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器709可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器710可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器710中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现如图1或图2所示图像生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如图1或图2所示图像生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

一种图像生成方法，包括：

显示会话界面，所述会话界面包括语音会话消息；

接收用户的第一输入；

响应于所述第一输入，生成目标图像，其中，所述目标图像包括所述语音会话消息对应的文字信息。
根据权利要求1所述的方法，其中，在所述语音会话消息为语音通话消息的情况下，所述响应于所述第一输入，生成目标图像，包括：

响应于作用在第一预设控件上的第一输入，对所述语音通话消息进行语音识别处理，以得到语音识别结果，其中，所述语音识别结果包括：所述语音通话消息中的每一段语音分别对应的文字信息，以及所述每一段语音分别对应的通话联系人；

生成目标图像，其中，所述目标图像包括所述语音识别结果。
根据权利要求1所述的方法，其中，在所述语音会话消息包括至少两条语音消息的情况下，所述响应于所述第一输入，生成目标图像，包括：

响应于第一子输入，生成中间图像，其中，所述中间图像包括所述至少两条语音消息，所述第一输入包括第一子输入和第二子输入；

响应于作用在第二预设控件上的所述第二子输入，分别将所述至少两条语音消息转化为文字信息，并分别将所述中间图像中与语音消息对应的显示区域更新为所述语音消息对应的文字信息，以生成所述目标图像。
根据权利要求1所述的方法，其中，所述第一输入包括用于截取所述会话界面的截图操作。
根据权利要求1所述的方法，其中，在所述会话界面中的语音会话消息为至少两个的情况下，所述响应于所述第一输入，生成目标图像，包括：

在接收到第一子输入的情况下，生成框选所述会话界面的预设窗口，并显示与所述会话界面中的每一条语音会话消息分别对应的选择控件；

在接收到对目标语音会话消息对应的选择控件的第二子输入的情况下，将所述预设窗口内的所述目标语音会话消息转化为文字信息，其中，所述第一输入包括所述第一子输入和所述第二子输入；

生成目标图像，所述目标图像包括与所述目标语音会话消息对应的文字信息，和所述预设窗口中除了所述目标语音会话消息之外的其他语音会话消息分别对应的语音图标。
一种图像生成装置，包括：

第一显示模块，用于显示会话界面，所述会话界面包括语音会话消息；

用户输入模块，用于接收用户的第一输入；

生成模块，用于响应于所述第一输入，生成目标图像，其中，所述目标图像包括所述语音会话消息对应的文字信息。
根据权利要求6所述的装置，其中，在所述语音会话消息为语音通话消息的情况下，所述生成模块，包括：

语音识别单元，用于响应于作用在第一预设控件上的第一输入，对所述语音通话消息进行语音识别处理，以得到语音识别结果，其中，所述语音识别结果包括：所述语音通话消息中的每一段语音分别对应的文字信息，以及所述每一段语音分别对应的通话联系人；

第一生成单元，用于生成目标图像，其中，所述目标图像包括所述语音识别结果。
根据权利要求6所述的装置，其中，在所述语音会话消息包括至少两条语音消息的情况下，所述生成模块，包括：

第二生成单元，用于响应于第一子输入，生成中间图像，其中，所述中间图像包括所述至少两条语音消息，所述第一输入包括第一子输入和第二子输入；

更新单元，用于响应于作用在第二预设控件上的所述第二子输入，分别将所述至少两条语音消息转化为文字信息，并分别将所述中间图像中与语音消息对应的显示区域更新为所述语音消息对应的文字信息，以生成所述目标图像。
根据权利要求6所述的装置，其中，所述第一输入包括用于截取所述会话界面的截图操作。
根据权利要求6所述的装置，其中，在所述会话界面中的语音会话消息为至少两个的情况下，所述生成模块，包括：

第三生成单元，用于在接收到第一子输入的情况下，生成框选所述会话界面的预设窗口；

显示单元，用于在所述预设窗口内显示与所述会话界面中的每一条语音会话消息分别对应的选择控件；

文字转化单元，用于在接收到对目标语音会话消息对应的选择控件的第二子输入的情况下，将所述预设窗口内的所述目标语音会话消息转化为文字信息，其中，所述第一输入包括所述第一子输入和所述第二子输入；

第四生成单元，用于生成目标图像，所述目标图像包括与所述目标语音会话消息分别对应的文字信息，和所述预设窗口中除了所述目标语音会话消息之外的其他语音会话消息分别对应的语音图标。
一种电子设备，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，其中，所述程序或指令被所述处理器执行时实现如权利要求1-5中任一项所述的图像生成方法的步骤。
一种可读存储介质，所述可读存储介质上存储程序或指令，其中，所述程序或指令被处理器执行时实现如权利要求1-5中任一项所述的图像生成方法的步骤。
一种芯片，包括处理器和通信接口，其中，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如权利要求1-5中任一项所述的图像生成方法的步骤。
一种计算机程序产品，其中，所述程序产品被存储在非易失的存储介质中，所述程序产品被至少一个处理器执行以实现如权利要求1-5中任一项所述的图像生成方法的步骤。
一种通信设备，其中，被配置为执行如权利要求1-5中任一项所述的图像生成方法的步骤。