WO2022022370A1

WO2022022370A1 - 直播方法、装置及电子设备

Info

Publication number: WO2022022370A1
Application number: PCT/CN2021/107766
Authority: WO
Inventors: 赵文倩; 黄非; 刘彦伊; 许勇; 刘福
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2020-07-27
Filing date: 2021-07-22
Publication date: 2022-02-03
Also published as: CN113301357B; CN113301357A

Abstract

本申请实施例公开了直播方法、装置及电子设备，所述方法包括：第一服务端接收第一客户端提交的创建多语言直播的请求；在所述多语言直播创建成功后，根据所述第一客户端采集到的源直播流，获得至少一种目标语言对应的翻译后的目标直播流；接收到第二客户端提交的拉取直播流的请求后，确定所述第二客户端关联的用户所需的目标语言，并将该目标语言对应的目标直播流提供给所述第二客户端进行播放。通过本申请实施例，能够在跨境商品对象信息服务等系统中更好地应用直播技术。

Description

直播方法、装置及电子设备

本申请要求2020年07月27日递交的申请号为202010733464.9、发明名称为“直播方法、装置及电子设备”中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及直播技术领域，特别是涉及直播方法、装置及电子设备。

背景技术

随着直播技术的发展，越来越多的行业中引入了直播，其中包括商品对象信息服务系统。商家或者卖家用户通过直播的方式对商品对象的信息进行介绍，买家或者消费者用户可以通过直播中的视频以及主播的语言描述获得关于商品对象更直观的信息，享受直播带来的更接近真实购物的体验；另外，还可以在直播过程中与主播进行互动，包括询问关于商品对象的信息，主播可以实时在线解答，等等。总之，通过引入直播技术，可以更有效地帮助买家或消费者用户进行购物决策。

其中，一些商品对象信息服务系统还为用户提供跨境服务，可以面向海外买家或消费者用户提供商品对象的销售等服务。在传统的通过图文方式对商品对象进行描述的情况下，可以将图文详情翻译成多国语言，供海外用户浏览。但是，如果在这种跨境的商品对象信息服务系统中引入直播技术，则存在一定的困难。因为主播用户在直播过程中通常只能覆盖一种语言，而面向的却是多个国家的买家用户，彼此之间存在语言障碍。

因此，如何在跨境商品对象信息服务等系统中更好地应用直播技术，成为需要本领域技术人员解决的技术问题。

发明内容

本申请提供了直播方法、装置及电子设备，能够在跨境商品对象信息服务等系统中更好地应用直播技术。

本申请提供了如下方案：

一种直播方法，包括：

第一服务端接收第一客户端提交的创建多语言直播的请求；

在所述多语言直播创建成功后，根据所述第一客户端采集到的源直播流，获得至少一种目标语言对应的翻译后的目标直播流；

接收到第二客户端提交的拉取直播流的请求后，确定所述第二客户端关联的用户所需的目标语言，并将该目标语言对应的目标直播流提供给所述第二客户端进行播放。

一种直播流处理方法，包括：

第二服务端根据第一服务端提交的请求，创建至少一个导播台服务；所述请求是在所述第一服务端接收到创建多语言直播的请求后提交的；所述至少一个导播台服务与至少一种目标语言对应；

获取所述第一服务端提供的第一地址以及至少一个第二地址，其中，所述第一地址用于保存所述直播的源直播流，所述至少一个第二地址与至少一种目标语言对应；

在所述多语言直播创建成功后，启动所述导播台服务，所述导播台服务用于从所述第一地址读取所述源直播流，并通过调用流式语音识别服务以及翻译服务，对所述源直播流进行流式语音识别并获取到其中一目标语言对应的翻译结果后，通过将所述源直播流与所述翻译结果进行合流，生成该目标语言对应的翻译后的目标直播流，保存到该目标语言对应的第二地址。

一种直播流处理方法，包括：

第三服务端根据第二服务端的调用请求，创建流式语音识别服务以及翻译服务，其中，所述请求中携带有目标语言信息，第一地址以及第三地址，所述第一地址用于保存源直播流；

从所述第一地址读取所述源直播流，并通过所述流式语音识别服务对所述源直播流进行语音识别；

通过翻译服务对语音识别结果进行翻译，得到所述目标语言对应的翻译结果，并将所述翻译结果保存到所述第三地址，以便所述第二服务端从所述第三地址获取所述翻译结果，并与所述源直播流合成为目标语言对应的目标直播流。

一种直播方法，包括：

第一客户端接收创建多语言直播的请求；

将所述请求提交到第一服务端，并接收所述第一服务端返回的第一地址；

在所述直播创建成功后，将产生的直播流提交到所述第一地址，以便从所述第一地址获取所述源直播流，并获得至少一种目标语言对应的翻译后的目标直播流，以用于提供给具有目标语言需求的用户关联的第二客户端。

一种获取直播流方法，包括：

第二客户端向第一服务端提交获取直播流的请求；

接收所述第一服务端提供的第二地址，所述第二地址是根据所述第二客户端关联的用户所需的目标语言确定的，所述第二地址保存有所述目标语言对应的翻译后的目标直播流；

通过所述第二地址拉取所述目标直播流并进行播放。

一种直播装置，应用于第一服务端，包括：

请求接收单元，用于接收第一客户端提交的创建多语言直播的请求；

目标直播流获得单元，用于在所述多语言直播创建成功后，根据所述第一客户端采集到的源直播流，获得至少一种目标语言对应的翻译后的目标直播流；

目标直播流提供单元，用于接收到第二客户端提交的拉取直播流的请求后，确定所述第二客户端关联的用户所需的目标语言，并将该目标语言对应的目标直播流提供给所述第二客户端进行播放。

一种直播流处理装置，应用于第二服务端，包括：

导播台服务创建单元，用于根据第一服务端提交的请求，创建至少一个导播台服务；所述请求是在所述第一服务端接收到创建多语言直播的请求后提交的；所述至少一个导播台服务与至少一种目标语言对应；

地址获取单元，用于获取所述第一服务端提供的第一地址以及至少一个第二地址，其中，所述第一地址用于保存所述直播的源直播流，所述至少一个第二地址与至少一种目标语言对应；

导播台服务启动单元，用于在所述多语言直播创建成功后，启动所述导播台服务，所述导播台服务用于从所述第一地址读取所述源直播流，并通过调用流式语音识别服务以及翻译服务，对所述源直播流进行流式语音识别并获取到其中一目标语言对应的翻译结果后，通过将所述源直播流与所述翻译结果进行合流，生成该目标语言对应的翻译后的目标直播流，保存到该目标语言对应的第二地址。

一种直播流处理装置，应用于第三服务端，包括：

服务创建单元，用于根据第二服务端的调用请求，创建流式语音识别服务以及翻译服务，其中，所述请求中携带有目标语言信息，第一地址以及第三地址，所述第一地址用于保存源直播流；

语音识别单元，用于从所述第一地址读取所述源直播流，并通过所述流式语音识别服务对所述源直播流进行语音识别；

翻译单元，用于通过翻译服务对语音识别结果进行翻译，得到所述目标语言对应的翻译结果，并将所述翻译结果保存到所述第三地址，以便所述第二服务端从所述第三地址获取所述翻译结果，并与所述源直播流合成为目标语言对应的目标直播流。

一种直播装置，应用于第一客户端，包括：

请求接收单元，用于接收创建多语言直播的请求；

请求提交单元，用于将所述请求提交到第一服务端，并接收所述第一服务端返回的第一地址；

推流单元，用于在所述直播创建成功后，将产生的直播流提交到所述第一地址，以便从所述第一地址获取所述源直播流，并获得至少一种目标语言对应的翻译后的目标直播流，以用于提供给具有目标语言需求的用户关联的第二客户端。

一种获取直播流装置，应用于第二客户端，包括：

请求提交单元，用于向第一服务端提交获取直播流的请求；

地址获得单元，用于接收所述第一服务端提供的第二地址，所述第二地址是根据所述第二客户端关联的用户所需的目标语言确定的，所述第二地址保存有所述目标语言对应的翻译后的目标直播流；

拉流单元，用于通过所述第二地址拉取所述目标直播流并进行播放。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

通过本申请实施例，能够支持多语言直播的创建，并且可以根据源直播流生成至少一种目标语言对应的翻译后的目标直播流，在第二客户端发起获取直播流的请求后，可以确定出第二客户端关联的用户所需的目标用户，并将对应的目标直播流提供给该第二客户端，使得用户能够观看到符合自己语言需求的直播内容。

在具体实现时，可以在商品对象信息服务系统中提供具体的多语言直播服务，此时，可以根据该商品对象信息服务系统中的历史直播记录提供训练样本，实现对翻译模型的训练。另外还可以根据商品对象信息服务领域的专有词汇提前进行翻译结果的录定，以此提升翻译结果的准确率。

再者，同样在商品对象信息服务系统中提供具体的多语言直播服务的情况下，还可以根据第二客户端关联的用户在该系统中产生的用户数据，包括常用的收货地址信息等，对用户所属的国家/地区进行判断，从而自动确定出用户所需的目标语言。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的系统架构的示意图；

图2是本申请实施例提供的第一方法的流程图；

图3-1是本申请实施例提供的创建直播过程的交互时序的示意图；

图3-2是本申请实施例提供的推流过程的交互时序的示意图；

图3-3是本申请实施例提供的观看者用户界面的示意图；

图4是本申请实施例提供的第二方法的流程图；

图5是本申请实施例提供的第三方法的流程图；

图6是本申请实施例提供的第四方法的流程图；

图7是本申请实施例提供的第五方法的流程图；

图8是本申请实施例提供的第一装置的示意图；

图9是本申请实施例提供的第二装置的示意图；

图10是本申请实施例提供的第三装置的示意图；

图11是本申请实施例提供的第四装置的示意图；

图12是本申请实施例提供的第五装置的示意图；

图13是本申请实施例提供的电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中，为了能够在跨境商品对象信息服务系统中应用直播技术，提供了跨语言直播功能。主播用户(在本申请实施例中可以称为第一用户，相应的，可以将观看者用户称为第二用户)在创建直播时，可以选择是否使用跨语言直播服务，如果使用，则服务端可以帮助用户生成多种目标语言对应的目标直播流，并提供多路拉流地址，每路拉流地址可以对应一种目标语言。这样，在第二用户需要观看直播时，服务端可以根据该第二用户所需的目标语言，将对应的拉流地址提供给第二用户的客户端，使得该客户端可以从该拉流地址获取到对应目标语言的直播流进行播放。通过这种方式，使得第一用户使用一种语言创建的直播，可以翻译成多种不同的目标语言，供多个国家/地区的第二用户观看。这样，在跨境商品对象信息服务系统中，使得第二用户也能够通过观看直播的方式获得关于商品对象的更丰富更直观的信息。当然，该多语言直播方法也可以在其他的跨境系统中使用。

其中，由于在生产目标语言对应的翻译后的目标直播流的过程中，涉及到对源直播流进行流式语音识别以及翻译，同时又需要尽量提高识别以及翻译的准确度，另外，通常还需要将源直播流翻译成多种不同目标语言对应的目标直播流，以满足多个不同国家/地区的用户的观看需求，因此，对服务器的能力具有比较高的要求。为此，在本申请实施例中，还可以通过专门的服务端(具体的，可以称为第二服务端，相应的具体与前端直播客户端交互的服务端可以称为第一服务端)创建多个导播台服务，每个导播台服务对应一种目标语言。在每个导播台服务中，又可以调用具体的流式语音识别服务以及翻译服务，得到翻译结果数据流，然后，将源直播流与该翻译结果数据流进行合流，即可得到具体目标语言对应的翻译后的直播流。这种直播流可以保存到由第一服务端指定的拉流地址，从而使得第一服务端可以获得多种不同目标语言对应的翻译后的目标直播流。

在优选的实施方式中，流式语音识别服务以及翻译服务也可以通过第三服务端来提供。这样，各服务端可以专注于某一项功能的实现，然后，通过多个服务端之间的相互配合，最终达到提高翻译准确度的目的。

其中，具体的翻译服务还可以通过预先建立的翻译模型对语音识别结果进行翻译。具体实现时，由于本申请实施例主要可以在商品对象信息服务等系统内部提供多语言直播服务，因此，直播场景比较单一，这也为获得良好的翻译准确率提供了基础。具体的，可以将商品对象信息服务系统中的历史直播记录作为训练数据对翻译模型进行训练，使得翻译模型成为商品对象信息服务领域的专用模型。另外，还可以预先对商品对象信息服务场景中的一些专有名词等预先进行录定，例如，预先获得专有名词在各种目标语言下的表达方式，等等。这样，通过专用的翻译模型以及上述专有名词的预先录定信息，可以进一步提升翻译的准确率。

再者，同样由于本申请实施例主要可以在商品对象信息服务等系统内部提供多语言直播服务，因此，还可以基于第二用户在这种系统内部产生的数据(例如，用户常用的收货地址等)，对第二用户所需要的目标语言进行自动识别，从而向用户推荐或者直接推送该目标语言对应的拉流地址。

具体实现时，如图1所示，本申请实施例可以涉及到商品对象信息服务等系统提供的客户端以及服务端，其中，该服务端可以对应前述第一服务端，客户端可以分为面向主播用户的第一客户端，以及面向观看者用户的第二客户端。另外，如前文所述，在具体实现时，还可以涉及第二服务端甚至第三服务端。在一种具体的实现方式下，第一客户端向第一服务端发起创建多语言直播的请求后，第一服务端可以调用第二服务端的接口创建多个导播台服务，分别与多种不同的目标语言对应。同时可以生成第一地址以及多个第二地址。在直播创建成功后，具体的导播台服务可以调用第三服务端的流式语音识别以及翻译服务，得到的翻译结果可以保存到导播台服务指定的第三地址。导播台服务可以从第一地址读取源直播流，从第三地址读取翻译结果数据流，并合流为目标语言对应的目标直播流，并保存到第一服务端指定的第二地址。之后，第二客户端提交获取直播流的请求后，可以根据具体用户所需的目标语言，向第二客户端提供对应的第二地址，使得第二客户端可以从该第二地址拉取到用户所需目标语言对应的目标直播流进行播放。其中，不同的第二客户端关联的用户所需的目标语言不同，因此，提供给不同第二客户端的第二地址也可能是不同的。例如，假设主播用户是中国的用户，源直播流中的源语言是中文，在进行翻译后，得到了英文、法文、德文、日文等多种目标语言对应的目标直播流，并分别保存到不同的第二地址中。之后，某英语国家的用户甲请求观看该直播时，可以将保存有英语对应的目标直播流的第二地址A提供给用户甲；某法语国家的用户乙请求观看该直播时，可以将保存有法语对应的目标直播流的第二地址B提供给用户乙，等等。

下面对本申请实施例提供的具体实现方案进行详细介绍。

实施例一

首先，该实施例一从第一服务端的角度，提供了一种直播方法，参见图2，该方法具体可以包括：

S201：第一服务端接收第一客户端提交的创建多语言直播的请求；

具体实现时，可以在主播等第一用户关联的第一客户端中提供用于创建直播的操作选项，在第一用户点击创建直播时，可以询问用户是否需要创建多语言直播，如果选择需要，则可以向第一服务端发出创建多语言直播的请求。或者，另一种方式下，也可以在第一客户端中提供分别用于创建普通直播以及多语言直播的不同操作选项，需要创建多语言直播的用户可以直接通过该操作选项发起具体的请求。

具体实现时，在用户需要创建多语言直播请求时，还可以通过第一客户端提供用于提交直播所使用的源语言信息的操作选项。例如，某位中国的用户，在直播时是使用中文，则可以将源语言选择为“中文”，等等。另外，在可选的方式下，第一客户端还可以提供用于选择目标语言的操作选项，也即，可以由第一用户决定翻译成哪些目标语言。在用户未选择的情况下，可以按照默认的配置确定目标语言。该默认配置的信息可以是多用户通用的配置信息，或者，也可以是根据第一客户端关联的用户的个性化信息进行的配置，例如，可以根据历史选择记录进行默认配置，等等。其中，目标语言可以为一种或多种，也即，可以将源直播流翻译为多种不同目标语言对应的目标直播流，使得不同国家/地区的用户能够看懂直播的内容。

S202：在所述多语言直播创建成功后，根据所述第一客户端采集到的源直播流，获得至少一种目标语言对应的翻译后的目标直播流；

第一服务端在接收到创建多语言直播的请求后，可以进入到创建直播的流程。在创建完成后，则可以根据源直播流获得至少一种目标语言对应的翻译后的目标直播流，以便提供给多种不同语言需求的第二客户端。

其中，具体实现时，如前文所述，可以通过调用第二服务端的导播台服务来实现对源直播流的语音识别以及翻译等处理。其中，第二服务端可以是与第一服务端具有关联关系的云服务平台的服务端，或者也可以以其他形式存在。在这种情况下，第一服务端在接收到创建多语言直播的请求后，首先可以生成第一地址以及至少一个第二地址，其中，所述至少一个第二地址与至少一种目标语言对应。具体的，上述第一地址以及第二地址可以是在关联的内容分发网络(CDN)中申请的地址。在生成第一地址以及第二地址后，可以将所述第一地址提供给所述第一客户端，这样，在所述多语言直播创建成功后，所述第一客户端可以将产生的源直播流保存到所述第一地址(也即，第一客户端可以向该第一地址进行推流)。另外，还可以将所述第一地址以及至少一个第二地址提供给第二服务端，这样，第二服务端可以从所述第一地址获得所述源直播流，并且，在获得至少一种目标语言对应的翻译后的目标直播流后，分别保存到所述第二地址。通过这种方式，第一服务端可以获取到分别保存到不同第二地址的多种不同目标语言对应的翻译后的目标直播流。后续在第二客户端请求观看直播时，则可以将第二客户端关联的用户所需的目标语言对应的第二地址返回给所述第二客户端，以便所述第二客户端从该第二地址获取该目标语言对应的翻译后的目标直播流进行播放。

其中，在通过上述方式获得目标直播流的情况下，第一服务端还可以在生成具体的第二地址之前，首先调用第二服务端的接口，以实现对导播台服务的创建。例如，具体的时序图可以如图3-1所示，第一服务端首先可以向第二服务端发送“CreateCaster”请求，具体可以请求创建多个导播台服务；第二服务端完成导播台服务的创建后，可以向第一服务端返回CasterId；之后，第一服务端可以对Caster进行配置(SetCasterConfig)；并向第二服务端申请添加导播台源(AddCasterVideoResource)，之后可以设置导播频道(SetCasterChannel)，添加导播布局(AddCasterLayout)，添加导播组件(AddCasterComponent)等等。完成上述交互之后，第一服务端可以生成多个第二地址，也即拉流地址，多个第二地址分别与多个目标语言对应。

在生成上述第二地址之后，可以完成对多语言直播的创建，并且可以将第一地址提供给第一客户端，之后可以进入到主播推流的过程。例如，如图3-2所示，第一客户端可以将采集到的源直播流推送到该第一地址进行保存。同时，第一服务端还可以通过调用第二服务端提供的接口，在所述第二服务端启动之前已经创建的导播台服务(StartCaster)，所述至少一个导播台服务分别与所述至少一种目标语言对应。另外，还可以通过更新导播台配置信息(UpdateCasterSceneConfig)等方式，将第一地址以及第二地址等参数提供给具体的导播台服务。之后，导播台服务可以通过调用流式语音识别服务以及翻译服务，对所述源直播流进行流式语音识别获取到翻译结果后，通过将所述源直播流与所述翻译结果进行合流，生成所述翻译后的目标直播流。

具体实现时，导播台服务还可以通过调用第三服务端提供的流式语音识别服务以及翻译服务的方式，对所述源直播流进行流式语音识别并获取翻译结果。在这种情况下，所述导播台服务还可以首先申请第三地址，并在对流式语音识别以及翻译服务进行调用的请求中携带该第三地址，以便将翻译结果(翻译后的文本或者语音)保存到所述第三地址。这样，所述导播台服务可以从第三地址读取到翻译结果，然后，将第一地址的源直播流与第三地址的翻译结果进行合流，生成翻译后的目标直播流，并保存到对应的第二地址。

其中，第三服务端可以是专注于提供大数据处理等相关的基础服务。具体的翻译服务可以是根据预先建立的翻译模型对语音识别结果进行翻译。具体实现时，本申请实施例中的多语言直播可以是指在商品对象信息服务系统中创建的直播；此时，具体的翻译模型是以所述商品对象信息服务系统中的历史直播记录为训练数据进行训练获得的。也就是说，可以将商品对象信息服务系统中的历史直播记录提供给第三服务端，这些数据可以作为训练样本，对翻译模型进行训练，以使得具体的翻译模型成为商品对象信息服务领域的专用模型，以此提高该领域翻译结果的准确率。

另外，在优选的实施方式中，还可以预先保存与商品对象介绍相关的专用词汇的翻译信息，根据这些信息对所述语音识别结果进行翻译，以此进一步提升翻译的准确率。也就是说，在商品对象信息服务领域的直播过程中，可能主播用户会经常用到一些专有词汇，这些词汇如果在不考虑领域因素，可能具有多种翻译方式，以至于可能出现翻译不准确的情况。而本申请实施例中，由于可以确定是在商品对象信息服务领域进行直播，因此，可以预先结合该领域信息，对专有词汇进行翻译，得到多种不同目标语言下的翻译结果。具体在对直播流进行翻译时，如果遇到这种专业词汇，则可以利用这种预先录定的结果进行翻译，以此提高翻译准确率。

也就是说，由于本申请实施例可以在某一特定领域中提供多语言直播服务，这种领域的单一性特点，使得获得准确的多语言翻译结果成为可能，也即，翻译结果具有较高的可读性，而不是仅进行机械的翻译，从而提供有效的多语言直播服务。

再者，由于主播用户在直播过程中通常是采用口语化的语言对商品对象等信息进行介绍，因此，可能经常存在表达语法不准确或者比较随意等情况。例如，可能会说“我试穿一下先”，但正确的表达语法应该是“我先试穿一下”，等等。而在语法不准确的情况下，可能会影响翻译结果的准确度。因此，为了进一步提升翻译结果的质量，翻译服务在对所述语音识别结果进行翻译前，还可以对所述语音识别结果的句子结构进行调整，例如，包括对句子的主谓宾定状补等句子成分进行调整，以使得句子结构更标准。需要说明的是，这种对句子结构进行调整的情况下，可能对翻译结果的实时性略有影响，但在实际应用中，由于这种商品对象信息服务场景下，观看者用户对实时性的要求通常并不高，并且通常也不会影响到观看者用户与主播用户的互动，因此，可以忽略这种对实时性的影响。

另外，由于不同的源直播流中主播用户使用的源语言也可能会不同，因此，本申请实施例中可能会涉及到多种语言到多种语言的翻译。为了便于进行翻译，第一服务端还可以根据所述创建多语言直播的请求中携带的信息确定所述直播关联的源语言信息，并将所述源语言信息提供给所述第二服务端。当然，在具体实现时，也可以由第二服务端或者具体的翻译服务自行根据源直播流中的语音识别结果确定源语言。

具体实现时，具体生成的翻译后的目标直播流可以包括：关联有所述目标语言对应字幕的直播流，或者，也可以包括联有所述目标语言对应的语音的直播流。也即，可以直接将源直播流中的语音转换为文本，并翻译成目标语言的文本，然后，可以以字幕的形式添加到源直播流的图像中，这样，观看者用户可以通过查看字幕的方式获知主播用户所说的内容。或者，在另一种情况下，完成文本翻译后，还可以进行语音合成，然后可以将源直播流中的语音流替换为翻译后的语音流，生成目标直播流。这样，观看者用户在观看直播的过程中，可以直接收听到目标语言对应的语音信息。

其中，在以字幕的形式提供翻译信息的情况下，第一服务端还可以向所述第二服务端提供字幕展示相关的参数信息，包括字幕布局参数，字幕框的位置、高度、大小，背景色，字数上限，字幕字体、大小、出现持续时间等等。这样所述第二服务端在获取到目标语言对应的翻译后的字幕流后，按照所述字幕展示相关的参数信息，将字幕添加到所述源直播流中，以生成对应的目标直播流。

具体的，由于本申请实施例的一种具体实施场景可以是商品对象信息服务系统中的多语言直播，而这种系统中的主播用户通常是商家或者卖家的销售员等，通常仅在介绍商品方面具有比较专业的知识，但是在直播技术方面可能并专业；另外，主播用户所使用的直播设备通常是手机等移动终端设备，设备本身也不够专业，等等，因此，具体直播画面的质量存在参差不齐的情况。例如，由于不同主播使用的设备的分辨率不同，导致直播画面的清晰度可能不同；另外，主播在开直播时可能对所在空间的选择也比较随意，导致有些直播画面背景可能比较乱，等等。而由于本申请实施例中提供的字幕信息需要添加到直播画面中，因此，上述因素的存在都可能影响字幕的添加效果。例如，对于分辨率比较低的设备，如果字幕字体比较小，则可能会出现字幕显示不清楚，不便于阅读的情况；对于直播画面背景比较乱的情况，如果字幕背景透明，则可能出现部分字幕显示不清楚的问题，但如果统一设置为非透明的字幕背景色，则对于直播画面背景比较简单的情况，非透明背景色的字幕对直播画面造成的遮挡又显得没有必要，等等。

为此，在本申请实施例中，可以结合具体第一客户端的实际情况，对字幕展示相关的参数进行确定。例如，可以获取第一客户端关联的终端设备的分辨率和/或直播过程所需的屏幕方向(竖屏或者横屏)信息，根据这些信息确定具体的字幕展示相关的参数。其中，关于上述分辨率信息，可以由第一客户端对所在终端设备本地的相关屏幕参数进行获取，或者，也可以在第一客户端提供用于录入屏幕参数的操作选项，由第一用户进行录入。关于屏幕方向信息，可以由第一用户进行录入，或者，具体实现时，还可以在直播开始之前获取所述多语言直播关联的直播场景信息，并根据所述直播场景信息向所述第一客户端提供关于屏幕方向的建议信息。例如，如果具体的直播场景是对服装类的商品对象进行介绍，包括对服装的上身效果进行展示，等等，此时，可以建议用户采用竖屏的方式进行直播，等等。在确定出上述信息后，可以根据具体的分辨率参数确定字幕框的高度、大小、字幕字体的大小，等等。另外，还可以根据屏幕方向信息，确定字幕框的位置，例如，如果是竖屏，则字幕框可以位于评论区的上方，如果是横屏，则字幕框可以位于评论区的右侧，以避免字幕文字与评论区的文字之间相互遮挡等情况发生，等等。

另外，除了屏幕分辨率、屏幕方向等信息外，还可以获取直播画面背景图像信息，例如，具体可以在直播开始之前，便开始采集直播现场的图像，以此获取直播画面背景图像，等等。通过上述直播画面背景图像信息，可以确定出背景图像的主色调，或者，还可以确定出背景图像的混乱程度，以此可以确定出字幕背景是否采用透明色，在非透明的情况下，还可以根据直播画面背景图像的主色调确定字幕背景色，例如，具体可以是与直播画面背景图像主色调的色差比较大的颜色，以此提升字幕的辨识度。

在具体确定出字幕展示方面的上述各种参数后，可以提供给第二服务端，这样，第二服务端的导播台服务在获取到各种目标语言下的译文后，可以按照上述参数信息，将译文添加为源直播流的字幕，以此生成多种不同目标语言对应的目标直播流，并且可以分别保存到第一服务端预先指定的第二地址。

S203：接收到第二客户端提交的拉取直播流的请求后，确定所述第二客户端关联的用户所需的目标语言，并将该目标语言对应的目标直播流提供给所述第二客户端进行播放。

在获得多种不同目标语言对应的翻译后的目标直播流后，可以向第二客户端提供具体的目标直播流。具体的，可以在接收到第二客户端提交的拉取直播流的请求后，确定所述第二客户端关联的用户所需的目标语言，并将该目标语言对应的目标直播流提供给所述第二客户端进行播放。需要说明的是，在具体实现时，可以在第二客户端中提供用于开启或关闭多语言直播翻译功能的操作选项。这样，在用户发出具体的观看直播的请求时，可以首先对开关状态进行判断，如果所述直播翻译功能为开启状态，则可以向第一服务端提交获取翻译后的目标直播流的请求。否则，如果所述直播翻译功能为关闭状态，则可以向所述第一服务端提交获取源直播流的请求，以便对所述源直播流进行播放。

其中，具体确定第二客户端关联的用户所需的目标语言的方式可以有多种，例如，一种方式下，可以是在用户通过第二客户端发起获取直播流的请求时，提交所需的目标语言的信息。或者，另一种方式下，由于本申请实施例中的多语言直播具体可以包括在商品对象信息服务系统中创建的直播，因此，也可以根据所述第二客户端关联的用户在所述商品对象信息服务系统中产生的数据，确定所述第二客户端关联的用户所需的目标语言。

例如，具体的，可以根据所述第二客户端关联的用户对应的收货地址信息，确定所述第二客户端关联的用户所在的国家/地区；然后，根据所述国家/地区确定所述第二客户端关联的用户。或者，还可以根据用户关联的定位信息等确定用户所在的国家/地区，等等。

当然，在具体实现时，在通过上述方式自动判断用户所需目标语言的情况下，可能会出现判断错误等情况，因此，还可以在第二客户端中提供用于切换其他目标语言的操作选项，使得用户可以切换到其他目标语言对应的目标直播流进行播放。

在确定出用户所需的目标语言后，可以将该目标语言对应的目标直播流提供给用户。相应的，第二客户端便可以对目标直播流进行播放。通过这种方式，不同国家/地区的用户在观看同一场直播时，可以获得符合自己所需目标语言的直播内容。例如，在通过字幕的方式提供目标直播流的情况下，如图3-3所示，英语国家/地区的用户看到的界面可以如(A)所示，通过英文字幕表达主播用户当前所说的内容，例如，“Sensible beauty tips for enhancing your appearance”。法语国家/地区的用户看到的界面可以如(B)所示，通过法语字幕表达主播用户当前所说的内容，例如，“Un bon smoking pour améliorer votre apparence”。日语国家/地区的用户看到的界面可以如(C)所示，通过日语字幕表达主播用户当前所说的内容，例如，“あなたの外観を強化するための賢明な美しさのヒント”，等等。

另外，第一服务端还可以根据客户端对各个第二地址的访问情况，对所述至少一种目标语言关联的国家/地区的用户分别对所述多语言直播的观看情况进行统计，并向所述第一客户端提供统计结果。例如，可以统计出某场直播在英语国家/地区的观看人数，在法语国家/地区的观看人数，在日语国家/地区的观看人数，等等。这些数据可以通过数据看板等形式提供给第一客户端，使得主播用户可以直观地确定出具体直播在各个不同语种的国家/地区的受欢迎程度等信息，进而还可以帮助用户对其营销策略等进行调整。例如，如果某直播在英语国家/地区的观看人数明显高于其他国家/地区，则可以重点在英语国家/地区进行营销策略的布局，等等。或者，这种数据看板信息还可以帮助用户对后续的直播策略进行调整，等等。

再者，在实际应用中，观看者用户还可以向其他用户分享直播地址，以使得其他用户也能够观看具体的直播。而在本申请实施例中，还可以支持观看者用户向其他国家/地区的用户进行分享。其中，如果在不同语言的用户之间进行分享，则第一服务端在接收到第二客户端对所述直播进行分享的请求后，还可以确定所述分享的目标用户所需的目标语言，并将该目标语言对应的目标直播流的地址返回给第一客户端，这样，第一客户端可以将该地址进行复制后分享给目标用户，以便在目标用户关联的客户端中进行播放。例如，某用户A向用户B分享某直播，在传统的方式下，用户A可以直接将自己收看直播的地址复制给用户B，但是，在本申请实施例中，如果用户B与用户A所需的目标语言不同，则用户B无法直接从用户A复制的地址中获得有效的直播内容。因此，在本申请实施例中，可以在第一客户端中提供分享操作选项，用户在需要向其他用户进行分享时，可以通过该操作选项发起分享请求，并且可以携带所需的目标语言信息。第一服务端在接收到请求后，可以进行地址转换，转换成用户B所需的目标语言对应的目标直播流所在的地址，然后返回给用户A，用户A再将该转换后的地址提供给用户B，从而使得用户B能够观看到符合自己目标语言的直播内容。

为便于更好的理解本申请实施例提供的具体技术方案，下面结合具体在商品对象信息服务系统中实现时的一个例子，对本申请实施例提供的一种可选的实现方案进行介绍。

假设某商家用户需要通过直播的方式向多个国家的消费者用户介绍其商品，则可以通过其关联的第一客户端发出多语言直播请求；发请求的同时还可以对其使用的源语言，所需的目标语言等进行选择，使得请求中可以携带这些信息，当然，也可以不进行选择，由语音识别服务自动识别源语言，按照默认配置的目标语言进行翻译，等等。另外，还可以将第一客户端关联的终端设备的屏幕参数，直播所需的屏幕方向，直播画面背景图像信息等通过所述请求携带至第一服务端。

第一服务端收到创建多语言直播的请求后，可以向第二服务端请求创建多个导播台服务，分别与多个目标语言相对应。在创建导播台服务的过程中，还可以配置一些参数，具体就可以包括字幕展示方面的参数等。这种参数具体可以是根据第一客户端关联的设备的屏幕参数，屏幕方向，直播画面背景图像的主色调、色彩混乱程度等进行确定，以满足商品对象信息服务场景下由于直播过程中设备、主播的不专业性所产生的字幕展示需求。

完成与第二服务端之间的交互后，可以向关联的内容分发系统等申请一第一地址作为推流地址，以及多个第二地址作为拉流地址，以此完成多语言直播的创建，并将第一地址提供给第一客户端。

第一客户端在接收到直播创建完成的信息后，可以将采集到的源直播流保存到第一地址，同时，第一服务端可以向第二服务端发起请求，以启动之前创建的导播台服务，并向其提供第一地址以及第二地址的信息。相应的，导播台服务则可以从第一地址读取源直播流，并通过调用第三服务端的语音识别服务以及翻译服务，获得语音识别结果以及对应目标语言的译文。其中，在进行语言识别以及翻译时，可以预先基于商品对象信息服务系统中的历史直播记录进行模型训练，以提升译文的准确度。另外，还可以对该领域的一些专有名词进行提前录定，以此进一步提升译文的准确度。

第二服务端获得直播流中语言识别结果的译文后，可以按照第一服务端之前配置的字幕展示相关参数，将译文添加到源直播流的图像中，以生成对应目标语言下的目标直播流，并保存到对应的第二地址。

多个导播台服务都可以分别完成上述过程，从而使得在直播过程中，可以在多个第二地址处分别生成各种不同目标语言对应的目标直播流，分别带有各自目标语言的字幕。

当境外某国家/地区的消费者用户需要观看该直播时，可以通过第二客户端向第一服务端发起拉取直播流的请求。此时，第一服务端可以根据该第二客户端关联的用户在商品对象信息服务系统中的常用收货地址等信息，确定出该用户可能所需的目标语言，然后将该目标语言对应的第二地址提供给该第二客户端。第二客户端从该第二地址对目标直播流进行拉流并进行播放即可，从而使得用户能够通过字幕来理解直播中主播所说的内容。同时还可以在第二客户端提供用于选择更多目标语言的操作选项，使得用户可以切换到其他目标语言观看直播内容。

总之，通过本申请实施例，能够支持多语言直播的创建，并且可以根据源直播流生成至少一种目标语言对应的翻译后的目标直播流，在第二客户端发起获取直播流的请求后，可以确定出第二客户端关联的用户所需的目标用户，并将对应的目标直播流提供给该第二客户端，使得用户能够观看到符合自己语言需求的直播内容。

实施例二

该实施例二是与实施例一相对应的，从第二服务端的角度，提供了一种直播流处理方法，参见图4，该方法具体可以包括：

S401：第二服务端根据第一服务端提交的请求，创建至少一个导播台服务；所述请求是在所述第一服务端接收到创建多语言直播的请求后提交的；所述至少一个导播台服务与至少一种目标语言对应；

S402：获取所述第一服务端提供的第一地址以及至少一个第二地址，其中，所述第一地址用于保存所述直播的源直播流，所述至少一个第二地址与至少一种目标语言对应；

S403：在所述多语言直播创建成功后，启动所述导播台服务，所述导播台服务用于从所述第一地址读取所述源直播流，并通过调用流式语音识别服务以及翻译服务，对所述源直播流进行流式语音识别并获取到其中一目标语言对应的翻译结果后，通过将所述源直播流与所述翻译结果进行合流，生成该目标语言对应的翻译后的目标直播流，保存到该目标语言对应的第二地址。

具体实现时，所述导播台服务具体可以用于调用第三服务端提供的流式语音识别服务以及翻译服务，并生成第三地址，将所述第一地址以及第三地址提供给所述第三服务端，以便所述第三服务端在获得翻译结果后，保存到所述第三地址；所述导播台服务通过所述第三地址读取所述翻译结果，并与所述源直播流进行合成，生成所述目标直播流。

其中，所述翻译结果包括翻译后的文本流；此时，所述导播台服务具体用于，将文本流添加为所述源直播流的字幕信息，以生成对应的目标直播流。

或者，所述翻译结果包括翻译后的语音流；此时，所述导播台服务具体用于，从所述源直播流中将语音流删除，并与所述翻译后的语音流进行合成，生成所述目标直播流。

实施例三

该实施例三也是与实施例一相对应的，从第三服务端的角度，提供了一种直播流处理方法，参见图5，该方法具体可以包括：

S501：第三服务端根据第二服务端的调用请求，创建流式语音识别服务以及翻译服务，其中，所述请求中携带有目标语言信息，第一地址以及第三地址，所述第一地址用于保存源直播流；

S502：从所述第一地址读取所述源直播流，并通过所述流式语音识别服务对所述源直播流进行语音识别；

S503：通过翻译服务对语音识别结果进行翻译，得到所述目标语言对应的翻译结果，并将所述翻译结果保存到所述第三地址，以便所述第二服务端从所述第三地址获取所述翻译结果，并与所述源直播流合成为目标语言对应的目标直播流。

其中，所述直播包括在商品对象信息服务系统中创建的直播；此时，所述翻译服务具体可以是根据预先建立的翻译模型对语音识别结果进行翻译，所述翻译模型是以所述商品对象信息服务系统中的历史直播记录为训练数据进行训练获得的。

另外，所述翻译服务还可以根据预先保存的与商品对象介绍相关的专用词汇的翻译信息对所述语音识别结果进行翻译。

实施例四

该实施例四是从主播用户关联的第一客户端的角度，提供了一种直播方法，参见图6，该方法具体可以包括：

S601：第一客户端接收创建多语言直播的请求；

S602：将所述请求提交到第一服务端，并接收所述第一服务端返回的第一地址；

S603：在所述直播创建成功后，将产生的直播流提交到所述第一地址，以便从所述第一地址获取所述源直播流，并获得至少一种目标语言对应的翻译后的目标直播流，以用于提供给具有目标语言需求的用户关联的第二客户端。

具体实现时，还可以提供用于对源直播关联的源语言进行选择的操作选项；将通过所述操作选项接收到的源语言信息提交到所述第一服务端。

另外，还可以接收所述第一服务端提供的统计信息，所述统计信息包括：所述至少一种目标语言关联的国家/地区的用户分别对所述多语言直播的观看情况，并对所述统计信息进行展示。

实施例五

该实施例五是从观看者用户关联的第二客户端的角度，提供了一种获取直播流的方法，参见图7，该方法具体可以包括：

S701：第二客户端向第一服务端提交获取直播流的请求；

S702：接收所述第一服务端提供的第二地址，所述第二地址是根据所述第二客户端关联的用户所需的目标语言确定的，所述第二地址保存有所述目标语言对应的翻译后的目标直播流；

S703：通过所述第二地址拉取所述目标直播流并进行播放。

具体实现时，还可以提供用于对目标语言进行重新选择的操作选项；将通过所述操作选项重新选定的目标语言提交到所述第一服务端，以便所述第一服务端提供该重新选定的目标语言对应的第二地址。

另外，还可以提供用于开启或关闭多语言直播翻译功能的操作选项；具体在向第一服务端提交获取直播流的请求时，如果所述直播翻译功能为开启状态，则向第一服务端提交获取翻译后的目标直播流的请求。否则，如果所述直播翻译功能为关闭状态，则向所述第一服务端提交获取源直播流的请求，以便对所述源直播流进行播放。

另外，还可以提供用于对所述直播进行分享的操作选项；通过所述操作选项接收到分享请求后，确定分享对象所需的目标语言，并将所述分享请求以及所述分享对象所需的目标语言提交到所述第一服务端；接收到所述第一服务端返回的与所述分享对象所需的目标语言对应的第二地址后，将该第二地址提供给所述分享对象关联的客户端。

关于前述实施例二至实施例五中的未详述部分，可以参见前述实施例一中的记载，这里不再赘述。

需要说明的是，本申请实施例中可能会涉及到对用户数据的使用，在实际应用中，可以在符合所在国的适用法律法规要求的情况下(例如，用户明确同意，对用户切实通知，等)，在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。

与实施例一相对应，本申请实施例还提供了一种直播装置，该装置应用于第一服务端，参见图8，该装置具体可以包括：

请求接收单元801，用于接收第一客户端提交的创建多语言直播的请求；

目标直播流获得单元802，用于在所述多语言直播创建成功后，根据所述第一客户端采集到的源直播流，获得至少一种目标语言对应的翻译后的目标直播流；

目标直播流提供单元803，用于接收到第二客户端提交的拉取直播流的请求后，确定所述第二客户端关联的用户所需的目标语言，并将该目标语言对应的目标直播流提供给所述第二客户端进行播放。

具体的，所述目标直播流获得单元可以包括：

地址生成单元，用于生成第一地址以及至少一个第二地址，所述至少一个第二地址与至少一种目标语言对应；

第一地址提供单元，用于将所述第一地址提供给所述第一客户端，以便在所述多语言直播创建成功后，所述第一客户端将产生的源直播流保存到所述第一地址；

第二地址提供单元，用于将所述第一地址以及至少一个第二地址提供给第二服务端，以便所述第二服务端从所述第一地址获得所述源直播流，并在获得至少一种目标语言对应的翻译后的目标直播流后，分别保存到所述第二地址；

所述目标直播流提供单元具体可以用于：

将该目标语言对应的第二地址返回给所述第二客户端，以便所述第二客户端从该第二地址获取该目标语言对应的翻译后的目标直播流进行播放。

其中，所述第二地址提供单元具体可以用于：

通过调用第二服务端提供的服务创建接口，在所述第二服务端中启动至少一个导播台服务，所述至少一个导播台服务分别与所述至少一种目标语言对应；所述导播台服务通过调用流式语音识别服务以及翻译服务，对所述源直播流进行流式语音识别并获取到翻译结果后，通过将所述源直播流与所述翻译结果进行合流，生成所述翻译后的目标直播流；其中，对所述导播台服务进行调用的请求中携带有所述第一地址以及第二地址的信息。

具体的，所述导播台服务可以通过调用第三服务端提供的流式语音识别服务以及翻译服务，对所述源直播流进行流式语音识别并获取翻译结果；其中，所述导播台服务在调用请求中携带第三地址，以便将翻译结果保存到所述第三地址，所述导播台服务将第一地址的源直播流与第三地址的翻译结果进行合流，生成翻译后的目标直播流，并保存到所述第二地址。

其中，所述多语言直播包括在商品对象信息服务系统中创建的直播；此时，所述翻译服务是根据预先建立的翻译模型对语音识别结果进行翻译，所述翻译模型是以所述商品对象信息服务系统中的历史直播记录为训练数据进行训练获得的。

另外，所述翻译服务还可以根据预先保存的与商品对象介绍相关的专用词汇的翻译信息，对所述语音识别结果进行翻译。

再者，所述翻译服务在对所述语音识别结果进行翻译前，还可以对所述语音识别结果的句子结构进行调整。

具体实现时，该装置还可以包括：

源语言信息确定单元，用于根据所述创建多语言直播的请求中携带的信息确定所述直播关联的源语言信息；

源语言信息提供单元，用于将所述源语言信息提供给所述第二服务端。

其中，所述翻译后的目标直播流包括：关联有所述目标语言对应字幕的直播流；此时，该装置还可以包括：

布局参数信息提供单元，用于向所述第二服务端提供页面布局参数信息，以便所述导播台服务在获取到目标语言对应的翻译后的文本流后，按照所述页面布局参数，将文本流添加为所述源直播流的字幕信息，以生成对应的目标直播流。

另外该装置还可以包括：

统计单元，用于根据所述第二地址的访问情况，对所述至少一种目标语言关联的国家/地区的用户分别对所述多语言直播的观看情况进行统计，并向所述第一客户端提供统计结果。

其中，所述翻译后的目标直播流包括：关联有所述目标语言对应字幕的直播流，或者，关联有所述目标语言对应的语音的直播流。

具体的，所述多语言直播包括在商品对象信息服务系统中创建的直播；此时，目标直播流提供单元可以用于：

根据所述第二客户端关联的用户在所述商品对象信息服务系统中产生的数据，确定所述第二客户端关联的用户所需的目标语言。

具体的，所述目标直播流提供单元可以用于：

根据所述第二客户端关联的用户对应的收货地址信息，确定所述第二客户端关联的用户所在的国家/地区；根据所述国家/地区确定所述第二客户端关联的用户。

另外，该装置还可以包括：

分享单元，用于接收到第二客户端对所述直播进行分享的请求时，确定分享的目标用户所需的目标语言，并将该目标语言对应的目标直播流所在的地址信息提供给所述第二客户端，以便所述第二客户端将该地址分享给所述目标用户。

与实施例二相对应，本申请实施例还提供了一种直播流处理装置，该装置应用于第二服务端，参见图9，该装置具体可以包括：

导播台服务创建单元901，用于根据第一服务端提交的请求，创建至少一个导播台服务；所述请求是在所述第一服务端接收到创建多语言直播的请求后提交的；所述至少一个导播台服务与至少一种目标语言对应；

地址获取单元902，用于获取所述第一服务端提供的第一地址以及至少一个第二地址，其中，所述第一地址用于保存所述直播的源直播流，所述至少一个第二地址与至少一种目标语言对应；

导播台服务启动单元903，用于在所述多语言直播创建成功后，启动所述导播台服务，所述导播台服务用于从所述第一地址读取所述源直播流，并通过调用流式语音识别服务以及翻译服务，对所述源直播流进行流式语音识别并获取到其中一目标语言对应的翻译结果后，通过将所述源直播流与所述翻译结果进行合流，生成该目标语言对应的翻译后的目标直播流，保存到该目标语言对应的第二地址。

其中，所述导播台服务具体用于调用第三服务端提供的流式语音识别服务以及翻译服务，并生成第三地址，将所述第一地址以及第三地址提供给所述第三服务端，以便所述第三服务端在获得翻译结果后，保存到所述第三地址；所述导播台服务通过所述第三地址读取所述翻译结果，并与所述源直播流进行合成，生成所述目标直播流。

其中，所述翻译结果包括翻译后的文本流；

所述导播台服务具体用于，将文本流添加为所述源直播流的字幕信息，以生成对应的目标直播流。

或者，所述翻译结果包括翻译后的语音流；

所述导播台服务具体用于，从所述源直播流中将语音流删除，并与所述翻译后的语音流进行合成，生成所述目标直播流。

与实施例三相对应，本申请实施例还提供了一种直播流处理装置，参见图10，该装置应用于第三服务端，包括：

服务创建单元1001，用于根据第二服务端的调用请求，创建流式语音识别服务以及翻译服务，其中，所述请求中携带有目标语言信息，第一地址以及第三地址，所述第一地址用于保存源直播流；

语音识别单元1002，用于从所述第一地址读取所述源直播流，并通过所述流式语音识别服务对所述源直播流进行语音识别；

翻译单元1003，用于通过翻译服务对语音识别结果进行翻译，得到所述目标语言对应的翻译结果，并将所述翻译结果保存到所述第三地址，以便所述第二服务端从所述第三地址获取所述翻译结果，并与所述源直播流合成为目标语言对应的目标直播流。

其中，所述直播包括在商品对象信息服务系统中创建的直播；

所述翻译服务是根据预先建立的翻译模型对语音识别结果进行翻译，所述翻译模型是以所述商品对象信息服务系统中的历史直播记录为训练数据进行训练获得的。

另外，所述翻译服务还根据预先保存的与商品对象介绍相关的专用词汇的翻译信息对所述语音识别结果进行翻译。

与实施例四相对应，本申请实施例还提供了一种直播装置，应用于第一客户端，参见图11，该装置具体可以包括：

请求接收单元1101，用于接收创建多语言直播的请求；

请求提交单元1102，用于将所述请求提交到第一服务端，并接收所述第一服务端返回的第一地址；

推流单元1103，用于在所述直播创建成功后，将产生的直播流提交到所述第一地址，以便从所述第一地址获取所述源直播流，并获得至少一种目标语言对应的翻译后的目标直播流，以用于提供给具有目标语言需求的用户关联的第二客户端。

具体实现时，该装置还可以包括：

操作选项提供单元，用于提供用于对源直播关联的源语言进行选择的操作选项；

源语言信息提交单元，用于将通过所述操作选项接收到的源语言信息提交到所述第一服务端。

另外，该装置还可以包括：

统计信息接收单元，用于接收所述第一服务端提供的统计信息，所述统计信息包括：所述至少一种目标语言关联的国家/地区的用户分别对所述多语言直播的观看情况；

统计信息展示单元，用于对所述统计信息进行展示。

与实施例五相对应，本申请实施例还提供了一种获取直播流装置，参见图12，该装置应用于第二客户端，包括：

请求提交单元1201，用于向第一服务端提交获取直播流的请求；

地址获得单元1202，用于接收所述第一服务端提供的第二地址，所述第二地址是根据所述第二客户端关联的用户所需的目标语言确定的，所述第二地址保存有所述目标语言对应的翻译后的目标直播流；

拉流单元1203，用于通过所述第二地址拉取所述目标直播流并进行播放。

具体实现时，该装置还可以包括：

第一操作选项提供单元，用于提供用于对目标语言进行重新选择的操作选项；

重选结果提交单元，用于将通过所述操作选项重新选定的目标语言提交到所述第一服务端，以便所述第一服务端提供该重新选定的目标语言对应的第二地址。

另外，该装置还可以包括：

第二操作选项提供单元，用于提供用于开启或关闭多语言直播翻译功能的操作选项；

所述请求提交单元具体可以用于：

如果所述直播翻译功能为开启状态，则向第一服务端提交获取翻译后的目标直播流的请求。

另外，所述请求提交单元还可以用于：

如果所述直播翻译功能为关闭状态，则向所述第一服务端提交获取源直播流的请求，以便对所述源直播流进行播放。

再者，该装置还可以包括：

第三操作选项提供单元，用于提供用于对所述直播进行分享的操作选项；

目标语言确定单元，用于通过所述操作选项接收到分享请求后，确定分享对象所需的目标语言，并将所述分享请求以及所述分享对象所需的目标语言提交到所述第一服务端；

分享单元，用于接收到所述第一服务端返回的与所述分享对象所需的目标语言对应的第二地址后，将该第二地址提供给所述分享对象关联的客户端。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

其中，图13示例性的展示出了电子设备的架构，例如，设备1300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理，飞行器等。

参照图13，设备1300可以包括以下一个或多个组件：处理组件1302，存储器1304，电源组件1306，多媒体组件1308，音频组件1310，输入/输出(I/O)的接口1312，传感器组件1314，以及通信组件1316。

处理组件1302通常控制设备1300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件1302可以包括一个或多个处理器1320来执行指令，以完成本公开技术方案提供的方法的全部或部分步骤。此外，处理组件1302可以包括一个或多个模块，便于处理组件1302和其他组件之间的交互。例如，处理部件1302可以包括多媒体模块，以方便多媒体组件1308和处理组件1302之间的交互。

存储器1304被配置为存储各种类型的数据以支持在设备1300的操作。这些数据的示例包括用于在设备1300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1306为设备1300的各种组件提供电力。电源组件1306可以包括电源管理系统，一个或多个电源，及其他与为设备1300生成、管理和分配电力相关联的组件。

多媒体组件1308包括在设备1300和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1308包括一个前置摄像头和/或后置摄像头。当设备1300处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1310被配置为输出和/或输入音频信号。例如，音频组件1310包括一个麦克风(MIC)，当设备1300处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1304或经由通信组件1316发送。在一些实施例中，音频组件1310还包括一个扬声器，用于输出音频信号。

I/O接口1312为处理组件1302和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1314包括一个或多个传感器，用于为设备1300提供各个方面的状态评估。例如，传感器组件1314可以检测到设备1300的打开/关闭状态，组件的相对定位，例如所述组件为设备1300的显示器和小键盘，传感器组件1314还可以检测设备1300或设备1300一个组件的位置改变，用户与设备1300接触的存在或不存在，设备1300方位或加速/减速和设备1300的温度变化。传感器组件1314可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1314还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1314还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1316被配置为便于设备1300和其他设备之间有线或无线方式的通信。设备1300可以接入基于通信标准的无线网络，如WiFi，或2G、3G、4G/LTE、5G等移动通信网络。在一个示例性实施例中，通信部件1316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件1316还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，设备1300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1304，上述指令可由设备1300的处理器1320执行以完成本公开技术方案提供的方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的直播方法、装置及电子设备，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种直播方法，其特征在于，包括：

第一服务端接收第一客户端提交的创建多语言直播的请求；

在所述多语言直播创建成功后，根据所述第一客户端采集到的源直播流，获得至少一种目标语言对应的翻译后的目标直播流；

接收到第二客户端提交的拉取直播流的请求后，确定所述第二客户端关联的用户所需的目标语言，并将该目标语言对应的目标直播流提供给所述第二客户端进行播放。
根据权利要求1所述的方法，其特征在于，

所述根据所述第一客户端采集到的源直播流，获得至少一种目标语言对应的翻译后的目标直播流，包括：

生成第一地址以及至少一个第二地址，所述至少一个第二地址与至少一种目标语言对应；

将所述第一地址提供给所述第一客户端，以便在所述多语言直播创建成功后，所述第一客户端将产生的源直播流保存到所述第一地址；

将所述第一地址以及至少一个第二地址提供给第二服务端，以便所述第二服务端从所述第一地址获得所述源直播流，并在获得至少一种目标语言对应的翻译后的目标直播流后，分别保存到所述第二地址；

所述将该目标语言对应的目标直播流提供给所述第二客户端进行播放，包括：

将该目标语言对应的第二地址返回给所述第二客户端，以便所述第二客户端从该第二地址获取该目标语言对应的翻译后的目标直播流进行播放。
根据权利要求2所述的方法，其特征在于，

所述将所述第一地址以及至少一个第二地址提供给第二服务端，包括：

通过调用第二服务端提供的接口，在所述第二服务端中创建并启动至少一个导播台服务，所述至少一个导播台服务分别与所述至少一种目标语言对应；所述导播台服务通过调用流式语音识别服务以及翻译服务，对所述源直播流进行流式语音识别并获取到翻译结果后，通过将所述源直播流与所述翻译结果进行合流，生成所述翻译后的目标直播流；

其中，调用所述接口的请求中携带有所述第一地址以及第二地址的信息。
根据权利要求3所述的方法，其特征在于，

所述导播台服务通过调用第三服务端提供的流式语音识别服务以及翻译服务，对所述源直播流进行流式语音识别并获取翻译结果；

其中，所述导播台服务在调用请求中携带第三地址，以便将翻译结果保存到所述第三地址，所述导播台服务将第一地址的源直播流与第三地址的翻译结果进行合流，生成翻译后的目标直播流，并保存到所述第二地址。
根据权利要求3所述的方法，其特征在于，

所述多语言直播包括在商品对象信息服务系统中创建的直播；

所述翻译服务是根据预先建立的翻译模型对语音识别结果进行翻译，所述翻译模型是以所述商品对象信息服务系统中的历史直播记录为训练数据进行训练获得的。
根据权利要求5所述的方法，其特征在于，

所述翻译服务还根据预先保存的与商品对象介绍相关的专用词汇的翻译信息，对所述语音识别结果进行翻译。
根据权利要求3所述的方法，其特征在于，

所述翻译服务在对所述语音识别结果进行翻译前，还对所述语音识别结果的句子结构进行调整。
根据权利要求2所述的方法，其特征在于，还包括：

根据所述创建多语言直播的请求中携带的信息确定所述直播关联的源语言信息；

将所述源语言信息提供给所述第二服务端。
根据权利要求3所述的方法，其特征在于，

所述翻译后的目标直播流包括：关联有所述目标语言对应字幕的直播流；

所述方法还包括：

向所述第二服务端提供字幕展示相关参数的信息，以便所述导播台服务在获取到目标语言对应的翻译后的文本流后，按照所述字幕展示相关参数，将文本流添加为所述源直播流的字幕信息，以生成对应的目标直播流。
根据权利要求9所述的方法，其特征在于，还包括：

获取所述第一客户端关联的终端设备的分辨率和/或直播过程所需的屏幕方向信息；

根据所述分辨率和/或直播过程所需的屏幕方向信息确定所述字幕展示相关参数。
根据权利要求10所述的方法，其特征在于，还包括：

获取所述多语言直播关联的直播场景信息，并根据所述直播场景信息向所述第一客户端提供关于屏幕方向的建议信息。
根据权利要求9所述的方法，其特征在于，还包括：

获取所述多语言直播关联的直播画面背景图像信息；

根据所述直播画面背景图像信息确定所述字幕展示相关参数。
根据权利要求9所述的方法，其特征在于，

所述字幕展示相关参数包括以下一种或多种：字幕布局参数，字幕框的位置、高度、大小，背景色，字数上限，字幕字体、大小、出现持续时间。
根据权利要求2所述的方法，其特征在于，还包括：

根据所述第二地址的访问情况，对所述至少一种目标语言关联的国家/地区的用户分别对所述多语言直播的观看情况进行统计，并向所述第一客户端提供统计结果。
根据权利要求1所述的方法，其特征在于，

所述翻译后的目标直播流包括：关联有所述目标语言对应字幕的直播流，或者，关联有所述目标语言对应的语音的直播流。
根据权利要求1所述的方法，其特征在于，

所述多语言直播包括在商品对象信息服务系统中创建的直播；

所述确定所述第二客户端关联的用户所需的目标语言，包括：

根据所述第二客户端关联的用户在所述商品对象信息服务系统中产生的数据，确定所述第二客户端关联的用户所需的目标语言。
根据权利要求16所述的方法，其特征在于，

所述确定所述第二客户端关联的用户所需的目标语言，包括：

根据所述第二客户端关联的用户对应的收货地址信息，确定所述第二客户端关联的用户所在的国家/地区；

根据所述国家/地区确定所述第二客户端关联的用户。
根据权利要求1所述的方法，其特征在于，

接收到第二客户端对所述直播进行分享的请求时，确定分享的目标用户所需的目标语言，并将该目标语言对应的目标直播流所在的地址信息提供给所述第二客户端，以便所述第二客户端将该地址分享给所述目标用户。
一种直播流处理方法，其特征在于，包括：

第二服务端根据第一服务端提交的请求，创建至少一个导播台服务；所述请求是在所述第一服务端接收到创建多语言直播的请求后提交的；所述至少一个导播台服务与至少一种目标语言对应；

获取所述第一服务端提供的第一地址以及至少一个第二地址，其中，所述第一地址用于保存所述直播的源直播流，所述至少一个第二地址与至少一种目标语言对应；

在所述多语言直播创建成功后，启动所述导播台服务，所述导播台服务用于从所述第一地址读取所述源直播流，并通过调用流式语音识别服务以及翻译服务，对所述源直播流进行流式语音识别并获取到其中一目标语言对应的翻译结果后，通过将所述源直播流与所述翻译结果进行合流，生成该目标语言对应的翻译后的目标直播流，保存到该目标语言对应的第二地址。
根据权利要求19所述的方法，其特征在于，

所述导播台服务具体用于调用第三服务端提供的流式语音识别服务以及翻译服务，并生成第三地址，将所述第一地址以及第三地址提供给所述第三服务端，以便所述第三服务端在获得翻译结果后，保存到所述第三地址；所述导播台服务通过所述第三地址读取所述翻译结果，并与所述源直播流进行合成，生成所述目标直播流。
根据权利要求19所述的方法，其特征在于，

所述翻译结果包括翻译后的文本流；

所述导播台服务具体用于，将文本流添加为所述源直播流的字幕信息，以生成对应的目标直播流。
根据权利要求19所述的方法，其特征在于，

所述翻译结果包括翻译后的语音流；

所述导播台服务具体用于，从所述源直播流中将语音流删除，并与所述翻译后的语音流进行合成，生成所述目标直播流。
一种直播流处理方法，其特征在于，包括：

第三服务端根据第二服务端的调用请求，创建流式语音识别服务以及翻译服务，其中，所述请求中携带有目标语言信息，第一地址以及第三地址，所述第一地址用于保存源直播流；

从所述第一地址读取所述源直播流，并通过所述流式语音识别服务对所述源直播流进行语音识别；

通过翻译服务对语音识别结果进行翻译，得到所述目标语言对应的翻译结果，并将所述翻译结果保存到所述第三地址，以便所述第二服务端从所述第三地址获取所述翻译结果，并与所述源直播流合成为目标语言对应的目标直播流。
根据权利要求23所述的方法，其特征在于，

所述直播包括在商品对象信息服务系统中创建的直播；

所述翻译服务是根据预先建立的翻译模型对语音识别结果进行翻译，所述翻译模型是以所述商品对象信息服务系统中的历史直播记录为训练数据进行训练获得的。
根据权利要求23所述的方法，其特征在于，

所述翻译服务还根据预先保存的与商品对象介绍相关的专用词汇的翻译信息对所述语音识别结果进行翻译。
一种直播方法，其特征在于，包括：

第一客户端接收创建多语言直播的请求；

将所述请求提交到第一服务端，并接收所述第一服务端返回的第一地址；

在所述直播创建成功后，将产生的直播流提交到所述第一地址，以便从所述第一地址获取源直播流，并获得至少一种目标语言对应的翻译后的目标直播流，以用于提供给具有目标语言需求的用户关联的第二客户端。
根据权利要求26所述的方法，其特征在于，还包括：

提供用于对源直播关联的源语言进行选择的操作选项；

将通过所述操作选项接收到的源语言信息提交到所述第一服务端。
根据权利要求26所述的方法，其特征在于，还包括：

接收所述第一服务端提供的统计信息，所述统计信息包括：所述至少一种目标语言关联的国家/地区的用户分别对所述多语言直播的观看情况；

对所述统计信息进行展示。
一种获取直播流方法，其特征在于，包括：

第二客户端向第一服务端提交获取直播流的请求；

接收所述第一服务端提供的第二地址，所述第二地址是根据所述第二客户端关联的用户所需的目标语言确定的，所述第二地址保存有所述目标语言对应的翻译后的目标直播流；

通过所述第二地址拉取所述目标直播流并进行播放。
根据权利要求29所述的方法，其特征在于，还包括：

提供用于对目标语言进行重新选择的操作选项；

将通过所述操作选项重新选定的目标语言提交到所述第一服务端，以便所述第一服务端提供该重新选定的目标语言对应的第二地址。
根据权利要求29所述的方法，其特征在于，还包括：

提供用于开启或关闭多语言直播翻译功能的操作选项；

所述向第一服务端提交获取直播流的请求，包括：

如果所述直播翻译功能为开启状态，则向第一服务端提交获取翻译后的目标直播流的请求。
根据权利要求31所述的方法，其特征在于，还包括：

如果所述直播翻译功能为关闭状态，则向所述第一服务端提交获取源直播流的请求，以便对所述源直播流进行播放。
根据权利要求29所述的方法，其特征在于，还包括：

提供用于对所述直播进行分享的操作选项；

通过所述操作选项接收到分享请求后，确定分享对象所需的目标语言，并将所述分享请求以及所述分享对象所需的目标语言提交到所述第一服务端；

接收到所述第一服务端返回的与所述分享对象所需的目标语言对应的第二地址后，将该第二地址提供给所述分享对象关联的客户端。
一种直播装置，其特征在于，应用于第一服务端，包括：

请求接收单元，用于接收第一客户端提交的创建多语言直播的请求；

目标直播流获得单元，用于在所述多语言直播创建成功后，根据所述第一客户端采集到的源直播流，获得至少一种目标语言对应的翻译后的目标直播流；

目标直播流提供单元，用于接收到第二客户端提交的拉取直播流的请求后，确定所述第二客户端关联的用户所需的目标语言，并将该目标语言对应的目标直播流提供给所述第二客户端进行播放。
一种直播流处理装置，其特征在于，应用于第二服务端，包括：

导播台服务创建单元，用于根据第一服务端提交的请求，创建至少一个导播台服务；所述请求是在所述第一服务端接收到创建多语言直播的请求后提交的；所述至少一个导播台服务与至少一种目标语言对应；

地址获取单元，用于获取所述第一服务端提供的第一地址以及至少一个第二地址，其中，所述第一地址用于保存所述直播的源直播流，所述至少一个第二地址与至少一种目标语言对应；

导播台服务启动单元，用于在所述多语言直播创建成功后，启动所述导播台服务，所述导播台服务用于从所述第一地址读取所述源直播流，并通过调用流式语音识别服务以及翻译服务，对所述源直播流进行流式语音识别并获取到其中一目标语言对应的翻译结果后，通过将所述源直播流与所述翻译结果进行合流，生成该目标语言对应的翻译后的目标直播流，保存到该目标语言对应的第二地址。
一种直播流处理装置，其特征在于，应用于第三服务端，包括：

服务创建单元，用于根据第二服务端的调用请求，创建流式语音识别服务以及翻译服务，其中，所述请求中携带有目标语言信息，第一地址以及第三地址，所述第一地址用于保存源直播流；

语音识别单元，用于从所述第一地址读取所述源直播流，并通过所述流式语音识别服务对所述源直播流进行语音识别；

翻译单元，用于通过翻译服务对语音识别结果进行翻译，得到所述目标语言对应的翻译结果，并将所述翻译结果保存到所述第三地址，以便所述第二服务端从所述第三地址获取所述翻译结果，并与所述源直播流合成为目标语言对应的目标直播流。
一种直播装置，其特征在于，应用于第一客户端，包括：

请求接收单元，用于接收创建多语言直播的请求；

请求提交单元，用于将所述请求提交到第一服务端，并接收所述第一服务端返回的第一地址；

推流单元，用于在所述直播创建成功后，将产生的直播流提交到所述第一地址，以便从所述第一地址获取源直播流，并获得至少一种目标语言对应的翻译后的目标直播流，以用于提供给具有目标语言需求的用户关联的第二客户端。
一种获取直播流装置，其特征在于，应用于第二客户端，包括：

请求提交单元，用于向第一服务端提交获取直播流的请求；

地址获得单元，用于接收所述第一服务端提供的第二地址，所述第二地址是根据所述第二客户端关联的用户所需的目标语言确定的，所述第二地址保存有所述目标语言对应的翻译后的目标直播流；

拉流单元，用于通过所述第二地址拉取所述目标直播流并进行播放。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至33任一项所述的方法的步骤。
一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至33任一项所述的方法的步骤。