WO2021098175A1

WO2021098175A1 - 录制语音包功能的引导方法、装置、设备和计算机存储介质

Info

Publication number: WO2021098175A1
Application number: PCT/CN2020/092155
Authority: WO
Inventors: 马文韬; 黄际洲; 雷锦艺; 丁世强
Original assignee: 百度在线网络技术（北京）有限公司
Priority date: 2019-11-20
Filing date: 2020-05-25
Publication date: 2021-05-27
Also published as: EP3851803B1; KR20210065100A; CN112825256B; KR102440635B1; EP3851803A4; JP2022512271A; US11976931B2; US20220276067A1; EP3851803A1; JP7225380B2; CN112825256A

Abstract

一种录制语音包功能的引导方法、装置、设备和计算机存储介质，涉及大数据领域。具体方法为：利用地图用户的历史地图使用行为，识别出具有语音包录制需求的目标用户；对所述目标用户使用客户端的场景进行识别，若符合语音包录制场景，则向所述客户端发送录制语音包功能的第一引导信息。该方法实现了录制语音包功能的精准引导，降低对用户造成的过度打扰。

Description

录制语音包功能的引导方法、装置、设备和计算机存储介质

本申请要求了申请日为2019年11月20日，申请号为201911140137.6发明名称为“录制语音包功能的引导方法、装置、设备和计算机存储介质”的中国专利申请的优先权。

技术领域

本申请涉及计算机应用技术领域，特别涉及大数据技术领域中的一种录制语音包功能的引导方法、装置、设备和计算机存储介质。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就被认为是现有技术。

随着计算机技术的不断发展和人们对于产品要求的不断提高，出现了利用语音合成技术在计算机应用产品中提供不同发音人的语音播报功能。例如，在地图类产品中，进行导航语音播报时，用户可以选择地图类产品提供的不同发音人进行导航语音播报。这些发音人往往是诸如影视演员、相声演员、歌手等知名人士。但随着用户对个性化需求的日渐提高，极少数地图类应用出现了向用户提供个性化语音包的录制功能。用户能够将自己、家人或朋友等的声音录制为语音包，在进行语音播报时产生的就是自己、家人或朋友等的声音。

但录制个性化语音包作为一个全新的、站在科技前沿的功能，大部分用户都对其缺乏认知，在面临向广大用户进行该功能的推广时，传统的诸如作为开屏信息推广、向用户推送推广信息等，均是全量且同时间推送，所有用户均会频繁收到此类推广信息，投放精准度差，对一些用户会造成过度打扰。

发明内容

有鉴于此，本申请用以降低推广信息对用户造成的过度打扰。

第一方面，本申请提供了一种录制语音包功能的引导方法，该方法包括：

利用地图用户的历史地图使用行为，识别出具有语音包录制需求的目标用户；

对所述目标用户使用客户端的场景进行识别，若符合语音包录制场景，则向所述客户端发送录制语音包功能的第一引导信息。

根据本申请一优选实施方式，利用地图用户的历史地图使用行为，识别出具有语音包录制需求的目标用户包括：

从地图用户的历史地图使用行为中提取行为特征以得到地图用户的特征向量；

通过预先训练得到的第一分类模型基于所述地图用户的特征向量对地图用户进行识别，得到所述地图用户是否具有语音包录制需求的识别结果。

根据本申请一优选实施方式，利用用户的历史地图使用行为，识别出具有语音包录制需求的目标用户包括：

预先从种子用户中提取行为特征以得到种子用户的特征向量，并基于种子用户的特征向量对种子用户进行聚类得到各用户簇；

基于所述地图用户的特征向量确定是否将地图用户聚类至已有用户簇；

将聚类至已有用户簇的地图用户识别为具有语音包录制需求的目标用户。

根据本申请一优选实施方式，所述特征向量进一步包括用户基础画像。

根据本申请一优选实施方式，所述行为特征包括：出行相关行为、语音使用行为和语音包相关行为中的至少一种；

其中所述出行相关行为包括POI检索、导航和定位中至少一种的时间和位置信息；

所述语音使用行为包括使用语音功能的频率、最近一次使用时间以及使用的语音功能中的至少一种；

所述语音包相关行为包括使用语音包的次数、使用语音包的类型、录制语音包的状态、最近一次录制语音包的时间以及访问语音包录制页面的频率中的至少一种。

根据本申请一优选实施方式，对所述目标用户使用客户端的场景进行识别包括：

获取所述目标用户使用客户端的场景信息，通过预先训练得到的第二分类模型对所述场景信息进行识别，得到所述场景信息是否符合语音包录制场景的识别结果。

根据本申请一优选实施方式，所述场景信息包括以下至少一种：

所述目标用户使用客户端的时间信息、位置信息、最近一次检索POI的时间、最近一次导航的时间、是否定位在常驻位置、录制语音包的状态、最近一次录制语音包的时间以及对历史第一引导信息的响应信息。

根据本申请一优选实施方式，该方法还包括：

获取到用户录制语音包的事件后，跟踪并记录用户的语音包录制状态。

根据本申请一优选实施方式，该方法还包括：

依据所述用户的语音包录制状态，向所述用户发送第二引导信息。

第二方面，本申请提供了一种录制语音包功能的引导装置，该装置包括：

需求识别单元，用于利用地图用户的历史地图使用行为，识别出具有语音包录制需求的目标用户；

场景识别单元，用于对所述目标用户使用客户端的场景进行识别；

第一引导单元，用于若所述目标用户使用客户端的场景符合语音包录制场景，则向所述客户端发送录制语音包功能的第一引导信息。

第三方面，本申请提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上任一项所述的方法。

第四方面，本申请提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上任一项所述的方法。

由以上技术方案可以看出，本申请提供的方法、装置、设备和计算机存储介质可以具备以下优点：

1)本申请中通过历史地图使用行为识别出具有语音包录制需求的目标用户，并对目标用户使用客户端的场景进行识别，仅对具有语音包录制需求且符合语音包录制场景的用户发送录制语音包功能的引导信息，从而实现精准引导，降低对用户造成的过度打扰。

2)本申请在客户端内实现的精准引导，相比较传统请知名人士代言或者地推的方式，大大降低了成本，提高了转化率。

3)本申请中对用户的语音包录制状态进行跟踪和记录，并用于后续用户的需求识别和场景识别，从而实现用户的持续化引导，优化对用户需求和场景的识别。

4)本申请中能够依据用户语音包录制状态向用户进一步发送引导信息，从而实现对用户的录制鼓励和录制流程的引导。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1示出了可以应用本申请实施例的示例性系统架构；

图2为本申请实施例提供的方法流程图；

图3为本申请实施例提供的第一引导信息的示意图；

图4为本申请实施例提供的装置结构图；

图5是用来实现本申请实施例的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1示出了可以应用本申请实施例的用于录制语音包功能的引导方法或用于录制语音包功能的引导装置的示例性系统架构。

如图1所示，该系统架构可以包括终端设备101和102，网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101和102通过网络103与服务器104交互。终端设备101和102上可以安装有各种应用，例如语音交互应用、地图类应用、网页浏览器应用、通信类应用等。

终端设备101和102可以是支持语音录入(即能够采集用户录入的语音数据)和语音播报的各种电子设备。包括但不限于智能手机、平板电脑、笔记本电脑等等。本申请所提供的录制语音包功能的引导装置可以设置并运行于上述服务器104中。其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不做具体限定。服务器104可以记录用户通过终端设备101或102上的客户端对地图应用的历史使用行为，并基于此向客户端发送录制语音包功能的引导信息。

服务器104可以是单一服务器，也可以是多个服务器构成的服务器群组。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

本申请的核心思想在于，利用用户的历史地图使用行为，识别出具有语音包录制需求的用户；对具有语音包录制需求的用户使用客户端的场景进行识别，若符合预设的语音包录制场景，则向客户端发送录制语音包功能的引导信息。即从需求上和场景上对用户进行识别，仅在语音包录制场景对具有语音包录制需求的用户进行引导，从而降低推广信息对用户的多度打扰。下面实施例对本申请提供的方法进行详细描述。

图2为本申请实施例提供的方法流程图，如图2中所示，该方法可以包括以下步骤：

在201中，利用地图用户的历史地图使用行为，识别出具有语音包录制需求的目标用户。

对于一款应用产品，特别是受欢迎的应用而言，通常用户数量是非常庞大的。若像现有技术一样向所有用户均进行录制语音包功能的推广，则必然对没有这方面需求用户来说是一种打扰。

本步骤是对目标用户的筛选，采用的方式可以包括但不限于以下两种：

第一种方式：从地图用户的历史地图使用行为中提取行为特征以得到地图用户的特征向量；通过预先训练得到的第一分类模型基于地图用户的特征向量对地图用户进行识别，得到地图用户是否具有语音包录制需求的识别结果。

上述方式中特征向量除了包括行为特征之外，还可以进一步包括用户基础画像。其中用户基础画像可以是年龄、性别、工作等等。

下面重点对行为特征进行介绍。本申请中提取的行为特征可以包括但不限于出行相关行为、语音使用行为和语音包相关行为中的至少一种。

其中出行相关行为可以包括POI检索、导航和定位中至少一种的时间和位置信息。往往可能会使用录制语音包的用户在地图使用行为中是呈现出某一些特征的，例如有孩子的父母可能会使用录制语音包功能来将孩子的声音录制为语音包，其会体现出诸如早晚会有幼儿园的定位数据，周末会导航到培训班、检索适合遛娃的场所等。再例如在校的大学生可能会使用自己的声音或情侣的声音录制语音包，其会体现出大多数时间定位在某高校。因此POI检索、导航和定位的时间和位置信息能够很大程度上反映出用户是否是录制语音包功能的目标用户。

语音使用行为可以包括使用语音功能的频率、最近一次使用时间以及使用的语音功能中的至少一种。例如有的用户经常使用导航播报功能，那么这类用户就可能是潜在会使用语音包功能的目标用户。再例如有的用户经常通过语音交互方式使用地图，那么这类用户也可能是潜在会使用语音包功能的目标用户。

语音包相关行为包括使用语音包的次数、使用语音包的类型、录制语音包的状态、最近一次录制语音包的时间以及访问语音包录制页面的频率中的至少一种。例如，有些用户乐于使用各种语音包，有丰富的语音包使用历史，那么该用户也很可能会乐于自己录制语音包。再例如，有些用户使用过语音包录制功能，并且已经很长时间没有录制过新的语音包了，那么该用户可能会在引导下进行新的语音包录制。再例如，有些用户上一次录制语音包时并未录制完成，那么很可能在引导下完成语音包的录制。等等。

在针对地图用户提取出行为特征和用户基础画像后，分别进行编码或映射得到各自对应的特征向量，再进一步拼接得到地图用户的特征向量。

将地图用户的特征向量输入预先训练得到的分类模型，分类模型输出基于该特征向量的分类结果，即该地图用户是否具有语音包录制需求。

分类模型在训练时，可以预先通过线下走访、电话回访的方式确定出正、负样本；或者小范围内线上发送第一引导信息给用户，看用户是否响应第一引导信息来确定出正、负样本。然后从正样本的用户历史地图使用行为中提取行为特征得到正样本用户的特征向量，从负样本的用户历史地图使用行为中提取行为特征得到负样本用户的特征向量，从而训练分类模型。正、负样本用户的特征向量的确定方式与上述地图用户的特征向量确定方式一致，在此不做赘述。其中分类模型可以采用诸如SVM(Support Vector Machine，支持向量机)、LR(Logistic Regression，逻辑回归模型)等等。

第二种方式：预先从种子用户中提取行为特征以得到种子用户的特征向量，并基于种子用户的特征向量对种子用户进行聚类得到各用户簇；从地图用户的历史地图使用行为中提取行为特征以得到地图用户的特征向量；基于地图用户的特征向量确定是否将地图用户聚类至已有用户簇；将聚类至已有用户簇的地图用户识别为具有语音包录制需求的目标用户。

可以预先确定一批使用过语音包录制功能的用户作为种子用户，从这些种子用户中提取特征向量。特征向量的提取方式与上面所述的方式相同，不做赘述。基于种子用户的特征向量对种子用户进行聚类后得到各用户簇，这些用户簇实际上代表了一些比较典型的用户类别，这些用户类别大概率会使用语音包录制功能。得到各用户簇后可以统一计算该类别的特征向量，再基于地图用户的特征向量来将地图用户聚类至已有用户簇，如果能聚类到已有用户簇，则代表该地图用户属于这些比较典型的用户类别，大概率也会使用语音包录制功能。若地图用户不能够聚类到已有用户簇，则代表该地图用户不属于这些比较典型的用户类别，会使用语音包录制功能的概率较低。

本申请对上述聚类所采用的聚类方法并不加以限制，可以是诸如K-means(k均值聚类算法)、EM(Expectation Maximization Algorithm，期望最大化)等聚类方法。

在202中，对目标用户使用客户端的场景进行识别。

由于语音包录制有两个特点：对于环境要求比较苛刻，噪声太高的环境无法录制；录制时间较长，需要用户在相对空闲的时间。但由于用户的行为规律不同，并非所有用户都适合在同一场景下引导，因此现有针对所有用户同样时间的推送方式并不正确，容易对用户进行过度打扰。有鉴于此，在本申请实施例中引入了场景识别的机制。

在本步骤中可以采用简单的场景识别方式，判断目标用户使用客户端的当前时间和位置是否属于预设的语音包录制场景。例如看当前时间是否为晚上八点以后或者周末，并且定位用户在家。

但除了上述简单的以时间和位置作为规则进行判断之外，考虑到用户行为习惯的复杂性，对于场景信息的使用需要更加丰富和深入。因此本申请中提供一种优选的方式来进行场景识别。

获取目标用户使用客户端的场景信息，通过预先训练得到的第二分类模型对场景信息进行识别，得到场景信息是否符合语音包录制场景的识别结果。其中，获取的场景信息可以包括以下一种或任意组合：

目标用户使用客户端的时间信息、位置信息、最近一次检索POI的时间、最近一次导航的时间、是否定位在常驻位置、录制语音包的状态、最近一次录制语音包的时间以及对历史第一引导信息的响应信息，等等。

在训练第二分类模型时，可以小范围内线上发送第一引导信息给用户，看用户是否响应第一引导信息来确定出正、负样本。然后获取正样本的用户的场景信息，负样本用户的场景信息对分类模型进行训练。其中正、负样本的用户的场景信息获取方式与上述目标用户的场景信息获取方式一致。

另外，需要说明的是，本实施例中涉及的“第一分类模型”、“第二分类模型”、“第一引导信息”、“第二引导信息”等中的“第一”和“第二”并不具有数量、顺序等含义，而是仅仅在名称上进行区分。

在203中，若识别出符合语音包录制场景，则向客户端发送录制语音包功能的第一引导信息。

第一引导信息可以采用文本、图片、页面组件、链接等中的一种或任意组合。用户通过该第一引导信息可以方便地进入录制语音包的页面进行语音录制。例如图3中所示，可以在客户端的界面上显示组件与文本、图片、链接的结合来展示第一引导信息。当用户点击其中的“点击录制”后跳转至录制语音包的页面。

在204中，获取到用户录制语音包的事件后，跟踪并记录用户的语音包录制状态。

对用户的语音包录制状态的跟踪和记录一方面可以用于以后对该用户的需求和场景识别，即更新该用户的行为特征和场景特征；另一方面可以用于执行步骤205。

在205中，依据用户的语音包录制状态，向用户发送第二引导信息。

在本申请中，可以依据不同的录制状态预先配置不同的文案，依据用户的语音包录制状态，向用户发送对应文案的文本信息、语音信息等作为第二引导信息。

例如，如果用户还差5句录制完成，可以向用户发送“胜利在望，加油哦”的语音。如果用户完成录制，则可以向用户发送“很棒哦，完成录制，15分钟后可下载语音包”等等。这样的引导信息一方面能够给予用户以鼓励，帮助诸如小朋友等一次录制完成。另一方面也可以让不熟悉录制流程的用户能够获知下一步该怎么做。

以上是对本申请所提供方法进行的详细描述。下面结合实施例对本申请提供的装置进行详细描述。

图4为本申请实施例提供的装置结构图，如图4中所示，该装置可以包括：需求识别单元01、场景识别单元02和第一引导单元03，还可以进一步包括录制跟踪单元04和第二引导单元05。其中各组成单元的主要功能如下：

需求识别单元01，用于利用地图用户的历史地图使用行为，识别出具有语音包录制需求的目标用户。

其中需求识别单元01可以采用但不限于以下两种方式：

上述行为特征可以包括：出行相关行为、语音使用行为和语音包相关行为中的至少一种。

其中出行相关行为包括POI检索、导航和定位中至少一种的时间和位置信息。语音使用行为包括使用语音功能的频率、最近一次使用时间以及使用的语音功能中的至少一种。语音包相关行为包括使用语音包的次数、使用语音包的类型、录制语音包的状态、最近一次录制语音包的时间以及访问语音包录制页面的频率中的至少一种。

上述方式中特征向量除了包括行为特征之外，还可以进一步包括用户基础画像。其中用户基础画像可以是年龄、性别、工作等等。在针对地图用户提取出行为特征和用户基础画像后，分别进行编码或映射得到各自对应的特征向量，再进一步拼接得到地图用户的特征向量。

另外，对应于上述第一种方式，该装置还可以包括第一模型训练单元(图中未示出)，用于获取训练样本，该训练样本可以预先通过线下走访、电话回访的方式确定出正、负样本；或者小范围内线上发送第一引导信息给用户，看用户是否响应第一引导信息来确定出正、负样本。然后从正样本的用户历史地图使用行为中提取行为特征得到正样本用户的特征向量，从负样本的用户历史地图使用行为中提取行为特征得到负样本用户的特征向量，从而训练分类模型得到第一分类模型。

场景识别单元02，用于对目标用户使用客户端的场景进行识别。

具体地，场景识别单元02可以获取目标用户使用客户端的场景信息，通过预先训练得到的第二分类模型对场景信息进行识别，得到场景信息是否符合语音包录制场景的识别结果。

上述场景信息可以包括以下至少一种：目标用户使用客户端的时间信息、位置信息、最近一次检索POI的时间、最近一次导航的时间、是否定位在常驻位置、录制语音包的状态、最近一次录制语音包的时间以及对历史第一引导信息的响应信息。

相应地，本申请还可以包括第二模型训练单元(图中未示出)，用于获取训练样本，例如可以小范围内线上发送第一引导信息给用户，看用户是否响应第一引导信息来确定出正、负样本。然后获取正样本的用户的场景信息，负样本用户的场景信息对分类模型进行训练得到第二分类模型。

第一引导单元03，用于若目标用户使用客户端的场景符合语音包录制场景，则向客户端发送录制语音包功能的第一引导信息。

第一引导信息可以采用文本、图片、页面组件、链接等中的一种或任意组合。用户通过该第一引导信息可以方便地进入录制语音包的页面进行语音录制。

录制跟踪单元04，用于获取到用户录制语音包的事件后，跟踪并记录用户的语音包录制状态。

第二引导单元05，用于依据用户的语音包录制状态，向用户发送第二引导信息。在本申请中，可以依据不同的录制状态预先配置不同的文案，依据用户的语音包录制状态，向用户发送对应文案的文本信息、语音信息等作为第二引导信息。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图5所示，是根据本申请实施例方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该电子设备包括：一个或多个处理器501、存储器502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的方法对应的程序指令/单元。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

电子设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

一种录制语音包功能的引导方法，其特征在于，该方法包括：

利用地图用户的历史地图使用行为，识别出具有语音包录制需求的目标用户；

对所述目标用户使用客户端的场景进行识别，若符合语音包录制场景，则向所述客户端发送录制语音包功能的第一引导信息。
根据权利要求1所述的方法，其特征在于，利用地图用户的历史地图使用行为，识别出具有语音包录制需求的目标用户包括：

从地图用户的历史地图使用行为中提取行为特征以得到地图用户的特征向量；

通过预先训练得到的第一分类模型基于所述地图用户的特征向量对地图用户进行识别，得到所述地图用户是否具有语音包录制需求的识别结果。
根据权利要求1所述的方法，其特征在于，利用用户的历史地图使用行为，识别出具有语音包录制需求的目标用户包括：

预先从种子用户中提取行为特征以得到种子用户的特征向量，并基于种子用户的特征向量对种子用户进行聚类得到各用户簇；

从地图用户的历史地图使用行为中提取行为特征以得到地图用户的特征向量；

基于所述地图用户的特征向量确定是否将地图用户聚类至已有用户簇；

将聚类至已有用户簇的地图用户识别为具有语音包录制需求的目标用户。
根据权利要求2或3所述的方法，其特征在于，所述特征向量进一步包括用户基础画像。
根据权利要求2或3所述的方法，其特征在于，所述行为特征包括：出行相关行为、语音使用行为和语音包相关行为中的至少一种；

其中所述出行相关行为包括POI检索、导航和定位中至少一种的时间和位置信息；

所述语音使用行为包括使用语音功能的频率、最近一次使用时间以及使用的语音功能中的至少一种；

所述语音包相关行为包括使用语音包的次数、使用语音包的类型、录制语音包的状态、最近一次录制语音包的时间以及访问语音包录制页面的频率中的至少一种。
根据权利要求1所述的方法，其特征在于，对所述目标用户使用客户端的场景进行识别包括：

获取所述目标用户使用客户端的场景信息，通过预先训练得到的第二分类模型对所述场景信息进行识别，得到所述场景信息是否符合语音包录制场景的识别结果。
根据权利要求6所述的方法，其特征在于，所述场景信息包括以下至少一种：

所述目标用户使用客户端的时间信息、位置信息、最近一次检索POI的时间、最近一次导航的时间、是否定位在常驻位置、录制语音包的状态、最近一次录制语音包的时间以及对历史第一引导信息的响应信息。
根据权利要求1所述的方法，其特征在于，该方法还包括：

获取到用户录制语音包的事件后，跟踪并记录用户的语音包录制状态。
根据权利要求8所述的方法，其特征在于，该方法还包括：

依据所述用户的语音包录制状态，向所述用户发送第二引导信息。
一种录制语音包功能的引导装置，其特征在于，该装置包括：

需求识别单元，用于利用地图用户的历史地图使用行为，识别出具有语音包录制需求的目标用户；

场景识别单元，用于对所述目标用户使用客户端的场景进行识别；

第一引导单元，用于若所述目标用户使用客户端的场景符合语音包录制场景，则向所述客户端发送录制语音包功能的第一引导信息。
根据权利要求10所述的装置，其特征在于，所述需求识别单元，具体用于：

从地图用户的历史地图使用行为中提取行为特征以得到地图用户的特征向量；

通过预先训练得到的第一分类模型基于所述地图用户的特征向量对地图用户进行识别，得到所述地图用户是否具有语音包录制需求的识别结果。
根据权利要求10所述的装置，其特征在于，所述需求识别单元，具体用于：

预先从种子用户中提取行为特征以得到种子用户的特征向量，并基于种子用户的特征向量对种子用户进行聚类得到各用户簇；

从地图用户的历史地图使用行为中提取行为特征以得到地图用户的特征向量；

基于所述地图用户的特征向量确定是否将地图用户聚类至已有用户簇；

将聚类至已有用户簇的地图用户识别为具有语音包录制需求的目标用户。
根据权利要求11或12所述的装置，其特征在于，所述行为特征包括：出行相关行为、语音使用行为和语音包相关行为中的至少一种；

其中所述出行相关行为包括POI检索、导航和定位中至少一种的时间和位置信息；

所述语音使用行为包括使用语音功能的频率、最近一次使用时间以及使用的语音功能中的至少一种；

所述语音包相关行为包括使用语音包的次数、使用语音包的类型、录制语音包的状态、最近一次录制语音包的时间以及访问语音包录制页面的频率中的至少一种。
根据权利要求10所述的装置，其特征在于，所述场景识别单元，具体用于获取所述目标用户使用客户端的场景信息，通过预先训练得到的第二分类模型对所述场景信息进行识别，得到所述场景信息是否符合语音包录制场景的识别结果；

所述场景信息包括以下至少一种：

所述目标用户使用客户端的时间信息、位置信息、最近一次检索POI的时间、最近一次导航的时间、是否定位在常驻位置、录制语音包的状态、最近一次录制语音包的时间以及对历史第一引导信息的响应信息。
根据权利要求10所述的装置，其特征在于，该装置还包括：

录制跟踪单元，用于获取到用户录制语音包的事件后，跟踪并记录用户的语音包录制状态。
根据权利要求15所述的装置，其特征在于，该装置还包括：

第二引导单元，用于依据所述用户的语音包录制状态，向所述用户发送第二引导信息。
一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。