WO2023071768A1

WO2023071768A1 - 到站提醒方法、装置、终端、存储介质及程序产品

Info

Publication number: WO2023071768A1
Application number: PCT/CN2022/124453
Authority: WO
Inventors: 刘文龙
Original assignee: 上海瑾盛通信科技有限公司
Priority date: 2021-10-26
Filing date: 2022-10-10
Publication date: 2023-05-04
Also published as: CN113984078A; CN113984078B

Abstract

一种到站提醒方法、装置、终端、存储介质及程序产品，属于终端技术领域。该方法包括：获取目标时间段内的环境音数据和目标时间段内的惯性传感器数据（201）；基于环境音数据的时序，对环境音数据进行特征提取获得全局声音特征（202）；基于惯性传感器数据的时序，对惯性传感器数据进行特征提取获得全局惯性传感器特征（203）；基于自注意力机制对全局声音特征和全局惯性传感器特征进行融合处理，获得融合特征（204）；基于融合特征获取交通运行信息（205）；基于交通运行信息执行到站提醒（206）。上述方案提高了到站提醒的准确性。

Description

到站提醒方法、装置、终端、存储介质及程序产品

本申请要求于2021年10月26日提交的申请号为202111249921.8、发明名称为“到站提醒方法、装置、终端及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开涉及终端技术领域，特别涉及一种到站提醒方法、装置、终端、存储介质及程序产品。

背景技术

目前，人们乘坐地铁等公共交通工具时，需要时刻注意当前停靠站点是否为自己需要下车的目标站点，随着终端技术的发展，终端可以具有到站提醒功能，用于提醒乘客在到达目标站点时及时下车。

在相关技术中，终端通常利用内嵌的加速度计进行加速度采集，根据加速度计实时记录的加速度值实时确定当前乘坐的交通工具的加速度情况。比如，若终端检测到加速度大于零则判断交通工具处于启动阶段，若检测到加速度小于零则判断交通工具正在减速进站，然后结合地铁线路图以及用户的需求判断用户是否到站或者需要换乘，进而终端进行到站或者换乘提醒。

然而，目前通过终端加速度计传感器记录加速度方向判断是否到站的方式，与手机的姿态有较大关系，通过终端的加速度计记录的数值难以准确判断地铁是处于加速还是减速状态，因此存在到站提醒不准确的问题。

发明内容

本申请实施例提供了一种到站提醒方法、装置、终端、存储介质及程序产品，可以提高公共交通工具的运行状态判断的准确性，进而提高了终端进行到站提醒的准确性。所述技术方案如下：

一方面，本申请实施例提供了一种到站提醒方法，所述方法由终端执行，所述方法包括：

获取目标时间段内的环境音数据和所述目标时间段内的惯性传感器数据；

基于所述环境音数据的时序对所述环境音数据进行特征提取，获得全局声音特征；

基于所述惯性传感器数据的时序对所述惯性传感器数据进行特征提取，获得全局惯性传感器特征；

基于自注意力机制对所述全局声音特征和所述全局惯性传感器特征进行融合处理，获得融合特征；

基于所述融合特征获取交通运行信息；所述交通运行信息用于指示公共交通工具在所述目标时间段内的运行状态；

基于所述交通运行信息执行到站提醒。

另一方面，本申请实施例提供了一种到站提醒装置，所述装置包括：

数据获取模块，用于获取目标时间段内的环境音数据和所述目标时间段内的惯性传感器数据；

第一特征提取模块，用于基于所述环境音数据的时序对所述环境音数据进行特征提取，获得全局声音特征；

第二特征提取模块，用于基于所述惯性传感器数据的时序对所述惯性传感器数据进行特征提取，获得全局惯性传感器特征；

特征融合模块，用于基于自注意力机制对所述全局声音特征和所述全局惯性传感器特征进行融合处理，获得融合特征；

信息获取模块，用于基于所述融合特征获取交通运行信息；所述交通运行信息用于指示公共交通工具在所述目标时间段内的运行状态；

提醒模块，用于基于所述交通运行信息执行到站提醒。

另一方面，本申请实施例提供了一种终端，所述终端包括处理器和存储器；所述存储器中存储有至少一条计算机指令，所述至少一条计算机指令由所述处理器加载并执行以实现如上述方面所述的到站提醒方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机指令，所述计算机指令由处理器加载并执行以实现如上述方面所述的到站提醒方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。终端的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该终端执行上述方面的各种可选实现方式中提供的到站提醒方法。

本申请实施例提供的技术方案的有益效果至少包括：

通过实时采集环境音数据以及惯性传感器数据，并分别对环境音数据以及惯性传感器数据进行时序相关的全局特征提取，然后基于全局声音特征以及全局惯性传感器特征，结合不同模态之间的关系进行融合特征提取，避免了仅通过单一模态特征进行公共交通工具的运行状态判断时，受到外界影响导致准确性较差的情况，由于提高了公共交通工具的运行状态判断的准确性，进而提高了到站提醒的准确性。

附图说明

图1是根据一示例性实施例示出的一种应用场景示意图；

图2是根据一示例性实施例示出的一种到站提醒方法的流程图；

图3是根据一示例性实施例示出的一种到站提醒方法的流程图；

图4是根据另一示例性实施例示出的一种到站提醒方法的流程图；

图5是图4所示实施例涉及的一种梅尔频率倒谱系数提取流程图；

图6是图4所示实施例涉及的一种分类模型架构图；

图7是图4所示实施例涉及的一种到站判断方法的流程图；

图8是本申请一个示例性实施例提供的到站提醒装置的结构框图；

图9示出了本申请一个示例性实施例提供的终端的结构方框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请后续实施例提供了一种到站提醒的方案，可以在用户日常乘坐公共交通工具时，对公共交通工具所到达的站点进行提醒。

请参考图1，其示出了本申请各个实施例涉及的应用场景示意图。如图1所示，终端100中内置有麦克风101和惯性传感器102。比如，该终端100可以是智能手机、平板电脑、电子书阅读器、个人便携式计算机等。

可选的，终端100中可以安装具有到站提醒功能的应用程序，该应用程序可以结合麦克风101和惯性传感器102采集的数据进行到站提醒。

比如，用户携带终端100乘坐公共交通工具120时，若应用程序启动了到站提醒功能，则终端100可以通过麦克风101采集环境音数据，并通过惯性传感器102采集惯性传感器数据，应用程序基于环境音数据和惯性传感器数据，结合公共交通工具的路线140，确定是否进行到站提醒，并在确定需要进行到站提醒时，向用户发出到站提醒。

图2示出了本申请一个示例性实施例提供的到站提醒方法的流程图。其中，该到站提醒方法可以由终端执行，该终端可以是具有声音采集功能以及惯性传感器数据采集功能的终端，例如，该终端可以是上述图1所示应用场景中的终端100。该到站提醒方法包括如下步骤：

步骤201，获取目标时间段内的环境音数据和目标时间段内的惯性传感器数据。

在本申请实施例中，终端采集目标时间段内的环境音数据以及目标时间段内的惯性传感器数据。

比如，终端可以按照指定的时长周期进行环境音数据和惯性传感器数据的采集，每个采集周期采集一段指定时长内的环境音数据和惯性传感器数据，上述目标时间段内的环境音数据和惯性传感器数据，即为其中一个采集周期内采集到的数据，例如可以是最近一个采集周期内采集到的环境音数据和惯性传感器数据。

其中，环境音数据可以通过终端的麦克风组件进行采集。惯性传感器也可以称为惯性测量单元(Inertial Measurement Unit，IMU)，惯性传感器是测量物体三轴姿态角(或角速率)以及加速度的装置。一般的，一个IMU包含了三个单轴的加速度计和三个单轴的陀螺，加速度计用于检测物体在载体坐标系统独立三轴的加速度信号，而陀螺用于检测载体相对于导航坐标系的角速度信号，通过IMU可以测量物体在三维空间中的角速度和加速度。

步骤202，基于环境音数据的时序，对环境音数据进行特征提取获得全局声音特征。

在本申请实施例中，终端基于环境音数据在目标时间段中的时序，对环境音数据进行特征提取时，可以获得与时序相关的全局声音特征。

由于全局声音特征是基于环境音数据的时序进行全局特征提取得到的，因此，该全局声音特征对环境音数据具有更好的表征性。

步骤203，基于惯性传感器数据的时序，对惯性传感器数据进行特征提取获得全局惯性传感器特征。

在本申请实施例中，终端基于惯性传感器数据在目标时间段中的时序，对惯性传感器数据进行特征提取时，可以获得与时序相关的全局惯性传感器特征。

与全局声音特征类似的，由于全局惯性传感器特征是基于惯性传感器数据的时序进行全局特征提取得到的，因此，该全局惯性传感器特征对惯性传感器数据具有更好的表征性。

步骤204，基于自注意力机制对全局声音特征和全局惯性传感器特征进行融合处理，获得融合特征。

在本申请实施例中，终端可以通过自注意力机制对全局声音特征以及全局惯性传感器特征这两种模态的全局特征进行特征融合处理，得到两种模态融合的特征。

由于自注意力机制可以更好的提取不同模态的数据之间的关系，因此，本申请实施例所示的方案可以结合全局声音特征以及全局惯性传感器特征这两种模态的数据之间的关系进行特征融合，能够保证两种模态的特征之间的融合效果，继而提升后续基于融合特征进行交通运行信息获取的准确度。

步骤205，基于融合特征获取交通运行信息；交通运行信息用于指示公共交通工具在目标时间段内的运行状态。

在本申请实施例中，上述运行状态是指公共交通工具的行驶状态。比如，上述运行状态可以包括匀速行驶状态、启动加速状态、刹车减速状态以及停车状态等等。

其中，终端通过对获取到的融合特征进行处理分析，可以预测该融合特征对应的交通运行信息，从而确定公共交通工具在目标时间段内的行驶状态。

步骤206，基于交通运行信息执行到站提醒。

在本申请实施例中，终端基于交通运行信息所指示的运行状态，可以预测终端是否到站，并基于到站预测的结果，确定是否向用户发出到站提醒。

可选的，上述到站提醒可以是对公共交通工具行驶的路线中的目标站点(例如目的站点或者换乘站点)进行到站提醒。也就是说，如果基于交通运行信息预测公共交通工具到达或者将要到达目标站点时，可以向用户发出到站提醒。

比如，为了防止终端发出到站提醒的时间与公共交通工具关门驶往下一站之间的时间过短，导致用户错过下车时间，可以设置当到达目标站点的前一站时发送即将到站的消息提示，以便用户提前做好下车准备。

可选的，到站提醒的方式包括但不限定于：语音提醒、震动提醒、界面提醒。

其中，终端所处的站点可以结合交通工具的线路图来确定。比如，终端中事先加载并存储当前所在城市的交通工具的线路图，线路图中包含每条线路的站点信息、换乘信息、首末班时间及站点附近地图等。终端开始执行本申请实施例所示的到站提醒方法之前，可以先获取用户的乘车信息，乘车信息包括起始站点、目标站点、站点附近地图以及首末班时间等，在执行本申请实施例所示的到站提醒方法的过程中，可以结合当前乘坐的公共交通工具的线路图确定终端当前所处的站点。

在一些实施例中，基于自注意力机制对全局声音特征和全局惯性传感器特征进行融合处理，获得融合特征，包括：

将全局声音特征和全局惯性传感器特征进行拼接；

基于自注意力机制对拼接后的全局声音特征和全局惯性传感器特征进行处理，获得全局声音特征和全局惯性传感器特征各自的注意力权重；

基于全局声音特征和全局惯性传感器特征各自的注意力权重，获取融合特征。

在一些实施例中，全局声音特征包括目标时间段内的至少两个时间段各自对应的全局声音子特征；全局惯性传感器特征包括目标时间段内至少两个时间段各自对应的全局惯性传感器子特征；

将全局声音特征和全局惯性传感器特征进行拼接，包括：

将目标时间段内的至少两个时间段各自对应的全局声音子特征以及全局惯性传感器子特征进行拼接；全局声音子特征的维度数量，与全局惯性传感器子特征的维度数量相同；

基于自注意力机制对拼接后的全局声音特征和全局惯性传感器特征进行处理，获得全局声音特征和全局惯性传感器特征各自的注意力权重，包括：

基于自注意力机制对拼接后的全局声音特征和全局惯性传感器特征进行处理，获得全局声音子特征各自的注意力权重和全局惯性传感器子特征各自的注意力权重；

基于全局声音特征和全局惯性传感器特征各自的注意力权重，获取融合特征，包括：

基于全局声音子特征各自的注意力权重和全局惯性传感器子特征各自的注意力权重，获取融合特征。

在一些实施例中，基于全局声音子特征各自的注意力权重和全局惯性传感器子特征各自的注意力权重，获取融合特征，包括：

基于全局声音子特征各自的注意力权重和全局惯性传感器子特征各自的注意力权重，对全局声音子特征和全局惯性传感器子特征进行加权求和或者加权平均，获得融合特征。

在一些实施例中，环境音数据包含至少两个音频数据段；基于环境音数据的时序，对环境音数据进行特征提取获得全局声音特征，包括：

对至少两个音频数据段分别进行音频特征提取，获得至少两个音频数据段各自的梅尔频率倒谱系数特征；

对至少两个音频数据段各自的梅尔频率倒谱系数特征进行特征提取，获得至少两个音频数据段各自的声音局部特征；

按照至少两个音频数据段的时域顺序，基于自注意力机制对至少两个音频数据段各自的声音局部特征进行处理，获得全局声音特征。

在一些实施例中，按照至少两个音频数据段的时域顺序，基于自注意力机制对至少两个音频数据段各自的声音局部特征进行处理，获得全局声音特征，包括：

按照至少两个音频数据段的时域顺序，基于自注意力机制对至少两个音频数据段各自的声音局部特征进行处理，获得至少两个音频数据段各自的注意力权重；

基于至少两个音频数据段各自的注意力权重，对至少两个音频数据段各自的声音局部特征进行加权处理，获得全局声音特征。

在一些实施例中，惯性传感器数据包含至少两个传感器数据段；基于惯性传感器数据的时序，对惯性传感器数据进行特征提取获得全局惯性传感器特征，包括：

对至少两个传感器数据段进行特征提取，获得至少两个传感器数据段各自的传感器局部特征；

按照至少两个传感器数据段的时域顺序，基于自注意力机制对至少两个传感器数据段各自的传感器局部特征进行处理，获得全局惯性传感器特征。

在一些实施例中，按照至少两个传感器数据段的时域顺序，基于自注意力机制对至少两个传感器数据段各自的传感器局部特征进行处理，获得全局惯性传感器特征，包括：

按照至少两个传感器数据段的时域顺序，基于自注意力机制对至少两个传感器数据段各自的传感器局部特征进行处理，获得至少两个传感器数据段各自的注意力权重；

基于至少两个传感器数据段各自的注意力权重，对至少两个传感器数据段各自的传感器局部特征进行加权处理，获得全局惯性传感器特征。

在一些实施例中，交通运行信息用于指示公共交通工具在目标时间段内的运行状态是否为停止状态；

基于交通运行信息执行到站提醒，包括：

在交通运行信息指示公共交通工具在目标时间段内的运行状态为停止状态的情况下，执行到站提醒。

在一些实施例中，在交通运行信息指示公共交通工具在目标时间段内的运行状态为停止状态的情况下，执行到站提醒，包括：

在交通运行信息指示公共交通工具在目标时间段内的运行状态为停止状态的情况下，获取公共交通工具的当前位置；

在公共交通工具的当前位置与目标路线上的指定站点相匹配的情况下，执行到站提醒；指定站点是目标路线上的目的站点或者换乘站点。

在一些实施例中，获取目标时间段内的环境音数据和目标时间段内的惯性传感器数据之前，还包括：

展示路线设置界面；根据用户在路线设置界面中设置的起始站点和目的站点，获取目标路线。

根据用户的历史移动轨迹进行路线预测，获取目标路线。

在一些实施例中，在交通运行信息用于指示公共交通工具在目标时间段内的运行状态为停止状态的情况下，执行到站提醒，包括：

在连续N次获取到的交通运行信息指示公共交通工具的运行状态为停止状态的情况下，执行到站提醒。

综上所述，本申请实施例中，通过实时采集环境音数据以及惯性传感器数据，并分别对环境音数据以及惯性传感器数据进行时序相关的全局特征提取，然后基于全局声音特征以及全局惯性传感器特征，结合不同模态的特征之间的关系进行融合特征提取，避免了仅通过单一模态特征进行公共交通工具的运行状态判断时，受到外界影响导致准确性较差的情况，提高了公共交通工具的运行状态判断的准确性，进而提高了到站提醒的准确性。

示例性的，以交通运行信息是公共交通工具的启停状态，并且公共交通工具处于目的地站点以及中转站点时执行到站提醒为例，本申请实施例提供了一种到站提醒的方法，该到站提醒方法的流程如图3所示。终端在第一次使用到站提醒功能前，执行步骤301，存储公共交通工具线路图；当终端开启到站提醒功能时，首先执行步骤302，确定乘车路线；进入公共交通工具后，执行步骤303，通过麦克风实时获取环境音，并且通过终端的惯性传感器采集传感器数据；执行步骤304，通过采集到的环境音以及传感器数据，判断公共交通工具的启停状态，即判断公共交通工具是处于停止运行状态还是正在运行状态，当判断公共交通工具处于正在运行的状态时，继续执行步骤303，当判断公共交通工具处于停止运行状态时，可以确定公共交通工具进入某一站点，步骤305，结合乘车路线以及已行驶的站数，判断所在站点是否为目的地站点，若进入的站点为目的地站点，则执行步骤306，发送到站提醒，若所在站点不是目的地站点，则执行步骤307，判断所在站点是否为中转站点，若确定所在站点是中转站点，则执行步骤308，发送换乘提醒，若确定所在站点不是中转站点，则继续执行步骤303。

本申请实施例通过将在公共交通工具上获取到的声音以及在终端的惯性传感器采集到的惯性传感器数据进行结合，判断公共交通工具的启停状态，从而结合目标路线，确定公共交通工具处于停止状态时所处的站点，进而进行到站提醒，由于结合了声音以及惯性传感器采集数据两方面的特征对公共交通工具进行启停状态的判断，避免了单独利用声音数据进行启停状态判断时，受到麦克风堵塞等因素的影响，对公共交通工具启停状态判断出现错误的情况；也避免了单独利用惯性传感器采集的数据进行启停状态判断时，受到终端姿态的变化影响，导致的对公共交通工具启停状态判断不准确的情况；因此，结合这两种数据特征，使其进行互补，从而提高了公共交通工具启停判断算法的鲁棒性。

图4示出了本申请一个示例性实施例提供的到站提醒方法的流程图。其中，该到站提醒方法可以由终端执行，例如，该终端可以是具有声音采集功能以及惯性传感器数据采集功能的终端，例如，该终端可以是上述图1所示应用场景中的终端100。该到站提醒方法包括如下步骤：

步骤401，获取公共交通工具的目标路线。

在一种可能的实现方式中，上述公共交通工具的目标路线可以由用户进行设置，比如，终端可以展示路线设置界面，根据用户在路线设置界面中设置的起始站点和目的站点，获取目标路线。

也就是说，在本申请实施例中，终端可以在应用程序界面上展示路线设置界面，并通过接收用户在路线设置界面中设置的起始站点以及目的站点，生成从起始站点到目的站点的目标路线。

在一种可能的实现方式中，终端在展示上述路线设置界面时，可以实时获取用户位置信息，根据用户当前所处的位置信息确定起始站点。

或者，终端也可以根据用户在路线设置界面中对起始站点的选择操作，确定起始站点。类似的，终端可以根据用户在路线设置界面中对目的站点的选择操作，确定目的站点。

在获取到起始站点和目标站点之后，终端可以基于预先存储的公共交通工具的线路图，获取先后经过起始站点和目标站点的至少一条路线，从至少一条路线中确定目标路线。其中，终端可以对至少一条路线中的一条路线进行自动推荐，确定自动推荐的路线为目标路线，或者，终端也可以在界面上显示至少一条路线，通过接收用户的选择操作确定其中的目标路线。

示例性的，基于自动推荐确定目标路线时，可以获取至少一条路线中的起始站点到目标站点之间的间隔站数，将间隔站数最少的路线确定为目标路线，也可以获取公共交通工具通过至少一条路线从起始站点到目标站点所用的预计行驶时间，将预计行驶时间最短的路线确定为目标路线。

可选的，当用户使用支付类应用程序进行刷卡乘坐交通工具时，终端可以确认用户已经进入或者将要进入公共交通工具，此时可以开启到站提醒功能。

也就是说，在用户开启用于实现到站提醒的应用程序后，可以通过用户手动输入的方式，输入起始站点以及目的站点，并且选择合适的路线作为目标路线。

在另一种可能的实现方式中，终端也可以基于用户的行为习惯进行线路预测，确定目标路线。

其中，终端根据用户的历史移动轨迹进行路线预测，可以获取目标路线。历史移动轨迹可以是终端统计到的指定时间内用户的移动轨迹。

也就是说，终端将历史移动轨迹中的各条移动轨迹与公共交通工具的完整路线图进行匹配，获取各条移动轨迹在完整路线图中所覆盖的路线，若各个所覆盖的路线中存在指定路线，该指定路线的数量在全部所覆盖路线的数量中所占的比例大于指定阈值，则将该指定路线确定为目标路线(比如，存在3条历史移动轨迹，分别为移动轨迹A、移动轨迹B以及移动轨迹C，移动轨迹A在完整路线图上所覆盖的路线是从站点a到站点b的路线，移动轨迹B在完整路线图上所覆盖的路线是从站点b到站点c的路线，移动轨迹C在完整路线图上所覆盖的路线是从站点a到站点b的路线，由于移动轨迹A以及移动轨迹C均覆盖了站点a到站点b的路线，且在全部所覆盖路线中所占的比例大于1/2，则将站点a到站点b的路线确定为目标路线)。

另外，根据用户的历史移动轨迹进行路线预测，还可以通过机器学习模型预测的方式进行。

比如，将历史移动轨迹输入目标路线预测模型中，由目标路线预测模型输出目标路线。该目标路线预测模型可以是基于历史移动轨迹样本以及路线标签训练得到的神经网络模型。

示例性的，终端可以获取用户在当前时间之前的指定时间(比如一周或一个月)内的移动轨迹，通过用户的移动轨迹进行统计分析或者机器学习模型预测，获得用户将要乘坐的公共交通工具的目标路线。

步骤402，获取目标时间段内的环境音数据和目标时间段内的惯性传感器数据。

在本申请实施例中，在应用程序启动了到站提醒功能后，终端可以按照一定的周期，实时的进行音频和传感器数据的采集，获得目标时间段内的环境音数据和目标时间段内的惯性传感器数据。

在一种可能的实现方式中，终端每采集到一个目标时间段内的环境音数据以及惯性传感器数据之后，即可以执行一次交通运行信息的获取步骤。

示例性的，终端每次可以获取2s内采集到的环境音数据以及惯性传感器数据，作为目标时间段内采集到的数据。

步骤403，对至少两个音频数据段分别进行音频特征提取，获得至少两个音频数据段各自的梅尔频率倒谱系数特征。

在本申请实施例中，目标时间段内的环境音数据包含至少两个音频数据段，终端对至少两个音频数据段分别进行音频特征提取，得到至少两个音频数据段各自对应的梅尔频率到谱系数特征。

在一种可能的实现方式中，由于终端麦克风实时采集环境音数据，数据整体上并不是平稳的，但其局部可以看作平稳数据，所以对目标时间段内的环境音数据进行分帧处理，得到目标时间段内连续时序排列的至少两个音频数据段。

其中，环境音数据的采样频率可以是16kHz，而惯性传感器数据的采样频率可以是200Hz，由于环境音数据的采样频率远远高于惯性传感器数据的采样频率，因此，终端可以对环境音数据进行初步的特征提取，使得目标时间段内的环境音数据的特征可以与目标时间段内的惯性传感器数据的特征在数量上相匹配。

在一种可能的实现方式中，终端可以对至少两个音频数据段进行初步特征提取，得到初步音频特征，初步音频特征包括各个音频数据段的梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)。

其中，图5是本申请实施例涉及的一种梅尔频率倒谱系数提取流程图。如图5所示，进行梅尔频率倒谱系数的提取可以包括如下步骤：

首先，音频数据段经过预加重模块501进行预加重处理，预加重模块可以采用高通滤波器，其只允许高于某一频率的信号分量通过，而抑制低于该频率的信号分量，从而去除音频数据段中人的交谈声、脚步声和机械噪音等不必要的低频干扰，使音频数据段的频谱变得平坦。高通滤波器的数学表达式为：

H(z)＝1-az ^-1

其中，a是修正系数，一般取值范围为0.95至0.97，z是音频数据段的音频信号。

将去除噪音后的音频数据段通过分帧加窗模块502进行分帧处理，得到不同音频帧对应的音频数据。

示意性的，本实施例中可以将包含512个数据点的音频数据划分为一帧，当音频数据的采样频率选取为16kHz时，一帧音频数据的时长为32ms。为了避免两帧数据之间的变化过大，同时也为了避免加窗处理后音频帧两端的数据丢失，本申请可以在每取完一帧数据后，向后滑动16ms再取下一帧数据，即相邻两帧数据重叠16ms。

由于分帧处理后的音频数据在后续特征提取时需要进行离散傅里叶变换，而一帧音频数据没有明显的周期性，即帧左端和帧右端不连续，经过傅里叶变换后与原始数据会产生误差，分帧越多误差越大，为了使分帧后的音频数据连续，且每一帧音频数据表现出周期函数的特征，本申请实施例所示的方案通过分帧加窗模块502进行分帧加窗处理。

在一种可能的实施方式中，终端可以采用汉明窗对音频帧进行加窗处理。其中，将每一帧音频数据乘以汉明窗函数，得到的音频数据就有了明显的周期性。汉明窗的函数形式为：

其中，n为整数，n的取值范围为0至M，M是傅里叶变换的点数，示意性的，本实施例取512个数据点作为傅里叶变换的点数。

在一种可能的实现方式中，由于从音频信号在时域上的变换中很难得到其信号特性，通常需要把时域信号转换为频域上的能量分布来处理，因此终端先将音频帧数据输入傅里叶变换模块503进行傅里叶变换，然后将傅里叶变换后的音频帧数据输入能量谱计算模块504，计算音频帧数据的能量谱。为了将其能量谱转化为符合人耳听觉的梅尔谱，需要将能量谱输入梅尔滤波处理模块505进行滤波处理，滤波处理的数学表达式为：

其中，f为傅里叶变换后的频点。

得到音频帧的梅尔谱之后，终端通过离散余弦变换(Discrete Cosine Transform，DCT)模块506对其取对数，得到的DCT系数即为MFCC特征。

示意性的，本申请实施例可以选取64维的MFCC特征，终端在实际提取特征时，音频数据的输入窗口长度可以选为200ms，而一帧信号的时间长度为32ms，相邻两帧数据之间有16ms的重叠部分，因此每一个200ms的输入窗口数据对应生成的特征为12*64的矩阵。

步骤404，对至少两个音频数据段各自的梅尔频率倒谱系数特征进行特征提取，获得至少两个音频数据段各自的声音局部特征。

在本申请实施例中，至少两个音频数据段各自经过上述的MFCC特征提取，得到各自对应的MFCC特征，对至少两个音频数据段各自对应的MFCC特征分别进行局部特征提取，可以得到至少两个音频数据段各自对应的声音局部特征。

在一种可能的实现方式中，终端可以通过第一卷积神经网络对各个音频数据段对应的MFCC特征进行局部特征提取，获取各个音频数据段的声音局部特征。

其中，第一卷积神经网络是用于提取各个音频数据段的局部特征的卷积神经网络(Convolutional Neural Network，CNN)，利用该卷积神经网络进行局部特征提取可以去除各个音频特征数据段的MFCC特征中的冗余的特征信息。

示例性的，若目标时间段是2s，并且各个音频数据段均为200ms，则目标时间段内采集到的环境音数据可以分为10个200ms的音频数据段，各个音频数据段提取得到的MFCC特征分别经过第一卷积神经网络进行局部特征提取，得到各个音频数据段对应的声音局部特征。

步骤405，按照至少两个音频数据段的时域顺序，基于自注意力机制对至少两个音频数据段各自的声音局部特征进行处理，获得全局声音特征。

在本申请实施例中，终端按照时域上从先到后的顺序，对各个音频数据段对应的声音局部特征进行自注意力处理，得到目标时间段内的环境音数据对应的一个全局声音特征。

也就是说，该全局声音特征是基于各个音频数据段之间的时序关系，将各个音频数据段各自的声音局部特征进行融合后得到的一个全局特征。

在一种可能的实现方式中，终端可以按照至少两个音频数据段的时域顺序，基于自注意力机制对至少两个所述音频数据段各自的声音局部特征进行处理，获得至少两个所述音频数据段各自的注意力权重；然后，基于至少两个音频数据段各自的注意力权重，对至少两个音频数据段各自的声音局部特征进行加权处理，获得全局声音特征。

其中，终端可以将至少两个音频数据段各自的声音局部特征按照时域顺序输入第一自注意力网络，并且由第一自注意力网络进行时序相关的全局特征提取，得到全局声音特征。

示例性的，若目标时间段是2s，并且各个音频数据段均为200ms，终端将第一卷积神经网络输出的10个音频数据段分别对应的声音局部特征，按照时域顺序输入第一自注意力网络中，第一自注意力网络基于自注意力机制，确定各个音频数据段对应的注意力权重，将10个音频数据段的声音局部特征与各自对应的注意力权重进行加权处理，得到全局声音特征。

其中，基于至少两个音频数据段各自的注意力权重，可以对至少两个音频数据段各自的声音局部特征进行加权求和处理或者加权拼接处理，获得全局声音特征。

例如，以A、B、C这三个声音局部特征为例，假设基于自注意力机制得到的注意力权重为(0.2，0.6，0.2)，一种情况下，将3个声音局部特征与各自对应的注意力权重进行加权求和处理，则全局声音特征D＝A*0.2+B*0.6+C*0.2。

在另一种可能的实现方式中，终端也可以将各个音频数据段对应的注意力权重，与各个音频数据段对应的声音局部特征相乘后拼接，作为全局声音特征。

比如，当声音局部特征为A、B、C时，基于自注意力机制得到的注意力权重为(0.1，0.3，0.6)，则全局声音特征D为(A*0.2，B*0.6，C*0.2)。

步骤406，对至少两个传感器数据段进行特征提取，获得至少两个传感器数据段各自的传感器局部特征。

在本申请实施例中，目标时间段内采集到的惯性传感器数据包含至少两个传感器数据段，对至少两个传感器数据段分别进行局部特征提取，可以得到至少两个传感器数据段各自对应的传感器局部特征。

在一种可能的实现方式中，终端可以通过第二卷积神经网络对各个传感器数据段进行局部特征提取，获取各个传感器数据段的传感器局部特征。

其中，第二卷积神经网络是用于提取各个传感器数据段的局部特征的卷积神经网络，利用该卷积神经网络进行局部特征提取可以去除各个传感器数据段中的冗余的特征信息。

示例性的，若目标时间段是2s，并且各个传感器数据段均为200ms，则目标时间段内采集到的惯性传感器数据可以分为10个200ms的传感器数据段，各个传感器数据段分别经过第二卷积神经网络进行局部特征提取，得到各个传感器数据段对应的传感器局部特征。

步骤407，按照至少两个传感器数据段的时域顺序，基于自注意力机制对至少两个传感器数据段各自的传感器局部特征进行处理，获得全局惯性传感器特征。

在本申请实施例中，终端按照时域上从先到后的顺序，对各个传感器数据段对应的声音局部特征进行自注意力处理，得到目标时间段内的惯性传感器数据对应的一个全局惯性传感器特征。

也就是说，该全局惯性传感器特征是基于各个传感器数据段之间的时序关系，将各个传感器数据段各自的传感器局部特征进行融合后得到的一个全局特征。

在一种可能的实现方式中，终端可以按照至少两个传感器数据段的时域顺序，基于自注意力机制对至少两个传感器数据段各自的传感器局部特征进行处理，获得至少两个传感器数据段各自的注意力权重；然后，基于至少两个传感器数据段各自的注意力权重，对至少两个传感器数据段各自的传感器局部特征进行加权处理，获得全局惯性传感器特征。

其中，终端可以将至少两个传感器数据段各自的传感器局部特征按照时域顺序输入第二自注意力网络，并且由第二自注意力网络进行时序相关的全局特征提取，得到全局惯性传感器特征。

示例性的，若目标时间段是2s，并且各个惯性传感器数据段均为200ms，终端将第二卷积神经网络输出的10个传感器数据段分别对应的惯性传感器局部特征，按照时域顺序输入第二自注意力网络中，第二自注意力网络基于自注意力机制，确定各个传感器数据段对应的注意力权重，将10个传感器数据段的惯性传感器局部特征与各自对应的注意力权重进行加权处理，得到全局惯性传感器特征。

其中，基于至少两个传感器数据段各自的注意力权重，可以对至少两个传感器数据段各自的惯性传感器局部特征进行加权求和处理或者加权拼接处理，获得全局惯性传感器特征。

例如，以X、Y、Z这三个惯性传感器局部特征为例，假设基于自注意力机制得到的注意力权重为(0.1，0.3，0.6)，一种情况下，将3个惯性传感器局部特征与各自对应的注意力权重进行加权求和处理，则全局惯性传感器特征W＝X*0.1+Y*0.3+Z*0.6。

在另一种可能的实现方式中，终端也可以将各个惯性传感器数据段对应的注意力权重，与各个惯性传感器数据段对应的传感器局部特征相乘后拼接，作为全局惯性传感器特征。

比如，当惯性传感器局部特征为X、Y、Z时，基于自注意力机制得到的注意力权重为(0.1，0.3，0.6)，则全局惯性传感器特征W为(X*0.1，Y*0.3，Z*0.6)。

步骤408，将全局声音特征和全局惯性传感器特征进行拼接。

在本申请实施例中，终端将全局声音特征以及全局惯性传感器特征进行特征拼接，得到拼接后的全局特征。

在一种可能的实现方式中，全局声音特征包括目标时间段内的至少两个时间段各自对应的全局声音子特征；全局惯性传感器特征包括目标时间段内至少两个时间段各自对应的全局惯性传感器子特征。将目标时间段内的至少两个时间段各自对应的全局声音子特征以及全局惯性传感器子特征进行拼接。

示例性的，若全局声音特征为D，全局惯性传感器特征为W，则拼接后的全局特征可以是(D，W)；若D为(A*0.2，B*0.6，C*0.2)，则全局声音子特征可以为A*0.2、B*0.6以及C*0.2；若W为(X*0.1，Y*0.3，Z*0.6)，则全局惯性传感器子特征可以为X*0.1、Y*0.3以及Z*0.6。

其中，全局声音子特征的维度数量与全局惯性传感器子特征的维度数量相同。

在一种可能的实现方式中，全局声音子特征各自的维度数量由第一自注意力网络的输出特征维度确定，全局惯性传感器子特征各自的维度数量由第二自注意力网络的输出特征维度确定。

示例性的，第一卷积神经网络提取各个音频数据段的声音局部特征，若该声音局部特征的特征维度为N，且目标时间段中包含有10个音频数据段，则可以由第一卷积神经网络输出10个局部特征构成的10×N的声音局部特征向量，将10×N的声音局部特征向量输入第一自注意力网络中，提取得到10×N的全局声音特征向量。第二卷积神经网络提取各个传感器数据段的传感器局部特征，若该传感器局部特征的特征维度为N，且目标时间段中包含有10个传感器数据段，则可以由第二卷积神经网络输出10个局部特征构成的10×N的传感器局部特征向量，将10×N的传感器局部特征向量输入第二自注意力网络中，提取得到10×N的全局惯性传感器特征向量。将10×N的全局声音特征向量以及10×N的全局惯性传感器特征向量按行进行堆叠，得到20×N的拼接后的全局特征向量，将20×N的拼接后的全局特征向量输入第三自注意力网络中，最终得到20×N的融合特征向量，其中，20为时间长度，20×N的融合特征向量指示20个N维向量特征。

步骤409，基于自注意力机制对拼接后的全局声音特征和全局惯性传感器特征进行处理，获得全局声音特征和全局惯性传感器特征各自的注意力权重，基于全局声音特征和全局惯性传感器特征各自的注意力权重，获取融合特征。

在本申请实施例中，终端通过自注意力机制对拼接后的全局特征进行处理，得到全局特征中全局声音特征以及全局惯性传感器特征这两种模态各自对应的注意力权重。终端基于两种模态分别对应的注意力权重，对两种模态的全局特征进行特征融合，得到融合特征。

在一种可能的实现方式中，基于自注意力机制对拼接后的全局声音特征和全局惯性传感器特征进行处理，获得全局声音子特征各自的注意力权重和全局惯性传感器子特征各自的注意力权重；基于全局声音子特征各自的注意力权重和全局惯性传感器子特征各自的注意力权重，获取融合特征。

其中，各个时间段对应的全局声音子特征可以是各个音频数据段对应的声音局部特征在基于自注意力机制进行处理后得到的特征。各个时间段对应的全局惯性传感器子特征可以是各个传感器数据段对应的传感器局部特征在基于自注意力机制进行处理后得到的特征。

拼接后的全局声音特征和全局惯性传感器特征通过第三自注意力网络，可以提取不同模态之间的关系，并且考虑到了时序对融合特征的影响，进行全局特征提取得到融合特征。

在一种可能的实现方式中，终端基于全局声音特征和全局惯性传感器特征各自的注意力权重，对全局声音特征和全局惯性传感器特征进行加权求和或者加权平均，获得融合特征。

其中，拼接后的全局声音特征和全局惯性传感器特征通过第三自注意力网络，可以提取不同模态之间的关系，进行全局特征提取得到融合特征。

示例性的，基于自注意力机制可以确定全局声音特征以及全局惯性传感器特征各自对应的注意力权重分别为0.2以及0.8，若拼接后的全局特征是(D，W)，通过上述方法进行加权求和得到的融合特征为D*0.2+W*0.8，通过上述方法进行加权平均得到加权平均结果为E＝(D*0.2+W*0.8)/2，得到的融合特征为(E，E)。

在一种可能的实现方式中，基于全局声音子特征和全局惯性传感器子特征各自的注意力权重，对全局声音子特征和全局惯性传感器子特征进行加权求和或者加权平均，获得融合特征。

示例性的，若拼接后的全局特征是(A，B，X，Y)，基于自注意力机制可以确定全局声音子特征以及全局惯性传感器子特征各自对应的注意力权重分别为0.2、0.3、0.1以及0.5，通过上述方法乘以各自注意力权重之后进行求和，得到的融合特征为A*0.2+B*0.3+X*0.1+Y*0.5。通过上述方法乘以各自注意力权重之后进行求和平均，加权平均结果为E＝(A*0.2+B*0.3+X*0.1+Y*0.5)/4。由此可见，得到的融合特征为(E，E，E，E)。

在另一种可能的实现方式中，终端也可以基于全局声音特征和全局惯性传感器特征各自的注意力权重，对全局声音特征和全局惯性传感器特征乘以各自的注意力权重后，将乘以各自注意力权重之后的两种特征进行拼接后作为融合特征。

示例性的，基于自注意力机制可以确定全局声音特征以及全局惯性传感器特征各自对应的注意力权重分别为0.2以及0.8，若拼接后的全局特征是(D，W)，则融合特征为(D*0.2，W*0.6)。

例如，若拼接后的全局特征是(A*0.2，B*0.6，C*0.2，X*0.1，Y*0.3，Z*0.6)，通过上述方法乘以各自注意力权重之后的两种特征进行拼接得到的融合特征为(A*0.2*0.2，B*0.6*0.2，C*0.2*0.2，X*0.1*0.8，Y*0.3*0.8，Z*0.6*0.8)。

可选的，在本申请实施例中，终端基于两种模态分别对应的注意力权重，对两种模态的全局特征进行特征融合时，还可以进一步结合环境音数据的平滑参数进行特征融合。

在一种可能的实现方式中，对于环境音数据中的至少两个音频数据段，终端可以获取至少两个音频数据段各自的音量均值；基于至少两个音频数据段各自的音量均值，获取环境音数据的音量均值；然后根据环境音数据的音量均值，以及至少两个音频数据段各自的音量均值，获取环境音数据的音量的平滑参数，其中，该平滑参数用于指示环境音数据的音量的平滑程度。在对两种模态的全局特征进行特征融合之前，终端可以根据环境音数据的音量的平滑参数，获取全局声音特征的调整系数，通过调整系数与全局声音特征相乘，得到调整后的全局声音特征，后续在对两种模态的全局特征进行特征融合时，可以将调整后的全局声音特征和全局惯性传感器特征进行拼接。

其中，该调整系数与环境音数据的音量的平滑参数呈负相关，也就是说，环境音数据的音量越平滑，平滑参数越小，调整系数越大；相应的，环境音数据的音量的平滑参数越大，

调整系数越小。可选的，上述平滑参数可以是标准差或者方差等表示数据集的离散程度的参数。

由于公共交通工具在运行过程中，车厢内通常会产生不规律的环境噪音，比如突然发生的吵嚷声等等，这些不规律的环境噪音可能会对全局声音特征的准确性造成影响，对此，本申请实施例所示的方案中，终端在对全局声音特征和全局惯性传感器特征进行融合之前，可以先根据环境音数据的音量的平滑程度对全局声音特征进行抑制或者增强，从而动态的调节全局声音特征在融合特征中的比重。比如，环境音数据的平滑参数较高，说明环境音数据中包含的不规律噪音越多，对后续到站检测的影响较大，此时，可以通过一个较小的调整系数(比如0.9)对全局声音特征进行抑制，以降低全局声音特征在融合特征中的比重；反之，环境音数据的平滑参数较低，说明环境音数据中包含的不规律噪音越少，对后续到站检测的影响较小，此时，可以通过一个较大的调整系数(比如1.1)对全局声音特征进行增强，以提高全局声音特征在融合特征中的比重。

通过上述结合环境音数据的平滑参数进行特征融合的方案，可以对全局声音特征在融合特征中的比重进行灵活的调整，进一步提高后续到站提醒判断的准确性。

步骤410，基于融合特征获取交通运行信息。

其中，交通运行信息用于指示公共交通工具在目标时间段内的运行状态。

在一种可能的实现方式中，终端可以通过全连接网络以及分类器对融合特征进行分类处理，输出公共交通工具的交通运行信息，从确定公共交通工具在目标时间段内的运行状态。

示例性的，图6是本申请实施例涉及的一种分类模型架构图。如图6所示，终端中存储有该分类模型，用于基于终端采集到的环境音数据以及惯性传感器数据，判断公共交通工具的运行状态，该分类模型中包括第一卷积网络层61、第二卷积网络层62、第一自注意力网络层63、第二自注意力网络层64、第三自注意力网络层65、全连接网络层66以及分类器67。第一卷积网络层61用于对环境音数据进行局部特征提取，2s的环境音数据分为10个200ms的音频数据段，对10个200ms的音频数据段通过特征提取模块计算MFCC特征提取，然后依次将提取到的MFCC特征输入第一卷积神经网络层61，进行局部特征提取得到各个音频数据段对应的声音局部特征，然后，按照时域顺序将各个声音局部特征输入第一自注意力网络层63，通过第一自注意力网络层63的时序相关的全局特征提取，得到全局声音特征。同时，第二卷积网络层62用于对惯性传感器数据进行局部特征提取，2s的惯性传感器数据分为10个200ms的传感器数据段，将10个200ms的传感器数据段依次输入第二卷积神经网络层62，进行局部特征提取得到各个传感器数据段对应的惯性传感器局部特征，然后，按照时域顺序将各个惯性传感器局部特征输入第二自注意力网络层64，通过第二自注意力网络层64的时序相关的全局特征提取，得到全局惯性传感器特征。将2s内得到的全局惯性传感器特征以及全局声音特征输入第三自注意力网络层65，该第三自注意力网络层65用于对多模态进行自注意力权重分配提取全局特征，由第三自注意力网络层65输出融合特征，将融合特征输入全连接网络66以及分类器67中，输出该融合特征对应的交通运行信息。

其中，分类器67可以采取不同算法的分类器，比如SVM(Support Vector Machine，支持向量机)、决策树分类模型算法以及二分类模型算法等。

在一种可能的实现方式中，上述分类模型的训练过程可以如下：模型训练设备获取样本时间段内的样本环境音数据以及样本惯性传感器数据；将样本环境音数据以及样本惯性传感器数据输入分类模型，获得分类模型输出的预测交通运行信息；基于预测交通运行信息，以及样本环境音数据以及样本惯性传感器数据对应的交通运行信息标签获取损失函数值；基于损失函数值对分类模型的模型参数进行更新。

步骤411，基于交通运行信息执行到站提醒。

在本申请实施例中，终端通过获取到的目标时间段内的交通运行信息确定目标时间段内的公共交通工具的运行情况，基于获取到的公共交通工具的运行情况执行到站提醒。

其中，交通运行信息用于指示公共交通工具在目标时间段内的运行状态是否为停止状态。在交通运行信息指示公共交通工具在目标时间段内的运行状态为停止状态的情况下，执行到站提醒。

在一种可能的实现方式中，在交通运行信息指示公共交通工具在目标时间段内的运行状态为停止状态的情况下，终端可以获取公共交通工具的当前位置；在公共交通工具的当前位置与目标路线上的指定站点相匹配的情况下，执行到站提醒。

其中，指定站点可以是目标路线上的目的站点或者换乘站点。

在获取公共交通工具的当前位置时，若公共交通工具为地铁或高铁等轨道交通工具，则终端可以结合本次乘坐公共交通工具过程中的历次停止情况，确定当前位置对应的站点。

示例性的，响应于检测到公共交通工具第i次停止(比如，获取到公共交通工具处于停止状态的持续时长大于等于第一阈值，则认为公共交通工具停止)，终端确定公共交通工具在目标线路上的所处站点为起始站点之后的第i个站点；响应于第i个站点或者第i+1个站点为指定站点，确定指定站点的站点种类，站点种类包括目的站点以及换乘站点；基于指定站点的站点种类，获取与站点种类对应的提醒信息；基于提醒信息进行到站提醒。

或者，终端也可以在检测到公共交通工具的运行状态为停止状态时，获取公共交通工具的当前位置，结合公共交通工具的当前位置以及目标路线中各个站点的位置，确定与公共交通工具的当前位置相对应的站点。

在获取公共交通工具的当前位置时，终端还可以通过定位系统获取终端的当前位置，或者，可以通过惯性传感器数据确定终端的当前位置。

由于公共交通工具可能在非站点的位置停车，比如，公交车可能会因为等红灯等原因停车，即便是轨道交通工具，也可能会因为路线调度或者路线故障等原因在非站点位置停车，因此，仅通过公共交通工具的停止次数无法准确的确定公共交通工具所在的站点。对此，本申请实施例所示的方法还可以通过定位系统获取终端的当前位置(比如通过卫星定位、蜂窝网络定位、无线接入点定位等方式获取当前位置)；可选的，公共交通工具的目标路线上可能存在无法通过定位系统进行定位的位置(比如无信号的地下轨道中)，此时，终端还可以从上一次通过定位系统获取到的终端位置开始，通过惯性传感器数据确定终端的移动轨迹，并结合终端内置的地图数据以及上述移动轨迹，确定终端的当前位置。

在一种可能的实现方式中，在连续N次获取到的交通运行信息指示公共交通工具的运行状态为停止状态的情况下，执行到站提醒。

示例性的，图7是本申请实施例涉及的一种到站判断方法的流程图，如图7所示。首先执行步骤71，采集目标时间段内的环境音数据，然后执行步骤72，将环境音数据进行音频特征前处理，提取环境音数据对应的各个音频数据段的MFCC特征，即上述实施例中的每一个窗口200ms的数据对应的特征为12*64的矩阵，然后执行步骤73，将提取到的各个音频数据段的MFCC特征与采集到的惯性传感器数据输入卷积神经网络以及自注意力网络进行多模态特征融合的网络模型结构，其中，环境音数据和惯性传感器数据均为2s，自注意力网络具有提取时序特征的特性，因此将2s数据各拆分为10个200ms的数据段，每200ms为一个独立帧的数据，CNN提取独立帧的数据局部特征，之后形成10个局部特征，再输入到自注意力网络中提取时序相关特征，可以更好的提取数据整体特征，从而结合了CNN与自注意力网络各自的优势，即CNN更擅长提取局部特征，自注意力网络更擅长提取全局时序特征。得到融合特征后，判断目标时间段内是否处于停止状态，若处于停止状态则执行步骤74，持续检测公共交通工具的运行状态，比如，若地铁到站停止时间一般有20s以上，本申请实施例输入模型的数据窗口长度为2秒，可以持续检测地铁与运行状态，若连续检测到5次地铁处于停止状态，则认为地铁到达了一个站点。

其中，若公共交通工具进入站点需要连续处于停止状态20s或以上，上述实施例中的目标时间段为2s，在连续5次获取到交通运行信息指示公共交通工具的运行状态为停止状态的情况下，确定当前所处站点是否为指定站点，若确定当前所处站点为指定站点，则执行与指定站点对应的到站提醒。

比如，若终端判断用户到达目标站点，则终端提醒用户即将到站注意下车，并可以推送该指定站点附近的地图信息，若终端判断用户到达换乘站点，则终端提醒用户进行换乘，并可以提醒换乘车辆的首末班时间信息。

综上所述，本申请实施例中，通过实时采集环境音数据以及惯性传感器数据，并分别对环境音数据以及惯性传感器数据进行时序相关的全局特征提取，然后基于全局声音特征以及全局惯性传感器特征，结合不同模态之间的关系进行融合特征提取，避免了仅通过单一模态特征进行公共交通工具的运行状态判断时，受到外界影响导致准确性较差的情况，由于提高了公共交通工具的运行状态判断的准确性，进而提高了到站提醒的准确性。

图8示出了本申请一个示例性实施例提供的到站提醒装置的结构框图。该到站提醒装置用于执行上述图2或图4所示的方案中，由终端执行的全部或者部分步骤，该到站提醒装置包括：

数据获取模块810，用于获取目标时间段内的环境音数据和所述目标时间段内的惯性传感器数据；

第一特征提取模块820，用于基于所述环境音数据的时序对所述环境音数据进行特征提取，获得全局声音特征；

第二特征提取模块830，用于基于所述惯性传感器数据的时序对所述惯性传感器数据进行特征提取，获得全局惯性传感器特征；

特征融合模块840，用于基于自注意力机制对所述全局声音特征和所述全局惯性传感器特征进行融合处理，获得融合特征；

信息获取模块850，用于基于所述融合特征获取交通运行信息；所述交通运行信息用于指示公共交通工具在所述目标时间段内的运行状态；

提醒模块860，用于基于所述交通运行信息执行到站提醒。

在一种可能的实现方式中，所述特征融合模块840，包括：

特征拼接子模块，用于将所述全局声音特征和所述全局惯性传感器特征进行拼接；

权重获取子模块，用于基于自注意力机制对拼接后的所述全局声音特征和所述全局惯性传感器特征进行处理，获得所述全局声音特征和所述全局惯性传感器特征各自的注意力权重；

特征融合子模块，用于基于所述全局声音特征和所述全局惯性传感器特征各自的注意力权重，获取所述融合特征。

在一种可能的实现方式中，所述全局声音特征包括所述目标时间段内的至少两个时间段各自对应的全局声音子特征；所述全局惯性传感器特征包括所述目标时间段内至少两个时间段各自对应的全局惯性传感器子特征；

所述特征拼接子模块，包括：

拼接单元，用于将所述目标时间段内的至少两个时间段各自对应的所述全局声音子特征以及所述全局惯性传感器子特征进行拼接；所述全局声音子特征的维度数量，与所述全局惯性传感器子特征的维度数量相同；

所述权重获取子模块，包括：

权重单元，用于基于自注意力机制对拼接后的所述全局声音特征和所述全局惯性传感器特征进行处理，获得所述全局声音子特征各自的注意力权重和所述全局惯性传感器子特征各自的注意力权重；

所述特征融合子模块，包括：

融合特征获取单元，用于基于所述全局声音子特征各自的注意力权重和所述全局惯性传感器子特征各自的注意力权重，获取所述融合特征。

在一种可能的实现方式中，所述融合特征获取单元，用于，

基于所述全局声音子特征各自的注意力权重和所述全局惯性传感器子特征各自的注意力权重，对所述全局声音子特征和所述全局惯性传感器子特征进行加权求和或者加权平均，获得所述融合特征。

在一种可能的实现方式中，所述环境音数据包含至少两个音频数据段；

所述第一特征提取模块820，包括：

第一提取子模块，用于对至少两个所述音频数据段分别进行音频特征提取，获得至少两个所述音频数据段各自的梅尔频率倒谱系数特征；

第一局部获取子模块，用于对至少两个所述音频数据段各自的梅尔频率倒谱系数特征进行特征提取，获得至少两个所述音频数据段各自的声音局部特征；

第一全局获取子模块，用于按照至少两个所述音频数据段的时域顺序，基于自注意力机制对至少两个所述音频数据段各自的声音局部特征进行处理，获得所述全局声音特征。

在一种可能的实现方式中，所述第一全局获取子模块，包括：

第一权重获取单元，用于按照至少两个所述音频数据段的时域顺序，基于自注意力机制对至少两个所述音频数据段各自的声音局部特征进行处理，获得至少两个所述音频数据段各自的注意力权重；

第一全局获取单元，用于基于至少两个所述音频数据段各自的注意力权重，对至少两个所述音频数据段各自的声音局部特征进行加权处理，获得所述全局声音特征。

在一种可能的实现方式中，所述惯性传感器数据包含至少两个传感器数据段；

所述第二特征提取模块830，包括：

第二局部获取子模块，用于对至少两个所述传感器数据段进行特征提取，获得至少两个所述传感器数据段各自的传感器局部特征；

第二全局获取子模块，用于按照至少两个所述传感器数据段的时域顺序，基于自注意力机制对至少两个所述传感器数据段各自的传感器局部特征进行处理，获得所述全局惯性传感器特征。

在一种可能的实现方式中，所述第二全局获取子模块，包括：

第二权重获取单元，用于按照至少两个所述传感器数据段的时域顺序，基于自注意力机制对至少两个所述传感器数据段各自的传感器局部特征进行处理，获得至少两个所述传感器数据段各自的注意力权重；

第二全局获取单元，用于基于至少两个所述传感器数据段各自的注意力权重，对至少两个所述传感器数据段各自的传感器局部特征进行加权处理，获得所述全局惯性传感器特征。

在一种可能的实现方式中，所述交通运行信息用于指示公共交通工具在所述目标时间段内的运行状态是否为停止状态；

所述提醒模块860，包括：

提醒子模块，用于在所述交通运行信息指示公共交通工具在所述目标时间段内的运行状态为停止状态的情况下，执行到站提醒。

在一种可能的实现方式中，所述提醒子模块，包括：

位置获取单元，用于在所述交通运行信息指示公共交通工具在所述目标时间段内的运行状态为停止状态的情况下，获取所述公共交通工具的当前位置；

提醒单元，用于在所述公共交通工具的当前位置与目标路线上的指定站点相匹配的情况下，执行到站提醒；所述指定站点是所述目标路线上的目的站点或者换乘站点。

在一种可能的实现方式中，所述装置还包括：

界面展示模块，用于获取目标时间段内的环境音数据和所述目标时间段内的惯性传感器数据之前，展示路线设置界面；

目标路线获取模块，用于根据用户在所述路线设置界面中设置的起始站点和目的站点，，获取所述目标路线。

在一种可能的实现方式中，所述终端还包括：

目标路线获取模块，用于根据用户的历史移动轨迹进行路线预测，获取所述目标路线。

在一种可能的实现方式中，所述提醒子模块，包括：

到站提醒单元，用于在连续N次获取到的所述交通运行信息指示公共交通工具的运行状态为停止状态的情况下，执行到站提醒。

图9示出了本申请一个示例性实施例提供的终端的结构方框图。该终端可以是智能手机、平板电脑、电子书、便携式个人计算机等安装并运行有应用程序的电子设备。本申请中的终端可以包括一个或多个如下部件：处理器910、存储器920和屏幕930。

处理器910可以包括一个或者多个处理核心。处理器910利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器920内的指令、程序、代码集或指令集，以及调用存储在存储器920内的数据，执行终端的各种功能和处理数据。可选地，处理器910可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器910可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责屏幕930所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器910中，单独通过一块通信芯片进行实现。

存储器920可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选地，该存储器920包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器920可用于存储指令、程序、代码、代码集或指令集。存储器920可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等，该操作系统可以是安卓(Android)系统(包括基于Android系统深度开发的系统)、IOS系统(包括基于IOS系统深度开发的系统)或其它系统。存储数据区还可以存储终端在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

屏幕930可以为电容式触摸显示屏，该电容式触摸显示屏用于接收用户使用手指、触摸笔等任何适合的物体在其上或附近的触摸操作，以及显示各个应用程序的用户界面。除此之外，本领域技术人员可以理解，上述附图所示出的终端的结构并不构成对终端的限定，终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机指令，该至少一条计算机指令由处理器加载并执行以实现如上各个实施例所述的到站提醒方法。

Claims

一种到站提醒方法，所述方法由终端执行，所述方法包括：

获取目标时间段内的环境音数据和所述目标时间段内的惯性传感器数据；

基于所述环境音数据的时序对所述环境音数据进行特征提取，获得全局声音特征；

基于所述惯性传感器数据的时序对所述惯性传感器数据进行特征提取，获得全局惯性传感器特征；

基于自注意力机制对所述全局声音特征和所述全局惯性传感器特征进行融合处理，获得融合特征；

基于所述融合特征获取交通运行信息；所述交通运行信息用于指示公共交通工具在所述目标时间段内的运行状态；

基于所述交通运行信息执行到站提醒。
根据权利要求1所述的方法，所述基于自注意力机制对所述全局声音特征和所述全局惯性传感器特征进行融合处理，获得融合特征，包括：

将所述全局声音特征和所述全局惯性传感器特征进行拼接；

基于自注意力机制对拼接后的所述全局声音特征和所述全局惯性传感器特征进行处理，获得所述全局声音特征和所述全局惯性传感器特征各自的注意力权重；

基于所述全局声音特征和所述全局惯性传感器特征各自的注意力权重，获取所述融合特征。
根据权利要求2所述的方法，所述全局声音特征包括所述目标时间段内的至少两个时间段各自对应的全局声音子特征；所述全局惯性传感器特征包括所述目标时间段内至少两个时间段各自对应的全局惯性传感器子特征；

所述将所述全局声音特征和所述全局惯性传感器特征进行拼接，包括：

将所述目标时间段内的至少两个时间段各自对应的所述全局声音子特征以及所述全局惯性传感器子特征进行拼接；所述全局声音子特征的维度数量，与所述全局惯性传感器子特征的维度数量相同；

所述基于自注意力机制对拼接后的所述全局声音特征和所述全局惯性传感器特征进行处理，获得所述全局声音特征和所述全局惯性传感器特征各自的注意力权重，包括：

基于自注意力机制对拼接后的所述全局声音特征和所述全局惯性传感器特征进行处理，获得所述全局声音子特征各自的注意力权重和所述全局惯性传感器子特征各自的注意力权重；

所述基于所述全局声音特征和所述全局惯性传感器特征各自的注意力权重，获取所述融合特征，包括：

基于所述全局声音子特征各自的注意力权重和所述全局惯性传感器子特征各自的注意力权重，获取所述融合特征。
根据权利要求3所述的方法，所述基于所述全局声音子特征各自的注意力权重和所述全局惯性传感器子特征各自的注意力权重，获取所述融合特征，包括：

基于所述全局声音子特征各自的注意力权重和所述全局惯性传感器子特征各自的注意力权重，对所述全局声音子特征和所述全局惯性传感器子特征进行加权求和或者加权平均，获得所述融合特征。
根据权利要求1所述的方法，所述环境音数据包含至少两个音频数据段；所述基于所述环境音数据的时序，对所述环境音数据进行特征提取获得全局声音特征，包括：

对至少两个所述音频数据段分别进行音频特征提取，获得至少两个所述音频数据段各自的梅尔频率倒谱系数特征；

对至少两个所述音频数据段各自的梅尔频率倒谱系数特征进行特征提取，获得至少两个所述音频数据段各自的声音局部特征；

按照至少两个所述音频数据段的时域顺序，基于自注意力机制对至少两个所述音频数据段各自的声音局部特征进行处理，获得所述全局声音特征。
根据权利要求5所述的方法，所述按照至少两个所述音频数据段的时域顺序，基于自注意力机制对至少两个所述音频数据段各自的声音局部特征进行处理，获得所述全局声音特征，包括：

按照至少两个所述音频数据段的时域顺序，基于自注意力机制对至少两个所述音频数据段各自的声音局部特征进行处理，获得至少两个所述音频数据段各自的注意力权重；

基于至少两个所述音频数据段各自的注意力权重，对至少两个所述音频数据段各自的声音局部特征进行加权处理，获得所述全局声音特征。
根据权利要求1所述的方法，所述惯性传感器数据包含至少两个传感器数据段；所述基于所述惯性传感器数据的时序，对所述惯性传感器数据进行特征提取获得全局惯性传感器特征，包括：

对至少两个所述传感器数据段进行特征提取，获得至少两个所述传感器数据段各自的传感器局部特征；

按照至少两个所述传感器数据段的时域顺序，基于自注意力机制对至少两个所述传感器数据段各自的传感器局部特征进行处理，获得所述全局惯性传感器特征。
根据权利要求7所述的方法，所述按照至少两个所述传感器数据段的时域顺序，基于自注意力机制对至少两个所述传感器数据段各自的传感器局部特征进行处理，获得所述全局惯性传感器特征，包括：

按照至少两个所述传感器数据段的时域顺序，基于自注意力机制对至少两个所述传感器数据段各自的传感器局部特征进行处理，获得至少两个所述传感器数据段各自的注意力权重；

基于至少两个所述传感器数据段各自的注意力权重，对至少两个所述传感器数据段各自的传感器局部特征进行加权处理，获得所述全局惯性传感器特征。
根据权利要求1至8任一所述的方法，所述交通运行信息用于指示公共交通工具在所述目标时间段内的运行状态是否为停止状态；

所述基于所述交通运行信息执行到站提醒，包括：

在所述交通运行信息指示公共交通工具在所述目标时间段内的运行状态为停止状态的情况下，执行到站提醒。
根据权利要求9所述的方法，所述在所述交通运行信息指示公共交通工具在所述目标时间段内的运行状态为停止状态的情况下，执行到站提醒，包括：

在所述交通运行信息指示公共交通工具在所述目标时间段内的运行状态为停止状态的情况下，获取所述公共交通工具的当前位置；

在所述公共交通工具的当前位置与目标路线上的指定站点相匹配的情况下，执行到站提醒；所述指定站点是所述目标路线上的目的站点或者换乘站点。
根据权利要求10所述的方法，所述获取目标时间段内的环境音数据和所述目标时间段内的惯性传感器数据之前，还包括：

展示路线设置界面；根据用户在所述路线设置界面中设置的起始站点和目的站点，获取所述目标路线。
根据权利要求10所述的方法，所述获取目标时间段内的环境音数据和所述目标时间段内的惯性传感器数据之前，还包括：

根据用户的历史移动轨迹进行路线预测，获取所述目标路线。
根据权利要求9所述的方法，所述在所述交通运行信息用于指示公共交通工具在所述目标时间段内的运行状态为停止状态的情况下，执行到站提醒，包括：

在连续N次获取到的所述交通运行信息指示公共交通工具的运行状态为停止状态的情况下，执行到站提醒。
一种到站提醒装置，所述装置包括：

数据获取模块，用于获取目标时间段内的环境音数据和所述目标时间段内的惯性传感器数据；

第一特征提取模块，用于基于所述环境音数据的时序对所述环境音数据进行特征提取，获得全局声音特征；

第二特征提取模块，用于基于所述惯性传感器数据的时序对所述惯性传感器数据进行特征提取，获得全局惯性传感器特征；

特征融合模块，用于基于自注意力机制对所述全局声音特征和所述全局惯性传感器特征进行融合处理，获得融合特征；

信息获取模块，用于基于所述融合特征获取交通运行信息；所述交通运行信息用于指示公共交通工具在所述目标时间段内的运行状态；

提醒模块，用于基于所述交通运行信息执行到站提醒。
一种终端，所述终端包括处理器和存储器；所述存储器中存储有至少一条计算机指令，所述至少一条计算机指令由所述处理器加载并执行以实现如权利要求1至13任一所述的到站提醒方法。
一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机指令，所述计算机指令由处理器加载并执行以实现如权利要求1至13任一所述的到站提醒方法。
一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令由终端的处理器执行，使得所述终端执行如权利要求1至13任一所述的到站提醒方法。