WO2021003955A1

WO2021003955A1 - 耳机播放状态的控制方法、装置、移动终端及存储介质

Info

Publication number: WO2021003955A1
Application number: PCT/CN2019/121190
Authority: WO
Inventors: 温桂龙
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2019-07-10
Filing date: 2019-11-27
Publication date: 2021-01-14
Also published as: CN110475170A

Abstract

本申请公开了一种耳机播放状态的控制方法、耳机播放状态的控制装置移动终端及存储介质，该方法包括：获取移动终端当前的状态信息，判断所述状态信息是否为耳机连接；当所述状态信息为耳机连接，则通过受话器获取第一环境音频；判断所述第一环境音频中是否存在单音频与预设音频匹配；当所述第一环境音频中存在所述单音频与所述预设音频对应，则根据所述预设音频对应的调节方案调节与所述移动终端相连接的耳机工作状态。

Description

耳机播放状态的控制方法、装置、移动终端及存储介质

本申请要求于2019年07月10日提交中国专利局、申请号为201910624028.5、发明名称为“耳机播放状态的控制方法、装置、移动终端及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

技术领域

本申请涉及终端控制技术领域，尤其涉及一种耳机播放状态的控制方法、移动终端及存储介质。

背景技术

随着移动终端的发展，手持移动终端已经成为人们日常生活的必备品，与移动终端配合使用的耳机成为人们长时间佩戴的可穿戴设备。由于耳机播放的声音较大，会干扰用户听取外界环境音，特别是现有降噪耳机、全包耳耳机为了提升耳机音效品质，可有效降低外界环境音，导致用户无法及时根据外界环境音作出规避危险的行为，使用户处于危险中；或忽略外界环境音，造成日常生活不便利。

发明内容

本申请的主要目的在于提供一种耳机播放状态的控制方法、耳机播放状态的控制装置、移动终端及存储介质，旨在解决由于使用耳机影响用户提取有用的外界环境音，导致生活不便利的技术问题。

为实现上述目的，本申请提出一种耳机播放状态的控制方法，所述耳机播放状态的控制方法包括：

获取移动终端当前的状态信息，判断所述状态信息是否为耳机连接；

当所述状态信息为耳机连接，则通过受话器获取第一环境音频；

判断所述第一环境音频中是否存在单音频与预设音频匹配；

当所述第一环境音频中存在所述单音频与所述预设音频对应，则根据所述预设音频对应的调节方案调节与所述移动终端相连接的耳机工作状态。

可选地，所述预设音频为一段具有语义的提示音频；所述当所述第一环境音频中存在所述单音频与所述预设音频对应，则根据所述预设音频对应的调节方案调节与所述移动终端相连接的耳机工作状态的步骤，包括

当所述第一环境音频中存在所述单音频与所述提示音频对应，则向所述耳机发送包含所述提示音频的播放指令，以使所述耳机播放所述提示音频。

可选地，所述预设音频为一段具有语义的提示音频；所述当所述第一环境音频中存在所述单音频与所述提示音频对应，则向所述耳机发送包含所述提示音频的播放指令，以使所述耳机播放所述提示音频的步骤之后，包括：

获取所述移动终端显示屏当前的显示状态，判断所述显示状态是否为亮起；

当所述显示状态为亮起，获取所述提示音频对应的语义字符，控制所述移动终端的显示屏显示所述语义字符。

可选地，所述语义字符包括进站语义字符和到站语义字符，所述当所述第一环境音频中存在所述单音频与所述提示音频对应，则向所述耳机发送包含所述提示音频的播放指令，以使所述耳机播放所述提示音频的步骤之后，包括：

判断所述语义字符是否为预设进站字符；

若所述语义字符为所述预设进站字符，则通过所述受话器获取第二环境音频；

判断所述第二环境音频中是否存在单音频与预设行驶音频对应；

当所述第二环境音频中存在单音频与所述预设行驶音频对应，则增加所述耳机的播放音量。

可选地，所述耳机播放状态的控制方法还包括：

通过所述受话器获取包含所述提示音频的第三环境音频，对所述第三环境音频进行语义识别，生成文字信息；

接收用户基于所述文字信息做出的选择操作，根据所述选择操作将所述文字信息中的全部或部分设置为语义字符；

将所述第三环境音频中与所述语义字符对应的音频设置为所述提示音频。

可选地，所述当所述第一环境音频中存在所述单音频与所述预设音频匹配，则根据所述预设音频对应的调节方案调节耳机工作状态的步骤包括：

当所述第一环境音频中存在所述单音频与所述预设音频匹配，则判断所述耳机的降噪类型是否为主动降噪；

当所述耳机的降噪类型为主动降噪，则关闭主动降噪功能并降低所述耳机播放音量；

当所述耳机的降噪类型不为主动降噪，则播放所述第一环境音频。

可选地，所述判断所述第一环境音频中是否存在单音频与预设音频对应的步骤包括：

对所述第一环境音频进行分帧处理，生成语音帧；

对所述语音帧进行特征提取，以得到每个所述语音帧对应的梅尔频率倒谱系数特征向量；

将所述梅尔频率倒谱系数特征向量输入预设音素模型中，以得到对齐的帧级语音特征向量；

通过预设状态网络，判断所述对齐的帧级语音特征向量是否和所述预设音频一致，其中，预设状态网络为通过隐马尔可夫模型构建的数据库。

本申请还提供了一种耳机播放状态的控制装置，所述控制装置包括：

第一获取模块，所述第一获取模块用于获取移动终端当前的状态信息，判断所述状态信息是否为耳机连接；

第二获取模块，所述第二获取模块用于当所述状态信息为耳机连接，则通过移动终端的受话器获取第一环境音频；

判断模块，所述判断模块用于判断所述第一环境音频中是否存在单音频与预设音频匹配；

调节模块，所述调节模块用于当所述第一环境音频中存在所述单音频与所述预设音频对应，则根据所述预设音频对应的调节方案调节与所述移动终端相连接的耳机工作状态。

本申请还提供了一种移动终端，所述移动终端包括处理器、存储器、受话器以及存储在所述存储器上的可被所述处理器执行的计算机可读指令，其中，所述计算机可读指令被所述处理器执行时，实现如上述的耳机播放状态的控制方法的步骤。

本申请还提供了一种存储介质，所述存储介质上存储有计算机可读指令，其中，所述计算机可读指令被处理器执行时，实现如上述的耳机播放状态的控制方法的步骤。

本申请技术方案中，通过受话器获取第一环境音频，根据第一环境音频判定场景，对耳机工作状态进行调节，避免用户无法及时根据外界环境音作出规避危险的行为，导致危险意外发生；避免用户因为忽略外界环境音，造成日常生活不便利。

附图说明

图1为本申请实施例方案中涉及的移动终端的硬件结构示意图；

图2为本申请耳机播放状态的控制方法第一实施例的流程示意图；

图3为本申请耳机播放状态的控制方法第二实施例的流程示意图；

图4为本申请耳机播放状态的控制方法第三实施例的流程示意图；

图5为本申请耳机播放状态的控制方法第四实施例的流程示意图；

图6为本申请耳机播放状态的控制方法第五实施例的流程示意图；

图7为本申请耳机播放状态的控制方法第六实施例的流程示意图；

图8为本申请耳机播放状态的控制方法第七实施例的流程示意图；

图9为本申请耳机播放状态的控制装置的模块示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例涉及的耳机播放状态的控制方法主要应用于移动终端，该移动终端是具有处理功能的设备，可以是手机、平板电脑、智能穿戴设备或者便携计算机。

参照图1，图1为本申请实施例方案中涉及的移动终端的硬件结构示意图。本申请实施例中，移动终端可以包括处理器1001（例如CPU），通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信；用户接口1003可以包括显示屏（Display）、输入单元比如键盘（Keyboard）、受话器（Receiver）；网络接口1004可选的可以包括WI-FI接口、SIM卡接口、蓝牙接口；存储器1005可以是高速RAM存储器，也可以是稳定的存储器（non-volatile memory），例如磁盘存储器，存储器1005可选的还可以是独立于前述处理器1001的存储装置。

受话器为一种在无声音泄漏(或按ITU标准的3.2型高/低泄漏环)条件下将音频电信号转换成声音信号的电声器件，从而实现音频采集。移动终端通过有线或无线的方式与耳机进行通信连接，移动终端发出电信号驱动耳机的振膜振动发声。

本领域技术人员可以理解，图1中示出的硬件结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

继续参照图1，图1中作为一种存储介质的存储器1005可以包括操作系统、音频播放模块、以及计算机可读指令。

在图1中，音频播放模块主要用于连接耳机，控制耳机的扬声器振动发声；而处理器1001可以调用存储器1005中存储的计算机可读指令，并执行耳机播放状态的控制方法的步骤。

基于上述终端的硬件结构，提出本申请耳机播放状态的控制方法的各个实施例。

本申请提供一种耳机播放状态的控制方法。

请参阅图2，在本申请第一实施例中，耳机播放状态的控制方法包括以下步骤：

步骤S100，获取移动终端当前的状态信息，判断所述状态信息是否为耳机连接；

本申请提供的耳机播放状态的控制方法用于移动终端，移动终端的处理器获取当前的状态信息，状态信息具体可以包括移动终端自带扬声器的工作状态、是否与外接播放设备连接、外接播放设备的工作状态等。

步骤S200，当所述状态信息为耳机连接，则通过移动终端的受话器获取第一环境音频；

耳机连接为移动终端通过耳机的扬声器进行发声。耳机与移动终端可以直接通过线路有线连接，也可以通过蓝牙等无线连接。第一环境音频为当前受话器实时采集的音频信息，第一环境音频可以包括车辆行驶噪音、风声、到站提示音、行人说话声等多种单音频混合而成。具体可以采用移动终端内安装的受话器，也可以使用与移动终端连接的受话器进行第一环境音频的采集，可以是单独的受话器，也可以是设于耳机内的受话器。

步骤S300，判断所述第一环境音频中是否存在单音频与预设音频匹配；

预设音频为本领域技术人员预先设置并存储的音频文件。具体地，可以根据实际需要设置多种预设音频，例如：汽车刹车音、到站提示音等。

步骤S400，当所述第一环境音频中存在所述单音频与所述预设音频对应，则根据所述预设音频对应的调节方案调节与所述移动终端相连接的耳机工作状态。

当所述第一环境音频中不存在所述单音频与所述预设音频对应，则不做处理。

针对不同的预设音频可以预先设置不同的调节方案，具体可以包括增大音量、降低音量、关闭主动降噪功能等，以使得耳机工作状态可以适应不同的场景。

例如：预设音频为汽车鸣笛声，将获取的第一环境音频与汽车鸣笛声比较，当第一环境音频存在单音频有与汽车鸣笛声匹配，则表示用户所处的环境中存在汽车鸣笛声，此时调用与汽车鸣笛声对应的调节方案，关闭降噪功能或降低耳机播放音量，以便用户可听到汽车鸣笛声，做出规避行为。

本申请通过受话器采集第一环境音频，再将第一环境音频与预设音频比较，以根据不同的第一环境音频调节耳机的工作状态，从而避免因为耳机内播放的音乐或耳机降噪功能，导致用户无法及时根据外界环境音作出规避危险行为或社会行为的情况。

进一步地，请参照图3，图3为本申请耳机播放状态的控制方法第二实施例的流程示意图，基于第二实施例，所述预设音频为一段具有语义的提示音频；所述步骤S400包括：

步骤S410，当所述第一环境音频中存在所述单音频与所述提示音频对应，则向所述耳机发送包含所述提示音频的播放指令，以使所述耳机播放所述提示音频。

在本实施例中预设音频为一段具有语义的提示音频，即提示音频为人声或模仿人声的音频，现有技术中的语音识别软件能将提示音频转换为文字形式表达出来。

例如：预存的提示音频为“下一站到达A站点”，当外部发出“下一站到达A站点”，受话器采集到包含“下一站到达A站点”的第一环境音频，通过比较得到第一环境音频中存在单音频与提示音频匹配，则音频播放模块控制耳机的振膜振动，发出“下一站到达A站点”的提示音。以避免用户忽略了外部发出“下一站到达A站点”，导致错过站点。

进一步地，请参照图4，图4为本申请耳机播放状态的控制方法第三实施例的流程示意图，基于第一实施例，所述步骤S410之后包括：

步骤S411，获取所述移动终端显示屏当前的显示状态，判断所述显示状态是否为亮起；

步骤S412，当所述显示状态为亮起，则获取所述提示音频对应的语义字符，控制所述移动终端的显示屏显示所述语义字符。

本领域技术人员预先设置与提示音频对应的语义字符，语义字符为与提示音频语义对应的字符。人们在乘车过程中，经常沉迷于手机显示内容中，造成错过站点，通过判断显示屏的显示状态，以判断用户当前是否正在阅读显示屏的内容，控制显示屏显示语义字符，进一步提醒用户。

进一步地，请参照图5，图5为本申请耳机播放状态的控制方法第四实施例的流程示意图，基于第三实施例，所述步骤S410之后，包括：

步骤S413，判断所述语义字符是否为预设进站字符；

步骤S414，若所述语义字符为所述预设进站字符，则通过所述受话器获取第二环境音频；

步骤S415，判断所述第二环境音频中是否存在单音频与预设行驶音频对应；

预设行驶音频为本领域技术人员预先设置的音频。具体可以设置多个汽车、地铁、飞机等交通工具的行驶音频，

步骤S416，当所述第二环境音频中存在单音频与所述预设行驶音频匹配，则增加所述耳机的播放音量。

当所述第二环境音频中存在单音频与所述预设行驶音频匹配，则表明用户已上交通工具，并且交通工具正在行驶中，通过增加所述耳机的播放音量，降低由于车辆行驶过程中的噪音对耳机播放音的干扰。可选地，步骤S416之后，还可以包括：根据匹配所述预设行驶音频对应的降噪方案，开启降噪功能。本申请中，降噪处理可采用以下公式进行：

let D（w）=P_S （w）-αP_n （w）；

如果D（w）＞βP_n （w），P^' _S （w）=D（w）；

如果D（w）≤βP_n （w），P^' _S （w）=βP_n （w）；

其中，α≥1，0＜β＜1，P_S (w)是输入的带噪语音的频谱，P_n (w)是估计出的噪音的频谱，两者相减得到D(w)差值频谱，α为相减因子，β为频谱下限阈值参数。具体根据信噪比确定α和β的值。

进一步地，请参照图6，图6为本申请耳机播放状态的控制方法第五实施例的流程示意图，基于第三实施例，所述耳机播放状态的控制方法还包括：

步骤S420，通过所述受话器获取包含所述提示音频的第三环境音频，对所述第三环境音频进行语义识别，生成文字信息；

步骤S430，接收用户基于所述文字信息做出的选择操作，根据所述选择操作将所述文字信息中的全部或部分设置为语义字符；

步骤S440，将所述第三环境音频中与所述语义字符对应的音频设置为所述提示音频。

用户可根据自身需要，自行设置提示音频。预先通过受话器采集含有提示音频的第三环境音频，再通过降噪、语义识别等处理，生成与第三环境音频对应的文字信息。由于第三环境音频采集过程过于嘈杂，用户通过选择操作，自行决定文字信息中需要设置的语义字符，以提高识别率。

例如：用户站在“A站点”录制，获取包含列车行驶音、路人交谈音、风声和“列车即将进入A站点”的第三环境音频，对该第三环境音频进行降噪处理，将降噪处理后的音频转换为文字信息，即得到“列车即将进入A站点”的文字信息。若生成的文字信息与实际不符，证明录制的第三环境音频质量不高，用户可重新进行录制。用户手动选择“进入A站点”为语义字符，则将降噪后第三环境音频中与“进入A站点”对应部分设置为提示音频。

进一步地，请参照图7，图7为本申请耳机播放状态的控制方法第六实施例的流程示意图，基于第一实施例，所述步骤S400包括：

步骤S450，当所述第一环境音频中存在所述单音频与所述预设音频匹配，则获取所述耳机的降噪类型，判断所述降噪类型是否为主动降噪；

步骤S460，当所述耳机的降噪类型为主动降噪，则关闭主动降噪功能并降低所述耳机播放音量；

步骤S470，当所述耳机的降噪类型不为主动降噪，则播放所述第一环境音频。

为了避免外界环境音的干扰，提升音质，现有的耳机采用主动降噪或者被动降噪。主动降噪是通过降噪系统产生与外界噪音相等的反向声波，将噪音中和，从而实现降噪的效果。被动降噪是通过使用材料和结构等阻隔噪音声波，以降低噪音。当耳机采用主动降噪时，关闭主动降噪功能并适当降低所述耳机播放音量，即可让用户接收到被降噪处理掉的音频。当耳机采用被动降噪时，特别是全包耳耳机等隔音效果较佳的结构，直接通过播放所述第一环境音频，使用户获取。

进一步地，请参照图8，图8为本申请耳机播放状态的控制方法第七实施例的流程示意图，基于第一实施例，所述步骤S300包括：

步骤S310，对所述第一环境音频进行分帧处理，生成语音帧；

分帧处理为通过移动窗函数将第一环境音频分割成固定长度的音频片段。依次排列的语音帧和语音帧之间有一定的交叠，例如：将每个语音帧30毫秒，5毫秒的交叠，即在第N语音帧中，第1-5毫秒与第N-1语音帧的第26-30毫秒一致，第26-30毫秒与第N+1语音帧的第1-5毫秒一致。

步骤S320，对所述语音帧进行特征提取，以得到每个所述语音帧对应的梅尔频率倒谱系数特征向量；

由于语音帧本身在时域上不具有描述能力，根据人类耳朵的生理特性，将语音帧进行傅里叶变换、三角滤波、对数变换、离散余弦变换等处理，将语音帧处理为一个13维的特征向量，该特征向量为梅尔频率倒谱系数特征向量，即第一环境音频中具有识别意义的特征。

步骤S330，将所述梅尔频率倒谱系数特征向量输入预设音素模型中，以得到对齐的帧级语音特征向量；

预设音素模型为本领域技术人员通过大量语音数据预先训练好的模型。通过预设音素模型能将若干语音帧对应到音素，再由若干音素组成词语。

步骤S340，通过预设状态网络，判断所述对齐的帧级语音特征向量是否和所述预设音频一致，其中，预设状态网络为通过隐马尔可夫模型（Hidden Markov Model，HMM）构建的数据库。

预设状态网络为本领域技术人员根据实际需要设置的文本网络，使得若干音素在预设状态网络中找到对应的词语。例如：预设状态网络中包括“今天”、“明天”和“后天”，那么无论获得的帧级语音特征向量是什么，最后对应的词语只能是“今天”、“明天”和“后天”中的一个，以增加比对效率和准确率。

此外，本申请还提供一种耳机播放状态的控制装置，所述耳机播放状态的控制装置包括：

第一获取模块10，所述第一获取模块10用于获取移动终端当前的状态信息，判断所述状态信息是否为耳机连接；

第二获取模块20，所述第二获取模块20用于当所述状态信息为耳机连接，则通过移动终端的受话器获取第一环境音频；

判断模块30，所述判断模块30用于判断所述第一环境音频中是否存在单音频与预设音频匹配；

调节模块40，所述调节模块40用于当所述第一环境音频中存在所述单音频与所述预设音频对应，则根据所述预设音频对应的调节方案调节与所述移动终端相连接的耳机工作状态。

进一步地，所述预设音频为一段具有语义的提示音频；所述调节模块40还用于当所述第一环境音频中存在所述单音频与所述提示音频对应，则向所述耳机发送包含所述提示音频的播放指令，以使所述耳机播放所述提示音频。

进一步地，所述预设音频为一段具有语义的提示音频；所述调节模块40包括：

第一获取单元，所述第一获取单元用于获取所述移动终端显示屏当前的显示状态，判断所述显示状态是否为亮起；

显示单元，所述显示单元用于当所述显示状态为亮起，获取所述提示音频对应的语义字符，控制所述移动终端的显示屏显示所述语义字符。

进一步地，所述语义字符包括进站语义字符和到站语义字符，所述调节模块40包括：

第一判断单元，所述第一判断单元用于判断所述语义字符是否为预设进站字符；

第二获取单元，所述第二获取单元用于若所述语义字符为所述预设进站字符，则通过所述受话器获取第二环境音频；

第二判断单元，所述第二判断单元用于判断所述第二环境音频中是否存在单音频与预设行驶音频对应；

播放调节单元，所述播放调节单元用于当所述第二环境音频中存在单音频与所述预设行驶音频对应，则增加所述耳机的播放音量。

进一步地，所述控制装置包括：

第三获取模块50，所述第三获取模块50用于通过所述受话器获取包含所述提示音频的第三环境音频，对所述第三环境音频进行语义识别，生成文字信息；

设置模块60，所述设置模块60用于接收用户基于所述文字信息做出的选择操作，根据所述选择操作将所述文字信息中的全部或部分设置为语义字符；

进一步地，所述调节模块40包括：

第二判断单元，所述第二判断单元用于当所述第一环境音频中存在所述单音频与所述预设音频匹配，则判断所述耳机的降噪类型是否为主动降噪；

所述播放调节单元还用于当所述耳机的降噪类型为主动降噪，则关闭主动降噪功能并降低所述耳机播放音量；

进一步地，所述判断模块30包括：

分帧处理单元，所述分帧处理单元用于对所述第一环境音频进行分帧处理，生成语音帧；

特征提取单元，所述特征提取单元用于对所述语音帧进行特征提取，以得到每个所述语音帧对应的梅尔频率倒谱系数特征向量；

特征处理单元，所述特征处理单元用于将所述梅尔频率倒谱系数特征向量输入预设音素模型中，以得到对齐的帧级语音特征向量；

匹配处理单元，所述匹配处理单元用于通过预设状态网络，判断所述对齐的帧级语音特征向量是否和所述预设音频一致，其中，预设状态网络为通过隐马尔可夫模型构建的数据库。

此外，本申请还提供一种存储介质，存储介质上存储有计算机可读指令，其中，计算机可读指令被处理器执行时，实现如上述的耳机播放状态的控制方法的步骤。

其中计算机可读指令被执行时所实现的方法可参照本申请耳机播放状态的控制方法的各个实施例，此处不再赘述。在本申请中存储介质具体可以为非易失性计算机可读存储介质。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种耳机播放状态的控制方法，其中，包括：

获取移动终端当前的状态信息，判断所述状态信息是否为耳机连接；

当所述状态信息为耳机连接，则通过受话器获取第一环境音频；

判断所述第一环境音频中是否存在单音频与预设音频匹配；

当所述第一环境音频中存在所述单音频与所述预设音频对应，则根据所述预设音频对应的调节方案调节与所述移动终端相连接的耳机工作状态，

其中，所述判断所述第一环境音频中是否存在单音频与预设音频匹配的步骤包括：

对所述第一环境音频进行分帧处理，生成语音帧；

对所述语音帧进行特征提取，以得到每个所述语音帧对应的梅尔频率倒谱系数特征向量；

将所述梅尔频率倒谱系数特征向量输入预设音素模型中，以得到对齐的帧级语音特征向量；

通过预设状态网络，判断所述对齐的帧级语音特征向量是否和所述预设音频一致，其中，预设状态网络为通过隐马尔可夫模型构建的数据库。
如权利要求1所述的耳机播放状态的控制方法，其中，所述预设音频为一段具有语义的提示音频；所述当所述第一环境音频中存在所述单音频与所述预设音频对应，则根据所述预设音频对应的调节方案调节与所述移动终端相连接的耳机工作状态的步骤，包括

当所述第一环境音频中存在所述单音频与所述提示音频对应，则向所述耳机发送包含所述提示音频的播放指令，以使所述耳机播放所述提示音频。
如权利要求2所述的耳机播放状态的控制方法，其中，所述当所述第一环境音频中存在所述单音频与所述提示音频对应，则向所述耳机发送包含所述提示音频的播放指令，以使所述耳机播放所述提示音频的步骤之后，包括：

获取所述移动终端显示屏当前的显示状态，判断所述显示状态是否为亮起；

当所述显示状态为亮起，获取所述提示音频对应的语义字符，控制所述移动终端的显示屏显示所述语义字符。
如权利要求3所述的耳机播放状态的控制方法，其中，所述耳机播放状态的控制方法还包括：

通过所述受话器获取包含所述提示音频的第三环境音频，对所述第三环境音频进行语义识别，生成文字信息；

接收用户基于所述文字信息做出的选择操作，根据所述选择操作将所述文字信息中的全部或部分设置为语义字符；

将所述第三环境音频中与所述语义字符对应的音频设置为所述提示音频。
如权利要求2所述的耳机播放状态的控制方法，其中，所述语义字符包括进站语义字符和到站语义字符，所述当所述第一环境音频中存在所述单音频与所述提示音频对应，则向所述耳机发送包含所述提示音频的播放指令，以使所述耳机播放所述提示音频的步骤之后，包括：

判断所述语义字符是否为预设进站字符；

若所述语义字符为所述预设进站字符，则通过所述受话器获取第二环境音频；

判断所述第二环境音频中是否存在单音频与预设行驶音频匹配；

当所述第二环境音频中存在单音频与所述预设行驶音频对应，则增加所述耳机的播放音量。
如权利要求1所述的耳机播放状态的控制方法，其中，所述当所述第一环境音频中存在所述单音频与所述预设音频匹配，则根据所述预设音频对应的调节方案调节耳机工作状态的步骤包括：

当所述第一环境音频中存在所述单音频与所述预设音频匹配，则判断所述耳机的降噪类型是否为主动降噪；

当所述耳机的降噪类型为主动降噪，则关闭主动降噪功能并降低所述耳机播放音量；

当所述耳机的降噪类型不为主动降噪，则播放所述第一环境音频。
一种耳机播放状态的控制装置，其中，所述控制装置包括：

第一获取模块，所述第一获取模块用于获取移动终端当前的状态信息，判断所述状态信息是否为耳机连接；

第二获取模块，所述第二获取模块用于当所述状态信息为耳机连接，则通过移动终端的受话器获取第一环境音频；

判断模块，所述判断模块用于判断所述第一环境音频中是否存在单音频与预设音频匹配；

调节模块，所述调节模块用于当所述第一环境音频中存在所述单音频与所述预设音频对应，则根据所述预设音频对应的调节方案调节与所述移动终端相连接的耳机工作状态；

其中，所述判断模块包括：

分帧处理单元，所述分帧处理单元用于对所述第一环境音频进行分帧处理，生成语音帧；

特征提取单元，所述特征提取单元用于对所述语音帧进行特征提取，以得到每个所述语音帧对应的梅尔频率倒谱系数特征向量；

特征处理单元，所述特征处理单元用于将所述梅尔频率倒谱系数特征向量输入预设音素模型中，以得到对齐的帧级语音特征向量；

匹配处理单元，所述匹配处理单元用于通过预设状态网络，判断所述对齐的帧级语音特征向量是否和所述预设音频一致，其中，预设状态网络为通过隐马尔可夫模型构建的数据库。
如权利要求7所述的耳机播放状态的控制装置，其中，所述预设音频为一段具有语义的提示音频；所述调节模块还用于当所述第一环境音频中存在所述单音频与所述提示音频对应，则向所述耳机发送包含所述提示音频的播放指令，以使所述耳机播放所述提示音频。
如权利要求8所述的耳机播放状态的控制装置，其中，所述调节模块包括：

第一获取单元，所述第一获取单元用于获取所述移动终端显示屏当前的显示状态，判断所述显示状态是否为亮起；

显示单元，所述显示单元用于当所述显示状态为亮起，获取所述提示音频对应的语义字符，控制所述移动终端的显示屏显示所述语义字符。
一种移动终端，其中，包括处理器、存储器、受话器以及存储在所述存储器上的可被所述处理器执行的计算机可读指令，其中，所述计算机可读指令被所述处理器执行时，实现如下步骤：

获取移动终端当前的状态信息，判断所述状态信息是否为耳机连接；

当所述状态信息为耳机连接，则通过受话器获取第一环境音频；

对所述第一环境音频进行分帧处理，生成语音帧；

对所述语音帧进行特征提取，以得到每个所述语音帧对应的梅尔频率倒谱系数特征向量；

将所述梅尔频率倒谱系数特征向量输入预设音素模型中，以得到对齐的帧级语音特征向量；

通过预设状态网络，判断所述对齐的帧级语音特征向量是否和所述预设音频一致，其中，预设状态网络为通过隐马尔可夫模型构建的数据库；

当所述第一环境音频中存在所述单音频与所述预设音频对应，则根据所述预设音频对应的调节方案调节与所述移动终端相连接的耳机工作状态。
如权利要求10所述的移动终端，其中，所述计算机可读指令被所述处理器执行时，还实现如下步骤：

所述预设音频为一段具有语义的提示音频；当所述第一环境音频中存在所述单音频与所述提示音频对应，则向所述耳机发送包含所述提示音频的播放指令，以使所述耳机播放所述提示音频。
如权利要求11所述的移动终端，其中，所述计算机可读指令被所述处理器执行时，还实现如下步骤：

获取所述移动终端显示屏当前的显示状态，判断所述显示状态是否为亮起；

当所述显示状态为亮起，获取所述提示音频对应的语义字符，控制所述移动终端的显示屏显示所述语义字符。
如权利要求12所述的移动终端，其中，所述计算机可读指令被所述处理器执行时，还实现如下步骤：

通过所述受话器获取包含所述提示音频的第三环境音频，对所述第三环境音频进行语义识别，生成文字信息；

接收用户基于所述文字信息做出的选择操作，根据所述选择操作将所述文字信息中的全部或部分设置为语义字符；

将所述第三环境音频中与所述语义字符对应的音频设置为所述提示音频。
如权利要求11所述的移动终端，其中，所述语义字符包括进站语义字符和到站语义字符，所述计算机可读指令被所述处理器执行时，还实现如下步骤：

判断所述语义字符是否为预设进站字符；

若所述语义字符为所述预设进站字符，则通过所述受话器获取第二环境音频；

判断所述第二环境音频中是否存在单音频与预设行驶音频匹配；

当所述第二环境音频中存在单音频与所述预设行驶音频对应，则增加所述耳机的播放音量。
如权利要求10所述的移动终端，其中，所述计算机可读指令被所述处理器执行时，还实现如下步骤：

当所述第一环境音频中存在所述单音频与所述预设音频匹配，则判断所述耳机的降噪类型是否为主动降噪；

当所述耳机的降噪类型为主动降噪，则关闭主动降噪功能并降低所述耳机播放音量；

当所述耳机的降噪类型不为主动降噪，则播放所述第一环境音频。
一种存储介质，其中，所述存储介质上存储有计算机可读指令，其中，所述计算机可读指令被处理器执行时，实现如下步骤：

获取移动终端当前的状态信息，判断所述状态信息是否为耳机连接；

当所述状态信息为耳机连接，则通过受话器获取第一环境音频；

对所述第一环境音频进行分帧处理，生成语音帧；

对所述语音帧进行特征提取，以得到每个所述语音帧对应的梅尔频率倒谱系数特征向量；

将所述梅尔频率倒谱系数特征向量输入预设音素模型中，以得到对齐的帧级语音特征向量；

通过预设状态网络，判断所述对齐的帧级语音特征向量是否和所述预设音频一致，其中，预设状态网络为通过隐马尔可夫模型构建的数据库；

当所述第一环境音频中存在所述单音频与所述预设音频对应，则根据所述预设音频对应的调节方案调节与所述移动终端相连接的耳机工作状态。

所述计算机可读指令被所述处理器执行时，还实现如下步骤：
如权利要求16所述的存储介质，其中，所述预设音频为一段具有语义的提示音频；所述计算机可读指令被所述处理器执行时，还实现如下步骤：

当所述第一环境音频中存在所述单音频与所述提示音频对应，则向所述耳机发送包含所述提示音频的播放指令，以使所述耳机播放所述提示音频。
如权利要求17所述的存储介质，其中，所述计算机可读指令被所述处理器执行时，还实现如下步骤：

获取所述移动终端显示屏当前的显示状态，判断所述显示状态是否为亮起；

当所述显示状态为亮起，获取所述提示音频对应的语义字符，控制所述移动终端的显示屏显示所述语义字符。
如权利要求18所述的存储介质，其中，所述计算机可读指令被所述处理器执行时，还实现如下步骤：

通过所述受话器获取包含所述提示音频的第三环境音频，对所述第三环境音频进行语义识别，生成文字信息；

接收用户基于所述文字信息做出的选择操作，根据所述选择操作将所述文字信息中的全部或部分设置为语义字符；

将所述第三环境音频中与所述语义字符对应的音频设置为所述提示音频。
如权利要求17所述的存储介质，其中，所述语义字符包括进站语义字符和到站语义字符，所所述计算机可读指令被所述处理器执行时，还实现如下步骤：

判断所述语义字符是否为预设进站字符；

若所述语义字符为所述预设进站字符，则通过所述受话器获取第二环境音频；

判断所述第二环境音频中是否存在单音频与预设行驶音频匹配；

当所述第二环境音频中存在单音频与所述预设行驶音频对应，则增加所述耳机的播放音量。