WO2024082389A1

WO2024082389A1 - 音乐分轨匹配振动的触觉反馈方法、系统及相关设备

Info

Publication number: WO2024082389A1
Application number: PCT/CN2022/136291
Authority: WO
Inventors: 孟增铀; 曹梦雅; 裴诗雨; 郑亚军
Original assignee: 瑞声开泰声学科技(上海)有限公司
Priority date: 2022-10-20
Filing date: 2022-12-02
Publication date: 2024-04-25
Also published as: CN116185167A

Abstract

本发明涉及深度学习技术应用领域，尤其涉及一种音乐分轨匹配振动的触觉反馈方法、系统及相关设备，所述方法包括：获取原始音频数据；利用预设的深度学习模型对所述原始音频数据进行分轨，得到多个分轨音频数据；计算每一个所述分轨音频数据在所述原始音频数据中对应的能量占比；根据所述能量占比确定每一个对应的所述分轨音频数据的权重；根据预设加权规则对所有所述分轨音频数据进行加权计算，得到时频谱；根据所述时频谱生成对应所述原始音频数据的匹配振动信号；根据所述匹配振动信号输出触觉反馈效果。与相关技术相比，本发明将音频数据与振动匹配，并输出与音频数据节奏、律动等更加精确匹配的振动反馈，使用户获得更佳的触觉反馈体验。

Description

音乐分轨匹配振动的触觉反馈方法、系统及相关设备

技术领域

本发明涉及深度学习技术应用领域，尤其涉及一种音乐分轨匹配振动的触觉反馈方法、系统及相关设备。

背景技术

音乐通过不同的节奏、韵律、缓急可以表达作者的欢乐、忧愁、愤怒、坚强等不同的情绪，而根据音乐的节奏快慢、轻音重音等匹配的振动的触觉反馈技术，则会给听众更加真实而强烈的沉浸式感官体验。音乐因不同风格类型所包含的乐器成分各不相同，而不同乐器成分对于一首音乐的节奏韵律的分析起到的作用各不相同，如打击乐因为有规律性的敲击会让人更加容易捕获音乐的节奏和律动，进而可以配以更加精准的振动反馈。

相关技术中，利用音乐本身的特性来生成振动的方法中，往往是基于音乐的鼓点等节奏性较强的乐器来产生对应的振动，但是这种方法不适用于节奏较缓慢的音乐，同时，现有技术并不能通过分析音乐中不同节奏的强弱来生成对应振感等级的振动，给用户带来的振动反馈体验比较有限。

因此，有必要提供一种新的触觉反馈方法，以获得与音乐节奏、律动等更加精确匹配的振动输出。

技术问题

本发明要解决的技术问题是提供一种能够生产与音乐节奏、律动等更加精确匹配的振动输出的方法。

技术解决方案

为解决上述技术问题，第一方面，本发明提供了一种音乐分轨匹配振动的触觉反馈方法，所述触觉反馈方法基于深度学习模型，所述触觉反馈方法包括以下步骤：

获取原始音频数据；

利用预设的深度学习模型对所述原始音频数据进行分轨，得到多个分轨音频数据；

计算每一个所述分轨音频数据在所述原始音频数据中对应的能量占比；

根据所述能量占比确定每一个对应的所述分轨音频数据的权重；

根据预设加权规则对所有所述分轨音频数据进行加权计算，得到时频谱并输出；

根据所述时频谱生成对应所述原始音频数据的匹配振动信号；

将所述匹配振动信号输出，作为驱动器的驱动信号以实现触觉反馈效果。

优选的，所述计算每一个所述分轨音频数据在所述原始音频数据中对应的能量占比的步骤，具体为：

对每一个所述分轨音频数据进行短时傅里叶变换处理，得到对应的变换分轨音频数据；

计算所述变换分轨音频数据在所述原始音频数据中的所述能量占比。

优选的，所述根据所述时频谱生成对应所述原始音频数据的匹配振动信号的步骤，具体为：

对所述时频谱进行归一化处理，得到时频曲线；

将所述时频曲线中大于预设频率阈值的部分对应设置振动信息；

将包含所述振动信息的所述时频曲线输出作为所述匹配振动信号。

优选的，所述分轨音频数据至少包括音轨特征各不相同的第一音轨、第二音轨、第三音轨和第四音轨。

优选的，所述预设加权规则具体为：

判断所述第一音轨的所述能量占比是否最大：

若是：

判断所述第二音轨的能量占比是否第二大：若所述第二音轨的所述能量占比是第二大，取所述第一音轨与所述其第二音轨的所述时频谱加权并作为输出；若所述第二音轨的所述能量占比不是第二大，只取所述第一音轨的所述时频谱作为输出；

若否：

判断所述第二音轨的所述能量占比是否最大：

若所述第二音轨的所述能量占比是最大：则判断所述第一音轨的所述能量占比是否第二大：若所述第一音轨的所述能量占比是第二大，取所述第一音轨与所述第二音轨的所述时频谱加权并作为输出；若所述第一音轨的所述能量占比不是第二大，只取所述第二音轨的所述时频谱作为输出；

若所述第二音轨的所述能量占比不是最大：则判断所述第三音轨的所述能量占比是否最大：若所述第三音轨的能量占比不是最大，取所述第四音轨的所述时频谱作为输出；若所述第三音轨的能量占比是最大，则取所述第三音轨的所述时频谱作为输出。

优选的，所述第一音轨为打击乐，所述第二音轨为其他乐器音轨，所述第三音轨为人声音轨，所述第四音轨为低音音轨。

第二方面，本发明还提供了一种音乐分轨匹配振动的触觉反馈系统，包括：

原始音频获取模块，用于获取原始音频数据；

分轨模块，用于利用预设的深度学习模型对所述原始音频数据进行分轨，得到多个分轨音频数据；

占比计算模块，用于计算每一个所述分轨音频数据在所述原始音频数据中对应的能量占比；

权重计算模块，用于根据所述能量占比确定每一个对应的所述分轨音频数据的权重；

加权计算模块，用于根据预设加权规则对所有所述分轨音频数据进行加权计算，得到时频谱并输出；

匹配振动模块，用于根据所述时频谱生成对应所述原始音频数据的匹配振动信号；

触觉反馈模块，用将所述匹配振动信号输出，作为驱动器的驱动信号以实现触觉反馈效果。

第三方面，本发明还提供了一种计算机设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上任意一项所述的音乐分轨匹配振动的触觉反馈方法中的步骤。

第四方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任意一项所述的音乐分轨匹配振动的触觉反馈方法中的步骤。

有益效果

与相关技术相比，本发明的触觉反馈方法中，通过预设的深度学习模型，对音乐进行分轨处理，将特点差别较大的不同音轨区分开来，再根据不同音轨的能量占比确定其在原始音频中的重要程度，以设置不同大小的权重，对不同音轨进行灵活加权组合，进行将音频数据与振动匹配，最后输出与音频数据节奏、律动等更加精确匹配的振动输出，使用户获得更佳的触觉反馈体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1是本发明实施例提供的音乐分轨匹配振动的触觉反馈方法的步骤流程示意图；

图2是本发明实施例提供的深度学习模型的结构示意图；

图3是本发明实施例提供的预设加权规则的示意图；

图4是本发明实施例提供的经过深度学习模型分轨后的音轨示意图；

图5是本发明实施例提供的各个音轨的时频谱对比图；

图6是本发明实施例提供的匹配振动信号示意图；

图7是本发明实施例提供的触觉反馈效果的生成系统200的结构示意图；

图8是本发明实施例提供的计算机设备的结构示意图。

本发明的实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，图1是本发明实施例提供的音乐分轨匹配振动的触觉反馈方法的步骤流程示意图，所述触觉反馈方法包括以下步骤：

S1、获取原始音频数据。

具体的，本发明实施例获取的所述原始音频数据，不对其表现的音乐形式做具体的限定，例如流行乐、摇滚乐、交响乐等，用于获取所述原始音频数据的方法包括但不限于：从现有的音频数据中获取，或者通过录音机、视频拍摄等方式进行实时提取后，将其转化为单独的音频数据文件等方法。

S2、利用预设的深度学习模型对所述原始音频数据进行分轨，得到多个分轨音频数据。

具体的，所述深度学习模型是一种用于将音频数据中的各种不同特性的音频分离的神经网络模型，在本发明实施例中，一种用于对所述原始音频数据进行分轨的所述深度学习模型的结构如图2所示，所述深度学习模型包括多个编码器组成的编码层、包含LSTM（Long short-term memory，长短期记忆）结构的神经网络递归层、以及包括多个解码器组成的解码层，神经网络递归层中，为了提取出不同特性的音频音轨，可以按需要设置不同的LSTM模块。

S3、计算每一个所述分轨音频数据在所述原始音频数据中对应的能量占比。

S4、根据所述能量占比确定每一个对应的所述分轨音频数据的权重。

S5、根据预设加权规则对所有所述分轨音频数据进行加权计算，得到时频谱并输出。

优选的，所述预设加权规则具体为：

将所有所述分轨音频数据中的其中一种音轨作为所述时频谱生成时使用的音轨。

具体的，在一种可能的实施例中，四种所述分轨音频数据，所述预设加权规则具体如下：

判断所述第一音轨的所述能量占比是否最大：

若是：

若否：

判断所述第二音轨的所述能量占比是否最大：

优选的，所述第一音轨为打击乐，所述第二音轨为其他乐器音轨，所述第三音轨为人声音轨，所述第四音轨为低音音轨，请参照图3，图3是本发明实施例提供的预设加权规则的示意图，低音音轨是音频中频率较低的部分，对应的，音频中还包括中音、高音，对于用户来说，低音变化带来的听感比中音、高音的部分要强烈；打击乐、乐器是音频中着重表达节奏快慢的部分，其中，打击乐体现为一种有规律的频率起伏，而打击以外的乐器往往通过与打击乐结合来体现音乐的类型；人声音轨是音频中较为特别的，因为人声不具有规律性，但是人声在音乐中的体现反馈为振动时，也对用户体验又很大影响。需要说明的是，在本发明实施例中，具体分成的音轨数可以灵活改变。

根据以上的所述预设加权规则，本发明实施例能够以音频数据中能量占比最大的至少一种所述分轨音频数据作为所述时频谱的基础数据，从而使所述时频谱更注重于体现出音频数据中需要对应匹配生成振动反馈的特性。

S6、根据所述时频谱生成对应所述原始音频数据的匹配振动信号。

对所述时频谱进行归一化处理，得到时频曲线；

S7、将所述匹配振动信号输出，作为驱动器的驱动信号以实现触觉反馈效果。

在本发明实施例中，所述触觉反馈效果需要具有以马达为主的驱动器的振动反馈系统实现。

示例性的，请参照图4，图4是本发明实施例经过深度学习模型分轨后的音轨示意图，图4中的各音轨从上至下依次为：原始音频数据、低音音轨、打击乐音轨、其他乐器音轨、人声音轨。作为比较，请参照图5所示的各个音轨的时频谱对比图，可以看出，作为从所述原始音频数据分轨得到的多条所述分轨音频数据由于其基本的音轨特征不同，其对应的所述能量占比的差异较大，根据不同的所述能量占比，依据本发明实施例中的所述预设加权规则进行加权后产生的所述匹配振动信号如图6所示，其中，第一行为未经过处理的一般振动信号，第三行为本发明实施例经过加权后产生的所述匹配振动信号。

本发明实施例还提供了一种音乐分轨匹配振动的触觉反馈系统，请参照图7，图7是本发明实施例提供的音乐分轨匹配振动的触觉反馈系统200的结构示意图，其包括：

原始音频获取模块201，用于获取原始音频数据；

分轨模块202，用于利用预设的深度学习模型对所述原始音频数据进行分轨，得到多个分轨音频数据；

占比计算模块203，用于计算每一个所述分轨音频数据在所述原始音频数据中对应的能量占比；

权重计算模块204，用于根据所述能量占比确定每一个对应的所述分轨音频数据的权重；

加权计算模块205，用于根据预设加权规则对所有所述分轨音频数据进行加权计算，得到时频谱并输出；

匹配振动模块206，用于根据所述时频谱生成对应所述原始音频数据的匹配振动信号；

触觉反馈模块207，用于将所述匹配振动信号输出，作为驱动器的驱动信号以实现触觉反馈效果。

本发明实施例提供的音乐分轨匹配振动的触觉反馈系统200能够实现如上述实施例中的音乐分轨匹配振动的触觉反馈方法中的步骤，且能实现同样的技术效果，参上述实施例中的描述，此处不再赘述。

本发明实施例还提供一种计算机设备，请参图8所示，图8是本发明实施例提供的计算机设备的结构示意图。所述计算机设备300包括：处理器301、存储器302及存储在所述存储器302上并可在所述处理器301上运行的计算机程序。

请结合图1，所述处理器301调用所述存储器302存储的计算机程序，执行所述计算机程序时实现上述实施例中的所述音乐分轨匹配振动的触觉反馈方法中的步骤，包括：

获取原始音频数据；

对所述时频谱进行归一化处理，得到时频曲线；

优选的，所述预设加权规则具体为：

判断所述第一音轨的所述能量占比是否最大：

若是：

若否：

判断所述第二音轨的所述能量占比是否最大：

本发明实施例提供的计算机设备300能够实现如上述实施例中的音乐分轨匹配振动的触觉反馈方法中的步骤，且能实现同样的技术效果，参上述实施例中的描述，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现本发明实施例提供的音乐分轨匹配振动的触觉反馈方法中的各个过程及步骤，且能实现相同的技术效果，为避免重复，这里不再赘述。

以上所述的仅是本发明的实施方式，在此应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出改进，但这些均属于本发明的保护范围。

Claims

一种音乐分轨匹配振动的触觉反馈方法，其特征在于，所述触觉反馈方法基于深度学习模型，所述触觉反馈方法包括以下步骤：

获取原始音频数据；

利用预设的深度学习模型对所述原始音频数据进行分轨，得到多个分轨音频数据；

计算每一个所述分轨音频数据在所述原始音频数据中对应的能量占比；

根据所述能量占比确定每一个对应的所述分轨音频数据的权重；

根据预设加权规则对所有所述分轨音频数据进行加权计算，得到时频谱并输出；

根据所述时频谱生成对应所述原始音频数据的匹配振动信号；

将所述匹配振动信号输出，作为振动器的驱动信号以实现触觉反馈效果。
根据权利要求1所述的音乐分轨匹配振动的触觉反馈方法，其特征在于，所述计算每一个所述分轨音频数据在所述原始音频数据中对应的能量占比的步骤，具体为：

对每一个所述分轨音频数据进行短时傅里叶变换处理，得到对应的变换分轨音频数据；

计算所述变换分轨音频数据在所述原始音频数据中的所述能量占比。
根据权利要求1所述的音乐分轨匹配振动的触觉反馈方法，其特征在于，所述根据所述时频谱生成对应所述原始音频数据的匹配振动信号的步骤，具体为：

对所述时频谱进行归一化处理，得到时频曲线；

将所述时频曲线中大于预设频率阈值的部分对应设置振动信息；

将包含所述振动信息的所述时频曲线输出作为所述匹配振动信号。
根据权利要求1所述的音乐分轨匹配振动的触觉反馈方法，其特征在于，所述分轨音频数据至少包括音轨特征各不相同的第一音轨、第二音轨、第三音轨和第四音轨。
根据权利要求4所述的音乐分轨匹配振动的触觉反馈方法，其特征在于，所述预设加权规则具体为：

判断所述第一音轨的所述能量占比是否最大：

若是：

判断所述第二音轨的能量占比是否第二大：若所述第二音轨的所述能量占比是第二大，取所述第一音轨与所述第二音轨的所述时频谱加权并作为输出；若所述第二音轨的所述能量占比不是第二大，只取所述第一音轨的所述时频谱作为输出；

若否：

判断所述第二音轨的所述能量占比是否最大：

若所述第二音轨的所述能量占比是最大：则判断所述第一音轨的所述能量占比是否第二大：若所述第一音轨的所述能量占比是第二大，取所述第一音轨与所述第二音轨的所述时频谱加权并作为输出；若所述第一音轨的所述能量占比不是第二大，只取所述第二音轨的所述时频谱作为输出；

若所述第二音轨的所述能量占比不是最大：则判断所述第三音轨的所述能量占比是否最大：若所述第三音轨的能量占比不是最大，取所述第四音轨的所述时频谱作为输出；若所述第三音轨的能量占比是最大，则取所述第三音轨的所述时频谱作为输出。
根据权利要求4所述的音乐分轨匹配振动的触觉反馈方法，其特征在于，所述第一音轨为打击乐，所述第二音轨为其他乐器音轨，所述第三音轨为人声音轨，所述第四音轨为低音音轨。
一种音乐分轨匹配振动的触觉反馈系统，其特征在于，包括：

原始音频获取模块，用于获取原始音频数据；

分轨模块，用于利用预设的深度学习模型对所述原始音频数据进行分轨，得到多个分轨音频数据；

占比计算模块，用于计算每一个所述分轨音频数据在所述原始音频数据中对应的能量占比；

权重计算模块，用于根据所述能量占比确定每一个对应的所述分轨音频数据的权重；

加权计算模块，用于根据预设加权规则对所有所述分轨音频数据进行加权计算，得到时频谱并输出；

匹配振动模块，用于根据所述时频谱生成对应所述原始音频数据的匹配振动信号；

触觉反馈模块，用于将所述匹配振动信号输出，作为驱动器的驱动信号以实现触觉反馈效果。
一种计算机设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的音乐分轨匹配振动的触觉反馈方法中的步骤。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任意一项所述的音乐分轨匹配振动的触觉反馈方法中的步骤。