WO2022156709A1

WO2022156709A1 - 音频信号处理方法、装置、电子设备和可读存储介质

Info

Publication number: WO2022156709A1
Application number: PCT/CN2022/072745
Authority: WO
Inventors: 张鑫
Original assignee: 维沃移动通信有限公司
Priority date: 2021-01-22
Filing date: 2022-01-19
Publication date: 2022-07-28
Also published as: CN112887480A; CN112887480B

Abstract

本申请公开了一种音频信号处理方法、装置、电子设备和可读存储介质，属于电子技术领域。该方法包括：响应于第一输入，录入原始音频信号，并显示原始音频信号的录音轨迹，通过分割标记将录音轨迹分割为至少两个轨迹分段，并基于分割标记将原始音频信号分割为对应于轨迹分段的音频分段，基于对轨迹分段的输入，对轨迹分段对应的原始音频信号中的音频分段进行处理，得到目标音频信号。

Description

音频信号处理方法、装置、电子设备和可读存储介质

相关申请的交叉引用

本申请主张在2021年01月22日在中国提交的中国专利申请号202110090251.3的优先权，其全部内容通过引用包含于此。

技术领域

本申请属于电子技术领域，具体涉及一种音频信号处理方法、装置、电子设备和可读存储介质。

背景技术

随着互联网技术的发展，即时通讯工具的应用越来越广泛，用户可以使用即时通讯工具即时发送和接收图片、视频、音频和文字等信息。在即时通讯过程中，由于音频信号的录入简单快捷，受到越来越多用户的欢迎。

在实现本申请的过程中，发明人发现现有技术中至少存在如下问题：在音频信号的录入过程中，用户经常会出现表述错误或不清楚的情况，导致音频信号包含错误或不清楚的信息，此时只能丢弃已经录制好的音频信号，重新录制新的音频信号，降低了语音通讯效率。

发明内容

本申请实施例的目的是提供一种音频信号处理方法、装置、电子设备和可读存储介质，能够解决音频信号包含错误或不清楚的信息时，需要重新录制新的音频信号的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种音频信号处理方法，该方法包括：

接收第一输入；

响应于所述第一输入，录入原始音频信号，并显示所述原始音频信号的录音轨迹；所述录音轨迹用于指示所述原始音频信号的时间轴；

在所述录音轨迹上添加至少一个分割标记；所述分割标记用于将所述录音轨迹分割为至少两个轨迹分段；

基于所述分割标记对应的所述时间轴上的时间点，将所述原始音频信号分割为对应于所述轨迹分段的音频分段；

基于对所述轨迹分段的输入，对所述轨迹分段对应的所述原始音频信号中的音频分段进行处理，得到目标音频信号。

第二方面，本申请实施例提供了一种音频信号处理装置，该装置包括：

接收模块，用于接收第一输入；

显示模块，用于响应于所述第一输入，录入原始音频信号，并显示所述原始音频信号的录音轨迹；所述录音轨迹用于指示所述原始音频信号的时间轴；

添加模块，用于在所述录音轨迹上添加至少一个分割标记；所述分割标记用于将所述录音轨迹分割为至少两个轨迹分段；

分割模块，用于基于所述分割标记对应的所述时间轴上的时间点，将所述原始音频信号分割为对应于所述轨迹分段的音频分段；

处理模块，用于基于对所述轨迹分段的输入，对所述轨迹分段对应的所述原始音频信号中的音频分段进行处理，得到目标音频信号。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

在本申请实施例中，电子设备接收第一输入，响应于第一输入，录入原始音频信号，并显示原始音频信号的录音轨迹，通过分割标记将录音轨迹分割为至少两个轨迹分段，并基于分割标记将原始音频信号分割为对应于轨迹分段的音频分段，基于对轨迹分段的输入，对轨迹分段对应的原始音频信号中的音频分段进行处理，得到目标音频信号。用户在音频信号的录入过程中，可以通过轨迹分段将音频信号分割为对应的多个音频分段，通过对轨迹分段的操作，可以对音频信号中存在问题的音频分段进行处理，可以避免重新录制音频信号，从而可以提高语音通讯效率。

附图说明

图1是根据一示例性实施例提供的一种音频信号处理方法的步骤流程图；

图2是根据一示例性实施例提供的一种聊天界面的示意图；

图3是根据一示例性实施例提供的另一种聊天界面的示意图；

图4是根据一示例性实施例提供的另一种音频信号处理方法的步骤流程图；

图5是根据一示例性实施例提供的又一种聊天界面的示意图；

图6是根据一示例性实施例提供的又一种聊天界面的示意图；

图7是根据一示例性实施例提供的一种音频发送界面的示意图；

图8是根据一示例性实施例提供的另一种音频发送界面的示意图；

图9是根据一示例性实施例提供的又一种音频发送界面的示意图；

图10是根据一示例性实施例提供的又一种聊天界面的示意图；

图11是根据一示例性实施例提供的又一种聊天界面的示意图；

图12是根据一示例性实施例提供的一种音频信号处理装置的结构示意图；

图13是根据一示例性实施例提供的一种电子设备的结构示意图；

图14是根据一示例性实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的音频信号处理方法进行详细地说明。

图1是根据一示例性实施例提供的一种音频信号处理方法的步骤流程图，如图1所示，该方法包括：

步骤101、接收第一输入。

步骤102、响应于第一输入，录入原始音频信号，并显示原始音频信号的录音轨迹。

其中，录音轨迹用于指示原始音频信号的时间轴。

本实施例中，音频信号处理方法可以由手机、笔记本电脑、可穿戴设备等具有显示屏和麦克风等器件的电子设备执行。第一输入用于控制电子设备开始录入原始音频信号，并在显示屏中显示与原始音频信号对应的录音轨迹。原始音频信号为需要录入到电子设备中的声音信号，可以是用户发出的声音信号，也可以是电子设备所处环境中的声音信号。

示例性地，第一输入可以是点击录音界面中的录音按键的点击操作，电子设备可以响应于用户的点击操作，开始录入原始音频信号，并在录音界面中显示录音轨迹。如图2所示，图2是根据一示例性实施例提供的一种聊天界面的示意图，用户可以操作显示屏中的界面显示控件，界面显示控件例如聊天界面中的虚拟按键，电子设备可以响应于用户对界面显示控件的操作，在聊天界面的底部显示录音界面201，录音界面201的底部显示有虚拟的录音按键202。电子设备可以响应于用户对录音按键202的点击操作，启动麦克风采集声音信号，开始录入原始音频信号。与此同时，电子设备在录音界面201中显示轨迹轴203，并在轨迹轴203上显示录音轨迹204。录音轨迹204用于指示原始音频信号的时间轴，时间轴对应原始音频信号的时间长度，因此录音轨迹204的长度可以表征录入的原始音频信号的时间长度。在原始音频信号的录入过程中，原始音频信号的时间长度不断增加，录音轨迹204的长度与原始音频信号的时间长度同步增加。如图2所示，当电子设备从第0秒开始录入原始音频信号时，录音轨迹204从轨迹轴203的左端开始显示，随着原始音频信号的时间长度的增加，录音轨迹204的长度逐渐增加，在第10秒时，原始音频信号的时间长度为10秒，录音轨迹204对应的时间长度也为10秒，当录制时长达到40秒时，原始音频信号的时间长度为40秒，录音轨迹204对应的时间长度为40秒。

实际应用中，录音轨迹也可以直接在聊天界面中显示，录音轨迹的形式可以包括但不限于图2所示的直线，也可以为曲线、直方图和扇形图等形式。第一输入可以是点击录音界面中的录音按键，也可以是点击电子设备中的实体按键，或者在显示屏中沿预设方向滑动的滑动操作，本实施例对第一输入的具体形式，以及录音轨迹的具体形式不做限制。

步骤103、在录音轨迹上添加至少一个分割标记。

其中，分割标记用于将录音轨迹分割为至少两个轨迹分段。电子设备可以自动在录音轨迹上添加分割标记，也可以响应于用户的输入，在录音轨迹上添加分割标记，通过分割标记将录音轨迹分割为至少两个轨迹分段。

可选地，步骤103可以通过如下方式实现：

在原始音频信号的录入过程中，若接收到第八输入，则在当前时刻对应的录音轨迹的位置上添加分割标记。

示例性地，第八输入可以是点击标记添加按键的用户输入，用户可以通过标记添加按键，在原始音频信号的录入过程中，手动在录音轨迹上添加分割标记。如图2所示，录音界面201中显示有标记添加按键205，在用户说话的过程中，电子设备实时采集用户发出的声音信号，若用户在第10秒时发现表述错误，可以点击标记添加按键205，电子设备可以响应于用户的点击操作，在第10秒对应的录音轨迹的位置上，也即在当前时刻录音轨迹204的末端，添加分割标记206。

在一种实施例中，第八输入可以是直接点击录音轨迹的用户输入，结合上述举例，在原始音频信号的录入过程中，若用户在第10秒时点击录音轨迹204，电子设备可以响应于用户的点击操作，在当前时刻对应的录音轨迹204的末端添加分割标记206。

在另一种实施例中，第八输入可以是双击录音界面的用户输入，结合上述举例，在原始音频信号的录入过程中，若用户在第3秒时双击录音界面201，电子设备可以响应于用户的双击操作，在当前时刻对应的录音轨迹204的末端添加分割标记206。需要说明的是，第八输入的具体形式可以包括但不限于如上所述的点击标记添加按键、点击录音轨迹或双击录音界面的用户操作。

本实施例中，电子设备可以通过分割标记将录音轨迹分割为至少两个轨迹分段。示例性地，如图3所示，图3是根据一示例性实施例提供的另一种聊天界面的示意图，图3为原始音频信号录制完成之后的聊天界面的示意图，结合图2，在原始音频信号的录入过程中，若用户在第40秒时结束原始音频信号的录入，可以再次点击录音按键202，电子设备可以响应于用户的点击操作，停止采集声音信号，得到原始音频信号，并停止增加录音轨迹204的长度，得到如图3所示的、可以表征原始音频信号的时间长度的录音轨迹204。同时，录音轨迹204上显示有用户手动添加的分割标记206，录音轨迹204对应的时间长度为40秒，分割标记206对应的时间点为第10秒，分割标记206在第10秒处将录音轨迹204分割为位于分割标记206左侧的第一轨迹分段和位于分割标记206右侧的第二轨迹分段。

实际应用中，用户在原始音频信号的录入过程中，若发现当前录入的原始音频信号出现错误，可以及时的在当前时刻对应的录音轨迹的位置上添加分割标记，可以方便用户根据录入过程中添加的分割标记确定需要处理的音频分段，快速的对原始音频信号中有问题的音频分段进行处理。

步骤104、基于分割标记对应的时间轴上的时间点，将原始音频信号分割为对应于轨迹分段的音频分段。

本实施例中，电子设备可以基于分割标记对应的时间点，对原始音频信号进行分割。结合上述举例，原始音频信号的时间长度为40秒，可以基于分割标记206对应的时间点第10秒对原始音频信号进行分割。在录制得到长度为40秒的原始音频信号之后，电子设备可以确定分割标记206对应的时间点第10秒，从原始音频信号的第10秒处对原始音频信号进行分割，将原始音频信号分割为第0秒至第10秒之间的第一个音频分段和第10秒至第40秒的第二个音频分段。第一个音频分段对应录音轨迹204中第0秒至第10秒之间的第一个轨迹分段，第二个音频分段对应录音轨迹204中第10秒至第40秒之间的第二个轨迹分段。

步骤105、基于对轨迹分段的输入，对轨迹分段对应的原始音频信号中的音频分段进行处理，得到目标音频信号。

本实施例中，用户在原始音频信号录入完成之后，可以基于录音轨迹中的轨迹分段，对原始音频信号中的音频分段进行处理，得到目标音频信号。结合上述举例，用户可以通过对第一轨迹分段的处理，实现对第一音频分段的处理，以及通过对第二轨迹分段的处理，实现对第二音频分段的处理，得到目标音频信号。

可选地，步骤104可以通过如下方式实现：

响应于第三输入，从至少两个轨迹分段中确定待删除的轨迹分段；

删除原始音频信号中与待删除的轨迹分段对应的音频分段。

示例性的，第三输入可以是长按轨迹分段的用户输入，若用户长按第一轨迹分段，电子设备可以响应于用户的长按操作，删除第一轨迹分段，并删除原始音频信号中与第一轨迹分段对应的第一音频分段，得到只包括第二轨迹分段的录音轨迹，以及只包括第二音频分段的原始音频信号，即目标音频信号。

在一种实施例中，第三输入可以是拖动轨迹分段的用户输入，若用户长按图3所示的第一轨迹分段，并将第一轨迹分段拖动到录音界面201之外，电子设备可以响应于用户的拖动操作，删除第一轨迹分段，并删除原始音频信号中的第一音频分段。第三输入的形式可以包括但不限于长按轨迹分段或拖动轨迹分段的用户输入。

实际应用中，用户删除录音轨迹中的轨迹分段，可以删除音频信号中对应的音频分段，可以方便用户删除音频信号中存在问题的音频分段，可以解决音频信号中存在问题时，需要重新录入音频信号的问题。

综上所述，本实施例中，电子设备接收第一输入，响应于第一输入，录入原始音频信号，并显示原始音频信号的录音轨迹，通过分割标记将录音轨迹分割为至少两个轨迹分段，并基于分割标记将原始音频信号分割为对应于轨迹分段的音频分段，基于对轨迹分段的输入，对轨迹分段对应的原始音频信号中的音频分段进行处理，得到目标音频信号。用户在音频信号的录入过程中，可以通过轨迹分段将音频信号分割为对应的多个音频分段，通过对轨迹分段的操作，可以对音频信号中存在问题的音频分段进行处理，可以避免重新录制音频信号，从而可以提高语音通讯效率。

图4是根据一示例性实施例提供的另一种音频信号处理方法的步骤流程图，如图4所示，该方法包括：

步骤401、接收第一输入。

步骤402、响应于第一输入，录入原始音频信号，并显示原始音频信号的录音轨迹。

步骤403、在录音轨迹上添加至少一个分割标记。

可选地，步骤403还可以通过如下方式实现：

响应于第九输入，在录音轨迹中确定分割位置，并在分割位置上添加分割标记。

本实施例中，在完成原始音频信号的录入之后，用户可以手动在录音轨迹上添加分割标记。示例性地，如图5所示，图5是根据一示例性实施例提供的又一种聊天界面的示意图，第九输入可以是对已经添加的至少一个分割标记中的目标分割标记的拖动操作，在完成原始音频信号的录入之后，用户可以长按图3所示的分割标记206，并将分割标记206沿录音轨迹204拖动，电子设备可以响应于用户的拖动操作，确定拖动操作的释放位置，将用户释放分割标记206的位置确定为新的分割位置，并在新的分割位置上添加一个新的分割标记207。用户在拖动分割标记206的过程中，可以沿录音轨迹204向分割标记206的左侧拖动分割标记206，以在分割标记206的左侧添加新的分割标记207，也可以沿录音轨迹204向分割标记206右侧拖动分割标记206，以在分割标记206的右侧添加一个新的分割标记。

在一种实施例中，第九输入可以是直接点击录音轨迹的用户输入，电子设备可以响应于用户的点击操作，确定用户点击的位置为分割位置，并在分割位置上添加一个分割标记。实际应用中，用户可以根据录音时长估计原始音频信号的时间长度，在手动添加分割标记时，可以大概估计需要添加分割标记的分割位置。

在另一种实施例中，电子设备在确定分割位置之后，可以播放分割位置对应的音频内容，以方便用户根据播放的音频内容，调整分割位置。如图5所示，当用户将分割标记206拖动到分割标记207所在的分割位置时，电子设备可以从分割标记207对应的原始音频信号中的时间点开始，播放原始音频信号中的音频内容。此时，用户可以根据播放的音频内容，确定分割标记207对应的分割位置是否为用户需要的分割位置，若分割标记207对应的分割位置不符合需求，用户可以继续拖动分割标记206，在录音轨迹204的其他位置释放分割标记206，重新确定分割位置，电子设备可以再次播放分割位置对应的音频内容，重复上述步骤直至确定符合用户需求的分割位置，在分割位置上添加分割标记。

在一种场景下，用户在原始音频信号的录入过程中，若确定当前时刻录入的声音信号有问题时，可以在录音轨迹中添加分割标记，例如分割标记206。在原始音频信号录入完成之后，用户可以拖动分割标记，在录音轨迹中添加一个对应的分割标记，例如分割标记207，从而可以从录音轨迹中得到一个需要处理的轨迹分段(即分割标记206和分割标记207之间的轨迹分段)，以对轨迹分段对应的音频分段进行处理。

实际应用中，在原始音频信号录入完成之后，用户可以手动在录音轨迹中添加分割标记，可以方便用户将音频信号分割为相应的几个音频分段，从而可以方便用户对原始音频信号进行分段处理。

可选地，步骤403可以通过如下方式实现：

确定原始音频信号中停顿时长大于或等于预设时长的停顿区间，并确定停顿区间在时间轴上的起始时间和结束时间；

从录音轨迹中确定位于起始时间和结束时间之间的目标轨迹分段，并在目标轨迹分段上添加分割标记。

示例性地，电子设备在原始音频信号的录入过程中，可以对原始音频信号进行检测，确定原始音频信号中的停顿区间，在停顿区间对应的目标轨迹分段上添加分割标记。例如，电子设备在采集用户的声音信号的过程中，若在第10秒开始，采集得到的音频信号的强度小于或等于预设强度阈值，可以确定用户在第10秒开始暂停说话，若强度小于或等于预设强度阈值的情况一直持续到第15秒，则可以确定在第10秒至第15秒之间用户并没有说话，并且第10秒与第15秒之间的时间间隔大于预设时长(预设时长例如4秒)，则可以确定第10秒至第15秒之间的时间段为停顿区间，以及停顿区间在时间轴上的起始时间为第10秒，结束时间为第15秒。此时，电子设备可以在录音轨迹中确定位于第10秒和第15秒之间的轨迹分段为目标轨迹分段，并在目标轨迹分段的任意位置添加一个分割标记，即在第10秒至第15秒之间的任意位置添加一个分割标记。

需要说明的是，电子设备也可以在原始音频信号录入完成之后，对原始音频信号进行检测，确定原始音频信号中的一个或多个停顿区间，并在录音轨迹的对应位置添加分割标记。停顿区间的确定方法可以包括但不限于根据音频信号的强度确定，预设时长和预设强度阈值的具体数值可以根据需求设置，本实施例对此不做赘述。

实际应用中，电子设备可以根据原始音频信号中的停顿，在录音轨迹的对应位置添加分割标记，实现分割标记的自动添加，可以简化用户添加分割标记的操作，提高音频信号的处理效率。

步骤404、基于分割标记对应的时间轴上的时间点，将原始音频信号分割为对应于轨迹分段的音频分段。

步骤405、基于对轨迹分段的输入，对轨迹分段对应的原始音频信号中的音频分段进行处理，得到目标音频信号。

可选地，步骤405可以通过如下方式实现：

响应于第二输入，从至少两个轨迹分段中确定待修改的轨迹分段；

获取修正音频信号；

采用修正音频信号替换待修改的音频分段，待修改的音频分段为原始音频信号中与待修改的轨迹分段对应的音频分段。

本实施例中，用户可以从原始音频信号中确定待修改的音频分段，并采用新的音频信号替换待修的音频分段，修正音频信号即为新的音频信号。如图5所示，待修改的轨迹分段可以是分割标记206和分割标记207之间的轨迹分段，第二输入可以是双击轨迹分段的用户输入，电子设备可以响应于用户的双击操作，确定分割标记206和分割标记207之间的轨迹分段为待修改的轨迹分段。与此同时，电子设备可以启动麦克风，再次采集一段音频信号，将采集到的新的音频信号作为修正音频信号，并采用修正音频信号替换原始音频信中分割标记206和分割标记207之间的轨迹分段对应的音频分段。第二输入的具体形式可以根据需求设置，本实施例对此不做限制。

可选地，获取修正音频信号的步骤可以通过如下方式实现：

接收输入的文本信息，将文本信息转换为修正音频信号。

本实施例中，电子设备可以接收用户输入的文本信息，将用户输入的文本信息转换为修正音频信号。例如，电子设备在接收到第二输入，确定待修改的轨迹分段之后，可以显示文本输入框，用户可以通过文本输入框输入文字信息，电子设备可以接收用户输入的文本信息，将文本信息转换为修正音频信号。将文本信息转换为音频信号的具体方法可以根据需求设置，本实施例对此不做限制。

在一种实施例中，修正音频信号可以是电子设备中预先存储的音频信号。电子设备在确定待修改的轨迹分段之后，可以显示音频列表，音频列表中包括预先存储的多个音频信号，用户可以选择其中的一个音频信号作为修正音频信号。修正音频信号的获取方法可以包括但不限于重新录制音频信号、将文本信息转换为音频信号或者选择预先存储的音频信号的方法，本领域已知或未知的音频信号获取方法都可以应用到本实施例中。

实际应用中，用户可以通过轨迹分段，对原始音频信号中存在问题的音频分段进行替换，可以方便用户对原始音频信号中存在问题的音频分段进行修改，以避免重新录入音频信号，可以提高语音通讯效率。

在一种实施例中，用户在原始音频信号录入完成之后，可以选择直接发送原始音频信号，或者选择对原始音频信号进行处理，得到目标音频信号。

示例性地，如图6所示，图6是根据一示例性实施例提供的又一种聊天界面的示意图，结合上述举例，在原始音频信号的录入过程中，若用户再次点击录音按键202，电子设备可以响应于用户的点击操作，停止录入原始音频信号，并在聊天界面中显示选择界面301，选择界面301中包括发送控件3011和编辑控件3012，若用户点击发送控件3011，电子设备可以响应于用户的点击操作，直接发送原始音频信号；若用户点击编辑控件3012，电子设备可以响应于用户的点击操作，显示如图5所示的聊天界面，用户可以通过如图5所示的聊天界面对轨迹分段进行处理，得到目标音频信号。以上仅为示例性举例，选择直接发送原始音频信号或者选择对原始音频信号进行处理的具体过程可以根据需求设置，本实施例对此不做限制。

步骤406、响应于第七输入，从至少两个轨迹分段中确定目标轨迹分段。

步骤407、从目标音频信号中确定目标轨迹分段对应的目标音频分段，并发送目标音频分段。

本实施例中，在对原始音频信号中的音频分段进行处理，得到目标音频信号之后，若录音轨迹中还包括至少一个分割标记，用户可以从至少两个轨迹分段中选择其中的一个或多个轨迹分段对应的音频分段发送。

示例性地，如图7所示，图7是根据一示例性实施例提供的一种音频发送界面的示意图，在用户完成对音频分段的处理之后，电子设备可以显示如图7所示的音频发送界面，音频发送界面的顶部显示有录音轨迹201，底部显示有多个发送对象。第七输入可以是拖动轨迹分段的拖动操作，若用户将录音轨迹中的第一轨迹分段2011拖动到多个发送对象中的目标发送对象401的上方并释放，电子设备可以响应于用户的拖动操作，向目标发送对象401发送第一轨迹分段2011对应的音频分段。

在另一种实施例中，在用户拖动轨迹分段的过程中，电子设备可以显示对应的虚拟轨迹分段。如图8所示，图8是根据一示例性实施例提供的另一种音频发送界面的示意图，在用户拖动第一轨迹分段2011的过程中，电子设备可以显示第一轨迹分段2011对应的虚拟轨迹分段2012，当用户将虚拟轨迹分段2012拖动到目标发送对象401的上方释放时，电子设备可以向目标发送对象401发送第一轨迹分段2011对应的音频分段。

在一种实施例中，用户可以选择直接发送目标音频信号。如图9所示，图 9是根据一示例性实施例提供的又一种音频发送界面的示意图，第七输入可以是双击录音轨迹的用户输入，若用户双击录音轨迹，电子设备可以响应于用户的双击操作，在录音轨迹201的下方显示虚拟录音轨迹2013，虚拟录音轨迹2013对应整段录音轨迹201，此时用户可以拖动虚拟录音轨迹2013，将虚拟录音轨迹2013拖动到目标发送对象的上方并释放。电子设备可以响应于用户的拖动操作，向目标发送对象发送整段目标音频信号。

需要说明的是，在录音轨迹中添加分割标记之后，用户也可以选择不对音频分段进行处理，而是直接进入音频发送界面，选择发送目标音频分段。

实际应用中，用户可以通过轨迹分段选择目标音频信号中的音频分段，将不同的音频分段发送给不同的发送对象，可以实现音频信号的分段发送，可以提高语音通讯效率。

可选地，在步骤405之前，该方法还可以包括：

在接收到第四输入的情况下，暂停原始音频信号的录入；

在接收到第五输入的情况下，继续原始音频信号的录入。

本实施例中，在原始音频信号的录入过程中，用户可以暂停原始音频信号的录入，以方便用户灵活的录入较长的原始音频信号。如图2所示，第四输入可以是点击录音界面201中的暂停按键208的用户输入，用户在原始音频信号的录入过程中，若需要处理其他事务时，可以点击暂停按键208，电子设备在可以响应于用户点击暂停按键208的操作，停止录入原始音频信号，并停止增加录音轨迹204的长度。

同时，电子设备可以更改暂停按键208的显示状态，将暂停按键208更改为如图10所示的暂停状态，图10是根据一示例性实施例提供的又一种聊天界面的示意图，第五输入可以是点击处于暂停状态的暂停按键208的用户输入，电子设备在暂停录入原始音频信号后，若再次接收到点击暂停按键208的操作，可以响应于点击操作继续录入原始音频信号，并继续增加录音轨迹204的长度。同时，电子设备可以将暂停按键208的状态更改为如图2所示的录音状态。

实际应用中，在原始音频信号的录入过程中，用户可以暂停原始音频信号的录入，处理其他事务，在处理其他事务之后，可以继续原始音频信号的录入，可以方便用户灵活的处理多项事务，提高音频信号录入的灵活性。

可选地，在步骤在接收到第五输入的情况下，继续原始音频信号的录入之前，该方法还可以包括：

在录音轨迹的末端显示暂停标记；

响应于第六输入，在录音轨迹的目标位置添加与暂停标记对应的切割标记，暂停标记和切割标记用于从录音轨迹中划分出待切割的轨迹分段；

从原始音频信号中删除待切割的轨迹分段对应的音频分段。

本实施例中，用户在暂停录入原始音频信号时，可以对原始音频信号中的音频分段进行修改。如图10所示，电子设备在暂停原始音频信号的录入时，可以在录音轨迹204的末端显示暂停标记209。第六输入可以是拖动暂停标记209的用户输入，用户可以沿录音轨迹204，向暂停标记209的左侧拖动暂停标记209，并在需要的位置释放暂停标记209。电子设备可以响应于用户的拖动操作，确定暂停标记的释放位置为目标位置，并在目标位置添加切割标记。如图11所示，图11是根据一示例性实施例提供的又一种聊天界面的示意图，若用户在目标位置释放暂停标记209，电子设备可以在目标位置上添加切割标记210，并确定暂停标记209与切割标记210之间的轨迹分段为待切割的轨迹分段。此时，电子设备可以确定切割标记210对应的时间轴上的时间点，删除原始音频信号中位于切割标记210对应的时间点之后的音频分段，即删除暂停标记209至切割标记210之间的轨迹分段对应的音频分段。需要说明的是，第六输入也可以是双击录音轨迹中的目标位置，或单击录音轨迹中的目标位置的用户输入，第六输入的具体形式可以根据需求设置。

实际应用中，用户在原始音频信号的录入过程中，在出现错误时，可以及时暂停原始音频信号的录入，并对刚刚录入的音频信号进行修改，可以方便用户及时的对录入的音频信号进行修改，提高音频信号的录入效率。

需要说明的是，本申请实施例提供的音频信号处理方法，执行主体可以为音频信号处理装置，或者该音频信号处理装置中用于执行加载音频信号处理方法的控制模块。本申请实施例中以音频信号处理装置执行加载音频信号处理方法为例，说明本申请实施例提供的音频信号处理方法。

图12是根据一示例性实施例提供的一种音频信号处理装置的结构示意图，如图12所示，音频信号处理装置1200包括：接收模块1201、显示模块1202、添加模块1203、分割模块1204和处理模块1205。

接收模块1201，用于接收第一输入。

显示模块1202，用于响应于第一输入，录入原始音频信号，并显示原始音频信号的录音轨迹，录音轨迹用于指示原始音频信号的时间轴。

添加模块1203，用于在录音轨迹上添加至少一个分割标记，分割标记用于将录音轨迹分割为至少两个轨迹分段。

分割模块1204，用于基于分割标记对应的时间轴上的时间点，将原始音频信号分割为对应于轨迹分段的音频分段。

处理模块1205，用于基于对轨迹分段的输入，对轨迹分段对应的原始音频信号中的音频分段进行处理，得到目标音频信号。

可选地，处理模块1205具体用于响应于第二输入，从至少两个轨迹分段中确定待修改的轨迹分段；获取修正音频信号；采用修正音频信号替换待修改的音频分段，待修改的音频分段为原始音频信号中与待修改的轨迹分段对应的音频分段。

可选地，处理模块1205具体用于响应于第三输入，从至少两个轨迹分段中确定待删除的轨迹分段；删除原始音频信号中与待删除的轨迹分段对应的音频分段。

可选地，装置1200还可以包括：暂停模块，用于在接收到第四输入的情况下，暂停原始音频信号的录入；在接收到第五输入的情况下，继续原始音频信号的录入。

可选地，装置1200还可以包括：删除模块，用于在录音轨迹的末端显示暂停标记；响应于第六输入，在录音轨迹的目标位置添加与暂停标记对应的切割标记，暂停标记和切割标记用于从录音轨迹中划分出待切割的轨迹分段；从原始音频信号中删除待切割的轨迹分段对应的音频分段。

可选地，装置1200还可以包括：

确定模块，用于响应于第七输入，从至少两个轨迹分段中确定目标轨迹分段。

发送模块，用于从目标音频信号中确定目标轨迹分段对应的目标音频分段，并发送目标音频分段。

可选地，添加模块1203具体用于在原始音频信号的录入过程中，若接收到第八输入，则在当前时刻对应的录音轨迹的位置上添加分割标记。

可选地，添加模块1203具体用于确定原始音频信号中停顿时长大于或等于预设时长的停顿区间，并确定停顿区间在时间轴上的起始时间和结束时间；从录音轨迹中确定位于起始时间和结束时间之间的目标轨迹分段，并在目标轨迹分段上添加分割标记。

可选地，添加模块1203具体用于响应于第九输入，在录音轨迹中确定分割位置，并在分割位置上添加分割标记。

本申请实施例中的音频信号处理装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的音频信号处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的音频信号处理装置能够实现图1或图4的方法实施例实现的各个过程，为避免重复，这里不再赘述。

如图13所示，图13是根据一示例性实施例提供的一种电子设备的结构示意图，电子设备1300包括处理器1301和存储器1302，存储在存储器1302上并可在所述处理器1301上运行的程序或指令，该程序或指令被处理器1301执行时实现上述音频信号处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

该电子设备1400包括但不限于：射频单元1401、网络模块1402、音频输出单元1403、输入单元1404、传感器1405、显示单元1406、用户输入单元1407、接口单元1408、存储器1409、以及处理器1410等部件。

本领域技术人员可以理解，电子设备1400还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1410逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图14中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

显示单元1406，用于接收第一输入；

用户输入单元1407，用于响应于第一输入，录入原始音频信号，显示单元1406还用于显示原始音频信号的录音轨迹，录音轨迹用于指示原始音频信号的时间轴；

显示单元1406还用于在录音轨迹上添加至少一个分割标记，分割标记用于将录音轨迹分割为至少两个轨迹分段；

处理器1410基于分割标记对应的时间轴上的时间点，将原始音频信号分割为对应于轨迹分段的音频分段。

处理器1410用于基于对轨迹分段的输入，对轨迹分段对应的原始音频信号中的音频分段进行处理，得到目标音频信号。

可选地，处理器1410具体用于响应于第二输入，从至少两个轨迹分段中确定待修改的轨迹分段；获取修正音频信号；采用修正音频信号替换待修改的音频分段，待修改的音频分段为原始音频信号中与待修改的轨迹分段对应的音频分段。

可选地，处理器1410具体用于响应于第三输入，从至少两个轨迹分段中确定待删除的轨迹分段；删除原始音频信号中与待删除的轨迹分段对应的音频分段。

可选地，处理器1410还用于在接收到第四输入的情况下，暂停原始音频信号的录入；在接收到第五输入的情况下，继续原始音频信号的录入。

可选地，显示单元1406还用于在录音轨迹的末端显示暂停标记；响应于第六输入，在录音轨迹的目标位置添加与暂停标记对应的切割标记，暂停标记和切割标记用于从录音轨迹中划分出待切割的轨迹分段；处理器1410还用于从原始音频信号中删除待切割的轨迹分段对应的音频分段。

可选地，处理器1410还用于响应于第七输入，从至少两个轨迹分段中确定目标轨迹分段；从目标音频信号中确定目标轨迹分段对应的目标音频分段，并发送目标音频分段。

可选地，显示单元1406具体用于在原始音频信号的录入过程中，若接收到第八输入，则在当前时刻对应的录音轨迹的位置上添加分割标记。

实际应用中，用户在原始音频信号的录入过程中，若发现当前录入的原始音频信号出现错误，可以及时的在当前时刻对应的录音轨迹的位置上添加分割标记。在录入完成之后，可以对分割标记对应的音频分段进行处理，可以方便用户根据录入过程中添加的分割标记确定需要处理的音频分段，快速的对原始音频信号中有问题的音频分段进行处理。

可选地，处理器1410具体用于确定原始音频信号中停顿时长大于或等于预设时长的停顿区间，并确定停顿区间在时间轴上的起始时间和结束时间；从录音轨迹中确定位于起始时间和结束时间之间的目标轨迹分段，并在目标轨迹分段上添加分割标记。

可选地，显示单元1406具体用于响应于第九输入，在录音轨迹中确定分割位置，并在分割位置上添加分割标记。

应理解的是，本申请实施例中，输入单元1404可以包括图形处理器(Graphics Processing Unit，GPU)14041和麦克风14042，图形处理器14041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1406可包括显示面板14081，可以采用液晶显示器、有机发光二极管等形式来配置显示面板14081。用户输入单元1407包括触控面板14081以及其他输入设备14072。触控面板14081，也称为触摸屏。触控面板14081可包括触摸检测装置和触摸控制器两个部分。其他输入设备14072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器1409可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器1410可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1410中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述音频信号处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述音频信号处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

一种音频信号处理方法，包括：

接收第一输入；

响应于所述第一输入，录入原始音频信号，并显示所述原始音频信号的录音轨迹，所述录音轨迹用于指示所述原始音频信号的时间轴；

在所述录音轨迹上添加至少一个分割标记，所述分割标记用于将所述录音轨迹分割为至少两个轨迹分段；

基于所述分割标记对应的所述时间轴上的时间点，将所述原始音频信号分割为对应于所述轨迹分段的音频分段；

基于对所述轨迹分段的输入，对所述轨迹分段对应的所述原始音频信号中的音频分段进行处理，得到目标音频信号。
根据权利要求1所述的方法，其中，所述基于对所述轨迹分段的输入，对所述轨迹分段对应的所述原始音频信号中的音频分段进行处理，得到目标音频信号，包括：

响应于第二输入，从所述至少两个轨迹分段中确定待修改的轨迹分段；

获取修正音频信号；

采用所述修正音频信号替换待修改的音频分段，所述待修改的音频分段为所述原始音频信号中与所述待修改的轨迹分段对应的音频分段。
根据权利要求1所述的方法，其中，所述基于对所述轨迹分段的输入，对所述轨迹分段对应的所述原始音频信号中的音频分段进行处理，得到目标音频信号，包括：

响应于第三输入，从所述至少两个轨迹分段中确定待删除的轨迹分段；

删除所述原始音频信号中与所述待删除的轨迹分段对应的音频分段。
根据权利要求1所述的方法，其中，在所述基于对所述轨迹分段的输入，对所述轨迹分段对应的所述原始音频信号中的音频分段进行处理，得到目标音频信号之前，还包括：

在接收到第四输入的情况下，暂停所述原始音频信号的录入；

在接收到第五输入的情况下，继续所述原始音频信号的录入。
根据权利要求4所述的方法，其中，在所述在接收到第五输入的情况下，继续所述原始音频信号的录入之前，还包括：

在所述录音轨迹的末端显示暂停标记；

响应于第六输入，在所述录音轨迹的目标位置添加与所述暂停标记对应的切割标记，所述暂停标记和所述切割标记用于从所述录音轨迹中划分出待切割的轨迹分段；

从所述原始音频信号中删除所述待切割的轨迹分段对应的音频分段。
根据权利要求1所述的方法，其中，在所述基于对所述轨迹分段的输入，对所述轨迹分段对应的所述原始音频信号中的音频分段进行处理，得到目标音频信号之后，还包括：

响应于第七输入，从所述至少两个轨迹分段中确定目标轨迹分段；

从所述目标音频信号中确定所述目标轨迹分段对应的目标音频分段，并发送所述目标音频分段。
根据权利要求1所述的方法，其中，所述在所述录音轨迹上添加至少一个分割标记，包括：

在所述原始音频信号的录入过程中，若接收到第八输入，则在当前时刻对应的所述录音轨迹的位置上添加所述分割标记。
根据权利要求1所述的方法，其中，所述在所述录音轨迹上添加至少一个分割标记，包括：

确定所述原始音频信号中停顿时长大于或等于预设时长的停顿区间，并确定所述停顿区间在所述时间轴上的起始时间和结束时间；

从所述录音轨迹中确定位于所述起始时间和所述结束时间之间的目标轨迹分段，并在所述目标轨迹分段上添加所述分割标记。
根据权利要求1-8中任一项所述的方法，其中，所述在所述录音轨迹上添加至少一个分割标记，包括：

响应于第九输入，在所述录音轨迹中确定分割位置，并在所述分割位置上添加所述分割标记。
一种音频信号处理装置，包括：

接收模块，用于接收第一输入；

显示模块，用于响应于所述第一输入，录入原始音频信号，并显示所述原始音频信号的录音轨迹，所述录音轨迹用于指示所述原始音频信号的时间轴；

添加模块，用于在所述录音轨迹上添加至少一个分割标记，所述分割标记用于将所述录音轨迹分割为至少两个轨迹分段；

分割模块，用于基于所述分割标记对应的所述时间轴上的时间点，将所述原始音频信号分割为对应于所述轨迹分段的音频分段；

处理模块，用于基于对所述轨迹分段的输入，对所述轨迹分段对应的所述原始音频信号中的音频分段进行处理，得到目标音频信号。
根据权利要求10所述的装置，其中，所述处理模块具体用于：

响应于第二输入，从所述至少两个轨迹分段中确定待修改的轨迹分段；

获取修正音频信号；

采用所述修正音频信号替换待修改的音频分段，所述待修改的音频分段为所述原始音频信号中与所述待修改的轨迹分段对应的音频分段。
根据权利要求10所述的装置，其中，所述处理模块具体用于：

响应于第三输入，从所述至少两个轨迹分段中确定待删除的轨迹分段；

删除所述原始音频信号中与所述待删除的轨迹分段对应的音频分段。
根据权利要求10所述的装置，还包括暂停模块，用于：

在接收到第四输入的情况下，暂停所述原始音频信号的录入；

在接收到第五输入的情况下，继续所述原始音频信号的录入。
根据权利要求13所述的装置，还包括删除模块，用于：

在所述录音轨迹的末端显示暂停标记；

响应于第六输入，在所述录音轨迹的目标位置添加与所述暂停标记对应的切割标记，所述暂停标记和所述切割标记用于从所述录音轨迹中划分出待切割的轨迹分段；

从所述原始音频信号中删除所述待切割的轨迹分段对应的音频分段。
根据权利要求10所述的装置，还包括：

确定模块，用于响应于第七输入，从所述至少两个轨迹分段中确定目标轨迹分段；

发送模块，用于从所述目标音频信号中确定所述目标轨迹分段对应的目标音频分段，并发送所述目标音频分段。
根据权利要求10所述的装置，其中，所述添加模块具体用于：

在所述原始音频信号的录入过程中，若接收到第八输入，则在当前时刻对应的所述录音轨迹的位置上添加所述分割标记。
根据权利要求10所述的装置，其中，所述添加模块具体用于：

确定所述原始音频信号中停顿时长大于或等于预设时长的停顿区间，并确定所述停顿区间在所述时间轴上的起始时间和结束时间；

从所述录音轨迹中确定位于所述起始时间和所述结束时间之间的目标轨迹分段，并在所述目标轨迹分段上添加所述分割标记。
根据权利要求10-17中任一项所述的装置，其中，所述添加模块具体用于：

响应于第九输入，在所述录音轨迹中确定分割位置，并在所述分割位置上添加所述分割标记。
一种电子设备，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至9中任一项所述的音频信号处理方法的步骤。
一种电子设备，被配置用于执行如权利要求1至9中任一项所述的音频信号处理方法的步骤。
一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至9中任一项所述的音频信号处理方法的步骤。
一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如权利要求1至9中任一项所述的音频信号处理方法的步骤。
一种计算机程序产品，其中，所述程序产品被存储在存储介质中，所述程序产品被至少一个处理器执行以实现如权利要求1-9任一项所述的显示方法。