WO2023173269A1

WO2023173269A1 - 数据处理方法和装置

Info

Publication number: WO2023173269A1
Application number: PCT/CN2022/080823
Authority: WO
Inventors: 陈亮; 聂为然
Original assignee: 华为技术有限公司
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2023-09-21
Also published as: CN117157705A

Abstract

本申请实施例提供了一种数据处理方法和装置，可以应用于自动驾驶、人工智能等领域。其中，该方法包括：终端设备向服务器发送待处理数据；服务器根据待处理数据得到待处理数据的特征数据，其中，该特征数据的数据量小于该待处理数据的目标数据的数据量，该特征数据用于合成该目标数据；服务器向终端设备发送特征数据；终端设备根据特征数据生成目标数据。本申请方案能够提高业务的连续性和处理效率。

Description

数据处理方法和装置

技术领域

本申请涉及人工智能领域，并且更具体地，涉及一种数据处理方法和装置。

背景技术

语音合成技术又被称为文本转语音(text to speech，TTS)技术，是语音处理技术领域的一个重要方向，旨在让机器生成自然、动听的人类语音。随着语音合成技术的不断进步，TTS算法的复杂度也在不断地提高，而复杂度较高的TTS算法不适宜在计算资源受限的终端侧实施。

为解决上述问题，传统方案将TTS算法部署在服务器(例如，云端服务器)，通过服务器完成语音的合成再经由网络下发给用户，但这种方式会存在业务连续性较差和处理效率较低的问题。

发明内容

本申请实施例提供一种数据处理方法和装置，能够提高业务的连续性和处理效率。

第一方面，提供了一种数据处理方法，该方法应用于服务器，该服务器通过网络与终端设备通信，该方法包括：从该终端设备接收待处理数据；根据该待处理数据得到该待处理数据的特征数据，该特征数据的数据量小于该待处理数据的目标数据的数据量，该特征数据用于合成该目标数据；向该终端设备发送该特征数据。

可选地，终端设备可以是手机、个人电脑、车辆或者信息处理中心等智能终端；服务器可以是云端服务器、网络服务器、应用服务器以及管理服务器等具有数据处理功能的服务器。

可选地，本申请实施例中的数据处理可以是指流式数据处理。应理解，流式数据处理是指，分段合成目标数据，且先合成的目标数据先播放，在先合成数据播放的同时后续的数据也在合成，不用等到整个目标数据合成完再进行播报，这样可以减少数据合成的等待时间。

可选地，本申请实施例中的数据处理方法可以应用于语音处理、图像处理或视频处理等技术领域，但为便于描述，在下文实施例中均以应用于语音处理技术领域中的流式语音合成技术为例。

应理解，在服务器向终端设备发送特征数据之后，终端设备可以根据该特征数据合成目标数据，并对该目标数据进行播放。

在现有方案中，通常是利用服务器直接合成目标数据，再将所合成的目标数据发送给终端设备，最后通过终端设备对其进行播放，但在网络资源不稳定的场景下，采用这种方式会存在业务连续性较差和处理效率较低的问题。具体地，当网络资源充裕时，目标数据的传输较快，播放也较为流畅；在网络资源受限时，目标数据的传输较慢，导致播放会出现卡顿现象，流畅性比较差，进而造成业务的连续性较差和处理效率较低。

在本申请实施例中，主要利用服务器得到特征数据并发送该特征数据给终端设备，由于该特征数据的数据量小于该待处理数据的目标数据的数据量，从而使得相较于直接发送目标数据而言，能够有效降低数据传输过程中对于网络资源的需求，提高目标数据播放的流畅性，进而能够保证最终目标数据的播放质量，同时能够提高业务的连续性和处理效率。

结合第一方面，在第一方面的某些实现方式中，该向该终端设备发送该特征数据包括：当网络资源满足第一条件时，向该终端设备发送该特征数据，其中，该第一条件包括该网络资源小于或等于第一资源，该第一资源为传输该目标数据时所需求的最小资源。

应理解，第一资源为传输该目标数据时所需求的最小资源，也可以描述为，第一资源为传输该目标数据时所需求的临界资源。应理解，以语音合成技术为例，临界资源能够使得指目标时长语音的传输时长等于目标时长；当网络资源大于临界资源时，目标时长语音的传输时长会小于目标时长，语音播放较为流畅；当网络资源小于临界资源时，目标时长语音的传输时长会大于目标时长，语音播放会存在卡顿现象。

可选地，在本申请实施例中，网络资源可以是网络带宽，且下文均以网络带宽为例进行描述。

可选地，网络资源可以由终端设备实时确定，也可以由其他网络监测设备实现，本申请实施例对此不做限定。

在本申请实施例中，当网络资源小于或等于传输该目标数据时所需求的最小资源时，可以向该终端设备发送该特征数据，由于该特征数据的数据量小于该待处理数据的目标数据的数据量，且该特征数据能够用于合成目标数据，从而使得在网络资源受限时，能够保证最终目标数据的播放质量，同时能够提高业务的连续性和处理效率。

结合第一方面，在第一方面的某些实现方式中，当该第一条件为该网络资源大于或等于第二资源且小于或等于该第一资源时，该特征数据包括第一特征数据；和/或，当该第一条件为该网络资源大于或等于第三资源且小于或等于第二资源时，该特征数据包括第二特征数据，其中，该第一特征数据的数据量大于或等于该第二特征数据的数据量，该第二资源为传输该第一特征数据所需求的最小资源，该第三资源为传输该第二特征数据所需求的最小资源。

可选地，当网络资源大于或等于第二资源且小于或等于第一资源时，该特征数据也可以包括第二特征数据。但需理解的是，由于第一特征数据的数据量大于或等于该第二特征数据的数据量，因而通过第一特征数据合成的目标数据相较于通过第二特征数据合成的目标数据而言质量更优。因而，在本申请实施例中，在网络资源大于或等于第二资源且小于或等于第一资源时，可以选用第一特征数据。

在本申请实施例中，当网络资源处于不同范围时，可以采用不同的特征数据，以使得在不同的网络资源条件下均能够保证业务的连续性和处理效率，同时能够保证最终目标数据的播放质量。

结合第一方面，在第一方面的某些实现方式中，该待处理数据包括待处理语音数据，该目标数据包括目标语音，该特征数据包括声学特征，该网络资源包括网络带宽。

可选地，在应用于语音处理技术领域时，待处理数据可以包括文本序列或音素序列(即待合成语音的文本序列或音素序列)等，本申请实施例对此不做限定。

可选地，声学特征可以包括梅尔谱或经过降采样的短时傅里叶变换谱图等特征，本申请实施例对此不做限定。

结合第一方面，在第一方面的某些实现方式中，该第一特征数据包括梅尔谱特征；该第二特征数据包括第一短时傅里叶变换谱图，其中，该第一短时傅里叶变换谱图为对原始短时傅里叶变换谱图进行降采样得到的谱图，该原始短时傅里叶变换谱图根据该待处理语音数据得到。

可选地，在本申请实施例中，可以将梅尔谱特征的数据量记为目标数据的数据量的1/R；将降采样的短时傅里叶变换谱图的数据量记为目标数据的数据量的1/M。那么对应地，第二资源则为第一资源的1/R；第三资源为第一资源的1/M，其中，R和M均为大于1的正数。应理解，R与M的值可以根据实际情况确定，具体可参加下文方式2和方式3中的相关描述。

可选地，原始短时傅里叶变换谱图根据待处理语音数据得到的具体过程可以包括：根据待处理语音数据得到梅尔谱特征，再根据该梅尔谱特征合成目标语音，最后对所合成的目标语音进行短时傅里叶变换得到该原始短时傅里叶变换谱图。可选地，上述梅尔谱特征也可以为其他声学特征，不做限定。可选地，原始短时傅里叶变换谱图也可以直接根据待处理语音数据得到，本申请实施例对此不做限定。

结合第一方面，在第一方面的某些实现方式中，该第二特征数据还包括残差数据，该残差数据为该原始短时傅里叶变换谱图与第二短时傅里叶变换谱图之差，该第二短时傅里叶变换谱图为对该第一短时傅里叶变换谱图进行升采样得到的谱图。

应理解，通常对原始数据进行降采样，再进行升采样还原数据时，所还原的数据相较于原始数据会存在误差(即残差数据)，因而在本申请实施例中，可以利用服务器来计算并发送该残差数据给终端设备，使得终端设备在根据降采样数据还原原始数据时，可以考虑到该误差，进而能够提高目标数据的合成质量，同时能够保证最终目标数据的播放质量。

结合第一方面，在第一方面的某些实现方式中，该原始短时傅里叶变换谱图的相邻滑窗之间不重叠；和/或，该原始短时傅里叶变换谱图只包括谱图的幅度部分。

可选地，原始短时傅里叶变换谱图只包括谱图的幅度部分也可以描述为，原始短时傅里叶变换谱图不包括谱图的相位部分。

在本申请实施例中，原始短时傅里叶变换谱图的相邻滑窗之间不重叠；和/或，原始短时傅里叶变换谱图只包括谱图的幅度部分，能够降低短时傅里叶变换谱图的数据大小。

结合第一方面，在第一方面的某些实现方式中，当该网络资源满足第二条件时，该第二条件包括该网络资源大于该第一资源，该方法还包括：从该终端设备接收另一待处理数据；根据该另一待处理数据得到该另一待处理数据的目标数据；向该终端设备发送该另一待处理数据的目标数据。

在本申请实施例中，上述待处理数据和另一待处理数据可以相同。

可选地，当网络资源大于第一资源时，也可以向终端设备发送特征数据。但应理解的是，由于服务器的计算能力更强，所以通常利用服务器直接所合成的目标数据的质量更优。

因而，在本申请实施例中，在网络资源大于第一资源时，可以选择利用服务器来合成并发送目标数据给终端设备，以提高目标数据的质量。

第二方面，提供了一种数据处理方法，该方法应用于终端设备，该终端设备通过网络与服务器通信，该方法包括：向该服务器发送待处理数据；从该服务器接收该待处理数据的特征数据，该特征数据的数据量小于该待处理数据的目标数据的数据量；根据该特征数据生成该目标数据。

可选地，在根据该特征数据生成该目标数据之后，该方法还包括：控制播放该目标数据。

在现有方案中，通常是利用服务器直接合成目标数据，然后终端设备再从服务器接收该目标数据，并对该目标数据进行播放，但在网络资源不稳定的场景下，采用这种方式会存在业务连续性较差和处理效率较低的问题。具体地，当网络资源充裕时，目标数据的传输较快，播放也较为流畅；在网络资源受限时，目标数据的传输较慢，导致播放会出现卡顿现象，流畅性比较差，进而造成业务的连续性较差和处理效率较低。

在本申请实施例中，主要利用终端设备从服务器接收待处理数据的特征数据，并根据该特征数据生成目标数据，由于该特征数据的数据量小于该待处理数据的目标数据的数据量，从而使得相较于直接接收目标数据而言，能够有效降低数据传输过程中对于网络资源的需求，提高目标数据播放的流畅性，进而能够保证最终目标数据的播放质量，同时能够提高业务的连续性和处理效率。

结合第二方面，在第二方面的某些实现方式中，该从该服务器接收该待处理数据的特征数据包括：当网络资源满足第一条件时，从该服务器接收该待处理数据的特征数据，其中，该第一条件包括该网络资源小于或等于第一资源，该第一资源为传输该目标数据时所需求的最小资源。

在本申请实施例中，当网络资源小于或等于传输该目标数据时所需求的最小资源时，可以从该服务器接收该待处理数据的特征数据，由于该特征数据的数据量小于该待处理数据的目标数据的数据量，从而使得在网络资源受限时，能够保证最终目标数据的播放质量，同时能够提高业务的连续性和处理效率。

结合第二方面，在第二方面的某些实现方式中，当该第一条件为该网络资源大于或等于第二资源且小于或等于该第一资源时，该特征数据包括第一特征数据；和/或，当该第一条件为该网络资源大于或等于第三资源且小于或等于第二资源时，该特征数据包括第二特征数据，其中，该第一特征数据的数据量大于或等于该第二特征数据的数据量，该第二资源为传输该第一特征数据所需求的最小资源，该第三资源为传输该第二特征数据所需求的最小资源。

结合第二方面，在第二方面的某些实现方式中，该待处理数据包括待处理语音数据，该目标数据包括目标语音，该特征数据包括声学特征，该网络资源包括网络带宽。

结合第二方面，在第二方面的某些实现方式中，该第一特征数据包括梅尔谱特征；该第二特征数据包括第一短时傅里叶变换谱图，其中，该第一短时傅里叶变换谱图为对原始短时傅里叶变换谱图进行降采样得到的谱图，该原始短时傅里叶变换谱图根据该待处理语音数据得到。

结合第二方面，在第二方面的某些实现方式中，当该特征数据包括第二特征数据，且该第二特征数据包括该第一短时傅里叶变换谱图时，该根据该特征数据生成该目标数据包括：对该第一短时傅里叶变换谱图进行升采样得到第二短时傅里叶变换谱图；对该第二短时傅里叶变换谱图进行逆短时傅里叶变换得到该目标语音。

结合第二方面，在第二方面的某些实现方式中，该第二特征数据还包括残差数据，该残差数据为原始短时傅里叶变换谱图与该第二短时傅里叶变换谱图之差。

结合第二方面，在第二方面的某些实现方式中，该对该第二短时傅里叶变换谱图进行逆短时傅里叶变换得到该目标语音包括：对第二短时傅里叶变换谱图和该残差数据之和进行逆短时傅里叶变换得到该目标语音。

结合第二方面，在第二方面的某些实现方式中，该原始短时傅里叶变换谱图的相邻滑窗之间不重叠；和/或，该原始短时傅里叶变换谱图只包括谱图的幅度部分。

结合第二方面，在第二方面的某些实现方式中，当该网络资源满足第二条件时，该第二条件包括该网络资源大于该第一资源，该方法还包括：向该服务器发送另一待处理数据；从该服务器接收该另一待处理数据的目标数据。

可选地，当网络资源大于第一资源时，也可以从服务器接收待处理数据的特征数据。但应理解的是，由于服务器的计算能力更强，所以通常利用服务器直接所合成的目标数据的质量更优。

因而，在本申请实施例中，在网络资源大于第一资源时，可以直接从服务器接收待处理数据的目标数据，以提高目标数据的质量。

结合第二方面，在第二方面的某些实现方式中，当该网络资源满足第三条件时，该第三条件包括该网络资源小于该第三资源，该方法还包括：确定又一待处理数据；根据该又一待处理数据得到该又一待处理数据的目标数据。

在本申请实施例中，上述待处理数据、另一待处理数据以及又一待处理数据可以相同。

在本申请实施例中，当网络资源不足以传输特征数据时，可以直接在终端设备上合成目标数据，以提高业务的连续性和处理效率。

第三方面，提供了一种数据处理装置，该装置可以通过网络与终端设备通信。可选地，该装置可以为服务器，也可以为服务器中的芯片、处理器或模组等。该装置包括：收发模块，用于从该终端设备接收待处理数据；处理模块，用于根据该待处理数据得到该待处理数据的特征数据，该特征数据的数据量小于该待处理数据的目标数据的数据量，该特征数据用于合成该目标数据；该收发模块还用于，向该终端设备发送该特征数据。

其中，该收发模块具有数据发送和/或接收的能力。

结合第三方面，在第三方面的某些实现方式中，该收发模块还用于，当网络资源满足第一条件时，向该终端设备发送该特征数据，其中，该第一条件包括该网络资源小于或等于第一资源，该第一资源为传输该目标数据时所需求的最小资源。

结合第三方面，在第三方面的某些实现方式中，当该第一条件为该网络资源大于或等于第二资源且小于或等于该第一资源时，该特征数据包括第一特征数据；和/或，当该第一条件为该网络资源大于或等于第三资源且小于或等于第二资源时，该特征数据包括第二特征数据，其中，该第一特征数据的数据量大于或等于该第二特征数据的数据量，该第二资源为传输该第一特征数据所需求的最小资源，该第三资源为传输该第二特征数据所需求的最小资源。

结合第三方面，在第三方面的某些实现方式中，该待处理数据包括待处理语音数据，该目标数据包括目标语音，该特征数据包括声学特征，该网络资源包括网络带宽。

结合第三方面，在第三方面的某些实现方式中，该第一特征数据包括梅尔谱特征；该第二特征数据包括第一短时傅里叶变换谱图，其中，该第一短时傅里叶变换谱图为对原始短时傅里叶变换谱图进行降采样得到的谱图，该原始短时傅里叶变换谱图根据该待处理语音数据得到。

结合第三方面，在第三方面的某些实现方式中，该第二特征数据还包括残差数据，该残差数据为该原始短时傅里叶变换谱图与第二短时傅里叶变换谱图之差，该第二短时傅里叶变换谱图为对该第一短时傅里叶变换谱图进行升采样得到的谱图。

结合第三方面，在第三方面的某些实现方式中，该原始短时傅里叶变换谱图的相邻滑窗之间不重叠；和/或，该原始短时傅里叶变换谱图只包括谱图的幅度部分。

结合第三方面，在第三方面的某些实现方式中，当该网络资源满足第二条件时，该第二条件包括该网络资源大于该第一资源，该收发模块还用于，从该终端设备接收另一待处理数据；该处理模块还用于，根据该另一待处理数据得到该另一待处理数据的目标数据；该收发模块还用于，向该终端设备发送该另一待处理数据的目标数据。

第四方面，提供了一种数据处理装置，该装置可以通过网络与服务器通信。可选地，该装置可以为终端设备，也可以为终端设备中的芯片、处理器或模组等。该装置包括：收发模块，用于向该服务器发送待处理数据；从该服务器接收该待处理数据的特征数据，该特征数据的数据量小于该待处理数据的目标数据的数据量；处理模块，用于根据该特征数据生成该目标数据。

其中，该收发模块具有数据发送和/或接收的能力。

结合第四方面，在第四方面的某些实现方式中，该收发模块还用于，当网络资源满足第一条件时，从该服务器接收该待处理数据的特征数据，其中，该第一条件包括该网络资源小于或等于第一资源，该第一资源为传输该目标数据时所需求的最小资源。

结合第四方面，在第四方面的某些实现方式中，当该第一条件为该网络资源大于或等于第二资源且小于或等于该第一资源时，该特征数据包括第一特征数据；和/或，当该第一条件为该网络资源大于或等于第三资源且小于或等于第二资源时，该特征数据包括第二特征数据，其中，该第一特征数据的数据量大于或等于该第二特征数据的数据量，该第二资源为传输该第一特征数据所需求的最小资源，该第三资源为传输该第二特征数据所需求的最小资源。

结合第四方面，在第四方面的某些实现方式中，该待处理数据包括待处理语音数据，该目标数据包括目标语音，该特征数据包括声学特征，该网络资源包括网络带宽。

结合第四方面，在第四方面的某些实现方式中，该第一特征数据包括梅尔谱特征；该第二特征数据包括第一短时傅里叶变换谱图，其中，该第一短时傅里叶变换谱图为对原始短时傅里叶变换谱图进行降采样得到的谱图，该原始短时傅里叶变换谱图根据该待处理语音数据得到。

结合第四方面，在第四方面的某些实现方式中，当该特征数据包括第二特征数据，且该第二特征数据包括该第一短时傅里叶变换谱图时，该处理模块还用于，对该第一短时傅里叶变换谱图进行升采样得到第二短时傅里叶变换谱图；对该第二短时傅里叶变换谱图进行逆短时傅里叶变换得到该目标语音。

结合第四方面，在第四方面的某些实现方式中，该第二特征数据还包括残差数据，该残差数据为原始短时傅里叶变换谱图与该第二短时傅里叶变换谱图之差。

结合第四方面，在第四方面的某些实现方式中，该处理模块还用于，对该第二短时傅里叶变换谱图和该残差数据之和进行逆短时傅里叶变换得到该目标语音。

结合第四方面，在第四方面的某些实现方式中，该原始短时傅里叶变换谱图的相邻滑窗之间不重叠；和/或，该原始短时傅里叶变换谱图只包括谱图的幅度部分。

结合第四方面，在第四方面的某些实现方式中，当该网络资源满足第二条件时，该第二条件包括该网络资源大于该第一资源，该收发模块还用于，向该服务器发送另一待处理数据；从该服务器接收该另一待处理数据的目标数据。

结合第四方面，在第四方面的某些实现方式中，当该网络资源满足第三条件时，该第三条件包括该网络资源小于该第三资源，该处理模块还用于，确定又一待处理数据；根据该又一待处理数据得到该又一待处理数据的目标数据。

第五方面，提供了一种数据处理系统，包括如第三方面或者第三方面的任一可能的实现方式中的数据处理装置和如第四方面或者第四方面的任一可能的实现方式中的数据处理装置。

第六方面，提供了一种数据处理装置，包括至少一个处理器和接口电路，该至少一个处理器用于通过该接口电路获取待处理数据，且执行如第一方面或者第一方面的任一可能的实现方式中的数据处理方法。

第七方面，提供了一种数据处理装置，包括至少一个处理器和通信接口，该至少一个处理器用于通过该通信接口与服务器通信，且执行如第二方面或者第二方面的任一可能的实现方式中的数据处理方法。

第八方面，提供了一种车辆，包括传感器和数据处理装置，该传感器用于获取舱内用户数据，该舱内用户数据用于生成待处理数据，该数据处理装置用于执行如第二方面或者第二方面的任一可能的实现方式中的数据处理方法。

第九方面，提供了一种计算机可读存储介质，其特征在于，包括指令；所述指令用于实现如第一方面或者第一方面的任一可能的实现方式中的数据处理方法；和/或，实现如第二方面或者第二方面的任一可能的实现方式中的数据处理方法。

第十方面，提供了一种算机程序产品，其特征在于，包括：计算机程序，当计算机程序被运行时，使得计算机执行如第一方面或者第一方面的任一可能的实现方式中的数据处理方法；和/或，执行如第二方面或者第二方面的任一可能的实现方式中的数据处理方法。

第十一方面，提供了一种计算设备，包括：至少一个处理器和存储器，所述至少一个处理器与所述存储器耦合，用于读取并执行所述存储器中的指令，以执行如第一方面或者第一方面的任一可能的实现方式中的数据处理方法；和/或，执行如第二方面或者第二方面的任一可能的实现方式中的数据处理方法。

第十二方面，提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行如第一方面或者第一方面的任一可能的实现方式中的数据处理方法；和/或，执行如第二方面或者第二方面的任一可能的实现方式中的数据处理方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行如第一方面或者第一方面的任一可能的实现方式中的数据处理方法；和/或，执行如第二方面或者第二方面的任一可能的实现方式中的数据处理方法。

第十三方面，提供了一种芯片系统，该芯片系统包括至少一个处理器，用于支持实现上述第一方面或第一方面的某些实现中所涉及的功能，例如，例如接收或处理上述方法中所涉及的数据和/或信息。

在一种可能的设计中，所述芯片系统还包括存储器，所述存储器，用于保存程序指令和数据，存储器位于处理器之内或处理器之外。该芯片系统，可以由芯片构成，也可以包含芯片和其他分立器件。

附图说明

图1是本申请实施例提供的一种语音交互的流程示例图。

图2是本申请实施例提供的一种服务器流式语音合成及下发时延示例图。

图3是本申请实施例提供的一种数据处理方法的示例图。

图4是本申请实施例提供的一种语音合成的系统架构示例图。

图5是本申请实施例提供的一种端云结合的流式语音的合成过程示例图。

图6是本申请实施例提供的另一种端云结合的流式语音的合成过程示例图。

图7是本申请实施例提供的又一种端云结合的流式语音的合成过程示例图。

图8是本申请实施例提供的一种车载UI界面的示例图。

图9是本申请实施例提供的另一种车载UI界面的示例图。

图10是本申请实施例提供的一种数据处理装置1000。

图11是本申请实施例提供的一种数据处理装置1100。

图12是本申请实施例提供的一种数据处理系统1200。

图13是本申请实施例提供的数据处理装置的硬件结构示例性框图。

具体实施方式

下面将结合附图，对本申请实施例中的技术方案进行描述。

语音合成技术又被称为TTS技术，是语音处理领域的一个重要方向，旨在让机器生成自然、动听的人类语音。TTS技术既可以单独适用于语音播报(例如咨询播报、订单播报、新闻播报等)、阅读听书(例如读小说、读故事等)等场景中；也可以应用在各种语音交互场景中，例如电子设备的人机交互场景中。其中，电子设备例如可以包括台式电脑、笔记本电脑、智能手机、平板电脑、个人数字助理(personal digital assistant，PDA)、可穿戴设备、智能音箱、电视、无人机、车辆、车载装置(例如车机、车载电脑、车载芯片等)或机器人等等。下面结合图1对TTS技术在语音交互场景中的应用进行示例性介绍。

图1是本申请实施例提供的一种语音交互的流程示例图。应理解，在该示例中，TTS技术主要作为尾部环节(即语音交互的出口)嵌入到语音交互的整体方案中。如图1所示，语音交互的流程100包括:

步骤1，智能终端接收用户发出的语音指令，然后将该语音指令发送给自动语音识别(automatic speech recognition，ASR)模块。

其中，智能终端可以通过麦克风等声音传感器，采集用户发出的语音指令。

可选地，在智能终端将该语音指令发送给ASR模块之前，还可以先对该语音指令进行降噪、回声消除等适当的前处理操作，以降低噪声等带来的干扰。

步骤2，ASR模块可以用于对接收到的语音指令进行识别，输出经过识别后的文本序列给自然语言理解(natural language understanding，NLU)模块。

步骤3，NLU模块对接收到的文本序列中所包含的意图、槽位等语义信息进行提取，并输出提取的语义信息给对话管理(dialogue management，DM)模块。其中，DM模块包含对话状态追踪(dialogue state tracking，DST)和对话策略学习(dialogue policy learning，DPL)。

Step4，DM模块中的DST根据输入的语义信息更新当前的系统状态，而DPL则根据当前的系统状态决定下一步采取何种动作，然后DM模块将确定的决定动作输出给自然语言生成(natural language generation，NLG)模块。

Step5，NLG模块根据接收到的决定动作生成对应的文本序列，作为人机语音交互的反馈，然后再将该文本序列(即下文中的待处理数据)输出给TTS模块。

Step6，TTS模块根据NLG模块输出的文本序列合成语音，并将所合成的语音发送给智能终端，最终通过智能终端的播放设备将合成语音播放给用户，从而实现人机语音交互。

在语音合成中，合成方式主要包括非流式合成和流式合成。其中，非流失合成指的是根据传入的文本一次性合成语音，并一次性返回并播放合成的语音；而流式合成指的是文本传入TTS模块后，TTS模块会分段合成语音，且先合成地语音先播放，在语音播报的同时后续的语音也在合成，不用等到整段语音合成完再进行播报，这样可以减少语音合成的等待时间。

随着语音合成技术的不断进步，以及用户对合成语音的自然度、流畅度、可懂度、甚至定制化程度更高的要求，TTS算法的复杂度也在不断地提高，而复杂度较高的TTS算法不适宜在计算资源受限的终端侧(例如，以上电子设备)中实施。为解决上述问题，传统方案将TTS算法部署在服务器，通过服务器合成语音再经由网络下发给用户。但在网络资源受限的情况下，用户接收到服务器所下发的语音会存在卡顿现象，严重影响着合成语音的质量。下面以网络带宽为例，结合图2对不同网络带宽场景下服务器流式语音合成及下发过程进行介绍。

图2是本申请实施例提供的一种服务器流式语音合成及下发时延示例图。应理解，在该示例中，主要是将需要合成的长度为n秒(s)的语音流以1s为单位间隔进行分段合成，即就是分段合成0s-1s、1s-2s、2s-3s、3s-4s、…、(n-1)s-ns等长度为1s的语音流，且先合成地语音流先下发并播放，其中n为大于0的正数。其中，长度为1s的语音流是指语音流的播放耗时为1s；在图2中，将采用不同长度的方框来分别表示长度为1s的语音流在不同网络带宽场景下的下发耗时或播放耗时，其中，下发耗时是指下发语音流所需要的时间(即时长)。

如图2中的(a)所示，在网络带宽充裕时，长度为1s的语音流的下发耗时小于1s，终端侧语音播放流畅无卡顿；如图2中的(b)所示，在网络带宽处于临界状态时，长度为1s的语音流的下发耗时等于1s，此时虽短期不卡顿，但存在卡顿的风险；如图2中的(c)所示，在网络带宽不足时，长度为1s的语音流的下发耗时大于1s，导致终端侧每播放完1s的语音流，都还需要额外在等待一段时间，等下1s的语音流下发完毕后，再继续播放，正是由于这个等待时间的存在，导致了语音播放的断断续续，造成了卡顿的现象。且当网络带宽越小，终端侧等待的时间也就越长，卡顿造成的用户体验感觉也就越差。导致在网络带宽不稳定的场景下，用户所接收到的语音时而优质，时而卡顿，存在业务连续性较差和处理效率较低问题。

基于此，本申请实施例提供了一种数据处理方法，该方法可以由服务器和/或终端设备执行，也可以由设置在服务器和/或终端设备内的芯片、模组、或处理器执行。该方法主要利用服务器得到特征数据并发送该特征数据给终端设备，再由终端设备根据该特征数据生成目标数据，由于该特征数据的数据量小于该待处理数据的目标数据的数据量，从而使得相较于直接发送目标数据而言，能够有效降低数据传输过程中对于网络资源的需求，提高目标数据播放的流畅性，进而能够保证最终目标数据的播放质量，同时能够提高业务的连续性和处理效率。

可选地，终端设备例如可以是以上任意一种电子设备；服务器可以是云端服务器、网络服务器、应用服务器或管理服务器等具有数据处理功能的服务器。

可选地，本申请实施例中的数据处理可以应用于流式数据处理。流式数据处理是指，分段合成目标数据，且先合成的目标数据先播放，在先合成数据播放的同时后续的数据也在合成，不用等到整个目标数据合成完再进行播报，这样可以减少数据合成的等待时间。

图3是本申请实施例提供的一种数据处理方法的示例图。应理解，该方法300可以应用于服务器和终端设备组成的系统中，且终端设备和服务器之间通过网络通信。如图3所示，方法300可以包括S310至S340，下面对方法300中的各个步骤进行详细描述。

S310，终端设备向服务器发送待处理数据。相应地，服务器从终端设备接收待处理数据。

S320，服务器根据待处理数据得到待处理数据的特征数据。

其中，该特征数据的数据量小于该待处理数据的目标数据的数据量，该特征数据用于合成该目标数据。

S330，服务器向终端设备发送特征数据。相应地，终端设备从服务器接收待处理数据的特征数据。

S340，终端设备根据特征数据生成目标数据。

可选地，在终端设备根据特征数据生成目标数据之后，方法300还可以包括：控制播放该目标数据。

在本申请实施例中，主要利用服务器得到特征数据并发送该特征数据给终端设备，并由终端设备根据该特征数据生成目标数据，由于该特征数据的数据量小于该待处理数据的目标数据的数据量，从而使得相较于直接发送目标数据而言，能够有效降低数据传输过程中对于网络资源的需求，提高目标数据播放的流畅性，进而能够保证最终目标数据的播放质量，同时能够提高业务的连续性和处理效率。

本申请实施例中的特征数据是指：将待处理数据转化为目标数据的中间数据，其具备待处理数据的特征信息，使得在给定输入待处理数据的条件下，可以先将待处理数据变换为该特征数据，然后再将该特征数据转化为最终的目标数据。示例性地，以语音合成为例，在给定输入文本序列的条件下，可先将文本序列变换为声学特征数据，然后再将声学特征数据变换为最终的目标语音。具体来讲，当变换为声码器的解码操作时，声学特征可以是梅尔谱特征，作为声码器的输入；或者，当变换为短时傅里叶逆变换时，特征数据可以为短时傅里叶图谱；或者，当变换为深度神经网络的模型推理时，特征数据可以是深度神经网络的隐藏层输出的声学特征。

可选地，上述步骤S330可以包括：当网络资源满足第一条件时，服务器向终端设备发送特征数据。相应地，当网络资源满足第一条件时，终端设备从服务器接收特征数据。其中，第一条件包括网络资源小于或等于第一资源，该第一资源为传输目标数据时所需求的最小资源。

应理解，第一资源为传输该目标数据时所需求的最小资源，也可以描述为，第一资源为传输该目标数据时所需求的临界资源。应理解，以语音合成技术为例，临界资源能够使得指目标时长语音的传输时长等于目标时长；当网络资源大于临界资源时，目标时长语音的传输时长会小于目标时长，语音播放较为流畅；当网络资源小于临界资源时，目标时长语音的传输时长会大于目标时长，语音播放会存在卡顿现象。应理解，实际操作中，以上判断条件(即网络资源大于临界资源或小于临界资源)中还可以包括等于临界资源的情况，不做限定。

可选地，在本申请实施例中，网络资源例如可以是网络带宽，且为便于描述，下文实施例中均以网络带宽为例，其它网络资源(或称为网络条件)的情况与之类似，例如反应网络有效性的指标，例如时域、频域、或时频资源的大小等；再如反映网络可靠性的指标，例如网络信道质量等，对于网络信道质量的评价，可以包括带宽、时延、信噪比、误码率、抖动等。

可选地，在本申请实施例中，可以将临界带宽记为B。作为一个示例，B值可以通过如下公式(1)进行计算：

B＝F _s*bitwidth*cost (1)

其中，F _s为目标数据的采样率，示例性地，F _s的值可以为24000；bitwidth为每个目标数据采样点的位宽，示例性地，bitwidth的值可以为16bit；cost为信号传输过程中的代价，示例性地，当采用8/10bit编码时该值为1.25。应理解，临界带宽的值与公式中各个数据的实际取值有关，以上临界带宽仅作为示例。

可选地，网络资源可以由终端设备或网络设备实时确定，也可以由其他网络监测设备确定，本申请实施例对此不做限定。

在本申请实施例中，当网络资源小于或等于传输该目标数据时所需求的最小资源时，服务器可以向终端设备发送特征数据，并由终端设备根据该特征数据生成目标数据，由于特征数据的数据量小于待处理数据的目标数据的数据量，从而使得在网络资源受限时，能够保证最终目标数据的播放质量，同时能够提高业务的连续性和处理效率。

可选地，当第一条件为网络资源大于或等于第二资源且小于或等于第一资源时，特征数据可以包括第一特征数据；和/或，当第一条件为网络资源大于或等于第三资源且小于或等于第二资源时，特征数据可以包括第二特征数据，其中，第一特征数据的数据量大于或等于第二特征数据的数据量，第二资源为传输第一特征数据所需求的最小资源，第三资源为传输该第二特征数据所需求的最小资源。

可选地，当网络资源大于或等于第二资源且小于或等于第一资源时，特征数据也可以包括第二特征数据。但需理解的是，由于第一特征数据的数据量大于或等于第二特征数据的数据量，因而通过第一特征数据合成的目标数据相较于通过第二特征数据合成的目标数据而言质量更优。因而，在网络资源大于或等于第二资源且小于或等于第一资源时，选用第一特征数据，可以提升语音质量，选用第二特征数据可以减少网络资源消耗。

可选地，以应用于语音合成技术领域为例，上述待处理数据可以包括待处理语音数据，上述目标数据可以包括目标语音，上述特征数据可以包括声学特征，上述网络资源可以包括网络带宽，该待处理语音数据可以包括文本序列或音素序列等，本申请实施例对此不做限定。为便于描述，下文实施例中均以应用于语音合成技术领域为例进行介绍。可选地，声学特征可以包括梅尔谱或经过降采样的短时傅里叶变换谱图等特征，本申请实施例对此不做限定。

可选地，以应用于语音合成技术领域为例，上述第一特征数据可以包括梅尔谱特征；上述第二特征数据可以包括第一短时傅里叶变换谱图。其中，第一短时傅里叶变换谱图为对原始短时傅里叶变换谱图进行降采样得到的谱图，原始短时傅里叶变换谱图可以根据待处理语音数据得到。

应理解，短时傅里叶变换(short time fourier transformation，STFT)，就是对短时的信号做傅里叶变换。原理如下：对一段长语音信号，分帧、加窗，再对每一帧做傅里叶变换，之后把每一帧的结果沿另一维度堆叠，得到一张图(类似于二维信号)，这张图就是声谱图。

可选地，在本申请实施例中，可以将梅尔谱特征的数据量记为目标数据的数据量的1/R；将降采样的短时傅里叶变换谱图的数据量记为目标数据的数据量的1/M。那么对应地，第二资源则为第一资源的1/R；第三资源为第一资源的1/M，其中R和M均为大于1 的正数。应理解，R与M的值可以根据实际情况确定，具体可参加下文方式b至方式d中的相关描述。

相应地，当特征数据包括第二特征数据，且第二特征数据包括该第一短时傅里叶变换谱图时，上述步骤S340可以包括：终端设备对第一短时傅里叶变换谱图进行升采样得到第二短时傅里叶变换谱图；再对第二短时傅里叶变换谱图进行逆短时傅里叶变换(inverse short time fourier transformation，ISTFT)得到目标语音。

可选地，第二特征数据还可以包括残差数据，该残差数据为原始短时傅里叶变换谱图与第二短时傅里叶变换谱图之差，其中，第二短时傅里叶变换谱图为对第一短时傅里叶变换谱图进行升采样得到的谱图。

相应地，上述对第二短时傅里叶变换谱图进行ISTFT得到目标语音可以包括：对第二短时傅里叶变换谱图和残差数据之和进行ISTFT得到目标语音。

对原始数据进行降采样，再进行升采样还原数据时，所还原的数据相较于原始数据会存在误差(即残差数据)，因而在本申请实施例中，可以利用服务器来计算并发送该残差数据给终端设备，使得终端设备在根据降采样数据还原原始数据时，可以考虑到该误差，进而能够提高目标数据的合成质量，同时能够保证最终目标数据的播放质量。

可选地，上述原始短时傅里叶变换谱图的相邻滑窗之间可以不重叠，从而能够降低短时傅里叶变换谱图的数据大小。

可选地，上述原始短时傅里叶变换谱图可以只包括谱图的幅度部分，从而能够降低短时傅里叶变换谱图的数据大小。可选地，原始短时傅里叶变换谱图只包括谱图的幅度部分也可以描述为，原始短时傅里叶变换谱图不包括谱图的相位部分。

可选地，当网络资源满足第二条件时，第二条件包括网络资源大于第一资源，方法300还可以包括：终端设备向服务器发送待处理数据，相应地，服务器从终端设备接收待处理数据；服务器根据待处理数据得到目标数据；服务器向终端设备发送目标数据，相应地，终端设备从服务器接收目标数据，具体可参加下文方式a中的相关描述。

可选地，当网络资源大于第一资源时，也可以向终端设备发送特征数据。但应理解的是，由于服务器的计算能力更强，所以通常利用服务器直接所合成的目标数据的质量更优，此时语音播放质量更优。

因而，可选的，在网络资源大于第一资源时，可以选择利用服务器来合成并发送目标数据给终端设备，以提高目标数据的质量。

可选地，当网络资源满足第三条件时，第三条件包括网络资源小于该第三资源，或者，处于断网场景(如隧道内、地下车库内等环境)时，方法300还可以包括：确定待处理数据；根据待处理数据得到目标数据，具体可参见下文方式e中的相关描述。

下面结合图4至图9对本申请实施例方案在语音合成领域中的应用进行详细介绍。应理解，下文中所述的云端服务器和网络带宽等仅为示例，不构成对本申请实施例的限定。

图4是本申请实施例提供的一种语音合成的系统架构示例图。如图4所示，在该系统架构400中，云端侧和终端侧分别部署有一套语音合成系统，其中，终端侧所部署的语音合成系统包括声学模型、声码器、ISTFT、还原算法、残差补偿等模块，应理解，考虑到终端侧有限的计算能力以及有限的存储空间，该声学模型和声码器包括的是轻量级的算法；云端侧所部署的语音合成系统包括声学模型、声码器、STFT、降采样、还原算法、残差计算等模块，其中，该声学模型和声码器可以包括重量级的算法，以提高语音合成质量。应理解，该系统架构400能够实现在不同网络带宽情况下采用不同的语音合成方法。下面结合图4对不同网络带宽情况下的语音合成方法进行介绍。

网络带宽情况1：网络带宽＞B，即网络带宽充裕。其中，B表示临界带宽。应理解，在临界带宽下，目标时长的语音的下发耗时等于目标时长。

在该情况下，如图4中的方式a，可以直接在云端服务器完成语音的合成，再下发给终端设备。具体地，部署在云端服务器中的声学模型可以先根据待处理数据生成声学特征，然后声码器根据该声学特征合成语音波形(即合成语音)，再通过网络将合成的语音下发给终端设备。

应理解，在网络带宽充裕时，目标时长的语音的下发耗时会小于目标时长，此时直接在云侧执行语音的合成，且实时下发给终端设备后播放，就能实现无卡顿的语音播放，且由于是在云端侧完成语音的合成，使得音质效果也比较好。

网络带宽情况2：B/2≤网络带宽≤B。

在该情况下，如图4中的方式b以及图5所示的一种端云结合的流式语音的合成过程，可以以云端和终端结合的方式完成语音的合成。具体地，部署在云端服务器中的声学模型可以先根据待处理数据生成声学特征。可选地，该声学特征可以是Mel谱特征。然后云端服务器直接下发Mel谱给终端设备，接着部署在终端设备中的声码器实时根据接收到的Mel谱生成语音流，语音流合成完毕后送入播放设备进行播放，完成终端设备的对用户的回复。

通常声学模型得到的Mel谱的大小为：

其所对应地相同时长的语音流的大小为：T*F _S*2。那么，相同时长语音流和对应的Mel谱数据比值为：

其中，T为语音流的持续时长，F _S为合成语音的时域采样率，t _shift为Mel谱计算时对应的帧移，Dim为Mel谱维度，R为相同时长的语音流数据与对应Mel谱数据之间的比值。

相同时长的语音流的数据量通常大于其所对应的Mel谱的数据量，那么Mel谱的数据量可以记为相同时长的语音流的数据量的1/R，意味着如果直接下发Mel谱数据而不是语音流数据，数据量就会降低为原本的1/R倍，此时对带宽的依赖可以降低为原本的1/R，那么在网络带宽≥B/R时，就可以实现无卡顿的语音播放。

由公式(2)可以看出，实际R的大小取决于F _S、t _shift以及Dim的取值。例如，可以令F _S＝24KHz，Dim＝80，t _shift＝12.5ms，得到R＝1.9，即相同时长语音流的数据量是其对应的Mel谱的数据量的1.9倍。由此可以，如果直接下发Mel谱数据而不是语音流数据，那么的数据量就会降低为原本的1/1.9倍，此时对带宽的依赖可以近似降低为原本的1/1.9，即在网络带宽≥B/1.9时，就可以实现无卡顿的语音播放。

R值可以随着实际F _S、t _shift以及Dim的取值的不同而不同，但通常都在2附近浮动。因此，为便于描述，在本申请实施例中将以Mel谱的数据量近似等于同时长语音流的数据量的1/2为例进行介绍，对应地，在网络带宽≥B/2时，就可以实现无卡顿的语音播放。且为便于描述，在该实施例中，直接以R＝2为例进行描述，但应理解，实际操作中，并不限于此。

应理解，通常通过纯云端合成语音的音质更优，因而，在该语音合成系统400中，可以在网络带宽＞B时，直接采用纯云端合成语音即可；在B/2≤网络带宽≤B时，则采用这种端云结合的方式合成语音，以减少在该网络带宽场景下发生语音播放的卡顿现象，实现近似无损的还原纯云端的合成音质。

网络带宽情况3：B/4≤网络带宽≤B/2。

在该情况下，在一种实现方式中，如图4中的方式d以及图6所示的另一种端云结合的流式语音的合成过程，可以以云端和终端结合的方式完成语音的合成。

具体地，部署在云端服务器中的声学模型可以先根据待处理数据生成声学特征。可选地，该声学特征可以是Mel谱。然后云端服务器所部署的声码器根据该声学特征合成语音波形，STFT模块对该语音波形进行STFT得到原始STFT谱图。降采样模块对所得到原始STFT谱图进行降采样，并将降采样后的STFT谱图发送给终端设备。接着部署在终端设备中的还原算法模块实时对接收到的降采样STFT谱图进行还原(即升采样)，并利用ISTFT模块对还原后的STFT谱图进行ISTFT生成语音流，语音流合成完毕后送入播放设备进行播放，完成终端设备的对用户的回复。

应理解，在方式d中，云端服务器对原始STFT谱图进行降采样，然后在终端设备对STFT谱图进行升采样还原STFT谱图时，所还原的STFT谱图相较于原始STFT谱图会存在误差(即残差数据)，造成目标语音的合成质量较低。为解决该问题，本申请实施例还提出了另一种实现方式。

在另一种实现方式中，如图4中的方式c以及图7所示的又一种端云结合的流式语音的合成过程，同样可以以云端和终端结合的方式完成语音的合成。

具体地，基于方式d，在云端服务器得到降采样后的STFT谱图后，云端服务器还对降采样后的STFT谱图进行升采样来还原STFT谱图，并根据原始STFT谱图和还原的STFT谱图之间的差异确定残差数据，然后在下发降采样后的STFT谱图的同时将该残差数据也发送给终端设备，使得终端设备在接收到降采样后的STFT谱图时，可以先对降采样后的STFT谱图进行还原，然后再对还原STFT谱图进行残差补偿，接着利用ISTFT模块对经过残差补偿的STFT谱图进行ISTFT生成语音流，语音流合成完毕后送入播放设备进行播放，完成终端设备的对用户的回复。

可选地，上述原始STFT谱图的相邻滑窗之间可以不重叠，且可以只包括谱图的幅度部分。在这种情况下，原始STFT谱图的数据大小可以按照如下公式(3)表示：

其中，

为原始STFT谱图的数据大小，T*F _S*2为对应语音流的数据量。T为语音流的持续时长，F _S为合成语音的时域采样率，N _hop为帧移点数，当滑窗不重叠时N _hop和N _fft相等，N _fft表示做STFT时的点数。可见，该原始STFT谱图的数据量几乎可以和对应语音流的数据量等大。

残差数据传输时所占网络带宽较小，例如，可以约为B/10，因而在本申请实施例中将忽略其影响。可选地，残差数据可以通过如下公式(4)进行计算：

Res＝imgstft-fun_recover(fun_downsample(imgstft)) (4)

其中，Res表示还原后的残差数据，imgstft表示原始STFT谱图，(fun_downsample(imgstft)表示根据对原始STFT谱图进行降采样得到的STFT谱图，表示fun_recover(fun_downsample(imgstft))表示对降采样得到的STFT谱图进行还原得到的谱图。

可选地，在本申请实施例中，可以将降采样后的STFT谱图的数据量记为原始STFT谱图的数据量的1/M。如果直接下发降采样后的STFT谱图而不是语音流数据，数据大小就会降低为原本的1/M倍，此时对带宽的依赖可以降低为原本的1/M，那么在网络带宽≥B/M时，就可以实现无卡顿的语音播放。

该M代表STFT图谱的降采样程度，M值越大，表示降采样程度越大，意味着降采样后的STFT谱图的数据量越小。

示例性地，在本申请实施例中，可以令M＝4。意味着如果直接下发降采样后的STFT谱图而不是语音流数据，那么数据量就会降低为原本的1/M倍，此时对带宽的依赖可以近似降低为原本的1/4，即在网络带宽≥B/4时，就可以实现无卡顿的语音播放。应理解M＝4仅为示例，实际操作中，可以不限于此。

由于直接下发Mel谱特征较降采样后的STFT谱图而言，能够保留更多的语音特征，因而在该语音合成系统400中，可以在B/2≤网络带宽≤B时采用方式b；在B/4≤网络带宽≤B/2时采用方式c或d，以进一步提高语音合成质量。

网络带宽情况4：网络带宽≤B/4。

在该情况下，如图4中的方式e，可以直接在终端设备完成语音的合成并播放。具体地，部署在终端设备的声学模型可以先根据待处理数据生成声学特征，然后声码器根据该声学特征合成语音，并由播放设备进行实时播放。

在网络带宽≤B/4时，即使采用端云结合的方式来合成语音，也会由于网络带宽的限制，造成语音播放时的卡顿现象。因此，在该情况下，待处理数据可以不上传至云端，语音合成过程完全在终端侧执行。但由于终端侧通常所部署的声学模型和声码器包括的是轻量级的TTS算法，因此通过终端侧合成语音的质量不如云端侧的音质效果。

综上，根据上述不同方法合成语音的音质效果由方式a至方式e递减。

可选地，在实际操作中，终端设备可以直接根据所处环境的网络情况来确定合成语音的方式。例如，在网络带宽充裕时，终端设备可以确定在云端合成语音；在网络带宽有限，但能满足上述声学特征数据的传输时，终端设备可以确定采用端云结合的方式合成语音；在网络带宽严重不足或断网时，终端设备可以确定直接在终端设备合成语音。

可选地，也可以由用户根据实际情况自主选择语音合成的方式。例如，在用户对语音播报速度有较高要求时，可以选用在终端设备上合成语音的方式，减少起播延迟；在用户对音质要求很高且环境网络充裕时，可以选用云端合成的方式；在用户对音质要求高但环境网络不是很充裕时，可以选用端云结合的方式。

可选地，终端设备也可以先根据所处环境的网络情况来确定合成语音的方式然后推荐给用户，让用户自主选择是否按照终端设备的推荐进行语音的合成。

下面结合图8和图9以车辆为例，对车载人机交互的用户界面(User Interface，UI)进行介绍。

图8是本申请实施例提供的一种车载UI界面的示例图。如图8所示，在人机语音交互过程中，若用户希望能够自由选择语音播报模式，则可以向车辆发出指令，例如，“交互助手，我要选择播报模式！”，车辆接收到该指令后，车辆可以将快速听、流畅听、生动听等不同语音播报模式显示在中控显示屏以供用户选择。其中，快速听是指通过终端侧完成语音合成，实现快速的语音播报；流畅听是指通过端云结合的方式完成语音合成，实现优质不卡的语音播报；生动听是指完全在云端完成语音合成，实现音质更优的语音播报。使得用户可以根据实际需求和网络环境自主选择语音播报模式。例如，在用户对语音播报速度有较高要求时，可以在中控显示屏上选择“快速听”；在用户对音质要求很高且环境网络充裕时，可以选用“生动听”；在用户对音质要求高但环境网络不是很充裕时，可以选用“流畅听”。

图9是本申请实施例提供的另一种车载UI界面的示例图。如图9所示，在人机语音交互过程中，若用户希望由车辆推荐一种播报模式，则可以向车辆发出指令，例如，“交互助手，请推荐一种播报模式！”，车辆接收到该指令后，可以根据所处环境的网络情况来为用户推荐合适的语音播报模式。例如，在车辆检测到网络充裕时，可以为用户推荐生动听，此时，若用户同意该推荐，可以选择“是”；若用户不同意该推荐；可以选择“否”，并按照自己的需求选择一种语音播报模式。

图10是本申请实施例提供的一种数据处理装置1000，该装置1000可以通过网络与终端设备通信。可选地，该装置1000可以为服务器，也可以为服务器中的芯片、处理器或模组等，不做限定。该装置1000包括：收发模块1010和处理模块1020。应理解，该收发模块1010具有数据发送和/或接收的能力，且该收发模块1010在具体实现上可以是接口电路。

其中，收发模块1010，用于从终端设备接收待处理数据；处理模块1020，用于根据待处理数据得到待处理数据的特征数据，该特征数据的数据量小于待处理数据的目标数据的数据量，特征数据用于合成目标数据；收发模块1010还用于，向终端设备发送特征数据。

可选地，收发模块1010还可以用于，当网络资源满足第一条件时，向终端设备发送特征数据，其中，第一条件包括网络资源小于或等于第一资源，第一资源为传输目标数据时所需求的最小资源。

可选地，当第一条件为网络资源大于或等于第二资源且小于或等于第一资源时，特征数据可以包括第一特征数据；和/或，当第一条件为网络资源大于或等于第三资源且小于或等于第二资源时，特征数据可以包括第二特征数据，其中，第一特征数据的数据量大于或等于第二特征数据的数据量，第二资源为传输第一特征数据所需求的最小资源，第三资源为传输第二特征数据所需求的最小资源。

可选地，待处理数据可以包括待处理语音数据，目标数据可以包括目标语音，特征数据可以包括声学特征，网络资源可以包括网络带宽。

可选地，第一特征数据可以包括梅尔谱特征；第二特征数据可以包括第一短时傅里叶变换谱图，其中，第一短时傅里叶变换谱图为对原始短时傅里叶变换谱图进行降采样得到的谱图，原始短时傅里叶变换谱图可以根据待处理语音数据得到。

可选地，第二特征数据还可以包括残差数据，残差数据为原始短时傅里叶变换谱图与第二短时傅里叶变换谱图之差，第二短时傅里叶变换谱图为对第一短时傅里叶变换谱图进行升采样得到的谱图。

可选地，原始短时傅里叶变换谱图的相邻滑窗之间可以不重叠；和/或，原始短时傅里叶变换谱图可以只包括谱图的幅度部分。

可选地，当网络资源满足第二条件时，该第二条件包括网络资源大于第一资源，收发模块1010还可以用于，从终端设备接收另一待处理数据；处理模块1020还可以用于，根据另一待处理数据得到另一待处理数据的目标数据；收发模块1010还可以用于，向终端设备发送另一待处理数据的目标数据。

图11是本申请实施例提供的一种数据处理装置1100，该装置1100可以通过网络与服务器通信。可选地，该装置1100可以为终端设备，也可以为终端设备中的芯片、处理器或模组等，不做限定。该装置1100包括：收发模块1110和处理模块1120。应理解，该收发模块1110具有数据发送和/或接收的能力，且该收发模块1110在具体实现上可以是接口电路。

其中，收发模块1110，用于向服务器发送待处理数据；从服务器接收待处理数据的特征数据，该特征数据的数据量小于待处理数据的目标数据的数据量；处理模块1120，用于根据特征数据生成目标数据。

可选地，收发模块1110还可以用于，当网络资源满足第一条件时，从服务器接收待处理数据的特征数据，其中，第一条件包括网络资源小于或等于第一资源，第一资源为传输目标数据时所需求的最小资源。

可选地，当特征数据包括第二特征数据，且第二特征数据包括第一短时傅里叶变换谱图时，处理模块1120还可以用于，对第一短时傅里叶变换谱图进行升采样得到第二短时傅里叶变换谱图；对第二短时傅里叶变换谱图进行ISTFT得到目标语音。

可选地，第二特征数据还可以包括残差数据，残差数据为原始短时傅里叶变换谱图与第二短时傅里叶变换谱图之差。

可选地，处理模块1120还可以用于，对第二短时傅里叶变换谱图和残差数据之和进行ISTFT得到目标语音。

可选地，当网络资源满足第二条件时，该第二条件包括网络资源大于第一资源，收发模块1110还可以用于，向服务器发送另一待处理数据；从服务器接收另一待处理数据的目标数据。

可选地，当网络资源满足第三条件时，该第三条件包括网络资源小于第三资源，处理模块1120还可以用于，确定又一待处理数据；根据又一待处理数据得到又一待处理数据的目标数据。

在本申请实施例中，上述待处理数据、另一待处理数据和又一待处理数据可以相同。

图12是本申请实施例提供的一种数据处理系统1200。如图12所示，该系统1200包括装置1000和装置1100，且该装置1000应用于服务器，可以用于执行本申请方法实施例中服务器所对应的相关操作，该装置1100应用于终端设备，可以用于执行本申请方法实施例中终端设备所对应的相关操作。

图13是本申请实施例提供的数据处理装置的硬件结构示例性框图。可选地，该装置1300具体可以是一种计算机设备。该装置1300包括存储器1310、处理器1320、通信接口1330以及总线1340。其中，存储器1310、处理器1320、通信接口1330通过总线1340实现彼此之间的通信连接。

存储器1310可以是只读存储器(read-only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器1310可以存储程序，当存储器1310中存储的程序被处理器1320执行时，处理器1320和通信接口1330用于执行本申请实施例中数据处理装置1000所对应的相关操作；和/或，用于执行本申请实施例中数据处理装置1100所对应的相关操作。

处理器1320可以采用通用的中央处理器(central processing unit，CPU)，微处理器，专用集成电路(application specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的数据处理装置1000中的处理模块1020所需执行的功能，或者以实现本申请实施例的数据处理装置1100中的处理模块1120所需执行的功能。

处理器1320还可以是一种集成电路芯片，具有信号处理能力。在实现过程中，本申请方法实施例中服务器所对应的相关操作；和/或，本申请方法实施例中终端设备所对应的相关操作可以通过处理器1320中的硬件的集成逻辑电路或者软件形式的指令完成。

上述处理器1320还可以是通用处理器、数字信号处理器(digital signal processor，DSP)、ASIC、现场可编程逻辑门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1310，处理器1320读取存储器1310中的信息，结合其硬件完成本申请实施例的数据处理装置中包括的模块所需执行的功能，或者执行本申请方法实施例中服务器所对应的相关操作；和/或，用于执行本申请方法实施例中终端设备所对应的相关操作。例如，处理器1320可以执行上述步骤S320和步骤S340。

通信接口1330使用例如但不限于收发器一类的收发装置，来实现装置1300与其他设备或通信网络之间的通信。通信接口1330可以用于实现图10所示数据处理装置1000中的收发模块1010所需执行的功能；或者，通信接口1330可以用于实现图11所示数据处理装置1100中的收发模块1110所需执行的功能。例如，通信接口1330可以执行上述步骤S310和步骤S330。

总线1340可包括在装置1300各个部件(例如，存储器1310、处理器1320、通信接口1330)之间传送信息的通路。

本申请实施例还提供了一种车辆，包括传感器和数据处理装置，传感器用于获取舱内用户数据，舱内用户数据用于生成待处理数据，数据处理装置用于执行本申请方法实施例中终端设备所对应的相关操作。

本申请实施例还提供了一种计算机可读存储介质，其特征在于，包括指令；所述指令用于实现本申请方法实施例中服务器所对应的相关操作；和/或，实现本申请方法实施例中终端设备所对应的相关操作。

本申请实施例还提供了一种算机程序产品，其特征在于，包括：计算机程序，当计算机程序被运行时，使得计算机执行本申请方法实施例中服务器所对应的相关操作；和/或，执行本申请方法实施例中终端设备所对应的相关操作。

本申请实施例还提供了一种计算设备，包括：至少一个处理器和存储器，所述至少一个处理器与所述存储器耦合，用于读取并执行所述存储器中的指令，以执行本申请方法实施例中服务器所对应的相关操作；和/或，执行本申请方法实施例中终端设备所对应的相关操作。

本申请实施例还提供了一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行本申请方法实施例中服务器所对应的相关操作；和/或，执行本申请方法实施例中终端设备所对应的相关操作。

在本申请的各个实施例中，如果没有特殊说明以及逻辑冲突，不同的实施例之间的术语和/或描述具有一致性、且可以相互引用，不同的实施例中的技术特征根据其内在的逻辑关系可以组合形成新的实施例。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对传统方案做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。本申请实施例中，“多个”是指两个或两个以上。本申请实施例中，“和/或”用于描述关联对象的关联关系，表示可以独立存在的三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，或同时存在A和B。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种数据处理方法，其特征在于，所述方法应用于服务器，所述服务器通过网络与终端设备通信，所述方法包括：

从所述终端设备接收待处理数据；

根据所述待处理数据得到所述待处理数据的特征数据，所述特征数据的数据量小于所述待处理数据的目标数据的数据量，所述特征数据用于合成所述目标数据；

向所述终端设备发送所述特征数据。
如权利要求1所述的方法，其特征在于，所述向所述终端设备发送所述特征数据包括：

当网络资源满足第一条件时，向所述终端设备发送所述特征数据，其中，所述第一条件包括所述网络资源小于或等于第一资源，所述第一资源为传输所述目标数据时所需求的最小资源。
如权利要求2所述的方法，其特征在于，

当所述第一条件为所述网络资源大于或等于第二资源且小于或等于所述第一资源时，所述特征数据包括第一特征数据；和/或，

当所述第一条件为所述网络资源大于或等于第三资源且小于或等于第二资源时，所述特征数据包括第二特征数据，其中，所述第一特征数据的数据量大于或等于所述第二特征数据的数据量，所述第二资源为传输所述第一特征数据所需求的最小资源，所述第三资源为传输所述第二特征数据所需求的最小资源。
如权利要求3所述的方法，其特征在于，所述待处理数据包括待处理语音数据，所述目标数据包括目标语音，所述特征数据包括声学特征，所述网络资源包括网络带宽。
如权利要求4所述的方法，其特征在于，所述第一特征数据包括梅尔谱特征；所述第二特征数据包括第一短时傅里叶变换谱图，其中，所述第一短时傅里叶变换谱图为对原始短时傅里叶变换谱图进行降采样得到的谱图，所述原始短时傅里叶变换谱图根据所述待处理语音数据得到。
如权利要求5所述的方法，其特征在于，所述第二特征数据还包括残差数据，所述残差数据为所述原始短时傅里叶变换谱图与第二短时傅里叶变换谱图之差，所述第二短时傅里叶变换谱图为对所述第一短时傅里叶变换谱图进行升采样得到的谱图。
如权利要求5或6所述的方法，其特征在于，所述原始短时傅里叶变换谱图的相邻滑窗之间不重叠；和/或，所述原始短时傅里叶变换谱图只包括谱图的幅度部分。
如权利要求2所述的方法，其特征在于，当所述网络资源满足第二条件时，所述第二条件包括所述网络资源大于所述第一资源，所述方法还包括：

从所述终端设备接收另一待处理数据；

根据所述另一待处理数据得到所述另一待处理数据的目标数据；

向所述终端设备发送所述另一待处理数据的目标数据。
一种数据处理方法，其特征在于，所述方法应用于终端设备，所述终端设备通过网络与服务器通信，所述方法包括：

向所述服务器发送待处理数据；

从所述服务器接收所述待处理数据的特征数据，所述特征数据的数据量小于所述待处理数据的目标数据的数据量；

根据所述特征数据生成所述目标数据。
如权利要求9所述的方法，其特征在于，所述从所述服务器接收所述待处理数据的特征数据包括：

当网络资源满足第一条件时，从所述服务器接收所述待处理数据的特征数据，其中，所述第一条件包括所述网络资源小于或等于第一资源，所述第一资源为传输所述目标数据时所需求的最小资源。
如权利要求10所述的方法，其特征在于，

当所述第一条件为所述网络资源大于或等于第二资源且小于或等于所述第一资源时，所述特征数据包括第一特征数据；和/或，

当所述第一条件为所述网络资源大于或等于第三资源且小于或等于第二资源时，所述特征数据包括第二特征数据，其中，所述第一特征数据的数据量大于或等于所述第二特征数据的数据量，所述第二资源为传输所述第一特征数据所需求的最小资源，所述第三资源为传输所述第二特征数据所需求的最小资源。
如权利要求11所述的方法，其特征在于，所述待处理数据包括待处理语音数据，所述目标数据包括目标语音，所述特征数据包括声学特征，所述网络资源包括网络带宽。
如权利要求12所述的方法，其特征在于，所述第一特征数据包括梅尔谱特征；所述第二特征数据包括第一短时傅里叶变换谱图，其中，所述第一短时傅里叶变换谱图为对原始短时傅里叶变换谱图进行降采样得到的谱图，所述原始短时傅里叶变换谱图根据所述待处理语音数据得到。
如权利要求13所述的方法，其特征在于，当所述特征数据包括第二特征数据，且所述第二特征数据包括所述第一短时傅里叶变换谱图时，所述根据所述特征数据生成所述目标数据包括：

对所述第一短时傅里叶变换谱图进行升采样得到第二短时傅里叶变换谱图；

对所述第二短时傅里叶变换谱图进行逆短时傅里叶变换得到所述目标语音。
如权利要求14所述的方法，其特征在于，所述第二特征数据还包括残差数据，所述残差数据为原始短时傅里叶变换谱图与所述第二短时傅里叶变换谱图之差。
如权利要求15所述的方法，其特征在于，所述对所述第二短时傅里叶变换谱图进行逆短时傅里叶变换得到所述目标语音包括：

对所述第二短时傅里叶变换谱图和所述残差数据之和进行逆短时傅里叶变换得到所述目标语音。
如权利要求13至16中任一项所述的方法，其特征在于，所述原始短时傅里叶变换谱图的相邻滑窗之间不重叠；和/或，所述原始短时傅里叶变换谱图只包括谱图的幅度部分。
如权利要求10所述的方法，其特征在于，当所述网络资源满足第二条件时，所述第二条件包括所述网络资源大于所述第一资源，所述方法还包括：

向所述服务器发送另一待处理数据；

从所述服务器接收所述另一待处理数据的目标数据。
如权利要求11所述的方法，其特征在于，当所述网络资源满足第三条件时，所述第三条件包括所述网络资源小于所述第三资源，所述方法还包括：

确定又一待处理数据；

根据所述又一待处理数据得到所述又一待处理数据的目标数据。
一种数据处理装置，其特征在于，所述装置通过网络与终端设备通信，所述装置包括：

收发模块，用于从所述终端设备接收待处理数据；

处理模块，用于根据所述待处理数据得到所述待处理数据的特征数据，所述特征数据的数据量小于所述待处理数据的目标数据的数据量，所述特征数据用于合成所述目标数据；

所述收发模块还用于，向所述终端设备发送所述特征数据。
如权利要求20所述的装置，其特征在于，所述收发模块还用于，

当网络资源满足第一条件时，向所述终端设备发送所述特征数据，其中，所述第一条件包括所述网络资源小于或等于第一资源，所述第一资源为传输所述目标数据时所需求的最小资源。
如权利要求21所述的装置，其特征在于，

当所述第一条件为所述网络资源大于或等于第二资源且小于或等于所述第一资源时，所述特征数据包括第一特征数据；和/或，

当所述第一条件为所述网络资源大于或等于第三资源且小于或等于第二资源时，所述特征数据包括第二特征数据，其中，所述第一特征数据的数据量大于或等于所述第二特征数据的数据量，所述第二资源为传输所述第一特征数据所需求的最小资源，所述第三资源为传输所述第二特征数据所需求的最小资源。
如权利要求22所述的装置，其特征在于，所述待处理数据包括待处理语音数据，所述目标数据包括目标语音，所述特征数据包括声学特征，所述网络资源包括网络带宽。
如权利要求23所述的装置，其特征在于，所述第一特征数据包括梅尔谱特征；所述第二特征数据包括第一短时傅里叶变换谱图，其中，所述第一短时傅里叶变换谱图为对原始短时傅里叶变换谱图进行降采样得到的谱图，所述原始短时傅里叶变换谱图根据所述待处理语音数据得到。
如权利要求24所述的装置，其特征在于，所述第二特征数据还包括残差数据，所述残差数据为所述原始短时傅里叶变换谱图与第二短时傅里叶变换谱图之差，所述第二短时傅里叶变换谱图为对所述第一短时傅里叶变换谱图进行升采样得到的谱图。
如权利要求24或25所述的装置，其特征在于，所述原始短时傅里叶变换谱图的相邻滑窗之间不重叠；和/或，所述原始短时傅里叶变换谱图只包括谱图的幅度部分。
如权利要求21所述的装置，其特征在于，当所述网络资源满足第二条件时，所述第二条件包括所述网络资源大于所述第一资源，所述收发模块还用于，

从所述终端设备接收另一待处理数据；

所述处理模块还用于，根据所述另一待处理数据得到所述另一待处理数据的目标数据；

所述收发模块还用于，向所述终端设备发送所述另一待处理数据的目标数据。
一种数据处理装置，其特征在于，所述装置通过网络与服务器通信，所述装置包括：

收发模块，用于向所述服务器发送待处理数据；从所述服务器接收所述待处理数据的特征数据，所述特征数据的数据量小于所述待处理数据的目标数据的数据量；

处理模块，用于根据所述特征数据生成所述目标数据。
如权利要求28所述的装置，其特征在于，所述收发模块还用于，当网络资源满足第一条件时，从所述服务器接收所述待处理数据的特征数据，其中，所述第一条件包括所述网络资源小于或等于第一资源，所述第一资源为传输所述目标数据时所需求的最小资源。
如权利要求29所述的装置，其特征在于，

当所述第一条件为所述网络资源大于或等于第二资源且小于或等于所述第一资源时，所述特征数据包括第一特征数据；和/或，

当所述第一条件为所述网络资源大于或等于第三资源且小于或等于第二资源时，所述特征数据包括第二特征数据，其中，所述第一特征数据的数据量大于或等于所述第二特征数据的数据量，所述第二资源为传输所述第一特征数据所需求的最小资源，所述第三资源为传输所述第二特征数据所需求的最小资源。
如权利要求30所述的装置，其特征在于，所述待处理数据包括待处理语音数据，所述目标数据包括目标语音，所述特征数据包括声学特征，所述网络资源包括网络带宽。
如权利要求31所述的装置，其特征在于，所述第一特征数据包括梅尔谱特征；所述第二特征数据包括第一短时傅里叶变换谱图，其中，所述第一短时傅里叶变换谱图为对原始短时傅里叶变换谱图进行降采样得到的谱图，所述原始短时傅里叶变换谱图根据所述待处理语音数据得到。
如权利要求32所述的装置，其特征在于，当所述特征数据包括第二特征数据，且所述第二特征数据包括所述第一短时傅里叶变换谱图时，所述处理模块还用于，

对所述第一短时傅里叶变换谱图进行升采样得到第二短时傅里叶变换谱图；

对所述第二短时傅里叶变换谱图进行逆短时傅里叶变换得到所述目标语音。
如权利要求33所述的装置，其特征在于，所述第二特征数据还包括残差数据，所述残差数据为原始短时傅里叶变换谱图与所述第二短时傅里叶变换谱图之差。
如权利要求34所述的装置，其特征在于，所述处理模块还用于，对所述第二短时傅里叶变换谱图和所述残差数据之和进行逆短时傅里叶变换得到所述目标语音。
如权利要求32至35中任一项所述的装置，其特征在于，所述原始短时傅里叶变换谱图的相邻滑窗之间不重叠；和/或，所述原始短时傅里叶变换谱图只包括谱图的幅度部分。
如权利要求29所述的装置，其特征在于，当所述网络资源满足第二条件时，所述第二条件包括所述网络资源大于所述第一资源，所述收发模块还用于，

向所述服务器发送另一待处理数据；

从所述服务器接收所述另一待处理数据的目标数据。
如权利要求30所述的装置，其特征在于，当所述网络资源满足第三条件时，所述第三条件包括所述网络资源小于所述第三资源，所述处理模块还用于，

确定又一待处理数据；

根据所述又一待处理数据得到所述又一待处理数据的目标数据。
一种数据处理系统，其特征在于，包括如权利要求20至27中任一项所述的数据处理装置和如权利要求28至38中任一项所述的数据处理装置。
一种数据处理装置，其特征在于，包括至少一个处理器和接口电路，所述至少一个处理器用于通过所述接口电路获取待处理数据，且执行如权利要求1至8中任一项所述的数据处理方法。
一种数据处理装置，其特征在于，包括至少一个处理器和通信接口，所述至少一个处理器用于通过所述通信接口与服务器通信，且执行如权利要求9至19中任一项所述的数据处理方法。
一种车辆，其特征在于，包括传感器和数据处理装置，所述传感器用于获取舱内用户数据，所述舱内用户数据用于生成待处理数据，所述数据处理装置用于执行如权利要求9至19中任一项所述的数据处理方法。
一种芯片，其特征在于，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行如权利要求1至8中任一项所述的数据处理方法；和/或，执行如权利要求9至19中任一项所述的数据处理方法。
一种计算机可读存储介质，其特征在于，包括指令；所述指令用于实现如权利要求1至8中任一项所述的数据处理方法；和/或，实现如权利要求9至19中任一项所述的数据处理方法。
一种算机程序产品，其特征在于，包括：计算机程序，当计算机程序被运行时，使得计算机执行如权利要求1至8中任一项所述的数据处理方法；和/或，执行如权利要求9至19中任一项所述的数据处理方法。