WO2009138012A1

WO2009138012A1 - 声音处理的方法、设备及系统

Info

Publication number: WO2009138012A1
Application number: PCT/CN2009/071603
Authority: WO
Inventors: 邓庆锋
Original assignee: 华为技术有限公司
Priority date: 2008-05-14
Filing date: 2009-04-30
Publication date: 2009-11-19
Also published as: CN101287044A; CN101287044B

Description

声音处理的方法、设备及系统

本申请要求于 2008 年 05 月 14 日提交中国专利局、申请号为 200810094737.9、发明名称为"声音处理的方法、设备及系统，，的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及通信领域，特别涉及声音处理的方法、设备及系统。

背景技术

为了适应对通讯业务的个性化需求，在许多行业中引入了呼叫中心，例如银行、证券等行业，通过呼叫中心将用户和人工坐席或者自动业务连接起来，实现语音类业务。

在通过呼叫中心实现业务的过程中，可以进行声紋釆集。现有技术进行声紋釆集的方法主要是通过专有的设备进行声紋釆集，然后再使用该专有设备进行声紋识别。

发明人在实现本发明的过程中发现：在声紋釆集和识别期间只有被釆集人或者识别人与该专有设备之间进行语音交互，而断开人工坐席或者自动流程与用户的呼叫连接，因此在声紋釆集和识别的同时，用户不能够进行业务操作。发明内容

本发明实施例提供声音处理的方法、设备及系统，在声音处理过程中保证呼叫业务的正常进行。

本发明实施例提供了一种声音处理的方法，用于用户和坐席通话过程中的声音处理，该方法包括：

创建语音会场；

将所述用户和坐席加入所述语音会场，所述语音会场用于连接所述用户的通道和所述坐席的通道；

在所述语音会场中对所述用户的通道录音，得到所述用户的通道录音文件。

本发明实施例还提供了一种声音处理的设备，用于用户和坐席通话过程中的声音处理，该设备包括：

会场单元，用于创建语音会场； -2- 接续单元，用于将所述用户和坐席加入所述会场单元创建的语音会场，所述语音会场用于连接所述用户的通道和所述坐席的通道；

录音单元，用于在所述会场单元创建的语音会场中对所述用户的通道录音，得到用户的通道录音文件。

本发明实施例还提供了一种声紋釆集识别系统，用于用户和坐席通话过程中的声音处理，该系统包括：

会场单元，用于创建语音会场；

接续单元，用于将所述用户和坐席加入所述会场单元创建的语音会场，所述语音会场用于连接所述用户的通道和所述坐席的通道；

釆用本发明实施例提供的各个技术方案，能够在用户和坐席的通话过程中，创建语音会场，并将用户和坐席加入该语音会场中。这样，在该语音会场中对用户的通道录音的同时，用户和坐席也可以通过该语音会场进行交互，使得正常的呼叫业务不受中断。避免现有技术中因为声音处理的需要而使得用户与坐席之间通话被迫中断，提升了用户业务体验和服务质量。

附图说明

图 1是本发明实施例的声音处理的方法的流程示意图；

图 2是本发明实施例的声音处理的设备的结构示意图；

图 3是本发明实施例的呼叫中心系统的结构示意图；

图 4是本发明实施例的声紋釆集流程示意图；

图 5是本发明实施例的声紋识别流程示意图。

具体实施方式

本发明实施例提供的声音处理方法及设备，应用于用户和坐席通话过程中的声音处理，该用户和坐席之间的通话可以通过各种网络建立，包括但不局限于固定网络、移动全球移动通讯系统（GSM ) 网络、移动码分多址（CDMA ) 网络、移动第三代移动通信技术（3G ) 网络，个人无线接入系统（PHS )以及下一代（ NGN )网络，其中， 3G网络又包括但不限于宽带码分多址（ WCDMA ) 网络、 CDMA-2000网络以及时分同步 CDMA ( TDS-CDMA )网络。坐席包括 28

-3 - 人工坐席和自动坐席。

参见图 1 , 为本发明实施例一种声音处理的方法，用于用户和坐席通话过程中的声音处理，该方法包括步骤：

101、创建语音会场；

102、将用户和坐席加入语音会场；

将用户和坐席加入语音会场，可以通过语音会场将用户的通道和坐席的通道连接起来。

103、在语音会场中对用户的通道录音，得到用户的通道录音文件。

进一步的，该方法还可以包括：

104、根据用户的通道录音文件，对用户进行声紋釆集。

声紋釆集过程可以包括：

从用户的通道录音文件中提取用户的声紋信息；

生成与用户的声紋信息对应的声紋标识（ ID )。

本步骤中，在用户的通道录音之后，从录音文件中提取用户的声紋信息，其中，声紋信息可以为携带用户言语信息的声学特征信息，包括但不限于基音轮廓、共振峰频率带宽及轨迹、谱包络参数、听觉特性参数及线性预测系数。提取了用户的声紋信息后，可以将预定数量的声紋信息记录成声紋文件，这个预定数量可以在进行声音处理之前根据需求量指定，也可以在声音处理过程中随机指定。同时，还可以生成与用户的声紋信息对应的声紋 ID, 既可以按照声音处理的顺序生成声紋 ID, 例如，第一个进行声音处理的用户的声紋 ID为一，第二个进行声音处理的用户的声紋 ID为二，依次类推；也可以将所述声紋信息根据算法的计算，生成对应的声紋 ID, 算法的类型不限，可以为线性算法，也可以为非线性算法。在生成用户的声紋 ID后，还可以将用户的声紋 ID与声紋文件的对应关系记录下来。

进一步的，该方法还可以包括：

105、根据用户的通道录音文件，对用户进行声紋识别。

用户需要进行特定的操作，则对用户进行声紋识别，此处特定的操作可以根据操作的重要级别预先指定。

对用户进行声紋识别可以包括： 28

一 4一

判断在本次声紋识别之前是否已经釆集过声紋，如果在本次声紋识别之前已经釆集过声紋，可以包括但不限于用户本次通话之前曾经釆集过声紋的和用户本次通话过程中已经釆集过声紋的，则继续判断本次声紋识别是否需要再进行声紋釆集，如果本次声紋识别无需再进行声紋釆集，则在 103之后直接执行 105, 无需执行 104; 如果本次声紋识别还需再进行声紋釆集，则在 103之后先执行 104, 再执行 105; 如果本次声紋识别之前没有釆集过声紋，则在 103 之后先执行 104, 再执行 105。

声紋识别具体过程可以包括：

接收声紋识别操作请求；

从声紋识别操作请求中获得用户的声紋标识（ID );

根据用户的声紋 ID, 查找记录的用户的声紋 ID与声紋文件的对应关系，获得声紋文件中对应于该用户的声紋信息（即第一声紋信息）；该对应关系可以是该用户在以前通话过程中记录下来的对应关系，也可以是本次通话过程中记录下来的对应关系；

从 103中得到的用户的通道录音文件中提取该用户的声紋信息（即第二声紋信息）；

比较第一声紋信息和第二声紋信息。根据比较结果判断用户身份是否识别成功，例如，第一声紋信息和第二声紋信息一致，则判断用户身份识别成功；第一声紋信息和第二声紋信息不一致，则判断用户身份识别失败。根据识别结果进行后续操作，如果识别成功，则允许用户进行该特定的操作，如果识别失败，则禁止用户进行该特定的操作。

进一步的，为了尽量少地占用会场资源，提高呼叫系统资源的利用率，完善会场资源的管理，该方法还可以包括：

106、释放语音会场。

如果用户不需要进行特定的操作，即在本次声音处理过程中，仅需要对用户进行声紋釆集，则声紋釆集后直接释放语音会场；如果用户需要进行特定的操作，声紋识别后释放语音会场。释放语音会场可以包括：

将用户和坐席移出语音会场；

搭接用户和坐席的语音时隙； 28 释放语音会场的资源。

如果该用户没有釆集过声紋，则对用户进行声紋釆集；如果该用户曾经釆集过声紋，则可以再次对用户进行声紋釆集，或者，也可以无需对用户再进行声紋釆集。在具体实现过程中，可以在用户信息中包含了一个字段表示用户是否曾经釆集了声紋，如果该字段为一则表示用户釆集过声紋，如果为零则表示没有釆集过。

现有技术中，在用户和坐席通话过程中，如果要进行声音处理，需要断开用户和坐席之间的呼叫连接，由专有设备对用户进行声音处理，整个声音处理的过程中，用户不能在声音处理的同时进行业务操作。釆用本实施例提供的声音处理的方法，在用户和坐席的通话过程中，创建语音会场，并将用户和坐席加入该语音会场中，这样，在该语音会场中对用户的通道录音的同时，用户和坐席也可以通过该语音会场进行交互，保持正常的呼叫业务，避免现有技术中 , 因为声音处理过程而造成的用户与坐席之间通话中断，提升了用户业务体验和服务质量。参见图 2, 为本发明实施例一种声音处理的设备，该声音处理的设备可以独立设置，也可以集成于呼叫中心系统中，还可以集成于声紋釆集识别系统中，实现用户和坐席通话过程中的声音处理，该设备包括：

会场单元 201 , 用于创建语音会场；

接续单元 202 , 用于将用户和坐席加入会场单元 201创建的语音会场，其中，语音会场用于连接用户的通道和坐席的通道；

录音单元 203 ,用于在会场单元 201创建的语音会场中对用户的通道录音，得到用户的通道录音文件。

进一步的，该设备还可以包括：

釆集单元 204 , 用于根据录音单元 203得到的用户的通道录音文件，对用户进行声故釆集。

其中，釆集单元 204可以包括：

提取子单元 204-1 , 用于从录音单元 203得到的用户的通道录音文件中提取用户的声紋信息；标识子单元 204-2, 用于生成与提取子单元 204-1提取的用户的声紋信息对应的声故 ID。

进一步的，该设备还可以包括：

识别单元 205 , 用于根据录音单元 203得到的用户的通道录音文件，对用户进行声紋识别。

其中，识别单元 205可以包括：

接收子单元 205-1 , 用于接收声紋识别操作请求；

标识子单元 205-2, 用于从所述接收子单元 205-1接收的声紋识别操作请求中获得用户的声紋 ID;

查找子单元 205-3 ,用于根据所述标识子单元 205-2获得的声紋 ID查找记录的用户的声紋 ID与声紋文件的对应关系，获得声紋文件中对应于该用户的声紋信息（即第一声紋信息）；该对应关系可以是该用户在以前通话过程中记录下来的对应关系，也可以是本次通话过程中记录下来的对应关系；

提取子单元 205-4, 用于从录音单元 203得到的用户的通道录音文件中提取该用户的声紋信息（即第二声紋信息）；

比较子单元 205-5 , 用于比较第一声紋信息和第二声紋信息。

进一步的，该设备还可以包括：

释放单元 206, 用于释放会场单元 201创建的语音会场。

其中，释放单元 206可以包括：

移出子单元 206-1 ,用于将用户和坐席移出会场单元 201创建的语音会场；搭接子单元 206-2, 用于搭接用户和坐席的语音时隙；

资源子单元 206-3 , 用于释放会场单元 201创建的语音会场的资源。

釆用本实施例提供的声音处理的设备，在用户和坐席的通话过程中，通过会场单元创建语音会场，并通过接续单元将用户和坐席加入该语音会场中，这样，在录音单元对该语音会场中对用户的通道录音的同时，用户和坐席也可以通过该语音会场进行交互，保持正常的呼叫业务。这样，在该语音会场中对用户的通道录音的同时，用户和坐席也可以通过该语音会场进行交互，使得正常的呼叫业务不受中断。避免现有技术中因为声音处理的需要而使得用户与坐席之间通话被迫中断，提升了用户业务体验和服务质量。参见图 3 , 为本发明实施例呼叫中心（CC: Call Center )系统结构示意图，本实施例是对上述实施例的具体应用。该具体应用只是上述实施例的一种应用方式，对于本技术领域的普通技术人员来说，在不脱离本发明实施例原理的前提下，还可以对该具体应用作出若干改进和润饰，这些改进和润饰也应视为本发明实施例的保护范围。

本实施例中，用户拨打服务提供商提供的自动业务的系统接入码后，交换系统将呼叫接续到呼叫中心（CC ) 系统，进入相应的人工或自动业务，在 CC 平台中执行对应的业务。可以由 CC系统实现上述实施例中的声音处理的方法，也可以独立设置声音处理的设备实现上述实施例中的声音处理的方法，也可以由声紋釆集识别系统实现上述实施例中的声音处理的方法，这些实现方案的原理相同，在本实施例中，仅以由声紋釆集识别系统实现上述实施例中的声音处理的方法为例进行说明。

参见图 3 , CC系统包括：

运营系统 301 : 实现整个 CC系统的接入呼叫，能够按照用户（包括终端用户 A、 B )呼叫的被叫号码分析，触发特定的增值业务，并且进行增值业务的呼叫控制和接续操作，当增值业务需要釆集和识别声紋信息时，把用户侧的语音数据接入到声紋釆集识别系统，并向声紋釆集识别系统发送进行用户的声紋釆集和声紋识别的命令。

声紋釆集识别系统 302: 接收运营系统 301的命令，进行用户的声紋釆集和声紋识别。

增值业务系统 303: 增值业务包括自动业务和人工业务，因此增值业务系统主要包括人工业务系统和自动业务系统，主要负责实现特定的增值业务功

•6匕

匕。

其中，声紋釆集识别系统可以包括：

会场单元，用于创建语音会场；

录音单元，用于在所述会场单元创建的语音会场中对所述用户的通道录音，得到用户的通道录音文件。一 8—

声紋釆集识别系统还可以包括：

声紋釆集识别服务器 302-1 : 用于根据录音单元得到的用户的通道录音文件，实现用户声紋信息的釆集和用户声紋的识别操作。

声紋文件服务器 302-2:用来存储录音单元首次得到的用户通道录音文件，以便后续声紋识别时使用，也可以存储录音单元除首次之外得到的用户通道录音文件；另外，在声紋釆集识别系统重启后可以加载原用户通道录音文件。

数据库服务器 302-3 : 用来存储录音单元得到的用户通道录音文件的全路径和对应的声紋标识，供声紋釆集识别服务器使用。

本实施例中，增值业务系统判断用户是否是首次进入系统，如果是则调用 CC系统提供的接口进行声紋釆集操作，否则当用户进入特定业务操作时，对用户进行声紋识别，特定业务操作可以通过以下方式判定：将各业务操作的分别给予不同的级别，按照人们对于业务重要性的一般划分标准，或者根据用户对业务重要性的划分标准，越重要业务操作的级别越高，而级别大于特定值的业务操作都视为特定业务操作，例如级别大于五的业务操作都视为特定业务操作，可以包括但不限于进行密码修改和金额移出。

参见图 4, 声紋釆集流程可以包括：

401、在 CC 系统中配置接入码对应指定的增值业务系统，当前方交换局判断用户的呼叫为 CC系统的呼叫，则把呼叫路由到 CC系统， CC系统中的运营系统配置的接入码，把呼叫路由到指定的增值业务系统，由增值业务系统和用户交互，具体可以包括：

401-1、用户拨打该流程对应的系统接入码。

401-2、根据配置的路由策略，用户呼叫接续到 CC系统。

401-3、呼叫进入 CC系统，经过号码分析把该呼叫接续到增值业务系统。 401-4、增值业务系统根据用户的号码进行鉴权，提取用户信息。

402、增值业务系统控制呼叫后，根据用户号码从增值业务系统中获取用户信息，用户信息中可以包含了一个字段表示用户是否曾经釆集了声紋，如果该字段为一则表示用户釆集过声紋，如果为零则没有釆集过，如果用户没有釆集过声紋信息，则增值业务系统请求运营系统进行声紋釆集操作。

403、运营系统收到增值业务系统的声紋釆集请求后，通知声紋釆集识别 28

-9- 系统进行声紋釆集。

404、声紋釆集识别系统首先创建一个语音会场，创建语音会场成功后再把原来连接的用户和坐席的通道暂时拆开，再把用户和坐席都加入到语音会场中，保证业务功能继续；在声紋釆集识别系统把用户和坐席加入到语音会场后，再指示语音会场进行会场通道录音，录制的通道为用户的通道，这样声紋釆集识别系统就可以单独把用户的声紋录制下来，在开始用户通道的录音后，声紋釆集识别系统再进行用户的声紋釆集操作。

405、声紋釆集识别服务器进行声紋釆集操作，釆集的过程是从前面录制的用户通道录音文件中提取用户的声紋信息，当声紋釆集识别服务器釆集到足够的声紋信息后，把用户的声紋信息记录成文件，记录到声紋文件服务器中，并根据内部算法生成用户声紋的声紋 ID, 同时把用户的声紋 ID和生成的声紋文件的对应关系记录到数据库服务器中。

406、声紋釆集识别系统完成了用户声紋信息的釆集后，停止前期启动的语音会场的通道录音，然后把用户和坐席同时移出语音会场，并且把它们的语音通道重新搭接起来，使得用户和坐席可以继续进行业务操作，然后释放语音会场，同时把釆集的用户的声紋 ID发送给运营系统。

407、运营系统根据声紋釆集识别系统返回的结果，把用户的声紋 ID发送给增值业务系统，增值业务系统记录用户的声紋 ID, 并且和用户关联起来。

408、用户的声紋釆集工作完成，坐席和用户继续交互完成业务功能。参见图 5 , 声紋识别流程可以包括：

501、触发增值业务，在 CC系统中配置接入码对应指定的增值业务系统，当前方交换局判断该呼叫为 CC系统的呼叫，则把呼叫路由到 CC系统，后续由 CC系统控制呼叫， CC系统中的运营系统根据配置中的信息，把呼叫路由到指定的增值业务系统，由增值业务系统和用户交互，具体可以与以上 401-1 至 401-4的流程相同。

502、增值业务系统控制呼叫后，根据用户号码从增值业务系统中获取用户的信息，然后判断用户是否进行了声紋釆集，如果用户釆集过声紋信息，则继续进行后续的步骤。

503、当用户准备进行特定业务操作时，增值业务系统请求运营系统进行 28

- 10- 声紋识别操作，携带声紋釆集时由声紋釆集识别系统返回的用户的声紋 ID。

504、收到了增值业务系统的声紋识别操作请求后，运营系统把该声紋识别请求转发给声紋釆集识别系统。

505、声紋釆集识别系统首先创建一个语音会场，并且把用户和坐席都加入到语音会场中，保证用户和坐席继续通话，然后指示语音会场进行通道录音，录制的通道为用户的通道。

506、声紋釆集识别服务器根据请求的声紋 ID信息从数据库服务器中查找到该声紋 ID对应的声紋文件，然后从声紋文件服务器中调用该声紋文件，将该声紋文件中的声紋信息和录制的通道录音文件中提取用户的声紋信息进行比较，根据比较结果判断用户身份是否识别成功。

507、声紋釆集识别系统完成了声紋识别操作后，停止语音会场的通道录音功能，然后把用户和坐席移出语音会场，并且把用户和坐席的语音时隙搭接起来，然后释放语音会场，声紋釆集识别系统再把识别结果发送给运营系统。

508、运营系统把声紋釆集识别系统的识别结果转发给增值业务系统。 509、收到声紋识别结果后，增值业务系统按照识别结果进行后续操作。釆用本实施例提供的声紋釆集识别系统，能够在用户和坐席的通话过程中，创建语音会场，并将用户和坐席加入该语音会场中。这样，在该语音会场中对用户的通道录音的同时，用户和坐席也可以通过该语音会场进行交互，使得正常的呼叫业务不受中断。避免现有技术中因为声音处理的需要而使得用户与坐席之间通话被迫中断，提升了用户业务体验和服务质量。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如 ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。 28

-11- 以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

OP080728 - 12- 权利要求

1、一种声音处理的方法，其特征在于，用于用户和坐席通话过程中的声音处理，该方法包括：

创建语音会场；

5 将所述用户和坐席加入所述语音会场，所述语音会场用于连接所述用户的通道和所述坐席的通道；

2、根据权利要求 1所述的方法，其特征在于，该方法还包括：

10 根据当前用户的第二通道录音文件，对所述当前用户进行声紋识别。

3、根据权利要求 2所述的方法，其特征在于，所述根据当前用户的第二通道录音文件，对所述当前用户进行声紋识别包括：

接收声紋识别操作请求；

从所述声紋识别操作请求中获得与所述声紋识别操作请求对应的用户的 15 声紋标识；

根据所述用户的声紋标识查找对应的用户的声紋信息；

从所述当前用户的第二通道录音文件中提取第二声紋信息；

比较查找到的所述声紋信息和所述第二声紋信息。

4、根据权利要求 1所述的方法，其特征在于，该方法还包括： 20 释放所述语音会场。

5、根据权利要求 4所述的方法，其特征在于，所述释放所述语音会场具体包括：

将所述用户和坐席移出所述语音会场；

搭接所述用户和坐席的语音时隙；

25 释放所述语音会场的资源。

6、一种声音处理的设备，其特征在于，用于用户和坐席通话过程中的声音处理，该设备包括：

会场单元，用于创建语音会场；

接续单元，用于将所述用户和坐席加入所述会场单元创建的语音会场，所 OP080728

- 13 - 述语音会场用于连接所述用户的通道和所述坐席的通道；

7、根据权利要求 6所述的设备，其特征在于，该设备还包括：

5 识别单元，用于根据所述录音单元得到的当前用户的第二通道录音文件，对所述当前用户进行声紋识别。

8、根据权利要求 6所述的设备，其特征在于，该设备还包括：释放单元，用于释放所述会场单元创建的所述语音会场。

9、根据权利要求 6至 8任一项所述的设备，其特征在于，所述声音处理 10 的设备独立设置，或者集成于呼叫中心系统中，或者集成于声紋釆集识别系统中。

10、一种声紋釆集识别系统，其特征在于，用于用户和坐席通话过程中的声音处理，该系统包括：

会场单元，用于创建语音会场；

15 接续单元，用于将所述用户和坐席加入所述会场单元创建的语音会场，所述语音会场用于连接所述用户的通道和所述坐席的通道；

11、根据权利要求 10所述的系统，其特征在于，该系统还可以包括：

20 声紋釆集识别服务器，用于根据所述录音单元得到的用户的通道录音文件，实现用户声紋信息的釆集和用户声紋的识别操作；

声紋文件服务器，用于存储所述录音单元得到的用户通道录音文件；数据库服务器，用于存储所述录音单元得到的用户通道录音文件的全路径和对应的声紋标识。