WO2014085985A1

WO2014085985A1 - 一种通话转录系统和方法

Info

Publication number: WO2014085985A1
Application number: PCT/CN2012/085855
Authority: WO
Inventors: 钟实; 袁首鹏
Original assignee: Itp创新科技有限公司
Priority date: 2012-12-04
Filing date: 2012-12-04
Publication date: 2014-06-12

Abstract

一种通话转录系统和方法。该通话转录系统包括接收装置（103）、语音识别装置（106）和加标签装置（107）。其中所述接收装置（103）用于连接到交换机并将输入语音信号转换为音频文件；所述语音识别装置（106）与所述接收装置相连（103），用于将所述音频文件转录为文本文件；以及所述加标签装置（107）与所述语音识别装置（106）相连，用于为所述文本文件加上对应的音频文件的时间戳，并根据所述时间戳将加上时间戳后的所有文本文件排序并合并为通话记录文件。所述通话转录系统和方法能够提供可根据时间进行检索的通话内容的记录，方便通话双方或他人检索和查询通话内容。

Description

一种通话转录系统和方法技术领域

本发明涉及通信领域，尤其涉及一种通话转录系统和方法。背景技术

在当今的时代，由于工作需要，企业内部的工作人员或企业与企业的双方代表之间常常需要进行沟通交流，例如召开电话会议等。虽然不在同一间办公室的人通过网络和电话等方式可以便利地进行交流。然而还存在一个会议记录的问题，比如经常会出现召开电话会议的双方开完电话会议而忘记了部分会议内容的情况，或者是企业的其他工作人员因为工作需要而希望查看某一时段的通话内容的情况。

因此，需要提供一种通话转录系统和方法以解决上述问题。发明内容

在发明内容部分中引入了一系列简化形式的概念，这将在具体实施方式部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征，更不意味着试图确定所要求保护的技术方案的保护范围。

为了解决上述问题，本发明公开了一种用于通话转录系统，包括接收装置、语音识别装置和加标签装置，其中，所述接收装置用于连接到交换机并将输入语音信号转换为音频文件；所述语音识别装置与所述接收装置相连，用于将所述音频文件转录为文本文件；以及所述加标签装置与所述语音识别装置相连，用于为所述文本文件加上对应的音频文件的时间戳，并根据所述时间戳将加上时间戳后的所有文本文件排序并且合并为通话记录文本文件。

在本发明一个优选实施例中，所述通话转录系统还包括：发送装置，其与所述加标签装置相连，用于将所述通话记录文本文件发送给用户。

在本发明一个优选实施例中，所述通话转录系统还包括：存储器，其连接在所述接收装置和所述语音识别装置之间，用于存储所述音频文件。

在本发明一个优选实施例中，所述通话记录文本文件的内容包括所述文本文件的内容、所述文本文件对应的时间戳和所述文本文件对应的音频文件在所述存储器中的地址。

在本发明一个优选实施例中，所述加标签装置还用于根据所述通话记录文本文件和所述通话记录文本文件中的所述文本文件对应的音频文件在所述存储器中的地址，在所述存储器中建立通话数据库，以使所述用户根据所述通话记录文本文件来访问所述通话数据库；其中，所述通话数据库中每个数据项包括：所述文本文件的内容、所述文本文件对应的时间戳和所述文本文件对应的音频文件在所述存储器中的所述地址。

在本发明一个优选实施例中，所述通话转录系统还包括：存储器，其连接在所述接收装置和所述语音识别装置之间，用于存储所述音频文件；并且所述加标签装置还用于根据所述通话记录文本文件和所述通话记录文本文件中的所述文本文件对应的音频文件在所述存储器中的地址，在所述存储器中建立通话数据库，所述通话数据库具有访问接口以供用户通过网络直接访问；其中，所述通话数据库中每个数据项包括：所述文本文件的内容、所述文本文件对应的时间戳和所述文本文件对应的音频文件在所述存储器中的所述地址。

在本发明一个优选实施例中，所述通话转录系统还包括：切分器，其连接在所述接收装置和所述语音识别装置之间，用于将所述音频文件切分为子音频文件以输出到所述语音识别装置。

在本发明一个优选实施例中，所述切分器进一步包括：检测单元，用于检测所述音频文件中的静音部分；以及分割单元，用于基于所检测的静音部分将所述音频文件切分为所述子音频文件。

在本发明一个优选实施例中，所述静音部分包括在 0.6秒或 0.6秒以上的时间段内分贝值小于或等于噪声阈值的部分。

在本发明一个优选实施例中，所述通话转录系统还包括：存储器，其连接在所述切分器和所述语音识别装置之间，用于存储所述子音频文件；并且所述语音识别装置所转录的子音频文件来自于所述存储器。

在本发明一个优选实施例中，所述通话转录系统还包括：自动增益控制器，其与所述接收装置相连，用于对所述输入语音信号进行增益控制。

在本发明一个优选实施例中，所述通话转录系统还包括滤波器，其与所述接收装置相连，用于对所述输入语音信号进行降噪处理。

根据本发明另一方面，还提供了一种通话转录方法，包括：将输入语音信号转换为音频文件；将所述音频文件转录为文本文件；为所述文本文件加上对应的音频文件的时间戳；以及根据所述时间戳将加上时间戳后的所有文本文件排序并且合并为通话记录文本文件。

在本发明一个优选实施例中，所述合并为通话记录文本文件之后还包括：将所述通话记录文本文件发送给用户。

在本发明一个优选实施例中，所述将输入语音信号转换为音频文件之后还包括将所述音频文件存储至存储器。

在本发明一个优选实施例中，所述合并为通话记录文本文件之后还包括：根据所述通话记录文本文件和所述通话记录文本文件中的文本文件对应的音频文件在所述存储器中的地址，在所述存储器中建立通话数据库，以使所述用户根据所述通话记录文本文件来访问所述通话数据库；其中，所述通话数据库中每个数据项包括：所述文本文件的内容、所述文本文件对应的时间戳和所述文本文件对应的音频文件在所述存储器中的所述地址。

在本发明一个优选实施例中，所述将输入语音信号转换为音频文件之后还包括将所述音频文件存储至存储器；并且所述合并为通话记录文本文件之后还包括：根据所述通话记录文本文件和所述通话记录文本文件中的文本文件对应的音频文件在所述存储器中的地址，在所述存储器中建立通话数据库，所述通话数据库具有访问接口以供用户通过网络直接访问；其中，所述通话数据库中每个数据项包括：所述文本文件的内容、所述文本文件对应的时间戳和所述文本文件对应的音频文件在所述存储器中的所述地址。

在本发明一个优选实施例中，将输入语音信号转换为音频文件之后还包括：将所述音频文件切分为子音频文件。

在本发明一个优选实施例中，将输入语音信号转换为音频文件之前还包括：对所述输入语音信号进行增益控制和 /或降噪处理。

本发明所提供的上述通话转录系统和方法能够提供可根据时间进行检索的通话内容的记录，方便通话双方或他人检索和查询通话内容。附图说明

本发明的下列附图在此作为本发明的一部分用于理解本发明。附图中示出了本发明的实施例及其描述，用来解释本发明的原理。在附图中，图 1 示出了根据本发明一个优选实施例的通话转录系统的结构框图；

图 2a和图 2b分别示出了根据本发明一个优选实施例的合并前后的文本文件的示意图；

图 3示出了根据本发明一个优选实施例的通话转录方法的流程图；图 4示出了包括根据本发明一个优选实施例的通话转录系统的通话系统的示意图。具体实施方式

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员来说显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

为了彻底了解本发明，将在下列的描述中提出详细的结构。显然，本发明的施行并不限定于本领域的技术人员所熟习的特殊细节。本发明的较佳实施例详细描述如下，然而除了这些详细描述外，本发明还可以具有其他实施方式。

根据本发明的一方面，提供了一种通话转录系统。图 1示出了根据本发明一个优选实施例的通话转录系统 100的结构框图。如图 1所示，该通话转录系统 100包括接收装置 103、语音识别装置 106和加标签装置 107。其中，接收装置 103用于连接到交换机并将输入语音信号转换为音频文件。语音识别装置 106与接收装置 103相连，用于将音频文件转录为文本文件。加标签装置 107与语音识别装置 106相连，用于为文本文件加上对应的音频文件的时间戳，并根据时间戳将加上时间戳后的所有文本文件排序并且合并为通话记录文本文件。

来自交换机的通话双方的输入语音信号经接收装置 103转换为音频文件，形成自己的时间戳，供加标签装置 107获取。

语音识别装置 106将接收装置 103转换后形成的音频文件转录为文本文件。根据本发明一个优选实施例，语音识别装置 106所进行的转录过程可以包括下述操作。首先对接收装置 103转换后形成的音频文件进行语音信号的语音特征的提取。根据提取的语音特征，可以对语音信号进行分析处理，可去掉与语音识别无关的冗余信息并获得影响语音识别的重要信息 , 同时可对语音信号进行压缩。然后，语音识别装置 106根据所提取的语音特征利用已训练的声学模型进行识别。具体地，将语音信号的语音特征同声学模型的语音特征进行匹配与比较，得到最佳的识别结果。

加标签装置 107为语音识别装置 106转录后形成的文本文件加上对应的音频文件的时间戳，并根据时间戳将加上时间戳后的所有文本文件排序并且合并为通话记录文本文件，为通话双方的会话提供了一份通话的 "历史记录" 。例如，在 Unix或 Linux系统下，加标签装置 107可以通过系统函数 stat获取接收装置 103转换后形成的音频文件的时间戳，然后将获取到的时间戳加到对应的文本文件的前面，最后根据时间戳将加上时间戳后的所有文本文件排序并且合并为通话记录文本文件，这样就形成了类似 QQ 或 MSN那样的对话历史。时间戳和文本可以以冒号分割。图 2a和图 2b分别示出了根据本发明一个优选实施例的合并前后的文本文件的示意图。其中 ,图 2a示出了加标签装置 107为其加了时间戳的来自通话双方的信道 (例如，信道 A和信道 B) 的语音信号对应的文本文件的示意图，图 2b示出了加标签装置 107根据时间戳排序并合并后的通话记录文本文件的示意图。如图 2b所示，对于包括文本文件的内容和文本文件对应的时间戳的通话记录文本文件，用户查看起来非常方便。

根据本发明的一个优选实施例，通话转录系统 100还可以包括发送装置 108 ,其与加标签装置 107相连，用于将最后形成的通话记录文本文件发送给用户。发送装置 108可以为电子邮件装置，其利用电子邮件将通话记录文本文件发送给用户。这里，用户可以包括通话双方或其他用户。可根据需要设定用户的电子邮件地址，将通话双方通话的 "历史记录" 以电子邮件的方式发送给用户，以供用户方便地查询通话内容。

根据本发明的一个优选实施例，通话转录系统 100还可以包括存储器 105。其中，存储器 105连接在接收装置 103和语音识别装置 106之间，用于存储接收装置 103转换后形成的音频文件。

根据本发明的一个优选实施例，通话记录文本文件的内容可以包括文本文件的内容、文本文件对应的时间戳和文本文件对应的音频文件在存储器 105中的地址。这样，根据发送装置 108发送给用户的通话记录文本文件，用户不但可以通过时间戳检索、查询通话记录，还可以根据通话记录文本文件中包含的文本文件对应的音频文件在存储器 105 中的地址链接到存储器 105 中对应的音频文件，从而重听对应的通话的语音。例如，在证券买卖应用中，通话的买卖双方可以在通话记录文本文件中查找一个时间点或时间段以查询当时的通话内容，这样就可以根据时间检索到对话历史从而查到关于买卖历史或者某个股票代码的通话内容。另外，重听可以对通话记录文本文件进行校验，纠正通话转录系统自动转录中可能产生的错误。

本领域普通技术人员可以理解，通话记录文本文件的内容可以不包括文本文件对应的音频文件在存储器 105 中的地址。此时，加标签装置 107 可以还用于根据通话记录文本文件和通话记录文本文件中的文本文件对应的音频文件在存储器 105中的地址，在存储器 105中建立通话数据库，以使用户根据通话记录文本文件来访问通话数据库。其中，该通话数据库中的每个数据项包括：文本文件的内容、文本文件对应的时间戳和文本文件对应的音频文件在存储器 105中的地址。这样，根据发送装置 108发送给用户的通话记录文本文件，用户可以通过通话记录文本文件中的文本的关键字和 /或时间戳等信息,检索该通话数据库来得到对应的音频文件的地址, 从而重听对应的通话的语音。例如，用户可以打开收到的通话记录文本文件，查找一个时间点，从而索引到对应的通话记录，查询到通话内容。并且，为了确保通话内容的正确性，可以点击查找到的通话内容对应的音频文件的地址，就可以链接到对应的音频文件从而重听对应的通话的语音，以对通话记录文本文件中的通话内容进行校验。例如，该地址可以是一个超链接。

根据本发明的一个优选实施例，通话转录系统 100也可以包括存储器 105而不包括发送装置 108 ,即存储器 105连接在接收装置 103和语音识别装置 106之间，用于存储接收装置 103转换后形成的音频文件。并且加标签装置 107还用于根据最后形成的通话记录文本文件和通话记录文本文件中的文本文件对应的音频文件在存储器 105中的地址，在存储器 105中建立通话数据库，该通话数据库具有访问接口以供用户通过网络直接访问。其中，通话数据库中的每个数据项包括：文本文件的内容、文本文件对应的时间戳和文本文件对应的音频文件在存储器 105 中的地址。这样，无需把最后形成的通话记录文本文件发送给用户，用户可以通过网络直接访问该通话数据库来查询并且重听对应的通话内容。本领域普通技术人员可以理解，上述访问接口可以是 WEB前端访问界面。用户可以通过该 WEB前端访问界面对该数据库进行访问。具体地，可以对不同用户授予不同权限, 使得不同用户能够对该数据库中的文档进行不同操作，例如检索、查看、编辑和删除。本领域普通技术人员可以理解，上述访问接口可以是 PHPMYADMIN的数据库访问界面。

根据本发明的一个优选实施例，通话转录系统 100还可以包括切分器

104 ,其连接在接收装置 103和语音识别装置 106之间，用于将接收装置 103 转换后形成的音频文件切分为子音频文件以输出到语音识别装置 106。语音识别技术通常是基于词汇、短语或较短句子来进行的。切分器 104可以把连续大段的通话切分为较短的语句。这样，后续的语音识别处理可以针对切分后的数据进行，大大提高了处理精度。这有效保证了通话转录的质量。

根据本发明的一个优选实施例，切分器 104可以分为检测单元和分割单元，其中，检测单元用于检测接收装置 103转换后形成的音频文件中的静音部分，而分割单元用于基于所检测的静音部分将音频文件切分为子音频文件。静音部分是通话中的必不可少的部分，基于静音部分来切分音频文件可以更好地表达说话者的语句含义。这样不会出现断句或半句的情况, 避免后续处理出现错误。

音频文件中的静音部分可以为持续一定时间的分贝值小于或等于噪声阈值的部分。噪声阈值可根据通话双方所在环境的具体情况而定。例如，嘈杂的环境中，噪声阈值可以设置得较高。通过增加所持续的时间长度，噪声可以被视为静音从而被去除。优选地，所持续的时间长度为 0.6秒或 0.6秒以上。 0.6秒是人与人交流的时候句与句之间的大体停顿间隔，选择这个时间段的静音可以较为准确地将人与人的通话内容划分成以自然句为单位的子音频文件，并且可以有效去除噪音，使得接下来的处理过程正确率更高。

根据本发明的一个优选实施例，通话转录系统 100还可以包括存储器

105 , 其连接在切分器 104和语音识别装置 106之间，用于存储切分器 104 切分后形成的子音频文件；并且语音识别装置 106所转录的子音频文件来自于存储器 105。经过存储器 105 , 可以将切分器 104切分后形成的子音频文件暂时存入存储器 105 ,以在进入语音识别装置 106之前缓冲，使得语音识别装置 106接下来进行的转录工作更为顺畅。根据本发明的一个优选实施例，通话转录系统 100还可以包括输入接口和输出接口（未在图 1 中示出）。其中，输入接口可以连接在外部交换机和接收装置 103之间，用于从外部交换机接收输入语音信号，该输入语音信号可以是模拟信号也可以是数字信号。如果是数字信号，其采样频率优选为 8000Hz , 其量化位数优选为 16比特。输出接口可以连接在加标签装置 107和用户的个人电脑（PC) 之间，用于将最后形成的通话记录文本文件发送给用户。

根据本发明的一个优选实施例，通话转录系统 100还可以包括自动增益控制器 101 ,其与接收装置 103相连,用于对输入语音信号进行增益控制。例如，将所接收的输入语音信号的分贝值调节到大致统一的设定值水平。由自动增益控制器 101对输入语音信号进行增益控制可以成功避免因说话者音量忽大忽小造成对后续处理的影响。

优选地，该自动增益控制器 101可以包括放大单元和缩小单元。其中，当所接收的输入语音信号的分贝值小于设定值时，放大单元用于将分贝值小于该设定值的输入语音信号放大至该设定值；反之，当所接收的输入语音信号的分贝值大于该设定值时，缩小单元将分贝值大于该设定值的输入语音信号缩小至该设定值。此设定值可根据实际需要自由限定。

根据本发明的一个优选实施例，通话转录系统 100还可以包括滤波器 102 , 其与接收装置 103相连，用于对输入语音信号进行降噪处理。降噪处理可以采用滤波的方法。滤波可以从连续的或离散的输入数据中滤除噪声和干扰以提取有用信息。优选地，滤波器 102可以是维纳滤波器以取得良好的滤波效果。

总之，自动增益控制器 101和滤波器 102均可以使输入语音信号便于被识别并且提高识别和翻译的正确率。

另外，值得注意的是，以上术语 "连接" 和 "相连" 可以表示各个装置之间的直接连接，也可以表示间接连接，图 1 中只示出了通话转录系统 100的不同装置之间的一种连接方式，还可以有其它的连接方式。例如，自动增益控制器 101可以直接连接接收装置 103 ,滤波器 102连接在自动增益控制器 101和外部交换机之间。

本领域普通技术人员可以理解，在上述实施例中，存储器 105可以用来存储接收装置 103转换后形成的音频文件，也可以用来存储通话数据库, 还可以用来存储切分器 104对接收装置转换后形成的音频文件进行切分后产生的子音频文件。本领域普通技术人员可以理解，音频文件、通话数据库以及子音频文件还可以由不同的存储器存储。

根据本发明的另一方面，还提供了一种通话转录方法。图 3示出了根据本发明一个优选实施例的通话转录方法 300的流程图。如图 3所示，该通话转录方法 300包括转换步骤 303、语音转文本步骤 306和加标签步骤

307。其中，转换步骤 303将输入语音信号转换为音频文件；语音转文本步骤 306将转换步骤 303转换后形成的音频文件转录为文本文件；加标签步骤 307为语音转文本步骤 306转录后形成的文本文件加上对应的音频文件的时间戳并根据时间戳将加上时间戳后的所有文本文件排序并且合并为通话记录文本文件。

根据本发明的一个优选实施例，加标签步骤 307之后还包括发送步骤

308 , 用于将通话记录文本文件发送给用户。

根据本发明的一个优选实施例，将转换步骤 303之后还包括存储步骤 305 , 用于将音频文件存储至存储器。

根据本发明的一个优选实施例，通话记录文本文件的内容包括文本文件的内容、文本文件对应的时间戳和文本文件对应的音频文件在存储器中的地址。

根据本发明的一个优选实施例，加标签步骤 307之后还包括根据通话记录文本文件和通话记录文本文件中的文本文件对应的音频文件在存储器中的地址，在存储器中建立通话数据库，以使用户根据通话记录文本文件来访问所述通话数据库。其中，该通话数据库中每个数据项包括：文本文件的内容、文本文件对应的时间戳和文本文件对应的音频文件在存储器中的地址。

根据本发明的一个优选实施例，转换步骤 303 之后还包括存储步骤 305 , 用于将音频文件存储至存储器，并且加标签步骤 307之后还包括根据通话记录文本文件和通话记录文本文件中的文本文件对应的音频文件在存储器中的地址，在存储器中建立通话数据库，该通话数据库具有访问接口以供用户通过网络直接访问。其中，该通话数据库中每个数据项包括：文本文件的内容、文本文件对应的时间戳和文本文件对应的音频文件在存储器中的地址。

根据本发明的一个优选实施例，转换步骤 303之后还可以包括切分步骤 304 , 用于将转换步骤 303转换后形成的音频文件切分为子音频文件。根据本发明的一个优选实施例，转换步骤 303之前还可以包括增益控制步骤 301和 /或降噪处理步骤 302 , 以对输入语音信号进行增益控制和 /或降噪处理。

另外，本领域普通技术人员可以理解，图 3示出了根据本发明一个优选实施例的通话转录方法步骤的一种执行顺序，该顺序可以进行调整。例如，增益控制步骤 301可以在降噪处理步骤 302之后执行。

图 4示出了包括根据本发明一个优选实施例的通话转录系统的通话系统的优选实施例的示意图。该通话系统 400包括用户通话所使用的电话 401 和电话 402、公用电话交换网（PSTN) 403、专用交换机（IP PBX) 404和本发明所提供的通话转录系统 405。其中 ,用户通话所使用的电话 401和电话 402也可以替换为智能终端，相应地， PSTN 403也可以替换为互联网语音传输协议（VOIP) 网络。

如图 4所示，通话的双方分别为用户 1和用户 2。其中，打电话的一方，例如，用户 1 , 通过 PSTN 403拨号呼叫用户 2。 IP PBX 404建立双方的呼叫连接。随后，用户 1和用户 2开始通话，其各自发出的语音经 IP PBX 404 进入通话转录系统 405 ,经转录后的最终形成的通话记录文本通过网络或电子邮件传送到用户的个人电脑 406。用户 1和用户 2以及其他有需要的用户可以通过用于通话转录的系统 405形成的通话记录文本方便地检索和查询通话内容。

本发明已经通过上述实施例进行了说明，但应当理解的是，上述实施例只是用于举例和说明的目的，而非意在将本发明限制于所描述的实施例范围内。此外本领域技术人员可以理解的是，本发明并不局限于上述实施例，根据本发明的教导还可以做出更多种的变型和修改，这些变型和修改均落在本发明所要求保护的范围以内。本发明的保护范围由附属的权利要求书及其等效范围所界定。

Claims

权利要求

1. 一种通话转录系统，包括接收装置、语音识别装置和加标签装置，其中，

所述接收装置用于连接到交换机并将输入语音信号转换为音频文件；所述语音识别装置与所述接收装置相连，用于将所述音频文件转录为文本文件；以及

所述加标签装置与所述语音识别装置相连，用于为所述文本文件加上对应的音频文件的时间戳，并根据所述时间戳将加上时间戳后的所有文本文件排序并且合并为通话记录文本文件。

2. 根据权利要求 1所述的通话转录系统，其特征在于，所述通话转录系统还包括：

发送装置，其与所述加标签装置相连，用于将所述通话记录文本文件发送给用户。

3. 根据权利要求 2所述的通话转录系统，其特征在于，所述通话转录系统还包括：

存储器，其连接在所述接收装置和所述语音识别装置之间，用于存储所述音频文件。

4. 根据权利要求 3所述的通话转录系统，其特征在于，所述通话记录文本文件的内容包括所述文本文件的内容、所述文本文件对应的时间戳和所述文本文件对应的音频文件在所述存储器中的地址。

5. 根据权利要求 3所述的通话转录系统，其特征在于，所述加标签装置还用于根据所述通话记录文本文件和所述通话记录文本文件中的所述文本文件对应的音频文件在所述存储器中的地址，在所述存储器中建立通话数据库，以使所述用户根据所述通话记录文本文件来访问所述通话数据库; 其中，所述通话数据库中每个数据项包括：所述文本文件的内容、所述文本文件对应的时间戳和所述文本文件对应的音频文件在所述存储器中的所述地址。

6. 根据权利要求 1所述的通话转录系统，其特征在于，所述通话转录系统还包括：

存储器，其连接在所述接收装置和所述语音识别装置之间，用于存储所述音频文件；并且所述加标签装置还用于根据所述通话记录文本文件和所述通话记录文本文件中的所述文本文件对应的音频文件在所述存储器中的地址，在所述存储器中建立通话数据库，所述通话数据库具有访问接口以供用户通过网络直接访问；

其中，所述通话数据库中每个数据项包括：所述文本文件的内容、所述文本文件对应的时间戳和所述文本文件对应的音频文件在所述存储器中的所述地址。

7. 根据权利要求 1所述的通话转录系统，其特征在于，所述通话转录系统还包括：

切分器，其连接在所述接收装置和所述语音识别装置之间，用于将所述音频文件切分为子音频文件以输出到所述语音识别装置。

8. 根据权利要求 7所述的通话转录系统，其特征在于，所述切分器进一步包括：

检测单元，用于检测所述音频文件中的静音部分；以及

分割单元，用于基于所检测的静音部分将所述音频文件切分为所述子音频文件。

9. 根据权利要求 8所述的通话转录系统，其特征在于，所述静音部分包括在 0.6秒或 0.6秒以上的时间段内分贝值小于或等于噪声阈值的部分。

10. 根据权利要求 7所述的通话转录系统，其特征在于，所述通话转录系统还包括：

存储器，其连接在所述切分器和所述语音识别装置之间，用于存储所述子音频文件；并且

所述语音识别装置所转录的子音频文件来自于所述存储器。

11. 根据权利要求 1所述的通话转录系统，其特征在于，所述通话转录系统还包括：

自动增益控制器，其与所述接收装置相连，用于对所述输入语音信号进行增益控制。

12. 根据权利要求 1所述的通话转录系统，其特征在于，所述通话转录系统还包括：

滤波器，其与所述接收装置相连，用于对所述输入语音信号进行降噪处理。

13. 一种通话转录方法，包括：将输入语音信号转换为音频文件；

将所述音频文件转录为文本文件；

为所述文本文件加上对应的音频文件的时间戳；以及

根据所述时间戳将加上时间戳后的所有文本文件排序并且合并为通话记录文本文件。

14. 根据权利要求 13所述的通话转录方法，其特征在于，所述合并为通话记录文本文件之后还包括：

将所述通话记录文本文件发送给用户。

15. 根据权利要求 14所述的通话转录方法，其特征在于，

所述将输入语音信号转换为音频文件之后还包括将所述音频文件存储至存储器。

16. 根据权利要求 15所述的通话转录方法，其特征在于，所述通话记录文本文件的内容包括所述文本文件的内容、所述文本文件对应的时间戳和所述文本文件对应的音频文件在所述存储器中的地址。

17. 根据权利要求 15所述的通话转录方法，其特征在于，所述合并为通话记录文本文件之后还包括：

根据所述通话记录文本文件和所述通话记录文本文件中的文本文件对应的音频文件在所述存储器中的地址，在所述存储器中建立通话数据库，以使所述用户根据所述通话记录文本文件来访问所述通话数据库；

18. 根据权利要求 13所述的通话转录方法，其特征在于，

所述将输入语音信号转换为音频文件之后还包括将所述音频文件存储至存储器；并且

所述合并为通话记录文本文件之后还包括：

根据所述通话记录文本文件和所述通话记录文本文件中的文本文件对应的音频文件在所述存储器中的地址，在所述存储器中建立通话数据库，所述通话数据库具有访问接口以供用户通过网络直接访问；

19. 根据权利要求 13所述的通话转录方法，其特征在于，将输入语『号转换为音频文件之后还包括：

将所述音频文件切分为子音频文件。

20. 根据权利要求 13所述的通话转录方法，其特征在于，将输入语『号转换为音频文件之前还包括：对所述输入语音信号进行增益控帝降噪处理。