TW201843674A

TW201843674A - 將音訊信號即時轉錄為文字的系統以及方法

Info

Publication number: TW201843674A
Application number: TW107113933A
Authority: TW
Inventors: 李世龍
Original assignee: 大陸商北京嘀嘀無限科技發展有限公司
Priority date: 2017-04-24
Filing date: 2018-04-23
Publication date: 2018-12-16
Also published as: CN109417583B; AU2017411915B2; AU2020201997B2; JP2019537041A; CA3029444A1; WO2018195704A1; EP3461304A4; SG11201811604UA; US20190130913A1; AU2017411915A1; CA3029444C; AU2020201997A1; JP6918845B2; EP3461304A1; CN109417583A

Abstract

揭露了將音訊信號即時轉錄為文字的系統以及方法，其中該音訊信號包括第一語音信號以及第二語音信號。該方法包括建立接收音訊信號的對話，通過建立的對話接收第一語音信號，將第一語音信號分割為第一組語音段，將第一組語音段轉錄為第一組文字，以及在轉錄所述第一組語音段的同時接收所述第二語音信號。

Description

將音訊信號即時轉錄為文字的系統以及方法

本申請涉及語音辨識，特別涉及轉錄音訊信號的系統以及方法，例如把語音即時轉錄為文字並分發該文字給訂閱者。

本申請要求2017年4月24日提交的編號為PCT/CN2017/081659的PCT申請案的優先權，其內容以引用方式被包含於此。

自動語音辨識(Automatic Speech Recognition，ASR)系統可以用來將語音轉錄為文字。轉錄後的文字可被電腦程式或個人讀取，以便進一步分析。例如，自動語音辨識系統轉錄使用者呼叫(call)得到的文字，可以被線上招車(hail)平臺的呼叫中心利用，使呼叫可以被更有效地分析，以提高向使用者調度計程車或私家車的效率。

傳統的自動語音辨識系統要求在進行語音辨識之前接收整個語音，才能轉錄為文字。因此，長語音的轉錄很難即時進行。例如，線上招車平臺的自動語音辨識系統需要保持錄製呼叫直至呼叫結束，然後開始轉錄被錄製的呼叫。

本申請的實施例提供了一種改進後的轉錄系統以及方法，實現了語音到文字的即時轉錄，並分發所述文字給訂閱者。

在一態樣，本申請是針對一種將音訊信號轉錄為文字的方法，其中音訊信號包括第一語音信號以及第二語音信號。該方法包括建立接收音訊信號的對話(session)，通過建立的對話接收第一語音信號，將所述第一語音信號分割為第一組語音段，將所述第一組語音段轉錄為第一組文字，以及在轉錄所述第一組語音段的同時接收所述第二語音信號。

在另一態樣，本申請是針對一種音訊信號轉錄為語音文字的語音辨識系統，其中該音訊信號包括第一語音信號以及第二語音信號。該語音辨識系統包括一個通訊介面，被配置為建立接收音訊信號的對話，以及通過該對話接收第一語音信號；一個分割單元，被配置為將第一語音信號分割為第一組語音段；以及一個轉錄單元，被配置為將第一組語音段轉錄為第一組文字，其中通訊介面進一步被配置在轉錄所述第一組語音段的同時接收所述第二語音信號。

在另一態樣，本申請是針對了一種非暫態電腦可讀取媒體。該電腦可讀取媒體儲存電腦指令，當電腦處理器執行該電腦指令時，電腦指令執行將音訊信號轉錄為文字的方法，其中音訊信號包括第一語音信號以及第二語音信號。該方法包括建立接收音訊信號的對話，通過建立的對話接收第一語音信號，將第一語音信號分割為第一組語音段，將第一組語音段轉錄為第一組文字，以及在轉錄所述第一組語音段的同時接收所述第二語音信號。

應當理解的是，前面的一般描述以及下面的詳細描述都僅是示例性以及解釋性的，並不構成對本申請的限定。

100‧‧‧語音辨識系統

101‧‧‧語音源

101a‧‧‧麥克風

101b‧‧‧電話

101c‧‧‧智慧裝置

103‧‧‧儲存裝置

105‧‧‧訂閱者

105a‧‧‧第一使用者

105b‧‧‧第二使用者

105c‧‧‧文字處理裝置

301‧‧‧通訊介面

303‧‧‧識別單元

305‧‧‧轉錄單元

307‧‧‧分發介面

309‧‧‧記憶體

400‧‧‧過程

401‧‧‧階段

403‧‧‧階段

405‧‧‧階段

407‧‧‧階段

500‧‧‧過程

501‧‧‧階段

503‧‧‧階段

505‧‧‧階段

507‧‧‧階段

600‧‧‧過程

601‧‧‧步驟

603‧‧‧步驟

605‧‧‧步驟

607‧‧‧步驟

609‧‧‧步驟

圖1係根據本申請一些實施例所示的一種語音辨識系統的示意圖。

圖2係根據本申請一些實施例所示的語音源與語音辨識系統之間的一種示例性連接。

圖3係根據本申請一些實施例所示的一種語音辨識系統的方塊圖。

圖4係根據本申請一些實施例所示的音訊轉錄為文字的一種示例性過程的流程圖。

圖5係根據本申請一些實施例所示的分發轉錄後的文字給訂閱者的一種示例性過程的流程圖。

圖6係根據本申請一些實施例所示的音訊轉錄為文字的一種示例性過程的流程圖。

為了更清楚地說明本申請的實施例的技術方案，下面將對實施例描述中所需要使用的圖式作簡單的介紹。任何可能的情況下，在整個圖式中將使用相同的圖式標記來指代相同或相似的部分。

圖1係根據本申請一些實施例所示的一種語音辨識系統的示意圖。如圖1所示，語音辨識系統100可以從語音源101接收音訊信號，並將該音訊信號轉錄為語音文字。語音源101可以包括麥克風101a、電話101b或智慧裝置101c(例如智慧行動電話、平板電腦或類似物)上的應用程式，該應用程式用於接收並錄製音訊信號，例如電話呼叫錄音。圖2係根據本申請一些實施例所示的語音源101與語音辨識系統100之間的一種示例性連接。

在一個實施例中，語者在會議或講座中發言，麥克風101b可以錄製語音。該語音可以被即時上傳到語音辨識系統100，或者在語音結束並完整錄製之後上傳到語音辨識系統100。然後該語音內容可以由語音辨識系統100轉錄為語音文字。語音辨識系統100可以自動保存語音文字及/或將語音文字分發給訂閱者。

在另一個實施例中，使用者可以使用電話101b撥打電話。例如，使用者可以呼叫線上招車平臺的呼叫中心，請求計程車或私家車。如圖2所示，線上招車平臺支援媒體資源控制協定版本2(Media Resource Control Protocol version 2，MRCPv2)、語音伺服器(例如，線上招車平臺上的伺服器)使用的通訊協定向客戶提供各種服務。媒體資源控制協定版本2可以藉由使用例如對話發起協定(Session Initiation Protocol，SIP)以及即時協定(Real-Time Protocol，RTP)，來在客戶以及伺服器之間建立控制對話以及音訊流。也就是說，語音辨識系統100可以根據媒體資源控制協定版本2即時接收電話呼叫的音訊信號。

語音辨識系統100接收的音訊信號可以在被轉錄之前被預處理。在一些實施例中，音訊信號的原始格式可以被轉錄為與語音辨識系統100相容的格式。另外，電話呼叫的雙音軌錄音可被分成兩個單音軌信號。例如，可以使用多媒體框架FFmpeg將雙音軌錄音轉錄為脈衝碼調變(Pulse Code Modulation，PCM)格式的單音軌信號。

在又一個實施例中，使用者可以通過智慧裝置101c上的行動應用程式(諸如滴滴應用程式)記錄語音訊息，或者與線上招車平臺的客服進行語音聊天。如圖2所示，行動應用程式可以包括用於處理語音訊息或語音聊天的音訊信號的語音軟體開發套件(Software Development Kit，SDK)，處理後的音訊信號可以根據例如超文字傳輸協定(HyperText Transfer Protocol，HTTP)被發送至線上招車平臺的語音辨識系統100。應用程式的軟體開發套件可以進一步將音訊信號壓縮為自我調整多速率(Adaptive Multi-Rate，amr)或寬頻(Broad Voice 32，bv32)格式的音訊檔。

返回至圖1，經轉錄後的語音文字可以被儲存在儲存裝置103中，從而儲存的語音文字後續可以被提取並進一步處理。所述儲存裝置103可在語音辨識系統100內部或外部。儲存裝置103可以被實施為任何類型的揮發性或非揮發性儲存裝置或其組合，例如靜態隨機記憶體(Static Random Access Memory，SRAM)、電子可清除可程式唯讀記憶體(Electrically Erasable Programmable Read-Only Memory，EEPROM)、可清除可程式唯讀記憶體(Erasable Programmable Read-Only Memory，EPROM)、可程式唯讀記憶體(Programmable Read-Only Memory，PROM)、唯讀記憶體(Read-Only Memory，ROM)、磁儲存器、快閃記憶體或者磁碟或光碟。

語音辨識系統100還可以自動地或依據請求將轉錄後的文字分發給一個或多個訂閱者105。訂閱者105包括訂閱文字的人或者進一步處理文字的裝置(包括電腦程式)。例如，如圖1所示，訂閱者105包括第一使用者105a、第二使用者105b以及文字處理裝置105c。訂閱者可以在不同的時間點訂閱轉錄後的文字，這將被進一步討論。

在一些實施例中，語音可以是持續一段時間的長語音，語音的音訊信號可以在語音仍在進行中時分段地發送到語音辨識系統100。音訊信號可以包括複數個語音信號，這些語音信號可以依次被發送。在一些實施例中，語音信號可以代表在特定時間段中語音的一部分或語音的某個通道。可以預期的是，語音信號也可以是代表可轉錄內容的任何類型的音訊信號，例如電話交談、電影、電視劇、歌曲、新聞報導、演講、辯論或類似物。例如，音訊信號包括第一語音信號以及第二語音信號，並且第一以及第二語音信號可以依次被發送。第一語音信號對應於語音的第一部分，第二語音信號對應於語音的第二部分。另一個例子，第一以及第二語音信號分別對應於語音的左以及右聲道的內容。

圖3係根據本申請一些實施例所示的一種語音辨識系統100的方塊圖。

語音辨識系統100可以包括通訊介面301、識別單元303、轉錄單元305、分發介面307以及記憶體309。在一些實施例中，識別單元303以及轉錄單元305可以是語音辨識系統100的處理器的部件。這些模組(以及任何相應的子模組或子單元)可以是功能硬體單元(例如，整合電路的部分)，這些硬體單元被設計用於與其他元件或執行特定功能的程式(儲存在電腦可讀取媒體中)的一部分一起使用。

通訊介面301可以建立用於接收音訊信號的對話，並且通過建立的對話接收音訊信號的語音信號(例如，第一以及第二語音信號)。例如，客戶終端可以向通訊介面301發送請求以建立對話。當根據媒體資源控制協定版本2以及對話發起協定建立對話時，語音辨識系統100可以藉由標籤(例如「To」標籤，「From」標籤以及「Call-ID」標籤)來識別SIP對話。當根據HTTP建立對話時，語音辨識系統100向對話分配唯一符記(unique token)，該唯一符記由通用唯一識別碼(Universally Unique Identifier，UUID)生成。對話結束後，該對話的唯一符記將被釋放。

通訊介面301可以在音訊信號的傳輸期間中監控封包遺失率。封包遺失率是網路連接穩定性的一個指標。當封包遺失率大於一定值(例如2%)時，意味語音源101與語音辨識系統100之間的網路連接不穩定，接收到的語音音訊信號可能已經丟失太多資料而不能用於任何重建或進一步分析。因此，當封包遺失率大於預設臨界值(例如，2%)時，通訊介面可以301終止對話，並向語音源101報告錯誤。在一些實施例中，當對話空閒預設時間段(例如，30秒)之後，語音辨識系統100可以確定語者已經完成了語音，通訊介面301隨後終止對話。可以預期的是，對話還可以由語音源101(即，語者)手動終止。

通訊介面301可以進一步確定每個語音信號被接收的時間點。例如，通訊介面301可以確定第一語音信號被接收的第一時間點以及第二語音信號被接收的第二時間點。

由通訊介面301接收的音訊信號在被轉錄單元305轉錄之前可以被進一步處理。每個語音信號可能包括幾個句子，這幾個句子對於語音辨識系統100立刻轉錄來說太長。因此，識別單元303可以將接收到的音訊信號分割為語音片段。例如，音訊信號的第一以及第二語音信號可以被各自進一步分割為第一以及第二組語音段。在一些實施例中，語音活動檢測(Voice Activity Detection，VAD)可以用於分割所接收到的音訊信號。例如，語音活動檢測可以將第一語音信號分割為對應於句子或單詞的語音段。語音活動檢測還可以識別第一語音信號的非語音區域，並進一步在轉錄過程中排除非語音區域，從而節省系統的計算以及輸送量。在一些實施例中，可以將第一以及第二語音信號接續地連接組合成長語音信號，該長語音信號然後被分割。

轉錄單元305可以將每個語音信號的語音段轉錄為一組文字。例如，第一以及第二語音信號的第一以及第二組語音段可分別被轉錄為第一以及第二組文字。語音段可以按順序或平行轉錄。在一些實施例中，可以使用自動語音辨識(ASR)來轉錄語音段，使得語音信號可以作為文字被儲存以及進一步處理。

除了將音訊信號轉錄為文字之外，如果語者的特定語音已經儲存在系統的資料庫中，轉錄單元305可以進一步識別語者的身份。被轉錄的文字以及語者的身份可以被發送回識別單元303以供進一步處理。

此外，例如，當使用者呼叫線上招車平臺時，語音辨識系統100可以轉錄電話呼叫的音訊信號並進一步識別使用者的身份。然後，語音辨識系統100的識別單元303可以識別轉錄文字中的關鍵字、突出(highlight)關鍵字、及/或將與關鍵字相關的額外資訊提供給線上招車平臺的客服。在一些實施例中，當在轉錄的文字中檢測到關於旅程的出發地點以及目的地位置的關鍵字時，可以提供旅程的可能路線以及每條路線的所需時間。因此，客服可以不需要手動收集相關資訊。在一些實施例中，可以識別與使用者相關的資訊，例如他/她的偏好、歷史訂單、經常使用的目的地或類似物，並將其提供給平臺的客服。

當第一語音信號的第一組語音段被轉錄單元305轉錄時，通訊介面301可以繼續接收第二語音信號。對於每個語音信號(例如，第一以及第二語音信號)，可以在對話期間建立線程。例如，經由第一線程接收第一語音信號，經由第二線程接收第二語音信號。當第一語音信號的發送完成時，生成用於釋放第一線程的回應，並且識別單元303以及轉錄單元305可以開始處理接收到的信號。同時，可以建立第二線程來接收第二語音信號。類似地，當第二語音信號被完全接收並發送用於轉錄時，語音辨識系統100的通訊介面301可以建立另一個線程來接收另一個語音信號。

因此，在另一個輸入語音信號被接收的同時可以處理已接收到的語音信號，無需在開始轉錄之前等待接收完整個音訊信號。該特徵使語音辨識系統100能夠即時轉錄語音。

雖然識別單元303以及轉錄單元305被顯示為獨立的處理單元，但是可以預期單元303以及305也可以是處理器的功能部件。

記憶體309可以按順序組合語音信號的語音文字，並將組合的文字作為對轉錄文字的附加進行儲存。例如，第一以及第二組文字可以被組合以及儲存。此外，記憶體309可以根據由通訊介面301確定的時間點來儲存組合文字，這些時間點表示接收到對應於組合文字的語音信號的時間。

除了接收音訊信號的語音信號之外，通訊介面301可以進一步從訂閱者接收第一請求並確定接收第一請求的時間點，其中第一請求可以為訂閱音訊信號的轉錄文字的請求。分發介面307可以向訂閱者分發與由通訊介面301確定的時間點對應的轉錄文字的子集。在一些實施例中，通訊介面301可以從訂閱者接收用於訂閱同一組轉錄文字的複數個請求，並且確定並記錄每個請求的時間點。分發介面307向每個訂閱者分別分發對應時間點的轉錄文字的子集。可以預期的是，分發介面307將轉錄後的文字直接或經由通訊介面301分發給訂閱者。

與時間點對應的轉錄文字的子集可以包括轉錄文字中對應於音訊信號與從開始到該時間點的內容的子集、或轉錄文字中對應於音訊信號預置時段內容的子集。例如，訂閱者可以連接到語音辨識系統100，並在電話呼叫開始後兩分鐘的時間點發送訂閱電話呼叫的請求。分發介面307向訂閱者(例如，圖1中的第一使用者105a，第二使用者105b及/或文字處理裝置105c)分發對應於在電話呼叫開始後的兩分鐘期間之所有內容的文字的子集、或僅對應於時間點之前的預設時段(例如，該時間點之前10秒的內容)的文字子集。可以預期，文字的子集也可以對應於最接近該時間點的語音段。

在一些實施例中，可以在訂閱之後進行額外的分發。例如，在第一次訂閱音訊信號時，根據接收到的請求將該文字子集分發給訂閱者之後，分發介面307可以繼續將轉錄後的文字分發給訂閱者。在一個實施例中，通訊介面301可以不分發附加文字，直到從訂閱者處接收到用於更新音訊信號轉錄文字的第二請求。隨後，通訊介面301根據第二請求向訂閱者分發最近轉錄的文字。例如，訂閱者點選由圖形使用者介面(GUI)顯示的刷新按鈕將第二請求發送到通訊介面301，分發介面307可以確定是否存在任何新轉錄的文字並且將新轉錄的文字分發給訂閱者。另一個實施例中，分發介面307自動將最近轉錄的文字推送給訂閱者。

收到轉錄的文字之後，訂閱者可以進一步處理文字並提取與文字相關的資訊。如上文所述，訂閱者可以是圖1的文字處理裝置105c，並且文字處理裝置105c包括執行指令以自動分析轉錄文字的處理器。

圖4以及5將進一步描述用於將音訊信號轉錄為文字並根據超文字傳輸協定(HTTP)分發轉錄後的文字的過程。

圖4係根據本申請一些實施例所示的音訊轉錄為文字的一種示例性過程400的流程圖。過程400可以由語音辨識系統100來執行以轉錄音訊信號。

在階段401中，語音源101(例如，智慧電話上的應用程式的SDK)可以向語音辨識系統100的通訊介面301發送建立語音對話的請求。例如，對話可以根據HTTP建立，相應地，請求可以藉由例如「HTTP GET」命令來發送。例如，接收「HTTP GET」請求的通訊介面301可以是超文字傳輸協定(HTTP)反向代理。反向代理可以從語音辨識系統100的其他單元取回資源，並將資源返回給語音源101，就好像資源源自反向代理本身一樣。通訊介面301隨後可以經由例如快速通用閘道器介面(fast CGI)將該請求轉發到識別單元303。快速通用閘道器介面可以是一種用於將程式與伺服器進行連結(interface)的協定。可以預期的是其他合適的協定也可以用來轉發該請求。在接收到建立對話的請求之後，識別單元303可以在記憶體309中生成對話佇列，並且為通訊介面301建立用於表示對話的符記。在一些實施例中，符記可以由通用唯一識別碼生成，該符記是對於在此描述的整個過程的全域唯一標識。在通訊介面301接收到符記之後，可以向源101發送表示對話已經建立的超文字傳輸協定(HTTP)回應200(「OK」)。超文字傳輸協定(HTTP)回應200可以表示請求/命令已被成功處理。

對話建立後，語音辨識將在階段403中被初始化。在階段403中，源101可以向通訊介面301發送命令，所述命令用於為音訊信號初始化語音辨識以及語音信號。該命令可以攜帶用於表示對話的符記，並且所述語音信號可持續超過預設時間段(例如160毫秒)。語音信號可以包括ID號，所述ID號隨著每個輸入語音信號遞增。命令以及語音信號藉由例如「HTTP POST」命令來發送。類似地，通訊介面301可以通過「快速通用閘道器介面」將命令以及語音信號轉發到識別單元303。然後，識別單元303可以檢查符記並驗證語音信號的參數。所述參數可以包括語音信號被接收的時間點、ID號或類似物。在一些實施例中，語音信號的ID號通常是連續的，可以驗證該ID號以確定封包遺失率。如上所述，當語音信號的發送完成時，用於發送該語音信號的線程可以被釋放。例如，當接收到的語音信號被驗證時，識別單元303可以通知通訊介面301，通訊介面301可以向語音源101發送超文字傳輸協定(HTTP)回應200，以指示語音信號已經被接收以及可以釋放相應的線程。階段403可以被迴圈執行，使音訊信號的所有語音信號被上傳到語音辨識系統100。

在階段403被迴圈執行的同時，階段405可以處理上傳的音訊信號，而不必等待迴圈結束。在階段405中，識別單元303可以將接收到的語音信號分割為語音段。例如，如圖4所示，持續0.3~5.7秒並包含2.6~2.8秒的非語音區域的該第一語音信號，可以使用語音活動檢測(例如模型VAD技術)被分割為第一組語音段。例如，語音信號可以被分割為第一段0.3~2.6秒以及第二段2.8~5.7秒。所述語音段可以被轉錄為文字。例如，第一以及第二段可以被轉錄為第一以及第二組文字，第一以及第二組文字可以被儲存在由識別單元303生成的佇列中。由音訊信號轉錄的所有文字都將儲存在與該音訊信號相對應的同一佇列中。轉錄後的文字可以根據其被接收的時間點來儲存。佇列可以根據符記來標識，所述符記為根據UUID唯一生成的。因此，每個音訊信號都具有用於儲存轉錄後的文字的唯一佇列。當轉錄單元305正在處理所接收的語音信號時，語音源101可以向通訊介面301發送請求回饋的命令。上述回饋可以包括關於例如語音的當前長度、轉錄音訊信號的進度、音訊信號的封包遺失率或類似物資訊。所述資訊可以被顯示給語者，以便語者根據需要調整語音。例如，如果語音轉錄的進度落後語音本身一預設時間段，可以向語者通知該進度，以便他/她調整語音的速度。類似地，所述命令可以攜帶用於識別對話的符記，通訊介面301可以將該命令轉發給識別單元303。識別單元303接收命令後，提取與所述符記相對應的回饋，將其發送到通訊介面301，並進一步發送到語音源101。

在階段407中，用於終止對話的命令可以從語音源101發出。類似地，該命令與所述符記一起經由通訊單元301被發送到識別單元303。然後，識別單元303可以清除對話並釋放對話資源。表示對話終止的回應可以被發送回通訊介面301，通訊介面301可以進一步生成超文字傳輸協定(HTTP)回應200(「OK」)，並將其發送到語音源101。在一些其他實施例中，當存在高封包遺失率或空閒足夠長的時間段時，對話也會被終止。例如，如果封包遺失率大於2%或者對話空閒30秒，則對話被終止。

可以預期的是，一個或多個超文字傳輸協定(HTTP)響應可能是錯誤而不是「OK」。在接收到表示特定過程失敗的錯誤時，可以重複此特定過程，或者終止對話並將錯誤報告給語者及/或語音辨識系統100的管理員。

圖5係根據本申請一些實施例所示的分發轉錄後的文字給訂閱者的一種示例性過程500的流程圖。根據圖5的流程圖，過程500可以由語音辨識系統100來執行以分發轉錄後的文字。

在階段501中，因為語音辨識系統100可以同時處理多個語音，所以可以在記憶體309中建立訊息佇列，使得轉錄單元305能夠將語音的主題發佈到訊息佇列。並且還可以在記憶體309中建立用於每個主題的訂閱者佇列，使得特定主題的訂閱者被列在相應的訂閱者佇列中，且可以藉由轉錄單元305將語音文字推送給相應的訂閱者佇列。記憶體309可以向轉錄單元305返回回應，表示語音的主題是否被成功發佈及/或語音文字是否被成功推送。

在階段503中，訂閱者105可以向通訊介面301發送查詢當前活躍語音的請求。如上文所述，所述請求可以藉由「HTTP GET」命令發送到通訊介面301。且所述請求將藉由例如快速通用閘道器介面被轉發到分發介面307，然後分發介面307可以查詢儲存在記憶體309的訊息佇列中的活躍語音的主題。因此，記憶體309通過通訊介面301將當前活躍語音的主題連同該語音的相關資訊一起返回給訂閱者105。所述相關資訊包括例如語音的識別字以及描述。通訊介面301還可以向訂閱者105發送超文字傳輸協定(HTTP)回應200(「OK」)。

在階段505中，當前活躍語音的主題以及相關資訊可以被顯示給訂閱者105，訂閱者105可以訂閱具有識別字(identifier)的語音。訂閱語音的請求可以被發送到通訊介面301，然後被轉發到分發介面307。分發介面307可以驗證該請求的參數。例如，參數可以包括校驗碼、訂閱者105的識別字、語音的識別字、語音的主題、訂閱者105發送請求的時間點或類似物。

如果分發單元307確定訂閱者105是新訂閱者，與該請求相對應的語音可以被訂閱，並且訂閱者105會被更新到記憶體309的訂閱者佇列中。然後，表示訂閱成功的回應可以被發送到分發介面307，分發介面307向通訊介面301發送關於語音的資訊，例如訂閱者的識別字、語音的當前時間表及/或訂閱該語音的訂閱者的數量。通訊介面301可以生成HTTP回應200(「OK」)，並將上述資訊連同HTTP回應一起發回給訂閱者105。

如果分發單元307確定訂閱者105是現有使用者，分發介面307可以將資訊直接遞送到通訊介面301。

在階段507中，在接收到HTTP回應200(「OK」)之後，訂閱者105根據例如訂閱者的識別字、對話的符記及/或訊息的當前時間表，發送用於獲取文字的請求。所述請求可以藉由快速通用閘道器介面，經由通訊介面301被轉發到分發介面307，使得分發介面307可以存取轉錄的文字。分發介面307可以將任何新轉錄文字發送回源105，或者如果沒有新文字，則發送「空」信號。

可以預期的是，最近轉錄的文字也可以在沒有任何請求的情況下自動推送給訂閱者105。

在一些實施例中，如果儲存在訊息佇列中的語音的話題在預設時間段內未被查詢，則該話題可以作為過期話題被清除。

圖6係根據本申請一些實施例所示的音訊轉錄為文字的一種示例性過程600的流程圖。例如，過程600由語音辨識系統100執行，包括接下來討論的步驟S601-S609。

在步驟S601中，語音辨識系統可以建立用於接收音訊信號的對話，該音訊信號可以包括第一語音信號以及第二語音信號。例如，可以根據媒體資源控制協定版本2或超文字傳輸協定首先接收第一語音信號。語音辨識系統100可以進一步監控用於接收音訊信號的封包遺失率，並且當封包遺失率大於預設臨界值時終止對話。在一些實施例中，當封包遺失率大於2%時，對話被認為是不穩定的並被終止。語音辨識系統100也可以在對話空閒預設時間段後終止對話。例如，在對話空閒30秒之後，語音辨識系統100可以認為語音結束隨後終止對話。

在步驟S603中，語音辨識系統100可以將接收到的第一語音信號分割為第一組語音段。在一些實施例中，VAD可以被用於將第一語音信號進一步分割為語音段。

在步驟S605中，語音辨識系統100可以把第一組語音段轉錄為第一組文字。在一些實施例中，自動語音辨識(ASR)可以被用來轉錄語音段，使得第一語音信號可以作為文字被儲存並進一步處理。如果同一語者的先前語音已經儲存在系統的資料庫中，語者的身份也可以被識別。可以進一步利用語者(例如線上招車平臺的使用者)的身份來獲取使用者的相關資訊，例如他/她的偏好、歷史訂單、常用目的地或類似物，這將提高平臺的效率。

在步驟S607中，當第一組語音段正被轉錄為第一組文字時，語音辨識系統100可以進一步接收第二語音信號。在一些實施例中，可以透過在對話期間建立之第一線程來接收第一語音信號。第一語音信號被分割為第一組語音段之後，在第一組語音段被轉錄的同時可以發送用於釋放第一線程的回應。一旦第一線程被釋放，可以建立用於接收第二語音信號的第二線程。藉由平行地轉錄一個語音信號和接收下一個信號，可以即時將音訊信號轉錄為文字。類似地，語音辨識系統100可以將第二語音信號分割為第二組語音段，然後將第二組語音段轉錄為第二組文字。語音辨識系統100可以進一步依次組合第一以及第二組文字，並將組合文字作為在內部儲存器或外部儲存裝置中之轉錄文字的添加。因此，整個音訊信號被轉錄為文字。

語音辨識系統100可以對轉錄文字進行進一步處理或分析。例如，語音辨識系統100識別轉錄文字中的關鍵字、突出關鍵字、及/或提供與關鍵字相關的額外資訊。在一些實施例中，音訊信號產生於對線上招車平臺的電話呼叫，當在轉錄文字中檢測到旅程的出發地點以及目的地位置的關鍵字時，可以提供旅程的可能路線以及每條路線的時間。

在步驟S609中，語音辨識系統100可以將轉錄文字的子集分發給訂閱者。例如，語音辨識系統100可以從訂閱者接收訂閱音訊信號的轉錄文字的第一請求，確定接收第一請求的時間點，並向訂閱者分發對應該時間點的轉錄文字的子集。語音辨識系統100可以進一步從訂閱者接收更新音訊信號的轉錄文字的第二請求，並根據第二請求向訂閱者分發最近的轉錄文字。在一些實施例中，也可以自動推送最近的轉錄文字給訂閱者。在一些實施例中，上述轉錄文字的附加分析(例如，關鍵字、突出顯示、額外資訊)也可以分發給訂閱者。

在一些實施例中，訂閱者可以是計算裝置，其包括執行指令以自動分析轉錄文字的處理器。各種文字分析或處理工具可以被用於確定語音的內容。在一些實施例中，訂閱者可以進一步將文字翻譯成不同的語言。分析文字通常是較少計算量的，因此比直接分析音訊信號要快得多。

本申請的另一態樣是針對儲存指令的非暫時性電腦可讀取媒體，如上所述，所述指令在被執行時使得一個或多個處理器執行所述方法。電腦可讀取媒體包括揮發性或非揮發性、磁性、半導體、磁帶、光學、可移除式、不可移除式或其他類型的電腦可讀取媒體或電腦可讀取儲存裝置。例如，如所揭露的，電腦可讀取媒體是其上儲存有電腦指令的儲存裝置或儲存器模組。在一些實施例中，電腦可讀取媒體是其上儲存有電腦指令的盤或快閃記憶體驅動器。

顯而易見，本領域技術人員可以對所揭露的欺騙檢測系統以及相關方法進行各種修改以及變化。考慮到所揭露的欺騙檢測系統以及相關方法的說明以及實踐，其他實施例對於本領域技術人員將是顯而易見的。儘管使用線上招車平臺作為示例描述了實施例，但是所描述的即時轉錄系統以及方法可以應用於轉錄在任何其他情境中生成的音訊信號。例如，所描述的系統以及方法可以用於轉錄歌詞、收音機/電視廣播、演講、語音訊息、對話或類似物。

本申請中的說明書以及示例的目的僅被認為是示例性的，真正的範圍由以下專利申請範圍及其等同物限定。

Claims

一種音訊信號轉錄為文字的方法，其中，所述音訊信號包括第一語音信號以及第二語音信號，所述方法包括：建立接收所述音訊信號的對話；通過所述建立的對話接收所述第一語音信號；將所述第一語音信號分割為第一組語音段；將所述第一組語音段轉錄為第一組文字；以及在轉錄所述第一組語音段的同時通過所述建立的對話接收所述第二語音信號。
如申請專利範圍第1項之方法，進一步包括：將所述第二語音信號分割為第二組語音段，以及將所述第二組語音段轉錄為第二組文字。
如申請專利範圍第2項之方法，進一步包括依次組合所述第一以及第二組文字，並將所述組合文字儲存為所述轉錄文字的附加內容。
如申請專利範圍第1項之方法，進一步包括：從訂閱者接收訂閱所述音訊信號的所述轉錄文字的第一請求；確定接收到所述第一請求的時間點；以及向所述訂閱者分發對應於所述時間點的所述轉錄文字的子集。
如申請專利範圍第4項之方法，進一步包括：進一步從所述訂閱者接收更新所述音訊信號的所述轉錄文字的第二請求；根據所述第二請求向所述訂閱者分發最近轉錄的文字。
如申請專利範圍第4項之方法，進一步包括：自動推送所述最近轉錄的文字給所述訂閱者。
如申請專利範圍第1項之方法，其中建立接收所述音訊信號的對話進一步包括：根據媒體資源控制協定版本2或超文字傳輸協定接收所述音訊信號。
如申請專利範圍第1項之方法，進一步包括：監控接收所述音訊信號的封包遺失率；以及當所述封包遺失率大於預設臨界值時終止所述對話。
如申請專利範圍第1項之方法，進一步包括：在所述對話空閒預設時間段之後，終止所述對話。
如申請專利範圍第4項之方法，其中所述訂閱者包括執行指令以自動分析所述轉錄文字的處理器。
如申請專利範圍第1項之方法，其中在所述第一語音信號是通過在對話期間建立第一線程來接收，其中所述方法進一步包括：轉錄所述第一組語音段的同時發送用於釋放所述第一線程的回應；以及建立接收所述第二語音信號的第二線程。
一種音訊信號轉錄為語音文字的語音辨識系統，其中所述音訊信號包括第一語音信號以及第二語音信號，所述語音辨識系統包括：通訊介面，被配置為建立接收所述音訊信號的對話，並通過所述建立的對話接收所述第一語音信號；分割單元，被配置為將所述第一語音信號分割為第一組語音段；以及轉錄單元，被配置為將所述第一組語音段轉錄為第一組文字，其中，通訊介面被進一步配置為在轉錄所述第一組語音段的同時接收所述第二語音信號。
如申請專利範圍第12項之語音辨識系統，其中所述分割單元進一步被配置為將所述第二語音信號分割為第二組語音段，以及所述轉錄單元進一步被配置為將所述第二組語音段轉錄為第二組文字。
如申請專利範圍第13項之語音辨識系統，進一步包括：儲存器，被配置為依次組合所述第一以及第二組文字，並將所述組合文字儲存為所述轉錄文字的附加內容。
如申請專利範圍第12項之語音辨識系統，進一步包括分發介面，其中所述通訊介面進一步被配置為從訂閱者接收訂閱所述音訊信號的所述轉錄文字的第一請求，並且確定接收所述第一請求的時間點；以及所述分發介面被配置為向所述訂閱者分發對應於所述時間點的所述轉錄文字的子集。
如申請專利範圍第12項之語音辨識系統，其中所述通訊介面進一步被配置為監控接收所述音訊信號的封包遺失率；並且當所述分組封包遺失率大於預設臨界值時終止所述對話。
如申請專利範圍第12項之語音辨識系統，其中所述通訊介面進一步被配置為在所述對話空閒預設時間段之後，終止所述對話。
如申請專利範圍第15項之語音辨識系統，其中所述訂閱者包括執行指令以自動分析所述轉錄文字的處理器。
如申請專利範圍第12項之語音辨識系統，其中在所述第一語音信號是藉由在對話期間建立的第一線程來接收，以及所述通訊介面進一步配置為：轉錄所述第一組語音段的同時發送用於釋放所述第一線程的回應；以及建立接收所述第二語音信號的第二線程。
一種非暫態電腦可讀取媒體，所述電腦可讀取媒體儲存一組指令，在語音辨識系統的至少一個處理器執行所述指令時，引起所述語音辨識系統執行將音訊信號轉錄為文字的方法，其中所述音訊信號包括第一語音信號以及第二語音信號，所述方法包括：建立接收所述音訊信號的對話；通過所述建立的對話接收所述第一語音信號；將所述第一語音信號分割為第一組語音段；將所述第一組語音段轉錄為第一組文字；以及在轉錄所述第一組語音段的同時接收所述第二語音信號。