TWI831787B

TWI831787B - 用於自動混合之智能語音啟動的系統及方法

Info

Publication number: TWI831787B
Application number: TW108118994A
Authority: TW
Inventors: 麥可雷恩雷斯特; 何塞羅伯特雷高布托; 大衛葛蘭特卡森
Original assignee: 美商舒爾獲得控股公司
Priority date: 2018-05-31
Filing date: 2019-05-31
Publication date: 2024-02-11
Also published as: EP3803867B1; US20190371354A1; TW202004736A; US11798575B2; EP3803867A1; CN112334981A; US10997982B2; JP2021525903A; JP7422685B2; WO2019232235A1; CN112334981B; US20220093117A1

Abstract

實施例允許一自動混合器基於話音偵測導通及關斷麥克風，而不丟失或丟棄話音辨識週期期間接收之話音。一實例方法包含接收及儲存一輸入音訊信號。該方法亦包含基於該輸入音訊信號之一第一片段判定該輸入音訊信號包括話音，及判定該輸入音訊信號與提供至一揚聲器之一對應輸出音訊信號之間的一延遲。該方法亦包含減小該延遲，其中減小該延遲包括移除該經儲存輸入音訊信號之一或多個片段以產生一經時間壓縮之音訊信號及提供該經時間壓縮之音訊信號作為該對應輸出音訊信號。該方法亦包含判定該延遲小於一臨限持續時間，及回應地提供該輸入音訊信號作為該對應輸出音訊信號。

Description

用於自動混合之智能語音啟動的系統及方法

本申請案一般而言係關於用於麥克風自動混合之語音啟動。特定而言，本申請案係關於用於在一自動混合中啟動之前壓縮音訊以便消除話音偵測、決定包含在混合中及可能的通道獲取期間丟失之話音之新穎系統及方法之使用。

會議及簡報環境(諸如演講廳、董事會會議室、視訊會議環境及類似者)可能涉及用於捕獲來自音訊源之聲音之麥克風的使用。例如，音訊源可包含人用揚聲器。經捕獲之聲音可透過環境中之揚聲器、一電視廣播及/或一網路廣播傳播給一聽眾。

在一些此等環境中，可能在任何給定時間打開一個以上麥克風，從而允許各揚聲器具有其自身之麥克風。一自動混合系統可用來使一次能夠「接通」一個麥克風以便提供高品質音訊輸出，同時減小當一個以上麥克風在接收音訊且一揚聲器試圖輸出所接收音訊時可能存在之干擾、回饋及其他音訊問題。

在此等環境中，自動混合系統可自一麥克風接收音訊，分析音訊以判定音訊是否為話音、錯誤雜訊或其他內容，且僅在判定音訊係話音之後將使麥克風「在作用中」且透過揚聲器播放所接收音訊。此導致在自動混合系統正判定所接收音訊是否包含話音之時間期間接收之話音之丟失。在一些情況下，此可能意謂著話音片段之第一音節或甚至整個字詞可能丟失，由此降低使用者體驗。

因此，存在解決此等問題之方法及系統之一機會。更特定而言，存在可實現用來判定所接收音訊是否包含話音之正常丟棄話音之播放之方法及系統之一機會。

本發明意欲於藉由提供系統及方法來解決上述問題，該等系統及方法經設計以尤其組合所接收音訊之時間壓縮與可變速度播放以便尤其在一自動混合環境中在話音偵測及通道獲取期間減小丟失的話音。

在一第一實例中，一種方法包含：接收一輸入音訊信號；儲存該輸入音訊信號；及基於該輸入音訊信號之一第一片段判定該輸入音訊信號包括話音。該方法亦包含判定該輸入音訊信號與提供至一揚聲器之一對應輸出音訊信號之間的一延遲。該方法進一步包含減小該延遲，其中減小該延遲包括：移除該經儲存輸入音訊信號之一或多個片段以產生一經時間壓縮之音訊信號；及提供該經時間壓縮之音訊信號作為該對應輸出音訊信號。該方法又進一步包含判定該延遲小於一臨限持續時間。且該方法又進一步包含回應地提供該輸入音訊信號作為該對應輸出音訊信號。

在一第二實例中，一種用於自動混合音訊信號之系統包含：一麥克風，其經組態以接收一輸入音訊信號；一揚聲器，其經組態以播放對應於該輸入音訊信號之一輸出音訊信號；及一處理器。該處理器經組態以：接收該輸入音訊信號；儲存該輸入音訊信號；基於該輸入音訊信號之一第一片段判定該輸入音訊信號包括話音；及判定該輸入音訊信號與該對應輸出音訊信號之間的一延遲。該處理器亦經組態以減小該延遲，其中減小該延遲包括：移除該經儲存輸入音訊信號之一或多個片段以產生一經時間壓縮之音訊信號；及提供該經時間壓縮之音訊信號作為該對應輸出音訊信號。該處理器進一步經組態以判定該延遲小於一臨限持續時間。且該處理器又進一步經組態以回應地提供該輸入音訊信號作為該對應輸出音訊信號。

在一第三實例中，一種非暫時性電腦可讀記憶體具有儲存於其上之指令，該等指令在由一處理器執行時致使一組動作之執行，包含：接收一輸入音訊信號；儲存該輸入音訊信號；基於該輸入音訊信號之一第一片段判定該輸入音訊信號包括話音；及判定該輸入音訊信號與提供至一揚聲器之一對應輸出音訊信號之間的一延遲。該組動作進一步包含減小該延遲，其中減小該延遲包括：移除該經儲存輸入音訊信號之一或多個片段以產生一經時間壓縮之音訊信號；及提供該經時間壓縮之音訊信號作為該對應輸出音訊信號。該組動作進一步包含判定該延遲小於一臨限持續時間。且該組動作又進一步包含回應地提供該輸入音訊信號作為該對應輸出音訊信號。

自闡述指示可採用本發明之原理之各種方式之闡釋性實施例之下文詳細描述及隨附圖式，此等及其他實施例以及各種置換及態樣將變得顯而易見且將更全面地被理解。

交叉參考 本申請案主張2018年5月31日申請之美國臨時申請案第62/678,863號之優先權，該案之全部內容併入本文中。

下文描述根據本發明之原理描述、闡釋及例示本發明之一或多項特定實施例。提供本描述並非為了將本發明限於本文中所描述之實施例，而是解釋及教示本發明之原理，使得一般技術者能夠理解此等原理，且憑藉彼理解，能夠應用其等以不僅實踐本文中所描述之實施例，而且實踐可能根據此等原理想到之其他實施例。本發明之範疇意欲於涵蓋可在字面上或在等效原則下落入隨附發明申請專利範圍之範疇內之所有此等實施例。

應注意，在描述及圖式中，類似或實質上類似之元件可用相同元件符號標記。然而，有時此等元件可用不同數字標記，舉例而言諸如在其中此標記促進一更清楚描述之情況下。另外，本文中所闡述之圖式不一定按比例繪製，且在一些情況下可能誇大比例以更清楚地描繪特定特徵。此標記及圖式實踐並不一定暗示一潛在實質性目的。如上文所述，本說明書意欲於被視為整體且根據如本文中所教示及一般技術者所理解之本發明之原理來解釋。

關於本文中所描述及繪示之實例性系統、組件及架構，亦應理解，實施例可以眾多組態及組件體現或採用，包含一或多個系統、硬體、軟體或韌體組態或組件或、其等任何組合，如一般技術者所理解。據此，雖然圖式繪示包含用於本文中所預期之一或多項實施例之組件之實例性系統，但應理解，關於各實施例，系統中可不存在或不需要一或多個組件。

如上文所述，諸多環境可利用意欲於一次一個地透過揚聲器接收其等音訊輸出之多個麥克風。例如，小組討論、會議、董事會會議、聚會等可皆包含有時具有一對一關係之多個揚聲器及多個麥克風，其中各揚聲器具有一對應麥克風。

為了減小由多個麥克風同時緊鄰操作致使之回饋、干擾、串擾及其他負面效應，可使用一自動混合系統。自動混合系統可實現在一給定時間僅一個麥克風在作用中。為了判定哪個麥克風應在作用中，自動混合系統可經組態以分析由各麥克風接收之音訊信號以判定麥克風是否包含話音、雜訊、靜音或一些其他類別之音訊。然而，此分析需要一非零時間量來完成。且因此，針對話音分析之音訊及在分析完成時接收之音訊兩者可能丟失。雖然此可能低至幾十毫秒，但在一些情況下，分析可能需要一秒或更長時間，其意謂著第一、第二或更多話音被丟失。此對於一發言人及聽眾而言可能係相當刺耳的，且可能導致一不良使用者體驗。

通常，自動混合系統包含在判定是否正在接收話音所要之時間與系統對所接收音訊包含話音所具有之可信度之間的一折衷。因而，當自動混合器減小用來判定一給定麥克風是否正在接收話音之時間時，自動混合器亦減小麥克風是否實際上正接收話音之可信度，此增加自動混合中將包含雜訊之機會。因此，儘管藉由使用較快話音偵測丟失或丟棄較少話音，但即使麥克風僅接收雜訊、靜音或其他含非話音之音訊，仍更可能錯誤地使一麥克風在作用中。

謹記此等問題，本發明之實例實施例可使一自動混合系統能夠自一麥克風接收音訊，基於所接收音訊判定包含話音，及播放經時間壓縮之輸入音訊而不會丟失任何重要資訊。此可藉由將音訊接收至一麥克風中且將音訊儲存於一資料儲存器或記憶體中來完成。接著可分析所儲存音訊信號，同時繼續接收及儲存額外輸入音訊。可分析所儲存音訊之一第一部分以判定其是否包含話音。若第一部分包含話音，則自動混合器可判定應使從中接收話音之麥克風「在作用中」，此意謂著由麥克風接收之音訊應經由揚聲器輸出，傳輸至另一裝置，或以其他方式對其執行一些動作。

接著，可連續地儲存輸入音訊，進行時間壓縮，且可由系統輸出一經減小之音訊信號，而非立即使由麥克風接收之輸入音訊能夠由系統輸出(例如，即時播放)。藉由播放經減小之音訊信號同時繼續接收及壓縮額外輸入音訊，播放可逐漸趕上即時。

若判定音訊是否包含話音之分析之持續時間係一秒，則將存在通常可能丟失或丟棄之一秒之所接收音訊。然而，在本文中所揭示之實施例中，代替地對所接收音訊進行時間壓縮，且以一延遲輸出(其中延遲對應於接收輸入音訊與提供一對應輸出之間的時間差)。接著，隨著接收、壓縮及輸出更多輸入，一秒延遲隨時間逐漸減小。壓縮且輸出額外輸入音訊，直至輸入音訊與系統輸出之間的延遲減小至小於一臨限量(例如，一個音高週期)。當延遲減小至臨限值以下時，系統可執行一較小時間壓縮，使得延遲減小至零(例如，若系統將執行一10 ms壓縮，則其可選擇匹配仍存在之剩餘延遲量之一較小壓縮量)，之後系統輸出簡單地係由麥克風接收之未經壓縮之輸入音訊。

作為本文中所揭示之實施例之結果，自動混合系統經組態以輸出麥克風中接收之所有相關資訊(即，無字詞或相關話音丟失)，且系統可在話音偵測中具有一較高可信度而不丟失大量話音資訊或允許錯誤啟動或「導通」麥克風。本文中所揭示之實施例藉由以下方式來實現此等目標：在快高達兩倍之一平均速率下(或在一時間維度中壓縮兩倍)輸出來自過往之所接收音訊；輸出來自過往樣本之一緩衝器之所接收音訊；及利用在相對於當前輸出之未來時間中存在之樣本之一交叉衰落，直至系統趕上即時播放。一旦輸出音訊信號及經接收之輸入音訊信號解析時基(例如，輸出趕上輸入)，系統便可簡單地輸出新接收之音訊且重設壓縮系統，直至釋放通道且需要話音偵測之另一反覆。

圖1繪示其中可使用本文中所揭示之方法及系統之一實例環境100。圖1展示複數個麥克風102A至102C、一運算裝置110及揚聲器104A至104B。雖然圖1繪示一種可能環境，但應理解，本文中所揭示之概念及特徵可應用於任何合適環境，包含但不限於董事會會議室、會議室、辦公室、劇院等。

麥克風102A至102C可為經組態以接收一輸入音訊信號之任何麥克風類型。在一些實例中，可存在每個發言的人一個麥克風，一或多個人可共用一麥克風，或可存在每個人多個麥克風。可使用之麥克風之類型可包含可定位於一表面(例如，一桌子)上或中之界面式麥克風(boundary microphone)及鈕扣式麥克風，主要對一個方向上之聲音敏感之槍式麥克風及諸多其他類型之麥克風。各麥克風或麥克風組可具有為在一給定環境中使用而定製之一特定拾取型樣。麥克風之典型極性型樣可包含全向、心形、亞心形、超心形(super-cardioid)、高心形(hyper-cardioid)、雙向及陣列波束形成型樣。為一特定麥克風或匣選擇之極性型樣可取決於音訊源所在之位置，排除非所要雜訊之期望及/或其他考量。

麥克風102A至102C可電子地及/或通信地耦合至運算裝置110。此可係經由一電線或可無線地完成。

輸入音訊信號可由對應於麥克風之人112A至112C之一者供應。因而，一輸入音訊信號可包含有聲話音、無聲話音、靜音、雜訊等。下文進一步詳細討論關於一給定輸入音訊信號之元素之額外細節。

揚聲器104A至104B可為經組態以輸出一音訊信號之任何合適揚聲器。揚聲器104A至104B可電子地及/或通信地耦合至運算裝置110。此可透過一電線或無線地完成。

本文中所揭示之各項實施例描述經由一或多個麥克風接收輸入音訊及經由揚聲器104A至104B輸出。然而，在一些實施例中，輸出可代替地或另外包含傳輸至另一位置處之一遠端揚聲器(例如，在一電傳會議環境、網路廣播等中)。因而，在各項所揭示之實施例敘述經由一揚聲器輸出或使用一揚聲器輸出一信號之情況下，應理解，此等亦可或替代地指代將信號輸出至具有一單獨遠端揚聲器之另一裝置或系統(例如，一電傳會議系統之遠端)。

圖2繪示在一些方面類似或相同於圖1之系統之一系統之一簡化方塊圖，包含麥克風102A至102N、運算裝置110及一揚聲器104。

運算裝置110可為經組態以實行本文中所描述之各種功能及動作之包含一處理器210及記憶體212之任何合適運算裝置。在一些實例中，運算裝置110可為一自動混合器、膝上型或桌上型電腦、或經組態以接收及分析來自一麥克風之音訊信號之任何其他裝置。

運算裝置110可經組態用於執行各種功能或動作，諸如本發明(及隨附圖式)中所描述之彼等功能或動作。運算裝置110可包含各種組件，包含例如一處理器210、記憶體212。運算裝置110亦可包含一顯示器、使用者介面及/或一或多個其他電子組件。應理解，本文中所揭示之實例可指代具有可在實體上或可不在實體上接近彼此而定位之組件之運算裝置及/或系統。特定實施例可採取基於雲端之系統或裝置之形式，且術語「運算裝置」應被理解為包含分佈式系統及裝置(諸如基於雲端之彼等系統及裝置)、以及軟體、韌體及經組態以實行本文中所描述之一或多個功能之其他組件。此外，如上文所述，運算裝置110之一或多個特徵可在實體上位於運算裝置遠端，且可經由例如一通信介面通信地耦合至運算裝置。

處理器210可包含一通用處理器(例如，一微處理器)及/或一專用處理器(例如，一數位信號處理器(DSP))。處理器210可為任何合適處理裝置或處理裝置組，諸如但不限於一微處理器、一基於微控制器之平台、一積體電路、一或多個場可程式化閘陣列(FPGA)、圖形處理器單元(GPU)及/或一或多個特定應用積體電路(ASIC)。

記憶體212可為揮發性記憶體(例如，包含非揮發性RAM、磁性RAM、鐵電RAM等之RAM)、非揮發性記憶體(例如、磁碟記憶體、快閃記憶體、EPROM、EEPROM、基於憶阻器之非揮發性固態記憶體等)、不變記憶體(例如，EPROM)、唯讀記憶體及/或高容量儲存裝置(例如，硬碟機、固態硬碟等)。在一些實例中，記憶體212包含多種記憶體，尤其是揮發性記憶體及非揮發性記憶體。

記憶體212可為其上可嵌入一或多個指令集(諸如用於操作本發明之方法之軟體)之電腦可讀媒體。指令可體現如本文中所描述之一或多種方法或邏輯。例如，指令在執行指令期間完全或至少部分地駐留於記憶體212、電腦可讀媒體及/或處理器210之任何一或多者內。

術語「非暫時性電腦可讀媒體」及「電腦可讀媒體」包含單個媒體或多個媒體，諸如一集中式或分佈式資料庫，及/或儲存一或多個指令集之相關聯快取記憶體及伺服器。此外，術語「非暫時性電腦可讀媒體」及「電腦可讀媒體」包含能夠儲存、編碼或攜帶供一處理器執行或致使一系統執行本文中所揭示之任何一或多種方法或操作之一指令集之任何有形媒體。如本文中所使用，術語「電腦可讀媒體」明確地被定義為包含任何類型之電腦可讀儲存裝置及/或儲存磁碟且排除傳播信號。

處理器210可經組態以自一給定麥克風102A接收輸入音訊信號。接著，處理器210可將經接收之輸入音訊信號儲存於記憶體212中。在一些實例中，輸入音訊信號可經儲存於一循環緩衝器中。處理器210可經組態以在接收傳入音訊時連續地儲存傳入音訊。

在繼續儲存傳入之輸入音訊信號時，處理器110可分析儲存於記憶體中之輸入音訊信號之一第一片段，以基於輸入音訊信號之第一片段判定輸入音訊信號包括話音。在一些實例中，第一片段可為輸入音訊信號之一秒片段。在其他實例中，可使用更短或更長持續時間之輸入音訊信號。此外，第一片段可為未經壓縮之輸入音訊。

在分析第一片段時，處理器210可使用一或多個濾波器對輸入音訊信號及/或輸入音訊信號之第一片段進行濾波。處理器210亦可將一或多種演算法應用於音訊信號/第一片段，以便偵測指示輸入音訊信號包括話音之各種話音型樣及/或信號元素。若判定第一片段包含話音，則運算裝置110可回應地判定應使麥克風102A (即，提供輸入音訊信號之麥克風)在作用中或導通。分析及判定應使麥克風導通之此整個程序可能花費近似一秒。但應注意，亦可使用其他持續時間，尤其在系統經設計以基於話音偵測之可信度或確定性與偵測速度之間的折衷操作之情況下。

在一些實例中，運算裝置110亦可判定關於判定音訊信號是否包含可壓縮週期性內容之一或多個可信度度量。可關於基本週期及本文中所描述之其他元素之判定判定可信度度量。

運算裝置110亦可經組態以基於對應於輸入音訊信號之一外部緩衝信號之控制量測輸入音訊信號與一輸出音訊信號之間的一延遲。延遲係接收輸入音訊信號之一給定元素(例如，音訊信號之一字詞、音節或其他離散部分等)時與輸出一對應元素時之間的時間差之一量度。在一些實例中，對應輸出元素可相同於輸入元素，尤其在元素包含大量音訊資訊之情況下。

延遲最初可為判定輸入音訊信號是否包括話音所要之時間。在此分析時間期間，輸入音訊繼續儲存於記憶體中。然而，因為尚未作出輸入音訊是否包含話音之決定，所以尚未輸出輸入音訊。因而，若分析花費一秒，則運算裝置判定輸入音訊信號包括話音時之初始延遲量係一秒。

接著，隨著對輸入音訊信號進行時間壓縮(經由移除一或多個片段，如下文進一步詳細討論)及輸出，輸入音訊信號與對應輸出音訊信號之間的延遲減小。此係因為可在高達輸入速度之兩倍之平均速度下播放或輸出經時間壓縮之音訊，從而導致減小延遲。因此，在壓縮2倍之情況下，延遲因此可在近似相同於分析以判定音訊信號中是否存在話音之持續時間之一持續時間內減小至接近零。然而，在壓縮較小之情況下，延遲減小可在一較長持續時間內實行。因此，延遲減小取決於壓縮量、將壓縮應用於話音內容之適合性且延遲減小至接近零之持續時間相反地對應於壓縮量。

因此，當輸出經時間壓縮之信號時，延遲隨時間變化。在判定輸入音訊信號包括話音之時間點，初始系統延遲之值係輸入音訊信號之第一片段之持續時間。此初始值亦係此反覆之最大延遲，因為隨時間推移且對輸入音訊信號進行時間壓縮及輸出，延遲將逐漸減小。

經由處理器210之運算裝置110可經組態以減小延遲。減小延遲可包含移除所儲存輸入音訊信號之一或多個片段以產生一經時間壓縮或經「減小」之音訊信號，且輸出經減小之音訊信號。經減小之音訊信號對應於從中產生其之輸入音訊信號，且當輸出經減小之音訊信號時，自接收輸入音訊之一給定元素時及輸出經減小之音訊信號之對應元素時起之延遲減小。

如上文所述，可接收輸入音訊信號且將其儲存於記憶體中。此可在滾動基礎上完成，使得隨著接收越來越多之輸入音訊信號，將其儲存於記憶體中之一循環緩衝器中。

為了對輸入音訊信號進行時間壓縮，可完成一或多種演算法、功能或其他操作。在一些實例中，可對輸入音訊信號進行濾波以移除高頻率且消除信號之一DC態樣。亦可對信號進行下採樣且將其分塊成離散窗(例如，25 ms窗)。

在一些實例中，處理器210可判定對應於輸入音訊信號之一基本週期。可藉由將一循環平均幅差函數(CAMDF)或其他適當週期估計函數應用於輸入音訊信號來判定基本週期。可藉由應用時域週期偵測(諸如CAMDF、平均均方差函數(ASMDF)、自相關、零交叉偵測或組合演算法，諸如YIN演算法或McLeod音高法(MPM))來最小化演算法延遲。頻域技術亦可在延時之折衷下使用，諸如週期圖、諧波積譜、倒頻譜分析、頻譜再指派、Grandke插值及預定義頻率圖之最大似然估計。CAMDF或其他適當週期估計函數可受限於語音之預期基頻範圍。

應用CAMDF或其他適當週期估計函數可產生信號自相關之一估計，接著可使用該估計來偵測基本週期。

在一些實例中，CAMDF或其他適當週期估計函數可產生一經估計之基本週期。接著可將經估計之基本週期傳遞至一高解析度平均幅差函數以產生一更精細且更準確之基本週期之估計。

運算裝置110可判定經判定之基本週期可對應於與輸入音訊信號對應之一或多個聲門週期。一聲門週期可為音訊信號之一重複週期，其與一人之嘴之聲門在其發言時之移動相關。在一些實例中，可由處理器210搜尋輸入音訊信號以判定最突出之聲門閉合特徵。接著可基於基本週期及經判定之最突出聲門閉合特徵判定其他聲門閉合特徵。接著可自此資訊判定聲門週期。

在一些實例中，輸入音訊信號可經儲存於記憶體212中之一循環緩衝器中。一旦判定輸入音訊信號之一或多個經估計之聲門週期，便可使用一時域音高同步重疊相加(TD-PSOLA)或其他適當時域交叉衰落程序來將音訊信號分解成片段。亦可使用頻域時間移除技術，諸如移除窗頻域緩衝器。在一些實例中，此等片段可為經估計之聲門週期。可自輸入音訊信號移除一或多個片段以產生一經減小之音訊信號。可完成一或多個片段之移除，使得信號在時間上減小而不更改信號之音高。

待移除之經識別音訊片段可對應於一或多個不同類別之音訊。例如，一些片段可包含有聲話音，一些片段可包含無聲話音，一些片段可包含靜音，且一些片段可包含雜訊或其他音訊信號元素。有聲話音可指代在一人之聲帶在一音素發音期間振動時產生之話音。例如，有聲話音可為字詞「擦除」之前半部分。另一方面，無聲話音可能不包含使用聲帶。例如，無聲話音可為字詞「擦除」之後半部分。靜音片段可為音訊信號之不包含有聲或無聲話音之片段。類別亦可被稱為週期性內容、非週期性內容及安靜或靜音內容。

圖4繪示一音訊信號之一樣本部分400。在圖4中，片段410可對應於雜訊，片段420可對應於靜音，片段430可對應於有聲話音，且片段440可對應於無聲話音。

當移除音訊信號之一或多個片段時，移除可取決於片段所屬之類型或類別。例如，在一給定音訊部分包含週期性內容之情況下，可移除一或多個非相鄰之經估計週期。在一特定實例中，可移除每隔一個經估計之週期。

在音訊部分包含非週期性內容之情況下，在一些實例中，以在壓縮期間維持良好主觀音訊品質同時最大化壓縮率之一方式判定被移除之音訊段之長度。

且在音訊部分包含靜音之情況下，亦以在壓縮期間維持良好主觀音訊品質同時最大化壓縮之一方式判定被移除之音訊段之長度。

可使用一時域重疊相加或其他適當時域交叉衰落(類似於TD-PSOLA，但並非音高同步)完成非週期性或靜音週期之移除。

在一些實例中，一給定輸入音訊信號可包含週期性、非週期性及靜音音訊片段之一組合。在此等實例中，運算裝置110可經組態以使靜音之移除優先於非週期性內容，且使非週期性內容之移除優先於週期性內容。此可能導致最少量之相關音訊資料之移除，同時維持正確音高且減小信號之時間維度。

優先化移除亦可包含移除一種類別之數目大於另一類別。例如，在一給定信號包含待移除之多個經識別音訊片段(包括靜音、週期性內容及非週期性內容)之情況下，移除可包含僅移除一些或全部靜音片段。在其他實例中，移除可包含針對每個非週期性內容移除成比例量之靜音片段，或以相對於彼此之某個其他比率移除經識別之音訊片段。以此方式，可減小輸入音訊信號，而不移除理解輸出信號中包含之話音所需之重要音訊內容。

一旦移除輸入音訊信號之一或多個片段，便可組合剩餘片段以形成一所得減小之輸出音訊信號。接著可將經減小之輸出音訊信號提供至揚聲器以供輸出。

接著，隨時間推移，當如上文所描述般連續地接收額外輸入音訊且進行時間壓縮時，輸入音訊與輸出音訊之間的延遲逐漸減小。

如上文所指示，可計算一或多個可信度度量以判定週期性話音內容、無聲話音或雜訊內容、靜音及本文中所描述之其他元素之可能性。可使用一或多個其他可信度度量來通知移除音訊片段之頻率，以便減小主觀感知時間壓縮之可能性。另外，一或多個可信度度量可告訴您是否執行一同步移除、非同步移除或等待直至一更適當壓縮機會出現。

處理器210可經組態以在延遲變化時監測延遲，且判定延遲小於一臨限持續時間。一旦延遲小於臨限持續時間，處理器便可直接提供輸入音訊作為輸出，而不執行任何時間壓縮。為此，處理器210可執行匹配剩餘延遲量之一較小壓縮以自提供經減小之音訊信號轉變為直接提供輸入音訊信號作為輸出，而不執行任何壓縮、片段移除、或基本或經估計之聲門週期移除。

在一些實例中，臨限值可為一個基本週期，或對應於輸入音訊信號或與在靜音或雜訊期間發生之跳躍相關之一些其他跳躍週期。一旦處理器判定延遲小於此臨限值，其便可接著切換至即時播放。

在一些實例中，處理器210可判定一當前輸入音訊信號包括靜音(即，等待輸入靜音)，且接著回應地在靜音區域期間進行可適於良好主觀音訊品質之一跳躍。此減小非同步跳躍至即時播放在一人發言之中間發生之機會，且導致任何有意義之資訊丟失之較低概率。其亦提供自經時間壓縮之減小音訊信號之輸出至未經壓縮之輸入音訊信號之最無縫轉變。

圖3繪示展示一輸入音訊信號對時間、一對應輸出音訊信號對時間及輸入與輸出之間的延遲對時間之一簡化圖表。

自T0至T1，運算裝置可對輸入音訊信號執行一分析以判定輸入音訊信號是否包括話音。在一些實例中，此分析可使用該分析中自T0至T1之輸入信號而發生。在其他實例中，該分析可使用來自T0之前的輸入音訊信號(即，使用在分析開始之前接收之音訊)而發生。此可在運算裝置在開始判定輸入音訊是否包含話音之程序之前接收及儲存音訊時發生。

在T1處，運算裝置已判定輸入音訊信號包括話音，且回應地判定應使麥克風在作用中或導通。

亦在T1處，可見輸入音訊信號與對應輸出之間的延遲係(T1-T0)秒。(T1-T0)秒亦係判定輸入音訊信號包括話音所需之持續時間。因此在T1處，可認為輸出滯後於輸入達T1-T0秒。

在自T0至T1之時間週期期間或之後，如上文所描述般儲存輸入音訊信號片段301且進行時間壓縮。在圖3中所展示之實例中，片段301經壓縮至其原始持續時間之一半，而不改變音高。接著經由揚聲器在T1處開始且在T1.5處結束而輸出經時間壓縮之信號。此被展示為圖3中之片段311。

在自T1至T1.5輸出經減小之音訊信號片段311時，如上文所描述般接收、儲存第二輸入音訊信號片段302且進行時間壓縮。在圖3中所展示之實例中，片段302經壓縮至其原始持續時間之一半，而不改變音高。接著，經由揚聲器在時間T1.5處開始且在時間T1.75處結束而輸出經時間壓縮之信號。此被展示為片段312。

對輸入音訊信號之連續片段完成此程序，同時輸出對應音訊信號片段，直至輸出趕上輸入。輸入與對應輸出之間的時間差被視覺化為圖3中之延遲，其在一最大(T1-T0)秒處開始，且隨著輸出趕上而逐漸減小。在圖3中所展示之實例中，各片段之壓縮倍數係兩倍，此意謂著輸出按平均兩倍於其作為輸入被接收之速度播放。因而，若T1-T0係1秒，且T2-T1亦係一秒(例如，每個時間T對應於1秒變化)，則可播放兩秒之經接收輸入音訊(自T0至T2)作為彼時間之一半(自T1至T2)之輸出。

接著在時間T2處，輸出已趕上輸入，且延遲幾乎為零。此時，運算裝置可等待輸入信號中之一相對靜音以在靜音區域中進行一跳躍以直接提供輸入信號作為輸出，而不執行任何壓縮或時間縮減。

圖5繪示根據本發明之實施例之一實例方法500之一流程圖。方法500可允許一自動混合器基於話音偵測導通及關斷麥克風，而不丟失或丟棄話音辨識週期期間接收之話音。圖5之流程圖表示儲存於記憶體(諸如記憶體212)中之機器可讀指令且可包含一或多個程式，該一或多個程式在由一處理器(諸如處理器210)執行時可致使運算裝置110及/或一或多個系統或裝置實行本文中所描述之一或多個功能。雖然參考圖5中所繪示之流程圖描述實例程式，但可替代地使用用於實行本文中所描述之功能之諸多其他方法。例如，可彼此串行地或並行地重新配置或執行區塊之執行順序，可改變、消除及/或組合區塊以執行方法500。此外，因為結合圖1至圖4之組件揭示方法500，所以下文將不詳細描述彼等組件之一些功能。

方法500可在區塊502處開始。在區塊504處，方法500可包含經由一麥克風接收一輸入音訊信號。且在區塊506處，方法500可包含儲存輸入音訊信號。如上文所描述，本文中之實施例可包含在接收輸入音訊信號與所描述之其他功能或動作同期連續地儲存輸入音訊信號。

在區塊508處，方法500可包含判定輸入音訊信號是否包括話音。如上文所述，此可包含分析輸入音訊信號之一第一片段，應用一或多個濾波器，或以其他方式偵測信號中話音之存在。若未偵測到話音，則該方法返回至區塊504。

若偵測到話音，則方法500可包含基於一外部緩衝信號之控制量測輸入音訊信號與一對應輸出信號之間的一延遲。如上文所述，此延遲之初始值可為在區塊508處判定音訊信號中是否存在話音所要之時間量。在判定輸入音訊信號中存在話音之後，可開始輸出輸入音訊信號。因而，由於判定是否存在話音需要之時間，所以可能引入延遲。

在區塊512處，方法500可包含判定延遲是否小於一臨限值。此臨限值可為一基本週期，或對應於輸入或輸出音訊信號之某個其他週期。當首先輸出輸入音訊信號時，延遲可處於一最大值。最大延遲可為判定輸入音訊信號中是否存在話音所要之時間量。

若延遲大於臨限值，則方法500可繼續進行至區塊514。在區塊514處，方法500可包含移除輸入音訊信號之一或多個片段，尤其是包含靜音之片段。在區塊516處，方法500可包含移除包含無聲話音之一或多個片段。且在區塊518處，方法500可包含移除包含有聲話音之一或多個片段。區塊514、516及518包含移除音訊信號之各個片段，此可如上文關於基本週期所描述般執行。

在區塊520處，方法500可包含產生一經減小之音訊信號。此經減小之音訊信號可在時間維度上進行壓縮，但可能不具有頻率或音高之任何壓縮。

在區塊522處，方法500可包含將經減小之音訊信號提供至一揚聲器以供輸出。如上文所指示，應注意，此亦可或替代地包含將經減小之音訊信號提供至一遠端揚聲器或運算裝置，例如在一電傳會議場景中。

接著，方法500可返回至區塊512，以判定延遲是否已減小至臨限值以下。若延遲小於臨限值，則方法500可繼續進行至區塊524。

在區塊524處，方法500可包含將輸入音訊直接提供至揚聲器，而非移除靜音、無聲話音或有聲話音。在一些實例中，區塊524可包含與有聲話音之基本週期無關之跳躍或自提供經減小之音訊信號至提供輸入音訊信號作為輸出之轉變。接著，方法500可在區塊526處結束。

應理解，本文中所揭示之實施例係出於解釋目的，且因而可顛倒一或多個動作之順序及時間依賴性，或各種動作可同時或同期發生。例如，在一些實例中，判定音訊信號包含話音可與判定延遲、減小延遲、移除所儲存輸入音訊之一或多個片段等同時實行。一些實例可在本文中被描述為在一個動作跟隨另一動作之一線性程序中實行。但其他實例可包含同時實行本文中所描述之一或多個動作。

在本申請案中，轉折詞之使用意欲於包含連接詞。定冠詞或不定冠詞之使用並非意欲於指示基數。特定而言，對「該」物件或「一」及「一個」物件之引用意欲於亦表示可能複數個此等物件之一者。此外，連詞「或」可用來傳達同時存在之特徵代替相互排斥之替代特徵。換言之，連詞「或」應被理解為包含「及/或」。術語「包含(includes、including及include)」係包含性的且分別具有相同於「包括(comprises、comprising及comprise)」之範疇。

上述實施例及尤其是任何「較佳」實施例係實施方案之可能實例且僅僅係為了清楚地理解本發明之原理而闡述。可對(若干)上述實施例進行諸多變動及修改而實質上不脫離本文中所描述之技術之精神及原理。所有修改意欲於在本文中包含於本發明之範疇內且受下文發明專利申請範圍保護。

100‧‧‧環境 102A-N‧‧‧麥克風 104‧‧‧揚聲器 104A-B‧‧‧揚聲器 110‧‧‧運算裝置 112A-C‧‧‧人 210‧‧‧處理器 212‧‧‧記憶體 301‧‧‧輸入音訊信號片段 302‧‧‧第二輸入音訊信號片段 311‧‧‧經減小之音訊信號片段 312‧‧‧片段 400‧‧‧樣本部分 410‧‧‧片段 420‧‧‧片段 430‧‧‧片段 440‧‧‧片段 500‧‧‧方法 502‧‧‧區塊 504‧‧‧區塊 506‧‧‧區塊 508‧‧‧區塊 510‧‧‧區塊 512‧‧‧區塊 514‧‧‧區塊 516‧‧‧區塊 518‧‧‧區塊 520‧‧‧區塊 522‧‧‧區塊 524‧‧‧區塊 526‧‧‧區塊

圖1係根據本發明之實施例之包含複數個麥克風之一實例性環境之一示意表示。

圖2係根據本發明之實施例之一實例系統之一簡化方塊圖。

圖3係展示根據本發明之實施例之一輸入音訊信號及輸出音訊信號及隨時間變化之一延遲之一簡化圖表。

圖4係根據本發明之實施例之音訊信號之一實例片段。

圖5係繪示根據本發明之實施例之一實例方法之一流程圖。

100‧‧‧環境

102A-C‧‧‧麥克風

104A-B‧‧‧揚聲器

110‧‧‧運算裝置

112A-C‧‧‧人

Claims

一種用於自動混合音訊信號之方法，其包括：接收一輸入音訊信號；儲存該輸入音訊信號；基於該輸入音訊信號之一第一片段判定該輸入音訊信號包括話音；基於一外部緩衝信號之控制，量測該輸入音訊信號與提供至一揚聲器之一對應輸出音訊信號之間的一延遲；減小該延遲，其中減小該延遲包括：移除該經儲存輸入音訊信號之一或多個片段以產生一經時間壓縮之音訊信號，其中移除該經儲存輸入音訊信號之該一或多個片段包括基於以下項對該輸入音訊信號之片段進行分類：(i)包括靜音之片段、(ii)包括非週期性內容之片段及(iii)包括週期性內容之片段，且其中該方法進一步包括將類別(i)片段之移除優先化為第一，將類別(ii)片段之移除優先化為第二，及將類別(iii)片段之移除優先化為第三；及提供該經時間壓縮之音訊信號作為該對應輸出音訊信號；判定該延遲小於一臨限持續時間；及回應地提供該輸入音訊信號作為該對應輸出音訊信號。
如請求項1之方法，其中該輸入音訊信號與該對應輸出音訊信號之間的該延遲隨時間變化，且包括該輸入音訊信號之該第一片段在判定該輸入音訊信號包括話音之一時間點之一持續時間。
如請求項1之方法，其中減小該延遲進一步包括：判定對應於該輸入音訊信號之一基本週期；及基於該基本週期，判定對應於該輸入音訊信號之一或多個供移除音訊片段。
如請求項3之方法，其中藉由將一循環平均幅差函數應用於該輸入音訊信號來判定該基本週期。
如請求項3之方法，其中藉由將以下項之一或多者應用於該輸入音訊信號來判定該基本週期：(a)一平均均方差函數、(b)一自相關函數、(c)零交叉偵測、(d)一YIN演算法、(e)一McLeod音高方法及(f)一週期圖。
如請求項3之方法，其中藉由將以下項之一或多者應用於該輸入音訊信號之一頻域表示來判定該基本週期：(a)一諧波積譜、(b)一倒頻譜音高偵測演算法、(c)頻譜再指派及(d)最大似然估計。
如請求項3之方法，其中將該等供移除音訊片段儲存於一循環緩衝器中，且其中移除該經儲存輸入音訊信號之該一或多個片段包括移除週期性音訊內容之一或多個片段。
如請求項7之方法，其中移除週期性音訊內容之該一或多個片段包括移除複數個非相鄰週期性區域。
如請求項1之方法，其中移除該經儲存輸入音訊信號之該一或多個片段包括將一時域音高同步重疊相加(TD-PSOLA)函數應用於該輸入音訊信號。
如請求項1之方法，其中移除該經儲存輸入音訊信號之該一或多個片段包括將具有重疊及相加之一頻域緩衝移除應用於該輸入音訊信號之一頻域表示。
如請求項1之方法，其中移除該經儲存輸入音訊信號之該一或多個片段包括移除包含無聲話音之一或多個片段。
如請求項1之方法，其中移除該經儲存輸入音訊信號之該一或多個片段包括移除不包含話音之一或多個片段。
如請求項1之方法，其中判定該延遲小於該臨限持續時間包括判定該延遲小於該輸入音訊信號之一個基本週期。
如請求項1之方法，其中回應於判定該延遲小於該臨限持續時間，該方法進一步包括：判定該輸入音訊信號包括靜音；及回應地藉由提供該輸入音訊信號作為該對應輸出音訊信號來執行一跳躍以返回至即時播放。
一種用於自動混合音訊信號之系統，其包括：一麥克風，其經組態以接收一輸入音訊信號；一揚聲器，其經組態以播放對應於該輸入音訊信號之一輸出音訊信號；及一處理器，其經組態以：接收該輸入音訊信號；儲存該輸入音訊信號；基於該輸入音訊信號之一第一片段判定該輸入音訊信號包括話音；判定該輸入音訊信號與該對應輸出音訊信號之間的一延遲；減小該延遲，其中減小該延遲包括：移除該經儲存輸入音訊信號之一或多個片段以產生一經時間壓縮之音訊信號，其中移除該經儲存輸入音訊信號之該一或多個片段包括基於以下項對該輸入音訊信號之片段進行分類：(i)包括靜音之片段、(ii)包括非週期性內容之片段及(iii)包括週期性內容之片段，且將類別(i)片段之移除優先化為第一，將類別(ii)片段之移除優先化為第二，及將類別(iii)片段之移除優先化為第三；及提供該經時間壓縮之音訊信號作為該對應輸出音訊信號；判定該延遲小於一臨限持續時間；及回應地提供該輸入音訊信號作為該對應輸出音訊信號。
如請求項15之系統，其進一步包括經組態以接收複數個各自麥克風音訊信號之複數個麥克風，其中該處理器進一步經組態以：接收該複數個各自麥克風音訊信號；儲存該複數個各自麥克風音訊信號之至少一部分；基於該複數個各自麥克風音訊信號之各者之各自第一片段，判定一第一麥克風音訊信號包括話音；及將該輸入音訊信號設定為該第一麥克風音訊信號。
如請求項15之系統，其中減小該延遲進一步包括：基於應用於該輸入音訊信號之一循環平均幅差函數判定對應於該輸入音訊信號之一基本週期；及基於該基本週期，判定含有對應於該輸入音訊信號之週期性內容之一或多個音訊片段。
如請求項17之系統，其中含有週期性內容之該等音訊片段經儲存於一循環緩衝器中，且其中移除該經儲存輸入音訊信號之該一或多個片段包括移除含有週期性內容之複數個非相鄰音訊片段。
如請求項15之系統，其中減小該延遲進一步包括：基於應用於該輸入音訊信號之以下項之一或多者判定對應於該輸入音訊信號之一基本週期：(a)一平均均方差函數、(b)一自相關函數、(c)零交叉偵測、(d)一YIN演算法、(e)一McLeod音高方法及(f)一週期圖；及基於該基本週期，判定含有對應於該輸入音訊信號之週期性內容之一或多個音訊片段。
如請求項15之系統，其中減小該延遲進一步包括：基於該輸入音訊信號之一頻域表示之以下項之一或多者判定對應於該輸入音訊信號之一基本週期：(a)一諧波積譜、(b)一倒頻譜音高偵測演算法、(c)頻譜再指派及(d)最大似然估計；及基於該基本週期，判定含有對應於該輸入音訊信號之週期性內容之一或多個音訊片段。
如請求項20之系統，其中移除該經儲存輸入音訊信號之該一或多個片段包括將具有重疊及相加之一頻域緩衝移除應用於該輸入音訊信號之該頻域表示。
如請求項15之系統，其中移除該經儲存輸入音訊信號之該一或多個片段包括將一時域音高同步重疊相加(TD-PSOLA)函數應用於該輸入音訊信號。
如請求項15之系統，其中回應於判定該延遲小於該臨限持續時間，該處理器進一步經組態以：判定該輸入音訊信號包括靜音；及回應地藉由提供該輸入音訊信號作為該對應輸出音訊信號來執行一跳躍以返回至即時播放。
一種包括指令之非暫時性電腦可讀記憶體，該等指令在由一處理器執行時致使一組動作之執行，包括：接收一輸入音訊信號；儲存該輸入音訊信號；基於該輸入音訊信號之一第一片段判定該輸入音訊信號包括話音；判定該輸入音訊信號與提供至一揚聲器之一對應輸出音訊信號之間的一延遲；減小該延遲，其中減小該延遲包括：移除該經儲存輸入音訊信號之一或多個片段以產生一經時間壓縮之音訊信號，其中移除該經儲存輸入音訊信號之該一或多個片段包括基於以下項對該輸入音訊信號之片段進行分類：(i)包括靜音之片段、(ii)包括非週期性內容之片段及(iii)包括週期性內容之片段，且將類別(i)片段之移除優先化為第一，將類別(ii)片段之移除優先化為第二，及將類別(iii)片段之移除優先化為第三；及提供該經時間壓縮之音訊信號作為該對應輸出音訊信號；判定該延遲小於一臨限持續時間；及回應地提供該輸入音訊信號作為該對應輸出音訊信號。