TWI690920B

TWI690920B - 音訊處理方法、音訊處理裝置及用於音訊處理之非暫時性電腦可讀媒體

Info

Publication number: TWI690920B
Application number: TW107116322A
Authority: TW
Inventors: 李敬祥; 張豐盛; 陳繼健
Original assignee: 盛微先進科技股份有限公司
Priority date: 2018-01-10
Filing date: 2018-05-14
Publication date: 2020-04-11
Also published as: TW201931353A; US10650834B2; US20190214029A1

Abstract

一種音訊處理方法。此音訊處理方法包含以下步驟：由處理器分割音訊檔案為多個音訊區段；以及由處理器壓縮多個音訊區段以產生多個壓縮音訊區段，包含：降取樣多個音訊區段中的第一音訊區段以產生多個壓縮音訊區段的第一壓縮音訊區段，其中第一音訊區段的第一目標頻寬小於一頻寬閾值；以及取樣多個音訊區段中的第二音訊區段以產生多個壓縮音訊區段的第二壓縮音訊區段，並於第二壓縮音訊區段加入延遲時間，其中第二音訊區段的第二目標頻寬不小於頻寬閾值。

Description

音訊處理方法、音訊處理裝置及用於音訊處理之非暫時性電腦可讀媒體

本案是有關於一種音訊處理方法、音訊處理裝置及用於音訊處理之非暫時性電腦可讀媒體，且特別是有關於用以壓縮音訊檔案的音訊處理方法、音訊處理裝置及用於音訊處理之非暫時性電腦可讀媒體。

傳統上，若欲將音訊檔案透過例如藍牙等僅支援低頻寬的無線傳輸協定發送至音訊播放裝置，則需使用例如MP3格式等失真/有損的壓縮方式來大幅降低資料量，然而較大的壓縮率容易造成音訊失真，產生雜音或爆音。

此外，一般壓縮技術通常牽涉將音訊檔於時域及頻域間進行轉換等大量運算，因此可將連續的音訊資料流分成一個個固定大小的音訊區段(frame)以便進行運算與壓縮，接收端再把一個個音訊區段解壓後還原成音訊資料流。通常大一點的音訊區段會有較佳的壓縮效率，但是太大的音訊區塊會加大聲音的延遲並且需要較大的記憶體。然小型播放裝置例如藍牙耳機、藍牙喇叭等，通常僅具有低處理能力的微處理器以及較小的記憶空間，因此在執行解壓縮音訊檔案時，此等小型播方裝置將耗費較長的處理時間，而無法即時播放。

本案之一態樣是在提供一種音訊處理方法。此音訊處理方法包含以下步驟：由處理器分割音訊檔案為多個音訊區段；以及由處理器壓縮多個音訊區段以產生多個壓縮音訊區段，包含：降取樣多個音訊區段中的第一音訊區段以產生多個壓縮音訊區段的第一壓縮音訊區段，其中第一音訊區段的第一目標頻寬小於一頻寬閾值；以及取樣多個音訊區段中的第二音訊區段以產生多個壓縮音訊區段的第二壓縮音訊區段，並於第二壓縮音訊區段加入延遲時間，其中第二音訊區段的第二目標頻寬不小於頻寬閾值。

本案之另一態樣是在提供一種音訊處理裝置，包含記憶體以及處理器。記憶體用以儲存音訊檔案。處理器用以分割音訊檔案為多個音訊區段，並降取樣多個音訊區段中的第一音訊區段以產生第一壓縮音訊區段，其中處理器取樣多個音訊區段中的第二音訊區段以產生第二壓縮音訊區段，並於第二壓縮音訊區段加入延遲時間。

本案之另一態樣是在提供一種用於音訊處理之非暫時性電腦可讀媒體，儲存有複數指令，當複數指令被處理器執行時，執行以下步驟：分割音訊檔案為多個音訊區段；降取樣多個音訊區段中的第一音訊區段以產生第一壓縮音訊區段，其中第一音訊區段的第一目標頻寬小於頻寬閾值；以及取樣多個音訊區段中的第二音訊區段以產生第二壓縮音訊區段，並於第二壓縮音訊區段加入延遲時間，其中第二音訊區段的第二目標頻寬不小於頻寬閾值。

因此，根據本案之技術態樣，本案之實施例藉由提供一種音訊處理方法、音訊處理裝置及用於音訊處理之非暫時性電腦可讀媒體，且特別是有關於用以壓縮音訊檔案的音訊處理方法、音訊處理裝置及用於音訊處理之非暫時性電腦可讀媒體，透過動態的降取樣以及升取樣，藉以於頻寬變動時更有效的壓縮音訊資料流，並防止音訊不連續而產生爆音。此外，本案之實施例於壓縮時同時執行二或多個不同的壓縮演算法，以達到更佳的壓縮效率。再者，本案之實施例於壓縮時，將一個音訊區段分為多個音訊區塊(chunk)，於解壓縮時，接收端僅需較小的空間即可對音訊資料進行解壓縮。

100:裝置

110:記憶體

130:處理器

200:波形圖

300:波形圖

400:音訊區段

900:音訊播放裝置

500:音訊處理方法

S510、S530、S550:步驟

為讓本發明之上述和其他目的、特徵、優點與實施例能更明顯易懂，所附圖式之說明如下：第1圖係根據本案之一些實施例所繪示之一種裝置的示意圖；第2圖係根據本案之一些實施例所繪示之一種音訊區段的波形圖；第3圖係根據本案之一些實施例所繪示之一種音訊區段的波形圖；第4圖係根據本案之一些實施例所繪示之一種音訊區段的示意圖；以及第5圖係根據本案之一些實施例所繪示之一種音訊處理方法的流程圖。

以下揭示提供許多不同實施例或例證用以實施本發明的不同特徵。特殊例證中的元件及配置在以下討論中被用來簡化本揭示。所討論的任何例證只用來作解說的用途，並不會以任何方式限制本發明或其例證之範圍和意義。此外，本揭示在不同例證中可能重複引用數字符號且/或字母，這些重複皆為了簡化及闡述，其本身並未指定以下討論中不同實施例且/或配置之間的關係。

在全篇說明書與申請專利範圍所使用之用詞(terms)，除有特別註明外，通常具有每個用詞使用在此領域中、在此揭露之內容中與特殊內容中的平常意義。某些用以描述本揭露之用詞將於下或在此說明書的別處討論，以提供本領域技術人員在有關本揭露之描述上額外的引導。

關於本文中所使用之『耦接』或『連接』，均可指二或多個元件相互直接作實體或電性接觸，或是相互間接作實體或電性接觸，而『耦接』或『連接』還可指二或多個元件相互操作或動作。

在本文中，使用第一、第二與第三等等之詞彙，是用於描述各種元件、組件、區域、層與/或區塊是可以被理解的。但是這些元件、組件、區域、層與/或區塊不應該被這些術語所限制。這些詞彙只限於用來辨別單一元件、組件、區域、層與/或區塊。因此，在下文中的一第一元件、組件、區域、層與/或區塊也可被稱為第二元件、組件、區域、層與/或區塊，而不脫離本發明的本意。如本文所用，詞彙『與/或』包含了列出的關聯項目中的一個或多個的任何組合。本案文件中提到的「及/或」是指表列元件的任一者、全部或至少一者的任意組合。

請參閱第1圖。第1圖係根據本案之一些實施例所繪示之一種裝置100的示意圖。裝置100用以與音訊播放裝置900通訊連接。於一些實施例中，裝置100將音訊檔案進行處理後，透過無線通訊傳輸方式，將處理後的音訊資料傳送至音訊播放裝置900。音訊播放裝置900再解壓縮處理後的音訊資料，以快速且即時的播放音訊。

於連接關係上，裝置100包含記憶體110以及處理器130。處理器130與記憶體110相耦接。於操作關係上，處理器將音訊檔案分割為多個音訊區段，並針對每個音訊區段作個別處理。音訊檔案可根據任何規則作分割，例如時間長度、取樣點數量及/或檔案大小等。其中，音訊處理方法100是依據音訊內容的時間先後順序來處理每一音訊區段，而每一音訊區段的內容具有相同或不相同的時間長度、取樣點數量及/或檔案大小，本揭示文件並不加以限制。

處理器130將多個音訊區段進行壓縮處理。由於音訊資料傳送的頻寬為可變動的，同一音訊檔案的多個音訊區段可分別包含不同的目標頻寬。舉例而言，使用者可於音訊播放時調整音訊資料傳送的頻寬，而各個音訊區段的目標頻寬因應使用者所設定的音訊資料傳送的頻寬而改變。

音訊檔案中的多個音訊區段的第一音訊區段將首先進行壓縮處理。待第一音訊區段經壓縮處理完畢後，第二音訊區段緊接著進行壓縮處理，而待第二音訊區段處理完畢後，接續處理下一音訊區段，直至整個音訊檔案被處理完成。

於一些實施例中，若於處理器130壓縮第一音訊區段前，使用者設定音訊資料傳送的頻寬為400Kbps，處理器130接收包含音訊資料傳送的頻寬為400Kbps的資訊的指令，並依據此指令設定第一音訊區段的目標頻寬為400Kbps。若於處理器130壓縮第二音訊區段前，使用者設定音訊資料傳送的頻寬為1Mbps，處理器130接收包含音訊資料傳送的頻寬為1Mbps的資訊的指令，並依據此指令設定第一音訊區段的目標頻寬為1Mbps。

處理器130依據各個音訊區段的目標頻寬對音訊區段進行壓縮處理。若音訊區段的目標頻寬小於頻寬閾值，降取樣音訊區段以產生壓縮音訊區段。而若音訊區段的目標頻寬不小於頻寬閾值，取樣音訊區段以產生壓縮音訊區段，並於壓縮音訊區段加入延遲時間。

請參閱第2圖以及第3圖。第2圖係根據本案之一些實施例所繪示之一種音訊區段的波形圖200。第3圖係根據本案之一些實施例所繪示之一種音訊區段的波形圖300。如第2圖所繪示，處理器130對音訊區段進行取樣，以取得多個取樣點。假設於一般取樣的情況下，處理器130以96KHz的頻率進行取樣。當音訊區段的目標頻寬小於頻寬閾值時，處理器130對音訊區段進行降取樣。也就是說，處理器130以較低的頻率進行取樣，例如48KHz、32KHz等，以產生壓縮音訊區段。另一方面，當音訊區段的目標頻寬不小於頻寬閾值時，處理器130以一般取樣的取樣頻率對音訊區段進行取樣以產生壓縮音訊區段，並於壓縮音訊區段加入延遲時間。舉例而言，如第3圖所繪示，於壓縮音訊區段中加入延遲時間td。

由上可知，於本案中，於目標頻寬較低的情況下，對音訊區段進行降取樣，可達到較佳的壓縮率。此外，由於降取樣時聲音會產生延遲，而不做降取樣時聲音不會產生延遲。因此，於不做降取樣的情況下，即目標頻寬不小於頻寬閾值時，於壓縮音訊區段加入延遲時間，如此當目標頻寬動態改變時，播放音訊即不會因為音訊不連續而產生爆音。

於部分實施例中，當處理器130對音訊區段進行降取樣時，音訊區段會經過處理器130的低通濾波器(未繪示)。於部分實施例中，低通濾波器可為Sinc濾波器。而當音訊區段經過處理器130的低通濾波器處理後，處理器130所產生的壓縮音訊區段會受到低通濾波器的影響而產生延遲時間。於部分實施例中，此延遲時間可為16取樣數至256取樣數中之一者。舉例而言，若是取樣頻率為96KHz，則延遲時間即為介於16/96000秒至256/96000秒之間的時間長度。對於降取樣處理的音訊區段，處理器130會於壓縮音訊區段中加入與低通濾波器的延遲時間相同的延遲時間，以使音訊播放時連續。以上所述之延遲時間僅作為例示，本案不以此為限。

於部分實施例中，處理器130更用以分割壓縮音訊區段為多個音訊區塊。請參閱第4圖。第4圖係根據本案之一些實施例所繪示之一種音訊區段400的示意圖。如第4圖所繪示，每個音訊區段包含一個標頭(header)，且處理器130將壓縮音訊區段400的音訊資料分割為多個音訊區塊C1至C8。當裝置100將壓縮音訊區段400傳送至音訊播放裝置900時，音訊播放裝置900依據音訊區塊為單位進行解壓縮。即處理器130先解壓縮音訊區塊C1的資料、再解壓縮音訊區塊C2的資料，依此類推。如此一來，音訊播放裝置900於進行解壓縮時的運算量可降低，且音訊播放裝置900可以較小的記憶體空間進行解壓縮。

舉例而言，假設一個壓縮音訊區段400包含1024個取樣點資料，且音訊播放裝置900需6Kbyte的記憶體空間以進行解壓縮處理。而若是音訊播放裝置900依據音訊區塊為單位進行解壓縮，假設壓縮音訊區段400被分割為8個音訊區塊，每個音訊區塊包含僅128個取樣點資料，則音訊播放裝置900僅需750byte的記憶體空間以進行解壓縮處理。

由上可知，透過將壓縮音訊區段分割為多個音訊區段，音訊播放裝置900可以較小的記憶體空間以進行解壓縮處理，並可降低運算量。

於部分實施例中，於處理器130對一個音訊區段進行壓縮處理之前，處理器130分別計算以第一演算法壓縮此音訊區段的第一壓縮率以及以第二演算法壓縮此音訊區段的第二壓縮率，並且處理器130響應於高於第二壓縮率的第一壓縮率，以第一演算法壓縮此音訊區段。舉例而言，處理器130於壓縮第一音訊區段之前，處理器130先計算以格倫布編碼演算法(RICE Coding)壓縮第一音訊區段的第一壓縮率，再計算以LZ演算法壓縮第一音訊區段的第二壓縮率。若是第一壓縮率高於第二壓縮率，處理器130以格倫布編碼演算法壓縮第一音訊區段以產生第一壓縮音訊區段。而若是第一壓縮率不高於第二壓縮率，處理器130以LZ演算法壓縮第一音訊區段以產生第一壓縮音訊區段。此外，同一音訊檔案的不同音訊區段可以不同的演算法進行壓縮處理。以上所列舉之壓縮演算法僅作為例示，本案不以此為限制。

於部分實施例中，音訊區段的標頭中包含用於指示此音訊區段進行壓縮時所使用的演算法的標籤。舉例而言，若是第一音訊區段是以格倫布編碼演算法進行壓縮，於第一音訊區段的標頭中將包含用以指示第一音訊區段是以格倫布編碼演算法進行壓縮的標籤。反之，若是第二音訊區段是以LZ演算法進行壓縮，於第二音訊區段的標頭中將包含用以指示第二音訊區段是以LZ演算法進行壓縮的標籤。

由上可知，本案的實施例中可針對同一音訊檔案中的不同的音訊區段，選用較佳的演算法對不同的音訊區段進行壓縮。因此，本案的實施例中可達到較佳的壓縮效率。

請參閱第5圖。第5圖係根據本案之一些實施例所繪示之一種音訊處理方法500的流程圖。如第5圖所示，音訊處理方法500包含步驟S510至步驟S550。

於步驟S510中，分割音訊檔案為多個音訊區段。於部分實施例中，步驟S510可由第1圖中的處理器130執行。舉例來說，處理器130將音訊檔案分割為多個音訊區段，並針對每個音訊區段作個別處理。

舉例來說，音訊檔案中的多個音訊區段的第一音訊區段將首先進行步驟S530至步驟S550。待第一音訊區段經壓縮處理完畢後，第二音訊區段緊接著進行步驟S530至步驟S550，而待第二音訊區段處理完畢後，接續處理下一音訊區段，直至整個音訊檔案被處理完成。如上所述的第一、第二僅作為例示說明順序之用。

於步驟S530中，壓縮多個音訊區段以產生多個壓縮音訊區段。於部分實施例中，步驟S530可由第1圖中的處理器130執行。詳細而言，於執行步驟S530時，若音訊區段的目標頻寬小於頻寬閾值，降取樣音訊區段以產生壓縮音訊區段。而若音訊區段的目標頻寬不小於頻寬閾值，取樣音訊區段以產生壓縮音訊區段，並於壓縮音訊區段加入延遲時間。

於部分實施例中，步驟S530更包含分別計算以第一演算法壓縮此音訊區段的第一壓縮率以及以第二演算法壓縮此音訊區段的第二壓縮率，並且處理器130響應於高於第二壓縮率的第一壓縮率，以第一演算法壓縮此音訊區段。此外，壓縮音訊區段的標頭包含指示對音訊區段進行壓縮處理時所使用的壓縮演算法的標籤，以使音訊播放裝置190於執行解壓縮時辨識處理器130於壓縮此音訊區段時所使用的演算法。

於步驟S550中，將多個壓縮音訊區段傳送至音訊播放裝置。於部分實施例中，步驟S550可由第1圖中的處理器130執行，以將多個壓縮音訊區段傳送至第1圖中的音訊播放裝置190。於音訊播放裝置190接收到壓縮音訊區段後，音訊播放裝置190對壓縮音訊區段進行解壓縮，以即時播放音訊檔案。

於部分實施例中，步驟S530更包含分割多個壓縮音訊區段中每一者為多個音訊區塊，以使音訊播放裝置190於步驟S550時可依據音訊區塊為單位進行解壓縮處理。

於部分實施例中，上述音訊處理方法500可透過非暫時性電腦可讀媒體實現。其中，非暫時性電腦可讀媒體儲存有複數程式碼指令，當複數程式碼指令被處理器執行時，可執行音訊處理方法500中步驟S510至步驟S550或此等步驟的整合方法。非暫時性電腦可讀媒體可為電腦、手機或獨立之音訊編碼器，而處理器可為處理器或系統晶片等。

在本案之一些實施例中，處理器130可以是具有儲存、運算、資料讀取、接收信號或訊息、傳送信號或訊息等功能的伺服器、電路、中央處理器(central processor unit,CPU)、微處理器(MCU)或其他具有同等功能的裝置。

在本案之一些實施例中，記憶體110可以是具有資料儲存功能的電路或其他具有同等功能的裝置或電路。在本案之一些實施例中，裝置100可為電腦等較高運算處理能力的裝置，而音訊播放裝置900可為藍牙裝置等較低運算處理能力的裝置。上述運算處理能力是指處理器之時脈速率、處理器之效能、浮點計算能力、位元頻寬、記憶體之容量等運算參數，例如較高運算處理能力的裝置可以包含音響系統、智慧型手機、平板電腦、隨身音樂撥放器等，較低運算處理能力的裝置可以包含藍牙耳機、藍牙喇叭等。

由上述本案之實施方式可知，本案之實施例藉由提供一種音訊處理方法、音訊處理裝置及用於音訊處理之非暫時性電腦可讀媒體，且特別是有關於用以壓縮音訊檔案的音訊處理方法、音訊處理裝置及用於音訊處理之非暫時性電腦可讀媒體，透過動態的降取樣以及升取樣，藉以於頻寬變動時更有效的壓縮音訊資料流，並防止音訊不連續而產生爆音。此外，本案之實施例於壓縮音訊區段時可同時執行二或多個不同的壓縮演算法，以達到更佳的壓縮效率。再者，本案之實施例於壓縮時，將一個音訊區段分為多個音訊區塊，於解壓縮時，接收端(例如音訊播放裝置)僅需較小的空間以及較低的運算處理能力即可對音訊資料進行解壓縮。

另外，上述例示包含依序的示範步驟，但該些步驟不必依所顯示的順序被執行。以不同順序執行該些步驟皆在本揭示內容的考量範圍內。在本揭示內容之實施例的精神與範圍內，可視情況增加、取代、變更順序及/或省略該些步驟。

雖然本案已以實施方式揭示如上，然其並非用以限定本案，任何熟習此技藝者，在不脫離本案之精神和範圍內，當可作各種之更動與潤飾，因此本案之保護範圍當視後附之申請專利範圍所界定者為準。

500:音訊處理方法

S510、S530、S550：步驟

Claims

一種音訊處理方法，包含：由一處理器分割一音訊檔案為複數個音訊區段；以及由該處理器壓縮該些音訊區段以產生複數個壓縮音訊區段，包含：降取樣該些音訊區段中的一第一音訊區段以產生該些壓縮音訊區段的一第一壓縮音訊區段，其中該第一音訊區段的一第一目標頻寬小於一頻寬閾值；以及取樣該些音訊區段中的一第二音訊區段以產生該些壓縮音訊區段的一第二壓縮音訊區段，並於該第二壓縮音訊區段加入一延遲時間，其中該第二音訊區段的一第二目標頻寬不小於該頻寬閾值。
如請求項第1項所述之音訊處理方法，其中由該處理器壓縮該些音訊區段以產生該些壓縮音訊區段更包含：分別計算以一第一演算法壓縮該些音訊區段中之一者的一第一壓縮率以及以一第二演算法壓縮該些音訊區段中之該者的一第二壓縮率；以及響應於高於該第二壓縮率的該第一壓縮率，以該第一演算法壓縮該些音訊區段中之該者。
如請求項第2項所述之音訊處理方法，其中該些音訊區段中之該者包含一標頭，且該標頭包含用於指示該第一演算法的一標籤。
如請求項第1項所述之音訊處理方法，其中由該處理器壓縮該些音訊區段以產生該些壓縮音訊區段更包含：分割該些壓縮音訊區段中每一者為複數個音訊區塊。
如請求項第4項所述之音訊處理方法，更包含：將該些壓縮音訊區段傳送至一音訊播放裝置，以藉由該音訊播放裝置根據該些壓縮音訊區塊解壓縮該些壓縮音訊區段。
如請求項第1項所述之音訊處理方法，其中該延遲時間相等於該處理器的一低通濾波器的延遲時間。
如請求項第1項所述之音訊處理方法，更包含：根據一第一指令，設定該第一目標頻寬；以及根據一第二指令，設定該第二目標頻寬。
一種音訊處理裝置，包含：一記憶體，用以儲存一音訊檔案；以及一處理器，用以分割該音訊檔案為複數個音訊區段，並降取樣該些音訊區段中的一第一音訊區段以產生一第一壓縮音訊區段，其中該處理器取樣該些音訊區段中的一第二音訊區段以產生一第二壓縮音訊區段，並於該第二壓縮音訊區段加入一延遲時間，其中該第一音訊區段的一第一目標頻寬小於一頻寬閾值，其中該第二音訊區段的一第二目標頻寬不小於該頻寬閾值。
如請求項第8項所述之音訊處理裝置，其中該處理器更用以分割該些壓縮音訊區段中每一者為複數個音訊區塊。
一種用於音訊處理之非暫時性電腦可讀媒體，儲存有複數指令，當該複數指令被一處理器執行時，執行：分割一音訊檔案為複數個音訊區段；降取樣該些音訊區段中的一第一音訊區段以產生一第一壓縮音訊區段，其中該第一音訊區段的一第一目標頻寬小於一頻寬閾值；以及取樣該些音訊區段中的一第二音訊區段以產生一第二壓縮音訊區段，並於該第二壓縮音訊區段加入一延遲時間，其中該第二音訊區段的一第二目標頻寬不小於該頻寬閾值。