TW201329748A

TW201329748A - 遞迴式第四型離散餘弦之系統

Info

Publication number: TW201329748A
Application number: TW101100102A
Authority: TW
Inventors: Sheau-Fang Lei; Shin-Chi Lai; Wen-Chieh Tseng
Original assignee: Univ Nat Cheng Kung
Priority date: 2012-01-02
Filing date: 2012-01-02
Publication date: 2013-07-16
Also published as: US9026573B2; TWI443527B; US20130173679A1

Abstract

本發明提供一種遞迴式第四型離散餘弦之系統。一第一排列裝置接收N個輸入數位訊號並執行二維排序運算，以產生二維型式的N個第一暫時訊號。一m點遞迴式第三型離散餘弦/正弦裝置對該第一暫時訊號執行c次第三型離散餘弦/正弦運算，俾依序產生c次具有m點的第二暫時訊號，當中，N=m×c。一餘弦/正弦因子產生裝置依序對c次具有m點的第二暫時訊號執行餘弦/正弦因子乘法及相關後續加法運算，俾依序產生c次具有m點的第三暫時訊號。一c點遞迴式第二型離散餘弦/正弦裝置對該第三暫時訊號執行m次第二型離散餘弦/正弦運算，俾依序產生m次具有c點的第四暫時訊號。一第二排列裝置對該第四暫時訊號執行一維排序運算，而產生N個輸出訊號；其中，該N個輸出訊號係該N個輸入數位訊號的第四型離散餘弦轉換。

Description

遞迴式第四型離散餘弦之系統

本發明係關於數位訊號處理之技術領域，尤指一種遞迴式第四型離散餘弦之系統。

由於數位訊號處理的技術日趨發達，在日常生活中可以很方便地獲取信息和享受各種多媒體資訊。改良型離散餘弦轉換(modified discrete cosine transform,MDCT)和逆改良型離散餘弦轉換(inverse modified discrete cosine transform,IMDCT)已廣泛應用在各種音頻編解碼標準上。

各種音訊編解碼規格，如MP3、AAC、AC-3、TwinVQ、Ogg，其編解碼器中MDCT與IMDCT的運算佔了整體運算複雜度很高的一部分。若能將MDCT/IMDCT以相同的方法實現，除了在硬體的架構設計上能以共用的方式節省硬體，同時也能降低MDCT/IMDCT的運算複雜度。

在HE-AAC的音訊編解碼器使用到的HQ-SBR或LP-SBR技術中，複數型AQMF與SQMF可以推導成以DCT-IV為核心的方法，而實數型AQMF與SQMF可以推導成以DCT-III與DCT-II為核心的方法。所以基於實現分析及合成濾波器組共架構設計的概念，除了MDCT與IMDCT等計算外，支援DCT-IV/DCT-III/DCT-II的運算也列入硬體設計的重點之一。

然而傳統遞迴架構IMDCT方法，有著運算週期多，導致計算時間過長的缺點，而且不易實現不同運算間共架構設計，像是解碼端的MDCT、AQMF與編碼端的SQMF運算。傳統遞迴架構若要提升運算速度，只能增加硬體或著是提高時脈，但硬體增加則成本會因此提高；若提高時脈則意味著高功率消耗。此外，要同時具有MDCT、AQMF、SQMF的運算能力，必須針對這些運算設計不同的硬體架構，付出額外的硬體設計成本。

儘管多年來遞迴式離散傅立葉轉換(RDFT)已經發展許多，然而為能進一步降低運算複雜度，減少硬體成本、及提高資料計算之效能，前述具遞迴式離散傅立葉轉換(RDFT)之系統仍有予以改善之需要。

本發明之主要目的係在提供一種遞迴式第四型離散餘弦之系統，其具有低運算複雜度，且使用少量的乘法係數使用量，並具有高效能的資料計算。

依據本發明之一特色，本發明提出一種遞迴式第四型離散餘弦之系統，其包括一第一排列裝置、一遞迴式第三型離散餘弦/正弦裝置、一餘弦/正弦因子產生裝置、一遞迴式第二型離散餘弦/正弦裝置、及一第二排列裝置。該第一排列裝置接收N個輸入數位訊號，對該N個數位訊號執行二維排序運算，以產生二維型式的N個第一暫時訊號，當中N為正整數。該遞迴式第三型離散餘弦/正弦裝置，連接至該第一排列裝置，其係為m點遞迴式第三型離散餘弦/正弦裝置，以對該二維型式的N個第一暫時訊號執行c次第三型離散餘弦/正弦運算，俾依序產生c次具有m點的第二暫時訊號，當中，N=m×c，m及c皆為正整數。該餘弦/正弦因子產生裝置，連接至該遞迴式第三型離散餘弦/正弦裝置，依序對c次具有m點的第二暫時訊號執行餘弦/正弦因子乘法及相關後續加法運算，俾依序產生c次具有m點的第三暫時訊號。該遞迴式第二型離散餘弦/正弦裝置，連接至該餘弦/正弦因子產生裝置，其係為c點遞迴式第二型離散餘弦/正弦裝置，以對該第三暫時訊號執行m次第二型離散餘弦/正弦運算，俾依序產生m次具有c點的第四暫時訊號。該第二排列裝置，接收該第四暫時訊號，以對該第四暫時訊號執行一維排序運算，而產生一維型式的N個輸出訊號；其中，該N個輸出訊號係該N個輸入數位訊號的第四型離散餘弦轉換。

依據本發明之另一特色，本發明提出一種遞迴式第四型離散餘弦之系統，其包括一第一排列裝置、一修正型遞迴式第三型離散餘弦/正弦裝置、一遞迴式第二型離散餘弦/正弦裝置、及一第二排列裝置。該一第一排列裝置接收N個輸入數位訊號，對該N個數位訊號執行二維排序運算，以產生二維型式的N個第一暫時訊號，當中N為正整數。該修正型遞迴式第三型離散餘弦/正弦裝置連接至該第一排列裝置，其具有一第一運算模式及一第二運算模式，當該修正型遞迴式第三型離散餘弦/正弦裝置為第一運算模式時，其對該二維型式的N個第一暫時訊號執行c次第三型離散餘弦/正弦運算，俾依序產生c次具有m點的第二暫時訊號，當中，N=m×c，m及c皆為正整數。該遞迴式第二型離散餘弦/正弦裝置連接至該修正型遞迴式第三型離散餘弦/正弦裝置，其具有一第一運算模式及一第二運算模式，當該修正型遞迴式第二型離散餘弦/正弦裝置為第一運算模式時，接收一第三暫時訊號，並對該第三暫時訊號執行m次第二型離散餘弦/正弦運算，俾依序產生m次具有c點的第四暫時訊號。該第二排列裝置，其接收該第四暫時訊號，對該第四暫時訊號執行一維排序運算，以產生一維型式的N個輸出訊號。其中，該N個輸出訊號係該N個輸入數位訊號的第四型離散餘弦轉換。

圖1係本發明之遞迴式第四型離散餘弦之系統100之一實施例的示意圖。該系統100包括一第一排列裝置110、一遞迴式第三型離散餘弦/正弦裝置120、一餘弦/正弦因子產生裝置130、一遞迴式第二型離散餘弦/正弦裝置140、及一第二排列裝置150。

該第一排列裝置110接收N個輸入數位訊號，對該N個數位訊號執行二維排序運算，以產生二維型式的N個第一暫時訊號，當中N為正整數。

該遞迴式第三型離散餘弦/正弦裝置120連接至該第一排列裝置110，其係為m點遞迴式第三型離散餘弦/正弦裝置，以對該二維型式的N個第一暫時訊號執行c次第三型離散餘弦/正弦運算，俾依序產生c次具有m點的第二暫時訊號，當中，N=m×c，m及c皆為正整數。

該餘弦/正弦因子產生裝置130連接至該遞迴式第三型離散餘弦/正弦裝置120，依序對c次具有m點的第二暫時訊號執行餘弦/正弦因子乘法及相關後續加法運算，俾依序產生c次具有m點的第三暫時訊號。

該遞迴式第二型離散餘弦/正弦裝置140連接至該餘弦/正弦因子產生裝置130，其係為c點遞迴式第二型離散餘弦/正弦裝置，以對該第三暫時訊號執行m次第二型離散餘弦/正弦運算，俾依序產生m次具有c點的第四暫時訊號。

該第二排列裝置150連接至該遞迴式第二型離散餘弦/正弦裝置140，接收該第四暫時訊號，以對該第四暫時訊號執行一維排序運算，而產生一維型式的N個輸出訊號；其中，該N個輸出訊號係該N個輸入數位訊號的第四型離散餘弦轉換。

為了實現共架構的分析與合成之濾波器組，本發明以第四型離散餘弦(DCT-IV)為核心的方法去實現MDCT與IMDCT的運算。

MDCT與IMDCT的數學模型分別定義如公式(1)與公式(2)，其中k的範圍為0至N/2-1，n的範圍為0至N-1，M=N/2。

藉由重新排序後，本發明可分別獲得：

其中，

由公式(3)與公式(4)可清楚地發現MDCT、IMDCT可以轉換成DCT-IV運算。若能有效的共用與縮減DCT-IV的運算，將可大幅減少這些方法的計算複雜度。

相較於平行架構，遞迴架構電路雖然有著面積小、低功耗以及轉換點數較為彈性等優勢，但卻有運算週期多，計算時間過長的缺點。在音訊編解碼器的應用上，如AAC之長窗(2048點)、TwinVQ之長窗(4096點)以及Ogg(最高8192點)之高點數計算難以達到即時的運算需求。

為了提升遞迴架構的速度，本發明將原本DCT-IV的運算透過變數變換的方式，將原先的一維計算式拆解成二維的運算，降低了遞迴運算的週期。此外，再以管線化的概念，進一步的提升本架構的運算速度。

M點的DCT-IV之數學模型定義如公式(7)：

其中M=n×k，並假定n=n ₀+c×n ₁且k=m×k ₀+k ₁代入公式(7)，則

其中

且

根據三角函數的和角公式，公式(3)可被展開成：

其中

且

同理，根據三角函數的和角公式，公式(10)可被展開成：

其中

且

考量index k ₀的變化，首先定義公式(12)、公式(13)、公式(15)、公式(16)中的核心運算為：

若k ₀為奇數，本發明可得到：

若k ₀為偶數，本發明可得到：

由公式(19)與公式(21)可得知，對於A(n ₀ ,k ₁ ,k ₀)，k ₀的變化只會對應出兩種型式，分別為A(n ₀,k ₁,1)與A(n ₀,k ₁,0)。同理，由公式(20)與公式(22)可得知，對於B(n ₀ ,k ₁ ,k ₀)，k ₀的變化只會對應出兩種型式，分別為B(n ₀ ,k ₁ ,1)與B(n ₀ ,k ₁ ,0)。此特性可大幅降低公式(17)與公式(18)之運算量。

令k ₁=m-1-k ₁帶入公式(19)，以推導公式(19)與公式(21)之關係式，則

同理，可推導公式(20)與公式(22)之關係式，令k ₁=m-1-k ₁帶入公式(20)，則

由公式(23)與公式(24)可得

A(n ₀ ,k ₁ ,1)=A(n ₀,m-1-k ₁ ,0)，　(25)

B(n ₀ ,k ₁ ,1)=-B(n ₀ ,m-1-k ₁ ,0)。　(26)

藉由公式(25)與公式(26)可化簡公式(19)與公式(20)之運算。

將上述結果代回公式(12)、公式(13)、公式(15)、公式(16)，可得到：

由於

X[m×k ₀+k ₁]=X _c[m×k ₀+k ₁]-X _s[m×k ₀+k ₁]=(X _c ₀[m×k ₀+k ₁]-X _c ₁[m×k ₀+k ₁])-(X _s ₀[m×k ₀+k ₁]+X _s ₁[m×k ₀+k ₁])，

所以

且

而

且

綜合上述推導，可發現輸入訊號經過公式(21)的DCT-III與公式(22)的DST-III轉換後，再乘上各自的餘弦(cosine)與正弦(sine)因子，如公式(32)與公式(34)所示，最後再經由公式(31)的DCT-II與公式(33)的DST-II的處理，即可獲得一個更快速的DCT-IV運算。

令n=0~M-1，k=0~M-1，M=m×c，n ₀=0~c-1，k ₀=0~c-1，n ₁=0~m-1，k ₁=0~m-1，

則M點的DCT-IV整體方法流程可寫成下列步驟：

1.將輸入訊號依據n=n ₀+c×n ₁排序成二維的形式。

2.將排序完的資料輸入至m點DCT-III/DST-III硬體。

3.將DCT-III/DST-III的轉換結果與cosine與sine因子做運算。

4.接著，將資料輸入至c點DCT-III/DST-III硬體。

5.將DCT-III與DST-III的運算結果相減，並依據k=m×k ₀+k ₁的排序。

步驟(1)與步驟(5)主要是排序以及加減法的運算，這部分本發明是將它視為前處理與後處理，而步驟(2)至步驟(4)則是核心硬體架構的運算，上述步驟可參考圖2。圖2係本發明快速DCT-IV運算之示意圖。此外，由圖2，本發明不難發現，步驟(2)需要做c次的m點DCT-III/DST-III，若全用硬體實現需c個DCT-III/DST-III的電路，此實現方式不但需要的硬體資源多，不同點數所需硬體資源不同，調整困難，而為了能支援多種音訊格式，不同音訊格式對應不同點數，所以本發明採用以一套DCT-III/DST-III硬體方式執行c次的運算，不同點數只需調整執行次數即可。同理，步驟(4)需要做m次的c點DCT-II/DST-II，也是以一套DCT-II/DST-II硬體方式執行m次的運算。

由前述可知，本發明將M點DCT-IV運算，拆解成m點的DCT-III/DST-III與c點的DCT-II/DST-II運算，觀察圖2可發現m點的DCT-III/DST-III運算結果經過cosine與sine因子的運算後為c點的DCT-II/DST-II之輸入資料，所以整體架構大致上可分成三個部分，第一級為m點的DCT-III/DST-III，中間級部分為cosine與sine因子的運算，第二級為c點的DCT-II/DST-II。因此本發明能安排資料運算的順序，使各級能獨立運作，就能以管線化的方式增加效能。

首先，將序列輸入的資料藉由n=n ₀+c×n ₁重新編排成二維的形式，如圖3所示，圖3係本發明輸入資料對應方式之示意圖。接著，計算順序為先將k ₁‧n ₀固定，遞迴m次後n ₀值加一，重覆此步驟，直到執行完n ₀值為c-1，表示已完成c個m點DCT-III/DST-III轉換，此時可將c個結果給下一級執行c點DCT-II/DST-II轉換並將k ₁值加1、n ₀值設為0，如圖4所示，圖4係本發明索引值n0、k1之關係的示意圖。由上述的說明，得知在這樣的運算方式下能達到資料流無相依性，是故可完全以管線化來運作，彼此的對應關係如圖5所示，圖5係本發明m點DCT-III/DST-III與c點DCT-II/DST-II對應關係的示意圖。

管線化所需的週期長短，是由最耗時的那一級運算電路所決定。在實現上第一級的運算速度必須小於或等於第二級，也就是m c，此外，m=c時，管線化可達最佳的效率，圖6係本發明管線化DCT-IV之示意圖。

採取管線化的做法，改進的週期數約為傳統方法的c倍，不過相對的也增加了一些暫存器做為代價，因級與級間的資料轉移需藉由暫存器來保存，本架構所需的暫存器個數是由c來決定，也就是說當速度提升越多倍，所需的暫存器個數也就越多。

以下係依據圖2，以進行DCT-III/DST-III硬體架構設計。設計重點在於如何提供一低運算週期之遞迴架構DCT-III/DST-III硬體架構，改善傳統遞迴架構，速度慢的缺點，此外，在硬體設計上，希望能以共用的方式，讓硬體同時具有DCT-III與DST-III兩種運算能力，藉此降低硬體成本。

公式(35)與公式(36)為m點的DCT-III與DST-III之數學模型定義，y[n ₁]與z[n ₁]為輸入訊號而Y _DCT-m[k ₁]與z _DCT-m[k ₁]為輸出訊號，其中n ₁=0~m-1,k ₁=0~m-1，

因為m點根據不同的應用，可能為奇數或偶數，以下將兩種情形分開來討論

(A) m為奇數

若m為奇數，則公式(35)可以改寫為公式(37)、公式(38)與公式(39)：

Y _DCT-m[(m-1)/2]=y[0]-y[2]+y[4]-y[6]+,...,-y[m-1]。　(39)

由公式(37)、公式(38)與公式(39)可得知本發明將公式(35)的每一轉換之資料流量(Data Throughput per Transformation,DTPT)增加為2倍，所以算完m點的DCT-III只需m×(m-1)/2個週期，但公式(39)的運算必須使用額外加法器與暫存器，如圖7所示。圖7係本發明使用額外加法器與暫存器之示意圖。若將公式(39)的運算以共用硬體的方式實現，參照圖9，圖9係本發明DCT-III/DST-III硬體架構圖之示意圖，則DCT-III計算週期需m×(m+1)/2個週期。

同理，公式(36)可以改寫成公式(40)、公式(41)與公式(42)。

z _DST-III[(m-1)/2]=z[1]-y[3]+y[5]-y[7]+,...,+y[m-2]。　(42)

由公式(40)、公式(41)與公式(42)可得知本發明將公式(36)的DTPT增加為2倍，所以算完m點的DST-III只需m×(m-1)/2個週期，但公式(42)的運算必須使用額外加法器與暫存器，如圖8所示。圖8係本發明使用額外加法器與暫存器之示意圖。若將公式(42)的運算以共用硬體的方式實現，參照圖9，則DST-III計算週期需m×(m+1)/2個週期。

接著，為了使DST-III與DCT-III能共用Cosine係數，所以將公式(40)推導成公式(43)，而公式(41)推導成公式(44)。

由公式(43)、公式(44)可得知本發明將DST-III的輸入訊號，經過簡單的排序，與正負號調整，即可共用DCT-III的cosine係數，產生DST-III之運算結果，節省硬體成本。

若m為偶數，則公式(35)可以改寫成公式(45)與公式(46)：

由公式(45)、公式(46)可得知本發明將公式(35)的DTPT增加為2倍，所以算完m點的DST-III只需m ²/2個週期。

同理，公式(36)可以改寫成公式(47)、公式(48)：

接著，為了使DST-III與DCT-III能共用cosine係數，所以將公式(47)推導成公式(49)，而公式(48)推導成公式(50)：

由公式(49)、公式(50)可得知本發明將DST-III的輸入訊號，經過簡單的排序，與正負號調整，即可共用DCT-III的cosine係數，產生DST-III之運算結果，節省硬體成本。

最後，根據公式(51)、公式(52)的柴比雪夫方法(Chebyshev polynomials)：

其中

再將柴比雪夫方法展開後得：

本發明可以藉由代入n ₁=1得到公式(53)等式右邊三個cos函數的初值，分別為cos((2k ₁+1)π/2m)、1、cos((2k ₁+1)(-1)π/2m)。

由於cos((2k ₁+1)(-1)π/2m)=cos((2k ₁+1)π/2m)，也就是本發明只須存取cos((2k ₁+1)π/2m)即可透過公式(53)的遞迴運算去產生相同k1值但不同n1所對應的cosine係數，而在記憶體需求上，僅須存取m個word。

接著將公式(53)代回公式(37)、公式(38)、公式(43)、公式(44)、公式(45)、公式(46)，即可得到低運算週期，且具有DCT-III/DST-III運算能力之方法。此外，公式(39)與(50)的運算只需加法，這部分以共用其他運算所需之加法器的方式實現，因此其硬體架構設計如圖9所示。

對應圖9，其輸入1(Input1)輸入訊號為y[n ₁]，而輸入2(Input2)輸入訊號為z[n ₁]。

當m為奇數時，輸出1(Output1)輸出訊號對應的運算結果為公式(37)或公式(39)，輸出2(Output2)輸出訊號對應的運算結果為公式(38)，輸出3(Output3)輸出訊號對應的運算結果為公式(44)，輸出4(Output4)輸出訊號對應的運算結果為公式(43)或公式(42)。

當m為偶數時，Output1輸出訊號對應的運算結果為公式(45)，Output2輸出訊號對應的運算結果為公式(46)，Output3輸出訊號對應的運算結果為公式(48)，Output4輸出訊號對應的運算結果為公式(47)。圖9各個Output對應相關公式參數如表5.3.1所示。

表5.3.1　DCT-III/DST-III硬體與方法對應表

由前述說明可知，該遞迴式第三型離散餘弦/正弦裝置120係以共用硬體的方式實現且其計算週期為m×(m+1)/2個週期。

如圖9所示，該遞迴式第三型離散餘弦/正弦裝置120包含第一至第六暫存單元901,902,903,904,905,906、第一至第五加法單元931,932,933,934,935、一第一3至1多工單元951、一第二3至1多工單元952、一第一乘法單元971、一第二乘法單元972、及一第四乘法單元974。

以下是DCT-II/DST-II硬體架構的設計，可參考圖2。設計之重點在於如何提供一低運算週期之遞迴架構DCT-II/DST-II架構，改善傳統遞迴架構所遭遇速度慢的缺點，此外，在硬體設計上，希望能以共用的方式，讓硬體同時具有DCT-II與DST-II兩種運算能力，藉此降低硬體成本。

公式(54)與、公式(55)為m點的DCT-II與DST-II之數學模型定義，p[n ₀]與q[n ₀]為輸入訊號而P _DCT _- _II[k ₀]與Q _DST _- _II[k ₀]為輸出訊號，其中n ₀=0~c-1,k ₀=0~c-1：

因為c點根據不同的應用，可能為奇數或偶數，以下將兩種情形分開來討論。

(A)c為奇數

若c為奇數，則公式(54)可以改寫為公式(56)、公式(57)：

其中，

由公式(56)、公式(57)可得知本發明將公式(54)的輸入資料p[n ₀]透過公式(58)運算後，產生p ⁽¹⁾[n ₀]，其資料量減為原本的一半，因此，DCT-II計算週期只需(c-1)/2×c個週期，但公式(56)的運算必須額外使用加法器與暫存器，如圖10所示。圖10係本發明公式(56)對應之硬體架構圖的示意圖。若將公式(56)的運算以共用硬體的方式實現，參照圖12，圖12係本發明DCT-II/DST-II硬體架構圖之示意圖，則DCT-II計算週期需(c+1)/2×c個週期。

同理，公式(55)可以改寫成公式(59)、公式(60)與公式(61)。

Q _DST _- _II[0]=0，　(59)

其中，

由公式(59)、公式(60)可得知本發明將公式(55)的輸入資料q[n ₀]透過公式(61)的運算後，產生q ⁽¹⁾[n ₀]，其資料量減為原本的一半，因此，DST-II計算週期只需(c-1)/2×c個週期。

接著，將DST-II方法中的sine函數推導成cosine函數，如此硬體實現即可以與DCT-II方法中的cosine係數共用。

其中，

由公式(62)、公式(53)可得知本發明將DST-II的輸出訊號，經過簡單的排序，而輸入訊號正負號調整，即可共用DCT-II的cosine係數，產生DST-II之運算結果，節省硬體成本。

(B)c為偶數

若c為偶數，則公式(54)可以改寫成公式(64)、公式(65)

P _DCT-II[0]=p ⁽¹⁾[0]+p ⁽¹⁾[1]+,...,+p ⁽¹⁾[c/2-1]，　(64)

由公式(64)、公式(65)可得知本發明將公式(54)的輸入資料p[n ₀]透過公式(58)的運算後，產生p ⁽¹⁾[n]，其資料量減為原本的一半，因此，DCT-II計算週期只需c/2×(c-1)個週期，但公式(56)的運算必須使用額外加法器與暫存器，如圖11所示。圖11係本發明使用額外加法器與暫存器之示意圖。若將公式(56)的運算以共用硬體的方式實現，參照圖12，則DCT-II計算週期需c ²/2個週期。

同理，則公式(55)可以改寫成公式(66)、公式(67)：

Q _DST _- _II[0]=0。　(66)

接著，將DST-II方法中的sine函數推導成cosine函數，如此硬體實現實可以與DCT-II方法中的cosine係數共用。

由公式(66)可得知本發明將DST-II的輸出訊號，經過簡單的排序，而輸入訊號正負號調整，即可共用DCT-II的cosine係數，產生DST-II之運算結果，節省硬體成本。

最後，根據柴比雪夫方法(Chebyshev polynomials)可得：

本發明可以藉由代入n ₀=1得到公式(69)等式右邊三個cos函數的初值，分別為cos(k ₀π/c)、cos(k ₀π/2c)、cos(k ₀(-1)π/2c)，由於cos(k ₀(-1)π/2c)=cos(k ₀π/2c)，也就是本發明只須存取cos(k ₀π/c)與cos(k ₀π/2c)即可透過公式(69)的遞迴運算去產生相同k1值但不同n1所對應的cosine係數，而在記憶體需求上，僅須存取2c個word。

將公式(69)代入公式(57)、公式(62)、公式(65)、公式(68)，即可得到低運算週期，且具有DCT-III/DST-III運算能力之方法。本節所推導出之方法，其硬體架構設計如圖12所示。

對應圖12，其Input1與Input2輸入訊號為p ⁽¹⁾[n ₀]，輸入3(Input3)與輸入4(Input4)輸入訊號為q⁽¹⁾[n₀]。當c為奇數時，Output1與Output2輸出訊號對應的運算結果為公式(57)或公式(56)，Output3與Output4輸出訊號對應的運算結果為公式(62)。

當c為偶數時，Output1與Output2輸出訊號對應的運算結果為公式(64)或公式(65)，Output3與Output4輸出訊號對應的運算結果為公式(68)。圖12各個Output對應對應相關公式參數如表5.4.1所示。

表5.4.1　DCT-II/DST-II硬體與方法對應表

由前述說明及圖12可知，該遞迴式第二型離散餘弦/正弦裝置140係以共用硬體的方式實現，且其計算週期為c×(c+1)/2個週期。該遞迴式第二型離散餘弦/正弦裝置140包含第七至第十二暫存單元1217,1218,1219,1220,1221,1222、第六至第十加法單元1236,1237,1238,1239,1240、一第三3至1多工單元1253、一第四3至1多工單元1254、一第三乘法單元1273、一第五乘法單元1275、一第六乘法單元1276、一第七乘法單元1277、及一第八乘法單元1278。

於前述說明中，本發明將M點DCT-IV運算，拆解成m點DCT-III/DST-III與c點DCT-II/DST-II，也就是輸入訊號先經過第一級DCT-III/DST-III後，再導入第二級DCT-II/DST-II，不過在訊號輸入到第二級之前，必須先經過中間級cosine與sine因子的運算。第一級與第二級的硬體架構說明，已分別在前面介紹，而中間級cosine與sine因子的運算以及相關的硬體設計會在以下做詳細的介紹。

圖13係本發明之遞迴式第四型離散餘弦之系統1300之另一實施例的示意圖。該系統1300包括一第一排列裝置1310、一修正型遞迴式第三型離散餘弦/正弦裝置1320、一遞迴式第二型離散餘弦/正弦裝置1330、及一第二排列裝置1340。該系統1300係將中間級cosine與sine因子的運算整合至該修正型遞迴式第三型離散餘弦/正弦裝置1320中。

該第一排列裝置1310接收N個輸入數位訊號，對該N個數位訊號執行二維排序運算，以產生二維型式的N個第一暫時訊號，當中N為正整數。

該修正型遞迴式第三型離散餘弦/正弦裝置1320連接至該第一排列裝置1310，其具有一第一運算模式及一第二運算模式，當該修正型遞迴式第三型離散餘弦/正弦裝置為第一運算模式時，其對該二維型式的N個第一暫時訊號執行c次第三型離散餘弦/正弦運算，俾依序產生c次具有m點的第二暫時訊號，當中，N=m×c，m及c皆為正整數。

該遞迴式第二型離散餘弦/正弦裝置1330連接至該修正型遞迴式第三型離散餘弦/正弦裝置1320，其具有一第一運算模式及一第二運算模式，當該修正型遞迴式第二型離散餘弦/正弦裝置為第一運算模式時，接收一第三暫時訊號，並對該第三暫時訊號執行m次第二型離散餘弦/正弦運算，俾依序產生m次具有c點的第四暫時訊號。

該第二排列裝置1340連接至該遞迴式第二型離散餘弦/正弦裝置1330，接收該第四暫時訊號，對該第四暫時訊號執行一維排序運算，以產生一維型式的N個輸出訊號；其中，該N個輸出訊號係該N個輸入數位訊號的第四型離散餘弦轉換。

由公式(32)與公式(34)得知，第一級DCT-III與DST-III的運算結果必須乘上之cosine與sine因子可定義如下：

sosine因子：

sine因子：

觀察公式(70)與公式(71)，可發現，因為n ₀=0~c-1，k ₁=0~m-1，且M=m×c，所以M點DCT-IV需要M個cosine因子與M個sine因子，也就是需要2M個word記憶體來存取cosine因子與sine因子。為了減少記憶體的大小，本發明設計了cosine與sine因子係數產生器。

首先，由於第一級硬體架構每m個週期會產生2筆DCT-III運算結果與2筆DST-III運算結果，可參考表5.3.1，所以必須將這些資料乘上對應的cosine因子與sine因子，所對應的cosine因子與sine因子如公式(72)所示，必須同時產生這四種因子，才能完成中間級的運算。

藉由圖2可得知，第一級輸出資料的順序其index變化為先固定k₁=0，接著變動n₀，n₀從0變化至c-1；接著k₁=1，n₀從0變化至c-1；直到k₁=m-1，n₀=0~c-1，則第一級輸出全部資料。因為前述所導出的架構，DTPT為2，可同時產生index為k₁與m-1-k₁對應的資料，所以本發明的cosine與sine因子係數產生器必須配合第一級資料輸出順序產生係數。

為了方法推導更簡潔，本發明定義了一些參數：

根據三角函數和角公式：

本發明可以將公式(72)推導成下列遞迴式

(73)

由上述遞迴式，本發明不難發現，要完成運算必須要提供的初值為cos(θ_f)、sin(θ_f)、cos(θ_b)、sin(θ_b)、與cos(2θ_f)、sin(2θ_f)、cos(2θ_b)、sin(2θ_b)。但初值數量會影響ROM的大小，初值越多，ROM所需的word數越多。為了減少初值，本發明推導出下列遞迴式：

其中，cos(2θ_f)、sin(2θ_f)、cos(2θ_b)、sin(2θ_b)皆可由公式(74)計算得知，所以初值只需cos(θ_f)、sin(θ_f)、cos(θ_b)、sin(θ_b)即可產生相同k ₁而不同n ₀的cosine與sine因子，遞迴關係如下：

將上述方法實現成硬體架構可參考圖14。圖14係本發明cosine與sine因子係數產生器之示意圖。

表5.5.1　Cosine與sine因子係數產生器之硬體評估

表5.5.1本發明cosine與sine因子係數產生器之硬體評估。由表5.5.1得知，藉由cosine與sine因子係數產生器可將原本需要2M個word的ROM size降為2m，記憶體降為原本的1/c，改善幅度甚大，但所付出的代價為8個乘法器與4個加法器，為了避免增加額外的硬體成本，本發明會針對此缺點進行架構上的改良。

Cosine與sine因子之乘加運算與資料摺疊處理：依據公式(32)與公式(34)，本發明中的第一級DCT-III與DST-III運算結果必須先乘上Cosine與Sine因子，然後彼此做相加或相減的運算；接著由公式(58)與公式(63)得知，將資料先做摺疊運算，使資料量減半，然後輸入至第二級DST-II/DST-II運算。以上為中間級的運算過程，可大略分為三個步驟：

1.將輸入訊號乘上cosine與sine因子。

2.將乘上cosine因子的訊號與乘上sine因子的訊號彼此相加或相減。

3.將步驟(2)運算完的結果做摺疊運算。

中間級運算完的資料必須儲存至暫存器中，由於摺疊運算使資料量減半，所以只需存取 c/2筆資料。此外，因為中間級的運算會更新暫存器中的資料，但第二級的運算需要重複給c次暫存器中值，不能持續被更新，所以本發明必須額外增加一倍的暫存器，所以一組摺疊運算的結果需要c個暫存器。另外，關於摺疊運算的硬體動作，以c是偶數為例說明如下：步驟2會產生c-1筆資料，0~c/2-1資料直接依序存入暫存器，請參照圖15，圖15係本發明摺疊運算的硬體動作(輸入前半資料)之示意圖。c/2~c-1筆資料將和暫存器中的資料做運算，再將結果回存至暫存器中，請參照圖16。圖16係本發明摺疊運算的硬體動作(輸入後半資料)之示意圖。

此外，本發明將公式(12)與公式(14)代入公式(58)與公式(63)中，可得下列關係式

當中if c is even,for n ₀=0~c/2-1

if c is odd,for n ₀=0~(c-1)/2-1

if m is even,for k ₁=0~m/2-1

if m is odd,for k ₁=0~(m-1)/2-1。　(75)

由上述關係可知，本發明總共需要8c個暫存器，對應之硬體架構圖如圖17(A)及圖17(B)及所示。圖17(A)及圖17(B)係本發明中間級運算整體架構圖之示意圖。其中，

表5.5.2　Cosine與sine因子之乘加運算與資料摺疊處理

表5.5.2係本發明cosine與sine因子之乘加運算與資料摺疊處理，由表5.5.3得知，中間級運算所要付出的硬體成本相當高，為了減少硬體成本，本發明將會針對此缺點進行架構上的改良。

綜合前述，可以發現中間級運算所需的硬體成本相當高，總共需要24個乘法器與20個加法器，藉由表5.5.3，本發明亦不難發現，中間級的乘法器占了整體的75%而加法器占了整體約67%，使得整體架構總共需要32個乘法器與30個加法器，這結果是本發明不樂見的，原因在於此方法雖然大幅提升了遞迴架構的運算速度，但也付出了龐大的硬體資源做為代價。因此，仍須進一步來減少硬體，以降低此方法的負面效應。

表5.5.3　硬體資源分析

首先，本發明先觀察中間級運算的特性，其輸入資料來自於第一級的運算結果，也就是第一級有輸出資料時，中間級才需運算，由前述得知，第一級每m個週期會產生輸出資料，所以中間級每m個週期才需進行運算。由此特性，本發明提出的解決方案為利用第一級與第二級的硬體支援中間級的運算，但必須暫停第一級與第二級的電路，增加額外的運算時間，也就是第一級每m個週期產生輸出資料後，接著暫停第一級與第二級的電路。暫停時硬體的動作如下：

1.　第一個暫停週期，利用第一級3個乘法器、1個加法器與第二級5個乘法器、3個加法器，可完成前述cosine與sine因子係數產生器之運算。

2.　第二個暫停週期，利用第一級4個乘法器、5個加法器與第二級4個乘法器、3個加法器，可完成圖17(A)及圖17(B)中(n ₀ ,k ₁ ,0)、(n ₀ ,k ₁ ,1)、(n ₀ ,k ₁ ,0)、(n ₀ ,k ₁ ,1)的運算。

3.　第三個暫停週期，利用第一級4個乘法器5個加法器與第二級4個乘法器3個加法器，可完成圖17(A)及圖17(B)中(n ₀ ,m-k ₁-1,0)、(n ₀ ,m-k ₁-1,1)、(n ₀ ,m-k ₁-1,0)、(n ₀ ,m-k ₁-1,1)的運算。

圖18係本發明暫停週期對應之運算之示意圖。藉由上述暫停的三個週期，本發明可共用第一級與第二級的硬體架構，而取代原來中間級所需的24個乘法器與20個加法器。

圖19係本發明修正型遞迴式第三型離散餘弦/正弦裝置之示意圖。圖20係本發明遞迴式第二型離散餘弦/正弦裝置之示意圖。各暫停週期使用的第一級與第二級乘法器與加法器可參考圖19與圖20，其對應之硬體可參照表5.5.4。

表5.5.4　各暫停週期所對應之硬體

共用硬體的概念就是在不同時間點給硬體不同的輸入訊號，所以硬體前必須增加多工器，藉此選擇不同的輸入資料，本發明只要控制多工器的選擇線，就能達到硬體共用的目的。由表5.5.5得知，多工器的電晶體數比加法器、乘法器少了很多，所以藉由多工器來減少乘法器與加法器的數量，其效益相當高。

表5.5.5　24-Bits元件之電晶體數

此外，共用的硬體越多，相對應的多工器也會增加，但不同的硬體可能會有相同的輸入訊號，相同的輸入訊號表示其對應的多工器相同，所以不同硬體的輸入訊號可來自相同的多工器，在本發明中具有此特性之多工器如圖20所示。舉例來說，編號1與編號5的乘法器在第一個暫停週期做cosine因子與sine因子的係數產生時，皆會使用到選擇為輸出的多工器，所以編號1與編號5的乘法器之輸入訊號只需共用圖20中com_mux1的多工器即可。

如圖19所示，該遞迴式第三型離散餘弦/正弦裝置1320及該遞迴式第二型離散餘弦/正弦裝置1330為第二運算模式時，該遞迴式第三型離散餘弦/正弦裝置1320及該遞迴式第二型離散餘弦/正弦裝置1330，依序對c次具有m點的第二暫時訊號執行餘弦/正弦因子乘法及後續加法運算，俾依序產生c次具有m點的該第三暫時訊號。

如圖19所示，該遞迴式第三型離散餘弦/正弦裝置1320包含第一至第六暫存單元1911,1912,1913,1914,1915,1916、第一至第五加法單元1931,1932,1933,1934,1935、一第一3至1多工單元1951、一第二3至1多工單元1952、一第一乘法單元1971、一第二乘法單元1972、及一第四乘法單元1974。

如圖20所示，該遞迴式第二型離散餘弦/正弦裝置1330包含第七至第十二暫存單元2017,2018,2019,2020,1021,2022、第六至第十加法單元2036,2037,2038,2039,2040、一第三3至1多工單元2051、一第四3至1多工單元2052、一第三乘法單元2073、一第五乘法單元2075、一第六乘法單元2076、一第七乘法單元2077、及一第八乘法單元2078。

圖21係本發明使用共用多工器之示意圖。圖21中共用多工器的輸出訊號會傳給各乘法器前的多工器，參考圖22(A)及圖22(B)，圖22(A)及圖22(B)係本發明使用共用的乘法器與加法器之示意圖。圖中乘法器編號與加法器編號可對應圖19與圖20，相同編號表示相同的乘法器或加法器，此外，圖中FirstStage_node表示第一級電路在運算DCT-III/DST-III時，乘法器或加法器原本的輸入訊號，SecondStage_node表示第二級電路在運算DCT-II/DST-II時，乘法器或加法器原本的輸入訊號，FirstStage_out1、FirstStage_out2、FirstStage_out3、FirstStage_out4為第一級運算完DCT-III/DST-III的輸出訊號，可對應表5.3.1。

圖22(A)及圖22(B)中，在非暫停週期時，各電路的輸出為第一級DCT-III/DST-III或第二級DCT-II/DST-II原本的訊號，而當暫停時，所有硬體支援中間級的運算。在各個暫停週期，圖22(A)及圖22(B)中各電路的輸出訊號請參考表5.5.6，藉由本節提出之共用硬體的方法，有效的降低本論文所提出之方法的硬體需求，非共用硬體設計與共用硬體設計所需的乘法器與加法器個數如表5.5.7。

表5.5.6　不同暫停週期，共用硬體的輸出結果

表5.5.7　乘法器與加法器個數

硬體動作方式與週期數評估：若要實現本發明所提出之新方法，前述得知，首先必須要先將輸入資料做前處理，然後將前處理過後的資料輸入至第一級的硬體架構運算。第一級硬體是做m點的DCT-III與DST-III運算，因為方法與架構上的改良，每m個週期可轉出兩筆資料，經過c個週期第一級可產生2組c點的資料，第一級架構要完成所有資料的運算，必須產生M點輸出，可參考圖2，所以所需週期數如下：

由前述得知，第二級硬體是做c點的DCT-II與DST-II運算，因為方法與架構上的改良，則每 c/2個週期可轉換出兩筆資料，第二級架構要完成所有資料的運算，必須產生M點輸出，可參考圖2，所以所需週期數如下：

本發明可使用管線方式實現本架構，第一級產生c點的資料後，經過中間級cosine與sine因子的運算，就能將資料導入第二級，因為管線化的方式，使得第一級與第二級電路可同時運作，可參照圖6，所以整體架構的運算週期如表5.6.1。

表5.6.1　M點DCT-IV運算週期(無共用硬體)

在本發明中，存取cosine因子與sine因子所需的記憶體太大，所以使用係數產生器的電路減少ROM的大小，但額外增加了乘法器與加法器，再者，中間級運算所需的硬體也很多，所以改採用與第一級、第二級共用硬體的方式，減少加法器與乘法器的數量，可參照表5.5.6，不過運算週期會因為共用硬體的關係而些微增加，如表5.6.2所列。

表5.6.2　M點DCT-IV運算週期(共用硬體)

由表5.6.2，可以發現整體的運算週期跟m與c的數值息息相關，將M點DCT-IV拆解成m與c點的組合有很多種，究竟何種點數的搭配能使整體硬體的效能最高，運算週期最少對於本架構而言是值得探討的重點。

首先，管線化之硬體架構，第一級的處理速度不能大於第二級，否則後級會無法即時處理完前級傳來的資料，導致整個架構無法順利運作。要讓管線化發揮最大的效能，必須使第一級的運算週期等於第二級，然而拆解的點數，也就是m與c會影響第一級與第二級的運算週期。接著，由公式(76)至公式(77)可發現，第二級的運算週期為第一級的一半，以m與c皆為偶數為例，當第一級與第二級運算周期相同時，由公式(76)至公式(77)可推導出下列等式：

公式(78)所代表的意義為，當第二級的點數為第一級點數的兩倍時，此架構具有最大的效能，所以本發明在應用此架構時會盡量將點數拆解成第二級的點數大於第一級，但m不能小於c/2，否則第二級運算的週期將會大於第一級。

本發明所提出之方法與架構，以m與c皆為偶數為例，傳統遞迴架構需要N²/2個週期，由表5.6.2得知，本發明的設計所需的週期數為：

由前述說明可知，本發明遞迴式第三型離散餘弦/正弦裝置120及遞迴式第二型離散餘弦/正弦裝置140的核心硬體能支援DCT-IV/DCT-II/DCT-III/DST-II/DST-III的運算，再搭配第一排列裝置110及第二排列裝置150的前後處理的運算，能實現IMDCT/MDCT/AQMF/SQMF的運算，達成分析與合濾波器組的共架構設計。在運算週期方面，相較於其他遞迴架構演算法能有著大幅度的改善。

由上述可知，本發明無論就目的、手段及功效，在在均顯示其迥異於習知技術之特徵，極具實用價值。惟應注意的是，上述諸多實施例僅係為了便於說明而舉例而已，本發明所主張之權利範圍自應以申請專利範圍所述為準，而非僅限於上述實施例。

100．．．遞迴式第四型離散餘弦之系統

110．．．第一排列裝置

120．．．遞迴式第三型離散餘弦/正弦裝置

130．．．餘弦/正弦因子產生裝置

140、．．．遞迴式第二型離散餘弦/正弦裝置

150．．．第二排列裝置

901,902,903,904,905,906．．．第一至第六暫存單元

931,932,933,934,935．．．第一至第五加法單元

951．．．第一3至1多工單元

952．．．第二3至1多工單元

971．．．第一乘法單元

972．．．第二乘法單元

974．．．第四乘法單元

1217,1218,1219,1220,1221,1222．．．第七至第十二暫存單元

1236,1237,1238,1239,1240．．．第六至第十加法單元

1253．．．第三3至1多工單元

1254．．．第四3至1多工單元

1273．．．第三乘法單元

1275．．．第五乘法單元

1276．．．第六乘法單元

1277．．．第七乘法單元

1278．．．第八乘法單元

1300．．．遞迴式第四型離散餘弦之系統

1310．．．第一排列裝置

1320．．．修正型遞迴式第三型離散餘弦/正弦裝置

1330．．．遞迴式第二型離散餘弦/正弦裝置

1340．．．第二排列裝置

1911,1912,1913,1914,1915,1916．．．第一至第六暫存單元

1931,1932,1933,1934,1935．．．第一至第五加法單元

1951．．．第一3至1多工單元

1952．．．第二3至1多工單元

1971．．．第一乘法單元

1972．．．第二乘法單元

1974．．．第四乘法單元

2017,2018,2019,2020,1021,2022．．．第七至第十二暫存單元

2036,2037,2038,2039,2040．．．第六至第十加法單元

2051．．．第三3至1多工單元

2052．．．第四3至1多工單元

2073．．．第三乘法單元

2075．．．第五乘法單元

2076．．．第六乘法單元

2077．．．第七乘法單元

2078．．．第八乘法單元

圖1係本發明之遞迴式第四型離散餘弦之系統之一實施例的示意圖。

圖2係本發明DCT-IV運算之示意圖。

圖3係本發明輸入資料對應方式之示意圖。

圖4係本發明索引值n₀、k₁之關係的示意圖。

圖5係本發明m點DCT-III/DST-III與c點DCT-II/DST-II對應關係的示意圖。

圖6係本發明管線化DCT-IV之示意圖。

圖14係本發明Cosine與Sine因子係數產生器之示意圖。

圖15係本發明摺疊運算的硬體動作(輸入前半資料)之示意圖。

圖16係本發明摺疊運算的硬體動作(輸入後半資料)之示意圖。

圖17(A)及圖17(B)係本發明中間級運算整體架構圖之示意圖。

圖18係本發明暫停週期對應之運算之示意圖。

圖19係本發明修正型遞迴式第三型離散餘弦/正弦裝置之示意圖。

圖20係本發明遞迴式第二型離散餘弦/正弦裝置之示意圖。

圖21係本發明使用共用多工器之示意圖。

圖22(A)及圖22(B)係本發明使用共用的乘法器與加法器之示意圖。

圖7係本發明使用額外加法器與暫存器之示意圖。

圖8係本發明使用額外加法器與暫存器之示意圖。

圖9係本發明DCT-III/DST-III硬體架構圖之示意圖。

圖10係本發明公式(56)對應之硬體架構圖的示意圖。

圖11係本發明使用額外加法器與暫存器之示意圖。

圖12係本發明DCT-II/DST-II硬體架構圖之示意圖。

圖13係本發明之遞迴式第四型離散餘弦之系統之另一實施例的示意圖。

100．．．遞迴式第四型離散餘弦之系統

110．．．第一排列裝置

120．．．遞迴式第三型離散餘弦/正弦裝置

130．．．餘弦/正弦因子產生裝置

140．．．遞迴式第二型離散餘弦/正弦裝置

150．．．第二排列裝置

Claims

一種遞迴式第四型離散餘弦之系統，其包括：一第一排列裝置，其接收N個輸入數位訊號，對該N個數位訊號執行二維排序運算，以產生二維型式的N個第一暫時訊號，當中N為正整數；一遞迴式第三型離散餘弦/正弦裝置，連接至該第一排列裝置，其係為m點遞迴式第三型離散餘弦/正弦裝置，以對該二維型式的N個第一暫時訊號執行c次第三型離散餘弦/正弦運算，俾依序產生c次具有m點的第二暫時訊號，當中，N=m×c，m及c皆為正整數；一餘弦/正弦因子產生裝置，連接至該遞迴式第三型離散餘弦/正弦裝置，依序對c次具有m點的第二暫時訊號執行餘弦/正弦因子乘法及相關後續加法運算，俾依序產生c次具有m點的第三暫時訊號；一遞迴式第二型離散餘弦/正弦裝置，連接至該餘弦/正弦因子產生裝置，其係為c點遞迴式第二型離散餘弦/正弦裝置，以對該第三暫時訊號執行m次第二型離散餘弦/正弦運算，俾依序產生m次具有c點的第四暫時訊號；以及一第二排列裝置，接收該第四暫時訊號，以對該第四暫時訊號執行一維排序運算，而產生一維型式的N個輸出訊號；其中，該N個輸出訊號係該N個輸入數位訊號的第四型離散餘弦轉換。
如申請專利範圍第1項所述之遞迴式第四型離散餘弦之系統，其中，該遞迴式第三型離散餘弦/正弦裝置係以共用硬體的方式實現。
如申請專利範圍第2項所述之遞迴式第四型離散餘弦之系統，其中，該遞迴式第三型離散餘弦/正弦裝置的計算週期為m×(m+1)/2個週期。
如申請專利範圍第3項所述之遞迴式第四型離散餘弦之系統，其中，該遞迴式第二型離散餘弦/正弦裝置係以共用硬體的方式實現。
如申請專利範圍第4項所述之遞迴式第四型離散餘弦之系統，其中，該遞迴式第二型離散餘弦/正弦裝置的計算週期為c×(c+1)/2個週期。
如申請專利範圍第5項所述之遞迴式第四型離散餘弦之系統，其中，該遞迴式第三型離散餘弦/正弦裝置包含第一至第六暫存單元、第一至第五加法單元、一第一3至1多工單元、一第二3至1多工單元、一第一乘法單元、一第二乘法單元、及一第四乘法單元。
如申請專利範圍第6項所述之遞迴式第四型離散餘弦之系統，其中，該遞迴式第二型離散餘弦/正弦裝置包含第七至第十二暫存單元、第六至第十加法單元、一第三3至1多工單元、一第四3至1多工單元、一第三乘法單元、一第五乘法單元、一第六乘法單元、一第七乘法單元、及一第八乘法單元。
一種遞迴式第四型離散餘弦之系統，其包括：一第一排列裝置，其接收N個輸入數位訊號，對該N個數位訊號執行二維排序運算，以產生二維型式的N個第一暫時訊號，當中N為正整數；一修正型遞迴式第三型離散餘弦/正弦裝置，連接至該第一排列裝置，其具有一第一運算模式及一第二運算模式，當該修正型遞迴式第三型離散餘弦/正弦裝置為第一運算模式時，其對該二維型式的N個第一暫時訊號執行c次第三型離散餘弦/正弦運算，俾依序產生c次具有m點的第二暫時訊號，當中，N=m×c，m及c皆為正整數；一遞迴式第二型離散餘弦/正弦裝置，連接至該修正型遞迴式第三型離散餘弦/正弦裝置，其具有一第一運算模式及一第二運算模式，當該修正型遞迴式第二型離散餘弦/正弦裝置為第一運算模式時，接收一第三暫時訊號，並對該第三暫時訊號執行m次第二型離散餘弦/正弦運算，俾依序產生m次具有c點的第四暫時訊號；以及一第二排列裝置，其接收該第四暫時訊號，對該第四暫時訊號執行一維排序運算，以產生一維型式的N個輸出訊號；其中，該N個輸出訊號係該N個輸入數位訊號的第四型離散餘弦轉換。
如申請專利範圍第8項所述之遞迴式第四型離散餘弦之系統，其中，該遞迴式第三型離散餘弦/正弦裝置及該遞迴式第二型離散餘弦/正弦裝置為第二運算模式時，該遞迴式第三型離散餘弦/正弦裝置及該遞迴式第二型離散餘弦/正弦裝置，依序對c次具有m點的第二暫時訊號執行餘弦/正弦因子乘法及後續加法運算，俾依序產生c次具有m點的該第三暫時訊號。
如申請專利範圍第9項所述之遞迴式第四型離散餘弦之系統，其中，該遞迴式第三型離散餘弦/正弦裝置包含第一至第六暫存單元、第一至第五加法單元、一第一3至1多工單元、一第二3至1多工單元、一第一乘法單元、一第二乘法單元、及一第四乘法單元。
如申請專利範圍第10項所述之遞迴式第四型離散餘弦之系統，其中，該遞迴式第二型離散餘弦/正弦裝置包含第七至第十二暫存單元、第六至第十加法單元、一第三3至1多工單元、一第四3至1多工單元、一第三乘法單元、一第五乘法單元、一第六乘法單元、一第七乘法單元、及一第八乘法單元。