TWI301578B

TWI301578B - Logarithm processing systems and methods

Info

Publication number: TWI301578B
Application number: TW095110243A
Authority: TW
Inventors: Hussain Zahid
Original assignee: Via Tech Inc
Priority date: 2005-09-09
Filing date: 2006-03-24
Publication date: 2008-10-01
Also published as: US7539717B2; CN1838024A; US20070061389A1; CN100472392C; TW200710682A

Description

13015/S&f.d〇c/g 九、發明說明.: 【發明所屬之技術領域】且特別為關於對數處理系統本發明係關於處理系統和方法。【先前技術】在圖形及科學應用中經常出現對數計算，數可定義爲丨。右χ β=I〇g〇c) +丨。§(Ί ㈡數之對 m —自騎練可藉由方程浮點Γ:為：2^ 私），其中㈣)=二^ ^ '糸、、先中’諸如中央處理器（CPU)，其對數運异（例? log,UX))實現之機制乃透過多項式計算。例如，-最佳計算值可藉由以下7階極小極大多項式來實現 -3. 245537847+(7.133969564+(-7.494129806+(5.7814387 31+(-2.985020854+(0.9780947497+(-0.1839396192+0.15 12535671e-l*x)*x)*x)*x)*x)*x)*x，其最大誤差為 2.919206449e-7。常見於CPU之多項式法乃由7次乘加法運异（multiply and accumulate，MAC)來實現，其中此計算之中間結果要求高精準度。另一對數運算（例如log 2 (X)，X等於zO+zl)之機制可藉由泰勒級數近似法來實現，諸如方程式（1)中所示之二階級數： I3015,m wf.doc/g 前導1，移除前導0 或尾數位元（如23位元H至f9指數縮放值）之小數位元 ;二Γ階導函數對應，而表c 2咖之階導函數除以2對應。化方2二、,;了所不處理機制10其複雜度之其-方法為簡 ^壬式，f 。例如，方程式（1)可改寫為嵌套形式 (Horner s form) : Λ

>-/(z〇)+z//tz〇)+r} 方程式（2) 改寫方程式（1)為方程式（2)可排除對平方功能方塊 32之需求。因此二階泰勒級數之嵌套形式可藉由執行三次查表和兩次乘加運算而實現。圖一所示架構之一範例指令集可用於實現泰勒級數，該指令集如下敘述： (1) FRAC R4:=Normalize((R0 & 0x7FFF) | ((((R〇 & 0x7F800000)»23)-9)«23))； (2) L0GTL1 R1 :=TableLooklipl[RO & 0x007F8000]；

/Μ) 2 (3) L0GTL2 R2:=TableLookUp2[R0 & 0x007F8000]； (4) L0GTL3 R3:=TableLookUp3[R0 & 0x007F8000]； (5) FMAD R5:-R2+(R4 * R3)； (6) FMAD R6:二R1 + (R4 * R5); (7) EXPADD R7:=((R0 & 0x7F800000)»23)+R6。指令行（1)提供一指令用以正規化輸入。換言之，上述之硬體結合圖1乃根據IEEE-754浮點格式以執行運算。因此在指令（1)中，尾數之15位最低有效位元轉換成一正規化浮點數值。在指令（2) - (4)中，R0之一數值則截 7 :wf.doc/g 位（f化）至8位元。接著，執行3次查表（/(z。）、7 口 ’其結果分職存至對應之暫存器中。在指令⑸和⑹+，方程式⑵相對2 R3 執㈣次浮職合乘加運算（fusedmultiply== 零加麵，_)。在指令⑺中，加上該指數之對數。

上述之架構和指令集明顯存在一些問題。舉 (1)和（7)在大多數架構中為非標準化。甚者，所2 觀(如，令）。亦同上文所述，這些操作由t用處理早70貫現，若此對數函數較罕用將導致低投貧報酬率。有鑑於此，縮減指令集且於—可提供常用硬體設施之架構中實現該操作乃所期望者。【發明内容】本發明提供對數處理系統及方法之實施例，其中一對數處理方法之實關包含：執行第—絲賭供其對應之一基底函數全精度格式化基底值；執行第二查表，求得其對應之卩自壓縮值(compressed first value)和二階壓縮化約

值（compressed factored second value )，其中一階壓縮值與基底函數之n函數制，而二階壓齡約值與基底函數之化約二階導函數（factored sec〇nd value)對應；解壓鈿一階壓縮值和二階壓縮化約值；全精度格式化解壓縮之一階值和二階化約值而得全精度格式化之一階值和二階化約值；正規化一最低有效位元來源運算元並全精度格式化，正規化之最低有效位元來源運算元而得全精度格式化之最低有效位元來源運异元；執行全精度格式化一階值與一階化約值和全精度格式化之最低有效位元來源運算元之 8 130151 f.doc/g 第:二執行該第-結果與全精度格式化 ===一精度格式化之基底值之第懂，所特徵和優點更明顯易戶' J亚配合所附圖式，作詳細說明如下。【實施方式】

/本！X月揭示對數處理系統和方法（本發明稱作對數處種實施例。此類對數處理系統可減少計算對 L = (x))所使用之專用邏輯的數量，並且此對f處理线可善用現有具標準浮點混合乘加（fused FMAD)硬體之可程式處理單元。爲達到此 =隹可執彳m個以上之對射旨令钱方法，此類才曰二木或方法包含標準FMAD硬體中可支援之“基本” 運算。此外，為滿足财處理;I；線之時程目標亦使用一最 =指令集°FMAD硬體之用途為將輸人正規化與全精度格，化，及轉換浮點數值至標準格式，如IEEE_754格式。請注意，本發明中對於全精度格式化值，應理解成包括正規化早精度、雙精度歧高精款IEEE_754料。儘管全精度！化在本發明中揭示於正規化單精度ieee-754格式月’?、下仁热知本發明所屬技術領域的人員應可睁解，雙精度或更高精度之格式料包括在触實U之^鳴内’如透過延長表(tab⑹和/或欄位伽⑹之大小。對數處理系統之某些實施例包含兩個用於計算對數之基底函數和導函數的函數表，亦包含多種邏輯單元（如硬 9 13015¾ wf.doc/g 體’《者如ό十數器、線或(w + 數電路和/或暫存器等)來處理查:出=零(= 十之指八隹ίΓ/、自知糸統相比’該類實施例使用一簡化 3或曰4:指」運相較曰於傳統系統中約7條指令僅需使用 rm/- 3 可避免或緩和專用硬體之使用率。

-個式谷描述:處理環境實施例，該環境可實現似“數處理系統，隨後描述-實現泰勒級數近 =^ΐ亦即’對數處理系統之實施例）。儘管本 ’:月2谷以圖形處理之計算核心為背景，但所揭示之實把，土 ±可併入到任何執行泰勒級數近似法以計算對數函文之處理％^巾。例如，本發明所述之實施例可結合或 =置於中央處理器，數健號處理輯其他各類功能之計鼻单元。

Θ 2、，、日示圖形處理單元（㊁—⑴以以此， GPU)計算核々2G5之方塊圖。儘f未完全繪示所有圖形處理=件，但圖2所示之組件足以讓熟知所屬技術領域的人員能夠瞭解該類圖形處理器和對數處理系統之實施例其相關之一般函數和架構。如圖2所示，計算核心2〇5包含一耦接於二級（L2)快取記憶體21〇之記憶體存取單元 (memory access unit) 207。該記憶體存取單元207接收來自例如^>丨思體介面單元(未繪示)之L2預取和溢出。L2快取記憶體210從輸入緩衝器（未繪示）接收預轉換頂點 (pre-transform vertices)(輪入j )，並將後轉換頂點 (post-transform vertices)(輸出H)提供至三角屬性單元 twf.doc/g (triangle attribute unit)(未繞示）。計算核心205亦包含-執行單元（EU)槽23()，盆包括多個執行單元（EU) 240和-個EU控制和區域 245。在實_中，每個EU 24〇 &含一對數處理系統‘ς (將進-步敘述於下文），且每個EU24〇能在單個時鐘周期内處理多條指令。儘管圖2中繪示8個Eu (標記爲 EU0到EU7)，但知悉本糾之技術賴者應能瞭解，即數目無需限制爲8個’於某些實施例中可以具有更多少的EU。。。計算核心205更包含一 EU輸入單元235和一 Eu輸出單兀220，分別提供輸入至Ευ槽23〇和從Ευ槽接收輸出。EU輸入單元235和EU輸出單元22〇可^縱橫交換結構（crossbar)或匯流排或其它已知輸入機制。 EU輸入單元235從-輸入緩衝器接收預變換頂點（輸入B )，且將該信息提供給EU槽23〇以供各EU 24〇處理。此外，EU輸入單元235接收像素封包（輸入c)和紋理封包（輸入D)且將這些封包傳遞至£1;槽23〇以供各eu24〇處理。EU輸入單元235亦可從L2快取記憶體21〇接收信息，且必要時將該信息提供給Eu槽23〇。該信息可由快取兄憶體210、縱橫交換結構235提供以及/或從先前運算中産生。在一較佳實施例中，執行1〇g2計算所產生之值置放於各EU 240之區域暫存器中。 EU輸出單元220接收EU槽230之輸出，諸如UVRQ 和RGBA。這些輸出，相異於他者，可被指引回l2快取記憶體210,或者可從計算核心2〇5輸出（E)至一個寫回 f.doc/g 單元（write-back unit，未繪示），或者可輪

理單元（未繪示）。 X 計算核心205也包含任務分配器和仲裁哭2乃，其巧=器（未，接收標籤(tag)/同步信;;抑，。元220。換句話說，任== ί 220 235 ^ EU It ^

每-對數處理系：3〇〇7各自4=旨令的執行可藉由位於體來實施。相對於EU0至EU7)中之硬圖3至圖6分別繪示一對金 3_等）實施例之各類功能 f 2 勒級數近似法之改良處理以曾二八中糸統300提供泰意，本發明中使用之變量“z” ^㈡數f(x)之對數值。請注以上之表中的一個“ ” r …理知為儲存在一個或一個

另外請注意，圖3至圖6((：^函數_、”）值。功能方塊或組件可包含辟辨^至圖8 )所繪示及敘述之 (ALU)或其它電路、互連=置，諸如算術邏輯單元等。由對數處理系統·可齒（例如為線路、匯流排） U) /(+(04尸咖(().722，=導出以下各項：亦即，各函數和其對數函^=)/2e(—0.Γ·722) 範圍内。例如，log 2 $ 歎之導函數值皆落在一可知 (⑽）與1〇g2(e)/2『〇〜階導函數落在log 2⑷ 之計算值落在可知範之間。同理’二階導函數 (匕）21小於2-8( 1/256 = 〇至4.722)内。或0.00391 )。意即zl2小於 12 twf.doc/g 2-16 ( 1/65536 0r 0.0000153)。由

之7個最高有效位元和/，(z。)表之^可知曰’ $需儲存，W2表將於下文中解釋。亦即，/'和尸5個取尚有效位元，二者界定在上文所述之可定義範圍—階和二階導函數）都零而zl具有15個前導零。因此1再者，Z〇具有8個前導僅需儲存與對應的7位元和與二24位元之尾數，位元儲存尸W/2之指數，i位元儲以了、位兀，另以兩假定/'(知增2的查表都2 ^指數。個查表皆符合一般32位元字妗、。予相同位址，那麼因爲兩解釋，若CPU或DSP之洋可相互組合以儲存。更深入規範，則輸入為正規化數值:以，人符合鹏754 以整數或布林運算來執行解封包和付二=運= 慢。在此情況下對CPU或D u而=，^咸適宜，因其僅需儲存多項式之=而：—夕項式法杈 #藥+&$+佔田-1貝^係數。如此，本貫施例毋須如二執;人之查表（在先前技術中所描述），僅

第—查表（本發明稱作L〇GTL1)用在’而乐二查表（本發明稱作L0GTL2)用於尸W 去\ X之組合查找（本發明將後者稱作化約二階導函數）。由方程式（2)可得以下方程式⑴和⑷：方程式（ ^/(ζ〇 + (^Γ))方程式（4) ^如方魟式3和4所示，本實施例包含兩次FMAD 异°因此’指令集的―實施例（本發明亦稱作演算法1) 13015¾¾ wf.doc/g 可描述如下： (1) LOGTLl Rl：=TableLookupl[RO & 0x007F8000]； (2) L0GTL2 R2：-TableLookup2[R0 & 0x007F8000]； (3) CFMADl R3:=-_M(R2[21:1G]H⑽_G|；14:〇1；]) * NORM(R2[9:0]))；」； (4) CFMAD2 R4:=R1+⑽RM(RO[14:〇1]) *R3)。此指令集之描述參照對數處理系統300之實施例及圖 3至6敘述中相關之各部分(300a-l至30〇a-4)。圖3是對數處理系統聽·1中執行LOGTL1運算部分之方塊圖。請注意，本發明所述的暫存器（例如為RG_R4)為-般斜存器，可㈣各運算之來源暫存器與目的暫存器。如圖曰3 所不，對數處理系、統3〇ΟΜ包含暫存器3〇2 (輸入 R0)和310 (R1)、減法方塊3〇4、中斷方塊3〇6、傳^ 方塊312 (X)和314 (χρ)以及查表G 316 (其功能與表之功能對應）。暫存器3G2中之資料具有一符號位元、，數位元和尾數。在實施例中，尾數包含23位元，其中最高8位元[22:15]與查表巾f(x)各函數（例如為基底函數和導函數）之位址所在相對應，諸如查表〇 316對應至f(x) 之，底函數z0。傳輸方塊314傳遞與zi函數對應之尾數的^低15位元（最低有效位元來源運算元）。忒函數經計算提供給暫存器310,其對應值以單精度正= IEEE-754格式儲存。暫存為302中指數部分提供至減法方塊3〇4，此減法方塊304執行指數值與偏差值127之減法運算，並將所得差值提供至中斷方塊306。中斷方塊306從暫存器3〇2接 14 13015¾ 丨 twf.doc/g tr付號位凡’且根據此符號位元來設置暫存器310中之符號位70和指數位it。例如，於下文之僞代碼中所示事件之:發生時發运中斷信號（“mant，，表示尾數而“ inf，表示無窮(infinite)):

If (s and exp !-0) result is NaN

If (exp = = 255 & mant 卜〇) result is NaN

If (exp - = 〇) result is ^-inf

If (s ! = 0 and exp ^ 255 and mant = = 〇) result is +inf 圖4為對數處理系統3〇〇心2中執行⑴⑽^運算部 =方塊圖，其繪示包含輸入暫存器3Q2(RG)、目的暫和傳輸方塊312和314以及查表1/2318(其 ^月匕與/( 〇)表和鄭2表對應）。言亥除以2運算乃内建於杳表1/2 318之八2。)功能中垂 6^川狀一力此中偟官於某些貫施例中該運算可與 1/2 W根據—階與二階導函數給定—數值範圍， Ι^Ϊ_75^\和暫存器322以壓縮化非單精度（非 '"式儲存其值，詳情如下文。如上文所指，傳之數值用於定址查表。—26位元應!存器322(如為一32位元暫存器)，用以回 322包含階導函數(/,)與二階導函數(r)，暫存器較低難元遞^位^。暫存器322之位就置為存尸運算之輪出呆存運异之輸出而其餘16位元用以保如上文所述，/，We (0.722,1.443)，闵 + 太 * , 。〇對應之函數可以。口此，查表1/2 318所規化格式、非單精度格式（非ΙΕΕΕ_754) 15 130151 f.doc/g $存，其中位元间被設置成i或〇，以表示指 0.722大於〇.5但小於卜 3

以表不成1.χχχχ*2Μ，而i和 T h咖2八0。因此，位元[22]可作為指數偏差量可= 匕示f 127 (經正規化）且無需儲存（僅需儲 S數是可用壓縮格式來儲存，豆中所袖兀）。這些值依正規化格式__導^^^加日儲存狀態，係

元。因此，以入=，不指數為1或0之1個位該-階^數；：全⑽w精度赃·754格式料約二=上數==’上表所計算之化即，當藉由改變指數心 :.χΧχχ*2、之形式。因此于數主數具有隱含的1，因此臟子點格式而言，指

增2處在可定義^ 中減n去之值。如前所論之尸W，等於1.011_*2M，G ^22)内。請注意’咖所儲存者為指數與127之川―·1。因此，中落於[1..3]其間之差！（亦即，儲存於位元[9:7] 叫帶偏差;且無需V存到因=^^ 爲在實施例中場2必爲t 、 318中。同钕地，因 !/2318中。如同 ^負=以符號位元無需儲存到查表所對應之值可以壓應之值，二階化約導函數存。 •私式而非全單精度IEEE-754格式儲在某些實施例中，與FMAD型運算相比L〇G2之利用率相對較低，故可藉由限制發行率（issue rate)以最小化所品之查表數。舉例如〉貝异法1中所示，可使用4條指令。若LOGTL1和LOGTL2之發行率限制在每N周期丨條^寺，那麼單一 LOGTL1和LOGTL2單元可由n個單指令多資料（single-instruction，multiple data，SIMD)單元共享。圖5繪示對數處理系統3〇〇a-3中執行CFMAD1 (修改的FMAD)運算部分之方塊圖。對數處理系統3〇〇&_3包 δ暫存态322 (R2，保存從查表1/2 318所得之壓縮值）、暫存态302 (R0)、傳輸方塊312和314、FMAD單元324、格式為（2)方塊328、格式器（3)方塊330和正規化⑴ =塊326。在一個實施例中，格式器（2)方塊328與格式态（3 )方塊330大體上相同，但與正規化（丨）方塊326 不同。正規化（1)方塊326正規化和格式化（為單精度 IEEE-754格式）來自暫存器R03〇2 (經由傳輸方塊314) 之最低有效位元來源運算元。正規化（丨）方塊326可包含一前導零計數（CLZ)電路（例如為15位元之前導零計數）用以找出暫存器中前導1和一移位電路（例如為用來執行 15位元左移的多工電路）用以將值左移至前導丨出現。正規化（1)方塊326亦可包含一個計數器（例如用以調整指數值，諸如減去所執行之左移的數目）和一線或(wire_〇R) 電路（例如用以重建32位元浮點值）。因此，在實施例中，正規化（1)方塊326包含邏輯，例如為前導零計數電路、移位電路、計數器和線或電路。就CLZ而言，如果clz 回傳值N ’那麼待正規化之值將移位N+i位元且指數減 17 I301578itwf.d〇c/g 少N+l。請注意，如上文所述，前導丨無須儲存，因爲它已隱含在IEEE-754中。格式器（2)方塊328和格式器（3)方塊330解壓縮儲存在暫存器322 (R2)的值，並將解壓縮後的值轉換成單精度IEEE-754格式。在該數之餘數已為前導1格式之情況下’格式器（2)方塊328和格式器（3)方塊330保存

指數偏差量，因而減除提供移位功能之需要。然而，格式裔（2)方塊328和格式器（3)方塊330都需要各自將尾數轉換成單精度IEEE-754格式，且最低有效位元為〇。格式器（2)方塊328將符號位元設為〇，格式器（3)方塊 330將符號位元設為1。因此，在實施例中，格式器方塊 328和330可分別包含邏輯電路，諸如線或電路和計數器 (例如為用來減去或加上指數偏差量，其例如為127)。睛注意，正規化（1)方塊326可包含格式器方塊328、330。視架構和系統需要而定，正規化（1)方塊326及格式态方塊328和330可在各處理級中實施。例如，在目的執行管線中’一管線階段（pipeline stage)存在於修改來源之FMAD運算與運算元提取操作之間。因此，此一管線階段也可用於正規化及格式化處理，且無需修改FMAD單元 324。換δ之，對數處理系統3〇〇-3可藉於一標準FMAD 官線中添加正規化（1)方塊326與格式器方塊328與330而貫現。除暫存器322 (R2，其保存l〇GTL1運算之輸出值 (查表1/2 318))外，CFMAD1運算也使用暫存器r〇 302 (經由傳輸方塊314)和暫存器r3 34〇。暫存器r〇 3〇2保 18

I3015i78twf.d〇c/g 存原始來源運算元，而乘法/加法運算結果則儲存於暫存器 R3 340 内。正規化（1)方塊326以及格式器方塊328和330各自可採用兩個輸入。其中一輸入是待正規化/格式化之值，而另一輸入是指數調整值。正規化（1)方塊326接收8位元格式之值127。正規化（1 )方塊326所實施之15位元左移可與指數更新平行處理。暫存器322中查表1/2的值為正規化格式（例如，總有一個未被儲存之外顯前導1)，而此偏差指數為127且未被儲存。因此，對等於格式哭（2 ) 方塊328和格式器（3)方塊330操作之函數可實施如

Formatter2/Formatter3 (Inputl, Input2) 、 ·

BEGIN

Output[；31] :=1;

Output[30:23]:-127-Input2;

Output[22:0] :-{Inputl50*}； //將0填入最低有效位元 END 正規化（1)方塊326之輸入並未正規化，而是呈現一〇.〇〇〇〇〇〇〇〇响3.為格式，與格式器⑺方塊η8和格式器（3)方塊330之輸入不同。換言之，正規化⑴^塊 326的輪人乃以非正規化形式處理（例如非}而為〇)，且此輸入包含在二進制為〇其後之前導8位元，故最低有效 15位元（亦即，Xl4Xl3..x〇) f正規化。因此，一前導^設 19 13015798 twf.doc/g 置機制可實施如下：

Normalizel(Inputl9Input2)

BEGIN CLZ :=CountLeadingZeros(Inputl)+l; Sign :=〇； EXP ~127-Input2-CLZ;

MANT :=ShiftLeft(Inputl，CLZ); Output[31] :=Sign; 〇utput[22:0] :={MANT，o*}; //將0填入最低有效位元

END 格式器和正規化（326、328和330)之輸出乃是提供給標準FMAD單元324，該單元把正規化（丨）方塊326 輸出值與格式器（2)方塊328輸出值相乘，而後將所得結果與格式器（3)方塊330輸出值相加，最後之總和儲存在 R3 340 中。

園〇馮對數處理系統 .......〜一 -Γ T —机订丄逐异曾區塊之方塊圖。對數處理系統3〇〇a_4包括暫存哭3〇2fR〇)、 3哪）、遍⑻，其保存F_單元運异之輸出值）和350 (R4,其保存FMAD單元324對應之CFMAD2運鼻之輸出值;）。對數處理系、統鳥也包括傳輸方塊312和314、FMAD單元324和正規化塊326。C™AD2運算為—三來賴算元混合浮。⑽細運算包含於正規化⑴方塊创正規化暫存器 20 13 015^Swfd〇c/g 單』3^4 來源輸人，其中正規化方塊326提乘之纟士雨出以供與暫存器340(R0)之内容相乘。其相將相Γί至來源輸入暫存器310 (R1)之内容中，並、I件'、、°果儲存到暫存器350 (R4)中。 ,、又之l〇g 2 (X)運异可以相同之查表和線性内插 (一階泰勒級數）實現，如以下方程式（5)所示： y^f(z0) + Z]xf(z〇)方程式⑸ 该方程式可以圖7所示方法實施。圖7為對數處理系、、先jOOb中一 CFMAD3運算部分實施例之方塊圖。對數處理系統3_包含與圖3至圖6所示對數處理系統3〇〇a (300a-l到300a-3 )相同或類似之硬體組件。對數處理系統300b包含暫存器3〇2、、34〇和310、傳輸方塊312 和314、正規化（1)方塊326和格式器（3)方塊33〇以及FMAD單元324。控制對數處理系統3〇〇b操作之指令集（本實施例也稱作算法2)實施例如下： (1) LOGTLl Rl:=TableLookupl[R〇 & 0x007F8000]； (2) L0GTL2 R2:=TableLookup2[R〇 & 0x007F8000]； (3) CFMAD3 R3:=R1+(NORM(RO[14:01]) * -NORM(R2[21:1〇])) 因此，對數處理系統300b的另—個實施例包含兩次查表和單次FMAD運算。運算格式近似於上文所述之 CFMAD2指令，但其中兩個來源運算元並未IEEE-754正規化且其結果儲存在暫存器R3 340中。因此，定義出一額 21 twf.doc/g 外指令CFMAD3。圖8繪示對數處理系統3〇〇c之部分實施例，此對數系統結合前述實施例（3〇〇a和3〇〇b)二者之功能。尤其， CFMAD1，CFMAD2和/或CFMAD3運算對應之邏輯基礎為圖3與圖4相關敘述中之LOGTL1與L0GTL2，其操作與各組件亦視為對數系統3〇〇c之一部份。對數處理系統

300c包括暫存器322 (R2，其保存查表1/2 318所得之壓縮值）、暫存器340 (R3,其保存CFMAD1運算第一結果對應之單精度IEEE_754值）、暫存器310 (R1，其保存自查表0 316所得之單精度IEEE-754值）、暫存器3〇2(R〇，未繪示，但用於提供傳輸方塊314原始來源運算元）和用於儲存CFMAD2運算（或CFMAD3運算）最終結果之暫存器350(R4)。對數處理系統3〇〇c也包括轉移方塊314、 FMAD單元324、正規化（1)方塊326、格式器（2)方塊328與格式器（3)方塊330和多工器342和344 (說明如下）。

在操作過程中，格式器方塊328和33〇之輸出值提供至多工器342和344，其一實施例中可分別把兩個多工器建構成2:1和3:1之多工器。特別的是，多工器342自格式阳（3 )方塊330和暫存器310接收輸入，且依據為下文所述之控制輸入MADopl與MADop2，提供一輸出至 FMAD單元324之輸入c。多工器344自格式器方塊（2) 328和格式器（3)方塊330以及暫存器340接收輸入。根據控制輸入MADopl和MADop2,多工器344提供一輸出值至FMAD單元324之輸入端b。最後，正規化（丨）方 22 13015.¾ 丨 twf.doc/g 塊326提供一輸出值至FMAD單元324之輸入端a。就CFMAD1運算（如上所述的演算法1中）而言且根據提供至多工器342和344之控制輸入MAD〇°pl ^ MADop2 ’正規化（1)方塊326和格式器方塊328和330 提供輸出值至樣準FMAD單元324，該標準FMAD單元 324將正規化（1)方塊326之輸出值與格式器（2)方塊 328之輸出值相乘，再將所得結果和格式器（3)方塊33〇

之輸出相加。至於CFMAD1運算之結果則暫時儲存在暫存器 340 ( R3 )中。 CFMAD2運算是一個三來源運算元浮點混合乘加運算。CFMAD2運算於正規化方塊326内正規化内容來源輸入暫存器302，該正規化（1)方塊326提供一輸出值至 FMAD單元324之輸入端a，以與暫存器34〇 (R3)之内容相乘。該相乘之結果與暫存器310 (R1)之内容相加，並將相加結果儲存至暫存器350 (R4)中。

CFMAD3相對之運算乃透過自多工器342和344與控制輸入MADopl與MADop2間選擇輸入組合而啟動。 CFMAD1，CFMAD2與CFMAD3三者之多工器組合如下表所述： MADopl MADop2 CFMAD1 0 —____± 0 CFMAD2 1 1 ~~~ CFMAD3 1 2 — 請注意’值0-2相對於圖8中所示多工器342和344 所示之輸入端選擇0-2。由上述可得，一對數處理方法300d實施例包含（如圖 23 I301578itwf.d〇c/g

9中所示）··執行第一查表求得對應之一正規化全精度 IEEE-754格式化之基底函數（902);執行第二查表求^ 對應之一階壓縮值與二階壓縮化約值，其中此一階壓縮值與基底函數之一階導函數相對應，而此二階壓縮化約值則與基底函數之化約二階導函數（904)相對應；解壓縮該一，值與一階化約值，並以全精度乃4)格式化該解壓縮之一階值和二次化約值（9〇6);正規化一最低有效位元來源運算元並以全精度（IEEE-754)格式化此正規化最低有效位元來源運算元（908);由執行全精度格式化一階值卩皆化約值與全精度格式化最低有效位元來源運算元之第-組合求得第-結果（910);由執行此第—結果與全精度格式化最低有效位元來源運算元和全精度格式化^底值之第二組合以計算對數函數（912)。土一由上述可得，一對數處理方法3〇〇e之實施例包含（如圖10中所示）：執行第-查表求得與基底函數對應之正規化全精度IEEE-754格式化基底值（1〇〇2);執行第二查求得對應之-P鍵縮值，此—階壓縮值乃與基底函數= 階導函數㈣應⑽4) ; —階值且全格式化最低有效位元來源運算元二ϊ對圖9和圖10的流程圖中的任何為表示代碼模組、代碼區段或代碼的某些部;= 24 13 015 孕碼包括-條或-條以上之可執行指令以實現流程 ro 輯功能或步驟。本發明所屬技術領域的人員皆可=疋避他替代性的實施例也包括在本說明書所揭示内^ ，土其施例的範轉内，而在此範缚内之所緣示或所气二只步驟可根據功能之不同而以不同的順序來執行‘作與順序包括同時發生或相反的次序。〃、中上雖然本發明已以較佳實施例揭露如上，然其定於本發明，任何熟纽技藝者，在领離;^明和範圍内，當可作些許之更動與潤飾，因此本發 = 範圍當視後附之申請專利範圍所界定者為準。X 保嗖【圖式簡單說明】參照圖式可以更清楚地瞭解本發明，其並未按比例繪製，而是用以清楚地說明本i明^ 統和方法的原理。此外，在圖式中，相乃=糸之元件符縣示。 u件乃以相同圖1為執行泰勒級數近似法相關之功能方塊圖。 =是本發明之對數處理系統—施例之方塊圖。認7 對數處理，一實施例之功能方塊圖。 e j 处理系統一實施例之功能方塊圖。圖8為對數處理系統一實施例之功能方塊圖。之流=騎數4理方法料於二階軸級數之—實施例施例之、=為對數處理方法對等於-階泰勒級數之-實【主要元件符號說明】 25 :wf.doc/g 316 :查表〇 318 :查表 1/2 324 : FMAD 單元 326 :正規化（1)方塊 328:格式器（2)方塊格式器（3)方塊 342、344 :多工器

9〇2·執行第一查表以提供基底函數對應之全精度格式化基底值 9〇4·執行第二查表求得對應之一階壓縮值和二階壓縮化、、々值二其中一階壓縮值對應於基底函數之一階導函數，階壓縮化約值對應於基底函數之化約二階導函數9〇6: 解壓縮-階值和二階化約值，並以全精度格式化該解壓縮之一階值和二次化約值

、908:正規化最低有效位元來源運算元且以全精度格式化此正規化最低有效位元來源運算元 91〇·執行全精度格式化一階值及二次化約值和全精 ^格式化最低有效位元來源運算元之第一組合以形成第一、结果來诉行此第—結果及全精度格式化最低有效位元木源運开疋和全精度格式化基底值之第二組合，數函數對 1002··執行式化基底值第一查表以提供基底函數對應之全精度柊 27 13015¾ wf.doc/g 賴：執料二查表求得對叙1_值，該-階壓縮值對應於基底函數之一階導函數】〇〇6:解㈣1值且全精度格式化該解壓縮一階值麵：正規化最低有效位元來源運算元且以全精度格式化该正規化最低有效位元來源運算元 .〜· 010…、且s王精度格式化基底值、全精度格式化一階 v 餘*精度格式化最财效位絲料算it，以計算對數 28

Claims

13015¾ fd〇c/g 十、申請專利範圍：種用於計算對數函數的方法，包括：執行第一查表，求得一基底函數對應之全精度格式化基底值；執行第二查表，求得對應之一階壓縮值，而該一階壓縮值對應於該基底函數之一階導函數；土解壓縮該一階壓縮值；

全精度格式化該解壓縮一階值，以提供一全精度格式化之一階值；上正規化一最低有效位元來源運算元，且以全精度格式化^正規化最低有效位元來源運算元以提供一全精度格式化最低有效位元來源運算元；以及 / 執行一組合步驟，組合該全精度格式化基底值、該全，度秸式化一階值與該全精度格式化最低有效位元來源運异兀，以計算該對數函數。 2·根據申請專利範圍第丨項所述之方法，其中該組人之步驟包括計算一個一階泰勒級數。、口之據巾請專利範圍第1項所述之方法，其中該組合低括^全，度格式化—階值與該全精度格式化最驟源運异70相乘，而得—乘積，且該組合之步 A 4 ;二Ϊ將該乘積與該全精度格式化基底值相加。 .根據巾4專利範圍第丨項所述之方法，1㈣某底其中X等於zO+z卜 .根據申。月專利乾圍第4項所述之方法，其中該最低 29

執行一第一查表，以提供一基底函數對應之一全精度格式化基底值； I3015i^Stwf.d〇c/g 2位元⑽運算元職於zl，該全精錢基底值對心；f(zG) ’該基底函數之_階導函數對應於广㈣。 6.根據中請專利範圍第！項所述之方法，其中以全精 J格式化賴壓縮-階值以提供—全精度格式化之一階其步称包括將该解壓縮一階值轉換為正規化iEEE-754 格式。 7·根據中請專利範圍第丨項所述之方法，其中該組合之步驟乃藉由標準混合浮點乘加軟體來實施。 8· —種用於計算對數函數之方法，包括：執行一第二查表，求得對應之一階壓縮值與二階壓縮化j值，該一階壓縮值對應於該基底函數之一階導函數，而忒一階壓縮化約值對應於該基底函數化約二階導函數；解壓縮該一階壓縮值與二階壓縮化約值；八吐全精度格式化該解壓縮一階值和二階化約值，以提供王知度格式化之一階值和二階化約值； ^ 正規化一最低有效位元來源運算元並以全精度格式化規化最低有效位元來源運算元，以提供一全精度格式化最低有效位元來源運算元；及一^行一第一組合之步驟，組合該全精度格式化一階值一一階化約值與該全精度格式化最低有效位元來源運算兀，以形成一第一結果；以及格執=一第二組合之步驟，組合該第一結果及該全精度 σ二、化最低有效位元來源運算元與該全精度格式化的基 30 13015¾ f.doc/g 至该混合浮點乘加邏輯電路。 2〇·根據申請專利範圚以解壓縮和全精度格式化該，述之土統，其中該用括計數器硬體與線或電路。'自I縮值之第—邏輯電路包 21·根據申請專利範圍二邏輯電路用以正規化=17項所述之系統，其中該第精度格式化該正規化最=低有效位元來源運算元及以全器硬體、線或電路、前來源運算元乃包括計數 22.根據申請專利範圍U:位電路。一一查表記憶體和該第_ 項斤述之系統，其中該第指令和一第二指令芯=憶體用來分別實施與一第一規化用途項所述之祕，其中該正之第-邏輯電路可崎二== 一第三指令以回庫_杏汙點乘加邂輯電路合作，實施 24.㈣由It 4表，來計算該對數函數。第-多工乂器豕和_Γ第圍第23項所述之系統，更包括- 邏輯電路、卿壓二’制途，第二路、儲存暫存器與該n&i之弟一邂輯電第一多工器和兮Μ_夕點采加輯電路之間，其中該指令。σ Μ弟—夕工器可切換開關來選擇啟動複數個底函销叙纽，其令該基户爪hx厂⑷、°甘i數函數㈣2⑻對應之一階泰勒級數 _ ，其中X等於zO+zl。 ._申請專利範圍第25項所述之系統，其中該最 33 2效位絲料算元職於21，該全精度料化基底值 ί應於f(z〇) ’該基底函數之—階導函數對應於f(z〇)。 27·—種對數處理系統，其包括：一第—查表記憶體，以提供與一基底函數對應之一知度格式化基底值；、一第二查表記憶體，以提供與該基底函數之一個一階導函數對應之一個一階壓縮值和與該基底函數之一個化約〜階導函數對應之一個二階壓縮化約值； ”—一第一邏輯電路，用以解壓縮該一階壓縮值和該二階壓縮化約值，以全精度格式化該解壓縮一階值和二階化約值， μ 第一邏輯電路，用以正規化一最低有效位元來源運异兀，以全精度格式化該正規化最低有效位元來源運算元；以及一混合浮點乘加邏輯電路，用以組合該全精度格式化一^值及工階化約值和該全精度格式化最低有效位元來源運异元以形成一第一結果，其中該混合浮點乘加邏輯電路更用，組合該第一結果及該全精度格式化最低有效位元來源運算元和該全精度格式化基底值，以計算該對數函數。一 “28·根據，請專利範圍第27項所述之系統，其中該混合序點乘加邏輯電路用以減該全精度格式化二階化約值與該全精度格式化最低有效位元來源運算元，且該混合浮點乘加邏輯電路更可麟加上該全精度格式化-階值以形成該第一結果。 29.根據申請專利範圍第27項所述之系統，其中該混 34 13015^Btwf-d〇c/g 合浮點乘加邏輯雷化最低有效位元來诉=乘該第—結果與該全精度格式更用以知μ 連异兀，且該混合浮點乘加邏輯電路 3〇相=王精度格式化基底值。底函數之^^專利範圍第27項所述之系統，其中該基函數除以2。'卩自‘函數包括該基底函數之一個二階導 -查表^範圍第27項所述之系統，其中該第指令和一^ _ ^ ~罘二查表記憶體用來分別實施與一第一 3弟二指令對應之查表。規化用利範圍第31項所述之系統，其中該正之第1輯ϊ:=ί路和該解壓縮和全精度格式化用途第三指八合浮點乘加邏輯電路合作，實施一存器Ϊ令明應該查表，且將所得到結果儲存至-;-暫規化用圍第32項所述之系統，其中該正二第〜邏輯電:全精度格式化用途存器合作，每# 一…吧口汙點乘加逛輯電路和該第一暫 34:/φΓ/吨令，以計算該對數函數。第1工=4，圍第33項所述之系統，更包括-邏輯電路、兮解獻:夕工器，耦接於該正規化用途之第二路、請第一暫存哭=全精度格式化用途之第-邏輯電路之間，並㈣存暫存⑤與該混合浮點乘加邏輯電選擇複數個指^。—夕工器和該第二多1器可切換開關以 35.根據申請專利範圍第27項所述之系統，其中該基 35 13 015i798twfd〇c/g 底函數包括一個二階泰勒級數，其中 τ=Γ^)ΑΖχΧί^ ‘ ° ^ 2 )且該二階泰勒級數對應至該對數函數log 2 (X)，其中X等於zO+zl。

36.根據申請專利範圍第35項所述之系統，其中該最低有效位元來源運算元對應於zl，該全精度格式化基底值對應於f(zO)，該基底函數之一階導函數對應於f(zO)，該化約二階導函數對應於f’(z0)/2。 36