SE522520C2

SE522520C2 - Signalbearbetningssystem

Info

Publication number: SE522520C2
Application number: SE0004015A
Authority: SE
Inventors: Haakan Forsberg
Original assignee: Ericsson Telefon Ab L M
Priority date: 2000-11-02
Filing date: 2000-11-02
Publication date: 2004-02-10
Also published as: DE60144531D1; WO2002037695A3; CN1303550C; CN1531689A; EP1340162A2; US20020158792A1; ATE507532T1; AU2002212891A1; WO2002037695A8; SE0004015L; WO2002037695A2; SE0004015D0; US6873287B2; EP1340162B1

Description

o u - . q; 522 520 »- | | o u u: 2 (BB) reducerar tiden det tar att omfördela data mellan dataenheter som behandlar information i olika dimensioner, och denna egenskap är mycket viktig i ESP-system.

För att på bästa sätt använda optik i anslutningsbehandlande datasystem, måste emellertid alla optiska och optoelektriska egenskaper tas i beaktning. Dessa egenskaper inkluderar överföring i alla spatiala dimensioner, koherent ljus, och hög fan-out etc.

Faktum är att det har visat sig att optiskt frirymdsanslutna 3D-system (system som använder alla tre spatiala dimensionerna för kommunikation), med globalt och regelbundet anslutna noder, grupperade på plan, passar bäst för parallell datorarkitekturer som använder optik, se exempelvis H. M. Ozaktas, “Towards an optimal foundation architecture for optoelectronic computing”, Proceedings of Massively Parallel Processing using Optical lnterconnections, MPPOI'96, Maui, HI, USA, Oct. 27-29, 1996, pp. 8-15. Hopfällning av optiskt anslutna 3D-system till plan erbjuder även precis inriktning, mekanisk stablitet, och temperaturstabilitet vid en relativt låg kostnad J. J ahns, “Planar packaging of free-space optical interconnections”, Proceedings of the IEEE, vol. 82, no. ll, Nov. 1994, pp. 1623-1631.

Hyperkuben är en topologi som i stor utsträckning har blivit utredd. en anledning till att den blivit populär är att många andra välkända topologier som lägre dimensionella nätverk, fjärilar och ”shufﬂe-exchange” nätverk kan byggas in i hyperkubforrnationen.

En annan anledning är att denna topologi kan användas för att implementera ﬂera algoritmer som kräver alla-till-alla kommunikation, exempelvis matrisomﬂyttning, vektorreduktion , och sortering, exempelvis som beskrivet i I. Foster, Designing and Building Parallel Programs: Concepts and Tools for Parallel Soﬁware Engineering, Addison Wesley Publishing Company, Inc., Reading, MA, USA, 1995.

Geometriskt kan en hyperkub definieras med upprepning som följer: Den 0- dimenionella hyperkuben är en enkelprocessor. En n-dimensionell hyperkub med N = 2" processelement (PE) är byggd av två hyperkuber med 2” PE, där alla PEs är anslutna i ena halvan till motsvarande PEs i andra halvan. I Fig. 1, visas en sex- dimensionell hyperkub. Denna hyperkub är byggd av två SD-hyperkuber, vilka i sin tur är byggda av 4D-hyperkuber, Fig. lb. 4D-hyperkuben är vidare indelad i #D- o o o o oo 522 520 n n o u nu 3 hyperkuber, Fig. 1c. De tjocka linjerna i Figlc motsvarar åtta anslutningar var. En nackdel med hyperkuben är dess komplexitet. Den kräver ﬂer och längre ledningar än ett nätverk, då inte bara den närmaste grannen utan även grannarna på avstånd är anslutna till varandra, om dimensionen är större än tre, exempelvis ﬂer dimensioner är fysiskt utrymme. Faktum är att mängden elektriska ledningar (av olika längd) som krävs i en relativt liten hyperkub kommer att bli enormt. Betrakta exemeplvis en implementering av en 6D-hyperkub på ett mönsterkort, när överföringsvärdet av en enkelriktad länk mellan två processelement måste vara i storleksordningen lOgbit/s.

Denna implementering kräver 12,288 elektriska ledningar, av olika längd, varje registrerad med en frekvens på 312,5 MHz (32-bitar bred länk antas). Då ledningarna inte fysiskt får korsa varandra, krävs ﬂera lager.

Ovan är det angivet att anslutningsnätverket i exempelvis ESP-system effektivt måste kunna omfördela data mellan dataenheter som behandlar information i olika dimensioner. I Fi g. 2, visas denna omfördelningsprocess. Här beräknar det första klustret med beräkningselement, vänster kub, data i en dimension (markerad med en pil). Nästa arbetsenhet, höger kub, beräknar datai en annan dimension, och således måste omfördelning utföras.

Denna omfördelning av data, refererat till som hörnvändningar, redovisas för nästan all kommunikation med sarnverkansprocessorn i ESP-systemet. Notera även att hörnvändningama kräver alla-till-alla kommunikation.

I hyperkuber är en hömvändning i själva verket, ur en matematisk synvinkel, en matrisomﬂyttning. Som angivits ovan, finns därför algoritmer för denna sammankopplingstopologi. Då BB ökar linjärt med antalet processoreri hyperkuber, högre dimension leder till mycket högt BB.

En fullständig hörnsväng tar: 1 :Dm log, (P) :_ <1) PRIinLzﬁ sekunder. DM är den totala storleken på mängden data som ska omfördelas, P är antalet processoreri hyperkuben, och Rh-nkßﬁ är den effektiva överföringshastigheten hos en 2 2 5 2 0 j§§f - ._;; - zjj: if; 4 enkel länk i en riktning när fasta delen undantas, exempelvis meddelandes starttid.

Ekvationen ovan baseras på hyperkubens omﬂyttningsalgoiitm som beskrivs i I. Foster, Designing and Building Parallel Programs: Concepts and Tools for Parallel Software Engineering, Addison Wesley Publishing Company, Inc., Reading, MA, USA, 1995. I denna algoritm, byts data bara i en dimension åt gången. Att använda denna en- dimension-åt-gången procedur är resultatet av de kostandssparande "enkel-port" egenskaperna. Detta är en extra egenskap jämfört med enkel-port kommunikation där en nod bara kan sända och motta på en av sina portar samtidigt. Dessutom kan varje nod även ta emot olika data från olika grannar samtidigt, exempelvis liknande en ﬂerportsegenskap. Algoritmen som har valts här är emellertid samma som "SBT-routing scheme" beskrivet av S. L. Johnsson and C-T. Ho, “Optimum broadcasting and personalized communication in hypercubes”, IEEE Transactions on Computers, vol. 38, no 9. Sept. 1989, pp. 1249-1268. "SBT-routing" är inom en faktor av två av den lägre gränsen för en-port alla-till-alla personifierad kommunikation.

I utsändning är dataöverföringstiden för en-port kommunikation rninimerad om en dimension sänds per tid, exempelvis samma princip som ovan, och alla använder samma schemalagda ordning. Då man använder denna princip, kopierar varje nod sin egen mängd data M till sin första granne (tillsammans med den första dimensionen) och samtidigt mottas en mängd M data från samma granne. Nästa gång kopierar vaije nod sin egen data och data som just mottagits från den första grannen, till den andra grannen (tillsammans med den andra dimensionen), och samtidigt mottas en mängd 2M data.

Denna procedur upprepas över alla dimensionema i hyperkuben.

Således måste varje nod sända och mottaga: ÉICÃÄPHTM =M (2) I mängd data. M är datastorleken i varje nod som måste kopieras till alla andra noder i hyperkuben, och P är antalet processorer (noder). Då varje nod har en effektiv överföringshastighet på Rh-nkßﬂf, kommer utsändning ta: (P -1)M i- (3) Rlinlneﬁ v o u | av 522 520 sekunder. Denna ekvation gäller emellertid bara om noderna anses vara enkel-port. I verkligheten, som beskrivet ovan, kan en datakopia från en nod faktiskt distribueras till alla log; (P) grannar samtidigt, och varje nod kan faktiskt mottaga data från alla sina grannar samtidigt. Ekvationen ovan ska följaktligen inte anses vara det optimala för denna konstruktion, men bra nog för sitt syfte.

SAMMANFATTNING Huvudsyftet med uppfinningen är att tillhandahålla en metod och en anordning, som löser problemen som är relaterade till de kända teknikerna som använder optisk sarnmankoppling mellan ett antal processelement. Dessutom är ett annat syfte med uppfinningen, att använda optiska egenskaper såsom överföringi alla spatiala dimensioner, ljus koherens, hög bandbredd, och fan-out etc.

Således är de inledningsvis nämnda beräkningsenhetema anordnade i kluster och arbetar oberoende och överför data simultant, och att nänmda processelement är globalt och regelbundet optiskt sammankopplade i en hyperkubtopologi och transformerade i ett vågledarplan. Företrädesvis är nämnda optiska koppling en frirymdskoppling.

Beräkningsenheterna innefattar åtminstone ett transparent substrat med en första och en andra yta, åtminstone en av nämnda ytor är anordnade med nämnda beräkningselement.

Processorelementen är sammankopplade med varandra och till processorelement till åtminstone en närliggande beräkningsenhet genom optisk koppling. I en utföringsfonn är åtminstone en av nämnda ytor reﬂekterande och nänmda optiska sammankoppling i varje substrat uppnås genom reﬂektion på nämnda reﬂekterande yta. Den optiska sammankopplingen i varje substrat kan även uppnås genom stråldelningsanordningar, vilken ger en hög fan-out.

Varje substrat är försett med optiska element för nämnda optiska sammankoppling mellan substratcn. För att få hög kapacitet innefattar anordningen medel för kanaltidsdelning för överföring av olika data som skickats till alla grannar samtidigt. 522 520 s » ø u ou 6 Företrädesvis är beräkningsenhetema identiska vilket tillåter att de staplas.

Beräkningsenhetema kan emellertid anordnas sida-vid-sida sammankopplade via optiska fibrer.

Alltså kan beräkningsenheterna anordnas i en hyperkubtopologi formande ett samrnankopplande nätverk inom nämnda anordning.

Processelementen kan anordnas enligt planar förpackningstekiiik.

Uppfinningen avser även en metod att tillhandahålla en anordning för inbyggd signalbearbetning, innefattande ett antal beräkningsenheter, varje beräkningsenhet innefattande ett antal beräkningselement som kan arbeta oberoende och som överför data simultant. Metoden innefattar stegen att anordna nämnda dataenheter i kluster för att de ska arbeta oberoende och sända data simultant, optiskt sammankoppla nämnda processorelement globalt och regelbundet i en hyperkubtopologi och transformera nämnda hyperkub till ett vågledarplan.

Vidare berör uppfinningen ett luftburet radarsystem innefattande en databearbetningsenhet för rymdtid adaptivbearbetning - "Space Time Adaptive Processing" (STAP), databearbetningenheten innefattar ett antal beräkningsenheter, varje beräkningsenhet innefattar ett antal processelement, som kan arbeta oberoende och sända data simultant. Beräkningsenheterna är anordnade i kluster och arbetar oberoende och överför data simultant, och att nämnda processorelement är globalt och regelbundet optiskt sammankopplade i en hyperkubtopologi och transformerade till ett vågledatplan.

Beräkningsenheten är anordnad att fungera som video-till-I/Q konverteringsenhet, gruppkalibereringsenhet, pulskompressionsenhet, Dopplerberäkningssteg, vikttillämpningsenhet och viktberäkningsenhet anordnade som rörledningssteg. Video- till-I/Q konverteringsenheten, gruppkalibreringsenheten, pulskompressionsenheten och Dopplerberälmingssteget är anordnade som en sex-dimensionell hyperkub.

Vikttillärnpningsenheten och viktberäkningsenheten är anordnade som ett antal fem- dimensionella hyperkuber. 522 520 a u n I | co 7 Uppfinningen avser även ett markradarsystem innefattande en databearbetningsenhet innefattande ett antal beräkningsenheter, varje berälcningsenhet innefattar ett antal beräkningselement som kan arbeta oberoende och kan sända data simultant.

Beräkningsenhetena är anordnade i kluster och arbetar oberoende och sänder sata simultant, och nämnda processelement är globalt och regelbundet optískt sammankopplade i en hyperkubtopologi och transforrnerade till vågledarplan.

Berälmingsenheten är anordnad att fungera som en digital strålformningsenhet, pulskompressionsenhet, Dopplerbearbetningssteg, envelopdetekteringsenhet, "Constant False Alarm Ratio" enhet (CFAR) och en extraktionsenhet. Digitala strålfonnningsenheten, pulskompressionsenheten, Dopplerbearbetningssteget, envelopdetekteiingsenheten är anordnade som två sju-dimensionella hyperkuber.

"Constant False Alarm Ratio" enheten och en extraktionsenhet är anordnade som ett antal fem-dimensionella hyperkuber.

Enligt en metod att behandla data i ovan nämnda luftburna radarsystem, stegen som utförs är: 1. förbearbetning, Dopplerbearbetning, och att uföra två hörnvridningar på samma sex-dimensionella hyperkub, 2. om datakuben är udda numrerad, vrida den och distribuera data till ett övre kluster av åtta fem-dimensionella hyperkuber, 3. om datakuben är järnnt numrerad, vrida den och distribuera data till andra kluster av fem-dimensionella hyperkuber, 4. utföra viktkompiimering och beräkning på samma arbetskluster av åtta fem- dimensionella hyperkuber och under en tidsperiod.

Enligt en metod att behandla data i ovan nämnda markradarsystem, är stegen som utförs: 1. utföra digital strålfornming, pulskompression, Dopplerbearbetning, envelopdetektering, och två hörnvridningar på nämnda sju-dimensionella hyperkub under det första koherenta intervallet, 2. vrida datakuben två gånger, från sju-dimensionell till fem-dimensionell, 3. förbereda att dela upp data mellan en puls- eller områdesdirnension beroende på ø a ø u no n v 522 520 Q Q 1 | av 8 formen av datakuben i det föregående steget, och distribuera fraktioner till ett övre kluster av fyra fem-dimensionella hyperkuber, om datakuben är udda numrerad, 4. om datakuben är jämnt numrerad, distribuera data till en andra av fem-dimensionella hyperkuberna, och . beräkna CFARen och extraktionssteget på samma kluster under den återstående tiden.

KORTFATTAD BESKRIVNING AV RITNNGARNA I följ ande kommer uppfinningen att beskrivas mer i detalj med hänvisningar till de medföljande ritningarna, i vilka: Fig. 1 är den teoretiska strukturen på hyperkuben, vari, a) är en 3D-hyperkub, b) 4D-hyperkub byggd av två 3D-hyperkuber, c) 6D-hyperkub byggd av två SD-hyperkuber, vilka i sin tur är byggda av 4D-hyperkuber, Fig. 2 visar ornfördelningen av data mellan beräkningselementen, beräknas i olika dimensioner i en hyperkub, Fig. 3 visar schematiskt topologiskt (a) och fysiskt (b) tvärsnittsvy av fyra beräkníngsenheter anordnade enligt uppfinningen, i ett första mod, Fig. 4 visar schematiskt topologiskt (a) och fysiskt (b) en tvärsnittsvy av fyra beräkníngsenheter anordnade enligt uppfinningen, i ett andra mod, Fig. 5 a) visar en utföringsform för uppfinningen som använder stråldelning för att reducera antalet horisotella sändningsmottagare med en faktor tre, b) visar stråldelare som används för att öka flexibiliteten och multiberäkningskapacitet i nätverket, på bekostnad av ﬂer mottagare, men utan ytterligare sändare, Fig. 6 är en utföringsforrn i vilken alla sändare och mottagare är anordnade i en horisontell rad formande en 3D-hyperkub, Fig. 7 visar en första utvidgning i vertikal riktning av två 3D-hyperkuber formande en 4D-hyperkub, Fig. 8 visar en utföringsform för hela beräkningsenheten - en 6D-hyperkub, Fig. 9 visar ett exempel på en hårdvaruarkitektur, ett rörledningssystem av optisk planförpackningsteknik innefattande tre 6D-hyperkuber, transformerade till plan och massivt samrnankopplade, Pig. 10 Pig. 11 Pig. 12 Fig. 13 Fig. 14 Fig. 15 Pig. 16 Pig. 17 Pig. is Pig. 19 Pig. 20 Pig. 21 Pig. 22 Pig. 23 o u n u en n 522 520 u : Q | u» 9 visar schematiskt i en utföringsform linser (eller hål) för sammankoppling av olika beräkningsenheter, vari a) visar botten linsen, som används för sändningsljus att ﬂöda ut till nästa enhet, b) visar topp linsen, som används för avskärmat ljus in i substratet från förra enheten och c) är en vy uppifrån sett, är en illustration av topologisk (a) och fysisk (b) vy över en 7D- hyperkub, visar fyra oberoende arbeteande kedjor av 4D-hyperkuber, vari varje kedja är markerad med sitt eget nummer från 1-4, visar en alternativ implementation av rörledningssystemet för optisk planar förpackningsteknik hyperkuber enligt uppfinningen, är ett annat ekvivalent system för rörledning hyperkuber, är ett blockdiagram som visar det algoritmiska rörledningssteget i ett luftburet STAP-radarsystem, visar schematiskt distribuering av QR-dekomposition i en datakub, visar två alternativa arbetskedj or i viktberäkningssteget för att förlänga arbetstiden och reducera förprocessor belastningen, är ett blockdiagram som visar slutluftbuma radarsystemet final, en 6D- hyperkub och sexton 5D-hyperkuber, exempelvis 576 processorer, är ett blockdiagram som visar det algoritmiska rörledningssteget i ett markradarsystem, är en schematisk vy över en datakub som är delade i tre fraktioner, visar ett blockdiagram med data delat i antingen en pulsdimension eller i en områdesdimension, och visar ett blockdiagram med data delat i antingen en pulsdimension eller i en områdesdimension, och visar exempel på olika topologier inbyggda i en hyperkub.

BESKRIVNING AV UTFÖRINGSFORMER I det följ ande kommer andra fördelar och nytta med uppfinningen bli klarare i samverkan med beskrivning av några föredragna utföringsformer. a u | ø o» o v 522 520 u v ~ u o: Arkitekturen på en beräkningsanordning enligt uppfinningen består av flera beräkningsmoduler som arbetar oberoende och överför data simultant för att uppnå hög kapacitet. Varje beräkningsmodul är sammansatt av ﬂera processorer kopplade i en hyperkubstopologi för att infria skalbarhet och hög bisektionellt bandbreddskrav. Optisk frirymds sammankoppling och planförpackningsteknik gör det möjligt att transformera hyperkuberna till paln. Optisk fan-out reducerar antalet optiska sändare och således hårdvarukostnaderna.

Generellt, verkar det som att hyperkuben är en exceptionellt god topologi för system såsom ESP eller liknande. Den enda nackdelen är dess sammankopplingskomplexitet.

Genom att använda optiska egenskaper i fri-rymden vrids emellertid sammankopplade 3D-system till plan, och sammankopplingskomplexiteten kan reduceras kraftigt.

Det finns ﬂera anledningar att fälla samman optiskt kopplade 3D-systems till plan, inklusive de som redan nämnts ovan. En anledning är möjligheten att kyla, testa, och laga kretsarna på ett enkelt sätt.

I optisk planarteknologi, är vågledarna tillverkade av glas eller transparent halvledarbaserade substrat. Dessa substrat verkar som ett ljusburet medium och som bärare för ytmonterad optisk elektronik och elektroniska chip. Även micro-optiska element, såsom stråldelare och mikrolinser, kan fästas både på toppen- och bottensidorna av substratet. För att kunna innesluta de optiska strålarna i det ljusbuma mediet, är ytan täckt med en brytningsstruktur. Strålarna kommer således att "studsa" på ytan.

I följande sex steg, 1-6 och Fig.3-8, beskrivs en samsortering av en 6D- hyperkubtopologi till ett vågledarplan. Då en 6D-hyperkub samsorteras till ett plan, är det naturligt att föreställa sig att tre av topologidimensionema transformeras till en fysikalisk riktning på substratet, här kallad horisontell riktning. De andra tre topologidimensionerna är således transforrnerade till den andra fysikaliska riktningen, här kallad vertikal. Vidare då hyperkuben är symmetrisk, är allt som är giltligt i en riktning automatiskt giltli gt i den andra riktningen. Genom hela beskrivningen kommer hänvisningsbetecknin gen 10 avse substratet, 20 en PE, 30 en ljusstråle, 40 en stråldelare, 50 en lins och 100 en beräkningsenhet innefattande ett substrat och PEer. | ø o e oo 522 520 ll Steg 1: Sändare i horisontell riktning.

I en 6D-hyperkub, fig. 3a och 6b, har varje processelement 20 sex grannar. Fysikalsikt motsvarar detta tre horisontella och tre vertikala grannar. I Fig. 3, visas både hyperkubens topologiska (3a) och fysiska (3b) struktur. PEn 20a, mörkfärgad, sänder data till sina tre horisontella grannar 20.

Steg 2: Mottagare i horisontell riktning.

På samma sätt måste en PE kunna ta emot data från sina tre horisontella grannar; detta visas i Fig. 4a och 4b.

Genom att använda diffrakterande element, är det enkelt att skapa stråldelning, exempelvis, genom att använda den optiska fan-out egenskapen. Om stråldelning används reduceras antalet horisontella sändare med en faktor tre och såledesreduceras hårdvarukostnaden utan att hypertopologin, så som den visas i Fig. Sa förstörs. Någon slags kanaltidsdelning måste emellertid användas när olika data måste sändas till alla tre grannarna samtidigt, då endast en enda sändare är tillgänglig.

Väsentligt är antalet sändare är reducerat med en faktor sex (förutsatt att 6D- hyperkubema används) när stråldelning inte är bergränsad till en riktning. Men allra viktigast, om hyperkubomfördelningsalgoritmen beskriven av Foster, (I. Foster Designing ana' Building Parallel Programs: Concepts and Tools for Parallel Software Engineering, Addison Wesley Publishing Company, Inc., Reading, MA, USA, 1995) att utföra hörnvändningar, ingen prestandaförlust, även om antalet sändare reduceras med en faktor sex jämfört med ett system utan stråldelning. Således byts endast data i en dimension ut samtidigt. Notera emellertid, att hyperkudomfördelningsalgoritmen skickar (log P)/ 2 gånger mer data och P/ logP färre meddelande totalt jämfört med en enkel omväxlingsalgoritm också beskriven i Foster (P är antalet PE). Följaktligen är hyperkubomﬂyttningsalgoritmen att föredra när överföringskostnaderna är låga och att meddelandestarten är dyra. Detta resulterar i att optiska sammankopplingar med sina något högre uppstartningskostnader och höga bandbredd typiskt nog passar ornförflyttningsalgoritrnens beteende bättre än vanliga elektriska ledningar. ø v ø u oo n 522 520 12 Stråldelning kan också användas för att skapa en avancerad hyperkubtopologi med större kapacitet än originalet på bekostnad av ﬂer mottagare men utan ytterligare sändare, såsom visas i Fi g. 5b. Uppenbart kan andra hybridtopologier skapas med stråldelning.

Steg 3: Sändarreducering.

Då ingen prestandaförlust har uppstått, även om antalet sändare har reducerats med faktor sex när hörnvändningar utförs med hyperkubonifördelningsalgoritmen, är användningen av stråldelning beskriven i Fig. 5a att föredra. Ljusstrålen delas emellertid i både horisontella och vertikala riktningar och således reduceras antalet sändare maximalt.

I Fig. 3, till exempel, är det fullt möjligt att använda en enda mottagare för alla strålama. I det fallet måste alla processelement synkroniseras i hyperkuben; för att kunna använda någon slags tidsdelningsﬂeråtkomst och således undvika datakollisioner.

Med planar förpackningsteknik är en synkroniseringsklockkanal relativt enkel att implementera. J. I ahns, “Planar packaging of free-space optical interconnections”, Proceedings of the IEEE, vol. 82, no. 11, Nov. 1994, pp. 1623-1631 har, exempelvis, beskrivit en "1-to-64-signal distribution" som till exempel passar för klockdelning, med planar teknologi.

Steg 4: 3D-hyperkuber.

I Fi g. 6b har alla sändare och mottagare på en rad införts. Detta motsvarar topologin av en 3D-hyperkub.

Steg 5: 4D-hyperkuber.

För att realisera hyperkuber med högre dimensioner än tre, används vertikala riktningar.

I Fi g. 7a och 7b visas en 4D-hyperkub både topologiskt och fysiskt. Den fjärde dimensionen använder vertikal rymd.

Steg 6: 6D-hyperkuber.

En 6D-hypercube använder fullt ut både den horisontella och vertikala rymden, såsom visas i Fig. 8a och 8b. Den fysiska layouten motsvarar en hel beräkningsenhet. o c u n en v 522 520 13 Om det är omöjligt att uppnå den önskade prestandan med en beräkningsenhet, måste ﬂera beräkningsenheter samarbeta. Också då nästan alla applikationer i ESP-systemet kan delas in i beräkningsdelar som bara behöver skicka data framåt till nästa steg i en kedja, är det naturligt att koppla beräkningsenhetema i form av en rörledning, såsom visas i Fig. 9.

I Fi g. 9 kan alla PEer 20, exempelvis, i planet längst till vänster sända data till mitten planet. Men en enda PE i planet längst till vänster kan bara skicka data till en ekvivalent PE i mitten planet. På samma sätt sänder mitten planet men bara till planet längst till höger.

För att få interrnodulär kommunikation att fungera är substraten försedda med öppningar, exempelvis ljusstrålarna tillåts sprida sig via en lins 50 från en föregående enhet och även ut till nästa enhet, såsom visas i ﬁg. 10. Dessutom kan diffrakteringselement läggas till för att vägleda de inkommande strålarna 30 inuti substratet för att kunna nå rätt PE.

I Fig. 10 visas att linserna 50a och 50b behövde kopplas till olika beräkningsenheter 20.

Särskilt visar Fig. 10a bottenytans lins medan Fig. 10b visar toppytans lins. Fig. 10c visar toppvyn. Notera att bottenlinsen 50b i denna figur visas genom substratet.

Genom att tillåta kommunikation i båda riktningar-na, exempelvis, låta en modul kunna sända och ta emot data både framåt och bakåt, formas en 7D-hyperkub i själva verket av två plana grupper, som visas i Fig. lla och llb. Om fler än två plan formar en ytterligare beräkningsenhet, kommer den rena hyperkubtopologin inte bevaras då bara närliggande plan kan kommunicera med varandra. Detta är emellertid inte en begränsning i många si gnalbearbetningssystems, beroende av den rörledade karaktären av dataﬂödet.

Om bara ett verkningssätt behövs i systemet, är det möjligt att skapa en ﬂödesarkitektur för det syftet. Då det emellertid är mycket viktigt för många, exempelvis ESP- applikationer, inklusive luftbuma radar, att ändra verkningssätt på samma system som behövs i applikationen, är en arkitektur som klarar ﬂera verkningssätt att föredra. o: nu o o n u nu oc 1 v nu ao o s nu u u v y nu 'wo o 0- nov n u o n I u s man: LL. 3"2“. 1.' :2."â 2. 2” 23 ' n c u u n en u u v a ø | lo 14 Således måste olika kluster med beräkningsenheter kunna arbeta tillsammans på olika sätt.

Rörledningssystemen som beskrivs här har mycket stor potential för kartläggning av olika algoritmer på varierande sätt. Faktum är att systemet kan kan delas in i alla tre spatiala dimensionema. Ett exempel på detta visas i Fig. 12, i vilken fyra olika algoritmer kartläggs samtidigt på fyra mindre system med rörledade 4D-hyperkuber.

Det är också möjligt att skapa 5D-hyperkuber inuti varje av dessa mindre system genom att koppla två 4D-hyperkuber i olika plan.

För att kunna öka systemprestandan är hårdvaruskalbarhet av stor betydelse. I det föreslagna systemet kan högre prestanda uppnås genom att: a) lägga till ﬂer planarsystem i kedjan, b) utöka den fysiska storleken på planen, eller c) lägga till ﬂer PEer inom ett plan, exempelvis öka hyperkubdimensionen, genom antingen b) eller tätare förpackningar.

I den föredragna utföringsfonnen, intennodullänkar är optiska frirymds samrnankopplingar och alla moduler är identiska; detta underlättar tillägget av ﬂer plan.

Särskild uppmärksamhet måste emellertid riktas mot hur modulema staplas på varandra; exempelvis måste man ta hänsyn till värmebortföring etc.

Om den erfodrade prestandan överskrider beräkningsbelastningen i en enhet, exempelvis ett substrat, måste ﬂera enheter samarbeta. För att få dessa enheter att effektivt jobba tillsammans är även massiva sammankopplingar nödvändiga. Ett sätt att sammankoppla ﬂera enheter är att placera dem i en följd som i Fig. 9. Nackdelen med detta arrangemang är att varje plan bara kan sända data framåt och bakåt till det efterföljande respektive det föregående planet. Detta arrangemang passar emellertid rörledade beräkningskaraldären i de ﬂesta radarsystemen, och är därför ett bra val för sådana applikationer. Dessutom kan detta rörledade hyperkubssystem faktiskt delas i alla tre spatiala dimensionerna. Till exempel, formar två närliggande 6D-hyperkuber en 7D-hyperkub, ett paln delat i fyra lika rutor formar fyra 4D-hyperkuber, och slutligen, 522 520 ''''' " n I 0 o . n- två plan av fyra 4D-hyperkuber var kan forrna fyra 5D-hyperkuber tillsammans.

Resultatet av detta är att många funktionssätt kan utföras på systemet och detta är viktigt exempelvis i radarapplikationer.

En alternativ implementation av Fig. 9 visas i Fig. 13. I detta fall är rörledadesystemet med planar förpackningshyperkuber sarnrnanslagna till en stor rektangulär enhet.

Substraten 10 anordnas sida vid sida och kopplas samman medelst kontaktdon, linser, optiska fibrer etc. Som kan ses i Fig. 13 är det maximala ljusstudsavståndet bara avståndet till grannen som är längst bort, och inte hela substratlängden.

Det finns många fördelar med en stor enhet, till exempel, förﬂyttar sig ljusstrålarna bara i ett material jämfört med två (friluft är den andra), inga temperaturberoende omflyttningsproblem mellan olika substrat uppstår, och inga behov att öppna upp substratet för att tillåta strålarna sprida sig in och ut mellan beräkningsenheterna, etc. Å andra sidan måste ljusstrålarna förﬂytta två gånger avståndet inom substratet, och tvärtom ornfördelningsproblem, så måste böjning räknas ut. Vidare är systemets utbyggbarhet också begränsad jämfört med de andra implementeringama som visas i Fig. 9, där ﬂer plan läggs till, om systemprestandan är inadekvat.

Ett tredje ekvivalent system med rörledade hyperkuber visas i Fi g. 14. Det rutforrnade systemet som visas i den nedre delen kan emellertid betraktas som ett enplanssystem, exempelvis som ett enda plan i Fig. 9. Det är naturligtvis möjligt att lägga till ﬂer överföringskanaler.

I det följande kommer ett antal exemplariska applikationer baserade på uppﬁnningens lära beskrivas för att belysa fördelama som uppnås genom den föreliggande uppfinningen. Som exemplariska system är luftburna STAP-radar och markradar applikationer valda. Det luftburna systemet har extrema krav på beräkningsbelastningen och måttliga krav på inter-processor kommunikationen. Markradarn har å andra sidan extrema krav på inter-processor kommunikationen och måttliga krav på beräkningsbelastningen. Detta resulterar i att den nya arkitekturen måste kunna hantera både hög systembelstning och hög inter-processor dataöverföring. 522 520 u | o | s. 16 Rymdtid adaptivbearbetning (Space Time Adaptive Processing, STAP) är en teknik som används i radarsystem för att stödja brus- och störningsreducering i luftburna radar.

Hela STAP-algoritmen är emellertid lite värd för de ﬂesta applikationerna då beräkningsarbetsbelastningen är för stor och den lider av svag konvergens. Följaktligen används någon sorts belastningsreducerande och snabbkonvergerande algoritm.

Exempelvis næ-ordningens Dopplerfaktor STAP. Denna STAP-algoritm används, förutom medier (ism-efdmngen) den den hårda (fä-ordningen) realtid STAP, som ett första exempel. Således ökas beräkningsbelastningen flera gånger jämfört med 3- ordningens STAP riktlinje ovan nämnd. Orsaken till den denna ökning är ﬂera, exempelvis, 64 istället för 22 bearbetningskanaler, en högre ordnings dopplerfaktorerad STAP (Sæ-ordningen jämfört med 3-ordningen), och en högre samplingshastighet etc.

Följ ande systemparametrar antas för det luftbuma systrnet: o 64 bearbetningskanaler (L) 4 o 5-ordningens dopplerfaktorerad STAP (Q) o 32,25 ms koherent pulsintervall (CPI) (r) o 960 sampel (områdesbins) (Nd) per puls efter decimation med en faktor av fyra o 64 pulser per CPI och kanal (CP) o 8 Gbit/s effektiv dataöverföringhastighet av en enda länk i en riktning (Rh-nkeﬁ) Beroende på systemets realtids karaktär, måste en lösning vara känslig för låg accesstid.

Följaktligen bestäms ett accesstidskrav på 100 ms, d.v.s. en maximal accesstid på Srför att utföra alla beräkningar i STAP-kedjan från indata steget till det slutliga steget.

I Fig. 15 visas de algoritmiska rörledningsstegen för den valda STAP-algorithm. Kedjan 150 består av sex rörledningssteg, nämligen video-till-I/Q konvertering 151, gruppkalibrering 152, pulskompression 153, Dopplerbearbetning 154, viktberäkning 155 och slutligen vikttillärnpning 156.

Tabell 1 nedan visar beräkningsbelsatningen i varje steg. Belastningen mäts med ﬂyttal per koherent pulsintervall (och inte per sekund). Notera att alla ﬂyttalberäkningar är härledda från ekvationer i K. C. Cain, J. A. Torres, och R. T. Williams, “ RT_STAP: Real-time space-time adaptive processing benchmark”, MITRE Technical Report, The I I u n nu I e 522 520 u I O o a u» 17 MITRE Corporation, Center for Air Force C3 Systems, Bedford, Massachusetts, USA, 1997 (Cain). Notera även att gmppkalibrerings- och pulskompressionsstegen är kombinerade i Tabell 1.

Rörledningssteg Flops per CPI video-tin-I/Q-konvenefing 4,56 *108 Gruppkal. och pulskompr. 4,51 * 108 Dopplerbearbetriing 1,28 * 108 Viktberäkning 5,05 *1010 vmberakningkaikyi 1,57 *108 Tabell 1 Klart är att det svåraste steget att beräkna är viktberäkning (en faktor av 100 gånger ﬂer beräkningar än de andra stegen).

I ett första steg antas att en processor med sitt egna minne används. Orn alla beräkningar utförs med en processor, måste 5,17 *101° ﬂyttal utföras under en CPI. Detta motsvarar en odämpad prestanda på mer än 1,6 TFLOPS (Tera Floating Point Operations Per Second) och detta är för högt för en enda processor. Som konsekvens av detta måste förprocessor belstnin gen minskas genom att man använder flera processorer och genom att man använder det maximalt tillåtna verkningstiden, d.v.s. den maximala accesstiden (tre CPIs). Den utökade arbetstiden uppnås genom rörledning av några beräkningsdelar i kedjan. Genom att använda många processorer kommer tiden som spenderas i inter- processor kommunikation vara märkbar och måste tas med i beräkningarna.

Då viktberälcningssteget 155 är det mest kritiska, analyseras detta först. I detta steg dominerar QR-sönderdelningen beräkningskomplexiteten. En QR-sönderdelning är en numeriskt stabil metod för triangulära matriser. Det totala antalet QR-sönderdalningar att berkna i hela datakuben beror av den valda al goritmen. I detta exempel genomförs en QR-sönderdelning på en matriskonvertering en fjärdedel av alla sarnpelområden i en puls, och över alla motsvarande kanaler (lober), såsom visas i Fig. 16. Denna delning kräver, emellertid, att datakuben är omfördelad från en Dopplerorienterad vy till en 18 ornrådesorienterad vy, dvs en hörnvändning utförs antingen i Doppler- bearbetningssteget eller i viktberäkningssteget. Då beräkningsbelastningen nästan är två gånger högre i viktberäkningssteget, undviks hörnvändningen här. För att undvika extremet hög inter-processor kommunikation, undviks även en enkel QR- sönderdelningsberälming av mer än en processor. Detta betyder att det maximala antalet processorer att användas är 256, för att beräkna viktema. För att minska preprocessorbelastningen ytterligare kan systemets skalbarhet användas och beräkningsarbetet kan delas upp på två arbetskedjor, se Fig. 18. I denna figur följer varenda datakub (udda numrerad) som ska behandlas den övre pilen, pil (a), till de mörkfärgade processorgruppen. På liknande sätt följer de jämnt numrerade datakuberna den nedre pilen, pil (b), och behandlas av den ljust färgade processorgruppen. Varje processorgrupp i Fig. 17 består av åtta SD-hyperkuber, dvs 256 processorer var. Genom att dela upp beräkningsarbetet på två arbetskedjor är det möjligt att utvidga beräkningstiden på en enda datakub två gånger, till två CPI och således reducera för- processor arbetet till hälften. Genom att inkludera belastningen i viktapplikationen in i viktberäkningssteget måste 5,07 * 1010 Flops på 256 processorer utföras under en tid av 21, dvs ett odämpad preprocessor ﬂyttalsutförande på 3,07 GFLOPS, vilket är fullt acceptabelt.

I det återstående beräkningssteget, d.v.s, video-till-I/Q konvertering 151, gruppkalibrering 152, pulskompression 153, och Doppler-bearbetningssteget 154, tillsammans måste totalt 1,03 * 109 Flops utföras under en CPI (den återstående tiden av den maximala accesstiden) minus tiden det tar att utföra två hömvändningar, såsom visas i Fig. 15, och minus tiden det tar att distribuera data till alla processoreri viktberäkningssteget.

För att kunna beräkna hörnvändningstiden måste storleken på datakuben vara känd. Det totala antalet sampel som används i varje koherent pulsintervall i algoritmen är LN dCp .

Då varje sampel är complext och reella och imaginära delarna båda är 32 bitar, är den totala storleken (Dm ) på datakuben = 252Mbi: . Detta resulterar i att det kommer ta, ICT = 1,47 ms att utföra en hömvändning på en 6D-hyperkub med 64 processorer (P=64), och 0,86 ms på en 7D-hyperkub med 128-processorer, enligt Ekvation 1 och ovan givna systemparametrar.

I O u v no I n 522 520 19 Sedan beräknas tiden det tar att distribuera data till rätt kluster med 5D-hyperkuberi viktberälmingssteget, dvs antingen bland väg a) eller b) i Fig. 17. Först vänds datakuben, för att passa 5D-hyperkubens storlek. Denna tidskalkylering är ekvivalent med ekvationen 1, förutom att data endast ﬂyttas inom en riktning i en dimension, dvs log (P) ersätts med 1 och P med P/2. Börja med en 6D-hyperkub, vänds data en gång, men sedan man börjat med en 7D-hyperkub, läggs tiden det tar att vända data från en 7D- till en 6D-hyperkub först till. Sedan ﬂyttas all data till den första 5D-hyperkuben, vilken i sin tur måste ﬂyttas 7/ 8 till nästa 5D-hyperkub i kedjan etc. Denna dataförﬂyttning kan emellertid vara rörledad, d.v.s. så fort som nästa hyperkub får sin första data, börjar den skicka denna data vidare till nästa kub etc. Den totala tiden att distribuera data till alla 5D-hyperkuber från en 6D-hyperkub och en 7D-hyperkub är således, tD = 1,47 ms respektive 1,72 ms. Tiden som är kvar att beräkna 1,03 * 109 Flops i en 6D-hyperkub är således 27,84 ms (r - 2 tg; - ID), dvs en permanent preprocessor ﬂyttal utförande på 578 MFLOPS. Detta är väl under den preprocessor belastningen som behövs i viktberälcningssteget. Resultatet av detta är att det inte är nödvändigt att använda en 7D-hyperkub i resten av kedjan. (Preprocessor belastningen som använder en 7D-hyperkub är 279 MFLOPS.) Det slutliga luftburna systemet består således av nio rörledade optiska substrat, d.v.s. 576 processorer, enligt Fig. 18. Arbetssättet blir som följer: 1. Preprocessa, Doppler-processa och två hörnvändningar utförs på samma 6D-hyperkub. 2. Om datakuben är udda nurnrerad, vrid den och distribuera den till det övre klustret av åtta 5D-hyperkuber (pil a) i Fi g. 18. Om datakuben är jämnt numrerad, vrid den och distribuera den till de andra ldustema av 5D-hyperkubema (pil b) i Fig. 18. Denna distribuering äger rum i samma tidsintervall som i steg 1. 3. Sedan utförs både viktberäkrring och applikation på samma arbetskluster av åtta 5D- hyperkuber och under en tidsperiod lika med 2 CPIs.

I ett markradarsystem, som redan nämnts, särskilt i markradarsystemet med 128 kanaler; är det mindre krav på flytta] än i luftburna system.

Interprocessorkommunikation kraven är emellertid högre. Både specifierad och 522 520 ' I I v u» radiosänd alla-till-alla kommunikation uppstår. Följ ande systemparainetrar antas för markradarsystemet: ~ 128 processing kanaler (L) o 400 kHz max puls rep. frek. (fPRF) v 10 ms koherent pulsintervall (CPI) (I) ~ 6,25 Msample per sekund och kanal (N,) o 8 Gbit/s effektiv dataöverföringshastighet för en enda länk i en riktning (Rh-nkßﬂf) I Fig. 19, visas det algoritmiska rörledningssteget för den valda algoritmen. Kedjan 190 består av sex rörledningssteg, nämligen, digital strålformning 191, pulskompression 192, Dopplerbearbetning 193, envelopdetektering 194, Constant False Alarm Ratio (CFAR) 195, och extrahering 196. Beräkningsbelastningen för alla utom extraheringssteget visas i Tabell 2.

Flops per CPI i Digital strålformning 2,80 * 10 Pulskompression 1,02 * 109 Doppierbwbeming 4,72 * 10* Envelopdeæktmng 3,20 * 107 CFAR 2,75 * 10” Tabell 2 CFAR-steget reducerar data mycket bra, således behöver extraktorn varken mycket beräkníngskraft eller mycket kommunikationstid jämfört med de andra stegen.

Följaktligen presenteras inga speciﬁka beräkningar här och man kan faktiskt anta att extraktorsteget kan beräknas i CFAR-steget. Som i det luftburna fallet, mäts belastningen i Flops per CPI. Notera, emellertid att CPIn här bara är 10 ms jämfört med 32.25 ms som i det luftburna fallet, vilket betyder att tiden som spenderas i inter- processor kommunikation är viktigare. Den maximala accesstiden är 31, dvs 30 ms.

Syftet med CFAR-processen är att minska antalet möjliga mål i varje CPI, genom att bara tillåta ett konstant antal falska objekt under en given tid. Denna process kan ske på I o a v u: uu 522 520 n | ~ v av 21 olika sätt. Sett från en kommunikationvy, den enklaste CFAR-metoden fungerar bara i en dimension, vanligen inom området, och den svåraste metoden fungerar i ﬂera dimensioner, med grannskapet definierat som volym. Dessutom kan många olika CFAR-teknik användas i varje kommunikationsfall, och beräkningsbelastningen är vanligtvis inget problem. Som en konsekvens av detta måste många designrar välja en CFAR-metod baserad på hastigheten på inter-processornätverket och inte på processorprestandan. Här är emellertid inte valet av CFAR-metod kritiskt, då vårat nätverk är designat för snabb kommunikation. Således har en metod baserad på ordnad statistik-CFAR valts, där de omgivande grannarna i alla tre dimensionerna (puls, område, och kanal) är ordnad i amplitud. Cellen under test (CUT) anses vara ett möjligt mål om dess värde, multiplicerat med en viss konstant, är större än k grannceller. I detta fall är omgivningen en 7x7x7 volym, dvs k är 342. Detta betyder också att varje cell måste distribueras till alla andra noder som beräknar ordningsstatistik på en CUT som hör hemma i cellens grannskap.

I enlighet med det luftburna systemet, dvs beräkning av den totala systembelastningen om endast en processor används, resultatet är här 4,55 * 109 Flops per CPI. Detta motsvarar 455 GFLOPS och är för mycket för en enda processorlösning. Beräkningarna är således uppdelade på flera processorer och använder den maximala tillgängliga accesstiden.

Två hömvändningar måste utföras före CFAR steget, såsom kan ses i Fi g. 19. Först, samplas data per kanal, dvs varje nod tar emot data från en eller ﬂera kanaler. Digital strålfomining fungerar emellertid i kanaldimensionen. Således omfördelas data på ett sådant sätt att varje nod tar hand om alla data från alla områden och kanaler i en eller fler pulser. På samma sätt görs en andra hömvändning innan Doppler-steget, då data behandlas av pulsdimensionen i Dopplerbearbetning.

Storleken pådatalcuben som ska hömvändas är LNsr sampel. Varje sampel är komplext och består av 64 bitar. Dm är således 512 Mbit. Som resultat av detta, kommer det att ta tg = 3 ms att utföra en hömvändning på en 6D-hyperkub med 64 processorer (P=64), och 1.75 ms på en 7D-hyperkub med 128-processorer, enligt ekvation 1 och systemparametrarna som angivits ovan. 522 520 22 Om en digital strålfonrniing, pulskompression, Dopplerbearbetning, och envelopdetektering utförs under samman tidsperiod, måste 1.80 * 109 Flops under ett intervall på 1 - 2tC1 utföras. Detta ger en odämpad för-processor prestanda på 7,05 GFLOPS på en 6D-hyperkub och 2,17 GFLOPS på en 7D-hyperkub. Således väljs en 7D-hyperkub.

I CFAR-steget, som nämnts ovan, måste varje cell distribueras till alla andra noder som beräknar ordnad statistik på en CUT inom cellens grannskap. Detta är inget trivialt problem, och det är inte en hel sändning. Även om det emellertid inte är en hel alla-till- alla dataöverföring som har genomförts, är det möjligt att åtminstone garantera att vi är på rätt sida av tidsgränsen om hel sändning beräknas, dvs. alla noder kopierar data till alla andra noder.

Om en nodlagringskapacitet förbises som begränsande faktor är tiden som det tar att genomföra en fullständing sändning med M = Dﬂ-m/P, på en 6D-hyperkub, 31,5 ms, enligt ekvation 3. Detta är alldeles för mycket (även mer än den maximalt tillåtna accesstiden). Notera att Dm, bara är 256 Mbit nu, då envelopdetekteringssteget har konverterat de komplexa sampeln till reella 32-bitars värden. Vi behöver således reducera preprocessordataöverföringens storlek, M, genom att dela upp datakuben över mer än en databeräkning hyperkub. Även val tiden är förlängd genom att ﬂera arbetskedjor används i CFAR-steget (på samma sätt som i viktberäkningssteget i det luftburna systemet, se Fig. 17). Att distribuera data till ﬂera plan kommer naturligtvis kräva mer tid. Den totala kommunikationstiden kommer emellertid minska, då den spenderade sändningstiden då man använder sig av ﬂera plan är mycket reducerad.

Först ser denna interplana datadistributionen ut att vara ett trivialt problem; dela bara upp varje noddata i lika delar, och överför dessa plus överlappningen som behövs framåt, se Fig. 20. Men då datakuben kan vara formad i olika former (beroende på pulsrepetitionsfrekvensen), kan datakuben vara delad i pulsdimensionen eller ornrådesdimensionen, se Fig. 21. Denna delning genomförs i den dimension som ger lägst möjliga dataöverlappningsstorlek. Detta kommer också att reducera sändningstiden. Vår policy är således: 1. Om # räckviddsområde (BR) < # pulsområde (Bp), delad mellan pulsdimensionen, H o n v n: 522 520 23 dvs. enligt Fi g. 21a. 2. Om BR 2 Bp, delad mellan ornrådesdimension, dvs enligt Fig. 21b.

Den maximala distributions- och sändningstiden kommer uppträda när antalet räckviddsområden är lika med antalet pulsområden. Antalet sarnpel per kanal under en CPI är N51' = 6,25 * 104. Detta motsvarar BR = Bp = 250. Om grannen är 7x7x7, kommer överlappningssektionen i Pig. 9 vara sex områden. Överlappningen som måste skickas vidare, å, är således tre områden. Storleken för ett överlapp i hela datakuben är däför: om = Önun(BR,B,)L (4) Vilket ger oss den maximala osize = 3*250*128 = 96,000 sampelar eller 3,072 Mbit.

Mängden data som ska distribueras om bara två hyperkubenheter används är 1/2 Dm + om., Om tre hyperkubenheter används, sänds först 2/3 Dsize + om till mellanenheten, och sedan 1/3 Dm., + om, till sista enheten. Denna sista överföring kommer emellertidatt vara rörledad med den första. Om även ytterligare hyperkubkluster används, kommer alla överföringar att vara rörledade. Datadistributionstiden till x kluster är följaktligen: X í___ p. >1 (s), Rlínk Pduster där Pchme, är antalet processorer inom en hyperkub. Notera emellertid att ekvationen ovan inte är giltlig om hyperkuberna har skapats från grupper med två närliggande plan, exempelvis, två plan delade till två 5D-hyperkuber var, är sammanslagna till två inter- plan 6D-hyperkuber istället. Anledningen till detta är att bandbredden mellan två inter- plan hyperkuber är begränsad. Dessutom ökar även överföringstiden om inter-plan hyperkuber används, då sändningen måste utföras över en extra (onödig) dimension.

Sändningstiden inom ett kluster är sedan (baserat på ekvation 3): (hinner _ Du." + Zosize ) __íxí__ (6) tbroadcar: (x) = R P Iinlgzﬁ' Cluster 9 U I I OI n 522 520 v ~ « . .. 24 Notera att x måste vara större än 1. Notera även att en mellansändningsenhet måste dela oﬂ-ze data med både den föregående och nästa enhet, följaktligen den dubbla omg termen ovan. Totala tiden som är kvar att beräkna CFAR är då: tlzff (x) = tperiod _tdis1(x) -tbroadcarr (x) ;x > 1 där tpen-od är maximala tidsperioden att använda i CFAR steget. Som nämnts ovan kan ﬂera beräkningskedjor användas för att förlänga arbetstiden. Notera emellertid, att det är icke önskvärt att använda mer än två arbetskedjor här, då tpen-od alltid är mindre än 2r om den maximala accesstiden är 31 och det andra steget arbetar under lr, och följaktligen kan bara två arbetskedjor vara verksamma samtidigt. Om den maximala accesstiden emellertid var längre, exempelvis 51, kxmde ﬂer arbetskedjor vara verksamma samtidigt.

Bortsett från detta, betyder en maximal accesstid på 31 att den enda lämpliga konfigurationen i CFAR-processen att använda två arbetskedjor med 5D-hyperkuber var. rpm-od kommer då bli 21: minus tiden det tar att vika data från en 7D-hyperkub till en SD-hyperkub. Vikningstiden för en 256 Mbitar datakub från en 7D- till en 5D-hyperkub är 0,75 ms, enligt den modifierade ekvationen 1 diskuterad i det luftburnasystemet.

Genom att använda alla akvationerna ovan ger oss uttrycket för den odämpade pre- processor belastningen: 2.75 *109 cpuwpfﬁliff.. ;x>1 (s) lzﬁ I tabell 3 visas preprocessorbelastningen för två till sex 5D-hyperkub arbetsenheter. Då det är icke önskvärt att överskrida en preprocessorbelastning på 3 GFLOPS, väljs ett system med fyra SD-hyperkuber. Den odärnpade preprocessorbelastningen är då 2,15 GFLOPS, vilket är väl under den oönskade gränsen. Till följd av detta kan extraktionssteget förhoppningsvis beräknas under samma tidsperiod.

OI . ,:"".: 'nu u -=°::- n; g, i o I I o: n ;:'q' 1 0 u ' ' v n r | q, Antal SD-hyperkuber i Ffrl-:mqessqr arbetskedjan (x) e 'Wang l GFLOPS 2 17,22 3 3,82 4 2,15 1,50 6 1,15 Tabell 3 Det slutliga markradarsystemet består följaktligen av sex rörledade optiska substrat, dvs. 384 processorer, som visas i Fig. 22. Förfaringssättet blir som följer: 1. Digital strålformning, pulskompression, Dopplerbearbetning, envelopdetetering, och två hörnvändningar utförs på en 7D-hyperkub under den första CPIn. 2. Vänd datakuben två gånger (från 7D till 5D). Förbered att dela upp den mellan puls- eller områdesdimensionen beroende av datakubens form i det föregående steget, och slutligen distribuera fraktionerna till det övre klustret på fyra 5D- hyperkuber (pil a) i Fig. 11, om datakuben är udda numrerad. Om datakuben är jämnt numrerad, distribuera den till det andra klustret av 5D-hyperkubeen (pil b) i Fig. 22. 3. Beräkna CFAR och extraktionssteget på samma kluster som beskrivet ovan under resten av den tillgängliga tiden.

Fig. 23a-23c visar ﬂexibiliteten hos hyperkuben. I denna figur har en 4D-hyperkub fyra andra topologier, a. ett ”spanning tree", b. ett nät, c. en fjäril och d. en ring. Fjärilen är mycket intressant för både radar- och routerapplikationer. Uppﬁnnin gen är särskilt intressant för routerapplikationer där en enorm mängd datatrafik måste hanteras.

Uppﬁnningen är inte begränsad till de visade och beskrivna utföringsformerna, utan kan varieras på ett antal sätt utan att avvika från omfånget för de vidhängda patentkraven och arrangemanget och metoden kan implementeras på varierande antal sätt beroende på applikation, funktionsenhet, behov och krav etc.

Claims

10 15 20 25 30 /l 522 520 u a | - en 26 PATENTKRAV 1. En anordning avsedd för inbyggd si gnalbearbetning, innefattande ett antal beräkningsenheter (100), varje beräkningsenhet innefattande ett antal beräkningselement (20) som arbetar oberoende och som överför data simultant, kännetecknad av att nämnda beräkningsenheter är anordnade i kluster och arbetar oberoende och överför data simultant, och att nämnda beräkningselement (20) är globalt och regelbundet optiskt sammankopplade i en hyperkubsarkitektur och transformerade till ett vågledaxplan. 2. Anordningen enligt krav 1, kännetecknad av att nämnda optiska sammankoppling är en frirymdsanslutning. 3. Anordningen enligt krav 1 eller 2, kännetecknad av att nämnda beräkningsenhet består av åtminstone ett transparent substrat (10) med en första och en andra yta, åtminstone en av nämnda ytor är anordnad med nämnda beräkningselement (20), och att nämnda beräkningselement (20) är sammankopplade med varandra och med processorelement från åtminstone en närliggande beräkningsenhet genom optisk anslutning. 4. Anordningen enligt krav 1 eller 2, kännetecknad av att åtminstone en av nämnda ytor är reﬂekterande och att nämnda optiska anslutning i varje substrat uppnås genom reﬂektion på nämnda reﬂekterande yta. 5. Anordningen enligt något av de föregående kraven, kännetecknad av att nämnda optiska anslutning i varje substrat uppnås genom stråldelningsanordningar (40). 10 15 20 25 30 ..... .. 27 6. Anordningen enligt något av de föregående kraven, kännetecknad av att nänmda varje substrat är försett med optiska element för nämnda optiska anslutning mellan substraten. 7. Anordningen enligt krav 5, kännetecknad av att anordnjngen innefattar medel för kanaltidsdelning för samtidig överföring av olika data till alla grannar. 8. Anordningen enligt något av de föregående kraven, kännetecknad av att närrmda beräkningsenheter är identiska. 9. Anordningen enligt krav 8, kännetecknad av att nämnda beräkningsenheter är staplade. 10. Anordningen enligt något av de föregående kraven, kännetecknad av att nämnda beräkningsenheter är anordnade sida vid sida. 11. Anordningen enligt krav 8, kännetecknad av att nämnda beräkningsenheter är anslutna via optiska ﬁbrer. 12. Anordningen enligt något av de föregående kraven, kännetecknad av att nämnda hyberkubsanordningar med rörlednjng, är avdelade i ﬂera rymddimensioner. 13. Anordningen enligt något av de föregående kraven, kännetecknad av 10 15 20 25 30 I I o u nu n . 522 520 28 att nämnda beräkningsenheter är anordnade i hyperkubtopologi fonnande ett anslutningsnätverk inom nämnda anordning. 14. Anordningen enligt något av de föregående kraven, kännetecknad av att nämnda beräkningselement är anordnade enligt planar förpackningsteknik. 15. En metod för att förse en anordning avsedd för inbyggd signalbearbetning, innefattande ett antal beräkningsenheter (100), varje beräkningsenhet innefattande ett antal beräkningselement (20) som arbetar oberoende och som överför data simultant, kännetecknad av att anordna nämnda beräkningsenheter i kluster för att de ska arbeta oberoende och sända data simultant, och att närnnda beräkningselement (20) är globalt och regelbundet optiskt sammankopplade i en hyperkubsarkitektur och transfonnerade till ett vågledarplan. 16. Ett luftburet radarsystem innefattande en databearbetningsenhet för rymdtid adaptivbearbetning -("Space Time Adaptive Processing" (STAP)), databearbetningsenhet innefattande ett antal beräkningsenheter (100), varje beräkningsenhet innefattande ett antal beräkningselement (20) som kan arbeta oberoende och sända data simultant, kännetecknar av att nämnda beräkningsenheter är anordnade i kluster och arbetar oberoende och överför data simultant, och att nämnda beräkningselement (20) är globalt och regelbundet optiskt sammankopplade i en hyperkubsarkitektur och transforrnerade till ett vågledarplan. 17. Luftburet radarsystemet enligt krav 16, kännetecknat av att nämnda beräkningsenhet är anordnad att fungera som video-till-I/Q- konverteringsenhet (151), gmppkalibreringsenhet (152), pulskompressionsenhet (153), Dopplerbearbetningssteg (154), viktberäkningsenhet (155) och viktapplikationsenhet (156) anordnade som rörledningssteg. 10 15 20 25 30 n ø - | n. 522 520 = = .- n o - e o wo 29 18. Luftburet radarsystemet enligt krav 17, kännetecknat av att nämnda video-till-I/Q-konverteringsenhet (151), gruppkalibreringsenhet (152), pulskompressionsenhet (153) och Dopplerbearbetningssteg (154) är anordnade som en sex-dimentionell hyperkub. 19. Det luftbuma radarsystemet enligt krav 17, kännetecknat av att nämnda viktberäkningsenhet (155) och viktapplikationsenhet (156) är anordnade som ett antal fem-dimensionella hyperkuber. 20. Ett markradarsystem innefattande en databearbetningsenhet innefattande ett antal beräkningsenheter (100), varje beräkningsenhet innefattande ett antal beräkningselement (20) som kan arbeta oberoende och överföra data simultant, kännetecknat av att nämnda beräkningsenheter är anordnade i kluster och arbetar oberoende och överför data simultant, och att nämnda beräkningselement (20) är globalt och regelbundet optiskt sammankopplade i en hyperkubsarkitektur och transformerade till ett vågledarplan. 21. Markradarsystemet enligt krav 20, kännetecknat av att nämnda beräkningsenhet är anordnad att fungera som en digital strålformningsenhet (191), pulskompressionsenhet (192), Dopplerbearbetningssteg (193), envelopdetekteringsenhet (194), Constant False Alarm Ratio enhet (CFAR) (195) och en extraktionsenhet (196). 22. Markradarsystemet enligt krav 21, kännetecknat av att nämnda digitala strålforrnningsenhet, pulskompressionsenhet, Dopplerbearbetningssteg, envelopdetekteringsenhet är anordnade som två sju- dimensionella hyperkuber. 10 15 20 25 30 522 520 u n . . q. 30 23. Markradarsystemet enligt krav 21, kännetecknar av att nämnda Constant False Alarm Ratio enhet (CFAR) (195) och en extraktionsenhet (196) är anordnade som ett antal fem-dimensionella hyperkuber. 24. Metod att bearbeta data i ett luftburet system enligt något av krav 17-19, kännetecknaa' av stegen att: 1. Preprocessa, Dopplerprocessa, och utföra två hörnvändnin gar på samma sex- dimensionella hyperkub, 2. om datakuben är udda numrerad, vrid den och distribuera data till ett övre kluster av åtta fem-dimensionella hyperkuber, 3. om datakuben är jämnt numrerad, vrid den och distribuera data till andra kluster av fem-dimensionella hyperkuber, 4. utföra viktberäkning och applikation på samma arbetskluster av åtta fem- dimensionella hyperkuber och under en tidsperiod. 25. Metod att bearbeta data i ett luftburet radarsystem enligt något av krav 17-19, kännetecknad av att nämnda distribuering av steg 2 sker inom samma tidsintervall som steg 1. 26. Metod att bearbeta data i ett markradarsystem enligt något av krav 21-23, kännetecknad av stegen att:

1. utföra digital strålforrnning, pulskompression, Dopplerbearbetning, envelopdetektering, och två hörnvändningar på nämnda sju-dimensionella hyperkub under det första koherentpulsintervallet,

2. vända datakuben två gånger, från sju-dimensionell till fem-dimensionell,

3. förbereda att dela upp data mellan en puls- eller områdesdimension beroende på formen av datakuben i det föregående steget, och distibuera fraktioner till ett övre kluster av fyra fem-dimensionella hyperkuber, om datakuben är udda numrerad,

4. om datakuben är jämnt numrerad, distribuera data till en andra av fem-dimensionella hyperkubema, och 5 2 2 5 2 o . Ijfš- " u . u | v: 31

5. beräkna CFARen och extraktionssteget på samma kluster under den återstående tiden.