SE522520C2 - Signalbearbetningssystem - Google Patents

Signalbearbetningssystem

Info

Publication number
SE522520C2
SE522520C2 SE0004015A SE0004015A SE522520C2 SE 522520 C2 SE522520 C2 SE 522520C2 SE 0004015 A SE0004015 A SE 0004015A SE 0004015 A SE0004015 A SE 0004015A SE 522520 C2 SE522520 C2 SE 522520C2
Authority
SE
Sweden
Prior art keywords
unit
data
calculation
hypercube
computing
Prior art date
Application number
SE0004015A
Other languages
English (en)
Other versions
SE0004015D0 (sv
SE0004015L (sv
Inventor
Haakan Forsberg
Original Assignee
Ericsson Telefon Ab L M
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ericsson Telefon Ab L M filed Critical Ericsson Telefon Ab L M
Priority to SE0004015A priority Critical patent/SE522520C2/sv
Publication of SE0004015D0 publication Critical patent/SE0004015D0/sv
Priority to AT01981234T priority patent/ATE507532T1/de
Priority to EP01981234A priority patent/EP1340162B1/en
Priority to DE60144531T priority patent/DE60144531D1/de
Priority to AU2002212891A priority patent/AU2002212891A1/en
Priority to PCT/SE2001/002379 priority patent/WO2002037695A2/en
Priority to CNB018217052A priority patent/CN1303550C/zh
Priority to US09/985,086 priority patent/US6873287B2/en
Publication of SE0004015L publication Critical patent/SE0004015L/sv
Publication of SE522520C2 publication Critical patent/SE522520C2/sv

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B10/00Transmission systems employing electromagnetic waves other than radio-waves, e.g. infrared, visible or ultraviolet light, or employing corpuscular radiation, e.g. quantum communication
    • H04B10/80Optical aspects relating to the use of optical transmission for specific applications, not provided for in groups H04B10/03 - H04B10/70, e.g. optical power feeding or optical transmission through water
    • H04B10/801Optical aspects relating to the use of optical transmission for specific applications, not provided for in groups H04B10/03 - H04B10/70, e.g. optical power feeding or optical transmission through water using optical interconnects, e.g. light coupled isolators, circuit board interconnections
    • H04B10/803Free space interconnects, e.g. between circuit boards or chips
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/80Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
    • G06F15/8007Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors single instruction multiple data [SIMD] multiprocessors
    • G06F15/803Three-dimensional arrays or hypercubes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Optical Communication System (AREA)
  • Multi Processors (AREA)
  • Optical Integrated Circuits (AREA)
  • Complex Calculations (AREA)
  • Image Processing (AREA)
  • Light Guides In General And Applications Therefor (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Communication Control (AREA)

Description

o u - . q; 522 520 »- | | o u u: 2 (BB) reducerar tiden det tar att omfördela data mellan dataenheter som behandlar information i olika dimensioner, och denna egenskap är mycket viktig i ESP-system.
För att på bästa sätt använda optik i anslutningsbehandlande datasystem, måste emellertid alla optiska och optoelektriska egenskaper tas i beaktning. Dessa egenskaper inkluderar överföring i alla spatiala dimensioner, koherent ljus, och hög fan-out etc.
Faktum är att det har visat sig att optiskt frirymdsanslutna 3D-system (system som använder alla tre spatiala dimensionerna för kommunikation), med globalt och regelbundet anslutna noder, grupperade på plan, passar bäst för parallell datorarkitekturer som använder optik, se exempelvis H. M. Ozaktas, “Towards an optimal foundation architecture for optoelectronic computing”, Proceedings of Massively Parallel Processing using Optical lnterconnections, MPPOI'96, Maui, HI, USA, Oct. 27-29, 1996, pp. 8-15. Hopfällning av optiskt anslutna 3D-system till plan erbjuder även precis inriktning, mekanisk stablitet, och temperaturstabilitet vid en relativt låg kostnad J. J ahns, “Planar packaging of free-space optical interconnections”, Proceedings of the IEEE, vol. 82, no. ll, Nov. 1994, pp. 1623-1631.
Hyperkuben är en topologi som i stor utsträckning har blivit utredd. en anledning till att den blivit populär är att många andra välkända topologier som lägre dimensionella nätverk, fjärilar och ”shuffle-exchange” nätverk kan byggas in i hyperkubforrnationen.
En annan anledning är att denna topologi kan användas för att implementera flera algoritmer som kräver alla-till-alla kommunikation, exempelvis matrisomflyttning, vektorreduktion , och sortering, exempelvis som beskrivet i I. Foster, Designing and Building Parallel Programs: Concepts and Tools for Parallel Sofiware Engineering, Addison Wesley Publishing Company, Inc., Reading, MA, USA, 1995.
Geometriskt kan en hyperkub definieras med upprepning som följer: Den 0- dimenionella hyperkuben är en enkelprocessor. En n-dimensionell hyperkub med N = 2" processelement (PE) är byggd av två hyperkuber med 2” PE, där alla PEs är anslutna i ena halvan till motsvarande PEs i andra halvan. I Fig. 1, visas en sex- dimensionell hyperkub. Denna hyperkub är byggd av två SD-hyperkuber, vilka i sin tur är byggda av 4D-hyperkuber, Fig. lb. 4D-hyperkuben är vidare indelad i #D- o o o o oo 522 520 n n o u nu 3 hyperkuber, Fig. 1c. De tjocka linjerna i Figlc motsvarar åtta anslutningar var. En nackdel med hyperkuben är dess komplexitet. Den kräver fler och längre ledningar än ett nätverk, då inte bara den närmaste grannen utan även grannarna på avstånd är anslutna till varandra, om dimensionen är större än tre, exempelvis fler dimensioner är fysiskt utrymme. Faktum är att mängden elektriska ledningar (av olika längd) som krävs i en relativt liten hyperkub kommer att bli enormt. Betrakta exemeplvis en implementering av en 6D-hyperkub på ett mönsterkort, när överföringsvärdet av en enkelriktad länk mellan två processelement måste vara i storleksordningen lOgbit/s.
Denna implementering kräver 12,288 elektriska ledningar, av olika längd, varje registrerad med en frekvens på 312,5 MHz (32-bitar bred länk antas). Då ledningarna inte fysiskt får korsa varandra, krävs flera lager.
Ovan är det angivet att anslutningsnätverket i exempelvis ESP-system effektivt måste kunna omfördela data mellan dataenheter som behandlar information i olika dimensioner. I Fi g. 2, visas denna omfördelningsprocess. Här beräknar det första klustret med beräkningselement, vänster kub, data i en dimension (markerad med en pil). Nästa arbetsenhet, höger kub, beräknar datai en annan dimension, och således måste omfördelning utföras.
Denna omfördelning av data, refererat till som hörnvändningar, redovisas för nästan all kommunikation med sarnverkansprocessorn i ESP-systemet. Notera även att hörnvändningama kräver alla-till-alla kommunikation.
I hyperkuber är en hömvändning i själva verket, ur en matematisk synvinkel, en matrisomflyttning. Som angivits ovan, finns därför algoritmer för denna sammankopplingstopologi. Då BB ökar linjärt med antalet processoreri hyperkuber, högre dimension leder till mycket högt BB.
En fullständig hörnsväng tar: 1 :Dm log, (P) :_ <1) PRIinLzfi sekunder. DM är den totala storleken på mängden data som ska omfördelas, P är antalet processoreri hyperkuben, och Rh-nkßfi är den effektiva överföringshastigheten hos en 2 2 5 2 0 j§§f - ._;; - zjj: if; 4 enkel länk i en riktning när fasta delen undantas, exempelvis meddelandes starttid.
Ekvationen ovan baseras på hyperkubens omflyttningsalgoiitm som beskrivs i I. Foster, Designing and Building Parallel Programs: Concepts and Tools for Parallel Software Engineering, Addison Wesley Publishing Company, Inc., Reading, MA, USA, 1995. I denna algoritm, byts data bara i en dimension åt gången. Att använda denna en- dimension-åt-gången procedur är resultatet av de kostandssparande "enkel-port" egenskaperna. Detta är en extra egenskap jämfört med enkel-port kommunikation där en nod bara kan sända och motta på en av sina portar samtidigt. Dessutom kan varje nod även ta emot olika data från olika grannar samtidigt, exempelvis liknande en flerportsegenskap. Algoritmen som har valts här är emellertid samma som "SBT-routing scheme" beskrivet av S. L. Johnsson and C-T. Ho, “Optimum broadcasting and personalized communication in hypercubes”, IEEE Transactions on Computers, vol. 38, no 9. Sept. 1989, pp. 1249-1268. "SBT-routing" är inom en faktor av två av den lägre gränsen för en-port alla-till-alla personifierad kommunikation.
I utsändning är dataöverföringstiden för en-port kommunikation rninimerad om en dimension sänds per tid, exempelvis samma princip som ovan, och alla använder samma schemalagda ordning. Då man använder denna princip, kopierar varje nod sin egen mängd data M till sin första granne (tillsammans med den första dimensionen) och samtidigt mottas en mängd M data från samma granne. Nästa gång kopierar vaije nod sin egen data och data som just mottagits från den första grannen, till den andra grannen (tillsammans med den andra dimensionen), och samtidigt mottas en mängd 2M data.
Denna procedur upprepas över alla dimensionema i hyperkuben.
Således måste varje nod sända och mottaga: ÉICÃÄPHTM =M (2) I mängd data. M är datastorleken i varje nod som måste kopieras till alla andra noder i hyperkuben, och P är antalet processorer (noder). Då varje nod har en effektiv överföringshastighet på Rh-nkßflf, kommer utsändning ta: (P -1)M i- (3) Rlinlnefi v o u | av 522 520 sekunder. Denna ekvation gäller emellertid bara om noderna anses vara enkel-port. I verkligheten, som beskrivet ovan, kan en datakopia från en nod faktiskt distribueras till alla log; (P) grannar samtidigt, och varje nod kan faktiskt mottaga data från alla sina grannar samtidigt. Ekvationen ovan ska följaktligen inte anses vara det optimala för denna konstruktion, men bra nog för sitt syfte.
SAMMANFATTNING Huvudsyftet med uppfinningen är att tillhandahålla en metod och en anordning, som löser problemen som är relaterade till de kända teknikerna som använder optisk sarnmankoppling mellan ett antal processelement. Dessutom är ett annat syfte med uppfinningen, att använda optiska egenskaper såsom överföringi alla spatiala dimensioner, ljus koherens, hög bandbredd, och fan-out etc.
Således är de inledningsvis nämnda beräkningsenhetema anordnade i kluster och arbetar oberoende och överför data simultant, och att nänmda processelement är globalt och regelbundet optiskt sammankopplade i en hyperkubtopologi och transformerade i ett vågledarplan. Företrädesvis är nämnda optiska koppling en frirymdskoppling.
Beräkningsenheterna innefattar åtminstone ett transparent substrat med en första och en andra yta, åtminstone en av nämnda ytor är anordnade med nämnda beräkningselement.
Processorelementen är sammankopplade med varandra och till processorelement till åtminstone en närliggande beräkningsenhet genom optisk koppling. I en utföringsfonn är åtminstone en av nämnda ytor reflekterande och nänmda optiska sammankoppling i varje substrat uppnås genom reflektion på nämnda reflekterande yta. Den optiska sammankopplingen i varje substrat kan även uppnås genom stråldelningsanordningar, vilken ger en hög fan-out.
Varje substrat är försett med optiska element för nämnda optiska sammankoppling mellan substratcn. För att få hög kapacitet innefattar anordningen medel för kanaltidsdelning för överföring av olika data som skickats till alla grannar samtidigt. 522 520 s » ø u ou 6 Företrädesvis är beräkningsenhetema identiska vilket tillåter att de staplas.
Beräkningsenhetema kan emellertid anordnas sida-vid-sida sammankopplade via optiska fibrer.
Alltså kan beräkningsenheterna anordnas i en hyperkubtopologi formande ett samrnankopplande nätverk inom nämnda anordning.
Processelementen kan anordnas enligt planar förpackningstekiiik.
Uppfinningen avser även en metod att tillhandahålla en anordning för inbyggd signalbearbetning, innefattande ett antal beräkningsenheter, varje beräkningsenhet innefattande ett antal beräkningselement som kan arbeta oberoende och som överför data simultant. Metoden innefattar stegen att anordna nämnda dataenheter i kluster för att de ska arbeta oberoende och sända data simultant, optiskt sammankoppla nämnda processorelement globalt och regelbundet i en hyperkubtopologi och transformera nämnda hyperkub till ett vågledarplan.
Vidare berör uppfinningen ett luftburet radarsystem innefattande en databearbetningsenhet för rymdtid adaptivbearbetning - "Space Time Adaptive Processing" (STAP), databearbetningenheten innefattar ett antal beräkningsenheter, varje beräkningsenhet innefattar ett antal processelement, som kan arbeta oberoende och sända data simultant. Beräkningsenheterna är anordnade i kluster och arbetar oberoende och överför data simultant, och att nämnda processorelement är globalt och regelbundet optiskt sammankopplade i en hyperkubtopologi och transformerade till ett vågledatplan.
Beräkningsenheten är anordnad att fungera som video-till-I/Q konverteringsenhet, gruppkalibereringsenhet, pulskompressionsenhet, Dopplerberäkningssteg, vikttillämpningsenhet och viktberäkningsenhet anordnade som rörledningssteg. Video- till-I/Q konverteringsenheten, gruppkalibreringsenheten, pulskompressionsenheten och Dopplerberälmingssteget är anordnade som en sex-dimensionell hyperkub.
Vikttillärnpningsenheten och viktberäkningsenheten är anordnade som ett antal fem- dimensionella hyperkuber. 522 520 a u n I | co 7 Uppfinningen avser även ett markradarsystem innefattande en databearbetningsenhet innefattande ett antal beräkningsenheter, varje berälcningsenhet innefattar ett antal beräkningselement som kan arbeta oberoende och kan sända data simultant.
Beräkningsenhetena är anordnade i kluster och arbetar oberoende och sänder sata simultant, och nämnda processelement är globalt och regelbundet optískt sammankopplade i en hyperkubtopologi och transforrnerade till vågledarplan.
Berälmingsenheten är anordnad att fungera som en digital strålformningsenhet, pulskompressionsenhet, Dopplerbearbetningssteg, envelopdetekteringsenhet, "Constant False Alarm Ratio" enhet (CFAR) och en extraktionsenhet. Digitala strålfonnningsenheten, pulskompressionsenheten, Dopplerbearbetningssteget, envelopdetekteiingsenheten är anordnade som två sju-dimensionella hyperkuber.
"Constant False Alarm Ratio" enheten och en extraktionsenhet är anordnade som ett antal fem-dimensionella hyperkuber.
Enligt en metod att behandla data i ovan nämnda luftburna radarsystem, stegen som utförs är: 1. förbearbetning, Dopplerbearbetning, och att uföra två hörnvridningar på samma sex-dimensionella hyperkub, 2. om datakuben är udda numrerad, vrida den och distribuera data till ett övre kluster av åtta fem-dimensionella hyperkuber, 3. om datakuben är järnnt numrerad, vrida den och distribuera data till andra kluster av fem-dimensionella hyperkuber, 4. utföra viktkompiimering och beräkning på samma arbetskluster av åtta fem- dimensionella hyperkuber och under en tidsperiod.
Enligt en metod att behandla data i ovan nämnda markradarsystem, är stegen som utförs: 1. utföra digital strålfornming, pulskompression, Dopplerbearbetning, envelopdetektering, och två hörnvridningar på nämnda sju-dimensionella hyperkub under det första koherenta intervallet, 2. vrida datakuben två gånger, från sju-dimensionell till fem-dimensionell, 3. förbereda att dela upp data mellan en puls- eller områdesdirnension beroende på ø a ø u no n v 522 520 Q Q 1 | av 8 formen av datakuben i det föregående steget, och distribuera fraktioner till ett övre kluster av fyra fem-dimensionella hyperkuber, om datakuben är udda numrerad, 4. om datakuben är jämnt numrerad, distribuera data till en andra av fem-dimensionella hyperkuberna, och . beräkna CFARen och extraktionssteget på samma kluster under den återstående tiden.
KORTFATTAD BESKRIVNING AV RITNNGARNA I följ ande kommer uppfinningen att beskrivas mer i detalj med hänvisningar till de medföljande ritningarna, i vilka: Fig. 1 är den teoretiska strukturen på hyperkuben, vari, a) är en 3D-hyperkub, b) 4D-hyperkub byggd av två 3D-hyperkuber, c) 6D-hyperkub byggd av två SD-hyperkuber, vilka i sin tur är byggda av 4D-hyperkuber, Fig. 2 visar ornfördelningen av data mellan beräkningselementen, beräknas i olika dimensioner i en hyperkub, Fig. 3 visar schematiskt topologiskt (a) och fysiskt (b) tvärsnittsvy av fyra beräkníngsenheter anordnade enligt uppfinningen, i ett första mod, Fig. 4 visar schematiskt topologiskt (a) och fysiskt (b) en tvärsnittsvy av fyra beräkníngsenheter anordnade enligt uppfinningen, i ett andra mod, Fig. 5 a) visar en utföringsform för uppfinningen som använder stråldelning för att reducera antalet horisotella sändningsmottagare med en faktor tre, b) visar stråldelare som används för att öka flexibiliteten och multiberäkningskapacitet i nätverket, på bekostnad av fler mottagare, men utan ytterligare sändare, Fig. 6 är en utföringsforrn i vilken alla sändare och mottagare är anordnade i en horisontell rad formande en 3D-hyperkub, Fig. 7 visar en första utvidgning i vertikal riktning av två 3D-hyperkuber formande en 4D-hyperkub, Fig. 8 visar en utföringsform för hela beräkningsenheten - en 6D-hyperkub, Fig. 9 visar ett exempel på en hårdvaruarkitektur, ett rörledningssystem av optisk planförpackningsteknik innefattande tre 6D-hyperkuber, transformerade till plan och massivt samrnankopplade, Pig. 10 Pig. 11 Pig. 12 Fig. 13 Fig. 14 Fig. 15 Pig. 16 Pig. 17 Pig. is Pig. 19 Pig. 20 Pig. 21 Pig. 22 Pig. 23 o u n u en n 522 520 u : Q | u» 9 visar schematiskt i en utföringsform linser (eller hål) för sammankoppling av olika beräkningsenheter, vari a) visar botten linsen, som används för sändningsljus att flöda ut till nästa enhet, b) visar topp linsen, som används för avskärmat ljus in i substratet från förra enheten och c) är en vy uppifrån sett, är en illustration av topologisk (a) och fysisk (b) vy över en 7D- hyperkub, visar fyra oberoende arbeteande kedjor av 4D-hyperkuber, vari varje kedja är markerad med sitt eget nummer från 1-4, visar en alternativ implementation av rörledningssystemet för optisk planar förpackningsteknik hyperkuber enligt uppfinningen, är ett annat ekvivalent system för rörledning hyperkuber, är ett blockdiagram som visar det algoritmiska rörledningssteget i ett luftburet STAP-radarsystem, visar schematiskt distribuering av QR-dekomposition i en datakub, visar två alternativa arbetskedj or i viktberäkningssteget för att förlänga arbetstiden och reducera förprocessor belastningen, är ett blockdiagram som visar slutluftbuma radarsystemet final, en 6D- hyperkub och sexton 5D-hyperkuber, exempelvis 576 processorer, är ett blockdiagram som visar det algoritmiska rörledningssteget i ett markradarsystem, är en schematisk vy över en datakub som är delade i tre fraktioner, visar ett blockdiagram med data delat i antingen en pulsdimension eller i en områdesdimension, och visar ett blockdiagram med data delat i antingen en pulsdimension eller i en områdesdimension, och visar exempel på olika topologier inbyggda i en hyperkub.
BESKRIVNING AV UTFÖRINGSFORMER I det följ ande kommer andra fördelar och nytta med uppfinningen bli klarare i samverkan med beskrivning av några föredragna utföringsformer. a u | ø o» o v 522 520 u v ~ u o: Arkitekturen på en beräkningsanordning enligt uppfinningen består av flera beräkningsmoduler som arbetar oberoende och överför data simultant för att uppnå hög kapacitet. Varje beräkningsmodul är sammansatt av flera processorer kopplade i en hyperkubstopologi för att infria skalbarhet och hög bisektionellt bandbreddskrav. Optisk frirymds sammankoppling och planförpackningsteknik gör det möjligt att transformera hyperkuberna till paln. Optisk fan-out reducerar antalet optiska sändare och således hårdvarukostnaderna.
Generellt, verkar det som att hyperkuben är en exceptionellt god topologi för system såsom ESP eller liknande. Den enda nackdelen är dess sammankopplingskomplexitet.
Genom att använda optiska egenskaper i fri-rymden vrids emellertid sammankopplade 3D-system till plan, och sammankopplingskomplexiteten kan reduceras kraftigt.
Det finns flera anledningar att fälla samman optiskt kopplade 3D-systems till plan, inklusive de som redan nämnts ovan. En anledning är möjligheten att kyla, testa, och laga kretsarna på ett enkelt sätt.
I optisk planarteknologi, är vågledarna tillverkade av glas eller transparent halvledarbaserade substrat. Dessa substrat verkar som ett ljusburet medium och som bärare för ytmonterad optisk elektronik och elektroniska chip. Även micro-optiska element, såsom stråldelare och mikrolinser, kan fästas både på toppen- och bottensidorna av substratet. För att kunna innesluta de optiska strålarna i det ljusbuma mediet, är ytan täckt med en brytningsstruktur. Strålarna kommer således att "studsa" på ytan.
I följande sex steg, 1-6 och Fig.3-8, beskrivs en samsortering av en 6D- hyperkubtopologi till ett vågledarplan. Då en 6D-hyperkub samsorteras till ett plan, är det naturligt att föreställa sig att tre av topologidimensionema transformeras till en fysikalisk riktning på substratet, här kallad horisontell riktning. De andra tre topologidimensionerna är således transforrnerade till den andra fysikaliska riktningen, här kallad vertikal. Vidare då hyperkuben är symmetrisk, är allt som är giltligt i en riktning automatiskt giltli gt i den andra riktningen. Genom hela beskrivningen kommer hänvisningsbetecknin gen 10 avse substratet, 20 en PE, 30 en ljusstråle, 40 en stråldelare, 50 en lins och 100 en beräkningsenhet innefattande ett substrat och PEer. | ø o e oo 522 520 ll Steg 1: Sändare i horisontell riktning.
I en 6D-hyperkub, fig. 3a och 6b, har varje processelement 20 sex grannar. Fysikalsikt motsvarar detta tre horisontella och tre vertikala grannar. I Fig. 3, visas både hyperkubens topologiska (3a) och fysiska (3b) struktur. PEn 20a, mörkfärgad, sänder data till sina tre horisontella grannar 20.
Steg 2: Mottagare i horisontell riktning.
På samma sätt måste en PE kunna ta emot data från sina tre horisontella grannar; detta visas i Fig. 4a och 4b.
Genom att använda diffrakterande element, är det enkelt att skapa stråldelning, exempelvis, genom att använda den optiska fan-out egenskapen. Om stråldelning används reduceras antalet horisontella sändare med en faktor tre och såledesreduceras hårdvarukostnaden utan att hypertopologin, så som den visas i Fig. Sa förstörs. Någon slags kanaltidsdelning måste emellertid användas när olika data måste sändas till alla tre grannarna samtidigt, då endast en enda sändare är tillgänglig.
Väsentligt är antalet sändare är reducerat med en faktor sex (förutsatt att 6D- hyperkubema används) när stråldelning inte är bergränsad till en riktning. Men allra viktigast, om hyperkubomfördelningsalgoritmen beskriven av Foster, (I. Foster Designing ana' Building Parallel Programs: Concepts and Tools for Parallel Software Engineering, Addison Wesley Publishing Company, Inc., Reading, MA, USA, 1995) att utföra hörnvändningar, ingen prestandaförlust, även om antalet sändare reduceras med en faktor sex jämfört med ett system utan stråldelning. Således byts endast data i en dimension ut samtidigt. Notera emellertid, att hyperkudomfördelningsalgoritmen skickar (log P)/ 2 gånger mer data och P/ logP färre meddelande totalt jämfört med en enkel omväxlingsalgoritm också beskriven i Foster (P är antalet PE). Följaktligen är hyperkubomflyttningsalgoritmen att föredra när överföringskostnaderna är låga och att meddelandestarten är dyra. Detta resulterar i att optiska sammankopplingar med sina något högre uppstartningskostnader och höga bandbredd typiskt nog passar ornförflyttningsalgoritrnens beteende bättre än vanliga elektriska ledningar. ø v ø u oo n 522 520 12 Stråldelning kan också användas för att skapa en avancerad hyperkubtopologi med större kapacitet än originalet på bekostnad av fler mottagare men utan ytterligare sändare, såsom visas i Fi g. 5b. Uppenbart kan andra hybridtopologier skapas med stråldelning.
Steg 3: Sändarreducering.
Då ingen prestandaförlust har uppstått, även om antalet sändare har reducerats med faktor sex när hörnvändningar utförs med hyperkubonifördelningsalgoritmen, är användningen av stråldelning beskriven i Fig. 5a att föredra. Ljusstrålen delas emellertid i både horisontella och vertikala riktningar och således reduceras antalet sändare maximalt.
I Fig. 3, till exempel, är det fullt möjligt att använda en enda mottagare för alla strålama. I det fallet måste alla processelement synkroniseras i hyperkuben; för att kunna använda någon slags tidsdelningsfleråtkomst och således undvika datakollisioner.
Med planar förpackningsteknik är en synkroniseringsklockkanal relativt enkel att implementera. J. I ahns, “Planar packaging of free-space optical interconnections”, Proceedings of the IEEE, vol. 82, no. 11, Nov. 1994, pp. 1623-1631 har, exempelvis, beskrivit en "1-to-64-signal distribution" som till exempel passar för klockdelning, med planar teknologi.
Steg 4: 3D-hyperkuber.
I Fi g. 6b har alla sändare och mottagare på en rad införts. Detta motsvarar topologin av en 3D-hyperkub.
Steg 5: 4D-hyperkuber.
För att realisera hyperkuber med högre dimensioner än tre, används vertikala riktningar.
I Fi g. 7a och 7b visas en 4D-hyperkub både topologiskt och fysiskt. Den fjärde dimensionen använder vertikal rymd.
Steg 6: 6D-hyperkuber.
En 6D-hypercube använder fullt ut både den horisontella och vertikala rymden, såsom visas i Fig. 8a och 8b. Den fysiska layouten motsvarar en hel beräkningsenhet. o c u n en v 522 520 13 Om det är omöjligt att uppnå den önskade prestandan med en beräkningsenhet, måste flera beräkningsenheter samarbeta. Också då nästan alla applikationer i ESP-systemet kan delas in i beräkningsdelar som bara behöver skicka data framåt till nästa steg i en kedja, är det naturligt att koppla beräkningsenhetema i form av en rörledning, såsom visas i Fig. 9.
I Fi g. 9 kan alla PEer 20, exempelvis, i planet längst till vänster sända data till mitten planet. Men en enda PE i planet längst till vänster kan bara skicka data till en ekvivalent PE i mitten planet. På samma sätt sänder mitten planet men bara till planet längst till höger.
För att få interrnodulär kommunikation att fungera är substraten försedda med öppningar, exempelvis ljusstrålarna tillåts sprida sig via en lins 50 från en föregående enhet och även ut till nästa enhet, såsom visas i fig. 10. Dessutom kan diffrakteringselement läggas till för att vägleda de inkommande strålarna 30 inuti substratet för att kunna nå rätt PE.
I Fig. 10 visas att linserna 50a och 50b behövde kopplas till olika beräkningsenheter 20.
Särskilt visar Fig. 10a bottenytans lins medan Fig. 10b visar toppytans lins. Fig. 10c visar toppvyn. Notera att bottenlinsen 50b i denna figur visas genom substratet.
Genom att tillåta kommunikation i båda riktningar-na, exempelvis, låta en modul kunna sända och ta emot data både framåt och bakåt, formas en 7D-hyperkub i själva verket av två plana grupper, som visas i Fig. lla och llb. Om fler än två plan formar en ytterligare beräkningsenhet, kommer den rena hyperkubtopologin inte bevaras då bara närliggande plan kan kommunicera med varandra. Detta är emellertid inte en begränsning i många si gnalbearbetningssystems, beroende av den rörledade karaktären av dataflödet.
Om bara ett verkningssätt behövs i systemet, är det möjligt att skapa en flödesarkitektur för det syftet. Då det emellertid är mycket viktigt för många, exempelvis ESP- applikationer, inklusive luftbuma radar, att ändra verkningssätt på samma system som behövs i applikationen, är en arkitektur som klarar flera verkningssätt att föredra. o: nu o o n u nu oc 1 v nu ao o s nu u u v y nu 'wo o 0- nov n u o n I u s man: LL. 3"2“. 1.' :2."â 2. 2” 23 ' n c u u n en u u v a ø | lo 14 Således måste olika kluster med beräkningsenheter kunna arbeta tillsammans på olika sätt.
Rörledningssystemen som beskrivs här har mycket stor potential för kartläggning av olika algoritmer på varierande sätt. Faktum är att systemet kan kan delas in i alla tre spatiala dimensionema. Ett exempel på detta visas i Fig. 12, i vilken fyra olika algoritmer kartläggs samtidigt på fyra mindre system med rörledade 4D-hyperkuber.
Det är också möjligt att skapa 5D-hyperkuber inuti varje av dessa mindre system genom att koppla två 4D-hyperkuber i olika plan.
För att kunna öka systemprestandan är hårdvaruskalbarhet av stor betydelse. I det föreslagna systemet kan högre prestanda uppnås genom att: a) lägga till fler planarsystem i kedjan, b) utöka den fysiska storleken på planen, eller c) lägga till fler PEer inom ett plan, exempelvis öka hyperkubdimensionen, genom antingen b) eller tätare förpackningar.
I den föredragna utföringsfonnen, intennodullänkar är optiska frirymds samrnankopplingar och alla moduler är identiska; detta underlättar tillägget av fler plan.
Särskild uppmärksamhet måste emellertid riktas mot hur modulema staplas på varandra; exempelvis måste man ta hänsyn till värmebortföring etc.
Om den erfodrade prestandan överskrider beräkningsbelastningen i en enhet, exempelvis ett substrat, måste flera enheter samarbeta. För att få dessa enheter att effektivt jobba tillsammans är även massiva sammankopplingar nödvändiga. Ett sätt att sammankoppla flera enheter är att placera dem i en följd som i Fig. 9. Nackdelen med detta arrangemang är att varje plan bara kan sända data framåt och bakåt till det efterföljande respektive det föregående planet. Detta arrangemang passar emellertid rörledade beräkningskaraldären i de flesta radarsystemen, och är därför ett bra val för sådana applikationer. Dessutom kan detta rörledade hyperkubssystem faktiskt delas i alla tre spatiala dimensionerna. Till exempel, formar två närliggande 6D-hyperkuber en 7D-hyperkub, ett paln delat i fyra lika rutor formar fyra 4D-hyperkuber, och slutligen, 522 520 ''''' " n I 0 o . n- två plan av fyra 4D-hyperkuber var kan forrna fyra 5D-hyperkuber tillsammans.
Resultatet av detta är att många funktionssätt kan utföras på systemet och detta är viktigt exempelvis i radarapplikationer.
En alternativ implementation av Fig. 9 visas i Fig. 13. I detta fall är rörledadesystemet med planar förpackningshyperkuber sarnrnanslagna till en stor rektangulär enhet.
Substraten 10 anordnas sida vid sida och kopplas samman medelst kontaktdon, linser, optiska fibrer etc. Som kan ses i Fig. 13 är det maximala ljusstudsavståndet bara avståndet till grannen som är längst bort, och inte hela substratlängden.
Det finns många fördelar med en stor enhet, till exempel, förflyttar sig ljusstrålarna bara i ett material jämfört med två (friluft är den andra), inga temperaturberoende omflyttningsproblem mellan olika substrat uppstår, och inga behov att öppna upp substratet för att tillåta strålarna sprida sig in och ut mellan beräkningsenheterna, etc. Å andra sidan måste ljusstrålarna förflytta två gånger avståndet inom substratet, och tvärtom ornfördelningsproblem, så måste böjning räknas ut. Vidare är systemets utbyggbarhet också begränsad jämfört med de andra implementeringama som visas i Fig. 9, där fler plan läggs till, om systemprestandan är inadekvat.
Ett tredje ekvivalent system med rörledade hyperkuber visas i Fi g. 14. Det rutforrnade systemet som visas i den nedre delen kan emellertid betraktas som ett enplanssystem, exempelvis som ett enda plan i Fig. 9. Det är naturligtvis möjligt att lägga till fler överföringskanaler.
I det följande kommer ett antal exemplariska applikationer baserade på uppfinningens lära beskrivas för att belysa fördelama som uppnås genom den föreliggande uppfinningen. Som exemplariska system är luftburna STAP-radar och markradar applikationer valda. Det luftburna systemet har extrema krav på beräkningsbelastningen och måttliga krav på inter-processor kommunikationen. Markradarn har å andra sidan extrema krav på inter-processor kommunikationen och måttliga krav på beräkningsbelastningen. Detta resulterar i att den nya arkitekturen måste kunna hantera både hög systembelstning och hög inter-processor dataöverföring. 522 520 u | o | s. 16 Rymdtid adaptivbearbetning (Space Time Adaptive Processing, STAP) är en teknik som används i radarsystem för att stödja brus- och störningsreducering i luftburna radar.
Hela STAP-algoritmen är emellertid lite värd för de flesta applikationerna då beräkningsarbetsbelastningen är för stor och den lider av svag konvergens. Följaktligen används någon sorts belastningsreducerande och snabbkonvergerande algoritm.
Exempelvis næ-ordningens Dopplerfaktor STAP. Denna STAP-algoritm används, förutom medier (ism-efdmngen) den den hårda (fä-ordningen) realtid STAP, som ett första exempel. Således ökas beräkningsbelastningen flera gånger jämfört med 3- ordningens STAP riktlinje ovan nämnd. Orsaken till den denna ökning är flera, exempelvis, 64 istället för 22 bearbetningskanaler, en högre ordnings dopplerfaktorerad STAP (Sæ-ordningen jämfört med 3-ordningen), och en högre samplingshastighet etc.
Följ ande systemparametrar antas för det luftbuma systrnet: o 64 bearbetningskanaler (L) 4 o 5-ordningens dopplerfaktorerad STAP (Q) o 32,25 ms koherent pulsintervall (CPI) (r) o 960 sampel (områdesbins) (Nd) per puls efter decimation med en faktor av fyra o 64 pulser per CPI och kanal (CP) o 8 Gbit/s effektiv dataöverföringhastighet av en enda länk i en riktning (Rh-nkefi) Beroende på systemets realtids karaktär, måste en lösning vara känslig för låg accesstid.
Följaktligen bestäms ett accesstidskrav på 100 ms, d.v.s. en maximal accesstid på Srför att utföra alla beräkningar i STAP-kedjan från indata steget till det slutliga steget.
I Fig. 15 visas de algoritmiska rörledningsstegen för den valda STAP-algorithm. Kedjan 150 består av sex rörledningssteg, nämligen video-till-I/Q konvertering 151, gruppkalibrering 152, pulskompression 153, Dopplerbearbetning 154, viktberäkning 155 och slutligen vikttillärnpning 156.
Tabell 1 nedan visar beräkningsbelsatningen i varje steg. Belastningen mäts med flyttal per koherent pulsintervall (och inte per sekund). Notera att alla flyttalberäkningar är härledda från ekvationer i K. C. Cain, J. A. Torres, och R. T. Williams, “ RT_STAP: Real-time space-time adaptive processing benchmark”, MITRE Technical Report, The I I u n nu I e 522 520 u I O o a u» 17 MITRE Corporation, Center for Air Force C3 Systems, Bedford, Massachusetts, USA, 1997 (Cain). Notera även att gmppkalibrerings- och pulskompressionsstegen är kombinerade i Tabell 1.
Rörledningssteg Flops per CPI video-tin-I/Q-konvenefing 4,56 *108 Gruppkal. och pulskompr. 4,51 * 108 Dopplerbearbetriing 1,28 * 108 Viktberäkning 5,05 *1010 vmberakningkaikyi 1,57 *108 Tabell 1 Klart är att det svåraste steget att beräkna är viktberäkning (en faktor av 100 gånger fler beräkningar än de andra stegen).
I ett första steg antas att en processor med sitt egna minne används. Orn alla beräkningar utförs med en processor, måste 5,17 *101° flyttal utföras under en CPI. Detta motsvarar en odämpad prestanda på mer än 1,6 TFLOPS (Tera Floating Point Operations Per Second) och detta är för högt för en enda processor. Som konsekvens av detta måste förprocessor belstnin gen minskas genom att man använder flera processorer och genom att man använder det maximalt tillåtna verkningstiden, d.v.s. den maximala accesstiden (tre CPIs). Den utökade arbetstiden uppnås genom rörledning av några beräkningsdelar i kedjan. Genom att använda många processorer kommer tiden som spenderas i inter- processor kommunikation vara märkbar och måste tas med i beräkningarna.
Då viktberälcningssteget 155 är det mest kritiska, analyseras detta först. I detta steg dominerar QR-sönderdelningen beräkningskomplexiteten. En QR-sönderdelning är en numeriskt stabil metod för triangulära matriser. Det totala antalet QR-sönderdalningar att berkna i hela datakuben beror av den valda al goritmen. I detta exempel genomförs en QR-sönderdelning på en matriskonvertering en fjärdedel av alla sarnpelområden i en puls, och över alla motsvarande kanaler (lober), såsom visas i Fig. 16. Denna delning kräver, emellertid, att datakuben är omfördelad från en Dopplerorienterad vy till en 18 ornrådesorienterad vy, dvs en hörnvändning utförs antingen i Doppler- bearbetningssteget eller i viktberäkningssteget. Då beräkningsbelastningen nästan är två gånger högre i viktberäkningssteget, undviks hörnvändningen här. För att undvika extremet hög inter-processor kommunikation, undviks även en enkel QR- sönderdelningsberälming av mer än en processor. Detta betyder att det maximala antalet processorer att användas är 256, för att beräkna viktema. För att minska preprocessorbelastningen ytterligare kan systemets skalbarhet användas och beräkningsarbetet kan delas upp på två arbetskedjor, se Fig. 18. I denna figur följer varenda datakub (udda numrerad) som ska behandlas den övre pilen, pil (a), till de mörkfärgade processorgruppen. På liknande sätt följer de jämnt numrerade datakuberna den nedre pilen, pil (b), och behandlas av den ljust färgade processorgruppen. Varje processorgrupp i Fig. 17 består av åtta SD-hyperkuber, dvs 256 processorer var. Genom att dela upp beräkningsarbetet på två arbetskedjor är det möjligt att utvidga beräkningstiden på en enda datakub två gånger, till två CPI och således reducera för- processor arbetet till hälften. Genom att inkludera belastningen i viktapplikationen in i viktberäkningssteget måste 5,07 * 1010 Flops på 256 processorer utföras under en tid av 21, dvs ett odämpad preprocessor flyttalsutförande på 3,07 GFLOPS, vilket är fullt acceptabelt.
I det återstående beräkningssteget, d.v.s, video-till-I/Q konvertering 151, gruppkalibrering 152, pulskompression 153, och Doppler-bearbetningssteget 154, tillsammans måste totalt 1,03 * 109 Flops utföras under en CPI (den återstående tiden av den maximala accesstiden) minus tiden det tar att utföra två hömvändningar, såsom visas i Fig. 15, och minus tiden det tar att distribuera data till alla processoreri viktberäkningssteget.
För att kunna beräkna hörnvändningstiden måste storleken på datakuben vara känd. Det totala antalet sampel som används i varje koherent pulsintervall i algoritmen är LN dCp .
Då varje sampel är complext och reella och imaginära delarna båda är 32 bitar, är den totala storleken (Dm ) på datakuben = 252Mbi: . Detta resulterar i att det kommer ta, ICT = 1,47 ms att utföra en hömvändning på en 6D-hyperkub med 64 processorer (P=64), och 0,86 ms på en 7D-hyperkub med 128-processorer, enligt Ekvation 1 och ovan givna systemparametrar.
I O u v no I n 522 520 19 Sedan beräknas tiden det tar att distribuera data till rätt kluster med 5D-hyperkuberi viktberälmingssteget, dvs antingen bland väg a) eller b) i Fig. 17. Först vänds datakuben, för att passa 5D-hyperkubens storlek. Denna tidskalkylering är ekvivalent med ekvationen 1, förutom att data endast flyttas inom en riktning i en dimension, dvs log (P) ersätts med 1 och P med P/2. Börja med en 6D-hyperkub, vänds data en gång, men sedan man börjat med en 7D-hyperkub, läggs tiden det tar att vända data från en 7D- till en 6D-hyperkub först till. Sedan flyttas all data till den första 5D-hyperkuben, vilken i sin tur måste flyttas 7/ 8 till nästa 5D-hyperkub i kedjan etc. Denna dataförflyttning kan emellertid vara rörledad, d.v.s. så fort som nästa hyperkub får sin första data, börjar den skicka denna data vidare till nästa kub etc. Den totala tiden att distribuera data till alla 5D-hyperkuber från en 6D-hyperkub och en 7D-hyperkub är således, tD = 1,47 ms respektive 1,72 ms. Tiden som är kvar att beräkna 1,03 * 109 Flops i en 6D-hyperkub är således 27,84 ms (r - 2 tg; - ID), dvs en permanent preprocessor flyttal utförande på 578 MFLOPS. Detta är väl under den preprocessor belastningen som behövs i viktberälcningssteget. Resultatet av detta är att det inte är nödvändigt att använda en 7D-hyperkub i resten av kedjan. (Preprocessor belastningen som använder en 7D-hyperkub är 279 MFLOPS.) Det slutliga luftburna systemet består således av nio rörledade optiska substrat, d.v.s. 576 processorer, enligt Fig. 18. Arbetssättet blir som följer: 1. Preprocessa, Doppler-processa och två hörnvändningar utförs på samma 6D-hyperkub. 2. Om datakuben är udda nurnrerad, vrid den och distribuera den till det övre klustret av åtta 5D-hyperkuber (pil a) i Fi g. 18. Om datakuben är jämnt numrerad, vrid den och distribuera den till de andra ldustema av 5D-hyperkubema (pil b) i Fig. 18. Denna distribuering äger rum i samma tidsintervall som i steg 1. 3. Sedan utförs både viktberäkrring och applikation på samma arbetskluster av åtta 5D- hyperkuber och under en tidsperiod lika med 2 CPIs.
I ett markradarsystem, som redan nämnts, särskilt i markradarsystemet med 128 kanaler; är det mindre krav på flytta] än i luftburna system.
Interprocessorkommunikation kraven är emellertid högre. Både specifierad och 522 520 ' I I v u» radiosänd alla-till-alla kommunikation uppstår. Följ ande systemparainetrar antas för markradarsystemet: ~ 128 processing kanaler (L) o 400 kHz max puls rep. frek. (fPRF) v 10 ms koherent pulsintervall (CPI) (I) ~ 6,25 Msample per sekund och kanal (N,) o 8 Gbit/s effektiv dataöverföringshastighet för en enda länk i en riktning (Rh-nkßflf) I Fig. 19, visas det algoritmiska rörledningssteget för den valda algoritmen. Kedjan 190 består av sex rörledningssteg, nämligen, digital strålformning 191, pulskompression 192, Dopplerbearbetning 193, envelopdetektering 194, Constant False Alarm Ratio (CFAR) 195, och extrahering 196. Beräkningsbelastningen för alla utom extraheringssteget visas i Tabell 2.
Flops per CPI i Digital strålformning 2,80 * 10 Pulskompression 1,02 * 109 Doppierbwbeming 4,72 * 10* Envelopdeæktmng 3,20 * 107 CFAR 2,75 * 10” Tabell 2 CFAR-steget reducerar data mycket bra, således behöver extraktorn varken mycket beräkníngskraft eller mycket kommunikationstid jämfört med de andra stegen.
Följaktligen presenteras inga specifika beräkningar här och man kan faktiskt anta att extraktorsteget kan beräknas i CFAR-steget. Som i det luftburna fallet, mäts belastningen i Flops per CPI. Notera, emellertid att CPIn här bara är 10 ms jämfört med 32.25 ms som i det luftburna fallet, vilket betyder att tiden som spenderas i inter- processor kommunikation är viktigare. Den maximala accesstiden är 31, dvs 30 ms.
Syftet med CFAR-processen är att minska antalet möjliga mål i varje CPI, genom att bara tillåta ett konstant antal falska objekt under en given tid. Denna process kan ske på I o a v u: uu 522 520 n | ~ v av 21 olika sätt. Sett från en kommunikationvy, den enklaste CFAR-metoden fungerar bara i en dimension, vanligen inom området, och den svåraste metoden fungerar i flera dimensioner, med grannskapet definierat som volym. Dessutom kan många olika CFAR-teknik användas i varje kommunikationsfall, och beräkningsbelastningen är vanligtvis inget problem. Som en konsekvens av detta måste många designrar välja en CFAR-metod baserad på hastigheten på inter-processornätverket och inte på processorprestandan. Här är emellertid inte valet av CFAR-metod kritiskt, då vårat nätverk är designat för snabb kommunikation. Således har en metod baserad på ordnad statistik-CFAR valts, där de omgivande grannarna i alla tre dimensionerna (puls, område, och kanal) är ordnad i amplitud. Cellen under test (CUT) anses vara ett möjligt mål om dess värde, multiplicerat med en viss konstant, är större än k grannceller. I detta fall är omgivningen en 7x7x7 volym, dvs k är 342. Detta betyder också att varje cell måste distribueras till alla andra noder som beräknar ordningsstatistik på en CUT som hör hemma i cellens grannskap.
I enlighet med det luftburna systemet, dvs beräkning av den totala systembelastningen om endast en processor används, resultatet är här 4,55 * 109 Flops per CPI. Detta motsvarar 455 GFLOPS och är för mycket för en enda processorlösning. Beräkningarna är således uppdelade på flera processorer och använder den maximala tillgängliga accesstiden.
Två hömvändningar måste utföras före CFAR steget, såsom kan ses i Fi g. 19. Först, samplas data per kanal, dvs varje nod tar emot data från en eller flera kanaler. Digital strålfomining fungerar emellertid i kanaldimensionen. Således omfördelas data på ett sådant sätt att varje nod tar hand om alla data från alla områden och kanaler i en eller fler pulser. På samma sätt görs en andra hömvändning innan Doppler-steget, då data behandlas av pulsdimensionen i Dopplerbearbetning.
Storleken pådatalcuben som ska hömvändas är LNsr sampel. Varje sampel är komplext och består av 64 bitar. Dm är således 512 Mbit. Som resultat av detta, kommer det att ta tg = 3 ms att utföra en hömvändning på en 6D-hyperkub med 64 processorer (P=64), och 1.75 ms på en 7D-hyperkub med 128-processorer, enligt ekvation 1 och systemparametrarna som angivits ovan. 522 520 22 Om en digital strålfonrniing, pulskompression, Dopplerbearbetning, och envelopdetektering utförs under samman tidsperiod, måste 1.80 * 109 Flops under ett intervall på 1 - 2tC1 utföras. Detta ger en odämpad för-processor prestanda på 7,05 GFLOPS på en 6D-hyperkub och 2,17 GFLOPS på en 7D-hyperkub. Således väljs en 7D-hyperkub.
I CFAR-steget, som nämnts ovan, måste varje cell distribueras till alla andra noder som beräknar ordnad statistik på en CUT inom cellens grannskap. Detta är inget trivialt problem, och det är inte en hel sändning. Även om det emellertid inte är en hel alla-till- alla dataöverföring som har genomförts, är det möjligt att åtminstone garantera att vi är på rätt sida av tidsgränsen om hel sändning beräknas, dvs. alla noder kopierar data till alla andra noder.
Om en nodlagringskapacitet förbises som begränsande faktor är tiden som det tar att genomföra en fullständing sändning med M = Dfl-m/P, på en 6D-hyperkub, 31,5 ms, enligt ekvation 3. Detta är alldeles för mycket (även mer än den maximalt tillåtna accesstiden). Notera att Dm, bara är 256 Mbit nu, då envelopdetekteringssteget har konverterat de komplexa sampeln till reella 32-bitars värden. Vi behöver således reducera preprocessordataöverföringens storlek, M, genom att dela upp datakuben över mer än en databeräkning hyperkub. Även val tiden är förlängd genom att flera arbetskedjor används i CFAR-steget (på samma sätt som i viktberäkningssteget i det luftburna systemet, se Fig. 17). Att distribuera data till flera plan kommer naturligtvis kräva mer tid. Den totala kommunikationstiden kommer emellertid minska, då den spenderade sändningstiden då man använder sig av flera plan är mycket reducerad.
Först ser denna interplana datadistributionen ut att vara ett trivialt problem; dela bara upp varje noddata i lika delar, och överför dessa plus överlappningen som behövs framåt, se Fig. 20. Men då datakuben kan vara formad i olika former (beroende på pulsrepetitionsfrekvensen), kan datakuben vara delad i pulsdimensionen eller ornrådesdimensionen, se Fig. 21. Denna delning genomförs i den dimension som ger lägst möjliga dataöverlappningsstorlek. Detta kommer också att reducera sändningstiden. Vår policy är således: 1. Om # räckviddsområde (BR) < # pulsområde (Bp), delad mellan pulsdimensionen, H o n v n: 522 520 23 dvs. enligt Fi g. 21a. 2. Om BR 2 Bp, delad mellan ornrådesdimension, dvs enligt Fig. 21b.
Den maximala distributions- och sändningstiden kommer uppträda när antalet räckviddsområden är lika med antalet pulsområden. Antalet sarnpel per kanal under en CPI är N51' = 6,25 * 104. Detta motsvarar BR = Bp = 250. Om grannen är 7x7x7, kommer överlappningssektionen i Pig. 9 vara sex områden. Överlappningen som måste skickas vidare, å, är således tre områden. Storleken för ett överlapp i hela datakuben är däför: om = Önun(BR,B,)L (4) Vilket ger oss den maximala osize = 3*250*128 = 96,000 sampelar eller 3,072 Mbit.
Mängden data som ska distribueras om bara två hyperkubenheter används är 1/2 Dm + om., Om tre hyperkubenheter används, sänds först 2/3 Dsize + om till mellanenheten, och sedan 1/3 Dm., + om, till sista enheten. Denna sista överföring kommer emellertidatt vara rörledad med den första. Om även ytterligare hyperkubkluster används, kommer alla överföringar att vara rörledade. Datadistributionstiden till x kluster är följaktligen: X í___ p. >1 (s), Rlínk Pduster där Pchme, är antalet processorer inom en hyperkub. Notera emellertid att ekvationen ovan inte är giltlig om hyperkuberna har skapats från grupper med två närliggande plan, exempelvis, två plan delade till två 5D-hyperkuber var, är sammanslagna till två inter- plan 6D-hyperkuber istället. Anledningen till detta är att bandbredden mellan två inter- plan hyperkuber är begränsad. Dessutom ökar även överföringstiden om inter-plan hyperkuber används, då sändningen måste utföras över en extra (onödig) dimension.
Sändningstiden inom ett kluster är sedan (baserat på ekvation 3): (hinner _ Du." + Zosize ) __íxí__ (6) tbroadcar: (x) = R P Iinlgzfi' Cluster 9 U I I OI n 522 520 v ~ « . .. 24 Notera att x måste vara större än 1. Notera även att en mellansändningsenhet måste dela ofl-ze data med både den föregående och nästa enhet, följaktligen den dubbla omg termen ovan. Totala tiden som är kvar att beräkna CFAR är då: tlzff (x) = tperiod _tdis1(x) -tbroadcarr (x) ;x > 1 där tpen-od är maximala tidsperioden att använda i CFAR steget. Som nämnts ovan kan flera beräkningskedjor användas för att förlänga arbetstiden. Notera emellertid, att det är icke önskvärt att använda mer än två arbetskedjor här, då tpen-od alltid är mindre än 2r om den maximala accesstiden är 31 och det andra steget arbetar under lr, och följaktligen kan bara två arbetskedjor vara verksamma samtidigt. Om den maximala accesstiden emellertid var längre, exempelvis 51, kxmde fler arbetskedjor vara verksamma samtidigt.
Bortsett från detta, betyder en maximal accesstid på 31 att den enda lämpliga konfigurationen i CFAR-processen att använda två arbetskedjor med 5D-hyperkuber var. rpm-od kommer då bli 21: minus tiden det tar att vika data från en 7D-hyperkub till en SD-hyperkub. Vikningstiden för en 256 Mbitar datakub från en 7D- till en 5D-hyperkub är 0,75 ms, enligt den modifierade ekvationen 1 diskuterad i det luftburnasystemet.
Genom att använda alla akvationerna ovan ger oss uttrycket för den odämpade pre- processor belastningen: 2.75 *109 cpuwpffiliff.. ;x>1 (s) lzfi I tabell 3 visas preprocessorbelastningen för två till sex 5D-hyperkub arbetsenheter. Då det är icke önskvärt att överskrida en preprocessorbelastning på 3 GFLOPS, väljs ett system med fyra SD-hyperkuber. Den odärnpade preprocessorbelastningen är då 2,15 GFLOPS, vilket är väl under den oönskade gränsen. Till följd av detta kan extraktionssteget förhoppningsvis beräknas under samma tidsperiod.
OI . ,:"".: 'nu u -=°::- n; g, i o I I o: n ;:'q' 1 0 u ' ' v n r | q, Antal SD-hyperkuber i Ffrl-:mqessqr arbetskedjan (x) e 'Wang l GFLOPS 2 17,22 3 3,82 4 2,15 1,50 6 1,15 Tabell 3 Det slutliga markradarsystemet består följaktligen av sex rörledade optiska substrat, dvs. 384 processorer, som visas i Fig. 22. Förfaringssättet blir som följer: 1. Digital strålformning, pulskompression, Dopplerbearbetning, envelopdetetering, och två hörnvändningar utförs på en 7D-hyperkub under den första CPIn. 2. Vänd datakuben två gånger (från 7D till 5D). Förbered att dela upp den mellan puls- eller områdesdimensionen beroende av datakubens form i det föregående steget, och slutligen distribuera fraktionerna till det övre klustret på fyra 5D- hyperkuber (pil a) i Fig. 11, om datakuben är udda numrerad. Om datakuben är jämnt numrerad, distribuera den till det andra klustret av 5D-hyperkubeen (pil b) i Fig. 22. 3. Beräkna CFAR och extraktionssteget på samma kluster som beskrivet ovan under resten av den tillgängliga tiden.
Fig. 23a-23c visar flexibiliteten hos hyperkuben. I denna figur har en 4D-hyperkub fyra andra topologier, a. ett ”spanning tree", b. ett nät, c. en fjäril och d. en ring. Fjärilen är mycket intressant för både radar- och routerapplikationer. Uppfinnin gen är särskilt intressant för routerapplikationer där en enorm mängd datatrafik måste hanteras.
Uppfinningen är inte begränsad till de visade och beskrivna utföringsformerna, utan kan varieras på ett antal sätt utan att avvika från omfånget för de vidhängda patentkraven och arrangemanget och metoden kan implementeras på varierande antal sätt beroende på applikation, funktionsenhet, behov och krav etc.

Claims (5)

10 15 20 25 30 /l 522 520 u a | - en 26 PATENTKRAV 1. En anordning avsedd för inbyggd si gnalbearbetning, innefattande ett antal beräkningsenheter (100), varje beräkningsenhet innefattande ett antal beräkningselement (20) som arbetar oberoende och som överför data simultant, kännetecknad av att nämnda beräkningsenheter är anordnade i kluster och arbetar oberoende och överför data simultant, och att nämnda beräkningselement (20) är globalt och regelbundet optiskt sammankopplade i en hyperkubsarkitektur och transformerade till ett vågledaxplan. 2. Anordningen enligt krav 1, kännetecknad av att nämnda optiska sammankoppling är en frirymdsanslutning. 3. Anordningen enligt krav 1 eller 2, kännetecknad av att nämnda beräkningsenhet består av åtminstone ett transparent substrat (10) med en första och en andra yta, åtminstone en av nämnda ytor är anordnad med nämnda beräkningselement (20), och att nämnda beräkningselement (20) är sammankopplade med varandra och med processorelement från åtminstone en närliggande beräkningsenhet genom optisk anslutning. 4. Anordningen enligt krav 1 eller 2, kännetecknad av att åtminstone en av nämnda ytor är reflekterande och att nämnda optiska anslutning i varje substrat uppnås genom reflektion på nämnda reflekterande yta. 5. Anordningen enligt något av de föregående kraven, kännetecknad av att nämnda optiska anslutning i varje substrat uppnås genom stråldelningsanordningar (40). 10 15 20 25 30 ..... .. 27 6. Anordningen enligt något av de föregående kraven, kännetecknad av att nänmda varje substrat är försett med optiska element för nämnda optiska anslutning mellan substraten. 7. Anordningen enligt krav 5, kännetecknad av att anordnjngen innefattar medel för kanaltidsdelning för samtidig överföring av olika data till alla grannar. 8. Anordningen enligt något av de föregående kraven, kännetecknad av att närrmda beräkningsenheter är identiska. 9. Anordningen enligt krav 8, kännetecknad av att nämnda beräkningsenheter är staplade. 10. Anordningen enligt något av de föregående kraven, kännetecknad av att nämnda beräkningsenheter är anordnade sida vid sida. 11. Anordningen enligt krav 8, kännetecknad av att nämnda beräkningsenheter är anslutna via optiska fibrer. 12. Anordningen enligt något av de föregående kraven, kännetecknad av att nämnda hyberkubsanordningar med rörlednjng, är avdelade i flera rymddimensioner. 13. Anordningen enligt något av de föregående kraven, kännetecknad av 10 15 20 25 30 I I o u nu n . 522 520 28 att nämnda beräkningsenheter är anordnade i hyperkubtopologi fonnande ett anslutningsnätverk inom nämnda anordning. 14. Anordningen enligt något av de föregående kraven, kännetecknad av att nämnda beräkningselement är anordnade enligt planar förpackningsteknik. 15. En metod för att förse en anordning avsedd för inbyggd signalbearbetning, innefattande ett antal beräkningsenheter (100), varje beräkningsenhet innefattande ett antal beräkningselement (20) som arbetar oberoende och som överför data simultant, kännetecknad av att anordna nämnda beräkningsenheter i kluster för att de ska arbeta oberoende och sända data simultant, och att närnnda beräkningselement (20) är globalt och regelbundet optiskt sammankopplade i en hyperkubsarkitektur och transfonnerade till ett vågledarplan. 16. Ett luftburet radarsystem innefattande en databearbetningsenhet för rymdtid adaptivbearbetning -("Space Time Adaptive Processing" (STAP)), databearbetningsenhet innefattande ett antal beräkningsenheter (100), varje beräkningsenhet innefattande ett antal beräkningselement (20) som kan arbeta oberoende och sända data simultant, kännetecknar av att nämnda beräkningsenheter är anordnade i kluster och arbetar oberoende och överför data simultant, och att nämnda beräkningselement (20) är globalt och regelbundet optiskt sammankopplade i en hyperkubsarkitektur och transforrnerade till ett vågledarplan. 17. Luftburet radarsystemet enligt krav 16, kännetecknat av att nämnda beräkningsenhet är anordnad att fungera som video-till-I/Q- konverteringsenhet (151), gmppkalibreringsenhet (152), pulskompressionsenhet (153), Dopplerbearbetningssteg (154), viktberäkningsenhet (155) och viktapplikationsenhet (156) anordnade som rörledningssteg. 10 15 20 25 30 n ø - | n. 522 520 = = .- n o - e o wo 29 18. Luftburet radarsystemet enligt krav 17, kännetecknat av att nämnda video-till-I/Q-konverteringsenhet (151), gruppkalibreringsenhet (152), pulskompressionsenhet (153) och Dopplerbearbetningssteg (154) är anordnade som en sex-dimentionell hyperkub. 19. Det luftbuma radarsystemet enligt krav 17, kännetecknat av att nämnda viktberäkningsenhet (155) och viktapplikationsenhet (156) är anordnade som ett antal fem-dimensionella hyperkuber. 20. Ett markradarsystem innefattande en databearbetningsenhet innefattande ett antal beräkningsenheter (100), varje beräkningsenhet innefattande ett antal beräkningselement (20) som kan arbeta oberoende och överföra data simultant, kännetecknat av att nämnda beräkningsenheter är anordnade i kluster och arbetar oberoende och överför data simultant, och att nämnda beräkningselement (20) är globalt och regelbundet optiskt sammankopplade i en hyperkubsarkitektur och transformerade till ett vågledarplan. 21. Markradarsystemet enligt krav 20, kännetecknat av att nämnda beräkningsenhet är anordnad att fungera som en digital strålformningsenhet (191), pulskompressionsenhet (192), Dopplerbearbetningssteg (193), envelopdetekteringsenhet (194), Constant False Alarm Ratio enhet (CFAR) (195) och en extraktionsenhet (196). 22. Markradarsystemet enligt krav 21, kännetecknat av att nämnda digitala strålforrnningsenhet, pulskompressionsenhet, Dopplerbearbetningssteg, envelopdetekteringsenhet är anordnade som två sju- dimensionella hyperkuber. 10 15 20 25 30 522 520 u n . . q. 30 23. Markradarsystemet enligt krav 21, kännetecknar av att nämnda Constant False Alarm Ratio enhet (CFAR) (195) och en extraktionsenhet (196) är anordnade som ett antal fem-dimensionella hyperkuber. 24. Metod att bearbeta data i ett luftburet system enligt något av krav 17-19, kännetecknaa' av stegen att: 1. Preprocessa, Dopplerprocessa, och utföra två hörnvändnin gar på samma sex- dimensionella hyperkub, 2. om datakuben är udda numrerad, vrid den och distribuera data till ett övre kluster av åtta fem-dimensionella hyperkuber, 3. om datakuben är jämnt numrerad, vrid den och distribuera data till andra kluster av fem-dimensionella hyperkuber, 4. utföra viktberäkning och applikation på samma arbetskluster av åtta fem- dimensionella hyperkuber och under en tidsperiod. 25. Metod att bearbeta data i ett luftburet radarsystem enligt något av krav 17-19, kännetecknad av att nämnda distribuering av steg 2 sker inom samma tidsintervall som steg 1. 26. Metod att bearbeta data i ett markradarsystem enligt något av krav 21-23, kännetecknad av stegen att:
1. utföra digital strålforrnning, pulskompression, Dopplerbearbetning, envelopdetektering, och två hörnvändningar på nämnda sju-dimensionella hyperkub under det första koherentpulsintervallet,
2. vända datakuben två gånger, från sju-dimensionell till fem-dimensionell,
3. förbereda att dela upp data mellan en puls- eller områdesdimension beroende på formen av datakuben i det föregående steget, och distibuera fraktioner till ett övre kluster av fyra fem-dimensionella hyperkuber, om datakuben är udda numrerad,
4. om datakuben är jämnt numrerad, distribuera data till en andra av fem-dimensionella hyperkubema, och 5 2 2 5 2 o . Ijfš- " u . u | v: 31
5. beräkna CFARen och extraktionssteget på samma kluster under den återstående tiden.
SE0004015A 2000-11-02 2000-11-02 Signalbearbetningssystem SE522520C2 (sv)

Priority Applications (8)

Application Number Priority Date Filing Date Title
SE0004015A SE522520C2 (sv) 2000-11-02 2000-11-02 Signalbearbetningssystem
AT01981234T ATE507532T1 (de) 2000-11-02 2001-10-30 Optische signalverarbeitungsanordung
EP01981234A EP1340162B1 (en) 2000-11-02 2001-10-30 Optical signal processing arrangement
DE60144531T DE60144531D1 (de) 2000-11-02 2001-10-30 Optische signalverarbeitungsanordung
AU2002212891A AU2002212891A1 (en) 2000-11-02 2001-10-30 Signal processing arrangement
PCT/SE2001/002379 WO2002037695A2 (en) 2000-11-02 2001-10-30 Signal processing arrangement
CNB018217052A CN1303550C (zh) 2000-11-02 2001-10-30 信号处理装置
US09/985,086 US6873287B2 (en) 2000-11-02 2001-11-01 Signal processing arrangement

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
SE0004015A SE522520C2 (sv) 2000-11-02 2000-11-02 Signalbearbetningssystem

Publications (3)

Publication Number Publication Date
SE0004015D0 SE0004015D0 (sv) 2000-11-02
SE0004015L SE0004015L (sv) 2002-05-03
SE522520C2 true SE522520C2 (sv) 2004-02-10

Family

ID=20281681

Family Applications (1)

Application Number Title Priority Date Filing Date
SE0004015A SE522520C2 (sv) 2000-11-02 2000-11-02 Signalbearbetningssystem

Country Status (8)

Country Link
US (1) US6873287B2 (sv)
EP (1) EP1340162B1 (sv)
CN (1) CN1303550C (sv)
AT (1) ATE507532T1 (sv)
AU (1) AU2002212891A1 (sv)
DE (1) DE60144531D1 (sv)
SE (1) SE522520C2 (sv)
WO (1) WO2002037695A2 (sv)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3809515B2 (ja) * 2002-08-30 2006-08-16 よこはまティーエルオー株式会社 通信方法
US20150073958A1 (en) * 2013-09-12 2015-03-12 Bank Of America Corporation RESEARCH REPORT RECOMMENDATION ENGINE ("R+hu 3 +lE")
US10915152B2 (en) 2016-04-26 2021-02-09 Src, Inc. Scalable high-performance embedded computing systems
US11824590B2 (en) * 2020-04-13 2023-11-21 Avicenatech Corp. Interconnect networks using microLED-based optical links
CN117149446B (zh) * 2023-10-31 2024-03-12 成方金融科技有限公司 一种基于图形处理器的数据处理方法、装置、设备及介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4933836A (en) * 1986-10-29 1990-06-12 United Technologies Corporation n-Dimensional modular multiprocessor lattice architecture
US4966447A (en) * 1989-04-28 1990-10-30 At&T Bell Laboratories Integration of free-space planar optical components
US5734921A (en) * 1990-11-13 1998-03-31 International Business Machines Corporation Advanced parallel array processor computer package
US5794059A (en) * 1990-11-13 1998-08-11 International Business Machines Corporation N-dimensional modified hypercube
CA2084950A1 (en) * 1991-12-18 1993-06-19 Tsen-Hwang Lin Compact programmable processing module
US6016211A (en) * 1995-06-19 2000-01-18 Szymanski; Ted Optoelectronic smart pixel array for a reconfigurable intelligent optical interconnect
US5748143A (en) * 1996-12-09 1998-05-05 The United States Of America As Represented By The Secretary Of The Air Force Adaptive post-doppler sequential beam processor
US6023753A (en) * 1997-06-30 2000-02-08 Billion Of Operations Per Second, Inc. Manifold array processor
US6167502A (en) * 1997-10-10 2000-12-26 Billions Of Operations Per Second, Inc. Method and apparatus for manifold array processing
US5907302A (en) * 1997-12-19 1999-05-25 The United States Of America As Represented By The Secretary Of The Air Force Adaptive elevational scan processor statement of government interest
US6292592B1 (en) * 1998-10-19 2001-09-18 Raytheon Company Efficient multi-resolution space-time adaptive processor
US6400306B1 (en) * 1999-12-17 2002-06-04 Sicom Systems, Ltd Multi-channel moving target radar detection and imaging apparatus and method
US6252540B1 (en) * 1999-12-21 2001-06-26 The United States Of America As Represented By The Secretary Of The Air Force Apparatus and method for two stage hybrid space-time adaptive processing in radar and communication systems
DE10012411B4 (de) * 2000-03-13 2005-10-20 Eads Deutschland Gmbh Realzeit STAP-Filter zur Festzielunterdrückung
DE10038912A1 (de) * 2000-08-09 2002-02-21 Daimler Chrysler Ag Verfahren zur Repositionierung von Bewegtzielen in SAR-Bildern

Also Published As

Publication number Publication date
WO2002037695A3 (en) 2002-07-18
SE0004015D0 (sv) 2000-11-02
WO2002037695A2 (en) 2002-05-10
EP1340162A2 (en) 2003-09-03
SE0004015L (sv) 2002-05-03
US20020158792A1 (en) 2002-10-31
US6873287B2 (en) 2005-03-29
WO2002037695A8 (en) 2003-01-09
EP1340162B1 (en) 2011-04-27
CN1531689A (zh) 2004-09-22
DE60144531D1 (de) 2011-06-09
AU2002212891A1 (en) 2002-05-15
ATE507532T1 (de) 2011-05-15
CN1303550C (zh) 2007-03-07

Similar Documents

Publication Publication Date Title
US5943150A (en) Massively parallel processor networks with optical express channels
Bhuyan et al. Design and performance of generalized interconnection networks
Zane et al. Scalable network architectures using the optical transpose interconnection system (OTIS)
US5842034A (en) Two dimensional crossbar mesh for multi-processor interconnect
US20090113172A1 (en) Network topology for a scalable multiprocessor system
WO1998017043A9 (en) Massively parallel processor networks with optical express channels
Sahni et al. BPC permutations on the OTIS-mesh optoelectronic computer
Louri et al. A spanning multichannel linked hypercube: a gradually scalable optical interconnection network for massively parallel computing
Hoefler et al. HammingMesh: a network topology for large-scale deep learning
Eshaghian Parallel algorithms for image processing on OMC
SE522520C2 (sv) Signalbearbetningssystem
RU2398281C2 (ru) Многослойная модульная вычислительная система
Campbell et al. 3D wafer stack neurocomputing
Jain et al. Reconfiguration and yield for TESH: A new hierarchical interconnection network for 3-D integration
Sawchuk 3-D optical interconnection networks
Shively et al. A high performance reconfigurable parallel processing architecture
Wang et al. Design and implementation of fault-tolerant and cost effective crossbar switches for multiprocessor systems
Forsberg et al. Radar signal processing using pipelined optical hypercube interconnects
Forsberg et al. Embedded signal processing using free-space optical hypercube interconnects
Forsberg et al. A scalable and pipelined embedded signal processing system using optical hypercube interconnects
Eshaghian et al. An optically interconnected reconfigurable mesh
Louri et al. Scalable optical interconnection networks for large-scale parallel computers
Bhuyan et al. Performance and reliability of the multistage bus network
Lyuu et al. Total exchange on a reconfigurable parallel architecture
Li et al. Versatile processor arrays based on segmented optical buses