NO323257B1

NO323257B1 - Fremgangsmater for a analysere strukturen av et nettverk

Info

Publication number: NO323257B1
Application number: NO20055034A
Authority: NO
Inventors: Kenth Engo-Monsen; Geoffrey Canwright; Asmund Weltzien
Original assignee: Telenor Asa
Priority date: 2005-10-28
Filing date: 2005-10-28
Publication date: 2007-02-19
Also published as: NO20055034D0; WO2007049972A1; EP1946485A1; US20090296600A1

Abstract

En fremgangsmåte for analyse og visualisering av et nettverk er beskrevet. Analysemetoden er basert på bruk av bratteste stigningsgraf (SAG). Nærmere bestemt vil fremgangsmåten: (1) bruke SAG til å definere subregioner, på en måte som tillatter gjentatte forfininger, (2) presentere en ny og meget effektiv måte å beregne SAG-en, (3) bruke SAG-en og definisjonene i (1) som grunnlag for en ny fremgangsmåte for å fremvise strukturen av nettverket i en to-dimensjonal visualisering.

Description

Fremgangsmåte for analyse og visualisering av et nettverk

Oppfinnelsens område

Foreliggende oppfinnelse adresserer problemer med å forstå og kontrollere strømmen av informasjon i nettverk, med det mål å spre eller hindre spredning av informasjon i nevnte nettverk. Oppfinnelsen omfatter å analysere strukturen av et gitt nettverk, basert på den målte topologi (nodene i nettverket og linkene mellom dem). De aktuelle nettverk kan være enhver type nettverk, men oppfinnelsen er særlig egnet for kommuni-kasjonsnettverk.

Teknologisk bakgrunn

Det eksisterer mange fremgangsmåter for å definere veltilknyttede klynger i et nettverk, men bare fremgangsmåten for regionanalyse beskrevet i søkerens tidligere norske patentsøknader NO 20035852 og NO 20053330 har blitt vist å ha direkte nytte for å forstå og kontrollere spredning av informasjon på nettet. Nærmere bestemt, i NO 20035852 har vi presentert en grunnleggende metode for å analysere nettverk. Denne metoden er gyldig når linkene i nettverket kan betraktes som symmetriske - det vil si når flyten av informasjon over en link kan antas (i det minste omtrentlig) å være like sannsynlig i begge retninger på linken. Et hovedresultat av denne metoden er tildelingen av hver node til en region (veltilknyttet klynge) av nettverket. Analysen predikerer at informasjonsspredningen vil være relativt hurtigere innen regioner enn mellom dem. Kjennskap til disse regioner er derfor nyttig for å kontrollere spredningen av innfor-masjon - det vil si enten hindre spredningen av skadelig informasjon (slik som data-virus) eller hjelpe til spredning av nyttig informasjon. Geoffrey Canright og Kent Engø-Monsen, "Roles in Networks", Science of Computer Programming, 53 (2004) 195-214, er en forskningsartikkel som beskriver analysemetoden i detalj. Geoffrey Canright og Kent Engø-Monsen, "Spreading on networks: a topographic view" som vil trykkes i Proceedings, European Conference on Complex Systems, 2005 (ECCS05) og Geoffrey S. Canright og Kent Engø-Monsen, "Epidemic spreading over networks: a view from neighbourhoods", Telektronikk 101,65-85 (2005) er ytterligere forskningsartikler som demonstrerer at vår definisjon av regioner faktisk er meget nyttig for forståelse av hvordan informasjon spredes over et nettverk. I den sist nevnte artikkelen presenterer vi også metoder for å modifisere strukturen av et gitt nettverk, mot det mål enten å hjelpe til eller hindre informasjonsflyt. Resultater av noen begrensede tester av disse design-metoder blir presentert, som også beskrives i norsk patentsøknad NO 20053330. Testresultatene rapportert den siste artikkelen indikerer at design og modifikasjons-teknikker som er basert på vår regionanalyse i betraktelig grad kan påvirke hastigheten for informasjonsspredning.

En ulempe ved vår metode for regionanalyse er at de så langt ikke har blitt funnet noen brukbar måte for å forfine analysen, det vil si å definere subregioner innen hver region. Det vil si at metoden tillater en å sortere nodene av nettverk inn i et antall regioner, definert ved at de er veltilknyttet internt. Imidlertid er antallet slike regioner bestemt av analysen og derfor ikke underkastet noe valg av brukeren av analysen. For et til-strekkelig veltilknyttet nettverk kan metoden også gi det svar at nettverket består av en enkelt region. Hvis en bruker av denne tilnærming ønsker å undersøke mindre subregioner enn de gitt av analysen, er det derfor behov for nye metoder. I mange tilfeller er det ønskelig å være i stand til iterativt å forfine analysen, definere sub-subregioner osv. M. Girvan og M. Newman,"Community structure in social and biological networks", Proe. Nati. Acad. Sei. USA, 99 (2002), side 8271-8276 beskriver en metode for nettverksanalyse som også bryter ned et gitt nettverk i veltilknyttede klynger. Girvan-Newman-metoden har fordelen at nedbrytningen kan forfines så mange ganger som ønsket, med oppnåelse av subregioner, sub-subregioner osv. Imidlertid har Girvan-Newman-metoden ingen demonstrert forbindelse til det viktige praktiske problem av å forstå spredningen av informasjon.

En annen begrensning ved metoden for regionanalyse som beskrevet i NO 20035852 er at den kan være for krevende når det gjelder datakraft ved håndtering av store grafer. Et viktig teknisk aspekt ved regionanalysemetoden er beregningen av bratteste stigningsgrafen (SAG, for steepest-ascent-graph) for et gitt nettverk. Denne graf brukes til å unikt tildele noder til regioner. Vi har oppdaget, ved arbeid med multi million-node grafer, at det er viktig å være i stand til å beregne denne SAG på en effektiv måte. Nærmere bestemt har vi funnet en ordinær tilnærming til å beregne SAG-en i slike tilfeller kan ta flere hundrede år for å fullføres - hvilket gjør hele tilnærmingen praktisk talt umulig.

Endelig bemerker vi at en meget ønskelig egenskap ved enhver metode for nettverksanalyse er muligheten for å visualisere den resulterende struktur (som gitt ved analysen). Det har vært, og fortsetter å være, et stort volum av arbeid på problemet med visualisering av nettverk. Imidlertid er problemet med å finne en god visualisering som presenterer vårt "regionale" bilde av et nettverk hovedsakelig uløst.

Et overblikk over gjeldende teknikk for visualisering og grafer kan finnes i Giuseppe Di Battista, Peter Eades, Roberto Tamassia, og Ioannis G. Tolli s, Graph Drawing: Algorithms for the Visualization of Graphs, Prentice Hall PTR, Upper Saddle River, NJ, USA (1998).

Sammenfatning av oppfinnelsen

Et hovedformål ved foreliggende oppfinnelse er derfor å frembringe en fremgangsmåte for nettverksanalyse som løser manglene ved tidligere kjente metoder som nevnt ovenfor. Fremgangsmåten for analyse i følge foreliggende oppfinnelse er basert på bruk av bratteste stigningsgraf (SAG).

Nærmere bestemt, foreliggende oppfinnelse: (1) bruker SAG til å definere subregioner, på en måte som tillatter gjentatte forfininger, (2) presenterer en ny og meget effektiv måte å beregne SAG, (3) bruker SAG, og definisjonene i (1) som grunnlag for en ny fremgangsmåte for fremvisning av strukturen av nettverket i en todimensjonal visualisering.

Oppfinnelsen er definert i de vedføyde krav.

Kortfattet beskrivelse av tegningene

Oppfinnelsen vil nå bli gitt en detaljert beskrivelse, med henvisning til de vedføyde tegninger, hvor:

Figur 1 viser en enkel testgraf med 16 noder,

Figur 2 viser en samme graf med konturlinjene fjernet,

Figur 3 viser subregionene i testgrafen i figur 1,

Figur 4 viser subregionenene som oppnås ved ytterligere forfining av den største subregionen i figur 3,

Figur 5 er en skjematisk tre visualisering av testgrafen i figur 1,

Figur 6 er en visualisering av Gnutella-nettet ved bruk av tidligere kjent teknikk,

Figur 7 viser bratteste stigningsgraf av den samme nettverk,

Figur S er en annen tidligere kjent visualisering av Gnutella-nettet tatt ved et annet tidspunkt, Figur 9 er den korresponderende visualisering ved bruk av tilnærmingen med bratteste stigning, Figur 10 viser grafen i figur 8, men med nodene fargelagt i følge deres regionmedlemskap,

Figur 11 er subregion visualiseringen for to-regiongrafen i figur 9,

Figur 12 har den samme graf med en terskel satt for en subregion-strørrelse, det vil si små subregioner er ikke vist, Figur 13 viser subregion visualiseringen for en-regiongrafen i figur 7, også med en terskel satt på subregion-størelse.

Detaljert beskrivelse

Definisjon av subregioner og forfining

Vi viser til vårt topografiske bilde for å beskrive ideene bak denne oppfinnelse. Dette bilde er hver region et "fjell", og indeksen for eigenvektorsentralitet (EVC) for hver

node er dens "høyde". For hver region kalles toppen av fjellet dens senter - dette er den høyeste node i regionen. Vi legger da merke til at grafen for brattest stigning gir et bilde av "ryggstrukturen" av fjellet. Det vil si at hver link som er beholdt i grafen for brattest stigning er en link fra en node til denne nodes "høyeste" (i EVC) nabo. Disse linker representerer slik den sannsynligste vei for informasjonsflyt mot eller fra senteret i regionen. Videre er det en slik "rygglinje" (inkludert lavere forgreininger) for hver nabo av senteret.

Vi definerer derfor en subregion som simpelthen den forgrening av SAG (som er et tre) som ender inn i en nabo av senteret. Det vil si at hver nabo av senteret sitter på toppen av et subtre av SAG treet, og vi identifiserer hvert subtre som en subregion. Denne definisjoner ikke tilfeldig, siden hvert subtre faktisk representerer settet av sannsynligste veier for informasjonsflyt mellom nodene i subtreet og senteret.

Denne definisjonen har også den åpenbare fordel at den tillatter gjentatte forfininger. Siden en subregion simpelthen er et subtre av SAG-en, kan man lett definere sub-subregioner som sub-subtre. Det vil si at man simpelthen beveger seg "nedover" subtreet fra dets topp, inn til den første forgrening av subtreet. Hver gren av subtreet defineres da som en klar sub-subregion. Utvidelsen til flere ytterligere forfininger bør være klar fra denne definisjon.

Vi illustrerer definisjonen av subregioner med et eksempel. Figur 1 viser en enkel graf med 16 noder. "Konturlinjer" med konstant "høyde" er også vist. Det er klart fra figuren at en regionanalyse gir to regioner - en med 12 noder til venstre og en med 4 noder til høyre. For hver region er sentemoden markert med blå farge.

Figur 2 viser de samme grafer med konturlinjene fjernet, og med de linker som ligger på SAG-en markert med tykke linjer. Derfor er SAG-en klart synlig i figur 2.

Vi nå definerer subregionene for hver region. For hver region fjerner vi sentrene og alle linker tilknyttet dem. Disse noder som var naboer av et senter er nå "leder" av deres subregion. Disse noder er farget svart (se figur 3). Noder som er på "bladene" av treet, det vil si ved enden av en kjede av linker er fremdeles røde. Noder som er både leder og blad (fordi de representerer en en-node subregion) er svart/rød. Endelig er det en grønn node som er verken leder eller blad.

Hver tilknyttet subgraf i figur 3 er en subregion av grafen i figur 2. Vi finner derfor at det er en subregion med seks noder, en med to noder, og seks subregioner med bare en node. Vi legger merke til at forsøk med empirisk målte (peer-to-peer) nettverk har indikert at man typisk kan finne en stor variasjon i størrelsen av subregionene, og at en-node subregioner ikke er uvanlig selv med store empiriske nettverk. Figur 3 er derfor typisk (unntatt for den lille størrelsen av hele grafen) for reelle nettverk som vi har undersøkt så langt (disse har omtrent 1000 noder).

Grafen i figur 1 tillatter et ytterligere trinn med forfining. Vi illustrer dette i figur 4, hvor vi forfiner den største subregionenn i grafen. Forfining består av å fjerne lederen av subregionen, og dens linker. (Hvis lederen hadde bare en nabo under seg, fjerner vi denne også - osv. inntil den fjernede leder har multiple naboer.) Det er nå tre sub-subregioner - det vil si en for hver nabo av den fjernede leder. Den grønne noden sees nå som leder ofr sin sub-subregion. Forfiningsprosessen er nesten fullstendig analog med prosessen for å definere subregioner, enhver ytterligere forfininger {på større grafer enn i disse figurer) er også nøyaktig slik som forfiningsprosessen illustrert her.

Effektiv beregning av graf for brattest stigning

Som bemerket tidligere har vi funnet at bruk av en rett-frem algoritme for å finne SAG gir en beregnet kjøretid på omtrent 200 år for en testgraf med 10 millioner noder. Problemet her var at hele testgrafen ikke passet inn i det hurtige (RAM) minne for en maskin med 4GM RAM. Vi måtte derfor gripe til "eksternt minne" algoritmer, det vil si fremgangsmåter som bare leser inn en del av problemet om gangen, opererer på denne del, sletter den og deretter leser inn neste del. (For en referanse til algoritmer for eksternt minne se: External Memory Algorithms, American Mathematical Society, January 1,1999.). Kjøretid blir da sterkt begrenset av antallet leseoperasjoner for ekstern minne - disse operasjoner er mange ganger (størrelsesordrer) senere enn aksess-tiderforRAM.

Foreliggende oppfinnelse løser dette problem ved å gi en algoritme som er optimal når det gjelder antallet aksesser til ekstern minne. Det vil si at vår nye algoritme leser nabolisten av hver node (som er en kolonne av naboskapsmatrisen) nøyaktig en gang. Dette reduserer kjøretiden for vårt 10 million-node eksempel fra (forventet) 200 år til 58 timer.

Fremgangsmåten bygger på den innsikt av brattest stigning fra enhver gitt node faktisk bestemmes av (a) dens høyeste nabo pluss (b) brattest stigning fra den nabo. Med andre ord behøver vi bare for hver node å finne dens enkelte høyeste nabo en gang og for alltid (hvis det bare er - ellers er den et senter, det vil si et lokalt maksimum). For hver node må vi derfor finne og lagre dett ene stykke informasjon, og glemme alle andre linker.

I sammenfatning krever SAG å finne og lagre nøyaktig en link for hver node. Denne link finnes etter en enkelt aksess til nodens naboliste, og lagres i en separat datastruktur for SAG-en.

I detalj begynner beregningen av SAG-en med flere inngangsstrukturer. For det første behøver vi naboskapsmatrisen A som uttrykker topologien for grafen (Ajj = 1 hvis det er en link mellom node i og j, og 0 ellers). 1 'erne i den i'te kolonne(eller rad) av A gir derfor nodenumrene til de noder som er naboer av node i, det er i denne forstand at vi kan ekstrahere nabolisten for en node fra en kolonne i A.

Vi behøver også en vektor e som gir verdien for egenvektorsentraliteten (EVC) t-, for hver node i. Vi bruker deretter nabolisten for en gitt node g, og EVC-verdiene for disse naboer (tatt fra vektoren e), for å finne den ene nabo h av g som har den høyeste EVC-verdi. Vi lagrer dette resultat i en ny matrise Å ved å plassere en 1 i posten Ågh. Matrisen Å er faktisk grafen for brattest stigning (SAG). Den er meget tynn, siden den har bare en link på hver node. Derfor er det mye mer egnelig å lagre alle av Å i RAM enn det er å lagre alle av A (som typisk er 10-20 ganger så stor som Å når det gjelder lagringskrav). Selvfølgelig behøver man bare lagre Terne for enhver tynn, binær matrise, slik som A eller A, men fremdeles har den første mange flere 1 'ere enn den siste.

Effektiviteten av denne fremgangsmåte, når det gjelder antallet lesetilgangshendelser for kolonner i A, er klar. En naiv tilnærming ville plukke en node g og deretter finne dens nærmeste nabo h, deretter finne h's høyeste nabo, osv., inntil et senter blir nådd. Denne naive tilnærming gir umiddelbar regionmedlemskapsinformasjon for hver valgt node g, men den krever klart mange flere leseaksesshendelser i det tilfellet at A lagres ekstern.

Vår fremgangsmåte utsetter i stedet bestemmelse av regionmedlemskap inntil hele SAG-en er lagret i Å. Man bestemmer deretter regionmedlemskap som følger. Man bygger en startvektor s, slik at Sj = i. Det vil si at man simpelthen plasserer nodenummeret i den nodes post. Multiplisering av s med Å sender hvert nodenummer "nedover" i SAG treet - for eksempel med notasjonen ovenfor vil multiplikasjon med Å sende nummeret i h til g (og til alle andre noder som har h som deres høyeste nabo). Gjentatt multiplikasjon med Å resulterer til en stabil vektor s<*>, hvor posten i s<*> for hver node g gir nodenummeret fra senteret som region g tilhører. (1 det ekstremt sjeldne tilfelle at en node tilhører to regioner vil den motta summen av nodenumrene for de to sentere - i tilfelle som lett detekteres.) Vi legger også merke til at bare noen få multiplikasjoner med Å behøves, ettersom s vektoren konvergerer nøyaktig til s<*> etter et antall multiplikasjoner lik radius av den største region (målt i antall hopp). Typiske grafer, selv meget store grafer har små radier på grunn av "lille verden" effekter.

En modifisert versjon av prosedyren detaljert i foregående avsnitt kan brukes ved beregningen av subregioner. Først må SAG-en oppdateres på to måter: (1) fjern senternoden fra treet, hvilket får SAG-en til å dekomponere i et antall separate tre, og (2) legg til selvrefererende linker til den nye rot-node for hvert nytt tre. Subregion-medlemskap blir da bestemt av den samme prosedyre gitt i ovenfor, benyttet på hvert separat tre.

Visualisering

Vi beskriver to metoder for visualisering av strukturen av et nettverk basert på analysemetoden presentert her. Vi kaller disse to metoder respektivt "tre-visualisering" og "subregion-visualisering".

Tre- visualisering

For tre-visualisering går vi fram som følger:

1. Først betrakt hver region som en isolert subgraf, det vil si ignorer inter-region ("bro") linker.

2. Finn SAG-en for hver region separat

3. Bruk fritt tilgjengelige kraftbalansepakker til å fremvise de resulterende tre-strukturer på skjermen. For multiple regioner kan man fremvise multiple tre. 4. Man kan også beregne en "netto linkstyrke" mellom ethvert gitt par av subregioner - enten fira den samme region, eller fra distinkte regioner. Man kan deretter bruke denne netto linkstyrke til å bestemme hvilke subregioner (subtre) som bør ligge nærmest ti hverandre i treet (SAG) som representerer en region.

Figur 5 viser tre-visualiseringen for grafen i figur 1. Denne figur er bare skjematisk - det vil si at vi ikke har benyttet noen kraftbalansepakke for å legge ut nodene.

En praktisk tilnærming til tre-visualisering er skissert ovenfor. Vår tilnærming bruker

fritt tilgjengelig programvare for faktisk å legge ut nodene i planet, den nye idé kommer simpelthen fra å sløyfe alle linker annet enn de i SAG-en. Med andre ord involverer tre-visualisering bygging av SAG-en (som skissert ovenfor), og deretter simpelthen å levere SAG-en som en graf til et kraftbalanse-visualiseringsprogram slik som UCINet

(UCINet and NetDraw kan lastes ned fra http:// www. analvthictech. com/.

Vi tilbyr mer realistiske eksempler på tre-visualisering i figurene 6 til 10. Figur 6 viser et øyeblikksbilde av Gnutella peer-to-peer fildelingsnettverket, tatt i 2001. det har rundt 1000 noder. Visualiseringen i figur 6 blir utført ved bruk av NetDraw, en komponent av nettverksanalysepakken UCINet. Dette er derfor en visualisering i følge teknikkens stand, men den avdekker et strukturløst rot (som er felles med store nettverk).

Figur 7 viser den samme graf lagt ut igjen med NetDraw, men inngangen til NetDraw var grafen med brattest stigning som funnet ved vår analyse. Vi ser at vår analyse finner bare en region, men figur 7 avdekker en rik intern subregion struktur for denne ene region. Faktisk er mange lag av substruktur allerede synlig i figur 7 og det er klart at forfining av subregionene vil bringe ut denne substruktur enda klarere.

Det er mange subregioner for den enkle region i figur 7, og for hver av de to regioner i figur 9. For en trestruktur bør klart alle subregioner stråle ut fra senteret, men det er ikke noe åpenbart beste kriterium for å bestemme hvilke subregioner som er "naboer" ettersom de er lagt ut i en ring rundt senteret. Utleggene vist i disse to figurer bruker den enkle standard mekanisme av kraftbalanse algoritmer som hver node har en grad av frastøtning i forhold til hverandre. Derfor ble kraftbalanse selv tillatt å bestemme den radiale ordning av subregionene. Vi ser at resultatene av å bruke denne enkle standard-metode er gode.

Det er også mulig å bruke mer informasjon for å lede den radiale ordning av subtreene. Man kan definere og beregne et mål av "netto linkstyrke" (som beskrevet i nærmere detalj nedenfor) mellom ethvert gitt par av subregioner, og deretter bruke denne netto linkstyrke til å veilede plasseringen av subtreene. For eksempel kan man plassere en fiktiv ekstra link mellom de respektive ledere av hvert par av subtre, hvilket gir en vekt til denne link som bestemmes av netto linkstyrke mellom subtreene (subregionenene). Kraftbalansemetoden vil deretter tendere til å drive subtreet mot hverandre hvis de har en høy netto linkstyrke mellom dem.

Vi legger merker til at bruk av netto linkstyrke kan ha en fordel med meget store grafer. Det vil si for meget store grafer kan selv SAG trestrukturen være for tidsforbrukende til å legge it med kraftbalansering. I et slikt tilfelle vil sannsynligvis bruk av ekstra inter-leder linker, med en høy linkvekt sammenlignet med SAG-linkene, bringe opp hastigheten for konvergens - kanskje betraktelig.

Fremgangsmåte for å beregne netto linkstyrke vil bli gitt i det neste subkapitelet, siden denne kvantitet spiller en avgjørende rolle i visualisering av subregioner.

Endelig understreker vi at tre-visualisering er egnet for å fremvise forfininger av subregionene. Forfining av et gitt subregion-bilde simpelthen gir et nytt sett av subtre, som deretter kan håndteres nøyaktig som for tilfelle av multiple tre fra multiple regioner. Figur 4 er (igjen) et skjematisk eksempel på et trinn med forfining, idet det starter fra tre-visualisering i figur 3.

Subregion- visualisering

Prosedyren for subregion-visualisering er som følger:

1. Først betrakt hver region som en isolert subgraf, det vil si ignorer inter-region (bro) linker.

2. Finn SAG-en for hver region separat.

3. For hver subregion bestem den størrelse (antall noder).

4. Velg en terskel størrelse T. Subregioner av størrelse mindre enn T blir ikke fremvist, for å unngå forstyrrelser. Alle etterfølgende trinn gjelder bare for subregioner av størrelse £T.

5. For hver SAG beregn netto linkstyrke mellom hvert par av subregioner.

6. Fjern senteret av hver region, slik at subregionene dekobles fra hverandre i senteret. Deres eneste gjenværende kobling er da de parvise koblinger dannet av netto inter-subregion linkstyrke, og den resulterende struktur er ikke lenger et tre. 7. For hver region bygg en "grovdelt graf ved å representere hver subregion som en enkelt node, og bruke inter-subregion netto linkstyrkene som linker. Fremvis de resulterende grovoppdelte grafer for hver region, ved bruk av en fritt tilgjengelig kraftbalansepakke. Den fremviste størrelse av nodene i de grovt oppdelte grafene kan brukes til å indikere størrelsen (antallet faktiske noder) for den korresponderende subregion, og netto linkstyrker kan fremvises ved bruk av tykkelsen av de fremviste linker i den grovt oppdelte graf.

Subregion-visualisering krever en forklaring i noen flere trinn enn tre-visualisering. Av denne årsak gjentar vi trinnene gitt ovenfor, og legger til ytterligere detaljer der hvor det passer. 1. Betrakt først hver region som en isolert subgraf, det vil si ignorer inter-region (bro) linker.

2. Finn SAG for hver region separat.

3. For hver subregion bestem dens størrelse (antall noder).

Disse tre trinn er klare.

4. Velg en terskelstørrelse T. Subregioner av størrelse mindre enn T blir ikke fremvist, for å unngå støy. Alle etterfølgende trinn gjelder bare for subregioner av størrelse >T.

Det er alltid nyttig i visualisering å være i stand til å velge et oppløsningsnivå, det vil si et detaljnivå som man ønske r å få fremvist. Subregion-visualisering fjerner allerede mye detaljer ved simpelthen å fremvise hver subregion som en enkelt node. Imidlertid kan det være meget store variasjoner i størrelsen av subregionene. For eksempel gir grafen i figur 7 subregioner av størrelse som strekker seg fra 1 til omtrent 350 - med et stort antall små subregioner, og bare noen fa store. Videre forventer vi at denne type fordeling er typisk for mange virkelige nettverk. Derfor kan det være ønskelig å undertrykke fremvisningen av mange små subregioner, og fokusere på de store.

5. For hver SAG beregn netto linkstyrke mellom hvert par av subregioner.

I prinsippet er det mange måter å definere denne netto linkstyrke. Vi gir her en formel basert på to ideer: (1) linker med høy EVC far større vekt, (2) mange linker gir mer vekt enn få linker.

For å implementere disse to ideer definerer vi "aritmetisk linksentralitet" for en link mellom noder i og j til å være det aritmetiske middel av de to nodenes EVC-verdier:

Alternativt kan man definere "geoetrisk linksentralitet" gy for en link mellom noder i og j til å være det geometriske middel av de to noders EVC-verdier:

Vi definerer da netto linkstyrke mellom to subregioner a og p til å være summen av linksentralitetene for alle linker som knytter sammen a og p\ Dette gir

Vi bemerker tilslutt at man kan overkjøre instruksjonen I trinn 1, for grafer med multiple regioner. Det vil si at et enda grundigere oversyn kan oppnås ved å beregne og inkludere effektene av, alle inter-subregion netto linkstyrker - både de mellom subregioner i samme region, og de mellom subregioner i forskjellige regioner. (Formel 2 er like gyldig for et par av subregioner tatt fra to distinkte regioner.) Dette vil tillate den resulterende framvisning å ta hensyn til inter-regionale relasjoner, slik at det endelige utlegg representerer klarest hele settet av relasjoner. Vårt standardvalg er imidlertid å behandle hver region separat. 6. Fjern senteret av hver region, slik at subregioner avkobles fra hverandre i senteret. Deres eneste gjenværende kobling er da de parvise koblinger dannet av netto inter-subregion linkstyrke, og den resulterende struktur er ikke lenger et tre.

Her ser vi at subregionene nå behandles som individuelle noder (så lenge det dreier seg om visualisering). De har en "størrelse" (fra trinn 3), og de har inter-node linker med linkstyrker gitt som detaljert i trinn S. Senteret fjernes ettersom de tilhører noen subregion, og målet med subregion-visualisering er å forsøke å fremvise subregionene (alene) og deres relasjoner til hverandre.

Vi ender derfor opp med et visualiseirngsproblem med S noder (for S subregioner og størrelse >T), og generelt linker av noe styrke mellom de fleste par av noder. Derfor er vår grovoppdelte graf faktisk en tett graf - den er ikke tynn, siden de fleste av de mulige linker er tilstede. Imidlertid, er det to aspekter som utgjør dette visualiseirngsproblem mye enklere enn problemet med å visualisere hele nettverket. For det første er antallet S av subregioner for en gitt region garantert å være en veldig mye mindre enn antallet enn av noder i grafen - det er ikke mer enn antallet naboer for senteret i regionen (et antall allerede mye mindre enn N), og det er sannsynligvis mye mindre enn til og med dette antall, hvis terskel størrelsen T settes til å ekskludere mange små subregioner. For det andre er det sannsynlig å være store forskjeller i de forskjellige nett linkstyrker i den resulterende tette graf. Disse forskjeller gjør konvergens i kraftbalansemetoden mye enklere enn det ville vært hvis alle linker hadde samme, eller nesten samme, styrke.

7. For hver region bygg en "grovinndelt graf ved å representere hver subregion som en enkelt node, og bruke inter-subregion netto linkstyrker som linkene. Fremvis de resulterende grovinndelte grafer for hver region, ved bruk av en fritt tilgjengelig kraftbalansepakke. Nodestørrelsen i de grovinndelte grafer kan brukes til å indikere antallet noder for den korresponderende subregion, og netto linkstyrker kan fremvises ved bruk av tykkelsen av de fremviste linker i den grovinndelte graf.

Alle teknikkene som er nødvendig for dette trinn er offentlig tilgjengelig. Det er selvfølgelig andre måter (for eksempel farger) for å indikere skalare mål av node-størrelse og link. Vi ekskluderer ikke noen slik metode her. Den essensielle informasjon som vi ønsker å inkludere i denne oppfinnelse er at både node (subregion) størrelse og netto (inter-subregion) linkstyrke, kan og bør fremvises i subregion-visualisering, de er en viktig del av det totale bilde av hvordan subregionene er relatert til hverandre.

Figur 11 viser en subregion-visualisering for to-regiongrafen i figur 9, med terskel T = 1 - det vil si at alle subregioner blir vist. For sammenligning, i figur 12 har vi satt T = 10. Reduksjonen i støy er betydelig. Vi bemerker at det ikke er trivielt enkelt å finne korrespondanser mellom subregion strukturer i figur 9 og de i figur 11 eller 12. Vi tror at dette er fordi hver type visualisering fremhever forskjellig, men nyttig, strukturell informasjon om nettverk et som studeres. Det vil si at de to metoder er komplementære i stedet for redundante.

Noen hovedtrekk kan imidlertid finnes å korrespondere. For eksempel korresponderer den største røde "subregion" i figur 11 med hele "nedre halvdel" av den røde region i figur 9, vi vet at den nedre halvdeler en subregion, fordi senteret i denne region er ved navet av den øvre halvdel. Den samme type korrespondanse kan finnes for den blå regionen.

For fullstendighetens skyld viser vi i figur 13 subregion-visualiseringen for en-regiongrafen figur 7, med T = 10. Her ser vi igjen en meget stor subregion, korresponderende til "øvre halvdel" av figur 7.

Det er mange tenkelige bruksområder for den inventive fremgangsmåte. Vi lister opp flere her.

• Analyse og forbedring av informasjonsflyten i organisasjoner

• Systemer for å understøtte andre typer sosiale nettverk, for eksempel online samfunn

• Sikkerhet for datanettverk, for eksempel viruskontroll

• Nye strategier for å kontrollere spredningen av sykdommer blant dyr og mennesker. • Begrensning av spredningen av skade i teknologiske nettverk, for eksempel kraftnett.

Claims

1. Fremgangsmåte for analyse og visualisering av et nettverk, idet nevnte nettverk inkluderer et antall noder sammenknyttet med linker, karakterisert ved de følgende trinn: • avbildning av topologien for nettverket, • beregning av en naboskapsmatrise A for nevnte nettverk, • fra nevnte naboskapsmatrise A å ekstrahere en naboliste for hver node i nettverket, • beregning av en verdi for egenvektorsentralitet (EVC) for hver node, • fra nevnte naboliste og EVC-verdi identifisere naboen til noden med den høyeste EVC-verdi, • frembringelse av en matrise Å med poster for hver link i nettverket, hvor posten for en gitt link settes til 1 hvis linken er en link mellom en node og dens nabo med den høyeste EVC-verdi, idet nevnte matrise Å er grafen for brattest stigning (SAG) for nettverket.

2. Fremgangsmåte i følge krav 1, idet nevnte fremgangsmåte inkluderer de ytterligere trinn: • multiplisering av en startvektor Sj = i, hvor i er nodetallet, med en bratteste stigningsgraf for nettverket uttrykt som en matrise Å, • gjentakelse av dette multiplikative trinn inntil startvektoren s konvergerer til en stabil vektor s<*>, • avlesning av regionmedlemskapet for hver node fra s<*>.

3. Fremgangsmåte i følge krav 2, idet nevnte fremgangsmåte inkluderer de ytterligere trinn: • identifisering av noder som er lokale maksima av brattest stigningsgrafen som senternoder, • gruppering av nodene inn i regioner som omgir hver identifisert sentemode, • fjerning av nevnte senternoder og linkene til nevnte senternoder fra brattest stigningsgrafen, • identifisering av naboliggende noder og nevnte senternoder som ledernoder, • gruppering av noder inn i subregioner som omgir hver identifisert ledernoder, idet nodene av en subregion er linket til ledernoden av denne subregion i bratteste stigningsgrafen.

4. Fremgangsmåte i følge krav 3, idet nevnte fremgangsmåte inkluderer de ytterligere trinn: • identifisering av naboliggende noder av nevnte ledernoder som sub-subregion ledernoder, • gruppering av noder inn i sub-subregioner omgivende hver identifisert sub-subregion ledernode, idet nodene av en sub-subregion er linket til sub-subregion ledernoden i bratteste stigningsgrafen.

5. Fremgangsmåte i følge krav 3, idet nevnte fremgangsmåte inkluderer de ytterligere trinn: • identifisering av regioner i nevnte nettverk, • beregning av en bratteste stigningsgraf for hver region separat, • fremvisning av en eller flere av bratteste stigningsgrafene på en fremvisningsenhet ved bruk av kraftbalansering.

6. Fremgangsmåte i følge krav 3, idet nevnte fremgangsmåte inkluderer de ytterligere trinn: • identifisering av regioner og senternoder i nevnte nettverk, • beregning av en bratteste stigningsgraf for hver region separat, • identifisering av subregioner i nevnte nettverk, • bestemmelse av størrelsen av hver subregion, • selektering av en terskel størrelse T, • fjerning av subregioner mindre enn nevnte terskelstørrelse T fra grafene, • for hver graf beregne netto linkstyrke mellom hvert par av subregioner, • fjerning av senternoden fra hver region, • bygging av en grovinndelt graf hvor hver subregion er representert som en enkelt node ved bruk av inter-subregion netto linkstyrker som linker, • fremvisning av de grovinndelte grafer for hver region på en fremvisningsenhet ved bruk av kraftbalansering.