SE510310C2

SE510310C2 - Förfarande jämte anordning för rörelse-esimering och segmentering

Info

Publication number: SE510310C2
Application number: SE9602820A
Authority: SE
Inventors: Miroslaw Bober; Josef Kittler
Original assignee: Ericsson Telefon Ab L M
Priority date: 1996-07-19
Filing date: 1996-07-19
Publication date: 1999-05-10
Also published as: EP0978098A2; SE9602820D0; WO1998003939A2; US6356647B1; WO1998003939A3; SE9602820L; AU3714197A

Description

510 310 2 pel vara segmenterad i områden med svagt växlande intensitet.

En områdesbaserad teknik som är idëmässigt baserad på Hough- transformen och som använder robusta statistiska kerneller har beskrivits i artiklarna av M. Bober och J. Kittler, "Robust Motion Analysis", i CVPR Conference proceedings, 1994, sid. 947- 952, M. Bober och J. Kittler, "Estimation of Complex Multimodal Motion: An Approach based on Robust Statistics and Hough Trans- form", Proceedings från British Machine Vision Conference, 1993 sid. 239-248 och M. Bober och J. Kittler, "Estimation of general multimodal motion: an approach based on robust statistics and Hough transform", Image and Vision Computing, 1994, vol 12, nr 12, sid. 661-668, vilka införlivas som referenser häri.

Detta förfarande utför samtidig rörelse-estimering och segmente- ring genom att iterativt maximera det stöd som definieras av en summa av fel viktad av en robust kernell mellan två områden: en i en referensbild och den andra i den efterföljande bilden.

Läget och storleken på referensblocket är godtyckligt, medan positionen i det efterföljande området bestäms av en geometrisk transformation av referensblocket. Denna tidigare kända teknik visas också i flödesschemat i figur 8, som visar hur inmatade bilder lågpassfiltreras i ett block 801. Sedan ställs en grov upplösning in i ett block 803 och rörelseparametrar initieras i ett block 805. Därefter beräknas derivatorer i ett block 807, vilka används för att uppdatera estimatet i block 809. På basis av estimatet beräknas en ny skala i ett block 811. Efter detta kontrolleras det i ett block 813 om vägen har återspårat. Om detta villkor är falskt återvänder processen till blocket 807, och annars utförs en ny kontroll i ett block 815 om den finaste upplösningen har nåtts. Om detta är fallet avslutas processen i ett block 819 och annars ändras upplösningen till en finare upplösning i ett block 817 och sedan återvänder processen till blocket 807.

De transformationsparametrar som maximerar stödvärdet antas beskriva blockets eller bildens rörelse. Enligt den tidigare kända tekniken som beskrivs i artiklarna av M. Bober och J.

Kittler som citerats ovan, beräknas de statistiska egenskaperna 'sm 310 3 av den transformerade bildskillnaden efter varje iteration och formen hos kernallfunktionen justeras i enlighet med detta.

Bidragen till stödvärdet från pixel med stora rörelsekompensa- tionsfel viktas ned eller tas bort av den robusta kernellen.

Sådana pixel tillhör vanligen objekt som rör sig oberoende eller en täckt/skymd bakgrund och benämns utanförliggande. Således skapas en mekanism för samtidig rörelse-estimering och segmen- tering av den robusta kernellen.

Tekniken som beskrivs i de ovan citerade artiklarna som be- skriver teknikens ståndpunkt löste några av de problem som hör samman med blockmatchning och korrelationsbaserade tekniker.

Sålunda kan tekniken klara av icke-rätlinjiga rörelser, till exempel förfinade modeller och med flera rörliga objekt inuti ett block. Tekniken har dock fortfarande flera nackdelar, såsom att inte konvergera för områden med komplicerade rörelser och att fortfarande vara beräkningsmässigt dyr.

REDOGÖRELSE FÖR UPPFINNINGEN Det är ett syfte med föreliggande uppfinning att övervinna de problem som hör samman med den tidigare tekniken och att öka dess robusthet och kvaliteten på rörelsesegmenteringen.

Detta syfte uppnås genom att lägga till nya steg och modifiera några delar av den tidigare kända tekniken.

Särskilt strävar uppfinningen efter att lösa problemen med konvergensen i den tidigare kända tekniken såsom beskriven i de ovan citerade artiklarna av M. Bober och J. Kittler och att öka dess beräkningsmässiga effektivitet. I enlighet med uppfinningen används en modifierad gradientbaserad sökteknik och mitten på koordinatsystemet placeras i mitten av området, bild eller block, där estimeringen används. Användningen av sådana modi- fierade gradienter, dvs gradienter skalade med olika faktorer. minskar antalet behövda iterationer och således också teknikens komplexitet. Den förbättrar också konvergensen, dvs den modi- fierade sökningen har större sannolikhet att konvergera till de sanna rörelseparametrarna. 510 310 4 Vidare används i den tidigare tekniken medianabsolutavvikelsen som skalestimat. Detta har visat sig orsaka problem med konver- gens och noggrannhet. När det endast finns ett rörligt objekt inuti ett block blir, vid iterationer med finare upplösningar, skalvärdena mycket små och många pixel, som inte är utanför- liggande, tas bort från estimeringsprocessen. För att övervinna denna nackdel adderas en liten konstant till skalans MAD (Med- ianabsolutavvikelse)-estimat.

Vidare måste i den tidigare tekniken skalan för residualfelen omräknas efter varje uppdatering av rörelseparametrarna. Detta har visat sig vara mycket ineffektivt och effektiviteten hos förfarandet har visat sig bli signifikant förbättrat genom att införa följande modifiering. När iterationen fortskrider i den grova upplösningen i parameterrymden uppdateras skalan efter varje steg. I finare upplösningar, dvs subpixelupplösning i fallet med en rätlinjig rörelsemodell uppdateras emellertid skalan endast varje k steg, där k ett heltal större än 1.

Dessutom specificerar inte den enligt den tidigare tekniken beskrivna optimeringen på det diskreta rutnätet hur en bra startpunkt för iterationerna efter ändring av upplösning i parameterrymden skall väljas. Beskrivningen definierar endast villkoret för upplösning i parameterrymden när vägen återspårar.

Det har nu visat sig att om ett register av den punkt i para- meterrymden som svarar mot det lägsta värdet av felfunktionen sparas under iterationerna och används som startpunkt för finare upplösning uppnås en signifikant förbättring av den beräknings- mässiga effektiviteten.

Dessutom finns inte något bra iterationsslutvillkor beskrivet i den tidigare tekniken. Det har emellertid visat sig att itera- tionen kan avslutas och ge ett bra resultat när ett av de föl- jande villkoren är uppfyllt: i) antalet iterationer vid en given upplösning överskrider iterationströskelvärdet eller ii) värdet för skalans medianestimat underskrider skal- tröskelvärdet eller iii) vägen återspårar vid den finaste upplösningen.

'S10 31o 5 Vidare har hastigheten och konvergensen för den tidigare tekni- ken visat sig möjlig att förbättra, till exempel för sekvenser med stor rörelse. I syfte att förbättra hastigheten och konver- gensen kan ett hybridschema där det initiala estímatet vid grov upplösning bestäms av en icke iterativ teknik, såsom den fas- baserade tekniken, användas. Det vill säga, först används vid lågupplösningsstadiet en snabb icke iterativ teknik. Sedan, vid medel- eller finupplösningsstadierna används den modifierade Hough-transformen med användning av robusta statistiska kernell- funktioner.

Vidare används den tidigare tekniken endast på block, dvs om- råden med rektangulär storlek och mitten på koordinatsystemet placeras i bildens hörn. Det har emellertid visat sig att sys- temet inte är begränsat till blockformade områden utan kan utvidgas till områden av godtycklig form. I det senare fallet blir emellertid placeringen av koordinatsystemets mitt kritisk för teknikens prestanda. Det har visat sig att genom att använda gravitationscentrum hos referensområdet som origo för koordinat- systemet uppnås bra prestanda.

Vidare är det inte specificerat i den tidigare tekniken vad den specifika upplösningen för rörelseparametrarna al till a6 och inte heller vad relationen mellan parametrarna skall vara. En lösning på detta problem är att relatera upplösningen i para- meterrymden till den maximala förflyttning som estimatorn för- väntas att estimera och till områdets storlek.

Vidare har noggrannheten hos den tidigare tekniken visat sig förbättras genom att förfiltrera den ursprungliga bilden med ett lågpassfilter, företrädesvis gaussformat, och sedan lagra den resulterande bilden i en matris med utökat dynamiskt område. All efterföljande behandling utförs på bilderna som är lagrade med utökat dynamiskt område.

Tekniken kan använda vilken parametrisk rörelsemodell som helst.

Den är särskilt lämpad att användas i: 1) en rätlinjig rörelsemodell, dvs: dx = al, dy = az 510 310 2) en fyrparameterrörelsemodell, dvs: dx = alx - a2y + a3 dy = azx - aly + a4 3) en förfinad rörelsemodell, dvs: dx = alx + azy + a3 Där dx, dy är komponenter av förflyttningsvektorn d a (dx, dy) för en pixel vid positionen (x, y) och där (al till a6) är rörelseparametrarna.

BESKRIVNING AV FIGURERNA Föreliggande uppfinning kommer nu att beskrivas mer i detalj med hjälp av en icke begränsande utföringsform och med hänvisning till de bilagda ritningarna, i vilka: - Figur 1 är ett allmänt blockschema.

- Figur 2 visar det steg som utförs i förbehandlingsblocket i figur 1.

- Figur 3 visar det robusta Hough-transform-blocket i figur 1 mer i detalj.

- Figur 4a och 4b visar olika segmenteringar av en bild och koordinatsystemets läge.

- Figur 5a - Sd visar hur ett parameterrymdminne fungerar och beslutsmekanismen.

- Figur 6 visar ett exempel på hur upplösningarna i bild och parameterrymden ändras.

- Figur 7 är ett exempel på k-värden för olika upplösnings-kom- binationer.

- Figur 8 är ett allmänt flödesschema över den tidigare tek- niken.

BESKRIVNING AV EN FÖREDRAGEN UTFÖRINGSFORM Figur 1 visar ett allmänt blockschema över tekniken. Det består av tre huvudbehandlingsblock till vilka efter varandra följande bilder matas: - ett förbehandlingsblock (PB) 101, - ett robust Hough-transform-block (RHTB) 103, och - ett efterbehandlingsblock (PPB) 105. 510 310 7 Stegen som utförs i dessa behandlingsblock kommer att beskrivas mer i detalj nedan.

Figur 2 visar de steg som utförs i förbehandlingsblocket 101.

Först lågpassfiltreras flera efter varandra följande digitali- serade bilder 201 av en lågpassfiltermodul (LPM) 203, där det filter som används företrädesvis är gaussformat och resultatet lagras med utökad dynamisk upplösning.

Således utför LPM 203 lågpassfiltrering (utjämning) av bilderna.

Till exempel faltas bilderna med två separerbara 3-tappsfilter med koefficienterna 1/4, 1/2, 1/4 i x och y riktningarna. An- talet gånger som bilden passerar filtret beror på bildupplös- ningen, till exempel kan två passeringar för QCIF och tre pass- eringar för CIF-upplösning användas. Om inbilden består av heltal och representeras av 8 bitar per pixel är utbilden från lågpassfiltret bestående av flyttal pga det faktum att filter- koefficienterna är flyttal.

Till exempel lagras inbildens gråskalenivåer som 8 bitar i det fall som visas i figur 2, dvs ett dynamiskt område på 0-255 så lagras den lågpassfiltrerade bilden som en 12 bitars bild, dvs en bild med 12 bitar per pixel, i ett minne 207, varigenom informationen i flyttalsdelen av utbilden som består av flyttal kan användas i den vidare behandlingen.

Vidare bildas en gaussisk pyramid av de bilder som subsamplats till olika spatiala upplösningar (Srn, .., Sr2, Srl) där Srl är den ursprungliga spatiala upplösningen. Detta utförs genom rekursiv filtrering i LPM-modulen 203 och subsampling av var och en av bilderna i subsamplingsmodulen (SSM) 205. Resultaten av subsamplingarna (se, sf), dvs de subsamplade versionerna av olika spatiala upplösningar (Sr2, .., Srn) av ursprungsbilderna lagras i motsvarande minnen. Således subsamplas först den låg- passfiltrerade bilden (sc) i SSM-modulen 205, såsom visas i figuren. Resultatet (se) lagras i ett minne 209. Den subsamplade bilden (sd) matas också tillbaka till LPM-modulen 203 och låg- passfiltreras igen, subsamplas och lagras i ett minne 211.

Proceduren kan sedan fortsätta på detta sätt tills ett önskat 510 310 antal upplösningar uppnåtts.

En gaussisk pyramid bildas genom att rekursivt subsampla den lågpassfiltrerade bilden med en faktor l, både horisontellt och vertikalt, dvs värdet för ett visst pixel inuti en 1 x 1 block väljs att representera hela l x l blocket. Proceduren med fil- trering och subsampling utförs (n-1) gånger, där n är antalet upplösningar i pyramiden. Vilket pixel som helst från l x l blocket kan väljas att representera subbilden vid olika grader av upplösning. Valet bör emellertid vara konsistent, så kan t ex det övre vänstra pixlet väljas.

Antalet använda upplösningar (n) beror på bildens initiala upplösning och det förväntade rörelseområdet. Till exempel kan för Common-Interchange-Format-(CIF)-bildstorleken två upplös- ningar användas (n = 2), och en subsamplingsfaktor lika med fyra (1 = 4).

Rörelse-estimering och segmentering sker i robust-Hough-trans- form-blocket (RHTB), vilket visas i figur 3. Följande procedur kan användas på antingen hela bilden, se figur 4a, eller på flera områden med godtycklig form (A,B,C..) en åt gången, såsom visas i figur 4b. Den initiala segmenteringen i områden kan vara baserad på bildintensitet (färger) eller så kan rörelsebaserad segmentering som beräknas av RHT-tekniken från tidigare bilder användas. RHT-blocket 103 innefattar en Hough-transform-modul (HTM) 301, en beslutsmodul (DM) 303, en styrmodul (CM) 305 och en skalestimeringsmodul (SEM) 311.

Styrmodulen 305 utför övergripande styrning av estimerings- proceduren och utför följande uppgifter: - Val av initialvärden för de använda parametrarna i estime- ringsproceduren, nämligen bildernas spatiala upplösning (Sr) och initialvärdena för rörelseparametrarna (Sp). Den initiala spatiala upplösningen ställs in med hjälp av omkopplaren swl, som styrs av CM-modulen 305 via en signal på ledningen (sw).

Beroende på vilken spatial upplösning som ställts in av CM- modulen 305 matas bilder svarande mot denna särskilda spa- tiala upplösning (Sr) till HTM-modulen 301 på ledningen (sg). 9 510 310 Initialvärdena för rörelseparametrarna sänds till DM:n 303 på en ledning (sp). - Ändrar till bildernas spatiala upplösning som används för estimering under den iterativa proceduren. När estimeringen vid den spatiala upplösningen (Sr) är avslutad, vilket detek- teras av DM-modulen 303, avges en signal från DM 303 på ledningen (so) till CM-modulen. CM-modulen 305 kontrollerar sedan ett avslutningsvillkoren. Om ett villkor är uppfyllt är estimeringsproceduren avslutad. Annars väljs bilder med en finare spatial upplösning med hjälp av signalering på led- ningen (sw) till omkopplaren swl och proceduren fortsätter då.

- Beslutar när skalestimatet (su) bör uppdateras och informerar SEM-modulen 311 via en signal (st) om att på nytt beräkna skalan. CM-modulen 305 räknar antalet iterationer, varje iteration signaleras via ledningen (so) från DM-modulen 303, och jämför räknevärdet med ett tröskelvärde vilket beror både på den aktuella spatial upplösningen (Sr) och den aktuella parameterupplösningen (Pr).

Beslutet om vid vilken spatial upplösning estimatet skall börja beror på om någon a priori information om rörelse i området finns tillgänglig.

Estimeringen startar vanligen vid en grov eller medelspatial upplösning, dvs vid upplösning Srn, där n>1, om inte ett rörelseparameterinitialvärde (sr) finns tillgängligt. Initial- värdet sr kan vara baserat på estimatet från ett angränsande block eller område, eller så kan en annan rörelse-estimator användas för att åstadkomma ett grovt rörelse-estimat. När initialisering är tillgänglig kan estimeringen starta vid den grövsta (Srn), mellan (Sr (n-1), ..., Sr2) eller den finaste spatiala upplösningen (Srl).

DM-modulen 303 utför två uppgifter: 1) den väljer upplösning i parameterrymden (Pr), och 2) den styr den iterativa proceduren genom att uppdatera värdena 510 310 10 för rörelseparametrarna och detekterar slutvillkoret.

HTM-modulen 301 beräknar stödvärdet (sk) såsom beskrivs i M.

Bober och J. Kittler, "Robust Motion Analysis", i CVPR Con- ference proceedings, 1994, sid 947-952, och derivatorerna (sl) i stödytan (Hough-ytan) för ett givet rörelseparameter-(sm)-värde, vilket åstadkoms av beslutsmodulen (DM) 303. Supportvärden (sk) och derivatorer (sl), vilka företrädesvis är skalade i enlighet med styckena nedan, matas tillbaka till beslutsmodulen DM 303 för analys. DM-modulen uppdaterar värde-estimatet av rörelse- parametrarna (sm) och detekterar slutvillkoret vilket signaleras på ledningen (so) till CM-modulen 305.

Rörelseanalysen börjar vanligen vid en grov upplösning i para- meterrymden (Pr). Rörelseparametrarna (sm) ställs initialt till antingen ingen-rörelse-fallet eller till något initialvärde (sp). DM-modulen 303 beslutar om uppdatering av rörelsepara- metrarna, dvs nästa position i parameterrymden såsom visas av figur 5c. Detta beslut baseras på värdet av de partiella deri- vatorerna dHi på ledningen (sl) som beräknas av HTM-modulen 301 som: dHi = âH(%, a)/âai värdena för varje partiell derivata dHi skalas med hjälp av faktorer, vilka beror på den spatiala utsträckningen av ett aktuellt område och i en föredragen utföringsform används fak- torer, tl, tz, t3, t4 och ts som beräknas som följer i de olika nedan beskrivna modellerna. tl = E(pe¶) | x + y | ; t2 = Z(pe¶) | x - y | ; t3 = Z(pe%) 1; t4 (péR) | x | ; ts =E(pe¶) |y| där W är en uppsättning av alla pixel som innefattas i estime- ringen, dvs alla pixel, p = (x, y), från ett område förutom utanförliggande pixel och x och y är pixelpositioner i x och y riktningarna i ett koordinatsystem. De skalade derivatorerna dHNi beräknas sedan som följer: För det rätlinjiga rörelsefallet, utförs ingen skalning. 's1o 310 11 För fyrparameterrörelsemodellfallet: annl dun, dal/ul ; dHN2 = dﬂz/tz ; dHN3 = dH3/t3 aH4/t3 och för den förfinade rörelsemodellen: dne/t3 annl ann, Genom att utföra skalning av de partiella derivatorerna på det ovan beskrivna sättet åstadkoms en mycket snabbare och mer tillförlitlig konvergens.

Detta beror på det faktum att om oskalade derivatorer används tenderar sökningen att favorisera (vara mer känslig för) vissa parametrar, dvs al, az för fyrparameterrörelsemodellen och al, az, a4 och a5 för den förfinade modellen. Dessa parametrar överkompenseras, dvs de ändras mycket ofta och sökrutinen måste utföra många iterationer för att komma tillbaka till de optimala värdena.

Det finns också en alternativ skalningsprocedur som har visat sig åstadkomma bra resultat och som är beräkningsmässigt mer effektiv. I denna alternativa procedur skalas varje partiell derivata dHi med en faktor som svarar mot den aktuella upplös- ningen i parameterrymden. Särskilt en multiplikation med den aktuella upplösningen ri i parameterrymden för motsvarande parameter ai. dHNi = dﬁj * fi En sådan skalning utförs då i stället för den ovan beskrivna skalningen med faktorerna tl - t5.

De skalade partiella derivatorerna bildar en gradientvektor vd = (dHN1, ..., dHNj) i parameterrymden, se figur Sc. Det finns 3 möjliga beslut vid uppdatering av varje komponent i en rörelse- vektor. Dessa beslut är: öka, ingen ändring eller minska kompo- 510 310 12 nentvärdet. Således finns det 3N -1 möjliga riktningar, där N är antalet rörelsemodellparametrar, eftersom det måste ske minst en ändring. Till exempel finns för den rätlinjiga rörelsemodellen (N = 2) 8 möjliga riktningar.

En uppsättning basvektorer {bl, ..., bs}, där s = 3N - 1, bil- das, varvid varje vektor hör samman med en möjlig riktning. varje vaktar bi = (b1i,..., bNi), där N = 2 för den rätiinjiga rörelsemodellen, N = 4 för fyrparametermodellen och N = 6 för den förfinade modellen, bildas som följer. Komponenten bli har ett värde på -1, 0, eller 1 beroende på om beslutet innebär minskning, ingen ändring eller ökning av motsvarande komponent i rörelsevektorn a = (a1,..,). Varje vektor bi normaliseras sedan så att normen är lika med 1. Figur Sd visar alla vektorerna bi för den rätlinjiga rörelsemodellen. Till exempel, för fyrpara- metermodellen och följande beslut: [al - ingen ändring, az - ökning, a3 - minskning, a4 - ingen ändring] är motsvarande vaktar bi = w * (o, 1, -1, 0) där w = iﬂ/ (02 + 12 + (-1)? + 02).

I varje iteration väljs det bästa beslutet, dvs det som maxi- merar skalärprodukten mellan vd och bi, dvs maximerar följande uttryck: Mi = va o bi HTM-modulen 301 åstadkommer också en karta 307 över utanför- liggande pixel och en karta 309 över transformerad ramskillnad (TFD). Värdena i TFD-kartan 309 (si) matas till SEM-modulen 311, som beräknar en skala av residualfel (su) om detta begärs av CM- modulen 305. Skalan över residualfel behöver inte beräknas efter varje iterationssteg. Genom att beräkna och uppdatera värdet i skalan varje k steg, där k är ett heltal större än 1 kan den beräkningsmässiga komplexiteten minskas. Värdet av parametern k beror på upplösningen i parameterrymden och lämpliga värden för k visas i figur 7 och kommer att diskuteras vidare nedan.

Dessutom, i syfte att förbättra hastigheten och konvergensen, kan ett hybridschema där initialestimatet vid en grov upplösning bestäms av en icke iterativ teknik, såsom den fasbaserade tek- *510 310 niken, användas. Det vill säga först, vid det låga, grova upp- lösningssteget används en snabb icke iterativ teknik. Sedan vid mellan- eller finupplösningsstegen används den modifierade Hough-transformen med användning av robusta statistiska ker- 13 neller.

Segmenteringskartan, dvs kartan 307 med utanförliggande pixel är en binär bild med en symbol som indikerar om ett pixel anses vara ett innanförliggande eller utanförliggande pixel placerat på varje pixel.

Om ett pixel är innanförliggande eller utanförliggande beror på värdet i TFD-kartan 309 för detta pixel och det aktuella värdet på skalestimatet (su). TFD-kartan är en flyttalsbild med den transformerade bildskillnaden för varje pixel beräknad för det aktuella värdet på rörelseparametrarna (sm).

För att bestämma om ett pixel är ett utanförliggande pixel utförs i en föredragen utföringsform följande operationer.

Absolutvärdet (abs) av TFD-värdet för ett givet pixel jämförs med det aktuella värdet för skalestimatet. Om abs (TFD-värdet) är större än 3 * skalestimatet (sca), där sca är definierad under, anses punkten vara en utanförliggare, annars anses den vara en innanförliggare.

Ett parameterrymdminne, som är en del av DM-modulen sparar alla positioner som besökts i parameterrymden och motsvarande stöd- värde. Varje ny position i parameterrymden kontrolleras mot denna lista, såsom visas i figur 5b. Om denna position redan har besökts, dvs positionerna för vilka beräkningar har gjorts, se positionerna s3, s7 i figur 5a, detekteras detta faktum av beslutsmodulen och en ändring av upplösning i parameterrymden följer, dvs till en finare upplösning.

Estimeringen fortsätter vid en finare upplösning, som startar från ett läge med det största stödvärdet, dvs läget s5 i det visade fallet. Startläget har visat sig vara mycket viktigt för teknikens prestanda och genom att använda positionen med det största stödvärdet som startpunkt ökas prestandan. CM-modulen 510 310 14 305 bestämmer om rörelse-estimering av en sekvens skall fort- sätta med en finare spatial upplösning Sr. När den finaste upplösningen har nåtts signaleras detta faktum till styrmodulen 305 (CM) via en signal (so). Proceduren avslutas om ett av följande kriterier är uppfyllt: - behandlingen på den finaste spatiala upplösningen Srl är av- slutad, eller - om antalet iterationer på den finaste upplösningen överskrider iterationströskelvärdet, eller - om skalans medianestimatvärde som definieras här nedan är lägre än skaltröskelvärdet.

Till exempel kan värdena på tröskelvärdena väljas som: Iterationströskelvärde 200 iterationer Skaltröskelvärde 0,35 gråskalenivå där O betecknar svart och 255 betecknar vitt i gråskalan.

Om fortsättning väljs transformeras rörelseparametrarna från den grövre spatiala upplösningen till den finare upplösningen och används som initialiseringsparametrar (sp).

Optimeringssökningen för maximum i parameterrymden utförs itera- tivt och under optimeringsproceduren kan rörelseparametrarna endast anta diskreta värden. En sådan optimeringsprocedur be- tecknas häri som en optimering på ett diskret rutnät. Grovheten i det diskreta rutnätet, dvs upplösningen i parameterrymden kan vara olika för olika rörelseparametrar. Den maximala förflytt- ningen av ett objekt, objektsstorlek och upplösning i parameter- rymd bör företrädesvis vara relaterade med varandra såsom för- klaras i det följande stycket.

Följande tabeller visar de föredragna värdena för olika paramet- rar vilka har visat sig åstadkomma god konvergens för en rätlin- jig, fyrparameterrörelsemodell och förfinad rörelsemodell. '510 310 15 Rätlinjig rörelsemodell: Upplösning al a2 Grov d/8 d/8 Medel d/48 d/48 Fin d/384 d/384 Fyrparameterrörelsemodell: Upplösning al och a2 a3 och a4 Grov a3/M d/8 Medel a3/M d/48 Fin as/M d/384 Förfinad rörelsemodell: Upplösning al, a2 a3 och a6 a4, a5 Grov a3/M d/8 Medel a3/M d/48 Fin a3/M d/384 där d [pixel] är förflyttníngen, dvs den maximala rörelsen för något pixel från området eller maximalt förväntad pixelförflytt- ning, till exempel begränsar de flesta kodningstekniker en sådan förflyttning till 16 pixel för CIF-bilder, och M [pixel] är medelpixelavståndet från mitten av koordinatsystemet räknat för alla pixel inom ett område. Ett exempel på hur upplösningarna i bilden (Srn) och parameterrymden (Prn) ändras visas i figur 6.

Detta exempel antar att den rätlinjiga rörelsemodellen används med två spatiella upplösningar Srl - ursprunglig upplösning och Sr2 - den ursprungliga bilden subsamplad med fyra.

I exemplet finns fyra upplösningar i parameterrymden: Prl lika med 1,25, Pr2 lika med 0,25, Pr3 lika med 0,05 och Pr4 lika med 0,01. Estimeringen startar vid grova upplösningar både i bild- 510 310 16 rymden (Sr2) och i parameterrymden (Prl), såsom visas vid posi- tion 1 i grafen. I nästa steg ökas upplösningen i parameterrym- den till 0,25 (Pr2), såsom visas vid position 2. Eftersom detta är den finaste upplösningen i parameterrymden för denna spa- tiella upplösning (Sr2) är estimeringen vid denna spatiella upplösning avslutad. Detta faktum signaleras på ledningen (so) till styrmodulen CM 305 vilken beslutar om estimeringen skall fortsätta på en finare upplösning i bildrymden. I exemplet fortsätter estimeringsproceduren på en spatial upplösning Srl, positionerna 3, 4 och 5, efter det att CM-modulen 305 har sig- nalerat till omkopplaren swl via ledningen (sw) att den spat- iella upplösningen Srl nu skall matas till HTM-modulen 301.

SEM-modulen 311 beräknar på nytt skalan med residualfel vid var- je begäran på begärledningen (st) från beslutsmodulen 303. Ska- lan kan uppdateras efter varje iteration eller efter varje k iteration, där k kan variera beroende på spatiell upplösning och parameterupplösning. Skalestimatet, dvs skalan med residualfel, beräknas som medianabsolutavvikelsen (MAD) som definierats i M.

Bober och J. Kittler,"Robust Motion Analysis", i CVPR Conference proceedings, 1994, sid 947-952, och ökas med en konstant C, dvs: skalestimat: sca = 1,48 * median(|e(di) - median (e(d1)l) + C.

Värdet på konstanten C är företrädesvis 0,3 vilket med hjälp av experiment har visat sig vara ett lämpligt värde. Det maximala värdet på skalestimatet är vanligen kring 10, men kan teoretiskt vara större, när estimeringen börjar och har en undre gräns vid C, som i detta exempel är lika med 0,3.

Figur 7 visar ett exempel på värden på k för olika kombinationer av upplösningar i bildrymden Sr och i parameterrymden Pr. Skal- estimatet återmatas till HTM-modulen genom signalen (su).

När estimeringen är avslutad av CM-modulen 305 matar estimatorn i HTM-modulen 301 ut rörelseparametrarna (sh) och kartan med utanförliggande pixel (sj). Kartan med utanförliggande pixel analyseras för att finna stora spatiellt koherenta områden med utanförliggande pixel. Närvaron av sådana områden antyder mul- 17 tipla rörelser. Om rörelser av sådana återstående områden är intressanta kan estimeringsproceduren återstartas för endast dessa återstående områden. Analysen efter stora spatiellt ko- herenta områden utförs med hjälp av majoritetsfiltrering som kan fun-gera på följande sätt: - Först väljs en fönsterstorlek, i det föredragna fallet väljs en fönsterstorlek på 3 x 3 eller 5 x 5.

- Sedan centreras detta fönster kring varje pixel i bilden och antalet utanförliggande pixel inuti fönstret räknas.

- Om antalet utanförliggande pixel är större än halva antalet pixel i fönstret, dvs större än 4 eller 12 för 3 x 3 respektive 5 x 5 fönstret, så bestäms det betraktade pixlet vara ett utan- förliggande pixel och etiketteras i enlighet med detta.

- Annars etiketteras pixlet som ett innanförliggande pixel.

Området med innanförliggande pixel är vanligen det största och de estimerade rörelseparametrarna svarar mot dess rörelse.

Slutligen har det visat sig att den häri beskrivna strukturen inte är begränsad till blockformade områden utan kan utsträckas till områden av godtycklig form. I det senare fallet har emel- lertid placeringen av centrum av koordinatsystemet visat sig vara kritisk för teknikens prestanda. Det har visat sig att genom att använda referensområdets gravitationscentrum som origo i koordinatsystemet ernås god prestanda.

I tekniken blir optimeringsproceduren mycket snabb. Detta beror på det faktum att en fullständig sökning som används av till exempel blockmatchningsteknikerna, undviks. De föreslagna modi- feringarna förbättrar hastighet och konvergens hos tekniken.

Noggrannheten hos det slutliga estimatet förbättras också. Några av ändringarna möjliggör realtidsimplementation. Tekniken som beskrivs häri har bred användning inom bildkompressions- och kodningsområdet.

Claims

f? _ 510 310 PATENTKRAV

1. Hough-transform-baserat förfarande för rörelse-estimering och segmentering som använder robusta statistiska kerneller, känne- tecknat av att rörelse-estimaten uppdateras på basis av skalade derivatorer, varvid skalfaktorerna beror på den spatiella ut- sträckningen av ett aktuellt område och särskilt beräknas som följer: för fyrparameterrörelsemodellen: dHN4 dH4/t3 dH3/c3 och för den förfinade rörelsemodellen: dHN1 = dnl/t4 ; dHN2 = dH2/ts ; dHN3 = dH3/t3 där faktorerna tl - t5 beräknas som följer: tl = E(peW) | x + y | ; tz = E(pe%) | x - y | ; t3 = E(ps%) 1; t., inom I x | ,- ts = Zum m där ¶'är en uppsättning av alla pixel som innefattas i estime- ringen, dvs alla pixel från området utom utanförliggande pixel.

2. Förfarande enligt krav 1, kännetecknat av - att skalan uppdateras efter varje steg när iterationer utförs i en grov upplösning i parameterrymden, och - att vid något steg, när en finare upplösning uppnås, skalan endast uppdateras efter varje k steg, där k är ett heltal > 1.

3. Förfarande enligt krav 2, kännetecknat av att först, vid en grov upplösning, används en icke iterativ teknik och att sedan vid ett steg med finare upplösning används en Hough-transform med robusta kerneller.

4. Förfarande enligt något av kraven 2 eller 3, kännetecknat av att den punkt i parameterrymden som svarar mot det lägsta värdet av helfunktionen används som startpunkt för iterationer i en finare upplösning.

5. Förfarande enligt något av kraven 2 - 4, kännetecknat av att iterationen avslutas när antalet iterationer på en fin upplösning överskrider iterationströskelvärdet eller när värdet för skalans f” -s1o 310 medianestimat är lägre än skaltröskelvärdet eller när vägen återspårar i den fina upplösningen.

6. Förfarande enligt något av kraven 1 - 5, kännetecknat av att punkten i parameterrymden som svarar mot det lägsta värdet av felfunktionen används som startpunkt för iterationer i en finare upplösning.

7. Förfarande enligt något av kraven 1 - 6, kännetecknat av att iterationen avslutas när antalet iterationer i en finare upplösning överskrider ett iterationströskelvärde eller värdet på skalans medianestimat är lägre än skaltröskelvärdet eller vägen återspårar på den finaste upplösningen.

8. Förfarande enligt något av kraven 1 - 7, kännetecknat av att en konstant adderas till skalans MAD-estimat.

9. Förfarande enligt något av kraven 1 - 8, kännetecknat av att först, vid en grov upplösning, används en icke iterativ teknik och sedan vid ett steg med finare upplösning används en Hough- transform med robusta kerneller.

10. Förfarande enligt något av kraven 1 - 9, i de fall då områden av andra former än rektangulära används, kännetecknat av att koordinatsystemets centrum väljs som referensområdets gravitationscentrum.

11. Förfarande enligt något av kraven 1 - 10, kännetecknat av att upplösningen i parameterrymden är relaterad till ett förväntat maximalt förflyttningsvärde och till områdets storlek och att denna relatering behålls vid varje spatiell upplösning.

12. Förfarande enligt något av kraven 1 - 11, kännetecknat av att den initiala bilden förfiltreras med ett lågpassfilter, särskilt ett gaussformat filter och lagras i en matris med utökat dynamiskt område.

13. Förfarande enligt något av kraven 1 - 12, kännetecknat av att rörelse-estimaten uppdateras på basis av skalade derivatorer, där skalfaktorerna för de partiella derivatorerna dHi är faktorer som svarar mot den aktuella upplösningen i parameterrymden, särskilt en multiplikation med den aktuella upplösningen ri i parameterrymden för motsvarande parameter ai, så att dHNi = dHi * ri.

14. Anordning för att utföra samtidig estimering och segmentering baserad på Hough-transformen med robusta statistiska kerneller, kännetecknad av organ för att uppdatera rörelseestimaten på basis av skalade derivatorer, där skalfaktorerna beror på den spatiala 510 310 “w - utsträckningen av ett aktuellt område och särskilt för att beräkna dem som följer: för fyrparameterrörelsemodellen: dHN4 dH4/t3 och för den förfinade rörelsemodellen: aﬂnl = dal/t4 ; dHN2 anz/t5 ; dHN3 = aH3/t3 där faktorerna tl-ts beräknas som följer: tl = 2(péR) I X + Y I ; tg = 2(pf%7 I X - Y I ; t3 = E(p6Wñ 1: t. = Ãpffﬁ) I >< I ; :5 = Emm Iyl där %“är en uppsättning av alla pixel som innefattas i esti- meringen, dvs alla pixel från området förutom utanförliggande pixel.

15. Anordning enligt krav 14, kännetecknad av organ för att uppdatera skalan efter varje steg när iterationerna utförs i en grov upplösning i parameterrymden och för att endast uppdatera skalan efter varje k steg, där k är ett heltal > 1, när en finare upplösning uppnås.

16. Anordning enligt krav 15, kännetecknad av organ för att besluta att först, vid en grov upplösning, en icke iterativ teknik skall användas och att sedan, vid ett finare upplösnings- steg, en Hough-transform som använder robusta kerneller skall användas.

17. Anordning enligt något av kraven 15 eller 16, kännetecknad av organ för att välja den punkt i parameterrymden som svarar mot det lägsta värdet av felfunktionen som startpunkt för iterationer i en finare upplösning.

18. Anordning enligt något av kraven 15 - 17, kännetecknad av organ för att avsluta iterationerna när antalet iterationer vid en fin upplösning överskrider iterationströskelvärdet eller när värdet för skalans medianestimat är under skaltröskelvärdet eller när vägen har återspårat på den fina upplösningen.

19. Anordning enligt något av kraven 14 - 18, kännetecknad av organ för att välja den punkt i parameterrymden som svarar mot å' - 510 sm det lägsta värdet av felfunktionen som startpunkt för iterationer i en finare upplösning.

20. Anordning enligt något av kraven 14 - 19, kännetecknad av organ för att stoppa iterationerna när antalet iterationer i en fin upplösning överskrider ett iterationströskelvärde eller när värdet hos skalans medianestimat är lägre än skaltröskelvärdet eller när vägen återspårar i den finaste upplösningen.

21. Anordning enligt något av kraven 14 - 20, kännetecknad av organ för att addera en konstant till ett MAD-estimat för skalan.

22. Anordning enligt något av kraven 14 - 21, kännetecknad av organ för att först använda en iterativ teknik vid en grov upplösning och att sedan vid en finare upplösning använda en Hough-transform med robusta kerneller.

23. Anordning enligt något av kraven 14 - 22, i det fall då områden med annan form än rektangulär används, kännetecknad av organ för att välja koordinatsystemets centrum som referensområdets gravitationscentrum.

24. Anordning enligt något av kraven 14 - 23, kännetecknad av organ för att relatera upplösningen i parameterrymden till ett förväntat maximalt förflyttningsvärde och till områdets storlek.

25. Anordning enligt något av kraven 14 - 24, kännetecknad av organ för att förfiltrera en initial bild med ett lågpassfilter, särskilt ett gaussformigt filter, och för att lagra denna i en matris med utökat dynamiskt område.

26. Anordning enligt något av kraven 14 - 25, kännetecknad av organ för att uppdatera rörelse-estimaten på basis av skalade derivatorer, där skalfaktorerna svarar mot den aktuella upplösningen i parameterrymden, särskilt en multiplikation med den aktuella upplösningen ri i parameterrymden för motsvarande parameter ai, så att dHNi = dHi * ri.