NO329897B1 - Fremgangsmate for raskere ansiktsdeteksjon - Google Patents
Fremgangsmate for raskere ansiktsdeteksjon Download PDFInfo
- Publication number
- NO329897B1 NO329897B1 NO20085322A NO20085322A NO329897B1 NO 329897 B1 NO329897 B1 NO 329897B1 NO 20085322 A NO20085322 A NO 20085322A NO 20085322 A NO20085322 A NO 20085322A NO 329897 B1 NO329897 B1 NO 329897B1
- Authority
- NO
- Norway
- Prior art keywords
- image
- color
- motion
- face
- histogram
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000001514 detection method Methods 0.000 title claims description 33
- 239000003086 colorant Substances 0.000 claims description 19
- 230000003068 static effect Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 description 7
- 238000013459 approach Methods 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 4
- 241000405217 Viola <butterfly> Species 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000004279 orbit Anatomy 0.000 description 1
- 238000011045 prefiltration Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/167—Detection; Localisation; Normalisation using comparisons between temporally consecutive images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
Oppfinnelsen omhandler en metode og et system for å detektere ett eller flere ansikter innenfor digitale bilder i en videostrøm.
Description
Introduksjon
Den foreliggende oppfinnelsen omhandler en metode og system for å detektere ett eller flere ansikter i et digitalt bilde.
Bakgrunn for oppfinnelsen
Deteksjon av ansikter eller hoder i bilder er en viktig mulighet i videokonferansesystemer og andre videosystemer. Systemer som har videobildeinnfangningsmidler (f.eks. videokameraer, videokonferanseutstyr, webkameraer, etc.) muliggjør funksjonaliteter slik som: optimal synsdefinisjon (BestView), målområde for fokuseringsformål (for å sørge for at mennesker i videoen er i fokus), fargeoptimalisering (for å sørge for korrekte ansiktsfarger) og andre.
Ansiktsdeteksjon krever typisk at ansiktsdetekteringsinnretningen (eller logikken) undersøker/prosesserer tusenvis, om ikke millioner, av kandidatsvinduer innenfor et digitalt bilde i et forsøk på å lokalisere deler i en videoramme (eller bilde) som sannsynligvis inneholder et menneskelig ansikt. Konvensjonelle teknikker ser etter bildedata innenfor kandidatvinduer som skal bli manipulert og undersøkt i ulike forskjellige posisjoner og/eller skaleringer. Alle disse prosesseringene kan resultere i trege deteksjonshastigheter.
Det finnes flere tilnærmelser for deteksjon av ansikter i bilder. En av de raskere metodene i dag, utviklet for enkeltrammeanalyse, er utviklet av Viola og Jones [1], den såkalte kaskadede klassifiseringen som bruker Haar lignende trekk. Viola og Jones bruker en serie (beskrevet som en kaskade) med trenede klassifikatorer [1]. Disse kaskadene blir trent på større sett av bilder både med og uten ansikter (betegnet som positive og negative sampler) og lærer essensielt å skille trekk fra hverandre i et ansikt. Når det anvendes på et bilde (i dette tilfellet en enkel ramme fra en video) vil hver klassifikator fra kaskaden bli anvendt på regioner (eller vinduer) til bildet, hvor størrelsen av bildet øker for hver iterasjon. I den opprinnelige VJ-metoden er detektoren basert på lokale geometriske trekk i et grånivåbilde til en scene, hvor én typisk klassifikator er mørke øyehuler kontra lysere omgivelser, etc. Imidlertid vurderer VJ sin opprinnelige metode kun ansiktstrekk på hvert vindu (eller region) og trenger å prosessere hver region for ansiktstrekkene før den bestemmer om det inneholder et ansikt eller ikke. Dette er prosesseringsbelastende på systemet, ettersom detaljert analyse må bli utført på et bilde, selv i regioner hvor f.eks. farge kan foreslå at et ansikt ikke eksisterer.
Det er derfor et stort behov i industrien for å tilveiebringe forbedrede metoder, apparaturer og/eller systemer for å øke deteksjonshastigheten. En måte å gjøre dette raskt på er å redusere antall kandidatvinduer som trenger å bli prosessert og undersøkt. Den resulterende hastighetsøkningen av ansiktsgjenkjenning vil være fordelaktig i et ulikt antall datamaskin- og maskinbaserte applikasjoner.
En kjent metode for å redusere antall kandidatvinduer som må prosesseres og undersøkes er å definere et sett med farger (ansiktsfarger) som antas å være fargene funnet i regioner til et bilde som representerer et ansikt. Ansiktsdeteksjonsenheten trenger derfor kun å prosessere og undersøke delene av bildet som inneholder piksler som har farge som korresponderer til det definerte settet av ansiktsfarger. Imidlertid blir mange videosystemer, f.eks. videokonferanseutstyr, typisk plassert i et stort antall ulike omgivelser med mange ulike belysninger og lysforhold. Videokonferanseendepunktet blir ofte plassert på pulter nær vinduer (som gir ulik belysning selv dersom systemet forblir stasjonært), i godt eller svakt belyste møterom, i store forelesningssaler, i konferanserom med hudfargede møbler eller vegger, etc. Derfor er, til tross for verdien av regionfargen for klassifisering av ansikter, variasjonen i målt hudfarge mellom ulike belysninger svært stor, noe som gjør det vanskelig å utnytte det. I tillegg vil, i bilder som inneholder hudfargede vegger eller møbler, ansiktsdeteksjonslogikken fremdeles bruke tid på store områder som ikke inneholder ansikter. Det er derfor umulig å vite den faktiske fargen på hud i et bilde før en pålitelig ansiktsdeteksjon er oppnådd.
Sammendrag av oppfinnelsen
Hensikten med den foreliggende oppfinnelsen å tilveiebringe en metode og system for å løse i det minste ett av de ovenfor nevnte problemene i tidligere kjent teknikk.
Trekkene definert i det selvstendige vedlagte kravet karakteriserer denne metoden.
Kort beskrivelse av tegninger
For å gjøre oppfinnelsen mer forståelig, vil den etterfølgende diskusjonen referere til de vedlagte tegningene. Fig. 1 er et blokkdiagram som illustrerer en eksempelvis systemkonfigurasjon for å øke hastigheten på ansiktsdeteksjon, Fig. 2 er et illustrerende diagram som beskriver eksempelvis logikk konfigurert for å øke hastigheten på ansiktsdeteksjon i henhold til visse implementeringer av den foreliggende oppfinnelsen,
Fig. 3 viser et eksempelvis inputbilde som inneholder et ansikt,
Fig. 4 viser et eksempelvis bakgrunnshistogram til inputbildet i fig. 3,
Fig. 5 viser et eksempelvis bevegelsesfargehistogram i henhold til visse implementeringer av den foreliggende oppfinnelsen, og Fig. 6 viser et eksempelvis forholdshistogram i henhold til visse implementeringer av den foreliggende oppfinnelsen.
Detaljert beskrivelse av oppfinnelsen
I det følgende vil den foreliggende oppfinnelsen bli diskutert ved å beskrive foretrukne utførelser, og ved å referere til de vedlagte tegningene. Imidlertid vil en fagmann på området innse at andre anvendelser og modifikasjoner innenfor omfanget av oppfinnelsen slik den er definert i det vedlagte selvstendige kravet er mulige.
Den foreliggende oppfinnelsen tilveiebringer en metode som signifikant øker ansiktsdeteksjonshastigheten ved å redusere antall kandidatvinduer som trengs å bli prosessert og undersøkt av mer komplekse og/eller tidskrevende ansiktsdeteksjonsprosesser. Videre tilveiebringer den foreliggende oppfinnelsen en mer robust ansiktsdeteksjonsmetode som er mer uavhengig av lysforhold enn tidligere kjente ansiktsdeteksjonsmetoder.
Ulike ansiktsdeteksjonsteknikker er kjent og disse blir fortsatt tilpasset og forbedret. Det er utenfor omfanget av denne beskrivelsen å tilveiebringe en introduksjon for opplæring av slike velkjente teknikker. Interesserte lesere som vil lære mer om disse rettes derfor mot følgende eksempelvise referanser:
[1] P. Viola and M. Jones. "Robust real time object detection". IEEE ICCV Workshop on Statistical and Computational Theories of Vision, Vancouver, Canada, Jul. 13, 2001.
[2] A. Pentland, B. Moghaddam, and T. Starner. "View-based and Modular Eigenspaces of Face Recognition". Proe. of IEEE Computer Soc. Conf. on Computer Vision and Pattern Recognition, pp. 84-91, June 1994. Seattle, Wash.
[3] M. Bichsel and A. P. Pentland. "Human face recognition and the face image sefs topology". CVGIP: Image Understanding, 59:254-261, 1994.
[4] R. E. Schapire. "The boosting approach to machine learning: An overview". MSRI Workshop on Nonlinear Estimation and Classification, 2002.
[5] T. Serre, et al. "Feature selection for face detection". AI Memo 1697, Massachusetts Institute of Technology, 2000.
[6] V. N. Vapnik. Statistical Learning Theory. John Wiley and Sons, Inc., New York, 1998.
[7] Y. Freund and R. E. Schapire. "A decision-theoretic generalization of on-line learning and an application to boosting". Journal of Computer and System Sciences, 55(1): 119-139, August 1997.
Hudfargefiltrering for å øke hastigheten på deteksjon.
I en setting hvor en video (sekvens av bilder eller rammer) blir fanget inn av et statisk kamera (f.eks. videokonferanse, studiofilming, webkameraer, etc), kan informasjon innsamlet over en sekvens av rammer bli brukt for å forbedre ansiktsdeteksjonsprosesser. Typisk blir en region av et bilde som inneholder bevegelse eller en region som har en farge lik til hudfargen være gode kandidatsregioner for å søke etter et ansikt. Imidlertid har, siden fargen til et ansikt kan variere i innfangede videorammer som en funksjon av belysning ved den tiden og plassen som videorammen ble innfanget, den foreliggende oppfinnelsen et avslappet forhold til kravet om kunnskap om "hudfarge" som et krav for å vite fargen til regioner i bevegelsen.
Fig. 1 viser et flytskjema av en basisteknikk implementert av den foreliggende oppfinnelsen. Blokk 101 er det første trinnet vist i fig. 1 hvor faktisk inputbilde til en sekvens av bilder fra en videostrøm hvor et ansikt skal bli detektert blir tilveiebrakt til systemet. Her blir inputbildet tilveiebrakt til et bevegelsesfargefilter 102. Inputbildet innbefatter f.eks. digitale rådata av bilder. Bevegelsesfargefilteret 102 er konfigurert til å prosessere inputbildet, og basert på inputbildet mate ut et sett av korresponderende prosesserte bilder. Settet av prosesserte bilder omfatter i det minste ett bilde som inneholder intensitetsinformasjon og et bilde som inneholder sannsynlig hudfargeinformasjon. I henhold til en annen utførelse av oppfinnelsen, kan settet med prosesserte bilder også omfatte et bilde som inneholder bevegelsesinformasjon. De prosesserte bildene blir så tilveiebrakt til eller på annet vis aksessert av en ansiktsdetektor 104. Merk at i arrangementet 100, er bevegelsesfargefilteret 102 konfigurert som et forfilter. Bevegelsesfargefilteret 102 er beskrevet i mer detalj i etterfølgende avsnitt.
Ansiktsdetektor 104 i henhold til den foreliggende oppfinnelsen kan utnytte ulike typer av ansiktsdeteksjonsmetoder, f.eks. ansiktstrekkdetektorer, egenvektorer (egenansikter) baserte detektorer, etc. Den foreliggende oppfinnelsen bruker en ansiktsdetektor som anvender i det minste trekk i et gråskalabilde (intensitetsinformasjon) og sannsynlig hudfargeinformasjon for å klassifisere kandidatvinduer (eller regioner) som har ansiktsdata eller som ikke har ansiktsdata. Den sannsynlige hudfargeinformasjonen er informasjon som definerer regionene til rammen som med høy sannsynlighet inneholder hudfarge, uavhengig av belysningsforhold som videostrømmen har blitt fanget inn i. I henhold til en annen utførelse av den foreliggende oppfinnelsen, blir bevegelsesinformasjon som er informasjon som definerer regionene til rammen som inneholder bevegelse brukt i tillegg til intensitet og sannsynlig hudfargeinformasjon for å klassifisere kandidatvinduer.
Ansiktsdetektoren 104 i dette eksemplet er konfigurert til å mate ut detekterte ansikter 105. Detekterte ansikter 105 kan innbefatte, f.eks., spesifiserte deler av inputbildet 101 som det er sannsynlig vil innbefatte ansiktsdata. Ansiktsdetektoren 104 er beskrevet i mer detalj i etterfølgende avsnitt.
Bevegelses og fargefilteret 102 kan også være en integrert del av ansiktsdeteksjonslogikken, og ikke et separat trinn.
For å undersøke om et ansikt er lokalisert innenfor inputbildet, trenger et svært stort antall kandidatvinduer å bli undersøkt ved mange ulike mulige posisjoner og/eller mange ulike skaleringer. En av de mer effektive måtene å akselerere ansiktsdeteksjon på er derfor å raskt bestemme om et kandidatvindu trenger å bli prosessert videre, eller om det kan ses bort fra det. Dette blir gjort i ansiktsdetektor 104 av en klassifikator som tillater bakgrunnsregioner i bildet å bli sett raskt bort fra, mens en bruker mer beregning på lovende ansiktslignende regioner. Forskjellig fra tilnærmelsen beskrevet av Viola og Jones [1], som kun bruker Haar trekk i sin klassifikator, beskriver den foreliggende oppfinnelsen en multimodal klassifikator som utnytter flere ulike trekk fra flere ulike utledede inputbilder for å se bort fra uinteressante regioner til bildet på en raskere måte. Hovedmålet med bevegelsesfargefilteret 102 er å tilveiebringe en ansiktsdetektor 104 med informasjon om hvilke deler av inputbildet som inneholder farger som sannsynligvis er hudfarger.
I henhold til et eksempel i henhold til spesifikke aspekter med den foreliggende oppfinnelsen innbefatter pikselfargeinformasjon til inputbildet rød, grønn og blå fargeinformasjon (f.eks. et RGB fargerom). Imidlertid er ikke dette begrensende til omfanget av den foreliggende oppfinnelsen. En fagperson på området vil enkelt utføre de samme trinnene på et inngangsbilde med pikselfargeinformasjon i andre fargerom, f.eks. innbefattende luminans- og krominansinformasjon (f.eks. et YCrCb fargerom).
Fig. 3 viser et eksempelvis inputbilde 101, som viser en scene fra et ansikt med en hudfarge foran en jevn bakgrunn med en ulik farge.
Det vises nå til fig. 2, som er et flytskjema som beskriver en metode 200 i henhold til én utførelse av den foreliggende oppfinnelsen, som kan bli implementert i bevegelsesfargefilter 102.1 trinn Sl mottar ansiktsfargefilteret 102 et digitalt inputbilde 101 (rammen til en videostrøm), f.eks. det eksempelvise bildet vist i fig. 3. En kopi av det mottatte inputbildet blir så konvertert S2 til et gråskalabilde, som er et bilde hvor verdien av hvert piksel kun bærer intensitetsinformasjon. Bilder av denne typen blir komponert eksklusivt med skygger av grått, som varierer fra svart med svakest intensitet til hvitt ved den sterkeste. Gråskalabildet blir temporært lagret i en intern minneinnretning for senere prosessering. Gråskaladigitale bildet blir så brukt for å detektere bevegelse S3 i videostrømmen. Deteksjonsprosessen kan enten være en regionsbasert rammeforskjell, eller enhver tilnærming som med rimelig følsomhet detekterer bevegelige objekter. Ulike konvensjonelle metoder kan bli brukt for å detektere bevegelse i et videosignal, og ett eksempel på en enkel algoritme for bevegelsesdeteksjon med et fast kamera er å sammenligne det foreliggende bildet (n) med det forrige bildet (n-1) og finne piksler (eller blokker av piksler) i det foreliggende bildet (n) som er forskjellig fra de korresponderende pikslene (eller blokker av piksler) i det forrige bildet (n-1). Derfor blir, i trinn S3 til den foreliggende oppfinnelsen et bevegelsesbilde generert, basert på foreliggende gråskalabilde og tidligere gråskalabilde lagret i den interne minneinnretningen. Bevegelsesbildet er et en-bit svart og hvitt digitalt bilde, som har svarte piksler i områder med ingen deteksjonsbevegelse og hvite piksler i området med deteksjonsbevegelse (eller vice versa).
I trinn S3 blir så en kopi av det mottatte inputbildet (her et RGB-bilde) så konvertert til et normalisert bilde i RG kromatiske rommet. IRG kromatiske rom, blir en farge representert av delen av rød, grønn og blå i fargen, i stedet for intensiteten til hvert (som i et RGB fargerom). Ved å normalisere størrelsen til RGB pikseltripletter (f.eks. ved å beregne fargerenheten (chromaticity)), kan bildevariasjoner på grunn av belysningsgeometri bli fjernet.
Deretter, i trinn S4, blir fra inputbildet et normalisert bilde generert ved å beregne et intensitetsufølsomt fargemål (Rn og Gn) for hver piksel ved å dividere elementverdien til den opprinnelige RGB-vektoren ved summen av elementverdiene. Siden summen av disse målene summerer seg opp til én, kan vi unikt spesifisere fargen til ethvert RGB-triplett ved en toelementsvektor: normaliserte [Rn, Gn] verdier. I en kvantisert form, definerer så [Rn, Gn] en pikselfarge for en todimensjonal heltallsvektor. Rn- og Gn-verdiene for hvert piksel i det normaliserte bildet 204 kan bli beregnet i henhold til de følgende ligningene: hvor R, B og G er elementverdiene til rød, blå og grønn farge respektivt i den opprinnelige RGB-vektoren, og 255 er en skaleringsfaktor. Som beskrevet over er blåbidraget redundant fordi
F.eks., kan en piksel i et godt opplyst ansikt (eller deler av ansiktet) bli representert av en lineær RGB-vektor [200, 120, 60], som representerer en typisk hudfarge. Mens en piksel i et mørkt belyst ansikt (eller annen del av nevnte første ansikt) kan bli representert av en lineær RGB-vektor [20, 12, 6], forårsaket av skygger eller dårlig belysning. Imidlertid, selv om de to pikslene har ulike RGB-vektorer og teknisk representerer to forskjellige farger representerer de to pikslene den samme hudfargen (eller det samme forholdet til rød, grønn, blå kombinasjon). Dette er reflektert av de normaliserte RnGn-verdiene, her [134, 81], som er det samme for begge pikslene.
Nå blir, basert på i det minste bevegelsesbildet og det normaliserte bildet, tre histogrammer beregnet: et bakgrunnsfargehistorgram, et bevegelsesfargehistogram og et bevegelsesfargesannsynlighetshistogram, hvor det siste er et forhold til bakgrunnsfargehistogrammet og bevegelsesfargehistogrammet.
Et histogram er en standard statistisk beskrivelse av en fordeling med hensyn til opptredenfrekvenser til ulike hendelsesklasser; for farge er hendelsesklassene regioner i fargerommet.
Først blir i trinn S5 et fargehistogram beregnet for det normaliserte bildet, heretter referert til som bakgrunnsfargehistogram siden det meste av bildet er antatt å inneholde "bakgrunn". Siden det normaliserte bildet er i et todimensjonalt fargerom (RG kromatisk), er bakgrunnsfargehistogrammet et todimensjonalt histogram og tilveiebringer en kompakt summering av fordelingen av data i det normaliserte bildet. Bakgrunnsfargehistogrammet vil nå indikere hvor ofte hver farge opptrer i bildet, og vil bli brukt for normaliseringsformål.
H( Rn, Gn) = antall piksler i normalisert bilde med farge Rn, Gn.
Bakgrunnsfargehistogrammet beregnet fra dataene i det eksempelvise inputbildet i fig. 3 er vist i fig. 4. Som vi kan se fra fig. 5, opptrer bakgrunnsfargen oftest og har den største toppen 401. Toppen 402 representerer ansikt/hudfarger.
Deretter blir i trinn S6 i henhold til én eksempelvis utførelse av bevegelsesfargebildet laget. Bevegelsesfargebildet er en kombinasjon av bevegelsesbildet og det normaliserte bildet, som er to ulike representasjoner av det samme inputbildet. Bevegelsesfargebildet omfatter kun piksler fra det normaliserte bildet som blir detektert som å være i bevegelse i bevegelsesbildet. Deretter blir i trinn S7, et bevegelsesfargehistogram beregnet fra bevegelsesfargebildet. Siden all bakgrunn (vegger, møbler, tak, gulv, etc.) er stasjonære, og en person sjelden kan forholde seg helt stille (selv når en aktivt prøver det), er det trygt å anta at bevegelsen detektert i bildet reflekterer tilstedeværelsen av en person. Bevegelsesfargehistogrammet blir dermed laget ved å beregne et fargehistogram for kun pikslene i det normaliserte bildet som representerer bevegelse (piksler detektert som bevegelse basert på en deteksjonsmetode som beskrevet over).
I henhold til en annen eksempelvis utførelse av den foreliggende oppfinnelsen, blir ikke bevegelsesfargebildet laget i trinn S6.1 stedet definerer kun trinn S6 et sett av piksler i det normaliserte bildet som skal bli brukt i trinn S7 ved beregning av bevegelsesfargehistogrammet, basert på informasjon fra bevegelsesbildet. Bevegelsesbildet 203 inneholder informasjon som definerer hvilke piksler til inputbildet som blir detektert som å være i bevegelse, og posisjonen til disse pikslene. Kun piksler på de samme pikselposisjonene i det normaliserte bildet blir så brukt for å lage bevegelsesfargehistogrammet.
Hmotlon( Rn, Gn) = antall piksler med normalisert farge Rn, Gn i kun deler av det normaliserte bildet detektert som å være i bevegelse.
Bevegelsesfargehistogrammet beregnet basert på det eksempelvise inputbilde i fig.
3 (og bevegelsesbildet og det normaliserte bildet utledet derfra) er vist i fig. 6. Som beskrevet over innbefatter dette histogrammet kun piksler fra regioner som inneholder bevegelse. Forandring av belysningsforhold, vaiende gardiner, etc. kan resultere i at kun statiske deler blir detektert som å være i bevegelse. Videre kan bevegelige kroppsdeler dekket av klær bidra til ikke-hudfarger i bevegelsesfargehistogrammet. Dermed, som vi kan se fra fig. 5, opptrer to topper, korresponderende til hudfarge 502 og bakgrunnsfarge 501 respektivt. I kontrast til bakgrunnsfargehistogrammet opptrer bakgrunnsfargen og hudfargen nesten like ofte, og har forholdsvis like topper.
Bakgrunnsfargehistogrammet gir nå fordelingen av farger i den generelle scenen, mens bevegelsesfargehistogrammet gir fordelingen av farger til de detekterte delene i scenen. Et forholdshistogram Hrati0beskriver forholdet mellom bevegelseshistogrammet Hmoti0ntil regionen inneholdende bevegelse og bakgrunnsfargehistogrammet Hbg til hele det normaliserte bildet.
Derfor blir deretter et forholdshistogram beregnet i trinn S8, ved å dele bevegelsesfargehistogrammet på bakgrunnsfargehistogrammet. Siden bakgrunnsfargehistogrammet har høyere verdier for statiske bakgrunnsfarger (de okkuperer det meste av bildet) og lave verdier for antatte hudfarger (bevegelse), vil forholdshistogrammet gi lave verdier for bakgrunnsfarger og høye verdier for bevegelse. Forholdshistogrammet kan bli beregnet ved å bruke følgende formel:
Et forholdshistogram beregnet basert på det eksempelvise inputbildet i fig. 3 (og bakgrunnsfargehistogrammet og et bevegelsesfargehistogram utledet derfra) er vist i fig. 6. Som det kan ses fra fig. 6, har toppen 602 (som representerer antatte hudfarger) betraktelig høyere verdier enn resten av fargene 601 i inputbildet.
I trinn S9 blir et bevegelsesfargesannsynlighetsbilde laget ved bakprojeksjon. Bevegelsesfargesannsynlighetsbildet blir laget ved å sette alle pikselverdier i bevegelsesfargesannsynlighetsbildet til en verdi tilegnet ved indeksering av forholdshistogrammet ved å bruke verdier fra det opprinnelige normaliserte bildet. Med andre ord blir i trinn S9, de kromatiske verdiene til hvert piksel i det normaliserte inputbildet tracet på forholdshistogrammet, og korresponderende frekvensverdier blir tilegnet til det samme piksel i det normaliserte inputbildet. Denne prosessen produserer lyse piksler i bevegelsesfargesannsynlighetsbildet hvor det er antatt at hudfarger opptrer, basert på bevegelsesdeteksjon. Med andre ord inneholder bevegelsesfargesannsynlighetsbildet informasjon om hvilke deler av bildet som er antatt å ha hudfarger.
I henhold til én utførelse av den foreliggende oppfinnelsen mottar ansiktsdetektor 104 inputdata fra bevegelsesfargefilteret 102. Som det kan ses fra fig. 2, er en første input Input 1 det gråskala digitale bildet 202 som tilveiebringer bildeintensitetsinformasjonen til klassifikatoren for å bestemme om området til bildet sannsynlig inneholder et ansikt basert på geometriske trekk, andre input Input2 er bevegelsesfargesannsynlighetsbildet som tilveiebringer informasjon til klassifikatoren for å bestemme om det samme området er sannsynlig å inneholde et ansikt basert på trekk i bevegelsesfargesannsynlighetsbildet. Bevegelsesfargesannsynlighetsbildet inneholder ikke farge, men inneholder et intensitetsmål for hvert piksel som definerer sannsynligheten for at et piksel er en hudfarge i det opprinnelige inputbildet 101. Klassifikatoren integrerer over regionen som for tiden blir undersøkt og dersom resultatet er over en forhåndssatt terskelverdi, antas det at området inneholder en ansiktskandidat. Dersom resultatet er under den forhåndssatte terskelverdien, blir det antatt at området ikke inneholder et ansikt og området blir ikke undersøkt videre. Alle områder antatt å inneholde en ansiktskandidat blir videre undersøkt ved å se etter ansikter ved å bruke tradisjonelle ansiktsgjenkjenningsteknikker basert på et gråskalabilde.
I henhold til en annen utførelse av oppfinnelsen mottar ansiktsdetektor 104 en tredje input Input3 fra bevegelsesfargefilter 102. Det tredje input Input3 er en-bit bevegelsesbildet 202 som tilveiebringer informasjon til klassifikatoren for å bestemme om det samme området er sannsynlig å inneholde en ansiktskandidat basert på trekk i bildet. Bevegelsesbildet inneholder lyse punkter hvor bevegelsen ble detektert, og et undersøkt område er sannsynlig å inneholde en ansiktskandidat dersom området inneholder en viss mengde av lyse piksler. Klassifikatoren tester området ved å integrere over det undersøkte området og dersom resultatet er høyere enn en forhåndssatt terskelverdi er det sannsynlig at ansiktskandidater er tilstede i det undersøkte området. Dersom resultatet er under en forhåndssatt terskelverdi, definerer klassifikatoren det undersøkte området til å ikke sannsynlig inneholde et ansikt.
I henhold til én utførelse av oppfinnelsen, når ansiktsdetektor 104 detekterer et ansikt i ett av inputbildene, returnerer ansiktsdetektor 104 lokasjonen til ansiktet til bevegelsesfargefilteret 102, f.eks. i form av størrelse til foreliggende testområde og en pikselkoordinat som definerer posisjonen til testområdet. Opptredenen av en positiv ansiktsseksjon vil tilveiebringe verdifull informasjon om hvilke piksler i bildet som faktisk omfatter hudfarger. Derfor blir, ved deteksjon av et ansikt, trinnet med å beregne bevegelsesfargehistogrammet i trinn S6 og S7 modifisert til å beregne et bevegelsesfargehistogram med kun piksler i det normaliserte bildet korresponderende til området som representerer et detektert ansikt.
Den foreliggende oppfinnelsen er også beskrevet av et system omfattende midler for å utføre metoden beskrevet over.
Oppfinnelsen gjør det mulig å utnytte styrken til fargeinformasjon for å skjelne mellom objekter basert på deres farge uten å bruke a- priori kjennskap om den spesifikke fargen til objektet som er av interesse. I stedet for forhåndsdefinerte hudfarger som et separat trekk, blir fargen av interesse funnet fra bevegelsesanalyse til scenen. Ved å bruke varianter av bevegelsesdeteksjonstilnærmelser, blir statistikk til farger til bevegelige objekter, relativt til statistikk til farger av stasjonære objekter brukt for å lage et fargefølsomt trekk som behjelper separering av bevegelse fra stasjonære objekter. Dette bevegelige objektfargetrekket blir til slutt brukt som input i et objektdeteksjonssystem hvor kunnskapen til bevegelse er et sterkt holdepunkt.
I tidligere systemer gjør eksplisitt bruk av hudfarge for ansiktsdeteksjon, avhengigheten av den registrerte fargen grunnet brukt belysning det vanskelig å lage en robust detektor.
Claims (7)
1. Metode for å detektere et ansikt i en videostrøm omfattende trinnene: - å motta fra et statisk videokamera en sekvens med inputfargebilder og for hvert inputbilde: - å beregne et gråskalabilde av inputfargebildet, - å lage et en-bits bevegelsesbilde basert på foreliggende gråskalabilde, og et forutgående gråskalabilde, - å beregne et normalisert fargebilde av inputfargebildet, - å beregne et bevegelsesfargesannsynlighetsbilde ved: - å beregne et første fargehistogram av alle pikslene i det normaliserte bildet, - å beregne et andre fargehistogram til kun pikslene i det normaliserte bildet korresponderende til piksler i bevegelsesbildet definert som å være i bevegelse, - beregne et forholdshistogram ved å dividere det første fargehistogrammet på det andre fargehistogrammet, - å sette alle pikselverdiene i bevegelsesfargesannsynlighetsbildet til en verdi tilegnet ved å indeksere forholdshistogrammet ved å bruke verdier fra det opprinnelige normaliserte bildet,
å tilveiebringe i det minste gråskalabildet og bevegelsesfargesannsynlighetsbildet til en ansiktsdetektor,
å eksekvere ansiktsdeteksjon ved å bruke en klassifikator som bestemmer tilstedeværelsen av et ansikt basert på første trekk i gråskalabildet og andre trekk i bevegelsesfargesannsynlighetsbildet.
2. Metode i henhold til krav 1,
karakterisert vedat de første trekkene omfatter geometriske trekk eller mønstre.
3. Metode i henhold til krav 1,
karakterisert vedat de andre trekkene omfatter intensitetsinformasjon, hvor nevnte intensitetsinformasjon definerer tilstedeværelsen av ikke-tilstedeværelse til antatte hudfarger.
4. Metode i henhold til krav 1,
karakterisert vedå tilveiebringe bevegelsesbildet til ansiktsdetektoren, og at tilstedeværelsen av et ansikt er videre basert på tredje trekk i bevegelsesbildet.
5. Metode i henhold til krav 1,
karakterisert vedat inputfargebildet er et RGB-fargerom, og at nevnte normaliserte bilde blir laget ved å konvertere en kopi av inputfargebildet til RG kromatisk rom.
6. Metode i henhold til krav 1,
karakterisert vedat, når ansiktsdetektoren detekterer et ansikt i ett av nevnte inputbilder blir trinnet med å beregne en bevegelsesfargesannsynlighetsbilde modifisert til: å trekke ut lokasjonen av nevnte detekterte ansikt, og å beregne et andre fargehistogram med kun pikslene som representerer det detekterte ansiktet.
7. System omfattende midler for å utføre metoden i henhold til trinnene 1-6.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NO20085322A NO329897B1 (no) | 2008-12-19 | 2008-12-19 | Fremgangsmate for raskere ansiktsdeteksjon |
PCT/NO2009/000409 WO2010071443A1 (en) | 2008-12-19 | 2009-11-27 | Method for speeding up face detection |
CN2009801514616A CN102257513B (zh) | 2008-12-19 | 2009-11-27 | 用于加速人脸检测的方法 |
EP09833678.7A EP2380111B1 (en) | 2008-12-19 | 2009-11-27 | Method for speeding up face detection |
US12/642,390 US8260011B2 (en) | 2008-12-19 | 2009-12-18 | Method, system, and computer readable medium for face detection |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NO20085322A NO329897B1 (no) | 2008-12-19 | 2008-12-19 | Fremgangsmate for raskere ansiktsdeteksjon |
Publications (2)
Publication Number | Publication Date |
---|---|
NO20085322L NO20085322L (no) | 2010-06-21 |
NO329897B1 true NO329897B1 (no) | 2011-01-24 |
Family
ID=40791143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
NO20085322A NO329897B1 (no) | 2008-12-19 | 2008-12-19 | Fremgangsmate for raskere ansiktsdeteksjon |
Country Status (5)
Country | Link |
---|---|
US (1) | US8260011B2 (no) |
EP (1) | EP2380111B1 (no) |
CN (1) | CN102257513B (no) |
NO (1) | NO329897B1 (no) |
WO (1) | WO2010071443A1 (no) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8244003B2 (en) * | 2010-01-25 | 2012-08-14 | Apple Inc. | Image preprocessing |
US8326001B2 (en) | 2010-06-29 | 2012-12-04 | Apple Inc. | Low threshold face recognition |
US8824747B2 (en) * | 2010-06-29 | 2014-09-02 | Apple Inc. | Skin-tone filtering |
US8786625B2 (en) * | 2010-09-30 | 2014-07-22 | Apple Inc. | System and method for processing image data using an image signal processor having back-end processing logic |
CN102663398A (zh) * | 2012-03-31 | 2012-09-12 | 上海博康智能信息技术有限公司 | 一种彩色图像颜色特征提取方法及装置 |
US9105078B2 (en) | 2012-05-31 | 2015-08-11 | Apple Inc. | Systems and methods for local tone mapping |
US9142012B2 (en) | 2012-05-31 | 2015-09-22 | Apple Inc. | Systems and methods for chroma noise reduction |
US9031319B2 (en) | 2012-05-31 | 2015-05-12 | Apple Inc. | Systems and methods for luma sharpening |
US11089247B2 (en) | 2012-05-31 | 2021-08-10 | Apple Inc. | Systems and method for reducing fixed pattern noise in image data |
US8817120B2 (en) | 2012-05-31 | 2014-08-26 | Apple Inc. | Systems and methods for collecting fixed pattern noise statistics of image data |
US9014504B2 (en) | 2012-05-31 | 2015-04-21 | Apple Inc. | Systems and methods for highlight recovery in an image signal processor |
US9743057B2 (en) | 2012-05-31 | 2017-08-22 | Apple Inc. | Systems and methods for lens shading correction |
US9332239B2 (en) | 2012-05-31 | 2016-05-03 | Apple Inc. | Systems and methods for RGB image processing |
US9077943B2 (en) | 2012-05-31 | 2015-07-07 | Apple Inc. | Local image statistics collection |
US8917336B2 (en) | 2012-05-31 | 2014-12-23 | Apple Inc. | Image signal processing involving geometric distortion correction |
US8872946B2 (en) | 2012-05-31 | 2014-10-28 | Apple Inc. | Systems and methods for raw image processing |
US8953882B2 (en) | 2012-05-31 | 2015-02-10 | Apple Inc. | Systems and methods for determining noise statistics of image data |
US9025867B2 (en) | 2012-05-31 | 2015-05-05 | Apple Inc. | Systems and methods for YCC image processing |
US9876988B2 (en) | 2012-07-13 | 2018-01-23 | Microsoft Technology Licensing, Llc | Video display modification for video conferencing environments |
US9940382B2 (en) * | 2012-12-20 | 2018-04-10 | Koninklijke Philips N.V. | System and method for searching a labeled predominantly non-textual item |
US9177383B2 (en) | 2013-08-29 | 2015-11-03 | Analog Devices Global | Facial detection |
KR20160057867A (ko) * | 2014-11-14 | 2016-05-24 | 삼성전자주식회사 | 디스플레이 장치 및 그에 의한 이미지 처리 방법 |
CN104658504B (zh) * | 2015-03-09 | 2017-05-10 | 深圳市华星光电技术有限公司 | 一种液晶显示器的驱动方法及驱动装置 |
CN105426829B (zh) * | 2015-11-10 | 2018-11-16 | 深圳Tcl新技术有限公司 | 基于人脸图像的视频分类方法和装置 |
CN105654058A (zh) * | 2015-12-31 | 2016-06-08 | 武汉鸿瑞达信息技术有限公司 | 互联网络视频演播室环境下彩色恒定特征提取方法及系统 |
CN108064386B (zh) * | 2017-11-24 | 2022-04-05 | 深圳市汇顶科技股份有限公司 | 背景去除方法、影像模块及光学指纹辨识系统 |
CN109374042B (zh) * | 2018-07-12 | 2021-05-28 | 中山职业技术学院 | 一种智能定制家具组装部件质检系统及方法 |
CN111027382B (zh) * | 2019-11-06 | 2023-06-23 | 华中师范大学 | 一种基于注意力机制的轻量级人脸检测的方法及模型 |
CN116311477B (zh) * | 2023-05-15 | 2023-08-01 | 华中科技大学 | 一种面向跨身份一致性的面部运动单元检测模型构建方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100459893B1 (ko) * | 2002-01-08 | 2004-12-04 | 삼성전자주식회사 | 동영상에서 칼라 기반의 객체를 추적하는 방법 및 그 장치 |
KR100474848B1 (ko) * | 2002-07-19 | 2005-03-10 | 삼성전자주식회사 | 영상시각 정보를 결합하여 실시간으로 복수의 얼굴을검출하고 추적하는 얼굴 검출 및 추적 시스템 및 방법 |
GB2395778A (en) * | 2002-11-29 | 2004-06-02 | Sony Uk Ltd | Face detection |
US7333653B2 (en) * | 2003-08-29 | 2008-02-19 | Hewlett-Packard Development Company, L.P. | Detecting and correcting redeye in an image |
CN100361138C (zh) * | 2005-12-31 | 2008-01-09 | 北京中星微电子有限公司 | 视频序列中人脸的实时检测与持续跟踪的方法及系统 |
CN100458831C (zh) * | 2006-06-01 | 2009-02-04 | 北京中星微电子有限公司 | 人脸模型训练模块及方法、人脸实时认证系统及方法 |
FR2911983B1 (fr) * | 2007-01-25 | 2009-05-29 | St Microelectronics Sa | Procede de suivi automatique des mouvements de la mains dans une sequence d'images. |
US8671346B2 (en) * | 2007-02-09 | 2014-03-11 | Microsoft Corporation | Smart video thumbnail |
US8064653B2 (en) * | 2007-11-29 | 2011-11-22 | Viewdle, Inc. | Method and system of person identification by facial image |
CA2791624A1 (en) * | 2010-02-26 | 2011-09-01 | Myskin, Inc. | Analytic methods of tissue evaluation |
-
2008
- 2008-12-19 NO NO20085322A patent/NO329897B1/no not_active IP Right Cessation
-
2009
- 2009-11-27 WO PCT/NO2009/000409 patent/WO2010071443A1/en active Application Filing
- 2009-11-27 EP EP09833678.7A patent/EP2380111B1/en not_active Not-in-force
- 2009-11-27 CN CN2009801514616A patent/CN102257513B/zh not_active Expired - Fee Related
- 2009-12-18 US US12/642,390 patent/US8260011B2/en active Active
Non-Patent Citations (5)
Title |
---|
GRAF H P ET AL: "Multi-modal system for locating heads and faces", AUTOMATIC FACE AND GESTURE RECOGNITION, 1996., PROCEEDINGS OF THE SECO ND INTERNATIONAL CONFERENCE ON KILLINGTON, VT, USA 14-16 OCT. 1996, LOS ALAMITOS, CA, USA,IEEE COMPUT. SOC, US, 14 October 1996 (1996-10-14), pages 88 - 93, XP010200404, ISBN: 978-0-8186-7713-7 * |
HUNKE M ET AL: "Face locating and tracking for human-computer interaction", SIGNALS, SYSTEMS AND COMPUTERS, 1994. 1994 CONFERENCE RECORD OF THE TW ENTY-EIGHTH ASILOMAR CONFERENCE ON PACIFIC GROVE, CA, USA 31 OCT.-2 NOV. 1994, LOS ALAMITOS, CA, USA,IEEE COMPUT. SOC, US, vol. 2, 31 October 1994 (1994-10-31), pages 1277 - 1281, XP010148783, ISBN: 978-0-8186-6405-2 * |
LEE C H ET AL: "Automatic human face location in a complex background using motion and color information", PATTERN RECOGNITION, ELSEVIER, GB, vol. 29, no. 11, 1 November 1996 (1996-11-01), pages 1877 - 1889, XP004013883, ISSN: 0031-3203 * |
MARTIN HUNKE H: "Locating and tracking of human faces with neural networks", INTERNET CITATION, 1 August 1994 (1994-08-01), pages 82pp, XP009119094, Retrieved from the Internet <URL:http://reference.kfupm.edu.sa/content/l/o/locating_and_tracking_of_hu man_faces_wit_522647.pdf> [retrieved on 20090630] * |
SCHIELE B ET AL: "GAZE TRACKING BASED ON FACE-COLOR", INTERNATIONAL WORKSHOP ON AUTOMATIC FACE- ANDGESTURE-RECOGNITION, XX, XX, 26 June 1995 (1995-06-26), pages 344 - 349, XP008049138 * |
Also Published As
Publication number | Publication date |
---|---|
NO20085322L (no) | 2010-06-21 |
EP2380111B1 (en) | 2013-07-03 |
US20100172581A1 (en) | 2010-07-08 |
CN102257513A (zh) | 2011-11-23 |
EP2380111A4 (en) | 2012-06-13 |
WO2010071443A1 (en) | 2010-06-24 |
US8260011B2 (en) | 2012-09-04 |
CN102257513B (zh) | 2013-11-06 |
EP2380111A1 (en) | 2011-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
NO329897B1 (no) | Fremgangsmate for raskere ansiktsdeteksjon | |
US7218759B1 (en) | Face detection in digital images | |
Vezhnevets et al. | A survey on pixel-based skin color detection techniques | |
CN106446872A (zh) | 一种低照度下的视频人脸检测识别方法 | |
Hapsari et al. | Face detection using haar cascade in difference illumination | |
CN109190456B (zh) | 基于聚合通道特征和灰度共生矩阵的多特征融合俯视行人检测方法 | |
McBride et al. | A comparison of skin detection algorithms for hand gesture recognition | |
Gangopadhyay et al. | FACE DETECTION AND RECOGNITION USING HAAR CLASSIFIER AND LBP HISTOGRAM. | |
JP3962517B2 (ja) | 顔面検出方法及びその装置、コンピュータ可読媒体 | |
Azad et al. | A robust and adaptable method for face detection based on color probabilistic estimation technique | |
Fathy et al. | Benchmarking of pre-processing methods employed in facial image analysis | |
CN108875572B (zh) | 基于背景抑制的行人重识别方法 | |
Hassanpour et al. | Adaptive Gaussian mixture model for skin color segmentation | |
Niazi et al. | Hybrid face detection in color images | |
Khalid et al. | Face recognition for varying illumination and different optical zoom using a combination of binary and geometric features | |
KR20160017152A (ko) | 이진 하르 캐스케이드에 기반한 성별 분류 방법 | |
Egorova et al. | An Improvement of face detection algorithm for color photos | |
AU739936B2 (en) | Face detection in digital images | |
Mohibullah et al. | Face Detection and Recognition from Real Time Video or Recoded Video using Haar Features with Viola Jones Algorithm and Eigenface Approach with PCA | |
Samuelsson | Classification of Skin Pixels in Images: Using feature recognition and threshold segmentation | |
Yi et al. | Face detection method based on skin color segmentation and eyes verification | |
Jheel et al. | MODIFIED LIPS REGION EXTRACTION METHOD FROM VIDEO FOR AUTOMATIC LIP READING SYSTEM | |
Yong-jia et al. | A Mumford-Shah level-set approach for skin segmentation using a new color space | |
Niju | Robust Human Tracking Using Sparse Collaborative Model in Surveillance Videos | |
Ha et al. | Review of Spatial and Temporal Color Constancy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM1K | Lapsed by not paying the annual fees |