SE522866C2

SE522866C2 - Sätt och system för interpretering av betraktat objekt

Info

Publication number: SE522866C2
Application number: SE0004873A
Authority: SE
Inventors: Adi Anani; Haibo Li
Original assignee: Adi Anani; Haibo Li
Priority date: 2000-12-28
Filing date: 2000-12-28
Publication date: 2004-03-16
Also published as: SE0004873L; WO2002054147A8; US20040095399A1; WO2002054147A1; AU2002217654A1; EP1346256A1; AU2002217654A8; SE0004873D0

Description

25 30 :S22 866 2 ~ | u - u » u u u u u .- medelst visuell tolkning av dennes rörelsemönster användande bildanalyserande tekniker.

Vidare att lokalisera, identiﬁera och tillhandahålla information om det identiﬁerade objektet.

Ett systemet enligt föreliggande uppfinning innefattar: 0 Ett bärbart kameraorgan, som är riktat i betraktelseriktning. 0 Ett objektlokaliserande organ, anordnat att lokalisera det objekt som den bärande en systemet bärande persons personen för tillfället riktar sin uppmärksamhet mot. 0 Ett positionsgivande organ är anordnat att hjälpa det objektlokaliserande organet att avgränsa ett segment i bilden från kameran, vilket segment innefattar objektet. 0 Ett objektidentifierande organ är anordnat att identifiera det lokaliserade objektet. 0 Ett interpreteringsorgan är anordnat att ur tillgänglig databas hämta information om det identiﬁerade objektet. 0 Ett presentationsorgan, anordnat att till den systemet bärande personen presentera den påträffade och till aktuellt objektet hörande informationen.

I en första utföringsforin kan kameraorganet innefatta en vid en bärare anordnad kamera l för leverans av rörliga bilder eller stillbilder med korta intervall av åtminstone en betydande del av vad personen har i sitt synfält. Kameran l är med fördel anordnad vid ett par glasögon eller liknande för att medfölja i bärarens huvudrörelser.

Kamerans 1 bilder överförs till det objektlokaliserande organet 2. Från det positionsgivande organet 3 erhåller det objektlokaliserande organet 2 information om vart i den från kameran överförda bilden objektet befinner sig. Härigenom kan den av kameran l levererade bilden avgränsas så att enbart ett bildsegment levereras vidare för behandling.

När aktuellt objekt, här ett ord hämtat ur en tidningsspalt, är lokaliserat överförs ett bildsegment innefattande objektet till det obj ektidentiﬁerande organet 4. Genom en bildanalys identifieras objektet. I föreliggande exempel identiﬁeras objektet som ett textat ord.

Bildsegmentet med objektet sänds vidare till interpreteringsorganet 5 med information om vad objektet är, här text. Baserat på den informationen initieras kontaktandet av en relevant databas 6 för tolkning av objektet. I föreliggande exempel initieras först en s.k.

OCR för att omvandla bilden av ordet till en textsträng. Textsträngen används till att konsulteras ett lexikon för att ﬁnna ordets innebörd.

Den information som interpreteringsorganet 5 påträffar presenteras därefter på lärnpligt sätt för bäraren genom presentationsorganet 7. Presentationen kan ske genom bild, ljud, taktil överföring eller kombinationer av dessa.

K:\Patent\1 100-\l 10047500se\001222prv.doc 10 15 20 25 30 fs22 aa6 3 . . . n . . ø u . . ~ .u Bilder kan t.ex. presenteras genom projicering på ett par glasögon eller direkt på bärarens näthinna.

Ljud kan t.ex. överföras genom högtalare i eller i direkt anslutning till bärarens öra.

För hörselskadade kan även ljudöverföringen integreras med befintligt hörselstöd, såsom hörapparat etc.

Taktil överföring kan ske på något för fackmarmen känt sätt, t.ex. genom blindskrift eller liknande.

Det positionsgivande organet 3 kan, i en första utföringsforrn, genom att avläsa bärarens ögon beräkna blickens riktning och med kända geometriska relationer kan positionen för ett objekt som bäraren riktar sin blick mot fastställas. Riktningen anger då ett orriråde, inom vilket bärarens uppmärksamhet ligger. För betraktandet av små objekt på långa avstånd erfordras följaktligen en högre upplösning än vid betraktandet av relativt sett stora objekt på korta avstånd.

En hög upplösning är också relativt kostsam. Ett dylik organ för avläsning av en bärarens betraktningsriktning behöver i praktiken ett ytterligare stöd för att bestämma vilket objekt inom det således definierade bildsegmentet som är det bäraren riktar sin blick mot.

För att avgöra om sådant ytterligare stöd erfordras, kan en beslutsparameter som benämns visshetsparameter införas. Om det deﬁnierade bildsegmentet uppvisar enbart ett objekt, t.ex. ett ord, kommer visshetsparainetem att vara hög. Om bildsegmentet innehåller två eller ﬂera objekt kommer på motsvarande sätt visshetsparametems värde att minska.

Med hänvisning till ﬁg. l och fig. 2 visas hur positionsinfonnation till det objektlokaliserande organet 2 kan åstadkommas. Ett positionsgivande organ 3” innefattar ett ögonriktningsavläsande organ 9, vars ändamål är att utifrån bilder av bärarens ögon utläsa och bestämma blickens riktning. Två kameror 8 är för ändamålet riktade mot bärarens ögon, en kamera mot vardera ögat. Kamerorna 8 tar rörliga videobilder eller digitala stillbilder med korta intervall. Blickriktningen beräknas genom att avläsa ögonens respektive orientering och spatiala läge, vanligen genom triangulering som är en välkänd matematisk metodik.

Inforinationen om den avlästa blickriktningen levereras från det ögonriktningsavläsande organet 9 dels till ett dokumentanalyserande organ 10 dels till ett blickanalyserande organ 11. Ändamålet med det dokumentanalyserande organet 10 är att bistå med att identifiera rätt ord inom det bildsegment som blickriktningen angett. Således kan behovet av hög upplösning hos kameroma 8 och det ögonriktningsavläsande organet 9 hållas tillbaka.

K: \Patent\l 100-\1 l0047500se\00 l 222prv.d0c 10 15 20 25 30 f 5221 866 4 Dokumentanalysorganet 10 analyserar samtliga ord inom det området som det ögonriktningsavläsande organet 9 definierat för att finna vilket ord det är mest sannolikt att bäraren önskar interpreterat. Detta baseras på en analys av t.ex. vilka ord som är vanliga och enkla, vilka som har passerats tidigare, vilka som nyligen har interpreterats, etc.

Dokumentanalysorganet behöver heller inte vara aktivt om visshetsparametern överstiger ett bestämt belopp, t.ex. motsvarande två objekt eller två ord.

Det ord som initialt väljs kan markeras, t.ex. genom att belysas eller markeras vid bärarens glasögon, eller liknande, varvid en visuell återkoppling sker. Härigenom informeras bäraren om systemet gjort en korrekt analys och korrekt valt det objekt som bäraren intresserat sig för. Bäraren kan t.ex. svara med bestämda ögonrörelser, vilka kan registreras av det ögonriktningsavläsande organets 9 kameror 8 samt tydas av det blickanalyserande organet ll. Baserat på information från det blickanalyserande organet 11 kan således dokumentanalysorganet 10 bestämma huruvida a) positionsinfonnation skall sändas vidare till det obj ektlokaliserande objektet, b) om nytt korrigerat forslag till objekt skall tas fram eller c) om försöken att finna rätt objektet skall ges upp, varvid blicken förs vidare utan att invänta interpretering.

Det blickanalyserande organet llär ämnat att tyda och tolka ögonrörelser, att förstå den semantiska innebörden av en ögonrörelse eller ögongest. Åtminstone tre rörelsemönster skall kunna identifieras och tolkas, nämligen koncentration, byt och fortsätt.

Med hänvisning till läsningsexemplet, avses med koncentration att bäraren stannar upp vid ett ord och betraktar detta. Med byt menas att bäraren avser ett annat ord i närheten av det initialt gissade ordet. Med fortsätt menas bara att bäraren läser vidare och för tillfället inte önskat assistans. De instruktioner som det blickanalyserande organet 11 tyder överförs till det dokumentanalyserande organet 10.

För att automatisera interpreteringen kan med fördel tidsmässigt gränsvärde anges, varvid om bärarens blick stannar vid ett objekt längre än angivet gränsvärde initieras automatiskt positionsbestärnningen av objektet och interpretering.

Det positionsgivande organet 3 kan vidare i en andra utföringsform 3”, såsom schematiskt visas i ﬁg. 3, utnyttja en av bäraren manövrerbar markör som visualiseras i det av bäraren betraktade området och kan nyttjas till att markera ett objekt eller ett område kring detta.

Med hänvisning till fig. 1 och ﬁg. 3 kan positionsinforrnation i en ytterligare utföringsform skapas och tillföras det objektlokaliserande organet 2 på följande sätt. Kameran 1, som levererar bilder till det objektlokaliserande organet 2, är även ansluten till det K:\Patcnt\l lO0-\1 10047500se\001222prv.d0c 10 15 20 25 30 f 5122 816 6. 5 n n 1 . . Q - . . n v n v n va positionsgivande organet 3”. Detta innefattar i ett handlokaliseringsorgan 22, ett gesttolkande organ 23, en markörgenererande och -reglerande enhet 24 och en markörlägesavläsare 25.

Handlokaliseringsorganet 22 lokaliserar minst en hand i bilden och sänder sedan vidare de bildsegment som visar handen till det gesttolkande organet 23, varvid reduceras den bildstorlek som behöver behandlas.

Det gesttolkande organets 23 funktion innefattar att förstå den semantiska innebörden av en handrörelse eller gest. Detta kan även gälla enskilda ﬁngrar. Exempel på vad man kan vilja åstadkomma med gester är förﬂytta en markör, begära kopiering, aktivera en interpretation, etc. Således kan handrörelser användas för att reglera ett otal aktiviteter.

Från det gesttolkande organet 23 sänds enligt föreliggande utföringsforrn ur gester tolkade instruktioner till den markörgenererande och -reglerande enheten 24 och till markörlägesavläsaren 25. Ändamålet med den markörgenererande och -reglerande enheten 24 är att åstadkomma en av bäraren visuellt förnimbar markör, antingen åstadkomma en markör på dokumentet, t.ex. medelst en aktiv laser, eller åstadkomma en överlappande markör på bärarens glasögon, för att åstadkomma samma resultat.

I det visade exemplet med laserrnarkör nyttjas markörlägesavläsaren 25 till att lokaliserar markörens läge i den av kameran 1 skapade bilden. Till sin hjälp finns kamerans 1 bild av dokumentet med markör eller kamerans 1 bild kombinerat med information från gesttolkningsorganet 23.

I altemativet med överlappande markör på glasögon sänds information från den markörgenererande och -reglerande enheten 24, t.ex. markörens koordinater, dels direkt till marköravläsaren 25 dels till glasögonen. Glasögon som även kan nyttjas för annan återkoppling till bäraren.

Om en markör, t.ex. en av en laserstråle bildad ljuspunkt, är riktad mot tidningen i ﬁg. 3, kan således markörens läge i bilden fastställas genom tolkning av kamerans bildsignal och bäraren kan genom att utföra bestämda rörelsemönster med sina ﬁngrar styra den av laserstrålen bildade markören över tidningssidan. På så sätt kan en bärare med hög precision utföra en eller en serie aktiviteter i det betraktade och avbildade området, t.ex. manövrera markören till början av att ord i texten, aktivera markering, föra markören över ordet, avaktivera markering och initiera interpretering.

Den bärbara kameran 1 kan uppvisa en eller ﬂera linser. Vid ﬂera samverkande kameror kan de vara anordnade vid en eller ﬂera positioner på bäraren. Kameran/kameroma kan mera allmänt återge området kring bäraren eller så kan den/de ge bilder som mera K:\Patent\l 100-\1 10047500se\0O1222prv.doc 10 15 t 522 866 6 avgränsat visar det ornråde mot vilket bärarens blick för tillfället är riktad. Det senare kan åstadkommas t.ex. av en kamera buren så att den följer huvudrörelsen, såsom t.ex. om den är anordnad vid ett par glasögonbågar. Företrädesvis används en kamera som levererar rörliga bilder, s.k. video.

För att tillgodose ett stort spektra av objekt, vad avser omfång och storlek, kan kameran 1 innefatta ﬂera kameror med olika upplösning, för att därigenom t.ex. vid interpretering av små objekt använda en högupplösande kamera medan ett till dimensionerna större objekt, t.ex. en bil kan nyttja en kamera med normal eller låg upplösning och bildanalys ändå kan vara meningsfull.

Innefattar kameraorganet hela bärarens synfált, kommer objektet att befinna sig i den av kameran 1 genererade bilden.

En eller ﬂera databaser kan vara tillgängliga. Systemet kan t.ex. med kommunikationslösningar vara ansluten till stora mängder databaser helt oberoende av det fysiska avståndet till dessa. Trådlös kommunikation kan med tördel nyttjas, åtminstone den första sträckan mellan bäraren och en stationär kommunikationsenhet.

K: \Patent\l 100-\l l0047500se\00l 222prv.doc

Claims

10 15 20 25 30 tlszz '66 7 Patentkrav

1. Sätt för interpretering av ett av en person betraktat objekt som personen önskar information om, innefattande att skapa en digital bild av personens synfält, k ä n n e t e c k n at av att personens rörelsemönster avläses för identifiering av önskan om interpretering och bestämning av position i bilden för föremålet för önskan, att ett objekt lokaliseras i bilden medelst positionsinforrnationen, att det lokaliserade objektet identiﬁeras, att det identifierade objektet interpreteras samt att resultatet från interpreteringen presenteras för personen.

2. Sätt enligt krav 1, k ä n n e t e c k n a t a v att vid avläsning av personens rörelsemönster för identiﬁering av önskan om interpretering och/eller bestämning av position i bilden för föremålet för önskan avläses personens ögonrörelser.

3. Sätt enligt krav 1 - 2, k ä n n e t e c k n a t a v att vid avläsning av personens rörelsemönster för identiﬁering av önskan om interpretering och/eller bestämning av position i bilden för föremålet för önskan avläses personens handrörelser eller gester.

4. Sätt enligt krav 1 - 3, k ä n n e t e c k n at a v att ett segment innefattande objektet avgränsas i bilden överförs för objektidentiﬁering.

5. System för interpretering av ett av en person betraktat objekt som personen önskar information om, innefattande ett bärbart kameraorgan (1) som är riktat för att återge i bild en systemet bärande persons synfält, k ä n n e t e c k n a t a v att ett positionsgivande organ (3) är anordnat tolkande personens önskan av interpretering och identiﬁerande den position i bilden där föremålet för önskan befinner sig, att ett objektlokaliserande organ (2) är anordnat för lokalisering av objektet i bilden, att ett objektidentiﬁerande organ (4) är anordnat att identiﬁera det lokaliserade objektet, att ett interpreteringsorgan (5) är anordnat för framtagning av information hörande till det identiﬁerade objektet samt att ett presentationsorgan (7) är anordnat att till den systemet bärande personen presentera resultatet av interpreteringen.

6. System enligt krav 5. k ä n n e t e c k n a t a v att det positionsgivande organet (3°) innefattar ett ögonriktningsavläsande organ (8, 9) avläsande den bärande personens betraktelseriktning och därmed ett segment i den av kameran (1) åstadkomna bilden.

7. System enligt krav 6, k ä n n e t e c k n at a v att ett bildanalyserande organ (10) är anordnat för analys av de objekt som befinner sig i det av det ögonriktningsavläsande organet (8, 9) definierade segmentet och att ett blickanalyserande organ (11) är anordnat att K:\Patent\l lO0-\1 10047500se\001222prv.doc 10 15 :S212 866 ' 8 förstå den semantiska innebörden av en ögonrörelse eller ögongest genom att tyda och tolka ögonrörelser.

8. System enligt krav 5, k ä n n e t e c k n a t a v att det positionsgivande organet (3” ') innefattar ett handlokaliseringsorgan (22) för igenkänning av en hand eller ett handparti, ett gesttolkande organ (23) för tolkning av den semantiska innebörden av en handrörelse eller gest, en markörgenererande och -reglerande enhet 24 för reglering av en av den bärande personen visuellt törnimbar markör och en markörlägesavläsaren 25 avläsande markörens läge i kamerans (1) bild.

9. System enligt krav 8, k ä n n e t e c k n a t a v att den av bäraren visuellt törnimbara markören är en markör i synfältet, företrädesvis en av en laserstråle bildad ljuspunkt eller belyst yta.

10. System enligt krav 8, k ä n n e t e c k n a t a v att den av bäraren visuellt förnimbara markören är en överlappande markör bildad på bärarens glasögon. K:\Patent\l 100-\1 10047500sc\001222prv.d0c