SE510478C2 - Method and apparatus for transmitting information through motion detection, and using the apparatus - Google Patents
Method and apparatus for transmitting information through motion detection, and using the apparatusInfo
- Publication number
- SE510478C2 SE510478C2 SE9800884A SE9800884A SE510478C2 SE 510478 C2 SE510478 C2 SE 510478C2 SE 9800884 A SE9800884 A SE 9800884A SE 9800884 A SE9800884 A SE 9800884A SE 510478 C2 SE510478 C2 SE 510478C2
- Authority
- SE
- Sweden
- Prior art keywords
- features
- orientation
- dimensional
- information
- discrete
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/10—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals
- A63F2300/1087—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals comprising photodetecting means, e.g. a camera
- A63F2300/1093—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals comprising photodetecting means, e.g. a camera using visible light
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
20 25 30 sio 478 i i 2 _ Mängden möjliga tillämpningar av ett niänriiska-maskin-gränssnítt (MMI) for tre-dirnensionell information omfattar alla områden där idag rullkula, joystick eller dator- handske används. Exempel pâ användningsområden inkluderar: * Interaktion med visualiseringssystem för tre-dimensionell information. 20 25 30 sio 478 i i 2 _ The set of possible applications of a nine-machine interface (MMI) for three-dimensional information covers all areas where a ball, joystick or computer glove is currently used. Examples of applications include: * Interaction with visualization systems for three-dimensional information.
Exempel på detta utgörs av: -- CAD-baserade utvecklings- och visualiseringsmiljöer.Examples of this are: - CAD-based development and visualization environments.
-- Visualisering kan också avse medicinska data, andra sensordata i form av tre- dirnensionella bilder, och datamängder från simuleringar.- Visualization can also refer to medical data, other sensor data in the form of three-dimensional images, and data sets from simulations.
-- Datorspel där en agents interaktion med miljön i datorspelet styrs av en spelare.- Computer games where an agent's interaction with the environment in the computer game is controlled by a player.
-- Navigering i virtual-realiry-rriiljön där rörelseriktningen hos betraktaren samt ändringar i den omgivande virtuella rniljön styrs av handgester eller rörelse av andra objekt.- Navigation in the virtual real-world environment where the direction of movement of the viewer and changes in the surrounding virtual environment are controlled by hand gestures or movement of other objects.
- Navigering i stora informationsmängder (databaser och liknande), som presenteras via ett tre-dimensionellt användargränssnitt, vilket projiceras på en bildskärm eller liknande.- Navigation in large amounts of information (databases and the like), which are presented via a three-dimensional user interface, which is projected on a monitor or the like.
* Styrning av mekaniska system Exempel på mekaniska system är: -- Instruering och styrning av rörelsemönster för robotar, där robotens rörelsemönster och orientering i rummet anges.* Control of mechanical systems Examples of mechanical systems are: - Instruction and control of movement patterns for robots, where the robot's movement pattern and orientation in the room are specified.
* Styrning av hemelektronik För att undvika att en användare behöver gá fram till den utrustning denne vill an- vända, skall det vara möjligt att styra denna på avstånd. Några exempel på detta är: -- Reglering av ljusstyrka för belysning; virtuell dimmer.* Control of consumer electronics In order to avoid a user having to access the equipment he wants to use, it must be possible to control it remotely. Some examples of this are: - Adjustment of brightness for lighting; virtual dimmer.
-- Kontrollering av en videoapparat; exempelvis start, stopp, snabbspolning.- Control of a video device; for example start, stop, fast forward.
-- Leksaker för barn; en robot vars rörelsemönster styrs av barns gester.- Toys for children; a robot whose movement pattern is controlled by children's gestures.
Allmänt bör ett MMI enligt ovan vara av intresse för företag som tillverkar och/eller saluför datorer som kommunicerar med människor. Mer konkreta exempel är till- verkare av visualiseringsutrustning, spelindustri, operativsystem samt aktörer inom tele- kommunikation, robotik, konsumentelektronik.In general, an MMI as above should be of interest to companies that manufacture and / or market computers that communicate with people. More concrete examples are manufacturers of visualization equipment, the gaming industry, operating systems and players in telecommunications, robotics and consumer electronics.
Föreliggande uppfinning anger en lösning till problem förknippade med ett tre- dimensionellt MMI genom bilagda självständiga patentkrav. Specifika utföririgsfonner av uppfinningen anges genom bilagda osjälvständiga patentkrav.The present invention provides a solution to problems associated with a three-dimensional MMI through appended independent claims. Specific embodiments of the invention are set forth in the appended dependent claims.
O:\users\ UDO\DOK\word-dok\P33558SEIX)-p03 .doc 10 15 20 25 30 3 510 478 Sammanfattning av uppfinningen Uppfinningen enligt föreliggande beskrivning avser ett förfarande och en anordning för funktionsstyming av första organ, som i sig styrs med processorer, för tre-dimensionell överföring av information genom rörelsedetektering med ett bildupptagarorgan där punkt- och linjekorrespondenser hos ett objekt styr nämnda första organs funktion. Uppfinningen avser även ett användande av anordningen såsom den beskrivs.SUMMARY OF THE INVENTION The invention according to the present description relates to a method and a device for functional control of first means, which is controlled in itself...................................................... with processors, for three-dimensional transmission of information by motion detection with an image pickup means where point and line correspondences of an object control the function of said first means. The invention also relates to a use of the device as described.
Det första organet är en maskin eller programvara i en maskin, som företrädesvis styrs via en processor, såsom hushållsapparatur, datorer, verktygsmaskiner etc.The first means is a machine or software in a machine, which is preferably controlled via a processor, such as household appliances, computers, machine tools, etc.
Enligt föreliggande uppfinning anges ett förfarande för funktionsstyrning av organ, i sig styrda med processorer, för tre-dimensionell överföring av information genom rörelsede- tektering med ett bildupptagarorgan. Bildupptagarorganet registrerar i minst tre diskreta rum- tidpunkter då bildupptagarorganet endast är ett, vid minst två diskreta rumtidpunkter då fler än ett bildupptagarorgan används, och vid varje diskret rumtidpunkt ett objekts position och orientering från projektioner av minst tre särdrag hos objektet, vilka transformeras till punkter och linjer hos objektet.According to the present invention, a method for function control of means, in itself controlled by processors, is specified for three-dimensional transmission of information by motion detection with an image pickup means. The image capture means registers for at least three discrete space times when the image capture means is only one, at at least two discrete space times when more than one image capture means is used, and at each discrete space time an object's position and orientation from projections of at least three features of the object and lines of the object.
Särdrags position och orientering i nämnda diskreta rurntidpunkter korreleras över tiden så att objektets tre-dimensionella orientering sarnt ändringar i orientering och organets särdrags inbördes läge bestämmes. Bestämningama erhålles vid varje rumtidpunkt ur en tre- dimensionell rotationsmatris och en tre-dimensionell translationsvektor, vilka beräknas med en tensor.The position and orientation of the feature in said discrete frame times are correlated over time so that the three-dimensional orientation of the object changes in orientation and the mutual position of the feature of the member is determined. The determinations are obtained at each space time from a three-dimensional rotation matrix and a three-dimensional translation vector, which are calculated with a tensor.
Processorn bearbetar bestämningarna och på grundval av bearbetningen styr nämnda organ, att genom bearbetningen utföra en av den tidsdiskreta rörelsen indikerad funktion.The processor processes the determinations and on the basis of the processing controls said means, to perform through the processing a function indicated by the time-discrete movement.
Särdrag detekteras, i en utföringsforrn, på olika skalor, varvid skalinformation an- vänds för upplösning av obestärndheter i beräkning av objekts geometriska parametrar.Features are detected, in one embodiment, on different scales, whereby scale information is used for the resolution of imperfections in the calculation of the geometric parameters of objects.
Ett sätt att beräkna ett objekts tredimensionella orientering samt ändringar i denna är via den affina ttifokala tensom eventuellt i kombination med en simultan faktoreringsmetod.One way of calculating an object's three-dimensional orientation and changes in it is via the affin tifocal tensor, possibly in combination with a simultaneous factorization method.
Objektet är antingen stelt, tidsdiskret stelt eller att det kan approximeras som stelt.The object is either rigid, time-discreetly rigid or it can be approximated as rigid.
Särdragen utgörs av position och orientering hos tre eller fler fingrar på en hand i en specifik utföringsforrn av uppfinningen.The features consist of the position and orientation of three or three fingers of a hand in a specific embodiment of the invention.
Furiktionsstyrning kan i en utföringsform utövas i kombination med auditativ styr- ning.In one embodiment, furiction control can be exercised in combination with auditory control.
I ytterligare en utföringsform av uppfinningen görs en modell av ett objekt och dess särdrag och lagras i ett elektroniskt minne, vilken fiinktionsstyr närnnda organ utgående från jämförelser med av bildupptagarorganet upptagen styrinformation med information i minnet. 0:\ißers\UDO\DOK\word-dok\l*33558SE00-p03.doc 10 15 20 25 30 510 478 i 4 Vidare anger föreliggande uppfinning en anordning för styrning av första organ, i sig styrda med processorer, för tre-dimensionell överföring av information genom rörelsedetekte- ring med ett bildupptagarorgan: varvid den innefattar att: bildupptagarorganet i minst tre diskreta rumtidpunkter vid användande av ett bildupptagarorgan 20, minst två diskreta rumtidpunkter vid användande av fler bildupptagar- organ, och vid varje diskret rumtidpunkt registrerar projektionen av ett objekts position och orientering för minst tre särdrag hos objektet, vilka transformeras till punkter och linjer för objektet; organ för korrelation av särdrags position och orientering i nämnda diskretarumtid- punkter så att objekts tre-dimensionella orientering samt ändringar i orientering och objekts särdrags inbördes läge bestärnmes; organ för nämnda bestämningar vid varje rumtidpunkt som åstadkommer att en tre- dirnensionell rotationsmatris och en tredimensionell translationsvektor erhålles; organ för elektronisk minneslagring av upptagen funktionsstyrinforrnation; organ för beräkning av nämnda rotationsrnau-is och nanslationsvektor via en tensor eventuellt kombinerad med en faktoriseringsmetod; varvid processom bearbetar bestämníngama och på grundval av bearbetningen styr nämnda första organ, att genom bearbetningen utföra en av den tidsdiskreta rörelsen indikerad funktion.In a further embodiment of the invention, a model of an object and its features is made and stored in an electronic memory, which means for controlling said means on the basis of comparisons with control information recorded by the image pickup means with information in the memory. Furthermore, the present invention provides a device for controlling first means, inherently controlled by processors, for triplicate......................... dimensional transmission of information by motion detection with an image capturing means: comprising: the image capturing means for at least three discrete space times using an image capturing means 20, at least two discrete space times using more image capturing means, and at each discrete space time recording the projection of the position and orientation of an object for at least three features of the object, which are transformed into points and lines of the object; means for correlating the position and orientation of the feature in said discrete space times so that the three-dimensional orientation of the object and changes in the mutual position of the feature and the feature of the object are determined; means for said determinations at each space time that results in a three-dimensional rotation matrix and a three-dimensional translation vector; means for electronic memory storage of busy functional control information; means for calculating said rotational noise and nanslation vector via a tensor optionally combined with a factorization method; wherein the processor processes the determinations and on the basis of the processing controls said first means, to perform through the processing a function indicated by the time-discrete movement.
Särdrag i en utföringsforrn av anordningen detekteras på olika skalor, varvid skalin- formation används för upplösning av obestämdheter i beräkning av objekts geometriska pa- rametrar.Features of an embodiment of the device are detected on different scales, whereby scale information is used for resolving uncertainties in calculating the geometric parameters of objects.
Tensom som innefattas i anordningen är i en utföringsfonn den affina rrifokala ten- som.The tensor included in the device is in one embodiment the one of the rrifocal tensors.
Objektet som bearbetas av anordningen är stelt, tidsdiskret stelt eller att det kan ap- proximeras som stelt.The object processed by the device is rigid, time-discreetly rigid or that it can be approximated as rigid.
Vidare utgörs särdrag företrädesvis av position och orientering hos tre eller fler fing- rar på en hand i varje diskret rumtidpunkt.Furthermore, features preferably consist of the position and orientation of three or more fingers on a hand in each discrete space time.
Funktionsstyming kan i en utföringsform av anordningen åstadkommas i kombina- tion med auditativ (t ex röststyrning) styrning.Functional control can in one embodiment of the device be achieved in combination with auditory (eg voice control) control.
I en utföringsforrn av anordningen enligt föreliggande uppfinning görs en modell av ett objekt och dess särdrag och lagras i nämnda organ för elektronisk minneslagring, vilken funktionsstyr nämnda organ utgående från jännförelser med av bildupptagarorganet 20 uppta- gen styrinformation med information i minnet.In an embodiment of the device according to the present invention, a model of an object and its features is made and stored in said means for electronic memory storage, which function controls said means on the basis of comparisons with control information recorded by the image pickup means 20 with information in the memory.
O:m5:rs\UDO\DOK\word-dok\P335S8SE00-p03.doc 10 15 20 25 30 s 510 478 Ytterligare innefattar föreliggande uppfinning en användning av en sådan anordning som ovan för funktionsstyming av maskiner i sig styrda med processorer, för tre-dimensionell överföring av information genom rörelsedetektering med ett bildupptagarorgan.The present invention further encompasses the use of such a device as above for the operation control of machines per se controlled by processors, for three-dimensional transmission of information by motion detection with an image pickup means.
Kortfattad beskrivning av ritning Fortsättningsvis hänvisas i beskrivningen till bilagda ritningsfigurer för en bättre förståelse av utföringsforrner av föreliggande uppfmning, där: Fig. l illustrerar ett exempel på ett objekt, i form av en hand, med detaljer som används för att funktionsstyra ett första organ enligt föreliggande uppfinning; Fig. 2 illustrerar en person som med sin ena hand, som objekt, styr en funktion i programvara enligt föreliggande uppfinning; F ig. 3 illustrerar schematiskt handrörelser som styr funktioner enligt Fig. 2; Fig. 4 illustrerar hur funktionen rotation enligt Fig. 1 och 2 styrs via punkt- och linjekorrespondenser över tre bilder; och Fig. 5 illustrerar ett flödesschema för funktionsstyrning enligt uppfinningen.Brief Description of the Drawing Further, in the description, reference is made to the accompanying drawing figures for a better understanding of embodiments of the present invention, in which: Fig. 1 illustrates an example of an object, in the form of a hand, with details used to functionally control a first member according to present invention; Fig. 2 illustrates a person who with one hand, as an object, controls a function in software according to the present invention; F ig. Fig. 3 schematically illustrates hand movements controlling functions according to Fig. 2; Fig. 4 illustrates how the function rotation according to Figs. 1 and 2 is controlled via point and line correspondences over three images; and Fig. 5 illustrates a circuit diagram for function control according to the invention.
Detaljerad beskrivning av föredragna utfóringsformer Föreliggande uppfinning avser ett förfarande och en anordning för överföring av tre-dirnensionell orientering till datorer och annan utrustning som styrs av processorer eller innefattar processorer. Anordningens användande för funktionsstyrning av apparater och maskiner innefattas även i uppfinningen.DETAILED DESCRIPTION OF PREFERRED EMBODIMENTS The present invention relates to a method and apparatus for transmitting three-dimensional orientation to computers and other equipment controlled by processors or comprising processors. The use of the device for functional control of apparatus and machines is also included in the invention.
Fortsättningsvis beskrivs uppftnningens utföringsforrner med särdrag som utläses ur visuella gester från ett objekt i form av en hand. Uppfinningen är dock inte på något sätt begränsad till utföringsforrner som hänför sig till handrörelser, utan andra objekt än händer med för uppfinningen lämpliga särdrag kan även de komma ifråga.The embodiments of the invention are further described with features which are read from visual gestures from an object in the form of a hand. However, the invention is in no way limited to embodiments relating to hand movements, but objects other than hands with features suitable for the invention may also be considered.
I enlighet med vad som framgår ur fig. 1 och fig. 2 avser föreliggande uppfinning ett förfarande och en anordning för bestämning av tre-dirnensionell rörelse (tre-dimensionell rotation och tre-dirnensionell translation) frán, för en rörelse, motsvarande rörelse av en hand 10, samt användningen av rörelsepararnetrar i form av linjer 12 och punkter i linje- 14 och punktregioner (blob, eng) 16 på fingrar 18 som därmed erhålls till funktionsstyrning av dator- och robotutrustning såsom exemplifieras nedan. Linje- och punktregionerna 14 resp 16 är i fig. 1 markerade som ellipser och cirklar, varvid linjen markeras som en streckad linje 12 och en punkt företrädesvis utgörs av mittpunkten i ett cirkclorriráde 16. D v s ett Of\users\UDO\DOK“-word-dok\P33558SE(X)-p03 .doc sto 478 i ' 6 finger 18 representeras som en linje 12 och en ñngertopp som en punkt. Närmare bestämt representeras punkten av rnittpurilcten i cirkelområdet 16.In accordance with what appears from fi g. 1 and 2, the present invention relates to a method and apparatus for determining three-dimensional motion (three-dimensional rotation and three-dimensional translation) from, for a motion, corresponding movement of a hand 10, and the use of motion parameters in the form of lines 12 and points in line 14 and point regions (blob, eng) 16 on fingers 18 thus obtained for function control of computer and robot equipment as exemplified below. The line and point regions 14 and 16, respectively, are marked in Fig. 1 as ellipses and circles, the line being marked as a dashed line 12 and a point preferably constituting the center of a circle line 16. D vs an Of \ users \ UDO \ DOK "- word-dok \ P33558EN (X) -p03 .doc sto 478 in '6 finger 18 is represented as a line 12 and a lower peak as a point. More specifically, the point of the rnittpurilct is represented in the circle area 16.
Utrustningen, se fig. 2, består i en utföringsforrn av minst en kamera 20 ansluten till en dator 22. Kameran 20 har anslutits till datorn 22 på sådant sätt att: 5 (i) bilderna kan överföras till datorn 22 för vidare bearbetning och s (ii) handen 10 följes i tiden så att en klar bild av handen med tillräcklig upp- lösning erhålles vid varje rumtidpunkt. 10 Alternativt kan flera kameror 20 användas, varvid de företrädesvis är anslutna i ett *liv *IW Üiiriii-w-i i www. stereosystem. Fortsättningsvis är det underförstått, såtillvida inget annat sägs, att fler kame- ror 20 än en innebär att det räcker med två diskreta rumtidpunkter för att punkt- och linje- korrespondenser enligt föreliggande uppfinning skall kunna användas. I utföringsforrner av i il i uppfinningen med en kamera krävs det dock rninst tre diskreta rumtidpunkter för att punkt- 15 och linjekorrespondenser skall kunna åstadkommas.The equipment, see fi g. 2, in one embodiment consists of at least one camera 20 connected to a computer 22. The camera 20 has been connected to the computer 22 in such a way that: (i) the images can be transferred to the computer 22 for further processing and s (ii) the hand 10 is followed in time so that a clear image of the hand with sufficient resolution is obtained at each room time. Alternatively, several cameras 20 may be used, preferably connected in a * life * IW Üiiriii-w-i in www. stereo system. Furthermore, it is implied, unless otherwise stated, that fl your cameras 20 than one means that two discrete room times are sufficient for point and line correspondences according to the present invention to be used. In embodiments of i il in the invention with a camera, however, at least three discrete room times are required for point and line correspondences to be achieved.
Ett enligt uppfinningen föredraget användargränssnitt behöver således ingen ytterli- : :till iiïrlrta-t-i gare extem utrustning för att förrnedla tre-dimensionell information, som rullkula, joystick, mus, datorhandske, eller bindningar av tangentbordsfunktioner till tre-dirnensionella para- ITICFIBI. 20 Handens lO position i rummet bestämmer funktionen rotation och translation (för- i n; 1] ill :Ii "till :;;2:§l:';:: l; flyttning) hos ett annat objekt 24, här en kub, på en dators display 26 Vid varje rumtidpunkt registreras projektionen av handen i bilden av bildupptaga- ...yi ren som här utgörs av en kamera. Kameran är ansluten till en bildbehandlingsdel (videokort, kort för digital bildbehandling) hos datorn 24. Position och orientering hos tre eller flera av 25 handens fmgrar 18 över tiden upptas av kameran 20 på ett sådant sätt att korrespondens (linje- och punktkorrespondens) mellan motsvarande särdrag, extraherade från handens fing- ' rar 18, erhålles.Thus, a preferred user interface according to the invention does not require additional external equipment to process three-dimensional information, such as a scroll ball, joystick, mouse, computer glove, or bindings of keyboard functions into three-dimensional para-ITICFIBI. The position of the hand 10 in the space determines the function of rotation and translation (before; 1] ill: Ii "to: ;; 2: §l: '; :: l; movement) of another object 24, here a cube, on a computer display 26 At each room time, the projection of the hand in the image is recorded by the image capture ... yi re which is a camera here.The camera is connected to an image processing part (video card, digital image processing card) of the computer 24. Position and orientation of over time, three or three of the fingers 18 of the hand are occupied by the camera 20 in such a way that correspondence (line and point correspondence) between corresponding features, extracted from the fingers 18 of the hand, is obtained.
Illlustrationen enligt ñg. 2 är ett exempel på en tillämpning av förfarandet enligt g föreliggande uppfinning där en användare 28 styr en visualisering. Användarens 28 handrö- 30 relse registreras av en kamera 20 ansluten till en dator 22. Handens rotation, indikerad av pilen i ñg. l bestäms, och en 3-dimensionell CAD-modell som visualiseras på skärmen r0- teras i motsvarande grad. l i o;ursefnunoxnomwordaaiarsasssstaotæpos.noe 10 15 20 25 30 7 510 478 Fig. 3 illustrerar schematiskt handrörelser som fiinktionsstyr kuben 24 enligt tig. 2, varvid kuben 24 åstadkomme_s_ att utföra funktionema rotationsrörelse och förflyttningsrörel- se beroende på i tiden diskreta handrörelser a-d. Handrörelserna a-d förmedlar punkt- och linjekorrespondenser mellan de fyra olika handrörelserna i fig. 3.The illustration according to ñg. 2 is an example of an application of the method according to the present invention where a user 28 controls a visualization. The user's hand movement is detected by a camera 20 connected to a computer 22. The rotation of the hand, indicated by the arrow in ñg. l is determined, and a 3-dimensional CAD model visualized on the screen is rotated accordingly. Fig. 3 schematically illustrates hand movements which fi injection control the cube 24 according to fig. 2, wherein the cube 24 causes the rotational movement and displacement movement to perform the functions due to time-discrete hand movements a-d. The hand movements a-d convey point and line correspondences between the four different hand movements in fi g. 3.
Estirnering av relativ orientering ur handrörelser a-d åstadkommes enligt ñg. 3, där den vänstra kolumnen med händer visar punkt- och linjesärdrag detekterade på handens 10 ñngertoppar 16 och fingrar 18. Från dessa punkter och linjer bestämmes sedan handens rotation. Den bestämda rotationen, förrnedlad till det som skall funktionsstyras, illustreras igenom de 3-dimensionella kuberna 24 i den högra kolumnen i fig. 3.Estimation of relative orientation from hand movements a-d is achieved according to ñg. 3, where the left column with hands shows point and line features detected on the lower peaks 16 and fingers 18 of the hand 10. From these points and lines the rotation of the hand is then determined. The determined rotation, reduced to that to be functionally controlled, is illustrated through the 3-dimensional cubes 24 in the right-hand column of Fig. 3.
Således utgående från särdragens position vid tre eller flera rumtidpunkter från den tre-dimensionella orienteringen framräknas en position samt ändringar av denna. Speciellt kan vid varje rumtidpunkt en tre-dimensionell rotationsmatris och en tre-dimensionell translationsvektor erhållas. Ett sätt som dessa beräkningar kan utföras på är via en deskrip- tor som kallas den affina trifokala tensorn.En detaljerad matematisk beskrivning ges i en skrift benämnd ” Use your Hand as a 3-D Mouse” av Bretzner och Lindeberg, som efter föreliggande uppfinnings ingivande till patentmyndighet kommer att offentliggöras på konfe- rensen ”S” European Conference on Computer Vision (ECCV'98), Freiburg, Tyskland, juni 1998 och även tryckas som teknisk rapport vid Kungliga Tekniska Högskolan (KTH). Dess- utom kan fmgrarnas 18 inbördes positioner bestämmas.Thus, based on the position of the features at three or fl your space times from the three-dimensional orientation, a position and changes thereof are calculated. In particular, at each space time, a three-dimensional rotation matrix and a three-dimensional translation vector can be obtained. One way in which these calculations can be performed is via a descriptor called the affine trifocal tensor. A detailed mathematical description is given in a publication called "Use your Hand as a 3-D Mouse" by Bretzner and Lindeberg, which according to the present invention filing with the patent authority will be published at the “S” European Conference on Computer Vision (ECCV'98), Freiburg, Germany, June 1998 and will also be printed as a technical report at the Royal Institute of Technology (KTH). In addition, the relative positions of the fmgrs 18 can be determined.
Tensor är ett matematiskt begrepp för en multilinjär form. I föreliggande uppfin- ning rör det sig om en relation mellan tre vektorer beskrivande korresponderande punkter eller linjer i minst tre bilder.Tensor is a mathematical concept for a multilinear shape. In the present invention, it is a relation between three vectors describing corresponding points or lines in at least three images.
Med tensor avses här densamma samt motsvarande matematiskt begrepp med liknande egenskaper, funktionalitet eller struktur. Tensorn i den föredragna utföringsformen av före- liggande uppfinning kommer att förtydligas nedan. Vidare förtydligas ett faktoriseringsför- farande, som kan användas i kombination med tensorn.By tensor is meant here the same as well as the corresponding mathematical concept with similar properties, functionality or structure. The tensor in the preferred embodiment of the present invention will be clarified below. Furthermore, a factorization procedure is clarified, which can be used in combination with the tensor.
En förutsättning för detta är att ett objekts, här flngrarnas 18, inbördes relationer hálles approximativt konstanta under en viss tidsperiod. När detta väl skett kan dock fmg- rarnas 18 inbördes orientering ändras.A prerequisite for this is that the mutual relations of an object, here 18, are kept approximately constant for a certain period of time. Once this has been done, however, the mutual orientation of the fmgars 18 can be changed.
En vanlig användbar grundkonfiguration består av att tummen, pekfingret och lång- fingret pekar i olika riktningar såsom visas i fig. 3.A common useful basic configuration consists of the thumb, forefinger and middle finger pointing in different directions as shown in fig. 3.
OflusemLIDO\DOK\word-dok\P33S58SE00-|>O3.doc lllmlflli lnmni .iir Iltrrrrrr ...ilhsrr....SilliIiliílšlïïïïll; lill : “lama varv rwr|-~.~r.;«.r- fi-rrrr irl-trim il i lllilšll' lilfilil 'i lifflfiài Lilåiiïiiil iiiiljl' l l 510 478 g Om två eller flera kameror 20 används, och om korrespondens registreras mellan särdragen i de olika bilderna,__ så kan den tre-dimensionella orienteringen framräknas utgå- ende frân särdragens positioner mellan endast två rumtidpunkter. Dessutom förenklas de- tektionen av särdragen, och noggrannare och robustare bestämning av transforrnationspara- 5 metrarna möjliggörs. Jämfört med monokroma bilder, förenklas också detektionen och seg- menteringen av handen och dess fingrar av om fargkaineror används.O fl usemLIDO \ DOK \ word-dok \ P33S58SE00- |> O3.doc lllml fl li lnmni .iir Iltrrrrrr ... ilhsrr .... SilliIiliílšlïïïïll; lill: “lama varv rwr | - ~. ~ r.;«. r- fi-rrrr irl-trim il i lllilšll 'lil fi lil' i lifflfiài Lilåiiïiiil iiiiljl 'll 510 478 g If two or more cameras 20 are used, and if correspondence is registered between the features in the different images, __ the three-dimensional orientation can be calculated based on the features' positions between only two space times. In addition, the detection of the features is simplified, and more accurate and robust determination of the transformation parameters is made possible. Compared with monochrome images, the detection and segmentation of the hand and its fingers is also simplified by using color channels.
I en speciell utföringsform av föreliggande uppfinning lagras en modell av särdrag under diskreta rumstidpunkter i ett elektroniskt minne såsom olika former av RAM- och ROM-minnen och/eller i databaser, varvid av bildupptagarorganet 20 upptagna realtids 10 punkt- och linjekorrespondenser jämförs med sådana i modellen för funktionsstyrning av en maskin t ex en dator.In a particular embodiment of the present invention, a model of features is stored during discrete room times in an electronic memory such as various forms of RAM and ROM and / or in databases, the real-time point and line correspondences recorded by the image pickup device 20 being compared with those in the model for function control of a machine, eg a computer.
Föreliggande uppfuming omfattar ovan nämnda förfarande och en anordning för överföring av tre-dirnensionell information till första organ 22 från handgester, samt an- vändning av denna metod och utrustning för bl a följande ändamål: 15 * Interaktion med presentationssystem för tre-dimensionell information.The present invention comprises the above-mentioned method and a device for transmitting three-dimensional information to first means 22 from hand gestures, as well as the use of this method and equipment for, inter alia, the following purposes: 15 * Interaction with presentation systems for three-dimensional information.
Exempel på detta utgörs av: -- CAD-baserade utvecklings- och visualiseringsmiljöer, där parametrarna som styr hus ob- jekten presenteras på skärmen bestäms av tre-dirnensionella handgester.Examples of this consist of: - CAD-based development and visualization environments, where the parameters that control the house objects are presented on the screen determined by three-dimensional hand gestures.
-- Navigering i tre-dimensionella miljöer där rörelseriktningen hos betraktaren och/eller 20 ändringar i den omgivande virtuella rniljön styrs av operatören.- Navigation in three-dimensional environments where the direction of movement of the viewer and / or changes in the surrounding virtual environment are controlled by the operator.
-- Datorspel som omfattar interaktion med en n-edimensionell miljö där en agents interak- tion med miljön i datorspelet styrs av handgester.- Computer games that include interaction with an n-dimensional environment where an agent's interaction with the environment in the computer game is controlled by hand gestures.
Navigering i stora iriforrriationsmängder (databaser och liknande) som presenteras via ett I I tre-dimensionellt användargränssnitt, vilket projiceras på en bildskärm eller liknande. 25 -- Visualisering av tre-dimensionella datamängder.Navigation in large amounts of irrationalization (databases and the like) presented via an I I I three-dimensional user interface, which is projected on a monitor or the like. 25 - Visualization of three-dimensional data sets.
* Styrning av mekaniska system Exempel på sådana mekaniska system är: lnstruering och styming av rörelsemönster för robotutrustning (och liknande mekanisk utrustning) där en robots rörelsemönster och orientering i rummet dirigeras av 30 handgester eller av rörelsen hos annat objekt.* Control of mechanical systems Examples of such mechanical systems are: Instruction and control of movement patterns for robotic equipment (and similar mechanical equipment) where a robot's movement pattern and orientation in the room are directed by hand gestures or by the movement of another object.
* Styrning av hemelektronik 0: \users\UDO\DOK\word-dok\?33558SE(X)-p03 .doc 10 15 20 25 30 9 510 478 För att undvika att en användare fysiskt skall behöva beröra den utrustning denne vill funktionsstyra, går det attstyra denna på avstånd med visuella handgester. Några exem- pel: -- Reglering av ljusstyrka för belysning; virtuell dimmer.* Control of consumer electronics 0: \ users \ UDO \ DOK \ word-dok \? 33558EN (X) -p03 .doc 10 15 20 25 30 9 510 478 In order to avoid a user having to physically touch the equipment he wants to control function, it is possible to control this remotely with visual hand gestures. Some examples: - Adjustment of brightness for lighting; virtual dimmer.
-- Kontrollering av en videoapparat; exempelvis start, stopp, snabbspolning.- Control of a video device; for example start, stop, fast forward.
-- Leksaker för barn; en robot vars rörelsemönster styrs av ett barns gester.- Toys for children; a robot whose movement pattern is controlled by a child's gestures.
Lämpligen kan ovan angivna gestbaserade MMI kompletteras med auditiv kommu- nikation med exempelvis ett datorsystem. Auditiva kommandon kan användas för att påver- ka hur de visuella handgesterna skall tolkas av datorsystemet. Exempelvis kan röstkomman- don användas för att koppla på respektive stänga av det gestbaserade gränssnittets påverkan pà ett presentationssystem, det mekaniska system eller den hemelektronikutrustning som det gestbaserade gränssnittet är anslutet till. Denna modererande funktion kan även åstadkom- mas via tangentbordskommandon eller med visuella gester. Röststyrning kan âstakommas med kända sådana metoder t ex Cambridge-metoden.Suitably, the above-mentioned gesture-based MMI can be supplemented with auditory communication with, for example, a computer system. Auditory commands can be used to influence how the visual hand gestures are to be interpreted by the computer system. For example, voice commands can be used to switch on or off the effect of the gesture-based interface on a presentation system, the mechanical system or the home electronics equipment to which the gesture-based interface is connected. This moderating function can also be accomplished via keyboard commands or with visual gestures. Voice control can be achieved with known such methods, for example the Cambridge method.
Fingrars 18 position och orientering i en bilddomän kan bestämmas genom beräk- ning av s.k. normaliserade derivator i en skalrumsrepresentation. Skalrumsrepresentationen beräknas genom faltning med Gaussfunktion, och de norrnaliserade derivatorerria erhålles genom att multiplicera derivata/differens-operationer med variansen hos Gausskärnan upp- höjd till en norrnaliseringskonstant. De normaliserade derivatorna kombineras till differenti- alinvarianter, vilka maximeras över en bilddomän och över skala. Positionen hos detta skal- rurrismaxirnum ger särdragets position, medan en orientering kan erhållas från en s.k. and- ramomentsdeskriptor. För bestämning av ñngrarnas orientering kan en s.k. äsdetektor an- vändas, medan tingerspetsarnas lägen kan bestämmas med en s.k. regionsdetektor, se ”On the handling of Spatial and Temporal Scales in Feature Tracking” av Lars Bretzner och To- ny Lindeberg, Proc 15' Int Conf on Scale-Space Theory in Computer Vision, Utrecht Ned- erländema, Springerverlag LNCS vol 1252, p 128-139.The position and orientation of fingers 18 in an image domain can be determined by calculating the so-called normalized derivative in a scale representation. The scale space representation is calculated by folding with Gaussian function, and the normalized derivative series are obtained by multiplying derivative / difference operations with the variance of the Gaussian core raised to a normalizing constant. The normalized derivatives are combined into differential variants, which are maximized over an image domain and over scale. The position of this shell rice maxirnum gives the position of the feature, while an orientation can be obtained from a so-called and- ramomentsdeskriptor. To determine the orientation of the anglers, a so-called ice detector is used, while the positions of the tip of the tin can be determined with a so-called regional detector, see “On the handling of Spatial and Temporal Scales in Feature Tracking” by Lars Bretzner and Tony Lindeberg, Proc 15 'Int Conf on Scale-Space Theory in Computer Vision, Utrecht Ned- erländema, Springerverlag LNCS vol 1252, p 128-139.
En tre-dirnensionell modell av en hand anpassas till handens projektion i bilden utgående från (i) konturerna hos handen och dess fingrar och/eller (ii) bilddeskriptorer som betraktar fingrarna som utsträckta objekt.A three-dimensional model of a hand is adapted to the projection of the hand in the image based on (i) the contours of the hand and its fingers and / or (ii) image descriptors which consider the fingers as extended objects.
Ovan inkluderas ”handens tumme” inom begreppet ”handens ñngrar”.Above, the "thumb of the hand" is included within the term "the regret of the hand".
O:\users\UDO\DOK\word-dok\P33558SE00-pO3.doc V' llll i” sto 47-8 1_ ' w 10 15 20 25 30 Betrakta en tre-dimensionell punkt med koordinaterna (x, y, Ä, l)T_ Denna punkt projiceras genom tre affina kameramatriser M, M' och M" till bildpunkten q, q' och q" enligt -Q ll I-*WEH É-.í || O ll OO»- Ov-O OQO v-OO m HYQH E x' cš cå cš 1/1 I <1- y' -M'Q= Cï a, eg 1/2 *i , (2) 1 0 0 0 1 1 u j” n då då då un: g - q = y" ___. M Q = då å då Un Å (3) 1 0 0 0 1 1 Genom att eliminera Ä från dessa ekvationer erhålles följande linjära relationer mellan bild- koordinaterna q, q' och q": (Czlidi _ Cidzlfl-'U + (àdà _ Cådšhl + där' - cšz" + (cšt/'l - dšvd) = 0, (cšdl - ßidšh: + (cšdš - ådšlv + dày' ~ väx” + 10311” _ 11912) = 0, 11111? - 111131: + 11-111 - adam + 11:11 - 1111» + 1:1/ _ an' + 1111/11 - = Q Tre linjer lTq = O, l" q' = 0,1" q" = 0 i de tre bilderna definierar tre plan LTQ = 0, (4) L'TQ = 0 och L"TQ = O i tre dirnensioner med LT = ITM = (l1yl2101l3L L” =1'TM' = (Hcl + 111%, 110% +1'2«>';, 'få + 151%, 111” + 111” +13), (s) L” = WTM" = (Iïdl + lådï, 174% +1á'<1å, Ildš +1'2'dš» 171V" +1'2'11"2 +15)- Eftersom l, l' och l" är projelctioner av samma tredimensionella linje, måste skârningen mellan L, L' och L"vara en linje och :j lšßï + I II Il rank ä + låd? + låg = 2_ 11034' 223 lidaflz a 13 IÉU' + lßv' + lå l'1'v"1+lí¿'v"2 + lg' 1'{d} + lgídï (ö) Varje minor (deldeterrnínant) av storlek 3 x 3 måste vara noll. Ur detta kan följan- de relationer ställas upp mellan l, l' and l". 1, (¿v”'° - dšt/f) 13-11,' - 13 (t-ga; _ <¿d§)1;1;;= o, 1, 161111* - 1111/11 192: - 13 (cådt - cídán 1311: = o, <1) 111415- <1Zdä> litlyfnuïdš) - ztwßšnuíidä) + zaugcäxlïdf) - (écíiuïdš) = ct 0, 0, =0, =0, (8) Det har visats att dessa relationer kan relateras till den s.k. trilinjära tensorn för perspektivprojektion (A. Shashua, Trilinear tensor: The fundamental construct of multiple- view geometry and its applications, Proc. AFPAC '97', Kiel, Gerrnany, Springer Lecture Notes in Computer Science, volume 1315, pp. 190-206, 1997). Genom att införa den cent- rerade afñna trifokala tensorn med sina komponenter givna av T1“= ßidå - dicå, 71" = ßïdš - dlcš, 7131 = cïdå - dšcâ = Û, E” = cidš - dlcš, 73” = cidš - dlßš, 73” = cïdš - dißå = 0, 73" = câdå - dfcå = O, ”E” = f-'idå - dlcš = 0, 1 a _ 7531 = Cidå “ dtca _ då» I 12 2 2 1 Ti = Cida _ 1031 2 2 2 2 2 fr? = Clds _ dlCâ, 7132 = Cidå - få 12 12 21 72 -fcids- 1Ca~ 22 2 2 2 72 = Ctdš _ 103» 73” = ßidš - icš 7512 = Cidš _ dißå 22 _ 2 2 2 2 7a - Cida _ 4103 TJ* = aja; - dfcg. =0, =0, =0, 75” Hïdš- ißš =dš, Ti” = ßidš - dïcš 7í” = ßïdš - dißš 71” = ßšdš - flïßš 75” = cidš - dïcš 75” = cïdå - dicš 73” = ßidš - dißš (9) =0, =0, =0, =0, =0, =0, 1a_ 1 a a 1_ 1 73 -C1da_d1Ca-“°a» :_ 2 a 2_ 2 732 -Cidâ “dtca- -Ca- 73” = cidš - dißš så kan relationerna mellan punkt- och linjekorrespondenser i (8) skrivas O : \u5crs\UDO\DOK\word-dok\l>3 3558SEm-p03 .doc = o, (10) i wuluff- t» 20 30 51 0 478 12 _ 731319 + 7-3a1zf _ 7111: _ »I-zity: o, 731331" + 73323; _ 7112: _ Emy: O, wa* 42% o, 7šzsyff+73s2yf _7122z_7-222y=07 (n) lallâlïfill +1'11'2'T1” +1ê1'1'7?* + 13137122) -11<1'11a"f3“ + 195123* + Ialïv? +1a1är§2>= 0, 13011773" +1'11'2'73” +1å1'{7š" +1â1'2' 2 2) - lztlílävs” + 151313” + lsffvzß* + lalårf) = 0. (12) Den centrerade affma trifokala tensorn har 12 nollskilda element. P. g.a. centre- ringen är ett punktvillkor redundant. Där räcker K punktkorrespondenser och L linjekorres- pondenser i allmänhet för att beräkna Tf* (modulo en icke-essentiell skalfaktor) givet att 4(K- 1) + 2Lz 11.O: \ users \ UDO \ DOK \ word-dok \ P33558SE00-pO3.doc V 'llll i ”sto 47-8 1_' w 10 15 20 25 30 Consider a three-dimensional point with the coordinates (x, y, Ä, l) T_ This point is projected through three fine camera arrays M, M 'and M "to the pixel q, q' and q" according to -Q ll I- * WEH É-.í || O ll OO »- Ov-O OQO v-OO m HYQH E x 'cš cå cš 1/1 I <1- y' -M'Q = Cï a, eg 1/2 * i, (2) 1 0 0 0 1 1 uj "n then then when un: g - q = y" ___. MQ = then å then Un Å (3) 1 0 0 0 1 1 By eliminating Ä from these equations, the following linear relations between the image coordinates are obtained q, q 'and q ": (Czlidi _ Cidzl fl-' U + (àdà _ Cådšhl + there '- cšz" + (cšt /' l - dšvd) = 0, (cšdl - ßidšh: + (cšdš - ådšlv + dày '~ väx ”+ 10311” _ 11912) = 0, 11111? - 111131: + 11-111 - adam + 11:11 - 1111 »+ 1: 1 / _ an' + 1111/11 - = Q Tre linjer lTq = 0.1 "q '= 0.1" q "= 0 in the three pictures defines three planes LTQ = 0, (4) L'TQ = 0 and L" TQ = 0 in three directions with LT = ITM = (l1yl2101l3L L "= 1'TM '= (Hcl + 111%, 110% + 1'2«>' ;, 'get + 151%, 111 "+ 111" +13), (s) L "= WTM" = ( Iïdl + box, 174% + 1á '<1å, Ildš + 1'2'dš »171V" + 1'2'11 "2 +15) - Since l, l' and l" are projections of the same three-dimensional line, the intersection between L, L 'and L "be a line and: j lšßï + I II Il rank ä + box? + low = 2_ 11034' 223 lida fl z a 13 IÉU '+ lßv' + lå l'1'v "1 + lí¿'v" 2 + lg '1' {d} + lgídï (ö) Each minor (sub-determinant) of size 3 x 3 must be zero . From this the following relations can be set up between l, l 'and l ". 1, (¿v”' ° - dšt / f) 13-11, '- 13 (t-ga; _ <¿d§) 1 ; 1 ;; = o, 1, 161111 * - 1111/11 192: - 13 (cådt - cídán 1311: = o, <1) 111415- <1Zdä> litlyfnuïdš) - ztwßšnuíidä) + zaugcäxlïdf) - (écíiuïdš) = ct 0, 0, = 0, = 0, (8) It has been shown that these relations can be related to the so-called trilinear tensor for perspective projection (A. Shashua, Trilinear tensor: The fundamental construct of multiple-view geometry and its applications, Proc. AFPAC '97 ', Kiel, Gerrnany, Springer Lecture Notes in Computer Science, volume 1315, pp. 190-206, 1997) By introducing the centered afñna trifocal tensor with its components given by T1 “= ßidå - dicå, 71 "= ßïdš - dlcš, 7131 = cïdå - dšcâ = Û, E” = cidš - dlcš, 73 ”= cidš - dlßš, 73” = cïdš - dißå = 0, 73 "= câdå - dfcå = O,” E ” = f-'idå - dlcš = 0, 1 a _ 7531 = Cidå “dtca _ då» I 12 2 2 1 Ti = Cida _ 1031 2 2 2 2 2 fr? = Clds _ dlCâ, 7132 = Cidå - få 12 12 21 72 -fcids- 1Ca ~ 22 2 2 2 7 2 = Ctdš _ 103 »73” = ßidš - icš 7512 = Cidš _ dißå 22 _ 2 2 2 2 7a - Cida _ 4103 TJ * = aja; - dfcg. = 0, = 0, = 0, 75 ”Hïdš- ißš = dš, Ti” = ßidš - dïcš 7í ”= ßïdš - dißš 71” = ßšdš - flïßš 75 ”= cidš - dïcš 75” = cïdå - dicš 73 ”= ßidš - dißš (9) = 0, = 0, = 0, = 0, = 0, = 0, 1a_ 1 aa 1_ 1 73 -C1da_d1Ca- “° a»: _ 2 a 2_ 2 732 -Cidâ “dtca- - Ca- 73 ”= cidš - dißš so the relations between point and line correspondences in (8) can be written O: \ u5crs \ UDO \ DOK \ word-dok \ l> 3 3558SEm-p03 .doc = o, (10) in wuluff - t »20 30 51 0 478 12 _ 731319 + 7-3a1zf _ 7111: _» I-zity: o, 731331 "+ 73323; _ 7112: _ Emy: O, wa * 42% o, 7šzsyff + 73s2yf _7122z_7- 222y = 07 (n) lallâlï fi ll + 1'11'2'T1 ”+ 1ê1'1'7? * + 13137122) -11 <1'11a" f3 “+ 195123 * + Ialïv? + 1a1är§2> = 0, 13011773 "+ 1'11'2'73" + 1å1 '{7š "+ 1â1'2' 2 2) - lztlílävs” + 151313 ”+ lsffvzß * + lalårf) = 0. (12 ) The centered affma trifocal tensor has 12 non-zero elements. P. g.a. centering is a point condition redundant. There, K point correspondences and L line correspondences are generally sufficient to calculate Tf * (modulo a non-essential scale factor) given that 4 (K- 1) + 2Lz 11.
För att beräkna kameraparametrar, och därur rotationsmatriser, från den trifokala tensorn används följande metod. Metoden utgör en förenkling och vidareutveckling av den metod som presenterats av (R. Hartley, A linear method for reconstruction from points and lines, 5” Int. Conf. on Computer Vision, Cambridge, MA, pp. 882-887, 1995) för den tensorn for perspektivprojektion. Från (10) fås direkt 6:13 = _7593! _: 75311 (å: _7š23, d2= 7-332. (13) Givet dessa ej och d; , kan de återstående cf och df beräknas från (10) genom då -cš 1 cl nå: ja “å 'ä 1 _ 2 3 då 3 _Cš :i = »än (14) då “Cs d? 7,212 då “å då 21 då - 3 då 73” O:\users\UDO\DOK\v/ord-dok\P335S8SEw-p03.doc 20 25 30 U 510 ha Karneramatriser är emellertid inte unikt bestämda. Med N' och N" betecknande de övre vänstra delrnatriserna av__storlek 2 x 3 till M' respektive M", är både {N' ,t§|"} och {N ' , N"} möjliga lösningar (med fi" analogt) 1 -I- êläåël _ Clcàcl N-(dddn-(dddfl 1 ) = N'r. (15) '71 '72 73 För att bestämma I", kan det antas att en affm kameramodell svarar mot omskalad ortografisk projektion, och att intem kalibrering är tillgänglig. Då kan en kameramatris skri- vas (med N" analogt) /1 11 11 NI=I(IÛO)RI=I(PIP2 P3), (16) a 1 a n? :få då där DH = (pfl , p? , pf) är radvektorema i den tredimensionella rotationsmatrisen R' och c' och o" är skalfaktorer. Med utnyttjande av ortogonaliteten hos radvektorema och med notationen 1 0 '11 l O t' rrT= 1 o 7, = 0 1 ,, (17) vi 12 1f+V§+^rš 6 nC kan följande ekvationssystem uppställas 2c{c§ 2o§c§ (c§)2 -1 Û (c})2+(c§)2 didädddäa ddšdfdåd dåd: d d i didwdd: ddïdš dådš (där -1 0 2 __ 2+tdâ>2 ddid; ddäd; (där o -d ga r wird-tar didwidi dtdwada didg d d (igiqr didïdfdidz Malå Mšffš (då) 0 -1 (1)2+(då)2 (18) Lösning av detta i minskakvadratrnening ger (š , r] ,§, (o')2m (o"')2) som funktion av cf och df bestämda från (13) och (14). Därefter ges fav 1 0 O 1 0 0 1“= o 1 o = 01 o , 71 '72 'Ya 5 f; it/C - g? -rfi och de forsta två raderna av R' i (16) ges av N = oJNT. Den tredje raden beräknas som (19) kryssprodukten av de andra två raderna, d.v.s. p'3 = p" x p”.The following method is used to calculate camera parameters, and from them rotation matrices, from the trifocal tensor. The method constitutes a simplification and further development of the method presented by (R. Hartley, A linear method for reconstruction from points and lines, 5 "Int. Conf. On Computer Vision, Cambridge, MA, pp. 882-887, 1995) for the tensor for perspective projection. From (10) is available directly 6:13 = _7593! _: 75311 (å: _7š23, d2 = 7-332. (13) Given these ej and d;, the remaining cf and df can be calculated from (10) by then -cš 1 cl reach: ja “å 'ä 1 _ 2 3 då 3 _Cš: i = »än (14) då“ Cs d? 7,212 då “å då 21 då - 3 då 73” O: \ users \ UDO \ DOK \ v / ord-dok \ P335S8SEw-p03.doc However, with N 'and N "denoting the upper left sub-matrices of size 2 x 3 to M' and M", respectively, both {N ', t§ | "} and {N' are , N "} possible solutions (with fi" analog) 1 -I- êläåël _ Clcàcl N- (dddn- (ddd fl 1) = N'r. (15) '71 '72 73 To determine I ", it can be assumed that an affm camera model corresponds to rescaled orthographic projection, and that internal calibration is available, then a camera matrix can be written (with N "analog) / 1 11 11 NI = I (IÛO) RI = I (PIP2 P3), (16 ) a 1 an?: get then where DH = (pfl, p?, pf) are the row vectors in the three-dimensional rotation matrix R 'and c' and o "are scale factors. Using the orthogonality of the row vectors and with the notation 1 0 '11 l O t 'rrT = 1 o 7, = 0 1 ,, (17) vi 12 1f + V§ + ^ rš 6 nC the following system of equations can be set up 2c {c§ 2o§c§ (c§) 2 -1 Û ( c}) 2+ (c§) 2 didädddäa ddšdfdåd dåd: ddi didwdd: ddïdš dådš (where -1 0 2 __ 2 + tdâ> 2 ddid; ddäd; (where o -d ga r wird-tar didwidi dtdwada didg dd (igiqr didïdfdidz Malå Mšffš (then) 0 -1 (1) 2+ (then) 2 (18) Solution of this in minus square training gives (š, r], § , (o ') 2m (o "') 2) as a function of cf and df determined from (13) and (14). Then fav 1 0 O 1 0 0 1“ = o 1 o = 01 o, 71 ' 72 'Ya 5 f; it / C - g? -R fi and the first two rows of R' i (16) are given by N = oJNT. The third row is calculated as (19) the cross product of the other two rows, i.e. p ' 3 = p "xp".
Tvetydighet i bestämning av y, i l' svarar mot följande två möjliga lösningar, och erhåller sin lösning enligt en metodik som belyses närmare nedan.Ambiguity in the determination of y, in l 'corresponds to the following two possible solutions, and obtains its solution according to a methodology which is elucidated in more detail below.
O:\users\UDO\DOK\word-dok\P33558SE00-p03 .doc l l. Élwlhlllilmflwl .lll lill WW .Hill l .Cialis lwlllll' lllllll- Hlll un» ml! in Mfll immun | iii-uu i i nanm . _ . i. i. t. .. ...mr i . . in... ...m . s1o 478 ' 1, vi flå på nl på -øš _ 2 2 2 - 2 2 2 P- P-š på Pâ r P: m3 P2 “fls - (20) fli P2 Pa -ßr -På på Dessa rnatriser är dock inte nödvändigtvis ortogonala. En singulårvärdesfaktorise- 5 ring beräknas av p = UZVT och R bestäms enligt R = UVT.O: \ users \ UDO \ DOK \ word-dok \ P33558SE00-p03 .doc l l. Élwlhlllilm fl wl .lll lill WW .Hill l .Cialis lwlllll 'lllllll- Hlll un »ml! in M fl l immune | iii-uu i i nanm. _. i. i. t. ... ... mr i. . in ... ... m. s1o 478 '1, vi fl å på nl på -øš _ 2 2 2 - 2 2 2 P- P-š på Pâ r P: m3 P2 “fl s - (20) fl i P2 Pa -ßr -På på Denna rnatriser är dock not necessarily orthogonal. A single year value factorization is calculated by p = UZVT and R is determined according to R = UVT.
Utöver ovanstående metodik för att beräkna rotationer, ges rranslationskornponenten av rö- relsen i bilden av rörelsen hos punktkonfigurationens tyngdpunkt (beräknad i icke- centrerade koordinater). Punktkonfigurationer visas i tig. 4. Rörelsen i tre dimensioner re- laterar sig till denna tvådimensionella bildrörelse enligt känd metodik i datorseende. 10 Nedan beskrivs ett förfarande för att öka noggrannheten i beräkningen av rota- tionsmatriserna, genom att använda punkt och linjesärdrag i fler än tre bilder.In addition to the above methodology for calculating rotations, the translation grain component is given by the motion in the image of the motion at the point of gravity of the point kon competition (calculated in non-centered coordinates). Point configurations are shown in fig. The movement in three dimensions relates to this two-dimensional image movement according to known methodology in computer vision. 10 A method for increasing the accuracy of the calculation of the rotation matrices is described below, using point and line features in fl more than three images.
Förfarandet är en vidareutveckling av metoder presenterade av C. Tomasi och T.The procedure is a further development of methods presented by C. Tomasi and T.
Kanade (”Shape and motion from image strearns under orthography: A factorization met- hod”, Int. J. of Computer Vision, volume 9, number 2, pp 137-154, 1992), P. Sturm och 15 B. Triggs ("A factorization based algorithm for multi-irnage projective structure and mo- tion", 4"' European Conf. on Computer Vision, Springer Lecture Notes in Computer Scien- ce, volume 1064, pp. 709-720, 1996) och L. Quan och T. Kanade (”Affine structure from line correspondences with uncalibrated affine cameras”, IEEE Trans. Pattern Analysis and Machine Intelligence, volume 19, number 8, pp 834-845, 1997). 20 Här introduceras en något annorlunda notation än ovan. Den centrerade afñna pro- jektionen av en tredimensionell punkt Pk = (Xk, Yk, ZQT i bild n beskrives r Xk I: 'nP _ _ a" _ Y n = k - _ ßnT _ k v yk Zk medan den centrerade afñna projektionen av en linje Pl= (XW, YLO, Z°'1)T+ T(U,, V,, 25 W,)T= Pm + TQi i bild n representeras av en riktningsvektor Ut l*(:š)=M»Qt=<: (22) 30 där undertryckandet av (XW, Ym, Z0_,)T och introducerandet av skalfaktorn kf avspeglar faktum att endast linjens orientering är signifikant under affin projektion. o1xusemunoxootnwofaaaxtrsssssssoopo:.aoc 10 15 20 25 30 15 510 478 Givet K punktkorrespondenser och L linjekorrespondenser i N bilder, kan dessa rnätdata modelleras tillsammans genom Ii I? Åjuå Åíuj, 91 UK Åivi Åjßj, G= a = . _ :rf :rK Ååvujv Afa/LV vi' v? Åivvlv Åfvï _ a1T _ _ ßlT - X1 XK UI UL = É šyi YK V1 VL). (23) _ ONT _ Z1 ZK W1 WL _ ßNT _ Eftersom tanken hos matriserna i vänster led är maximalt tre, följer att varje 4x4-minor måste vara noll, och k, k', k" 6 [1..L] och n, n' , E [LN] kan väljas ut med 1:2 2:2, 2:2" Åfuf 312 yfi, 112,, Åfivf* In: In: n: Än: n: = ~, *c ”H1 1,“=. fi n yk yk/ Iz" 'Uln Med K 2 4 punktkorrespondenser leder detta till (f )(§' )L linjära relationer, ur vil- ka en dehnängd kan väljas for att bestämma skalfaktorerna N' från ett överbestämt system av hornogena linjära ekvationer. Angreppssätt liknande detta har applicerats till linjesärdrag resp. punktsärdrag i tidigare verk.Canada ("Shape and motion from image strearns under orthography: A factorization method", Int. J. of Computer Vision, volume 9, number 2, pp 137-154, 1992), P. Sturm and 15 B. Triggs ( "A factorization based algorithm for multi-irnage projective structure and motion", 4 "'European Conf. On Computer Vision, Springer Lecture Notes in Computer Science, volume 1064, pp. 709-720, 1996) and L. Quan and T. Kanade (“Affine structure from line correspondences with uncalibrated af fi ne cameras”, IEEE Trans. Pattern Analysis and Machine Intelligence, volume 19, number 8, pp 834-845, 1997). 20 A slightly different notation than above is introduced here The centered projection of a three-dimensional point Pk = (Xk, Yk, ZQT in Fig. N is described in Xk I: 'nP _ _ a "_ Y n = k - _ ßnT _ kv yk Zk while the centered projection of a line P1 = (XW, YLO, Z ° '1) T + T (U ,, V ,, 25 W,) T = Pm + TQi in picture n is represented by a direction vector Ut l * (: š) = M » Qt = <: (22) where the suppression of (XW, Ym , Z0 _,) T and the introduction of the scale factor kf reflect the fact that only the orientation of the line is significant during a projection. o1xusemunoxootnwofaaaxtrsssssssoopo: .aoc 10 15 20 25 30 15 510 478 Given K point correspondences and L line correspondences in N pictures, can these network data be modeled together by Ii I? Åjuå Åíuj, 91 UK Åivi Åjßj, G = a =. _: rf: rK Ååvujv Afa / LV vi 'v? Åivvlv Åfvï _ a1T _ _ ßlT - X1 XK UI UL = É šyi YK V1 VL). (23) _ ONT _ Z1 ZK W1 WL _ ßNT _ Since the tank of the matrices in the left joint is a maximum of three, it follows that each 4x4 mine must be zero, and k, k ', k "6 [1..L] and n, n ', E [LN] can be selected with 1: 2 2: 2, 2: 2 "Åfuf 312 y fi, 112 ,, Å fi vf * In: In: n: Än: n: = ~, * c” H1 1, “=. K n yk yk / Iz "'Uln With K 2 4 point correspondences this leads to (f) (§') L linear relations, from which a stretch can be chosen to determine the scale factors N 'from an overdetermined system of hornogenic linear equations Approaches similar to this have been applied to line features or point features in previous works.
Givet endast tre punkter, som fallet i en utföringsform av uppfinningen, degene- rerar dock dessa ekvationer. För att bestämma Äf (totalt N L skalfaktorer) i detta fall appli- ceras istället den affma trifokala tensom till en mängd av slumpmässigt valda tripletter av bildsärdrag i ett fórbehandlingssteg. För varje sådan triplett n, n' , n" E [l..N] anges följan- X1 X2 X 3 l Û Û Y; Yg Y3 = Û 1 Û Z1 Zg 23 Û Û 1 de formrnatris (25) O:\users\IJ'DO\DOK\word<1ok\P33558SEw-p03 _ doc 10 15 20 25 30 510 478 16 i projektionsekvationen (23) med K = 3 punktsärdrag: - a” - Ayn? Afgug - ß” - Açvf Am _ an: T _ Än! un: An: un! Hmnfyn" _ T 1 1 L L " - ß” - Azfvt' Nm' __ anI/T _ ATI! url!!! A2!! uïll HT II II n!! - ß" - Ål' vi' Åïvr Varje 4x4-minor till denna matris är noll, och givet tre karneramatriser M", M" ' och M"", ger dessa minorer upphov till tre homogena linjära relationer mellan Äj' , Äf' och Äf" för varje 1 6 [l..L]. Kameramatriserna bestäms här via beräkning av den affina trifokala tensom för motsvarande tripletter av särdrag som beskrivits ovan.However, given only three points, as is the case in one embodiment of the invention, these equations degenerate. To determine Äf (total N L scale factors) in this case, the affma trifocal tensome is instead applied to a set of randomly selected triplets of image features in a pretreatment step. For each such triplet n, n ', n "E [l..N], the following X1 X2 X 3 l Û Û Y; Yg Y3 = Û 1 Û Z1 Zg 23 Û Û 1 the formrnatris (25) O: \ users \ IJ'DO \ DOK \ word <1ok \ P33558SEw-p03 _ doc 10 15 20 25 30 510 478 16 in the projection equation (23) with K = 3 point features: - a ”- Ayn? Afgug - ß” - Açvf Am _ an: T _ Än! un: An: un! Hmnfyn "_ T 1 1 LL" - ß ”- Azfvt 'Nm' __ anI / T _ ATI! url !!! A2 !! uïll HT II II n !! - ß "- Ål 'vi' Åïvr Each 4x4 minor to this matrix is zero, and given three core matrices M", M "'and M" ", these minors give rise to three homogeneous linear relations between Äj', Äf 'and Äf "for each 1 6 [l..L]. The camera matrices are determined here via calculation of the trifocal tensome for the corresponding triplets of features described above.
Från en mängd av sådana (slumpmässigt valda) tripletter definieras for varje linje l ett homogent system av ekvationer för att bestämma Äj' : x »k Å; Û ÛzÅz= . . . =i= x Ål” Û Tre konsekutiva rader i D, svarar mot en triplett, och elementen i matrisen har en- dast indikerats med ' * '-syrnboler. I praktiken väls antalet tripletter väsentligt större än an- talet bilder (en faktor 2 till 4). Dessutom sker en rankning av tripletterna med sortering och tröskling avseende konditionstal. Därefter bestäms A, från ett överbestämt ekvationssystem via en singulärvärdesfalttorisering av D,: D, = UI Z,V,T => A, = den sista i raden V, (27) I' Äf-värdena sätts in i G (23) och en singulärvärdesfaktorisering av G beräknas G = UGZGVÉ. Med SG, betecknande de singulära värdena so, sätts alla element utom de tre första i so till noll för att reducera ranken till tre 5G = diag(s1v82v 33: 01 - - - 1 à á = o;nmsuroowomwmaaiarssssasßoopos.aoc 10 15 20 25 30 17 sto 478' Slutligen löses tvetydigheten i separationen av rörelseinforrnation från strukturin- formation Ö = MS = MLLÜSA' på ett liknande sätt som i (T omasi och Kariade 1992, Qu- an och Kanade 1997). Pâ detta sätt erhålles förfinade estimat av rotationsmatriserna för rö- relsen samt estimat av objektets struktur.From a set of such (randomly selected) triplets, a homogeneous system of equations is defined for each line 1 to determine Äj ': x »k Å; Û ÛzÅz =. . . = i = x Eel ”Û Three consecutive rows in D, correspond to a triplet, and the elements in the matrix have only been indicated by '*' -syrboles. In practice, the number of triplets is chosen to be significantly larger than the number of images (a factor of 2 to 4). In addition, the triplets are ranked with sorting and thresholding for fitness numbers. Then, A, from an overdetermined system of equations is determined via a singular value factorization of D,: D, = UI Z, V, T => A, = the last in the row V, (27) I 'Äf values are inserted in G (23) and a singular value factorization of G is calculated G = UGZGVÉ. With SG, denoting the singular values so, all elements except the first three in so are set to zero to reduce the rank to three 5G = diag (s1v82v 33: 01 - - - 1 à á = o; nmsuroowomwmaaiarssssasßoopos.aoc 10 15 20 25 30 17 mare 478 'Finally, the ambiguity in the separation of motion information from structural information Ö = MS = MLLÜSA' is resolved in a similar way as in (T omasi and Kariade 1992, Quan and Canada 1997). the rotation matrices for the motion and estimates of the object's structure.
Tvetydigheten G = Ms = MLL-*š (29) i separationen av rörelseiriforntation från strukturinforrnation i matrisen Ö beräknad enligt (28) löses genom att bilda matrisen MMT = (MLXMLF = MLLTM (30) vilken enligt (16) har följande struktur MMT = MLLTM = _ . (31) Med M"='°“T-) ~ -“"T- . (-ß"T_. l Mn_(_É,-,T_)OC11M"L=M" (32) där {:::;:::”ß"~fit ' fås ekvationssystemet ånTLLTån _ ßnTLLTßn ___ O, aflTLLfßfl = 0_ (34) Med införande av 0 :\usets\UDO\DOK\word-dok\P33558SEw-p03 .doc va. [Mill il iiimíii ammar-m ul .i i... i .vill .a ...i :lilla laili| m' ml Wi .m ii il. 10 15 20 25 30 510 478 i 18 T 0.1 0.2 03 A = = -.a2 G4 as och a' = (altazvaßua41aåsafiïr 03 9-5 06 kan (34) skrivas Ba = 0 (36) där komponenterna i B fås ur â “ och ß” som fås ur M “. Detta ekvationssystem löses med singulärvärdßsfaldørißering av B = UBZBV; och a ges av sista raden i VB. Matrisen A bildas ur vektorn a och diagonaliseras A = czicf = (czfjfflczyïf (av) vilket ger L = CZL” . Ur detta erhålles karneramatrisen M = M (CET) och strukturrnatrisen S = (CET )'“ S . Då M år känd kan skalfaktorerna bestämmas ur (33).The ambiguity G = Ms = MLL- * š (29) in the separation of motion information from structural information in the matrix Ö calculated according to (28) is solved by forming the matrix MMT = (MLXMLF = MLLTM (30) which according to (16) has the following structure MMT = MLLTM = _. (31) Med M "= '°“ T-) ~ - “" T-. (-ß "T_. l Mn _ (_ É, -, T_) OC11M" L = M "(32) where {:::; :::” ß "~ fi t 'the equation system ånTLLTån _ ßnTLLTßn ___ O, a fl TLLfß fl = 0_ (34) With the introduction of 0: \ usets \ UDO \ DOK \ word-dok \ P33558SEw-p03 .doc va. [Mill il iiimíii ammar-m ul .i i ... i .vill .a ... i: small laili | m 'ml Wi .m ii il. 10 15 20 25 30 510 478 i 18 T 0.1 0.2 03 A = = -.a2 G4 as and a' = (altazvaßua41aåsa fi ïr 03 9-5 06 can (34) be written Ba = 0 (36) where the components in B are obtained from â “and ß” obtained from M “. This system of equations is solved by singular value decay of B = UBZBV; and a is given by the last line in VB. The matrix A is formed from the vector a and diagonalized A = czicf = (czfjf fl czyïf (off) which gives L = CZL ". From this the core matrix M = M (CET) and the structural matrix S = (CET) '" S are obtained. When M is known, the scale factors can be determined from (33).
Detta forfarande är generalisering av faktoriseringsmetoden i (Tomasi och Kanade 1992) för ortograñsk projektion till skalad ortograñsk projektion.This procedure is a generalization of the factorization method in (Tomasi and Canada 1992) for orthographic projection to scaled orthographic projection.
Som beskrivits ovan, ger den afñna projektionsmodellen två möjliga lösningar vid bestämning av en rotation R enligt (20). Motsvarande obestämdhet föreligger gällande strukturen S. Dessa alternativ till rotationen R och strukturen S svarar mot en spegling i z- planet och beteclcnas R respektive S .As described above, the afanna projection model provides two possible solutions in determining a rotation R according to (20). Corresponding indeterminacy exists in the current structure S. These alternatives to the rotation R and the structure S correspond to a reflection in the z-plane and are denoted R and S, respectively.
Denna tvetydighet löses enligt följande med hjälp av skalinfonnation erhållen från särdragsdetektion (detektion av skalrumsmaxirna) och skalfaktorema cr kopplade till kame- ramatriserna (enligt beräkningsförfarandet ovan).This ambiguity is resolved as follows by means of scale information obtained from feature detection (detection of the shell space maxires) and the scale factors cr linked to the camera matrices (according to the calculation procedure above).
Ett val av rotationsrnatris R ger en struktur for hela punktkonfigurationen enligt . ovan. Kolurnn nummer k i S, betecknad Sk, ger strukturen sk för punkt nummer k. Med R ' och R " betecknande rotationerna vid tvâ rurntidpunkter, ges djupinformation hos punkt k av 1:; I: y; = Esk, yZ = R"@1=- (33) p II Z* zk O:\uscrs\UDO\DOK\word z; och z; enligt: 10 15 20 25 30 1, 510 478 Låt skalorna för motsvarande punktsärdrag betecknas med t), och t; låt karneramatrisemas skalfaktorer beräknade enligtovan betecknas med o' och o".A selection of rotational matrix R gives a structure for the whole point configuration according to. above. Column number ki S, denoted Sk, gives the structure sk for point number k. With R 'and R "denoting the rotations at two clock times, depth information at point k is given by 1 :; I: y; = Esk, yZ = R" @ 1 = - (33) p II Z * zk O: \ uscrs \ UDO \ DOK \ word z; and z; according to: 10 15 20 25 30 1, 510 478 Let the scales for the corresponding point features be denoted by t), and t; let the scale factors of the core matrices calculated according to the above be denoted by o 'and o ".
Om djupet z; är större än 2,: gäller att punktsärdragets relativa skalökning mellan bilderna skall vara större än den relativa skalökníngen hos hela konfigurationen, och vice versa. Dvs, ett av villkoren tu a” t” I, (pg > zgoch (Fk > enar ((1,3 < ztjoch (i < (39) k k skall vara uppfyllt om strukturen S och rotationerna R'och R" är de riktiga. I annat fall väljes den andra lösning (š , I? ' , I? ") svarande mot simultan spegling av strukturen och samtliga rotationer.About the depth z; is greater than 2 ,: the relative scale increase of the point feature between the images must be greater than the relative scale increase of the entire configuration, and vice versa. That is, one of the conditions tu a "t" I, (pg> zgoch (Fk> enar ((1,3 <ztjoch (i <(39) kk) must be satisfied if the structure S and the rotations R'och R "are the correct ones) Otherwise, the second solution (š, I? ', I? ") Is selected corresponding to the simultaneous reflection of the structure and all rotations.
Dessa villkor testas för varje punkt i konfigurationen, och ett röstningsförfarande över alla punkter avgör vilken rotation (och därmed struktur) som skall väljas.These conditions are tested for each point in the configuration, and a voting procedure over all points determines which rotation (and thus structure) to choose.
I fig. 4 illustreras hur ett objektets rotation enligt Fig. l och 2 styrs via punkt- och linjekorrespondenser, här över tre bilder, vilket är nödvändigt då endast en kamera 20 an- vänds. Pig. 4 består av bild l-bild 3. Bilderna visar punkt- och linjekonñgurationer, som korresponderar mot varandra. Bild 1 visar punkterna A, B och C samt linjerna a, b och c; bild 2 visar punkterna A', B' och C' samt linjerna a', b' och c' och bild 3 visar punkterna A”, B” och C” samt linjerna a”. b” och c”.I fi g. 4 illustrates how the rotation of an object according to Figs. 1 and 2 is controlled via point and line correspondences, here over three images, which is necessary when only one camera 20 is used. Pig. 4 consists of Fig. 1-Fig. 3. The pictures show point and line configurations, which correspond to each other. Figure 1 shows points A, B and C and lines a, b and c; Figure 2 shows points A ', B' and C 'and lines a', b 'and c' and Figure 3 shows points A ', B' and C 'and lines a'. b "and c".
Fig. 5 illustrerar schematiskt ett flödesschema för funktionsstyming enligt uppfin- ningen. Punkt- och linjekorrespondenser bestärnmes 400 för diskreta rumtidpunkter, genom att en tensor beräknar en rotationsmatris 410. Rotationsmatrisen alstrar därpå styrparainetrar 420 för funktionsstyrning i forrn av exempelvis visuallisering 430, robotstyrning 440 eller för annan funktion eller tillämpning 450.Fig. 5 schematically illustrates a fate diagram for function control according to the invention. Point and line correspondences are determined 400 for discrete space times, by a tensor calculating a rotation matrix 410. The rotation matrix then generates control parameters 420 for function control in the form of, for example, visualization 430, robot control 440 or for another function or application 450.
En anordning för funktionsstyrning av t ex en dator 22, 26 för tre-dimensionell över- föring av information genom rörelsedetektering med ett bildupptagarorgan 20 i form av en kamera kan tex innefatta att: Karneran(-orna) 20 i minst tre diskreta rumtidpurikter vid en enda kamera, och vid minst två diskreta rumtidpunkter vid fler kameror, och vid varje diskret rumtidpunkt registre- rar projektionen av ett objekts position och orientering för minst tre särdrag hos objektet, vilka transformeras till punkter och linjer för objektet; Ormse rs\UDO\DOK\\vord-dok\P33558SE{X)-p03 .doc sin 478: N beräkningsorgan for korrelation av särdrags position och orientering i nämnda disk- reta rumtidpunkter så att objekts 10 tre-dimensionella orientering samt ändringar i orientering och objekts 10 särdrags inbördes läge bestärnmes; beräkningsorgan, för närnnda bestämriingar vid varje rumtidpunkt, som åstadkommer 5 att en tre-dimensionell rotationsmatris och en tredimensionell translationsvektor erhålles; beräkningsorgan for beräkningar på nämnda rotationsmatris och translationsvektor med en tensor; varvid a processom bearbetar bestämningarna och på grundval av bearbetningen styr nämnda forsta organ 22, 26, att genom bearbetningen utföra en av den tidsdiskreta rörelsen indikerad funk- 10 tion. i Särdragen detekteras på olika skalor, varvid skaliriforrnation beräknas enligt tidigare- av ett beräkningsorgan och används for upplösning av obestämdheter i beräkning av objekts 10 geometriska parametrar. Tensom är den affina uifokala tensorn som beräknar rotations- matiiser och vektorer via beräkningsorgan. 1 15 Funktionsstyrning âstadkommes i en utforingsforrn av föreliggande anordning i kombination med organ for auditativ styrning genom exempelvis Cambridge-metoden eller i annan känd metod och/eller organ for genomförande av röststyrning. I ytterligare en utfö- ringsfoim av anordningen enligt föreliggande uppfinning innefattas ett organ for elektronisk minneslagring av upptagen furiktionsstyrinforrnation. Härvid görs en modell av ett objekt och -llll Il 20 dess särdrag och lagras i nämnda organ for elektronisk minneslagring, vilken fiinktionsstyr lill :ll l - nämnda organ utgående från jämförelser, i ett organ for jämförelse, med av bildupptagarorga- net (20) i realtid upptagen styrinformation med information i minnet. lllflllilll l: .A device for function control of, for example, a computer 22, 26 for three-dimensional transmission of information by motion detection with an image capture means 20 in the form of a camera may for instance comprise that: The core (s) 20 in at least three discrete space-time periods at a single camera, and at at least two discrete room times at fl er cameras, and at each discrete room time, the projection of an object's position and orientation registers for at least three features of the object, which are transformed into points and lines of the object; Ormse rs \ UDO \ DOK \\ vord-dok \ P33558EN {X) -p03 .doc sin 478: N calculation means for correlating the position and orientation of features in said discrete space times so that the object's three-dimensional orientation and changes in orientation and the relative position of the object 10 is determined; calculating means, for said determinations at each space time, which cause a three-dimensional rotation matrix and a three-dimensional translation vector to be obtained; calculation means for calculations on said rotation matrix and translation vector with a tensor; wherein a processor processes the determinations and on the basis of the processing controls said first means 22, 26, to perform through the processing a function indicated by the time-discrete movement. The features are detected on different scales, whereby scale variation is calculated according to the previous one by a computing means and is used for resolving uncertainties in calculating the geometric parameters of objects. Tensom is the affine unifocal tensor that calculates rotational amounts and vectors via computational means. Functional control is achieved in an embodiment of the present device in combination with means for auditory control by, for example, the Cambridge method or in another known method and / or means for performing voice control. A further embodiment of the device according to the present invention comprises a means for electronic memory storage of recorded friction control information. In this case, a model is made of an object and its function and is stored in said means for electronic memory storage, which function control means - said means based on comparisons, in a means for comparison, with the image pickup means (20). real-time recorded control information with information in memory. lll fl llilll l:.
Föreliggande uppfinning innefattar även ett användande av anordningen for funk- l tionsstyrning av apparater och andra maskiner, vilka har exemplifierats ovan. 25 Här beskrivna utföringsformer av föreliggande uppfinning är inte ämnade att be- ll ll l il: gränsa uppfinningen som sådan, utan det är bilagda patentkravs avfattning som anger upp- finriingen.The present invention also encompasses a use of the device for function control of apparatus and other machines, which have been exemplified above. Embodiments of the present invention described herein are not intended to limit the invention as such, but it is the wording of the appended claims which sets forth the invention.
O: \user$\UDO\DOK“~word-dok\P33558SE(X)-p03 .dOCO: \ user $ \ UDO \ DOK “~ word-dok \ P33558SE (X) -p03 .dOC
Claims (21)
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE9800884A SE510478C2 (en) | 1998-03-16 | 1998-03-16 | Method and apparatus for transmitting information through motion detection, and using the apparatus |
AU29683/99A AU2968399A (en) | 1998-03-16 | 1999-03-16 | Method and arrangement for controlling means for three-dimensional transfer of information by motion detection |
PCT/SE1999/000402 WO1999050735A1 (en) | 1998-03-16 | 1999-03-16 | Method and arrangement for controlling means for three-dimensional transfer of information by motion detection |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE9800884A SE510478C2 (en) | 1998-03-16 | 1998-03-16 | Method and apparatus for transmitting information through motion detection, and using the apparatus |
Publications (3)
Publication Number | Publication Date |
---|---|
SE9800884D0 SE9800884D0 (en) | 1998-03-16 |
SE9800884L SE9800884L (en) | 1999-05-25 |
SE510478C2 true SE510478C2 (en) | 1999-05-25 |
Family
ID=20410580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
SE9800884A SE510478C2 (en) | 1998-03-16 | 1998-03-16 | Method and apparatus for transmitting information through motion detection, and using the apparatus |
Country Status (3)
Country | Link |
---|---|
AU (1) | AU2968399A (en) |
SE (1) | SE510478C2 (en) |
WO (1) | WO1999050735A1 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001145779A (en) * | 1999-11-22 | 2001-05-29 | Namco Ltd | Sign recognizing system, game system, and computer readable recording medium having game program recorded |
GB2395269B (en) * | 1999-11-22 | 2004-06-30 | Namco Ltd | Received-light pattern detection apparatus |
JP2001147106A (en) | 1999-11-24 | 2001-05-29 | Namco Ltd | Light receiving pattern detecting device |
DE10056291A1 (en) * | 2000-11-14 | 2002-05-23 | Siemens Ag | Visual display of objects in field of view for man-machine communication by acquiring information input by user using signal or pattern recognition |
US20080134102A1 (en) * | 2006-12-05 | 2008-06-05 | Sony Ericsson Mobile Communications Ab | Method and system for detecting movement of an object |
DE102010017857B4 (en) * | 2010-04-22 | 2019-08-08 | Sick Ag | 3D security device and method for securing and operating at least one machine |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69204045T2 (en) * | 1992-02-07 | 1996-04-18 | Ibm | Method and device for optical input of commands or data. |
JP3244798B2 (en) * | 1992-09-08 | 2002-01-07 | 株式会社東芝 | Moving image processing device |
-
1998
- 1998-03-16 SE SE9800884A patent/SE510478C2/en not_active IP Right Cessation
-
1999
- 1999-03-16 WO PCT/SE1999/000402 patent/WO1999050735A1/en active Application Filing
- 1999-03-16 AU AU29683/99A patent/AU2968399A/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
SE9800884L (en) | 1999-05-25 |
SE9800884D0 (en) | 1998-03-16 |
WO1999050735A1 (en) | 1999-10-07 |
AU2968399A (en) | 1999-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Luo et al. | End-to-end active object tracking and its real-world deployment via reinforcement learning | |
Duan et al. | A survey of embodied ai: From simulators to research tasks | |
Chaumette et al. | Visual servo control. I. Basic approaches | |
CN112652016B (en) | Point cloud prediction model generation method, pose estimation method and pose estimation device | |
Labbé et al. | Single-view robot pose and joint angle estimation via render & compare | |
CN102708355A (en) | Information processing device, authoring method, and program | |
CN110503686A (en) | Object pose estimation method and electronic equipment based on deep learning | |
Ohkawa et al. | Efficient annotation and learning for 3d hand pose estimation: A survey | |
Wang et al. | Hand gesture recognition of Arabic numbers using leap motion via deterministic learning | |
KR20190088379A (en) | Pose estimating method, method of displaying virtual object using estimated pose and apparatuses performing the same | |
Li et al. | Sparse-to-local-dense matching for geometry-guided correspondence estimation | |
Ehsani et al. | Object manipulation via visual target localization | |
Schröder et al. | Design and evaluation of reduced marker layouts for hand motion capture | |
SE510478C2 (en) | Method and apparatus for transmitting information through motion detection, and using the apparatus | |
Vu et al. | Hand pose detection in hmd environments by sensor fusion using multi-layer perceptron | |
Li et al. | GBOT: graph-based 3D object tracking for augmented reality-assisted assembly guidance | |
Rauch et al. | Learning-driven coarse-to-fine articulated robot tracking | |
Cao et al. | Perceptual MR Space: interactive toolkit for efficient environment reconstruction in mobile mixed reality | |
Neumann et al. | Tracking for augmented reality on wearable computers | |
Huang et al. | The hmm-based sensing correction method for leap motion finger tracking | |
Gonzalo-Tasis et al. | SYMBOLIC MODELSFOR POSTURES RECOGNITION OF A THREE FINGERED ARTIFICIAL HAND | |
Taylor et al. | Interacting with real objects in virtual worlds | |
De Felice et al. | A portable system to build 3D models of cultural heritage and to allow their exploration by blind people | |
Bowling et al. | Subjective mapping | |
Arabaci | Perception and reasoning for the automatic configuration of task and motion planning problems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
NUG | Patent has lapsed |
Ref document number: 9800884-0 Format of ref document f/p: F |