WO2023080296A1 - Ar 디바이스 및 ar 디바이스 제어 방법 - Google Patents

Ar 디바이스 및 ar 디바이스 제어 방법 Download PDF

Info

Publication number
WO2023080296A1
WO2023080296A1 PCT/KR2021/016104 KR2021016104W WO2023080296A1 WO 2023080296 A1 WO2023080296 A1 WO 2023080296A1 KR 2021016104 W KR2021016104 W KR 2021016104W WO 2023080296 A1 WO2023080296 A1 WO 2023080296A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
character
input
user
tracking unit
Prior art date
Application number
PCT/KR2021/016104
Other languages
English (en)
French (fr)
Inventor
장성권
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to PCT/KR2021/016104 priority Critical patent/WO2023080296A1/ko
Publication of WO2023080296A1 publication Critical patent/WO2023080296A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output

Definitions

  • the present invention relates to an AR device and a method for controlling the AR device.
  • Metaverse is a compound word of meta, which means virtual, and universe, which means the real world.
  • users can create their own avatars, communicate with other users, and engage in economic activities, and everyday life can be realized in the virtual world.
  • the blockchain-based metaverse can be implemented with non-fungible tokens (NFTs) and cryptocurrencies for items in the virtual world. there is. In other words, the user has actual content ownership.
  • NFTs non-fungible tokens
  • the present invention aims to solve the foregoing and other problems.
  • An object of the present invention is to provide a more accurate and sophisticated text input interface when text is input through an AR device and a control method of the AR device.
  • the voice pickup sensor for checking the text input; an eye tracking unit that detects pupil movement through a camera; a lip shape tracking unit that infers the character; and an automatic completion unit that completes a word based on the inferred character.
  • the voice pickup sensor is characterized in that the text input is confirmed based on the movement (bone conduction) of the user's temporomandibular joint.
  • the lip shape tracking unit is characterized in that the letter is inferred through an IR camera and an IR illuminator.
  • the lip shape tracking unit may infer the character based on the time the eye tracking unit detects the pupil movement.
  • the IR camera and the IR illuminator may be arranged to photograph the user's lips at a preset angle.
  • the AR device further includes a display unit, and the display unit outputs a text input device and further outputs a pointer on the text input device based on the detected pupil movement.
  • the display unit is characterized in that the completed word is output through the automatic completion unit.
  • the AR device further includes an input unit,
  • the voice pickup sensor Based on the control signal received through the input unit, it is characterized in that the voice pickup sensor starts character input confirmation.
  • the AR device further comprises a memory unit
  • the lip shape tracking unit may infer the character based on a database included in the memory unit.
  • the lip shape tracking unit is characterized in that the character is inferred using artificial intelligence.
  • based on the motion of the user's temporomandibular joint confirming the character input; detecting pupil movement through a camera; Inferring the character through an IR camera and an IR illuminator; and completing a word based on the inferred character.
  • FIG 1 illustrates an embodiment in which an AR device according to an embodiment of the present invention is implemented as an HMD type.
  • FIG 2 illustrates an embodiment in which an AR device according to an embodiment of the present invention is implemented as an AR glass type.
  • 3A and 3B are diagrams illustrating a conceptual diagram of an AR device according to an embodiment of the present invention.
  • 4a and 4b are views explaining problems of the input method of the conventional AR device.
  • FIG. 5 is a diagram illustrating configuration modules of an AR device according to an embodiment of the present invention.
  • FIG. 6 is a diagram illustrating a voice pickup sensor according to an embodiment of the present invention.
  • FIG. 7 is a diagram illustrating sensor arrangement in an AR device according to an embodiment of the present invention.
  • FIG. 8 is a diagram explaining a tracking result of a lip tracking unit according to an embodiment of the present invention.
  • FIG. 9 is a diagram illustrating an operation of an eye tracking unit according to an embodiment of the present invention.
  • FIG. 10 is a diagram illustrating the accuracy of an eye tracking unit according to an embodiment of the present invention.
  • FIG. 11 is a diagram illustrating a character input environment of an AR device according to an embodiment of the present invention.
  • 12a and 12b are diagrams illustrating text input results in an AR device according to an embodiment of the present invention.
  • FIG. 13 is a diagram showing a table predicting a recognition rate for text input in an AR device according to an embodiment of the present invention.
  • FIG. 14 is a flowchart illustrating a method of controlling an AR device according to an embodiment of the present invention.
  • FIG 1 illustrates an embodiment in which an AR device according to an embodiment of the present invention is implemented as an HMD type.
  • the HMD type AR device 100a shown in FIG. 1 includes a communication unit 110, a control unit 120, a memory unit 130, an I/O unit 140a, a sensor unit 140b, and a power supply. unit 140c and the like.
  • the communication unit 110 may transmit/receive data with external devices such as other AR devices or AR servers using wired/wireless communication technology.
  • the communication unit 110 may transmit/receive sensor information, a user input, a learning model, a control signal, and the like with external devices.
  • communication technologies used by the communication unit 110 include Global System for Mobile communication (GSM), Code Division Multi Access (CDMA), Long Term Evolution (LTE), Wireless LAN (WLAN), and Wireless-Fidelity (Wi-Fi). , BluetoothTM RFID (Radio Frequency Identification), Infrared Data Association (IrDA), ZigBee, NFC (Near Field Communication), etc.
  • the communication unit 110 in the XR device 10a is a mobile terminal (100b) and wired/wireless communication is made.
  • the control unit 120 controls general operations of the AR device 100a in addition to operations related to the application program.
  • the control unit 120 provides appropriate information or functions to the user by processing signals, data, information, etc. input or output through the components of the AR device 100a or by running an application program stored in the memory unit 130. or can be processed.
  • the control unit 120 of the AR device 100a is a module that performs basic control functions and can be performed through the connected external mobile terminal 100b when battery consumption is high or the amount to be processed is enormous. This will be described in detail below with reference to FIGS. 3A and 3B.
  • the memory unit 130 stores data supporting various functions of the AR device 100a.
  • the memory unit 130 may store a plurality of application programs (applications) running in the AR device 100a, data for operating the mobile terminal 100, and instructions. At least some of these application programs may be downloaded from an external server through wireless communication. In addition, at least some of these application programs may exist on the AR device 100a from the time of shipment for basic functions of the AR device 100a. Meanwhile, the application program may be stored in the memory unit 130, installed on the AR device 100a, and driven by the control unit 120 to perform an operation (or function) of the mobile terminal.
  • the I/O unit 140a may include both an input unit and an output unit by combining an input unit and an output unit.
  • the input unit includes a camera or video input unit for inputting a video signal, a microphone or audio input unit for inputting an audio signal, and a user input unit (eg, a touch key, a push key) for receiving information from a user. (mechanical key), etc.).
  • Voice data or image data collected by the input unit may be analyzed and processed as a user's control command.
  • the camera processes an image frame such as a still image or a moving image obtained by an image sensor in a video call mode or a photographing mode.
  • the processed image frame may be displayed on the display unit or stored in the memory unit 130 .
  • a plurality of cameras may be arranged to form a matrix structure, and a plurality of image information having various angles or focal points may be input to the AR device 100a through the cameras forming the matrix structure.
  • a plurality of cameras may be arranged in a stereo structure to obtain left and right images for realizing a stereoscopic image.
  • a microphone processes an external acoustic signal into electrical voice data.
  • the processed voice data can be utilized in various ways according to the function (or application program being executed) being performed in the AR device (100a). Meanwhile, various noise cancellation algorithms for removing noise generated in the process of receiving an external sound signal may be implemented in the microphone.
  • the user input unit is for receiving information from the user, and when information is input through the user input unit, the control unit 120 can control the operation of the AR device 100a to correspond to the input information.
  • a user input unit is a mechanical input means (or a mechanical key, for example, a button located on the front, rear or side of the AR device 100a, a dome switch, a jog wheel, a jog switch, etc. ) and a touch input means.
  • the touch input means consists of a virtual key, soft key, or visual key displayed on a touch screen through software processing, or a part other than the touch screen. It can be made of a touch key (touch key) disposed on.
  • the virtual key or visual key can be displayed on the touch screen while having various forms, for example, graphic (graphic), text (text), icon (icon), video (video) or these can be made of a combination of
  • the output unit is for generating an output related to sight, hearing, or touch, and may include at least one of a display unit, a sound output unit, a haptic module, and an optical output unit.
  • a touch screen may be realized by forming a mutual layer structure with the touch sensor or integrally formed with the display unit. Such a touch screen may function as a user input unit providing an input interface between the AR device 100a and the user, and may provide an output interface between the AR device 100a and the user.
  • the sound output unit may output audio data received from the wireless communication unit or stored in the memory unit 130 in a call signal reception, a call mode or a recording mode, a voice recognition mode, a broadcast reception mode, and the like.
  • the sound output unit also outputs sound signals related to functions performed by the AR device 100a (eg, call signal reception sound, message reception sound, etc.).
  • Such an audio output unit may include a receiver, a speaker, a buzzer, and the like.
  • a haptic module generates various tactile effects that a user can feel.
  • a representative example of the tactile effect generated by the haptic module may be vibration.
  • the intensity and pattern of the vibration generated by the haptic module may be controlled by a user's selection or a setting of the control unit 120 .
  • the haptic module may synthesize and output different vibrations or sequentially output them.
  • the light output unit outputs a signal for notifying occurrence of an event using light from a light source of the AR device 100a.
  • Examples of events generated in the AR device 100a may include message reception, call signal reception, missed calls, alarms, schedule notifications, e-mail reception, and information reception through applications.
  • the sensor unit 140b may include one or more sensors for sensing at least one of information within the AR device 100a, surrounding environment information surrounding the AR device 100a, and user information.
  • the sensing unit 140b may include a proximity sensor, an illumination sensor, a touch sensor, an acceleration sensor, a magnetic sensor, and a gravity sensor (G- sensor), gyroscope sensor, motion sensor, RGB sensor, infrared sensor (IR sensor), finger scan sensor, ultrasonic sensor, light sensor ( optical sensor (e.g., camera), microphone, battery gauge, environmental sensor (e.g., barometer, hygrometer, thermometer, radiation detection sensor, heat detection sensor, gas detection sensor, etc.), chemical It may include at least one of sensors (eg, electronic nose, healthcare sensor, biometric sensor, etc.). Meanwhile, the mobile terminal disclosed in this specification may combine and utilize information sensed by at least two or more of these sensors.
  • the power supply unit 140c receives external power and internal power under the control of the control unit 120 and supplies power to each component included in the AR device 100a.
  • the power supply unit 140c includes a battery, and the battery may be a built-in battery or a replaceable battery.
  • At least some of the above components may operate in cooperation with each other to implement the operation, control, or control method of the AR device 100a according to various embodiments described below.
  • the operation, control, or control method of the mobile terminal may be implemented on the AR device 100a by driving at least one application program stored in the memory unit 130 .
  • FIG 2 illustrates an embodiment in which an AR device according to an embodiment of the present invention is implemented as an AR glass type.
  • the AR glasses may include a frame, a controller 200 and an optical display 300 .
  • the control unit 200 may correspond to the control unit 120 described above in FIG. 1
  • the optical display unit 300 may correspond to one module of the I/O unit 140a described above in FIG. .
  • the frame may have a shape of eyeglasses worn on the face of the user 10, but is not necessarily limited thereto, and forms of goggles worn in close contact with the face of the user 10. may have
  • Such a frame may include a front frame 110 and first and second side frames.
  • the front frame 110 has at least one opening and may extend in a first horizontal direction (x), and the first and second side frames are in a second horizontal direction (y) intersecting the front frame 110. It can be extended and extended parallel to each other.
  • the controller 200 may generate an image to be shown to the user 10 or a video in which the images are continuous.
  • the control unit 200 may include an image source for generating an image and a plurality of lenses for diffusing and converging light generated from the image source.
  • An image generated by the controller 200 as described above may be emitted to the optical display unit 300 through the guide lens P200 positioned between the controller 200 and the optical display unit 300 .
  • the control unit 200 may be fixed to any one of the first and second side frames.
  • the control unit 200 may be fixed to the inside or outside of any one side frame, or may be integrally formed by being embedded inside any one side frame.
  • the optical display unit 300 may play a role of allowing the user 10 to see an image generated by the controller 200, and may view an external environment through an opening while allowing the user 10 to see the image. In order to do so, it may be formed of a translucent material.
  • Such an optical display unit 300 is inserted into and fixed to the opening included in the front frame 110, or is located on the rear surface of the opening (that is, between the opening and the user 10) and is fixed to the front frame 110. may be provided.
  • the optical display unit 300 is located on the rear surface of the opening and is fixed to the front frame 110 is shown as an example.
  • the user 10 can view the external environment through the opening of the frame 100 and simultaneously view the image generated by the controller 200 together.
  • 3A and 3B are diagrams illustrating a conceptual diagram of an AR device according to an embodiment of the present invention.
  • an AR device may have various structures.
  • an AR device may include a neckband 301 including a microphone and a speaker, and glasses 302 including a display unit and a processing unit.
  • an internal input of the AR device may be performed through a button on the glass 302, and an external input may be performed through a controller 303 in the form of a watch or fidget spinner.
  • the AR device may have a battery separation structure for internalization of an LTE modem and space recognition technology. In this case, the AR device can implement a lighter glass 302 by removing the battery.
  • the AR device uses the processing unit of the mobile terminal 100b, and the AR device can be implemented with the glass 302 simply providing the display unit.
  • an internal input of the AR device may be performed through a button of the glass 302, and an external input may be performed through the ring-shaped controller 303.
  • AR devices should select an input device and technology considering the type, speed, quantity, and accuracy according to the service.
  • the service provided by the AR device is a game
  • direction keys, mute on/off selection keys, and screen scroll keys are required for interaction input, and a joystick and a smartphone can be used as devices. That is, it is necessary to design a game key suitable for the human body, and it is necessary to be able to easily input the key with a smartphone. Therefore, high speed and small amount of input are required with a limited variety.
  • the service provided by the AR device is a movie or video playback service such as YouTube
  • interaction input requires direction keys, play back (play, move) keys, mute on/off selection keys, and screen scroll keys.
  • glasses, external controllers, smart watches, and the like can be used. That is, it should be possible to input direction keys for content selection, play, stop, and volume control keys. Therefore, moderate speed and low amount of input are required with a limited variety.
  • the interaction input requires a drone control directional key, a special function On/Off key, and a screen control key.
  • a drone control directional key can be used That is, it features adjustment modes, left (throttle, rudder), right (pitch, aileron), etc., and requires a limited type, normal speed, and normal amount of input.
  • interaction input requires various characters (English, Korean, Chinese characters, Arabic, etc.) for each language, and a virtual keyboard and an external keyboard are used as devices.
  • a virtual keyboard and an external keyboard are used as devices.
  • the light-emitting type virtual keyboard has poor input accuracy and is slow, and since the external keyboard is hidden by the screen and is not visible, input must be performed with the senses of the fingers. That is, a variety of language types must be provided, and fast speed, large volume and accurate input are required.
  • 4a and 4b are views explaining problems of the input method of the conventional AR device.
  • a vergence-accommodation conflict problem occurs. That is, the focus of the eyes in the real 3D space does not match the real image and the virtual image. At this time, the AR device must accurately determine how much the user rolls the eyeballs for accurate input and process whether or not what the user sees is accurately recognized.
  • AR devices in the form of AR glasses with a single focus are usually focused on a long distance (more than 2.5 m), so it is inconvenient to type while alternately viewing virtual content from a distance and a real keyboard of about 40 cm.
  • a difference between the focus of the real keyboard and the focus of the virtual keyboard may cause dizziness.
  • FIG. 5 is a diagram illustrating configuration modules of an AR device according to an embodiment of the present invention.
  • the AR device 500 may include a voice pickup sensor 501, an eye tracking unit 502, a lip shape tracking unit 503, and an auto completion unit 504.
  • the components shown in FIG. 5 are not essential to implement the AR device 500, so the AR device 500 described herein may have more or fewer components than the components listed above. there is.
  • not all of the components mentioned above are shown in detail in the accompanying drawings, and only some important components may be shown in the accompanying drawings. However, although not all are shown, those skilled in the art can understand that at least the components of FIG. 5 may be included in the AR device 500 in order to implement a function as a hearing aid.
  • the AR device 500 includes all of the basic components of the AR device 100a described above in FIG. It may feature a tracking unit 503 and an autocomplete unit 504 .
  • the voice pickup sensor 501 may check text input. At this time, the voice pickup sensor 501 may check one character input based on the movement of the user's temporomandibular joint (bone conduction). That is, the voice pickup sensor 501 can grasp the user's intention that he or she speaks one character without a voice by using the bone conduction sensor.
  • the voice pickup sensor 501 will be described in detail with reference to FIG. 6 .
  • the eye tracking unit 502 may detect movement of pupils through a camera. The user can sequentially stare at the words he wants to input on the virtual keyboard.
  • the lip shape tracking unit 503 may infer a character.
  • the lip shape tracking unit 503 may recognize a range of characters.
  • the lip shape tracking unit 503 may infer a character through an IR camera and an IR illuminator.
  • the IR camera and the IR illuminator may be arranged to photograph the user's lips at a preset angle. This will be described in detail with reference to FIGS. 7 and 8 .
  • the lip shape tracking unit 503 may infer a character based on the time at which the eye tracking unit 502 detects pupils. At this time, it is necessary to maintain the shape of the lips until one letter is completed.
  • the lip shape tracking unit 503 may infer a character using artificial intelligence.
  • the AR device 500 when the AR device 500 is connected to an external server, it may receive a character that can be inferred from the artificial intelligence server, and the character may be inferred by combining with a character recognized by the lip shape tracking unit 503. In addition, through these functions, the AR device 500 can provide the mouth shape and expression of my avatar in the metaverse virtual environment.
  • the auto-completion unit 504 may complete words based on the inferred characters. Also, the auto-completion unit 504 can automatically complete not only words but also sentences. The autocompletion unit 504 may recommend corrected or completed word or sentence candidates when an initial few letters or words are input. At this time, the auto-completion unit 504 may utilize the auto-completion function of the OS and applications installed in the AR device 500 .
  • the AR device 500 sets the eye tracking unit 502 as a main input unit, the lip shape tracking unit 503 as an auxiliary input unit, and the auto completion unit 504 as an auxiliary input unit. It can be set as an additional input method. Through the shape of the lips, it is possible to determine the movement of consonants and vowels, whether or not they are staying in a consonant state, but it is impossible to perfectly understand the characters because of synchronous consonants only with the shape of the lips. In order to compensate for this point, the AR device 500 may set the eye tracking unit 502 as a main input means.
  • the AR device 500 may further include a display unit.
  • the display unit may refer to the above description in FIG. 1 .
  • the display unit may output the text input device (IME), and may output a pointer on the text input device based on the pupil movement detected through the eye tracking unit 502 . Also, the display unit may output completed words or sentences through the automatic completion unit 504 . This will be described in detail with reference to FIGS. 11, 12a and 12b.
  • IME text input device
  • the display unit may output completed words or sentences through the automatic completion unit 504 . This will be described in detail with reference to FIGS. 11, 12a and 12b.
  • the AR device 500 may further include an input unit.
  • the input unit may refer to the above description in FIG. 1 .
  • the voice pickup sensor 501 may start to confirm text input based on a control signal received through the input unit. For example, when a control signal is received by a physical button or a virtual button through the input unit, the voice pickup sensor 501 may start to confirm text input.
  • the AR device 500 may further include a memory unit.
  • the memory unit may refer to the above description in FIG. 1 .
  • the lip shape tracking unit 503 may infer a character based on a database included in a memory unit.
  • AR devices can precisely input text using glass multi-sensing in outdoor environments or in environments requiring quietness.
  • the AR device of the present invention can provide multi-sensing technology for listening, watching, reading, writing, and correction.
  • the combination of multi-sensing technology that receives input greatly improves accuracy and reduces input time compared to text input using only eye tracking.
  • it can be used in the metaverse world by creating an avatar's facial expression.
  • text input in various public places buses or subways
  • you need to pay attention to the eyes of others when working with e-mails and documents using a large screen or second display in a virtual office environment, in the metaverse market (reflecting my mouth shape to avatar It can be applied to laptops or smart devices in the future.
  • FIG. 6 is a diagram illustrating a voice pickup sensor according to an embodiment of the present invention.
  • the voice pickup sensor when the voice pickup sensor is inserted into the user's ear, the voice pickup sensor detects bone conduction of the user's skull and jaw to check character input and letter spacing.
  • the voice pickup sensor may detect the movement of the temporomandibular joint to check text input and letter spacing even if it does not detect actual voice. Through this, it is possible to judge character input and character spacing more accurately by 50 to 80% compared to the case of using only a general microphone in a noisy environment.
  • FIG. 7 is a diagram illustrating sensor arrangement in an AR device according to an embodiment of the present invention.
  • the voice pickup sensor 701 may be located on the side of the AR device when the user wears the AR device in order to check the sound of bone conduction.
  • the cameras 702 and 703 of the lip shape tracking unit may be arranged to photograph the user's lips at a predetermined angle (eg, 30 degrees).
  • a predetermined angle eg, 30 degrees
  • the cameras 702 and 703 of the lip shape tracking unit only need to grasp the shape of the lips as described later in FIG.
  • positions of the IR camera and the IR illuminator may be selectively arranged.
  • the cameras 704 , 705 , 706 , and 707 of the eye tracking unit may be disposed in left and right directions of both eyes of the user in order to determine the movement of the user's eyes.
  • An embodiment in which each camera of the eye tracking unit detects pupil movement will be described in detail with reference to FIGS. 9 and 10 .
  • FIG. 8 is a diagram explaining a tracking result of a lip tracking unit according to an embodiment of the present invention.
  • the result of tracking the shape of the lips by the lip tracking unit can be known. That is, a rough shape of a human lip shape may be identified through the IR camera and the IR illuminator described above. At this time, the lip tracking unit does not need to use a high-quality camera and simply creates outermost boundary points (801, 802, 803, 804, 805, 806) to identify the shape of the lips, and intermediate boundary points (807, 807, 806) to connect them. 808, 809, 810), and a line connecting them can be created. Through this, the lip tracking unit may identify a lip shape for each character.
  • FIG. 9 is a diagram illustrating an operation of an eye tracking unit according to an embodiment of the present invention.
  • the infrared camera of the eye tracking unit may discriminate between a pupil 901 and a corneal reflection 902 of the user's eyes.
  • the eye tracking unit outputs an IR source to an eye ball and recognizes the direction of the gaze through a vector between the center of the pupil 901 of the eye ball and the angular reflection 902 .
  • the eye tracking unit may determine whether the user's pupils are looking at the front, at the bottom right of the camera, or at the top of the camera through the above-described method.
  • FIG. 10 is a diagram illustrating the accuracy of an eye tracking unit according to an embodiment of the present invention.
  • the standard deviation of a point at a distance of 0.5 m between a point on the screen and the user is 0.91 cm, and a point at a distance between a point on the screen and the user at 2 m. It can be seen that the standard deviation for the point of is 2.85 cm.
  • FIG. 11 is a diagram illustrating a character input environment of an AR device according to an embodiment of the present invention.
  • the total screen size of virtual content that a user wearing an AR device can see is 14.3 inches (31 cm wide, 18 cm long), and the size of a virtual keyboard placed 50 cm in front of the user is 11.7 inches (28 cm wide, 18 cm long). 10cm in height).
  • the camera has a field of view (FOV) of 40 degrees and a resolution of FHD.
  • the AR device may perform a calibration operation for the three points 1101, 1102, and 1103 as an example in order to determine whether the recognition of the user's pupil movement is correct for the first time. Thereafter, when the calibration task is completed, the AR device may receive text input through eye tracking.
  • 12a and 12b are diagrams illustrating text input results in an AR device according to an embodiment of the present invention.
  • 12A shows an embodiment of outputting the Cheonjiin keyboard with a virtual keyboard
  • FIG. 12B shows an embodiment of outputting a QWERTY keyboard with a virtual keyboard.
  • the display unit of the AR device may output all kinds of keyboards. Then, when text input starts, the voice pickup sensor may recognize one character unit based on the user's temporomandibular joint movement. At the same time, the lip shape tracking unit may infer a character by analyzing the user's recognized shape recognized through the camera. In addition, at the same time, the eye tracking unit may output a pointer 1201 recognized based on the movement of the pupil detected through the camera on the keyboard. Referring to the example of FIG. 12A, when the user pronounces “c” and gazes at “c” on the keyboard, the AR device can output a pointer 1201 at the location of “c” on the keyboard. there is. In one embodiment of the present invention, the screen actually shown to the user through the display unit may correspond to the virtual keyboard and pointer 1201 .
  • the AR device when the user pronounces “Donghae ⁇ ” through the shape of his mouth, the AR device can detect “Donghae ⁇ ” through the voice pickup sensor, the lip shape tracking unit, and the eye tracking unit. After that, the AR device may output “donghaemulgwa” through the automatic completion unit. The AR device can output the completed sentence “East Sea and Mt.
  • the display unit of the AR device may output a QWERTY keyboard.
  • the voice pickup sensor may recognize one character unit based on the user's temporomandibular joint movement.
  • the lip shape tracking unit may infer a character by analyzing the user's recognized shape recognized through the camera.
  • the eye tracking unit may output a pointer 1201 recognized based on the movement of the pupil detected through the camera on the QWERTY keyboard. Referring to the example of FIG.
  • the AR device when the user pronounces “c” and gazes at “c” on the qwerty keyboard, the AR device can output a pointer 1201 at the location of “c” on the qwerty keyboard. there is.
  • a screen actually shown to the user through the display unit may correspond to the virtual QWERTY keyboard and pointer 1201 .
  • an embodiment in which the AR device completes a word or sentence through an auto-completion unit is the same as that described above with reference to FIG. 12A.
  • FIG. 13 is a diagram showing a table predicting a recognition rate for text input in an AR device according to an embodiment of the present invention.
  • the vertical table of contents indicates configuration modules of the AR device, and the horizontal table of contents describes functions to be performed.
  • the voice pickup sensor may first check the character input situation. That is, the user's intention to input text can be grasped through the voice pickup sensor. That is, when a movement of the user's jaw joint occurs through the voice pickup sensor, the AR device may start character recognition through the eye tracking unit and the lip shape tracking unit.
  • the voice pickup sensor can use bone conduction and can check whether or not it is input in units of one character. Through this, the level at which text input can be confirmed can be predicted to be 95%. In addition, in an independent space that does not require silence, it is possible to recognize it as a voice rather than bone conduction.
  • the lip shape tracking unit can roughly recognize text.
  • the lip shape tracking unit is vulnerable to synonyms, which are different sounds for the same mouth shape. Therefore, it is necessary to recognize text together with eye tracking.
  • text recognition is started through the lip shape tracking unit, the level at which text input can be confirmed can be predicted to be 100%.
  • the eye tracking unit enables precise character recognition. That is, more accurate character recognition is possible by combining the content recognized through the eye tracking unit with the rough character recognized through the lip shape tracking unit.
  • the accuracy of the eye tracking unit since the accuracy of the eye tracking unit is improved at the optimal position, it may perform a calibration operation by providing example points as described above with reference to FIG. 11 .
  • the recognition rate of characters recognized through the eye tracking unit may be predicted to be 95%.
  • the auto-completion unit may provide correction and auto-completion functions for characters recognized through the eye tracking unit and the lip shape tracking unit. After correction and auto-completion functions are provided through the auto-completion unit, the character recognition rate can be improved to 99% and input time can be reduced by 30%.
  • FIG. 14 is a flowchart illustrating a method of controlling an AR device according to an embodiment of the present invention.
  • step S1401 text input may be confirmed based on the movement of the user's jaw joint. At this time, it is possible to check the character input based on the movement of the user's jaw joint through the voice pickup sensor. At this time, character input can be confirmed based on one character. At this time, the voice pickup sensor may be activated based on the control signal received through the input unit.
  • step S1402 the movement of the pupil may be detected through the camera.
  • a character may be inferred through an IR camera and an IR illuminator.
  • the character can be inferred based on the time for detecting the pupil movement.
  • the IR camera and the IR illuminator may be disposed to photograph the user's lips at a predetermined angle (eg, between 30 degrees and 40 degrees).
  • the character can be inferred by applying a database and artificial intelligence in addition to the character recognized through the IR camera and the IR illuminator.
  • step S1404 words may be completed based on the inferred characters. Thereafter, the completed word may be output through the display unit.
  • the above-described present invention can be implemented as computer readable code on a medium on which a program is recorded.
  • the computer-readable medium includes all types of recording devices in which data that can be read by a computer system is stored. Examples of computer-readable media include Hard Disk Drive (HDD), Solid State Disk (SSD), Silicon Disk Drive (SDD), ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage device, etc. , and also includes those implemented in the form of a carrier wave (eg, transmission over the Internet).
  • the computer may include the controller 180 of the video editing device. Accordingly, the above detailed description should not be construed as limiting in all respects and should be considered illustrative. The scope of the present invention should be determined by reasonable interpretation of the appended claims, and all changes within the equivalent scope of the present invention are included in the scope of the present invention.
  • Embodiments of the present invention have industrial applicability because they can be repeatedly implemented in the AR device and the control method of the AR device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Optics & Photonics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 문자 입력을 확인하는 보이스 픽업 센서; 카메라를 통하여 눈동자 움직임을 감지하는 아이 트래킹부; 상기 문자를 유추하는 입술 모양 트래킹부; 및 상기 유추된 문자에 기초하여 단어를 완성하는 자동 완성부를 포함하는 것을 특징으로 하는, AR 디바이스를 제공한다.

Description

AR 디바이스 및 AR 디바이스 제어 방법
본 발명은 AR 디바이스 및 AR 디바이스의 제어 방법에 관한 것이다.
메타버스란 가상을 의미하는 메타(meta)와 현실 세계를 의미하는 유니버스(universe)의 합성어로, 현실 세계와 같은 사회/경제/문화 활동이 이뤄지는 3차원 가상세계를 일컫는 말이다.
메타버스에서는 사용자들이 자신만의 아바타를 만들어 다른 사용자와 소통하고, 경제 활동을 벌이는 등 일상 생활이 가상 세계에서 구현될 수 있다.
기존 게임 서비스의 경우, 약관상 게임 내 아이템 소유권이 콘텐츠 회사에 있는 것과는 달리 블록 체인에 기반한 메타버스는 가상 세계 속 아이템에 대체불가능토큰(Non-Fungible Token, NFT)과 암호 화폐 등으로 구현될 수 있다. 즉, 실제 콘텐츠 소유권을 유저가 갖게 된다.
현재 게임사들은 블록 체인 기반의 메타버스 구축에 적극 나서고 있다. 실제로 최근 뉴욕 증시에 상장한 미국 메타버스 게임기업 로블록스가 가상 화폐 도입을 결정하면서 많은 이들의 이목을 집중시킨 바 있다. 현재, 로블록스는 전 세계 4억명 이상의 이용자를 확보한 상태다.
최근 메타버스가 모바일 디바이스에 도입됨에 따라 스마트폰 및 테블릿 등에 구비된 디스플레이를 기반으로 사용자와 가상 공간 내 아바타를 통한 상호 인터랙션 뿐만 아니라 메타버스 유저 간 가상 공간에서 자신의 아바타를 통해 상호 커뮤니케이션을 제공할 수 있게 되었다.
이러한 아바타 간 상호 인터랙션을 위하여 사용자는 빠르고 정확한 문자를 손쉽게 입력할 필요가 있다.
이에 따라, 메타버스에 접속하는 디바이스로서 선명하고 가벼운 광학계로 구성됨과 동시에 오피스 환경이나 SNS에 적합한 인터랙션 등이 가능한 제품의 개발 필요성이 높아지고 있다.
본 발명은 전술한 문제 및 다른 문제를 해결하는 것을 목적으로 한다.
본 발명은 AR 디바이스 및 AR 디바이스의 제어 방법을 통하여 문자 입력 시 보다 정확하고 정교한 문자 입력 인터페이스를 제공하는 것을 목적으로 한다.
본 발명의 일 측면에 따르면, 문자 입력을 확인하는 보이스 픽업 센서; 카메라를 통하여 눈동자 움직임을 감지하는 아이 트래킹부; 상기 문자를 유추하는 입술 모양 트래킹부; 및 상기 유추된 문자에 기초하여 단어를 완성하는 자동 완성부를 포함하는 것을 특징으로 하는, AR 디바이스를 제공한다.
본 발명의 일 측면에 따르면, 상기 보이스 픽업 센서는 사용자의 턱 관절의 움직임(Bone Conduction)에 기초하여 상기 문자 입력을 확인하는 것을 특징으로 한다.
본 발명의 일 측면에 따르면, 상기 입술 모양 트래킹부는 IR 카메라 및 IR 일루미네이터를 통하여 상기 문자를 유추하는 것을 특징으로 한다.
본 발명의 일 측면에 따르면, 상기 입술 모양 트래킹부는 상기 아이 트래킹부가 상기 눈동자 움직임을 감지하는 시간에 기초하여 상기 문자를 유추하는 것을 특징으로 한다.
본 발명의 일 측면에 따르면, 상기 IR 카메라 및 상기 IR 일루미네이터는 상기 사용자의 입술을 기 설정된 각도에서 촬영하도록 배치되는 것을 특징으로 한다.
본 발명의 일 측면에 따르면, 상기 AR 디바이스는 디스플레이부를 더 포함하고, 상기 디스플레이부는 문자 입력기를 출력하고, 상기 감지된 눈동자 움직임에 기초하여 상기 문자 입력기 상에 포인터를 더 출력하는 것을 특징으로 한다.
본 발명의 일 측면에 따르면, 상기 디스플레이부는 상기 자동 완성부를 통하여 완성된 단어를 출력하는 것을 특징으로 한다.
본 발명의 일 측면에 따르면, 상기 AR 디바이스는 입력부를 더 포함하고,
상기 입력부를 통하여 수신되는 제어 신호에 기초하여 상기 보이스 픽업 센서가 문자 입력 확인을 시작하는 것을 특징으로 한다.
본 발명의 일 측면에 따르면, 상기 AR 디바이스는 메모리 유닛을 더 포함하고,
상기 입술 모양 트래킹부는 상기 메모리 유닛에 포함된 데이터베이스에 기초하여 상기 문자를 유추하는 것을 특징으로 한다.
본 발명의 일 측면에 따르면, 상기 입술 모양 트래킹부는 인공지능을 이용하여 상기 문자를 유추하는 것을 특징으로 한다.
본 발명의 일 측면에 따르면, 사용자의 턱 관절의 움직임에 기초하여 문자 입력을 확인하는 단계; 카메라를 통하여 눈동자 움직임을 감지하는 단계; IR 카메라 및 IR 일루미네이터를 통하여 상기 문자를 유추하는 단계; 및 상기 유추된 문자에 기초하여 단어를 완성하는 단계를 포함하는, AR 디바이스의 제어 방법을 제공한다.
본 발명에 따른 AR 디바이스 및 그 제어 방법의 효과에 대해 설명하면 다음과 같다.
본 발명의 실시 예들 중 적어도 하나에 의하면, 정숙을 요구하는 환경에서 문자를 정교하게 입력할 수 있다는 장점이 있다.
본 발명의 실시 예들 중 적어도 하나에 의하면, 오류 수정 및 자동 완성으로 인해 문자 및 문장 입력 시간을 단축할 수 있다는 장점이 있다.
본 발명의 적용 가능성의 추가적인 범위는 이하의 상세한 설명으로부터 명백해질 것이다.
그러나 본 발명의 사상 및 범위 내에서 다양한 변경 및 수정은 당업자에게 명확하게 이해될 수 있으므로, 상세한 설명 및 본 발명의 바람직한 실시 예와 같은 특정 실시 예는 단지 예시로 주어진 것으로 이해되어야 한다.
도 1은 본 발명의 일 실시예에 따른 AR 디바이스를 HMD 타입으로 구현한 실시예를 도시하고 있다.
도 2는 본 발명의 일 실시예에 따른 AR 디바이스를 AR 글래스 타입으로 구현한 실시예를 도시하고 있다.
도 3a 및 도 3b는 본 발명의 일 실시예에 따른 AR 디바이스의 개념도를 설명하는 도면이다.
도 4a 및 도 4b는 종래의 AR 디바이스의 입력 방식의 문제점을 설명하는 도면이다.
도 5는 본 발명의 일 실시예에 따른 AR 디바이스의 구성 모듈을 설명하는 도면이다.
도 6은 본 발명의 일 실시예에 따른 보이스 픽업 센서를 설명하는 도면이다.
도 7은 본 발명의 일 실시예에 따른 AR 디바이스 내에 센서 배치를 설명하는 도면이다.
도 8은 본 발명의 일 실시예에 따른 입술 트래킹부의 트래킹 결과를 설명하는 도면이다.
도 9는 본 발명의 일 실시예에 따른 아이 트래킹부의 동작을 설명하는 도면이다.
도 10은 본 발명의 일 실시예에 따른 아이 트래킹부의 정확도를 설명하는 도면이다.
도 11은 본 발명의 일 실시예에 따른 AR 디바이스의 문자 입력 환경을 설명하는 도면이다.
도 12a 및 도 12b는 본 발명의 일 실시예에 따른 AR 디바이스에서 문자 입력 결과를 나타내는 도면이다.
도 13은 본 발명의 일 실시예에 따른 AR 디바이스에서 문자 입력에 대한 인식률을 예측한 표를 나타내는 도면이다.
도 14는 본 발명의 일 실시예에 따른 AR 디바이스의 제어 방법을 설명하는 순서도이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
도 1은 본 발명의 일 실시예에 따른 AR 디바이스를 HMD 타입으로 구현한 실시예를 도시하고 있다.
도 1에 도시된 HMD 타입의 AR 디바이스(100a)는, 커뮤니케이션 유닛(110), 컨트롤 유닛(120), 메모리 유닛(130), I/O 유닛(140a), 센서 유닛(140b), 그리고 파워 공급 유닛(140c) 등을 포함한다.
여기에서, 커뮤니케이션 유닛(110)은 유무선 통신 기술을 이용하여 다른 AR 디바이스나 AR 서버 등의 외부 장치들과 데이터를 송수신할 수 있다. 예컨대, 커뮤니케이션 유닛(110)는 외부 장치들과 센서 정보, 사용자 입력, 학습 모델, 제어 신호 등을 송수신할 수 있다. 이때, 커뮤니케이션 유닛(110)가 이용하는 통신 기술에는 GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), LTE(Long Term Evolution), WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), 블루투스(Bluetooth™RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), ZigBee, NFC(Near Field Communication) 등이 있다. 특히, XR 디바이스(10a)내 커뮤니케이션 유닛(110)은 이동 단말기(100b)와 유무선 통신이 이루어 진다.
컨트롤 유닛(120)은 상기 응용 프로그램과 관련된 동작 외에도, 통상적으로 AR 디바이스(100a)의 전반적인 동작을 제어한다. 컨트롤 유닛(120)은 AR 디바이스(100a)의 구성요소들을 통해 입력 또는 출력되는 신호, 데이터, 정보 등을 처리하거나 메모리 유닛(130)에 저장된 응용 프로그램을 구동함으로써, 사용자에게 적절한 정보 또는 기능을 제공 또는 처리할 수 있다. 또한, AR 디바이스(100a)의 컨트롤 유닛(120)은 기본적인 제어 기능을 수행하는 모듈로 배터리 소모가 크거나 처리해야할 양이 방대한 경우 연결되어 있는 외부 이동 단말기(100b)를 통하여 수행할 수 있다. 이에 대하여는 이하, 도 3a 및 도 3b를 통하여 상세히 설명하도록 한다.
메모리 유닛(130)은 AR디바이스(100a)의 다양한 기능을 지원하는 데이터를 저장한다. 메모리 유닛(130)는 AR디바이스(100a)에서 구동되는 다수의 응용 프로그램(application program 또는 애플리케이션(application)), 이동 단말기(100)의 동작을 위한 데이터들, 명령어들을 저장할 수 있다. 이러한 응용 프로그램 중 적어도 일부는, 무선 통신을 통해 외부 서버로부터 다운로드 될 수 있다. 또한 이러한 응용 프로그램 중 적어도 일부는, AR디바이스(100a)의 기본적인 기능을 위하여 출고 당시부터 AR디바이스(100a)상에 존재할 수 있다. 한편, 응용 프로그램은, 메모리 유닛(130)에 저장되고, AR디바이스(100a) 상에 설치되어, 컨트롤 유닛(120)에 의하여 상기 이동 단말기의 동작(또는 기능)을 수행하도록 구동될 수 있다.
I/O 유닛(140a)은 Input 유닛과 Output 유닛의 결합으로 입력부와 출력부를 모두 포함할 수 있다. 여기에서, 입력부는, 영상 신호 입력을 위한 카메라 또는 영상 입력부, 오디오 신호 입력을 위한 마이크로폰, 또는 오디오 입력부, 사용자로부터 정보를 입력받기 위한 사용자 입력부(예를 들어, 터치키(touch key), 푸시키(mechanical key) 등)를 포함할 수 있다. 입력부에서 수집한 음성 데이터나 이미지 데이터는 분석되어 사용자의 제어명령으로 처리될 수 있다.
카메라는 화상 통화모드 또는 촬영 모드에서 이미지 센서에 의해 얻어지는 정지영상 또는 동영상 등의 화상 프레임을 처리한다. 처리된 화상 프레임은 디스플레이부에 표시되거나 메모리 유닛(130)에 저장될 수 있다. 한편, 복수의 카메라는 매트릭스 구조를 이루도록 배치될 수 있으며, 이와 같이 매트릭스 구조를 이루는 카메라를 통하여, AR 디바이스(100a)에는 다양한 각도 또는 초점을 갖는 복수의 영상정보가 입력될 수 있다. 또한, 복수의 카메라는 입체영상을 구현하기 위한 좌 영상 및 우 영상을 획득하도록, 스트레오 구조로 배치될 수 있다.
마이크로폰은 외부의 음향 신호를 전기적인 음성 데이터로 처리한다. 처리된 음성 데이터는 AR 디바이스(100a) 에서 수행 중인 기능(또는 실행 중인 응용 프로그램)에 따라 다양하게 활용될 수 있다. 한편, 마이크로폰에는 외부의 음향 신호를 입력 받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 구현될 수 있다.
사용자 입력부는 사용자로부터 정보를 입력받기 위한 것으로서, 사용자 입력부를 통해 정보가 입력되면, 컨트롤 유닛(120)는 입력된 정보에 대응되도록 AR 디바이스(100a) 의 동작을 제어할 수 있다. 이러한, 사용자 입력부는 기계식 (mechanical) 입력수단(또는, 메커니컬 키, 예를 들어, AR 디바이스(100a)의 전·후면 또는 측면에 위치하는 버튼, 돔 스위치 (dome switch), 조그 휠, 조그 스위치 등) 및 터치식 입력수단을 포함할 수 있다. 일 예로서, 터치식 입력수단은, 소프트웨어적인 처리를 통해 터치스크린에 표시되는 가상 키(virtual key), 소프트 키(soft key) 또는 비주얼 키(visual key)로 이루어지거나, 상기 터치스크린 이외의 부분에 배치되는 터치 키(touch key)로 이루어질 수 있다. 한편, 상기 가상키 또는 비주얼 키는, 다양한 형태를 가지면서 터치스크린 상에 표시되는 것이 가능하며, 예를 들어, 그래픽(graphic), 텍스트(text), 아이콘(icon), 비디오(video) 또는 이들의 조합으로 이루어질 수 있다.
출력부는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시키기 위한 것으로, 디스플레이부, 음향 출력부, 햅팁 모듈, 광 출력부 중 적어도 하나를 포함할 수 있다. 디스플레이부는 터치 센서와 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 터치 스크린을 구현할 수 있다. 이러한 터치 스크린은, AR디바이스(100a)와 사용자 사이의 입력 인터페이스를 제공하는 사용자 입력부로써 기능함과 동시에, AR디바이스(100a)와 사용자 사이의 출력 인터페이스를 제공할 수 있다.
음향 출력부는 호신호 수신, 통화모드 또는 녹음 모드, 음성인식 모드, 방송수신 모드 등에서 무선 통신부로부터 수신되거나 메모리 유닛(130)에 저장된 오디오 데이터를 출력할 수 있다. 음향 출력부는 AR디바이스(100a)에서 수행되는 기능(예를 들어, 호신호 수신음, 메시지 수신음 등)과 관련된 음향 신호를 출력하기도 한다. 이러한 음향 출력부에는 리시버(receiver), 스피커(speaker), 버저(buzzer) 등이 포함될 수 있다.
햅틱 모듈(haptic module) 은 사용자가 느낄 수 있는 다양한 촉각 효과를 발생시킨다. 햅틱 모듈이 발생시키는 촉각 효과의 대표적인 예로는 진동이 될 수 있다. 햅틱 모듈에서 발생하는 진동의 세기와 패턴 등은 사용자의 선택 또는 컨트롤 유닛(120)의 설정에 의해 제어될 수 있다. 예를 들어, 상기 햅틱 모듈은 서로 다른 진동을 합성하여 출력하거나 순차적으로 출력할 수도 있다.
광출력부는 AR디바이스(100a)의 광원의 빛을 이용하여 이벤트 발생을 알리기 위한 신호를 출력한다. AR디바이스(100a)에서 발생 되는 이벤트의 예로는 메시지 수신, 호 신호 수신, 부재중 전화, 알람, 일정 알림, 이메일 수신, 애플리케이션을 통한 정보 수신 등이 될 수 있다.
센서 유닛(140b)은 AR 디바이스(100a) 내 정보, AR 디바이스(100a)를 둘러싼 주변 환경 정보 및 사용자 정보 중 적어도 하나를 센싱하기 위한 하나 이상의 센서를 포함할 수 있다. 예를 들어, 센싱 유닛(140b)는 근접센서(proximity sensor), 조도 센서(illumination sensor), 터치 센서(touch sensor), 가속도 센서(acceleration sensor), 자기 센서(magnetic sensor), 중력 센서(G-sensor), 자이로스코프 센서(gyroscope sensor), 모션 센서(motion sensor), RGB 센서, 적외선 센서(IR 센서: infrared sensor), 지문인식 센서(finger scan sensor), 초음파 센서(ultrasonic sensor), 광 센서(optical sensor, 예를 들어, 카메라), 마이크로폰(microphone), 배터리 게이지(battery gauge), 환경 센서(예를 들어, 기압계, 습도계, 온도계, 방사능 감지 센서, 열 감지 센서, 가스 감지 센서 등), 화학 센서(예를 들어, 전자 코, 헬스케어 센서, 생체 인식 센서 등) 중 적어도 하나를 포함할 수 있다. 한편, 본 명세서에 개시된 이동 단말기는, 이러한 센서들 중 적어도 둘 이상의 센서에서 센싱되는 정보들을 조합하여 활용할 수 있다.
파워 공급 유닛(140c)은 컨트롤 유닛(120)의 제어 하에서, 외부의 전원, 내부의 전원을 인가 받아 AR디바이스(100a)에 포함된 각 구성요소들에 전원을 공급한다. 이러한 파워 공급 유닛(140c)는 배터리를 포함하며, 상기 배터리는 내장형 배터리 또는 교체 가능한 형태의 배터리가 될 수 있다.
상기 각 구성요소들 중 적어도 일부는, 이하에서 설명되는 다양한 실시예들에 따른 AR디바이스(100a)의 동작, 제어, 또는 제어 방법을 구현하기 위하여 서로 협력하여 동작할 수 있다. 또한, 상기 이동 단말기의 동작, 제어, 또는 제어방법은 상기 메모리 유닛(130)에 저장된 적어도 하나의 응용 프로그램의 구동에 의하여 AR디바이스(100a) 상에서 구현될 수 있다.
도 2는 본 발명의 일 실시예에 따른 AR 디바이스를 AR 글래스 타입으로 구현한 실시예를 도시하고 있다.
도 2에 도시된 바와 같이, AR 글래스는 프레임, 제어부(200) 및 광학 디스플레이부(300)를 포함할 수 있다. 여기에서, 제어부(200)는 도 1에서 상술한 컨트롤 유닛(120)에 대응할 수 있고, 광학 디스플레이부(300)는 도 1에서 상술한 I/O 유닛(140a)의 하나의 모듈에 대응할 수 있다.
프레임은 도 2에 도시된 바와 같이, 사용자(10)의 신체 중 안면에 착용되는 안경 형태를 가질 수 있으나, 이에 반드시 한정되는 것은 아니고, 사용자(10)의 안면에 밀착되어 착용되는 고글 등의 형태를 가질 수도 있다.
이와 같은 프레임은 전면 프레임(110)과 제1, 2 측면 프레임을 포함할 수 있다.
전면 프레임(110)은 적어도 하나의 개구부를 구비하고, 제1 수평 방향(x)으로 연장될 수 있으며, 제1, 2 측면 프레임은 전면 프레임(110)과 교차하는 제2 수평 방향(y)으로 연장되어 서로 나란하게 연장될 수 있다.
제어부(200)는 사용자(10)에게 보여질 이미지 또는 이미지가 연속되는 영상을 생성할 수 있다. 이와 같은 제어부(200)에는 이미지를 발생시키는 이미지 소스와 이미지 소스에서 발생된 빛을 확산 및 수렴하는 복수의 렌즈 등을 포함할 수 있다. 이와 같이 제어부(200)에서 생성되는 이미지는 제어부(200)와 광학 디스플레이부(300) 사이에 위치하는 가이드 렌즈(P200)을 통해 광학 디스플레이부(300)로 출사될 수 있다.
이와 같은 제어부(200)는 제1, 2 측면 프레임 중 어느 하나의 측면 프레임에 고정될 수 있다. 일례로, 제어부(200)는 어느 하나의 측면 프레임 내측 또는 외측에 고정되거나, 어느 하나의 측면 프레임의 내부에 내장되어 일체로 형성될 수 있다.
광학 디스플레이부(300)는 제어부(200)에서 생성된 이미지가 사용자(10)에게 보여지도록 하는 역할을 수행할 수 있으며, 이미지가 사용자(10)에게 보여지도록 하면서, 개구부를 통하여 외부 환경을 볼 수 있도록 하기 위하여, 반투명 재질로 형성될 수 있다.
이와 같은 광학 디스플레이부(300)는 전면 프레임(110)에 포함된 개구부에 삽입되어 고정되거나, 개부구의 배면[즉 개구부와 사용자(10) 사이]에 위치하여, 전면 프레임(110)에 고정되어 구비될 수 있다. 본 발명에서는 일례로, 광학 디스플레이부(300)가 개구부의 배면에 위치하여, 전면 프레임(110)에 고정된 경우를 일예로 도시하였다.
이와 같은 AR 디바이스는 도 2에 도시된 바와 같이, 제어부(200)에서 이미지에 대한 이미지를 광학 디스플레이부(300)의 입사 영역(S1)으로 입사시키면, 이미지광이 광학 디스플레이부(300)를 통하여, 광학 디스플레이부(300)의 출사 영역(S2)으로 출사되어, 제어부(200)에서 생성된 이미지를 사용자(10)에게 보여지도록 할 수 있다.
이에 따라, 사용자(10)는 프레임(100)의 개구부를 통하여 외부 환경을 보면서 동시에 제어부(200)에서 생성된 이미지를 함께 볼 수 있다.
도 3a 및 도 3b는 본 발명의 일 실시예에 따른 AR 디바이스의 개념도를 설명하는 도면이다.
도 3a를 참조하면, 본 발명의 일 실시예에 따른 AR 디바이스는 다양한 구조를 가질 수 있다. 예를 들어, AR 디바이스는 마이크로폰과 스피커를 포함하는 넥밴드(301)와 디스플레이부와 프로세싱부를 포함하는 글래스(302)를 포함할 수 있다. 이때, AR 디바이스의 내부 입력은 글래스(302)의 버튼을 통하여, 외부 입력은 와치 형태 또는 피젯 스피너 형태의 컨트롤러(303)를 통하여 수행될 수 있다. 또한, 도면에 도시되어 있지는 않으나 AR디바이스는 LTE 모뎀 및 공간 인식 기술 내재화를 위하여 배터리 분리 구조를 가질 수 있다. 이 경우, AR 디바이스는 배터리를 분리함으로써 보다 가벼운 글래스(302)를 구현할 수 있다.
다만, 이러한 AR 디바이스의 경우, 프로세싱부가 글래스(302)에 포함되어 있기 때문에 여전히 글래스(302)의 무게의 경량화가 이루어질 수 없게 된다.
이러한 점을 보완하기 위하여 도 3b를 참조하면, 본 발명의 일 실시예에 따른 AR 디바이스는 이동 단말기(100b)의 프로세싱부를 이용하고, AR 디바이스는 단순히 디스플레이부를 제공하는 글래스(302)로 구현될 수 있다. 이때, AR 디바이스의 내부 입력은 글래스(302)의 버튼을 통하여, 외부 입력은 링 형태의 컨트롤러(303)를 통하여 수행될 수 있다.
AR 디바이스는 서비스에 따라 종류, 속도, 양과 정확도를 고려하여 입력 장치와 기술을 선택해야 한다. 구체적으로, AR 디바이스가 제공하는 서비스가 게임인 경우, 인터랙션의 입력은 방향 키, 뮤트 On/Off 선택 키, 화면 스크롤 키가 필요하며, 장치로는 조이스틱과 스마트폰을 사용할 수 있다. 즉, 인체에 맞는 게임 키(key)를 설계해야 하며, 스마트폰으로 간편하게 키를 입력할 수 있어야 한다. 따라서, 제한된 종류로 빠른 속도 및 적은 양의 입력이 요구된다.
반면, AR 디바이스가 제공하는 서비스가 영화 또는 유튜브와 같은 동영상 재생 서비스인 경우, 인터랙션의 입력은 방향 키, 플레이 백(재생, 이동) 키, 뮤트 On/Off 선택 키, 화면 스크롤 키가 필요하며, 장치로는 글래스, 외부 컨트롤러, 스마트 워치 등을 사용할 수 있다. 즉, 콘텐츠 선택을 위한 방향 키, 재생, 멈춤, 볼륨 조정 키를 입력할 수 있어야 한다. 따라서, 제한된 종류로 보통 속도 및 적은 양의 입력이 요구된다.
또 다른 예로, AR 디바이스가 제공하는 서비스가 드론(drone)인 경우, 인터랙션의 입력은 드론 조정용 방향 키, 특수 기능 On/Off 키, 화면 제어 키가 필요하며, 장치로는 전용 컨트롤러 및 스마트폰을 사용할 수 있다. 즉, 조정 모드와, 좌(스로틀, 러더), 우(피치, 에일러론) 등을 특징으로 하며, 제한된 종류, 보통 속도 및 보통 양의 입력이 요구된다.
마지막으로, AR 디바이스가 제공하는 서비스가 메타버스, 오피스 및 SNS인 경우, 인터랙션의 입력은 언어별 다양한 문자(영문, 한글, 한자, 아랍어 등)가 필요하며, 장치로는 가상 키보드 및 외장 키보드를 사용할 수 있다. 또한, 발광 방식의 가상 키보드는 입력의 정확도가 떨어지고 느리며, 외장 키보드는 화면에 가려 보이지 않기 때문에 손가락의 감각으로 입력해야만 한다. 즉, 다양한 언어 종류를 제공해야 하며 빠른 속도, 많은 양과 정확한 입력이 요구된다.
이에 따라, 본 발명에서는 AR 디바이스가 제공하는 서비스가 메타버스인 경우에 문자 입력 방안에 대하여 상세히 설명하도록 한다.
도 4a 및 도 4b는 종래의 AR 디바이스의 입력 방식의 문제점을 설명하는 도면이다.
도 4a의 (a)를 참조하면, AR 디바이스가 제공하는 가상 키보드를 실제 손가락으로 입력하는 상황을 설명한다. 이러한 혼합 현실 환경 입력의 경우, 단순 컨트롤은 이용이 가능하나 키보드 문자 입력과 같은 정교한 입력은 불가능한 수준이다. 즉, 키보드 자판을 완벽하게 외우고 있지 않은 사용자의 경우에는 사용이 제한적이다.
AR 디바이스가 제공하는 가상 키보드를 실제 손가락으로 입력하는 경우 수렴-조절 불일치(vergence-accommodation conflict) 문제가 발생한다. 즉, 실제 3차원 공간의 눈의 초점이 실상과 허상이 안 맞게 된다. 이때, AR 디바이스는 정확한 입력을 위하여 사용자가 눈알을 얼마나 굴렸는지 정확히 판단해야 하고, 사용자가 보는 것이 정확히 인식되었는지 처리해야 한다.
도 4a의 (b)와 같이 AR 디바이스가 제공하는 가상 키보드를 아이 트래킹(eye tracking)을 통하여 입력하는 경우에도 문제점이 존재한다. 매 음절 간의 분리의 어려움이 있고, 사용자마다 IPD(Inter Pupil Distance)가 다르기 때문에 자판의 경계가 모호해져 시선 처리로 인한 오입력 가능성이 높다.
도 4b의 (a)를 참조하면, 시판되는 대부분의 AR 글래스 형태의 AR 디바이스는 디자인이나 광학계의 소모 전류를 줄이기 위해 보통 투과율 20% 이하의 틴트(Tint)가 적용되어 가상 컨텐츠 위에 실상을 보기가 어렵다. 예를 들어, 2020년에 iLab에서 개발한 NTT DCM 글래스 프로토 타입의 경우 0.4%~16%대의 투과율이 적용된 것을 알 수 있다.
즉, 단일 초점을 가지는 AR 글래스 형태의 AR 디바이스는 보통 원거리(2.5m 이상)를 기준으로 초점이 맞추어져 있기 때문에 원거리 가상 컨텐츠와 40cm 정도의 실상 키보드를 번갈아 보며 타이핑해야하는 불편함이 있다. 도 4b의 (b)를 참조하면, 실상 키보드의 포커스와 가상 키보드의 포커스에 차이가 생겨 어지럼증을 유발할 수 있다.
이에 따라, 본 발명에서는 AR 디바이스를 이용하여 문자를 정확하게 입력할 수 있는 방안에 대하여 자세히 설명하도록 한다.
도 5는 본 발명의 일 실시예에 따른 AR 디바이스의 구성 모듈을 설명하는 도면이다.
도 5를 참조하면, AR 디바이스(500)는 보이스 픽업 센서(501), 아이 트래킹부(502), 입술 모양 트래킹부(503) 및 자동 완성부(504)를 포함할 수 있다. 도 5에 도시된 구성 요소들은 AR 디바이스(500)를 구현하는데 있어서 필수적인 것은 아니어서, 본 명세서 상에서 설명되는 AR 디바이스(500)는 위에서 열거된 구성 요소들 보다 많거나, 또는 적은 구성 요소들을 가질 수 있다. 또한, 앞서 언급된 구성요소들이 모두 첨부된 도면들에서 상세하게 도시되지는 않으며, 중요한 일부 구성요소들만이 첨부된 도면들에서 도시될 수 있다. 그러나, 비록 모두 도시되지는 않지만, 청각 보조 장치로서의 기능을 구현하기 위해, 적어도 도 5의 구성요소들이 AR 디바이스(500)에 포함될 수 있음을 당업자는 이해 가능하다.
도 5를 참조하면, AR 디바이스(500)는 도 1 에서 상술한 AR 디바이스(100a)의 기본 구성 요소를 모두 포함함과 동시에 후술하는 보이스 픽업 센서(501), 아이 트래킹부(502), 입술 모양 트래킹부(503) 및 자동 완성부(504)를 특징으로 할 수 있다.
보이스 픽업 센서(501)는 문자 입력을 확인할 수 있다. 이때, 보이스 픽업 센서(501)는 사용자의 턱 관절의 움직임(Bone Conduction)에 기초하여 하나의 문자 입력을 확인할 수 있다. 즉, 보이스 픽업 센서(501)는 골 전도 센서를 이용해 보이스 없이 한 글자를 얘기하고 있다는 사용자의 의도를 파악할 수 있다. 보이스 픽업 센서(501)에 대하여는 도 6에서 자세히 설명하도록 한다.
아이 트래킹부(502)는 카메라를 통하여 눈동자의 움직임을 감지할 수 있다. 사용자는 입력하기 원하는 낱 글자를 가상 키보드 상에서 순차적으로 응시할 수 있다.
입술 모양 트래킹부(503)는 문자를 유추할 수 있다. 입술 모양 트래킹부(503)는 문자의 범위를 인식할 수 있다. 이때, 입술 모양 트래킹부(503)는 IR 카메라 및 IR 일루미네이터를 통하여 문자를 유추할 수 있다. 여기에서, IR 카메라 및 IR 일루미네이터는 사용자의 입술을 기 설정된 각도에서 촬영하도록 배치될 수 있다. 이에 대하여는 도 7및 도 8에서 자세히 설명하도록 한다. 또한, 입술 모양 트래킹부(503)는 아이 트래킹부(502)가 눈동자를 감지하는 시간에 기초하여 문자를 유추할 수 있다. 이때, 한 글자가 완성될 때까지 입술 모양이 유지될 필요가 있다. 또한, 입술 모양 트래킹부(503)는 인공지능을 이용하여 문자를 유추할 수 있다. 즉, AR 디바이스(500)가 외부 서버와 연결되어 있는 경우, 인공지능 서버로부터 유추 가능한 문자를 수신할 수 있고, 입술 모양 트래킹부(503)가 인식하는 문자와 결합하여 문자를 유추할 수 있다. 또한, 이러한 기능을 통하여 AR 디바이스(500)는 메타버스 가상 환경에서 나의 아바타의 입 모양과 표정을 제공할 수 있다.
자동 완성부(504)는 유추된 문자에 기초하여 단어를 완성할 수 있다. 또한, 자동 완성부(504)는 단어뿐만이 아니라 문장도 자동 완성할 수 있다. 자동 완성부(504)는 초기 몇 문자나 몇 단어가 입력되면 수정 또는 완성된 단어나 문장 후보를 추천할 수 있다. 이때, 자동 완성부(504)는 AR 디바이스(500)에 설치된 OS 및 애플리케이션의 자동 완성 기능을 활용할 수 있다.
또한, 본 발명의 일 실시예에서, AR 디바이스(500)는 아이 트래킹부(502)를 주 입력 수단으로 설정하고, 입술 모양 트래킹부(503)를 보조 입력 수단으로, 자동 완성부(504)를 추가 입력 수단으로 설정할 수 있다. 이는, 입술 모양을 통해서는 자음과 모음의 움직임, 자음 상태로 머물고 있는지 여부 등을 파악할 수 있으나 입술 모양만으로는 동순이음어 때문에 문자를 완벽하게 파악하는 것이 불가능하다. 이러한 점을 보완하기 위하여 AR 디바이스(500)는 아이 트래킹부(502)를 주 입력수단으로 설정할 수 있다.
또한, 도면에 도시되지는 않았으나 AR 디바이스(500)는 디스플레이부를 더 포함할 수 있다. 디스플레이부는 도 1에서 상술한 내용을 참조할 수 있다.
본 발명의 일 실시예에서, 디스플레이부는 문자 입력기(IME)를 출력할 수 있고, 아이 트래킹부(502)를 통하여 감지된 눈동자 움직임에 기초하여 문자 입력기 상에 포인터를 출력할 수 있다. 또한, 디스플레이부는 자동 완성부(504)를 통하여 완성된 단어 또는 문장을 출력할 수 있다. 이에 대하여는 도 11, 도 12a 및 도 12b에서 자세히 설명하도록 한다.
또한, 도면에 도시되지는 않았으나 AR 디바이스(500)는 입력부를 더 포함할 수 있다. 입력부는 도 1에서 상술한 내용을 참조할 수 있다. 본 발명의 일 실시예에서, 보이스 픽업 센서(501)는 입력부를 통하여 수신되는 제어 신호에 기초하여 문자 입력 확인을 시작할 수 있다. 예를 들어, 입력부를 통하여 물리적인 버튼 또는 가상 버튼에 의해 제어 신호가 수신되는 경우, 보이스 픽업 센서(501)는 문자 입력 확인을 시작할 수 있다.
또한, 도면에 도시되지는 않았으나 AR 디바이스(500)는 메모리 유닛을 더 포함할 수 있다. 메모리 유닛은 도 1에서 상술한 내용을 참조할 수 있다. 본 발명의 일 실시예에서, 입술 모양 트래킹부(503)는 메모리 유닛에 포함된 데이터베이스에 기초하여 문자를 유추할 수 있다.
이를 통하여 실상 외장형 키보드, 컨트롤러 없이 편리하게 정교한 문자 입력이 가능하다.
즉, 실외나 정숙을 요구하는 환경에서 AR 디바이스는 글래스 멀티 센싱을 이용해 문자를 정교하게 입력할 수 있다.
AR 디바이스를 착용했을 때 실상인 외장형 키보드는 사용이 쉽지 않다. 가상 컨텐츠를 눈앞에 띄우면 실상인 외장형 키보드는 거의 보이지 않다. 또한, 문자 입력 수단이 가상 키보드인 경우에는 아이 트래킹만을 사용하기 때문에 문자 인식의 정확도가 현저히 낮아지게 된다. 이러한 점을 보완하기 위하여 본 발명의 AR 디바이스는 듣고(listen), 보고(watch), 읽고(read), 쓰고(write), 수정하는(correction) 멀티 센싱 기술을 제공할 수 있다.
입력 받는 멀티 센싱 기술의 조합으로 아이 트래킹만 사용하는 문자 입력 대비 정확도가 크게 향상되고 입력 시간은 줄어들게 된다. 부가 기능으로 아바타의 표정 생성 등으로 메타버스 세계에 활용이 가능하다. 특히, 다른 사람의 시선을 신경써야 하는 다양한 공공 장소(버스나 지하철) 내 문자 입력, 가상 오피스 환경에서 대화면 이나 세컨드 디스플레이를 이용한 이메일 및 문서 작업시, 메타버스 시장(나의 입모양을 반영하여 아바타에 표정을 제공 및 가상 공간에서 소셜 형성), 음성이나 손 입력 활용이 불가능한 청각 및 지체 장애인 이용, 향후 랩탑이나 스마트 기기에 적용이 가능하다.
도 6은 본 발명의 일 실시예에 따른 보이스 픽업 센서를 설명하는 도면이다.
도 6의 (a)를 참조하면, 보이스 픽업 센서가 사용자의 귀 안에 삽입된 경우, 보이스 픽업 센서는 사용자의 턱 관절(skull and jaw)의 움직임(bone conduction)을 감지하여 문자 입력 및 자간을 확인할 수 있다.
도 6의 (b)를 참조하면, “가나다라마바사”를 음성으로 발음한 경우의 파형과, “가나다라마바사”를 입 모양만 발음한 경우의 파형을 나타낸다. 즉, 보이스 픽업 센서가 턱 관절의 움직임을 통하여 감지한 파형과 실제 음성 파형이 거의 유사함을 알 수 있다.
즉, 보이스 픽업 센서는 실제 음성을 감지하지 못하더라도 턱 관절의 움직임을 감지하여 문자 입력 및 자간을 확인할 수 있다. 이를 통하여 시끄러운 환경에서 일반 마이크만 사용하는 경우와 비교하여 50~80%까지 더 정확하게 문자 입력 및 자간을 판단할 수 있다.
도 7은 본 발명의 일 실시예에 따른 AR 디바이스 내에 센서 배치를 설명하는 도면이다.
도 7을 참조하면, 보이스 픽업 센서(701)는 골 전도의 울림을 확인하기 위하여 사용자가 AR 디바이스를 착용했을 때, AR 디바이스의 측면에 위치할 수 있다.
또한, 입술 모양 트래킹부의 카메라(702, 703)는 사용자의 입술을 기 설정된 각도(예를 들어, 30도)에서 촬영하도록 배치될 수 있다. 특히, 입술 모양 트래킹부의 카메라(702, 703)는 도 8에서 후술하듯이 입술 모양만을 파악하면 되기 때문에 입술과의 각도만 정확하면 해상도가 낮은 카메라를 사용해도 무방하다. 또한, IR 카메라와 IR 일루미네이터의 위치는 선택적으로 배치될 수 있다.
마지막으로, 아이 트래킹부의 카메라(704, 705, 706, 707)는 사용자의 눈동자 움직임을 파악하기 위해 사용자의 양 눈의 좌우 방향으로 배치될 수 있다. 아이 트래킹부의 각 카메라가 눈동자 움직임을 파악하는 실시예는 도 9 및 도 10에서 자세히 설명하도록 한다.
도 8은 본 발명의 일 실시예에 따른 입술 트래킹부의 트래킹 결과를 설명하는 도면이다.
도 8을 참조하면, 입술 트래킹부가 입술 모양을 트래킹한 결과를 알 수 있다. 즉, 상술한 IR 카메라 및 IR 일루미네이터를 통하여 사람 입술 모양에 대한 개략적인 모양을 식별할 수 있다. 이때, 입술 트래킹부는 화질이 높은 카메라를 사용할 필요가 없으며 단순히 입술 모양을 식별할 수 있도록 최외곽 경계점(801, 802, 803, 804, 805, 806)을 생성하고, 이들을 잇기 위한 중간 경계점(807, 808, 809, 810)을 생성하고, 이들을 잇는 선을 생성할 수 있다. 이를 통하여, 입술 트래킹부는 각 문자에 대한 입술 모양을 식별할 수 있다.
도 9는 본 발명의 일 실시예에 따른 아이 트래킹부의 동작을 설명하는 도면이다.
도 9의 (a)를 참조하면, 아이 트래킹부의 적외선 카메라(Infrared camera)는 사용자의 눈동자의 동공(901) 및 각막 반사(902, corneal reflection)를 구별하여 식별할 수 있다.
도 9의 (b)를 참조하면, 아이 트래킹부는 IR 소스를 눈알(eye boll)로 출력하여, 눈알의 동공(901)의 중심 및 각만 반사(902) 사이의 벡터를 통하여 시선의 방향을 인지할 수 있다.
도 9의 (c)를 참조하면, 상술한 방법을 통하여 아이 트래킹부는 사용자의 눈동자가 정면을 응시하는지, 카메라의 오른쪽 아래를 보는지, 카메라의 위쪽을 보는지 판단할 수 있다.
도 10은 본 발명의 일 실시예에 따른 아이 트래킹부의 정확도를 설명하는 도면이다.
도 10의 (a)를 참조하면, 사용자가 AR 디바이스를 착용한 후 화면에 있는 점을 응시할 때의 아이 트래킹 결과를 확인하기 위하여, 화면에 있는 점과 사용자와의 거리가 멀어지는 경우에 대한 실험을 나타낸다.
도 10의 (b)를 참조하면, 화면에 있는 점과 사용자와의 거리가 0.5m에서 한 점의 포인트에 대한 표준 편차는 0.91cm 내고, 화면에 있는 점과 사용자와의 거리가 2m에서 한 점의 포인트에 대한 표준 편차는 2.85cm인 것을 알 수 있다.
즉, 가상 키보드를 사용자로부터 50cm 앞에 놓여져 있다고 가정하는 경우, 한 점의 포인트에 대한 표준 편차가 0.91cm 이내이기 때문에 보다 정확한 문자 입력이 가능할 것으로 예상된다.
도 11은 본 발명의 일 실시예에 따른 AR 디바이스의 문자 입력 환경을 설명하는 도면이다.
도 11을 참조하면, AR 디바이스를 착용한 사용자가 볼 수 있는 가상 컨텐츠의 전체 화면 사이즈가 14.3인치(가로 31cm, 세로 18cm)이고, 사용자로부터 50cm 앞에 떨어진 가상 키보드의 사이즈는 11.7인치(가로 28cm, 세로 10cm)에 대응할 수 있다. 이때, 상술한 카메라의 시야각(FOV)은 40도, 해상도는 FHD로 가정할 수 있다.
이 경우, AR 디바이스는 최초로 사용자의 눈동자 움직임에 대한 인식이 정확한지 판단하기 위하여 예시로 3개의 점(1101, 1102, 1103)에 대한 교정(calibration) 작업을 진행할 수 있다. 이후, 교정 작업이 완료되면, AR 디바이스는 아이 트래킹을 통하여 문자 입력을 수신할 수 있다.
도 12a 및 도 12b는 본 발명의 일 실시예에 따른 AR 디바이스에서 문자 입력 결과를 나타내는 도면이다. 도 12a는 가상 키보드로 천지인 자판을 출력하는 실시예를 나타내고, 도 12b는 가상 키보드로 쿼티 자판을 출력하는 실시예를 나타낸다.
도 12a를 참조하면, AR 디바이스의 디스플레이부는 천지인 자판을 출력할 수 있다. 이후, 문자 입력이 시작되면, 보이스 픽업 센서는 사용자의 턱 관절 움직임에 기초하여 하나의 글자 단위를 인식할 수 있다. 이와 동시에 입술 모양 트래킹부는 카메라를 통하여 인식되는 사용자의 인식 모양을 분석하여 문자를 유추할 수 있다. 또한, 이와 동시에 아이 트래킹부는 카메라를 통하여 감지된 눈동자의 움직임에 기초하여 인식되는 포인터(1201)를 천지인 자판상에 출력할 수 있다. 도 12a의 예를 들어 설명하면, 사용자가 “ㄷ”을 발음하고, 천지인 자판에서 “ㄷ”을 응시하는 경우, AR 디바이스는 천지인 자판상에 “ㄷ”의 위치에 포인터(1201)를 출력할 수 있다. 본 발명의 일 실시예에서, 실제로 디스플레이부를 통해 사용자에게 보여지는 화면은 가상 천지인 자판과 포인터(1201)에 대응할 수 있다.
도 12a의 예를 들어 설명하면, 사용자가 “동해ㅁ”을 입 모양을 통해 발음하는 경우, AR 디바이스는 보이스 픽업 센서, 입술 모양 트래킹부 및 아이 트래킹부를 통하여 “동해ㅁ”을 감지할 수 있다. 이후, AR 디바이스는 자동 완성부를 통하여 “동해물과”를 출력할 수 있다. AR 디바이스는 아이 트래킹부를 통하여 사용자의 눈동자 움직임이 이후 자동 완성 단어인 “백두산이”를 응시하는 경우, “동해물과 백두산이”라는 완성된 문장을 출력할 수 있다.
마찬가지로, 도 12b를 참조하면, AR 디바이스의 디스플레이부는 쿼티 자판을 출력할 수 있다. 이후, 문자 입력이 시작되면, 보이스 픽업 센서는 사용자의 턱 관절 움직임에 기초하여 하나의 글자 단위를 인식할 수 있다. 이와 동시에 입술 모양 트래킹부는 카메라를 통하여 인식되는 사용자의 인식 모양을 분석하여 문자를 유추할 수 있다. 또한, 이와 동시에 아이 트래킹부는 카메라를 통하여 감지된 눈동자의 움직임에 기초하여 인식되는 포인터(1201)를 쿼티 자판상에 출력할 수 있다. 도 12b의 예를 들어 설명하면, 사용자가 “ㄷ”을 발음하고, 쿼티 자판에서 “ㄷ”을 응시하는 경우, AR 디바이스는 쿼티 자판상에 “ㄷ”의 위치에 포인터(1201)를 출력할 수 있다. 본 발명의 일 실시예에서, 실제로 디스플레이부를 통해 사용자에게 보여지는 화면은 가상 쿼티 자판과 포인터(1201)에 대응할 수 있다.
또한, AR 디바이스가 자동 완성부를 통하여 단어 또는 문장을 완성하는 실시예는 도 12a에서 상술한 내용과 동일하다.
즉, 기존에는 가상 키보드 이용 시 “ㄴ”과 “ㄹ”을 구분하기 위하여 일정 시간 기다리거나(딜레이 발생) 사용자로부터 추가로 선택을 받았는데, 본 발명에서는 아이 트래킹 및 입술 모양 트래킹을 동시에 수행하여 빠르게 문자를 구분할 수 있다.
도 13은 본 발명의 일 실시예에 따른 AR 디바이스에서 문자 입력에 대한 인식률을 예측한 표를 나타내는 도면이다.
도 13을 참조하면, 표의 세로 목차는 AR 디바이스의 구성 모듈을 나타내고, 표의 가로 목차는 수행하는 기능에 대하여 설명한다.
보다 상세하게는, 보이스 픽업 센서는 최초로 문자 입력 상황을 확인할 수 있다. 즉, 보이스 픽업 센서를 통하여 사용자가 문자를 입력하고자 하는 의도를 파악할 수 있다. 즉, 보이스 픽업 센서를 통하여 사용자의 턱 관절 움직임이 발생하면, AR 디바이스는 아이 트래킹부 및 입술 모양 트래킹부를 통하여 문자 인식을 시작할 수 있다. 보이스 픽업 센서는 골 전도를 이용할 수 있으며, 한문자 단위로 입력되는지 여부를 확인할 수 있다. 이를 통하여, 문자 입력을 확인할 수 있는 수준은 95%로 예측될 수 있다. 또한, 정숙을 요구하지 않는 독립된 공간에서는 골 전도가 아닌 음성으로 인식이 가능하다.
입술 모양 트래킹부는 대략적인 문자 인식이 가능하다. 다만, 입술 모양 트래킹부는 동일한 입 모양에 다른 소리인 동순이의어에 취약하다. 따라서, 아이 트래킹과 함께 문자를 인식할 필요가 있다. 입술 모양 트래킹부를 통하여 문자 인식이 시작되면, 문자 입력을 확인할 수 있는 수준은 100%로 예측될 수 있다.
아이 트래킹부는 정밀한 문자 인식이 가능하다. 즉, 입술 모양 트래킹부를 통하여 인식된 대략적인 문자에 아이 트래킹부를 통하여 인식된 내용을 결합하여 보다 정확한 문자 인식이 가능하다. 특히, 아이 트래킹부는 최적의 위치에서 정확도가 향상되기 때문에 도 11에서 상술한 바와 같이 예시 점을 제공하여 교정 작업을 수행할 수 있다. 아이 트래킹부를 통하여 인식된 문자의 인식률은 95%로 예측될 수 있다.
자동 완성부는 아이 트래킹부와 입술 모양 트래킹부를 통하여 인식된 문자에 대한 수정 및 자동 완성 기능을 제공할 수 있다. 자동 완성부를 통하여 수정 및 자동 완성 기능이 제공된 이후 문자의 인식률은 99%로 향상시키며 입력 시간을 30% 감소시킬 수 있다.
도 14는 본 발명의 일 실시예에 따른 AR 디바이스의 제어 방법을 설명하는 순서도이다.
도 14를 참조하면, 단계(S1401)에서, 사용자의 턱 관절의 움직임에 기초하여 문자 입력을 확인할 수 있다. 이때, 보이스 픽업 센서를 통하여 사용자의 턱 관절의 움직임에 기초하여 문자 입력을 확인할 수 있다. 이때, 한 문자를 기준으로 문자 입력을 확인할 수 있다. 이때, 입력부를 통하여 수신되는 제어 신호에 기초하여 보이스 픽업 센서가 활성화될 수 있다.
단계(S1402)에서, 카메라를 통하여 눈동자의 움직임을 감지할 수 있다.
단계(S1403)에서, IR 카메라 및 IR 일루미네이터를 통하여 문자를 유추할 수 있다. 이때, 눈동자 움직임을 감지하는 시간에 기초하여 문자를 유추할 수 있다. 또한, IR 카메라 및 IR 일루미네이터는 사용자의 입술을 기 설정된 각도(예를 들어, 30도 내지 40도 사이)에서 촬영하도록 배치될 수 있다. 또한, IR 카메라 및 IR 일루미네이터를 통하여 인식된 문자에 더불어 데이터베이스 및 인공지능을 적용하여 문자를 유추할 수 있다.
단계(S1404)에서, 유추된 문자에 기초하여 단어를 완성할 수 있다. 이후, 디스플레이부를 통하여 완성된 단어를 출력할 수 있다.
본 발명의 일 실시예에 따라, AR 디바이스의 최대 과제인 문자 입력에 대한 불편을 해소할 수 있다. 특히, 멀티 센싱을 통해 정교한 입력이 가능하기 때문에 메타버스 AR 글래스 환경에서는 더욱 필요한 기술이 될 것이다.
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 상기 컴퓨터는 영상 편집 장치의 제어부(180)를 포함할 수도 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.
본 발명의 실시예들은 AR 디바이스 및 AR 디바이스의 제어 방법에 있어서 반복적으로 실시 가능하기 때문에 산업상 이용가능성이 있다.

Claims (11)

  1. 문자 입력을 확인하는 보이스 픽업 센서;
    카메라를 통하여 눈동자 움직임을 감지하는 아이 트래킹부;
    상기 문자를 유추하는 입술 모양 트래킹부; 및
    상기 유추된 문자에 기초하여 단어를 완성하는 자동 완성부를 포함하는 것을 특징으로 하는, AR 디바이스.
  2. 제 1 항에 있어서,
    상기 보이스 픽업 센서는 사용자의 턱 관절의 움직임(Bone Conduction)에 기초하여 상기 문자 입력을 확인하는 것을 특징으로 하는 AR 디바이스.
  3. 제 2 항에 있어서,
    상기 입술 모양 트래킹부는 IR 카메라 및 IR 일루미네이터를 통하여 상기 문자를 유추하는 것을 특징으로 하는 AR 디바이스.
  4. 제 3 항에 있어서,
    상기 입술 모양 트래킹부는 상기 아이 트래킹부가 상기 눈동자 움직임을 감지하는 시간에 기초하여 상기 문자를 유추하는 것을 특징으로 하는 AR 디바이스.
  5. 제 4 항에 있어서,
    상기 IR 카메라 및 상기 IR 일루미네이터는 상기 사용자의 입술을 기 설정된 각도에서 촬영하도록 배치되는 것을 특징으로 하는 AR 디바이스.
  6. 제 5 항에 있어서,
    상기 AR 디바이스는 디스플레이부를 더 포함하고,
    상기 디스플레이부는
    문자 입력기를 출력하고, 상기 감지된 눈동자 움직임에 기초하여 상기 문자 입력기 상에 포인터를 더 출력하는 것을 특징으로 하는 AR 디바이스.
  7. 제 6 항에 있어서,
    상기 디스플레이부는 상기 자동 완성부를 통하여 완성된 단어를 출력하는 것을 특징으로 하는, AR 디바이스.
  8. 제 1 항에 있어서,
    상기 AR 디바이스는 입력부를 더 포함하고,
    상기 입력부를 통하여 수신되는 제어 신호에 기초하여 상기 보이스 픽업 센서가 문자 입력 확인을 시작하는 것을 특징으로 하는 AR 디바이스.
  9. 제 1 항에 있어서,
    상기 AR 디바이스는 메모리 유닛을 더 포함하고,
    상기 입술 모양 트래킹부는 상기 메모리 유닛에 포함된 데이터베이스에 기초하여 상기 문자를 유추하는 것을 특징으로 하는 AR 디바이스.
  10. 제 1 항에 있어서,
    상기 입술 모양 트래킹부는 인공지능을 이용하여 상기 문자를 유추하는 것을 특징으로 하는 AR 디바이스.
  11. 사용자의 턱 관절의 움직임에 기초하여 문자 입력을 확인하는 단계;
    카메라를 통하여 눈동자 움직임을 감지하는 단계;
    IR 카메라 및 IR 일루미네이터를 통하여 상기 문자를 유추하는 단계; 및
    상기 유추된 문자에 기초하여 단어를 완성하는 단계를 포함하는, AR 디바이스의 제어 방법.
PCT/KR2021/016104 2021-11-08 2021-11-08 Ar 디바이스 및 ar 디바이스 제어 방법 WO2023080296A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2021/016104 WO2023080296A1 (ko) 2021-11-08 2021-11-08 Ar 디바이스 및 ar 디바이스 제어 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2021/016104 WO2023080296A1 (ko) 2021-11-08 2021-11-08 Ar 디바이스 및 ar 디바이스 제어 방법

Publications (1)

Publication Number Publication Date
WO2023080296A1 true WO2023080296A1 (ko) 2023-05-11

Family

ID=86241682

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/016104 WO2023080296A1 (ko) 2021-11-08 2021-11-08 Ar 디바이스 및 ar 디바이스 제어 방법

Country Status (1)

Country Link
WO (1) WO2023080296A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102023003787A1 (de) 2023-09-18 2023-11-23 Mercedes-Benz Group AG Fahrzeugkomponente

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070061207A (ko) * 2005-12-08 2007-06-13 한국전자통신연구원 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템
KR20140007282A (ko) * 2012-07-09 2014-01-17 엘지전자 주식회사 음성 인식 장치 및 그 방법
KR20150059460A (ko) * 2013-11-22 2015-06-01 홍충식 스마트 폰에서 구화술을 구현하는 방법
KR101810806B1 (ko) * 2013-12-09 2017-12-19 퀄컴 인코포레이티드 컴퓨팅 디바이스의 음성 인식 프로세스의 제어
KR20190070730A (ko) * 2017-12-13 2019-06-21 주식회사 케이티 멀티 입력을 처리하는 장치, 방법 및 컴퓨터 프로그램

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070061207A (ko) * 2005-12-08 2007-06-13 한국전자통신연구원 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템
KR20140007282A (ko) * 2012-07-09 2014-01-17 엘지전자 주식회사 음성 인식 장치 및 그 방법
KR20150059460A (ko) * 2013-11-22 2015-06-01 홍충식 스마트 폰에서 구화술을 구현하는 방법
KR101810806B1 (ko) * 2013-12-09 2017-12-19 퀄컴 인코포레이티드 컴퓨팅 디바이스의 음성 인식 프로세스의 제어
KR20190070730A (ko) * 2017-12-13 2019-06-21 주식회사 케이티 멀티 입력을 처리하는 장치, 방법 및 컴퓨터 프로그램

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102023003787A1 (de) 2023-09-18 2023-11-23 Mercedes-Benz Group AG Fahrzeugkomponente

Similar Documents

Publication Publication Date Title
WO2019013517A1 (en) APPARATUS AND METHOD FOR VOICE CONTROL CONTEXT
WO2018155892A1 (en) Method for displaying virtual image, storage medium and electronic device therefor
WO2016021747A1 (ko) 헤드 마운티드 디스플레이 장치 및 그것의 제어 방법
WO2015199288A1 (en) Glass-type terminal and method of controling the same
WO2018124633A1 (ko) 전자 장치 및 그의 메시지 전달 방법
WO2017126741A1 (ko) Hmd 디바이스 및 그 제어 방법
WO2018143509A1 (ko) 이동 로봇 및 그 제어방법
WO2019164092A1 (ko) 디스플레이를 통해 표시된 제 1 콘텐트에 대해 제 2 콘텐트를 외부 객체의 움직임에 따라 제공하기 위한 전자 장치 및 그의 동작 방법
WO2018052231A1 (ko) 플렉서블 디스플레이를 포함하는 전자 장치
WO2018093005A1 (en) Mobile terminal and method for controlling the same
WO2020159302A1 (ko) 증강 현실 환경에서 다양한 기능을 수행하는 전자 장치 및 그 동작 방법
WO2023080296A1 (ko) Ar 디바이스 및 ar 디바이스 제어 방법
WO2016021907A1 (ko) 웨어러블 디바이스를 이용한 정보처리 시스템 및 방법
WO2021118229A1 (en) Information providing method and electronic device for supporting the same
WO2018097483A1 (ko) 움직임 정보 생성 방법 및 이를 지원하는 전자 장치
WO2020153785A1 (ko) 전자 장치 및 이를 이용한 감정 정보에 대응하는 그래픽 오브젝트를 제공하는 방법
WO2023106895A1 (ko) 가상 입력 장치를 이용하기 위한 전자 장치 및 그 전자 장치에서의 동작 방법
WO2022220659A1 (ko) 전자 장치 및 전자 장치에서 외부 전자 장치를 이용하여 정보를 입력하는 방법
WO2018186642A1 (ko) 전자 장치 및 전자 장치의 화면 표시 방법
WO2016010328A1 (ko) 웨어러블 디바이스를 이용한 정보처리 시스템 및 방법
WO2019216498A1 (en) Electronic device and method for controlling the same
WO2024058439A1 (ko) 가상 공간에 배치되는 아바타 오브젝트의 페르소나를 결정하는 방법 및 장치
WO2022154417A1 (ko) 감정 상태를 식별하는 전자 장치 및 그 운용 방법
WO2024053845A1 (ko) 오브젝트에 기초한 컨텐츠 공유를 제공하는 전자 장치 및 방법
WO2024101579A1 (ko) 멀티미디어 콘텐트를 표시하기 위한 전자 장치 및 그 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21963396

Country of ref document: EP

Kind code of ref document: A1