WO2020091568A4 - 사용자의 의도 예측 방법 및 이를 수행하기 위한 장치 - Google Patents

사용자의 의도 예측 방법 및 이를 수행하기 위한 장치 Download PDF

Info

Publication number
WO2020091568A4
WO2020091568A4 PCT/KR2019/014855 KR2019014855W WO2020091568A4 WO 2020091568 A4 WO2020091568 A4 WO 2020091568A4 KR 2019014855 W KR2019014855 W KR 2019014855W WO 2020091568 A4 WO2020091568 A4 WO 2020091568A4
Authority
WO
WIPO (PCT)
Prior art keywords
user
intention
image
target object
body part
Prior art date
Application number
PCT/KR2019/014855
Other languages
English (en)
French (fr)
Other versions
WO2020091568A1 (ko
Inventor
조규진
조성호
강병현
김대겸
최형민
김규범
Original Assignee
서울대학교 산학협력단
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교 산학협력단, 한국과학기술원 filed Critical 서울대학교 산학협력단
Priority claimed from KR1020190139747A external-priority patent/KR102374448B1/ko
Publication of WO2020091568A1 publication Critical patent/WO2020091568A1/ko
Publication of WO2020091568A4 publication Critical patent/WO2020091568A4/ko
Priority to US17/246,299 priority Critical patent/US20210256250A1/en

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/389Electromyography [EMG]

Definitions

  • Embodiments disclosed herein relate to a method and apparatus for predicting a user's intention through image analysis of a user.
  • a person has an intention for the next action, and performs the desired action according to the intention. For example, if a cup is placed in front of the user, the user intends to hold the cup, that is, after the intention of'grasping', the action of holding the cup is put into action.
  • robots are being used to grasp the intentions of users with uncomfortable behavior and to assist in the activities of daily living (ADL) according to the intentions.
  • bio-signals such as electroencephalogram (EGG), electromyography (EMG) or electrooculogram (EGG) from the user through a sensor, or the user
  • ECG electroencephalogram
  • EMG electromyography
  • ECG electrooculogram
  • the equipment for signal detection is complicated and cumbersome, or the user has to perform additional operations such as pressing a button, which is inconvenient.
  • the above-described background technology is technical information acquired by the inventor for the derivation of the present invention or acquired in the derivation process of the present invention, and is not necessarily a known technology disclosed to the general public before filing the present invention. .
  • Embodiments disclosed herein are intended to provide a method of accurately predicting a user's intention through a simple task of analyzing an image captured by a user.
  • a method of predicting a user's intention through an image photographed by a user includes receiving an image photographing at least a part of the user's body and using spatial information and time information about the user and the target object included in the image And, it includes the step of predicting the intention of the user's next operation.
  • an effect capable of accurately predicting the user's intention for the next operation can be expected through a simple task of analyzing an image captured by the user.
  • a user wears equipment such as a sensor for detecting a biosignal or does not perform an additional operation such as inputting a button to indicate his intention, he or she only needs to wear his or her first person camera for imaging.
  • the intent is accurately predicted and can thus be assisted in movement.
  • FIG. 1 is a diagram illustrating an intention prediction apparatus and a motion assist system including the same, according to an embodiment.
  • FIG. 2 is a diagram illustrating a detailed configuration of an intention prediction apparatus according to an embodiment.
  • FIG. 3 is a diagram illustrating a deep learning network used when predicting intention through image analysis in an intention prediction apparatus according to an embodiment.
  • 4 to 7 are flowcharts for describing an intention prediction method according to embodiments.
  • FIG. 8 is a graph comparing results of predicting intention with an intention prediction method and apparatus according to an embodiment, with results of a method for measuring intention through biosignal detection.
  • a method for predicting a user's intention through an image photographing a user includes receiving an image photographing the user and the above included in the image And predicting an intention for the next operation of the user by using spatial information and time information about the user and the target object.
  • the method for predicting a user's intention comprises: receiving an image captured by the user and the image And predicting an intention of the next operation of the user by using the included spatial information and time information about the user and the target object.
  • a computer-readable recording medium having a program for performing a method for predicting a user's intention through an image captured by a user, wherein the method for predicting the user's intention comprises: It may include the step of receiving and predicting the intention of the next operation of the user by using spatial information and time information about the user and the target object included in the image.
  • the intention predicting apparatus receives an image photographed by a user from the outside and analyzes the image by an input/output unit for outputting an intention for a next operation of the user predicted by analyzing the image
  • a control unit including a storage unit in which a program for predicting the intention of the user's next operation is stored and at least one processor, wherein the control unit executes the program to target the user and target included in the image. Using space information and time information on an object, the user's intention for the next operation may be predicted.
  • a motion assistance system includes a camera 10, a motion assistance device 20, a driving device 30, and an intention prediction device 100.
  • the intention measurement device 100 analyzes to predict the user's intention for'grasping','releasing', or'rest', and is driven to the driving device 30 according to the predicted intention
  • a situation in which the motion assisting device 20 is operated by applying a signal will be described as an example.
  • the camera 10 may photograph a user and transmit the captured image to the intention predicting apparatus 100.
  • the camera 10 shown in FIG. 1 is worn by the user 1 in the form of glasses, so that it is possible to take an image of the first person view. Since the camera 10 captures an image from the first person view point, it is possible to photograph a part of the body, such as the hand or foot of the user 1, in the image. On the other hand, differently, it is also possible to use a camera that is worn on another body part of the user 1, or capable of taking an image from a third person perspective.
  • the motion assisting device 20 is a device for assisting the user's movement, and may serve to help a user with limited mobility to operate according to his intention.
  • FIG. 1 although the motion assist device 20 in the form of a glove worn on the hand of the user 1 is shown, differently, the motion assist device 20 wearable on various body parts of the user 1 may be used.
  • Self-evident The motion assist device 20 is connected to the driving device 30 and is operated by the driving device 30.
  • the driving device 30 operates the motion assist device 20 according to a driving signal received from the intention predicting device 100. For example, when the driving device 30 receives a driving signal corresponding to'holding' from the intention predicting device 100, the driving device 30 operates to bend the glove-shaped motion assist device 20, and, conversely, corresponds to'release'. When the driving signal is received, the motion assist device 20 in the form of a glove can be operated to open.
  • the intention predicting apparatus 100 is a computing device capable of performing a calculation, and may be implemented as, for example, a PC, a laptop, or an embedded computing device implemented to perform various purposes.
  • the intention predicting apparatus 100 may predict the intention for the next operation of the user 1 by analyzing the captured image received from the camera 10. Specifically, the intention predicting apparatus 100 uses the spatial information and temporal information about the user 1 and the target object 2 included in the received image, and then the user 1 You can predict the intent for action.
  • the next operation of the user 1 may mean an operation related to the target object 2. In other words, the user 1 may mean an operation such as grabbing or releasing the target object 2.
  • the intention predicting apparatus 100 uses an image captured through the camera 10 to obtain spatial information and time information about the user 1 and the target object 2
  • various types of mechanical sensors including an IMU (Inertial Measurement Unit) sensor, are mounted on at least one of the user 1 and the target object 2 to obtain spatial and temporal information through them. It might be.
  • the intention predicting apparatus 100 may extract spatial information and time information using signals received from sensors instead of analyzing an image, and use the signals to predict a user's intention.
  • the intention predicting apparatus 100 uses both the image captured through the camera 10 and the data received from sensors installed in at least one of the user 1 and the target object 2, spatial information and time information. It can also be obtained.
  • the intention predicting apparatus 100 may analyze an image using a deep learning network and predict a user's intention for the next operation.
  • the intention predicting apparatus 100 uses a video analysis to predict a user's intention for the next operation. The process will be described in detail with reference to FIG. 2 below.
  • the intention predicting apparatus 100 may include an input/output unit 110, a communication unit 120, a control unit 130, and a storage unit 140.
  • the input/output unit 110 may receive input from the user 1 or the administrator or a captured image from the camera 10. Also, the input/output unit 110 may output an intention for a user's next operation predicted through image analysis. For example, the input/output unit 110 may output a driving signal corresponding to the predicted intention to the driving device 30.
  • the communication unit 120 is a configuration for performing wired/wireless communication with an external device, and may be configured with a communication chipset supporting various types of communication ports, Ethernet communication, and wireless LAN communication.
  • the communication unit 120 may be included in the input/output unit 110. That is, the communication unit 120 may operate to transmit and receive images, data, commands, signals, and the like within the input/output unit 110 through wired or wireless communication with an external device.
  • Various types of programs and data may be stored in the storage 140.
  • a program for predicting intention for the next operation of the user 1 through image analysis of the user 1 is stored in the storage unit 140 and may be executed by the controller 130.
  • the controller 130 is a configuration including at least one processor, such as a CPU, and controls the overall operation of the intention predicting apparatus 100.
  • the controller 130 predicts a user's intention through image analysis by executing a program stored in the storage 140, and for this, the deep learning network illustrated in FIG. 3 may be implemented.
  • the controller 130 may predict the intention of the next operation of the user 1 using spatial information and time information of the user 1 and the target object 2 included in the image received from the camera 10. .
  • the spatial information is information about the shape, size, position, texture, stiffness, and color of an object included in an image at a stopped point of view.
  • pose and user of the body part of the user 1 It may include an interaction (1) between the body part and the target object (2).
  • the spatial information may include a gesture taken by the user 1 hand.
  • the spatial information may include the size, shape, texture, stiffness, and color of the target object 2 to increase the intention prediction accuracy according to the type of the target object 2.
  • the interaction between the body part of the user 1 and the target object 2 included in the spatial information means the distance between the body part of the user 1 and the target object 2 and the user based on the target object 2 ( 1) may include the location and direction of a body part. Depending on how close the distance between the user 1's hand and the target 2 is and how the user 1's hand is approaching the target 2 from which position, This is because the intention for the next operation can be predicted.
  • the time information includes a change in a pose and interaction of a body part of the user 1 according to the passage of time.
  • the user Time information may include a trajectory in which the hand of (1) moves, a speed at which the hand of the user 1 moves toward the target object 2, and the like.
  • the control unit 130 uses a deep learning network to extract spatial information and time information from the captured image and predict the user's intention for the next operation based on the extracted spatial information and time information. That is, the deep learning network implemented by the controller 130 executing the program stored in the storage 140 may receive the captured image as an input and output the predicted intention as a result value.
  • FIG. 3 is a diagram illustrating a deep learning network used when predicting intention through image analysis in an intention prediction apparatus according to an embodiment.
  • a deep learning network according to an embodiment includes a spatial information extractor 310, a time information extractor 320, a pooling layer 330, and a merging layer 340. , A fully-connected layer and an output unit 360.
  • the spatial information extraction unit 310 extracts features of spatial information for each of a plurality of frames constituting an image. Accordingly, the spatial information extraction unit 310 may be implemented as a convolutional neural network (CNN) suitable for learning and testing of 2D image data. The spatial information extraction unit 310 may extract characteristics of spatial information from pixel data included in each frame, and transmit the characteristics of the spatial information to the time information extraction unit 320.
  • CNN convolutional neural network
  • the time information extracting unit 320 may extract a feature of time information included in a continuous frame from features of the spatial information received from the spatial information extracting unit 310. Therefore, the time information extraction unit 320 may be implemented as a Recurrent Neural Network (RNN) suitable for learning and testing of time series data, and in FIG. 3, the time information extraction unit is particularly a long short-term memory (LSTM). An example of implementing 320 is shown.
  • RNN Recurrent Neural Network
  • LSTM long short-term memory
  • the pooling layer 330 performs a task of integrating the characteristics of the time information received from the time information extraction unit 320, and various pooling methods can be used. In FIG. 3, examples of an average pooling method are illustrated. Did.
  • the merging layer 340 combines the features of the temporal information integrated in the pooling layer 330 and the features 311 of the spatial information output from the spatial information extraction unit 310 and transmits them to the fully connected layer 350.
  • the information processed in the fully connected layer 350 is transmitted to the output unit 360, and the output unit 360 outputs the intention for the next operation of the user 1 as a result value.
  • the controller 130 may apply a driving signal to the driving device 30 through the input/output unit 110 according to the intention of the user 1 predicted through the deep learning network. At this time, in order to increase the accuracy of the predicted intention and increase the system efficiency, the controller 130 may use the following two methods.
  • the first method is as follows. Deep learning networks can output a lot of results in a short period of time (e.g., output 24 results per second), so if a driving signal is output in response to all the results, system efficiency decreases and prediction accuracy There may also be a problem of lowering. Therefore, according to an embodiment, the control unit 130 applies a driving signal to the driving device 30, and outputs a result value that occupies more than a preset ratio among a plurality of result values output from the deep learning network for a predetermined period of time. It is possible to select and apply a drive signal corresponding to the selected result value to the drive device 30.
  • the controller 130 corresponds to'catch' Can output a driving signal.
  • the predetermined time and ratio can be appropriately set as needed.
  • the second method is as follows. If the action that the user 1 can take is classified into two or more types, the action that the user 1 wants to take next is likely to be a different action from the action the user 1 is currently taking. Accordingly, the control unit 130 checks the type of the action currently taken by the user, selects only the intention for a driver different from the action currently taken by the user from among intentions output as a result value in the deep learning network for a predetermined period of time, and is selected A driving signal corresponding to the intention may be applied to the driving device 30. For example, if the type of the action currently taken by the user 1 is'catch', the control unit 130 may perform a different type of action such as'drop' except for'catch' among the result values output from the deep learning network. It is possible to select only the intent for and output a driving signal corresponding thereto.
  • this embodiment proposes a guideline for labeling that can increase the intention prediction accuracy.
  • the labeling is performed with the intention of'grab'.
  • the distance between the hand of the user 1 and the target object 2 is less than 2 cm, and the movement speed of the hand of the user 1, that is, the hand of the user 1 approaches the target object 2 If the speed is 0, you can label it with the intent of'grab'.
  • labeling for the intention of'releasing' when the position of the target object 2 and the speed of the body part of the user 1 satisfy certain conditions, the labeling is performed with the intention of'releasing'. For example, if at least a part of the target object 2 is placed in contact with the ground, and the speed of the hand of the user 1 holding the target object 2 is 0 for 3 frames or more, labeling with the intention of'release' can do. These specific criteria can be variously set according to need.
  • an infrared sensor may be installed in the motion assist device 20, and the distance between the hand and the target object measured using this may be reflected during learning.
  • FIGS. 4 to 7 are flowcharts for describing an intention prediction method according to embodiments.
  • an intention prediction method performed by the intention prediction apparatus 100 will be described with reference to FIGS. 1 to 3 together.
  • the intention predicting apparatus 100 receives an image of the user 1.
  • the received captured image may be a first person view image captured by the camera 10.
  • the intention predicting apparatus 100 may predict intention for the next operation of the user 1 using spatial information and time information about the user 1 and the target object 2 included in the received image. .
  • a specific process in which the intention predicting apparatus 100 predicts the intention of the user 1 through image analysis will be described in detail with reference to FIG. 5 below.
  • the intention predicting apparatus 100 may transmit a driving signal to the motion assisting apparatus 20 that assists the user's movement according to the intention predicted in step 402.
  • step 402 of FIG. 4 is a diagram illustrating detailed steps included in step 402 of FIG. 4.
  • step 501 the controller 130 of the intention predicting apparatus 100 applies the received image as an input to the deep learning network.
  • the deep learning network used at this time may include a spatial information extraction unit and a time information extraction unit as shown in FIG. 3.
  • the convolutional neural network constituting the spatial information extraction unit of the deep learning network may extract characteristics of spatial information for each of a plurality of frames constituting an image, and transmit characteristics of the extracted spatial information to the temporal information extraction unit. .
  • the cyclic neural network constituting the time information extraction unit of the deep learning network may extract a feature of time information included in a continuous frame from the received feature of spatial information.
  • the deep learning network may output the intention for the next partner of the user 1 as a result value based on the characteristics of the extracted spatial information and the characteristics of the time information.
  • FIG. 6 is a diagram illustrating detailed steps included in step 403 of FIG. 4.
  • step 601 the controller 130 of the intention predicting apparatus 100 determines whether there is a result value that occupies a predetermined ratio or more among a plurality of result values output during a predetermined time period in the deep learning network. Judge. If there is no result value that occupies a certain ratio or more, the controller ends the process, and if there is a result value that occupies a certain ratio or more, the control proceeds to step 602.
  • step 602 the control unit 130 selects a result value that occupies a predetermined ratio or more among a plurality of result values output for a predetermined period of time, and outputs a driving signal corresponding to the selected result value to the driving device 30 .
  • step 7 is a view showing detailed steps included in step 403 of FIG. 4.
  • step 701 the controller 130 of the intention predicting apparatus 100 checks the type of the action currently taken by the user 1.
  • step 702 the control unit 130 determines whether there is an intention for an operation different from the type of the operation identified in operation 701, among a plurality of result values output during a predetermined time set in the deep learning network. As a result of the determination, if the user 1 has no intention of an operation different from the type of the action currently taken, the process ends, and if the user 1 has an intention of an action different from the type of the action currently taken, the process proceeds to step 703.
  • step 703 the control unit 130 selects an intention for a different operation from the type of the operation currently taken by the user 1, and outputs a driving signal corresponding to the selected intention to the driving device 30.
  • FIG. 8 is a graph comparing results of predicting intention with an intention prediction method and apparatus according to an embodiment, with results of a method for measuring intention through biosignal detection.
  • the graph displayed in the 810 area of the graph shown in FIG. 8 represents the EMG signal detected from the user, and the intention of'grab' or'drop' at the point where the graph corresponding to flexion and extension intersects It can be grasped.
  • the graph displayed on the region 820 represents a result of predicting intention through image analysis according to an embodiment, and shows that there is an intention of either'grab' or'release' as a pulse waveform.
  • the intention predicted through the graph displayed in the region 820 is ahead of the intention predicted through the graph displayed in the region 810. That is, according to the intention prediction method according to an embodiment, it can be confirmed that the intention prediction is faster than the existing method while being accurate.
  • the term' ⁇ unit' used in the above embodiments means software or hardware components such as a field programmable gate array (FPGA) or an ASIC, and' ⁇ unit' performs certain roles. However,' ⁇ wealth' is not limited to software or hardware.
  • The' ⁇ unit' may be configured to be in an addressable storage medium or may be configured to reproduce one or more processors. Thus, as an example,' ⁇ unit' refers to components such as software components, object-oriented software components, class components and task components, processes, functions, attributes, and procedures. , Subroutines, segments of program patent code, drivers, firmware, microcode, circuitry, data, database, data structures, tables, arrays, and variables.
  • the functions provided within the components and' ⁇ units' may be combined into a smaller number of components and' ⁇ units', or separated from additional components and' ⁇ units'.
  • components and' ⁇ unit' may be implemented to play one or more CPUs in the device or secure multimedia card.
  • the intention prediction method according to the embodiment described with reference to FIGS. 4 to 7 may also be implemented in the form of a computer-readable medium storing instructions and data executable by a computer.
  • instructions and data may be stored in the form of program code, and when executed by a processor, a predetermined program module may be generated to perform a predetermined operation.
  • the computer-readable medium can be any available medium that can be accessed by a computer, and includes both volatile and nonvolatile media, removable and non-removable media.
  • the computer-readable medium may be a computer recording medium, which is volatile and non-volatile implemented in any method or technology for storage of information such as computer-readable instructions, data structures, program modules or other data.
  • the computer recording medium may be a magnetic storage medium such as HDD and SSD, an optical recording medium such as CD, DVD and Blu-ray disk, or a memory included in a server accessible through a network.
  • the intention prediction method according to the embodiment described with reference to FIGS. 4 to 7 may be implemented as a computer program (or computer program product) including instructions executable by a computer.
  • the computer program includes programmable machine instructions processed by a processor and may be implemented in a high-level programming language, object-oriented programming language, assembly language, or machine language.
  • the computer program may be recorded on a tangible computer-readable recording medium (eg, memory, hard disk, magnetic/optical medium, or solid-state drive (SSD), etc.).
  • the intention prediction method according to the embodiment described with reference to FIGS. 4 to 7 may be implemented by executing the computer program as described above by the computing device.
  • the computing device may include at least some of a processor, a memory, a storage device, a high-speed interface connected to the memory and a high-speed expansion port, and a low-speed interface connected to the low-speed bus and the storage device.
  • a processor may include at least some of a processor, a memory, a storage device, a high-speed interface connected to the memory and a high-speed expansion port, and a low-speed interface connected to the low-speed bus and the storage device.
  • Each of these components is connected to each other using various buses, and can be mounted on a common motherboard or mounted in other suitable ways.
  • the processor is capable of processing instructions within the computing device, such as to display graphical information for providing a graphical user interface (GUI) on an external input or output device, such as a display connected to a high-speed interface. Examples are commands stored in memory or storage devices. In other embodiments, multiple processors and/or multiple buses may be used in conjunction with multiple memories and memory types as appropriate. Also, the processor may be implemented as a chipset formed by chips including a plurality of independent analog and/or digital processors.
  • Memory also stores information within computing devices.
  • the memory may consist of volatile memory units or a collection thereof.
  • the memory may consist of non-volatile memory units or a collection thereof.
  • the memory may also be other types of computer readable media, such as magnetic or optical disks.
  • the storage device may provide a large storage space for the computing device.
  • the storage device may be a computer-readable medium or a configuration including such a medium, and may include, for example, devices within a storage area network (SAN) or other configurations, and may include floppy disk devices, hard disk devices, optical disk devices, Or a tape device, flash memory, or other similar semiconductor memory device or device array.
  • SAN storage area network

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Veterinary Medicine (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Pathology (AREA)
  • Physiology (AREA)
  • Dentistry (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Child & Adolescent Psychology (AREA)
  • Developmental Disabilities (AREA)
  • Educational Technology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Psychology (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

사용자를 촬영한 영상을 통해 사용자의 의도를 예측하는 방법은, 사용자의 신체 중 적어도 일부를 촬영한 영상을 수신하는 단계 및 상기 영상에 포함된 상기 사용자와 목표물체에 대한 공간정보 및 시간정보를 이용하여, 상기 사용자의 다음 동작에 대한 의도를 예측하는 단계를 포함한다.

Description

사용자의 의도 예측 방법 및 이를 수행하기 위한 장치
본 명세서에서 개시되는 실시예들은 사용자를 촬영한 영상 분석을 통해 사용자의 의도를 예측하는 방법 및 장치에 관한 것이다.
2019년 과제번호 및 사사표기
1. 과제고유번호: 1711081714
2. 사사표기: 본 연구는 과학기술정보통신부 및 한구연구재단의 인간중심 소프트로봇기술 연구센터의 연구결과로 수행되었음(NRF2016R1A5A1938472).
사람은 보통 어떤 동작을 수행하기 전에 해당 동작을 수행하겠다는 생각을 먼저 머릿속에 떠올린다. 다시 말해, 사람은 다음 동작에 대한 의도(intention)를 갖고, 의도에 따라서 목적한 동작을 수행한다. 예를 들면 사용자의 앞에 컵이 놓여있을 경우, 사용자는 컵을 잡아야겠다는 생각, 즉 ‘잡기(grasping)’의 의도를 가진 후, 컵을 잡는 동작을 실행에 옮기게 된다.
그런데 사지마비(quadriplegia) 등의 장애를 가진 사용자의 경우, 어떤 행동에 대한 의도를 갖더라도 그러한 의도가 근육에 제대로 전달되지 못하므로 행동이 의도를 잘 반영하지 못한다. 따라서, 거동이 불편한 사용자들의 의도를 파악하고 파악된 의도에 따라서 일상생활행동(Activities of Daily Living, ADL)을 도와주는 로봇이 이용되고 있다. 이러한 로봇은 센서를 통해 사용자로부터 뇌파도(electroencephalogram, EEG), 근전도(electromyography, EMG) 또는 안전위도(electrooculogram, EOG) 등과 같은 생체신호(bio-signal)를 검출함으로써 의도를 파악하거나, 또는 사용자가 버튼을 누르는 등의 동작을 수행하면 검출되는 기계신호(mechanical signal)를 통해 사람의 다음 동작에 대한 의도를 파악한다.
이와 같이 의도를 파악하는 방법을 이용할 경우, 신호 검출을 위한 장비가 복잡하여 거추장스럽거나, 사용자가 버튼을 누르는 등의 추가적인 동작을 수행해야 하므로 불편한 단점이 있다.
한편, 전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.
본 명세서에서 개시되는 실시예들은, 사용자를 촬영한 영상을 분석하는 간단한 작업을 통해 사용자의 의도를 정확하게 예측(prediction)하는 방법을 제공하고자 한다.
사용자를 촬영한 영상을 통해 사용자의 의도를 예측하는 방법은, 사용자의 신체 중 적어도 일부를 촬영한 영상을 수신하는 단계 및 상기 영상에 포함된 상기 사용자와 목표물체에 대한 공간정보 및 시간정보를 이용하여, 상기 사용자의 다음 동작에 대한 의도를 예측하는 단계를 포함한다.
전술한 과제 해결 수단 중 어느 하나에 의하면, 사용자를 촬영한 영상을 분석하는 간단한 작업을 통해 사용자의 다음 동작에 대한 의도를 정확하게 예측할 수 있는 효과를 기대할 수 있다.
특히, 사용자는 생체신호를 검출하기 위한 센서와 같은 장비를 착용하거나, 자신의 의도를 나타내기 위해 버튼을 입력하는 등의 추가적인 동작을 수행하지 않더라도, 영상 촬영을 위한 1인칭 카메라만 착용하면 자신의 의도가 정확하게 예측되고, 그에 따라 움직임에 대한 보조를 받을 수 있다.
개시되는 실시예들에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 개시되는 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 일 실시예에 따른 의도 예측 장치 및 이를 포함하는 움직임 보조 시스템을 도시한 도면이다.
도 2는 일 실시예에 따른 의도 예측 장치의 상세 구성을 도시한 도면이다.
도 3은 일 실시예에 따른 의도 예측 장치에서 영상 분석을 통한 의도 예측 시 사용하는 딥러닝 네트워크를 도시한 도면이다.
도 4 내지 도 7은 실시예들에 따른 의도 예측 방법을 설명하기 위한 순서도들이다.
도 8은 일 실시예에 따른 의도 예측 방법 및 장치를 이용하여 의도를 예측한 결과를, 생체신호 검출을 통한 의도 측정 방법의 결과와 비교하는 그래프이다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 일 실시예에 따르면, 사용자를 촬영한 영상을 통해 사용자의 의도를 예측하는 방법은, 사용자를 촬영한 영상을 수신하는 단계 및 상기 영상에 포함된 상기 사용자와 목표물체에 대한 공간정보 및 시간정보를 이용하여, 상기 사용자의 다음 동작에 대한 의도를 예측하는 단계를 포함할 수 있다.
다른 실시예에 따르면, 사용자를 촬영한 영상을 통해 사용자의 의도를 예측하는 방법을 수행하기 위한 컴퓨터 프로그램으로서, 사용자의 의도를 예측하는 방법은, 사용자를 촬영한 영상을 수신하는 단계 및 상기 영상에 포함된 상기 사용자와 목표물체에 대한 공간정보 및 시간정보를 이용하여, 상기 사용자의 다음 동작에 대한 의도를 예측하는 단계를 포함할 수 있다.
또 다른 실시예에 따르면, 사용자를 촬영한 영상을 통해 사용자의 의도를 예측하는 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체로서, 사용자의 의도를 예측하는 방법은, 사용자를 촬영한 영상을 수신하는 단계 및 상기 영상에 포함된 상기 사용자와 목표물체에 대한 공간정보 및 시간정보를 이용하여, 상기 사용자의 다음 동작에 대한 의도를 예측하는 단계를 포함할 수 있다.
또 다른 실시예에 따르면, 의도 예측 장치는, 외부로부터 사용자를 촬영한 영상을 수신하고, 상기 영상을 분석함으로써 예측한 상기 사용자의 다음 동작에 대한 의도를 출력하기 위한 입출력부, 상기 영상을 분석함으로써 상기 사용자의 다음 동작에 대한 의도를 예측하기 위한 프로그램이 저장되는 저장부 및 적어도 하나의 프로세서를 포함하는 제어부를 포함하며, 상기 제어부는, 상기 프로그램을 실행함으로써, 상기 영상에 포함된 상기 사용자와 목표물체에 대한 공간정보 및 시간정보를 이용하여, 상기 사용자의 다음 동작에 대한 의도를 예측할 수 있다.
아래에서는 첨부한 도면을 참조하여 다양한 실시예들을 상세히 설명한다. 아래에서 설명되는 실시예들은 여러 가지 상이한 형태로 변형되어 실시될 수도 있다. 실시예들의 특징을 보다 명확히 설명하기 위하여, 이하의 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 널리 알려져 있는 사항들에 관해서 자세한 설명은 생략하였다. 그리고, 도면에서 실시예들의 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 구성이 다른 구성과 "연결"되어 있다고 할 때, 이는 ‘직접적으로 연결’되어 있는 경우뿐 아니라, ‘그 중간에 다른 구성을 사이에 두고 연결’되어 있는 경우도 포함한다. 또한, 어떤 구성이 어떤 구성을 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한, 그 외 다른 구성을 제외하는 것이 아니라 다른 구성들을 더 포함할 수도 있음을 의미한다.
이하 첨부된 도면을 참고하여 실시예들을 상세히 설명하기로 한다.
도 1은 일 실시예에 따른 의도 예측 장치 및 이를 포함하는 움직임 보조 시스템을 도시한 도면이다. 도 1을 참조하면, 일 실시예에 따른 움직임 보조 시스템은, 카메라(10), 움직임 보조 장치(20), 구동 장치(30) 및 의도 예측 장치(100)를 포함한다.
이하에서는 도 1을 참조하여 사용자(1)가 장갑 형태의 움직임 보조 장치(20)를 착용한 상태에서 목표물체(2)를 잡거나 놓는 동작을 수행함에 있어서, 카메라(10)를 통해 촬영한 영상을 의도 측정 장치(100)가 분석함으로써 사용자의 ‘잡기(grasping)’, ‘놓기(releasing)’ 또는 ‘휴식(rest)’에 대한 의도를 예측하고, 예측된 의도에 따라 구동 장치(30)에 구동신호를 인가함으로써 움직임 보조 장치(20)를 동작시키는 상황을 예로 들어 설명한다.
카메라(10)는 사용자를 촬영하고 촬영 영상을 의도 예측 장치(100)에 전송할 수 있다. 도 1에 도시된 카메라(10)는 사용자(1)가 안경 형태로 착용하여 1인칭 시점의 영상 촬영이 가능하다. 카메라(10)는 1인칭 시점에서 영상을 촬영하므로 사용자(1)의 손이나 발 등과 같은 신체 일부가 영상에 나오도록 촬영할 수 있다. 한편 이와 다르게 사용자(1)의 다른 신체 부위에 착용하거나, 또는 3인칭 시점의 영상 촬영이 가능한 카메라를 사용하는 것도 가능하다.
움직임 보조 장치(20)는 사용자의 움직임을 보조하기 위한 장치로서, 특히 거동이 불편한 사용자가 자신의 의도에 따라 동작할 수 있도록 도와주는 역할을 수행할 수 있다. 도 1에서는 사용자(1)의 손에 착용하는 장갑 형태의 움직임 보조 장치(20)가 도시되었으나, 이와 다르게 사용자(1)의 다양한 신체 부위에 착용 가능한 움직임 보조 장치(20)가 이용될 수도 있음은 자명하다. 움직임 보조 장치(20)는 구동 장치(30)에 연결되어 구동 장치(30)에 의해 작동된다.
구동 장치(30)는 의도 예측 장치(100)로부터 수신하는 구동신호에 따라서 움직임 보조 장치(20)를 작동시킨다. 예를 들어, 구동 장치(30)는 의도 예측 장치(100)로부터 ‘잡기’에 대응되는 구동신호를 수신하면 장갑 형태의 움직임 보조 장치(20)가 구부러지도록 작동시키고, 반대로 ‘놓기’에 대응되는 구동신호를 수신하면 장갑 형태의 움직임 보조 장치(20)가 펴지도록 작동시킬 수 있다.
의도 예측 장치(100)는 연산 수행이 가능한 컴퓨팅 장치로서, 예를 들어 PC, 노트북 또는 다양한 목적의 작업을 수행할 수 있도록 구현된 임베디드 컴퓨팅(embedded computing) 장치 등으로 구현될 수 있다. 의도 예측 장치(100)는 카메라(10)로부터 수신한 촬영 영상을 분석함으로써 사용자(1)의 다음 동작에 대한 의도를 예측할 수 있다. 구체적으로, 의도 예측 장치(100)는 수신한 영상에 포함된 사용자(1)와 목표물체(2)에 대한 공간정보(spatial information) 및 시간정보(temporal information)를 이용하여 사용자(1)의 다음 동작에 대한 의도를 예측할 수 있다. 이때, 사용자(1)의 다음 동작이란 목표물체(2)와 관련한 동작을 의미할 수 있다. 다시 말해, 사용자(1)가 목표물체(2)를 대상으로 하는 잡기 또는 놓기 등과 같은 동작을 의미할 수 있다.
한편, 도 1에 대응되는 실시예에서는 의도 예측 장치(100)가 사용자(1)와 목표물체(2)에 대한 공간정보 및 시간정보를 얻기 위해 카메라(10)를 통해 촬영된 영상을 이용하는 것으로 설명하지만, 이와 다르게 사용자(1)와 목표물체(2) 중 적어도 하나 이상에 IMU(Inertial Measurement Unit) 센서를 비롯한 다양한 종류의 기계적 센서(mechanical sensor)를 장착하고 이들을 통해 공간정보 및 시간정보를 획득할 수도 있다. 이와 같이 구현되는 경우 의도 예측 장치(100)는 영상을 분석하는 대신에 센서들로부터 수신한 신호를 이용하여 공간정보 및 시간정보를 추출하고, 이를 이용하여 사용자의 의도를 예측할 수도 있다.
또는, 의도 예측 장치(100)는 카메라(10)를 통해 촬영된 영상과, 사용자(1)와 목표물체(2) 중 적어도 하나에 설치된 센서들로부터 수신하는 데이터들을 모두 이용하여 공간정보 및 시간정보를 획득할 수도 있다.
의도 예측 장치(100)는 딥러닝 네트워크를 이용해 영상을 분석하고 사용자의 다음 동작에 대한 의도를 예측할 수 있는데, 의도 예측 장치(100)가 영상 분석을 통해 사용자의 다음 동작에 대한 의도를 예측하는 구체적인 프로세스는 아래에서 도 2를 참조하여 자세히 설명하도록 한다.
도 2는 일 실시예에 따른 의도 예측 장치의 상세 구성을 도시한 도면이다. 도 2를 참조하면, 일 실시예에 따른 의도 예측 장치(100)는 입출력부(110), 통신부(120), 제어부(130) 및 저장부(140)를 포함할 수 있다.
입출력부(110)는 사용자(1) 또는 관리자로부터 입력을 수신하거나 또는 카메라(10)로부터 촬영 영상을 수신할 수 있다. 또한, 입출력부(110)는 영상 분석을 통해 예측한 사용자의 다음 동작에 대한 의도를 출력할 수 있다. 예를 들어, 입출력부(110)는 예측된 의도에 대응되는 구동신호를 구동 장치(30)에 출력할 수 있다.
통신부(120)는 외부 디바이스와 유무선 통신을 수행하기 위한 구성으로서 다양한 종류의 통신 포트, 이더넷 통신 및 무선 LAN 통신 등을 지원하는 통신 칩셋 등으로 구성될 수 있다. 도 2에서는 통신부(120)가 입출력부(110)와 분리된 구성인 것으로 도시하였으나, 통신부(120)는 입출력부(110)에 포함될 수도 있다. 즉, 통신부(120)는 입출력부(110) 내에서 영상, 데이터, 명령 및 신호 등을 외부 장치와 유무선 통신을 통해 송수신할 수 있도록 동작할 수 있다.
저장부(140)에는 다양항 종류의 프로그램 및 데이터가 저장될 수 있다. 특히, 저장부(140)에는 사용자(1)를 촬영한 영상 분석을 통해 사용자(1)의 다음 동작에 대한 의도를 예측하기 위한 프로그램이 저장되어 제어부(130)에 의해 실행될 수 있다.
제어부(130)는 CPU 등과 같은 적어도 하나의 프로세서를 포함하는 구성으로서, 의도 예측 장치(100)의 전반적인 동작을 제어한다. 특히, 제어부(130)는 저장부(140)에 저장된 프로그램을 실행함으로써 영상 분석을 통해 사용자의 의도를 예측하며, 이를 위해 도 3에 도시된 딥러닝 네트워크를 구현할 수 있다.
제어부(130)는 카메라(10)로부터 수신한 영상에 포함된 사용자(1)와 목표물체(2)에 대한 공간정보 및 시간정보를 이용하여 사용자(1)의 다음 동작에 대한 의도를 예측할 수 있다.
이때 공간정보란, 정지된 시점의 영상에 포함된 객체의 형태, 크기, 위치, 텍스처(texture), 강성 및 색상 등에 대한 정보로서, 구체적으로 사용자(1)의 신체 일부의 포즈(pose) 및 사용자(1)의 신체 일부와 목표물체(2) 간 상호작용(interaction)을 포함할 수 있다. 예를 들어, 사용자(1)의 신체 일부가 손인 경우에 공간정보에는 사용자(1)의 손이 취하는 제스처(gesture)가 포함될 수 있다. 또한, 공간정보에는 목표물체(2)의 크기, 형태, 텍스처, 강성 및 색상 등이 포함됨으로써 목표물체(2)의 종류에 따른 의도 예측 정확도를 높일 수도 있다.
공간정보에 포함되는 사용자(1)의 신체 일부와 목표물체(2) 간 상호작용이란, 사용자(1)의 신체 일부와 목표물체(2) 간 거리, 목표물체(2)를 기준으로 한 사용자(1)의 신체 일부의 위치 및 방향 등을 포함할 수 있다. 사용자(1)의 손과 목표물체(2) 간 거리가 얼마나 가까운지, 그리고 사용자(1)의 손이 어느 위치에서 어떤 방향으로 목표물체(2)를 향해 접근하고 있는지에 따라서 사용자(1)의 다음 동작에 대한 의도를 예측할 수 있기 때문이다.
한편 시간정보란, 시간의 흐름에 따른 사용자(1)의 신체 일부의 포즈 및 상호작용의 변화를 포함한다. 예를 들어, 시간이 흐름에 따라서 사용자(1)의 손이 취하는 제스처가 어떻게 변해가는지, 사용자(1)의 손이 목표물체(2)에 가까워지는지 아니면 목표물체(2)로부터 멀어지는지, 그리고 사용자(1)의 손이 이동하는 궤적(trajectory)이 어떻게 되는지, 사용자(1)의 손이 목표물체(2)를 향해 움직이는 속도가 얼마인지 등이 시간정보에 포함될 수 있다.
제어부(130)는 촬영 영상으로부터 공간정보 및 시간정보를 추출하고, 추출된 공간정보 및 시간정보에 기초하여 사용자(1)의 다음 동작에 대한 의도를 예측하기 위해 딥러닝 네트워크를 이용한다. 즉, 제어부(130)가 저장부(140)에 저장된 프로그램을 실행시킴으로써 구현되는 딥러닝 네트워크가 촬영 영상을 입력으로서 인가받아 예측된 의도를 결과값으로서 출력할 수 있다.
도 3은 일 실시예에 따른 의도 예측 장치에서 영상 분석을 통한 의도 예측 시 사용하는 딥러닝 네트워크를 도시한 도면이다. 도 3을 참조하면, 일 실시예에 따른 딥러닝 네트워크는 공간정보 추출부(310), 시간정보 추출부(320), 풀링 레이어(pooling layer)(330), 머징 레이어(merging layer)(340), 풀리 커넥티드 레이어(fully-connected layer) 및 출력부(360)를 포함할 수 있다.
공간정보 추출부(310)는 영상을 구성하는 복수의 프레임 각각에 대한 공간정보의 특징을 추출한다. 따라서, 공간정보 추출부(310)는 2차원 이미지 데이터의 학습 및 테스트에 적합한 콘볼루션 신경망(Convolution Neural Network, CNN)으로 구현될 수 있다. 공간정보 추출부(310)는 각각의 프레임에 포함된 픽셀 데이터로부터 공간정보의 특징을 추출하고, 이를 시간정보 추출부(320)로 전달할 수 있다.
시간정보 추출부(320)는 공간정보 추출부(310)로부터 수신한 공간정보의 특징으로부터 연속된 프레임에 포함된 시간정보의 특징을 추출할 수 있다. 따라서, 시간정보 추출부(320)는 시계열 데이터의 학습 및 테스트에 적합한 순환 신경망(Recurrent Neural Network, RNN)으로 구현될 수 있으며, 도 3에서는 특히 LSTM(long short-term memory)으로 시간정보 추출부(320)를 구현한 예를 도시하였다.
풀링 레이어(330)는 시간정보 추출부(320)로부터 수신한 시간정보의 특징을 통합하는 작업을 수행하며, 다양한 풀링 방식을 사용할 수 있는데 도 3에서는 에버리지 풀링(average pooling) 방식을 사용하는 예들 도시하였다.
머징 레이어(340)는 풀링 레이어(330)에서 통합된 시간정보의 특징과 공간정보 추출부(310)로부터 출력된 공간정보의 특징(311)을 통합하여 풀리 커넥티드 레이어(350)에 전달한다.
풀리 커넥티드 레이어(350)에서 처리된 정보들은 출력부(360)에 전달되며, 출력부(360)는 사용자(1)의 다음 동작에 대한 의도를 결과값으로서 출력한다.
제어부(130)는 딥러닝 네트워크를 통해 예측된 사용자(1)의 다음 동작에 대한 의도에 따라서, 입출력부(110)를 통해 구동 장치(30)에 구동신호를 인가할 수 있다. 이때, 예측된 의도의 정확도를 높이고 시스템 효율을 높이기 위해 제어부(130)는 다음과 같은 두 가지 방법을 사용할 수 있다.
첫 번째 방법은 다음과 같다. 딥러닝 네트워크는 짧은 시간 동안 상당히 많은 결과값을 출력(예를 들어, 1초에 24개의 결과값 출력)할 수 있으므로, 모든 결과값에 대응하여 구동신호를 출력할 경우 시스템의 효율이 떨어지고 예측 정확도도 낮아지는 문제가 있을 수 있다. 따라서 일 실시예에 따르면, 제어부(130)는 구동 장치(30)에 구동신호를 인가함에 있어서, 미리 설정된 일정 시간 동안 딥러닝 네트워크에서 출력되는 복수의 결과값 중에서 미리 설정된 비율 이상을 차지하는 결과값을 선택하고, 선택된 결과값에 대응되는 구동신호를 구동 장치(30)에 인가할 수 있다. 예를 들어, 딥러닝 네트워크가 1초에 24개의 결과값을 출력한다고 가정하면, 24개의 결과값 중 50%인 12개 이상의 결과값이 ‘잡기’일 경우 제어부(130)는 ‘잡기’에 대응되는 구동신호를 출력할 수 있다. 이때, 일정 시간 및 비율은 필요에 따라서 적절히 설정될 수 있다.
두 번째 방법은 다음과 같다. 사용자(1)가 취할 수 있는 동작을 둘 이상의 종류로 구분한다면, 사용자(1)가 다음에 취하고자 하는 동작은 사용자(1)가 현재 취하고 있는 동작과 다른 종류의 동작일 가능성이 높다. 따라서, 제어부(130)는 사용자가 현재 취한 동작의 종류를 확인하고, 미리 설정된 일정 시간 동안 딥러닝 네트워크에서 결과값으로 출력된 의도 중에서 사용자가 현재 취한 동작과 다른 동자에 대한 의도만을 선택하고, 선택된 의도에 대응되는 구동신호를 구동 장치(30)에 인가할 수 있다. 예를 들어, 사용자(1)가 현재 취한 동작의 종류가 ‘잡기’라면, 제어부(130)는 딥러닝 네트워크에서 출력된 결과값 중에서 ‘잡기’는 제외하고 ‘놓기’와 같이 다른 종류의 동작에 대한 의도만을 선택하고, 그에 대응되는 구동신호를 출력할 수 있다.
이하에서는 본 실시예에서 사용되는 딥러닝 네트워크를 학습시키는 방법에 대해서 설명한다.
딥러닝 네트워크를 학습시키기 위해서는 ‘잡기’, ‘놓기’ 또는 ‘휴식’ 각각의 의도에 대응되는 데이터(영상을 구성하는 하나 이상의 프레임)를 수집하고, 해당 데이터에 대응되는 의도를 라벨링(labeling)해야 한다.
그런데, 보통 어떤 동작을 수행하기 위해서는 둘 이상의 동작이 한꺼번에 일어나고, 그 중 어느 하나의 동작의 시작과 끝에 해당되는 시점을 특정하기가 어려워 라벨링에 어려움이 있을 수 있다. 따라서, 본 실시예에서는 의도 예측 정확도를 높일 수 있는 라벨링을 위한 가이드 라인을 제시한다.
‘잡기’ 의도에 대한 라벨링의 경우, 사용자(1)의 신체 일부와 목표물체(2) 간 거리와 사용자(1)의 신체 일부의 속도가 일정 조건을 만족하는 경우 ‘잡기’ 의도로 라벨링을 한다. 예를 들어, 사용자(1)의 손과 목표물체(2) 간 거리가 2cm 미만이고, 사용자(1)의 손의 이동속도, 즉 사용자(1)의 손이 목표물체(2)를 향해 접근하는 속도가 0이라면 ‘잡기’ 의도로 라벨링을 할 수 있다. 이러한 구체적인 기준은 필요에 따라 다양하게 설정될 수 있다.
‘놓기’ 의도에 대한 라벨링의 경우, 목표물체(2)의 위치 및 사용자(1)의 신체 일부의 속도가 일정 조건을 만족하는 경우 ‘놓기’ 의도로 라벨링을 한다. 예를 들어, 목표물체(2)의 적어도 일부가 지면과 맞닿은 상태로 놓여있고, 목표물체(2)를 잡고 있는 사용자(1)의 손의 속도가 3프레임 이상 동안 0이라면 ‘놓기’ 의도로 라벨링을 할 수 있다. 이러한 구체적인 기준은 필요에 따라 다양하게 설정될 수 있다.
또한, 학습 효과를 높이기 위해서 움직임 보조 장치(20)에 적외선 센서를 설치하고, 이를 이용하여 측정한 손과 목표물체 간 거리를 학습 시 반영할 수도 있다.
도 4 내지 도 7은 실시예들에 따른 의도 예측 방법을 설명하기 위한 순서도들이다. 이하에서는 도 1 내지 3을 함께 참조하여 의도 예측 장치(100)에서 수행되는 의도 예측 방법에 대해서 설명한다.
도 4를 참조하면, 401 단계에서 의도 예측 장치(100)는 사용자(1)를 촬영한 영상을 수신한다. 이때, 수신되는 촬영 영상은 카메라(10)에서 촬영된 1인칭 시점의 영상일 수도 있다.
402 단계에서 의도 예측 장치(100)는 수신한 영상에 포함된 사용자(1)와 목표물체(2)에 대한 공간정보 및 시간정보를 이용하여 사용자(1)의 다음 동작에 대한 의도를 예측할 수 있다. 의도 예측 장치(100)가 영상 분석을 통해 사용자(1)의 의도를 예측하는 구체적인 프로세스는 아래에서 도 5를 참조하여 자세히 설명한다.
403 단계에서 의도 예측 장치(100)는, 402 단계에서 예측된 의도에 따라서, 사용자의 움직임을 보조하는 움직임 보조 장치(20)에 구동신호를 전송할 수 있다.
도 5는 도 4의 402 단계에 포함되는 세부 단계들을 도시한 도면이다.
도 5를 참조하면, 501 단계에서 의도 예측 장치(100)의 제어부(130)는 수신한 영상을 딥러닝 네트워크의 입력으로서 인가한다. 이때 이용되는 딥러닝 네트워크는 도 3에 도시된 바와 같이 공간정보 추출부와 시간정보 추출부를 포함할 수 있다.
502 단계에서 딥러닝 네트워크의 공간정보 추출부를 구성하는 콘볼루션 신경망은 영상을 구성하는 복수의 프레임 각각에 대한 공간정보의 특징을 추출하고, 추출된 공간정보의 특징을 시간정보 추출부에 전달할 수 있다.
503 단계에서 딥러닝 네트워크의 시간정보 추출부를 구성하는 순환 신경망은 수신한 공간정보의 특징으로부터 연속된 프레임에 포함된 시간정보의 특징을 추출할 수 있다.
504 단계에서 딥러닝 네트워크는 추출된 공간정보의 특징 및 시간정보의 특징에 기초하여, 사용자(1)의 다음 동자에 대한 의도를 결과값으로서 출력할 수 있다.
도 6은 도 4의 403 단계에 포함되는 세부 단계들을 도시한 도면이다.
도 6을 참조하면, 601 단계에서 의도 예측 장치(100)의 제어부(130)는 딥러닝 네트워크에서 미리 설정된 일정 시간 동안 출력된 복수의 결과값 중에서 미리 설정된 일정 비율 이상을 차지하는 결과값이 있는지 여부를 판단한다. 제어부는 만약 일정 비율 이상을 차지하는 결과값이 없다면 프로세스를 종료하고, 일정 비율 이상을 차지하는 결과값이 있다면 602 단계로 진행한다.
602 단계에서 제어부(130)는 미리 설정된 일정 시간 동안 출력된 복수의 결과값 중에서 미리 설정된 일정 비율 이상을 차지하는 결과값을 선택하고, 선택된 결과값에 대응되는 구동신호를 구동 장치(30)에 출력한다.
도 7은 도 4의 403 단계에 포함되는 세부 단계들을 도시한 도면이다.
도 7을 참조하면, 701 단계에서 의도 예측 장치(100)의 제어부(130)는 사용자(1)가 현재 취한 동작의 종류를 확인한다.
702 단계에서 제어부(130)는 딥러닝 네트워크에서 미리 설정된 일정 시간 동안 출력된 복수의 결과값 중에서, 701 단계에서 확인된 동작의 종류와 다른 동작에 대한 의도가 있는지 여부를 판단한다. 판단 결과, 사용자(1)가 현재 취한 동작의 종류와 다른 동작에 대한 의도가 없다면 프로세스를 종료하고, 사용자(1)가 현재 취한 동작의 종류와 다른 동작에 대한 의도가 있다면 703 단계로 진행한다.
703 단계에서 제어부(130)는 사용자(1)가 현재 취한 동작의 종류와 다른 동작에 대한 의도를 선택하고, 선택된 의도에 대응되는 구동신호를 구동 장치(30)에 출력한다.
도 8은 일 실시예에 따른 의도 예측 방법 및 장치를 이용하여 의도를 예측한 결과를, 생체신호 검출을 통한 의도 측정 방법의 결과와 비교하는 그래프이다.
도 8에 도시된 그래프 중 810 영역에 표시된 그래프는 사용자로부터 검출된 근전도 신호를 나타내는데, 구부리기(flexion)와 펴기(extension)에 대응되는 그래프가 교차하는 지점에서 ‘잡기’ 또는 ‘놓기’의 의도가 있음을 파악할 수 있다.
한편, 820 영역에 표시된 그래프는 일 실시예에 따라 영상 분석을 통해 의도를 예측한 결과를 나타내며, 펄스 파형으로 ‘잡기’ 또는 ‘놓기’ 중 어느 하나의 의도가 있음을 보여준다.
도 8을 참조하면, 820 영역에 표시된 그래프를 통해 예측되는 의도가 810 영역에 표시된 그래프를 통해 파악되는 의도보다 앞서는 것을 확인할 수 있다. 즉, 일 실시예에 따른 의도 예측 방법에 의할 경우 정확하면서도 기존 방법에 비해 더 빠른 의도 예측이 가능함을 확인할 수 있다.
이상의 실시예들에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field programmable gate array) 또는 ASIC 와 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램특허 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다.
구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로부터 분리될 수 있다.
뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU 들을 재생시키도록 구현될 수도 있다.
도 4 내지 도 7을 통해 설명된 실시예에 따른 의도 예측 방법은 컴퓨터에 의해 실행 가능한 명령어 및 데이터를 저장하는, 컴퓨터로 판독 가능한 매체의 형태로도 구현될 수 있다. 이때, 명령어 및 데이터는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 소정의 프로그램 모듈을 생성하여 소정의 동작을 수행할 수 있다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터 기록 매체일 수 있는데, 컴퓨터 기록 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 예를 들어, 컴퓨터 기록 매체는 HDD 및 SSD 등과 같은 마그네틱 저장 매체, CD, DVD 및 블루레이 디스크 등과 같은 광학적 기록 매체, 또는 네트워크를 통해 접근 가능한 서버에 포함되는 메모리일 수 있다.
또한 도 4 내지 도 7을 통해 설명된 실시예에 따른 의도 예측 방법은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 컴퓨터 프로그램(또는 컴퓨터 프로그램 제품)으로 구현될 수도 있다. 컴퓨터 프로그램은 프로세서에 의해 처리되는 프로그래밍 가능한 기계 명령어를 포함하고, 고레벨 프로그래밍 언어(High-level Programming Language), 객체 지향 프로그래밍 언어(Object-oriented Programming Language), 어셈블리 언어 또는 기계 언어 등으로 구현될 수 있다. 또한 컴퓨터 프로그램은 유형의 컴퓨터 판독가능 기록매체(예를 들어, 메모리, 하드디스크, 자기/광학 매체 또는 SSD(Solid-State Drive) 등)에 기록될 수 있다.
따라서 도 4 내지 도 7을 통해 설명된 실시예에 따른 의도 예측 방법은 상술한 바와 같은 컴퓨터 프로그램이 컴퓨팅 장치에 의해 실행됨으로써 구현될 수 있다. 컴퓨팅 장치는 프로세서와, 메모리와, 저장 장치와, 메모리 및 고속 확장포트에 접속하고 있는 고속 인터페이스와, 저속 버스와 저장 장치에 접속하고 있는 저속 인터페이스 중 적어도 일부를 포함할 수 있다. 이러한 성분들 각각은 다양한 버스를 이용하여 서로 접속되어 있으며, 공통 머더보드에 탑재되거나 다른 적절한 방식으로 장착될 수 있다.
여기서 프로세서는 컴퓨팅 장치 내에서 명령어를 처리할 수 있는데, 이런 명령어로는, 예컨대 고속 인터페이스에 접속된 디스플레이처럼 외부 입력, 출력 장치상에 GUI(Graphic User Interface)를 제공하기 위한 그래픽 정보를 표시하기 위해 메모리나 저장 장치에 저장된 명령어를 들 수 있다. 다른 실시예로서, 다수의 프로세서 및(또는) 다수의 버스가 적절히 다수의 메모리 및 메모리 형태와 함께 이용될 수 있다. 또한 프로세서는 독립적인 다수의 아날로그 및(또는) 디지털 프로세서를 포함하는 칩들이 이루는 칩셋으로 구현될 수 있다.
또한 메모리는 컴퓨팅 장치 내에서 정보를 저장한다. 일례로, 메모리는 휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 다른 예로, 메모리는 비휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 또한 메모리는 예컨대, 자기 혹은 광 디스크와 같이 다른 형태의 컴퓨터 판독 가능한 매체일 수도 있다.
그리고 저장장치는 컴퓨팅 장치에게 대용량의 저장공간을 제공할 수 있다. 저장 장치는 컴퓨터 판독 가능한 매체이거나 이런 매체를 포함하는 구성일 수 있으며, 예를 들어 SAN(Storage Area Network) 내의 장치들이나 다른 구성도 포함할 수 있고, 플로피 디스크 장치, 하드 디스크 장치, 광 디스크 장치, 혹은 테이프 장치, 플래시 메모리, 그와 유사한 다른 반도체 메모리 장치 혹은 장치 어레이일 수 있다.
상술된 실시예들은 예시를 위한 것이며, 상술된 실시예들이 속하는 기술분야의 통상의 지식을 가진 자는 상술된 실시예들이 갖는 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 상술된 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 명세서를 통해 보호받고자 하는 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태를 포함하는 것으로 해석되어야 한다.

Claims (24)

  1. 사용자를 촬영한 영상을 통해 사용자의 의도를 예측하는 방법에 있어서,
    사용자를 촬영한 영상을 수신하는 단계; 및
    상기 영상에 포함된 상기 사용자와 목표물체에 대한 공간정보 및 시간정보를 이용하여, 상기 사용자의 다음 동작에 대한 의도를 예측하는 단계를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 공간정보는,
    상기 사용자의 신체 일부의 포즈(pose) 및 상기 사용자의 신체 일부와 상기 목표물체 간 상호작용(interaction)을 포함하는 것을 특징으로 하는 방법.
  3. 제2항에 있어서,
    상기 공간정보는,
    상기 목표물체의 크기, 형태, 텍스처(texture), 강성 및 색상 중 적어도 하나 이상을 더 포함하는 것을 특징으로 하는 방법.
  4. 제2항에 있어서,
    상기 상호작용은,
    상기 신체 일부와 상기 목표물체 간 거리, 상기 목표물체를 기준으로 한 상기 신체 일부의 위치 및 방향 중 적어도 하나를 포함하는 것을 특징으로 하는 방법.
  5. 제1항에 있어서,
    상기 시간정보는,
    시간의 흐름에 따른 상기 사용자의 신체 일부의 포즈 및 상기 상호작용의 변화를 포함하는 것을 특징으로 하는 방법.
  6. 제5항에 있어서,
    상기 시간정보는,
    상기 신체 일부가 움직이는 궤적(trajectory) 및 상기 신체 일부가 상기 목표물체를 향해 움직이는 속도 중 적어도 하나를 포함하는 것을 특징으로 하는 방법.
  7. 제1항에 있어서,
    상기 예측하는 단계는,
    상기 영상을 딥러닝 네트워크의 입력으로서 인가하는 단계;
    상기 딥러닝 네트워크에 포함된 콘볼루션 신경망(Convolution Neural Network, CNN)을 통해, 상기 영상을 구성하는 복수의 프레임 각각에 대한 공간정보의 특징을 추출하는 단계;
    상기 딥러닝 네트워크에 포함된 순환 신경망(Recurrent Neural Network, RNN)을 통해, 상기 추출된 공간정보의 특징으로부터 연속된 프레임에 포함된 시간정보의 특징을 추출하는 단계; 및
    상기 추출된 공간정보의 특징 및 시간정보의 특징에 기초하여, 상기 다음 동작에 대한 의도를 결과값으로서 출력하는 단계를 포함하는 것을 특징으로 하는 방법.
  8. 제7항에 있어서,
    상기 예측된 의도에 따라서, 상기 사용자의 움직임을 보조하는 장치에 구동신호를 인가하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  9. 제8항에 있어서,
    상기 구동신호를 인가하는 단계는,
    미리 설정된 일정 시간 동안 상기 딥러닝 네트워크에서 출력되는 복수의 결과값 중에서 미리 설정된 일정 비율 이상을 차지하는 결과값을 선택하는 단계; 및
    상기 선택된 결과값에 대응되는 구동신호를 인가하는 단계를 포함하는 것을 특징으로 하는 방법.
  10. 제8항에 있어서,
    상기 사용자가 취할 수 있는 동작은 적어도 둘 이상의 종류로 구분되며,
    상기 구동신호를 인가하는 단계는,
    상기 사용자가 현재 취한 동작의 종류를 확인하는 단계;
    미리 설정된 일정 시간 동안 상기 딥러닝 네트워크에서 결과값으로 출력된 의도 중에서 상기 확인된 동작의 종류와 다른 동작에 대한 의도만을 선택하는 단계; 및
    상기 선택된 의도에 대응되는 구동신호를 인가하는 단계를 포함하는 것을 특징으로 하는 방법.
  11. 제1항에 있어서,
    상기 사용자를 촬영한 영상은,
    상기 사용자의 1인칭 시점에서 상기 사용자의 신체 중 적어도 일부가 나오도록 촬영한 영상인 것을 특징으로 하는 방법.
  12. 제1항에 기재된 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
  13. 의도 예측 장치에 의해 수행되며, 제1항에 기재된 방법을 수행하기 위해 매체에 저장된 컴퓨터 프로그램.
  14. 의도 예측 장치에 있어서,
    외부로부터 사용자를 촬영한 영상을 수신하고, 상기 영상을 분석함으로써 예측한 상기 사용자의 다음 동작에 대한 의도를 출력하기 위한 입출력부;
    상기 영상을 분석함으로써 상기 사용자의 다음 동작에 대한 의도를 예측하기 위한 프로그램이 저장되는 저장부; 및
    적어도 하나의 프로세서를 포함하는 제어부를 포함하며,
    상기 제어부는,
    상기 프로그램을 실행함으로써, 상기 영상에 포함된 상기 사용자와 목표물체에 대한 공간정보 및 시간정보를 이용하여, 상기 사용자의 다음 동작에 대한 의도를 예측하는, 장치.
  15. 제14항에 있어서,
    상기 공간정보는,
    상기 사용자의 신체 일부의 포즈(pose) 및 상기 사용자의 신체 일부와 상기 목표물체 간 상호작용(interaction)을 포함하는 것을 특징으로 하는 장치.
  16. 제15항에 있어서,
    상기 공간정보는,
    상기 목표물체의 크기, 형태, 텍스처(texture), 강성 및 색상 중 적어도 하나 이상을 더 포함하는 것을 특징으로 하는 장치.
  17. 제15항에 있어서,
    상기 상호작용은,
    상기 신체 일부와 상기 목표물체 간 거리, 상기 목표물체를 기준으로 한 상기 신체 일부의 위치 및 방향 중 적어도 하나를 포함하는 것을 특징으로 하는 장치.
  18. 제14항에 있어서,
    상기 시간정보는,
    시간의 흐름에 따른 상기 사용자의 신체 일부의 포즈 및 상기 상호작용의 변화를 포함하는 것을 특징으로 하는 장치.
  19. 제18항에 있어서,
    상기 시간정보는,
    상기 신체 일부가 움직이는 궤적(trajectory) 및 상기 신체 일부가 상기 목표물체를 향해 움직이는 속도 중 적어도 하나를 포함하는 것을 특징으로 하는 장치.
  20. 제14항에 있어서,
    상기 제어부가 상기 프로그램을 실행시킴으로써 구현되며, 상기 영상을 입력으로서 인가받는 딥러닝 네트워크는,
    상기 영상을 구성하는 복수의 프레임 각각에 대한 공간정보의 특징을 추출하는 공간정보 추출부;
    상기 추출된 공간정보의 특징으로부터 연속된 프레임에 포함된 시간정보의 특징을 추출하는 시간정보 추출부; 및
    상기 공간정보 추출부 및 시간정보 추출부의 출력에 기초하여, 상기 다음 동작에 대한 의도를 결과값으로서 출력하는 의도 출력부를 포함하는 것을 특징으로 하는 장치.
  21. 제20항에 있어서,
    상기 제어부는,
    상기 예측된 의도에 따라서, 상기 입출력부를 통해 상기 사용자의 움직임을 보조하는 장치에 구동신호를 인가하는 것을 특징으로 하는 장치.
  22. 제21항에 있어서,
    상기 제어부는,
    상기 구동신호를 인가함에 있어서, 미리 설정된 일정 시간 동안 상기 딥러닝 네트워크에서 출력되는 복수의 결과값 중에서 미리 설정된 비율 이상을 차지하는 결과값을 선택하고, 상기 선택된 결과값에 대응되는 구동신호를 인가하는 것을 특징으로 하는 장치.
  23. 제21항에 있어서,
    상기 사용자가 취할 수 있는 동작은 적어도 둘 이상의 종류로 구분되며,
    상기 제어부는,
    상기 구동신호를 인가함에 있어서, 상기 사용자가 현재 취한 동작의 종류를 확인하고, 미리 설정된 일정 시간 동안 상기 딥러닝 네트워크에서 결과값으로 출력된 의도 중에서 상기 확인된 동작의 종류와 다른 동작에 대한 의도만을 선택하고, 상기 선택된 의도에 대응되는 구동신호를 인가하는 것을 특징으로 하는 장치.
  24. 제14항에 있어서,
    상기 사용자를 촬영한 영상은,
    상기 사용자의 1인칭 시점에서 상기 사용자의 신체 중 적어도 일부가 나오도록 촬영한 영상인 것을 특징으로 하는 장치.
PCT/KR2019/014855 2018-11-02 2019-11-04 사용자의 의도 예측 방법 및 이를 수행하기 위한 장치 WO2020091568A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/246,299 US20210256250A1 (en) 2018-11-02 2021-04-30 Method for predicting intention of user and apparatus for performing same

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2018-0133652 2018-11-02
KR20180133652 2018-11-02
KR10-2019-0139747 2019-11-04
KR1020190139747A KR102374448B1 (ko) 2018-11-02 2019-11-04 사용자의 의도 예측 방법 및 이를 수행하기 위한 장치

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/246,299 Continuation US20210256250A1 (en) 2018-11-02 2021-04-30 Method for predicting intention of user and apparatus for performing same

Publications (2)

Publication Number Publication Date
WO2020091568A1 WO2020091568A1 (ko) 2020-05-07
WO2020091568A4 true WO2020091568A4 (ko) 2020-06-11

Family

ID=70464695

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/014855 WO2020091568A1 (ko) 2018-11-02 2019-11-04 사용자의 의도 예측 방법 및 이를 수행하기 위한 장치

Country Status (1)

Country Link
WO (1) WO2020091568A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4674725B2 (ja) * 2005-09-22 2011-04-20 国立大学法人 奈良先端科学技術大学院大学 移動物体計測装置、移動物体計測システム、および移動物体計測方法
KR20080078217A (ko) * 2007-02-22 2008-08-27 정태우 영상에 포함된 객체 색인 방법과 그 색인 정보를 이용한부가 서비스 방법 및 그 영상 처리 장치
JP4976903B2 (ja) * 2007-04-05 2012-07-18 本田技研工業株式会社 ロボット
JP6322927B2 (ja) * 2013-08-14 2018-05-16 富士通株式会社 インタラクション装置、インタラクションプログラムおよびインタラクション方法
KR101678136B1 (ko) * 2014-11-19 2016-11-23 한양대학교 산학협력단 운동 궤적 분석을 이용한 훈련 방법 및 장치

Also Published As

Publication number Publication date
WO2020091568A1 (ko) 2020-05-07

Similar Documents

Publication Publication Date Title
WO2019088462A1 (ko) 혈압 추정 모델 생성 시스템 및 방법과 혈압 추정 시스템 및 방법
WO2018217060A1 (en) Method and wearable device for performing actions using body sensor array
US20210256250A1 (en) Method for predicting intention of user and apparatus for performing same
WO2020242239A1 (ko) 앙상블 학습 알고리즘을 이용한 인공지능 기반 진단 보조 시스템
WO2017164478A1 (ko) 미세 얼굴 다이나믹의 딥 러닝 분석을 통한 미세 표정 인식 방법 및 장치
WO2018048000A1 (ko) 단일 카메라 기반의 3차원 영상 해석 장치 및 방법, 3차원 영상 해석을 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 매체
WO2011016649A2 (ko) 얼굴변화 검출 시스템 및 얼굴변화 감지에 따른 지능형 시스템
WO2021071288A1 (ko) 골절 진단모델의 학습 방법 및 장치
WO2017142223A1 (en) Remote image transmission system, display apparatus, and guide displaying method thereof
WO2022131642A1 (ko) 의료 영상 기반 질환 중증도 결정 장치 및 방법
WO2019240330A1 (ko) 영상 기반 힘 예측 시스템 및 그 방법
WO2022145841A1 (ko) 병변 판독 방법 및 이를 위한 장치
WO2020091568A4 (ko) 사용자의 의도 예측 방법 및 이를 수행하기 위한 장치
Bandini et al. A wearable vision-based system for detecting hand-object interactions in individuals with cervical spinal cord injury: First results in the home environment
WO2019164273A1 (ko) 수술영상을 기초로 수술시간을 예측하는 방법 및 장치
WO2022182096A1 (en) Real-time limb motion tracking
WO2016021829A1 (ko) 동작 인식 방법 및 동작 인식 장치
Kolkar et al. Issues and challenges in various sensor-based modalities in human activity recognition system
WO2019208933A1 (ko) 사용자 인증을 위한 장치 및 방법
WO2022075543A1 (ko) 멀티모달센서를 이용한 이상탐지 방법 및 이를 수행하기 위한 컴퓨팅 장치
Shahid et al. Data-driven automated detection of autism spectrum disorder using activity analysis: A review
WO2024048944A1 (en) Apparatus and method for detecting a user intent for image capturing or video recording
WO2022173180A1 (ko) 입술 움직임 정보 분석 방법 및 장치
Sahadat et al. Standalone assistive system to employ multiple remaining abilities in people with tetraplegia
WO2022035282A1 (ko) 움직임코드 기반 감성행동 분석 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19880823

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19880823

Country of ref document: EP

Kind code of ref document: A1