WO2023068756A1 - 멀티 모달리티를 제공하는 웨어러블 디바이스 및 이의 동작 방법 - Google Patents

멀티 모달리티를 제공하는 웨어러블 디바이스 및 이의 동작 방법 Download PDF

Info

Publication number
WO2023068756A1
WO2023068756A1 PCT/KR2022/015862 KR2022015862W WO2023068756A1 WO 2023068756 A1 WO2023068756 A1 WO 2023068756A1 KR 2022015862 W KR2022015862 W KR 2022015862W WO 2023068756 A1 WO2023068756 A1 WO 2023068756A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
data
pwm signal
wearable device
modality
Prior art date
Application number
PCT/KR2022/015862
Other languages
English (en)
French (fr)
Inventor
이동섭
김학중
동열 이다니엘
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020220116642A external-priority patent/KR20230055947A/ko
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to EP22883979.1A priority Critical patent/EP4354259A4/en
Priority to CN202280062566.XA priority patent/CN117980865A/zh
Priority to US18/126,862 priority patent/US20230239618A1/en
Publication of WO2023068756A1 publication Critical patent/WO2023068756A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/028Casings; Cabinets ; Supports therefor; Mountings therein associated with devices performing functions other than acoustics, e.g. electric candles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/163Wearable computers, e.g. on a belt
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/016Input arrangements with force or tactile feedback as computer generated output to the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04815Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2400/00Loudspeakers
    • H04R2400/03Transducers capable of generating both sound as well as tactile vibration, e.g. as used in cellular phones

Definitions

  • the present disclosure relates to a wearable device and an operating method thereof. Specifically, the present disclosure relates to a wearable device that generates an image, text, and sound not included in the source data from source data, and generates a PWM signal corresponding to a tactile modality from the sound, and an operating method thereof.
  • a wearable device may provide a user with an improved device use experience by providing multi-modality to the user while performing an operation of the wearable device.
  • tactile modality is attracting attention as a key modality that gives users a sense of immersion in sound, image, and text.
  • the tactile modality may be transmitted as haptic feedback corresponding to sound, image, and text to a user wearing a wearable device.
  • a method of operating a wearable device providing multi-modality may include acquiring source data including at least one of image data, text data, and sound data.
  • the operating method of the wearable device may include determining whether the source data includes the image data, the text data, and the sound data.
  • the method of operating the wearable device may include, when at least one of the image data, the text data, and the sound data is not included in the source data, using a neural network that takes the source data as an input, and includes the source data It may include generating the image data, the text data, and the sound data that have not been edited.
  • the method of operating the wearable device may include generating a Pulse Width Modulation (PWM) signal based on the sound data.
  • PWM Pulse Width Modulation
  • the operating method of the wearable device may include outputting the multi-modality based on the image data, the text data, the sound data, and the PWM signal.
  • a wearable device providing multi-modality may include a display.
  • the wearable device may include a speaker.
  • a wearable device may include at least one actuator.
  • the wearable device may include a memory storing one or more instructions.
  • the wearable device may include at least one processor that executes one or more instructions stored in the memory.
  • the at least one processor may execute the one or more instructions to obtain source data including at least one of image data, text data, and sound data.
  • the at least one processor may execute the one or more instructions for determining whether the source data includes the image data, the text data, and the sound data.
  • the at least one processor uses a neural network that takes the source data as an input and includes the source data.
  • the at least one processor may execute the one or more instructions for generating a Pulse Width Modulation (PWM) signal based on the sound data.
  • PWM Pulse Width Modulation
  • the at least one processor controls the display, the speaker, and the at least one actuator to output the multi-modality based on the image data, the text data, the sound data, and the PWM signal.
  • One or more instructions can be executed.
  • a computer-readable recording medium on which a program to be executed by a computer is recorded is provided.
  • FIG. 1 is a conceptual diagram illustrating a wearable device providing multi-modality according to an embodiment.
  • FIG. 2 is a block diagram for explaining an operation of a wearable device according to an exemplary embodiment.
  • FIG. 3 is a block diagram illustrating a method for learning an adversarial generative neural network according to an exemplary embodiment.
  • 4a and 4b are block diagrams showing the PWM signal generator of FIG. 2 in more detail.
  • FIG. 5 is a conceptual diagram illustrating a method of adjusting a PWM signal based on a user input by a wearable device according to an embodiment.
  • FIG. 6 is a conceptual diagram for explaining a method in which a wearable device adjusts a PWM signal using a curve weight factor according to an embodiment.
  • FIGS. 7A to 7C are conceptual diagrams for explaining a method for a wearable device to adjust a PWM signal based on user speech characteristics according to an embodiment.
  • FIG. 8 is a conceptual diagram for explaining an effect of a wearable device according to an embodiment.
  • 9A is a flowchart illustrating a method of operating a wearable device according to an exemplary embodiment.
  • 9B is a flowchart illustrating a method of determining whether image data, text data, and sound data are included in source data according to an exemplary embodiment.
  • 9c and 9d are flowcharts illustrating a method of generating a PWM signal based on sound data according to an exemplary embodiment.
  • FIG. 10 is a block diagram illustrating a configuration of a wearable device according to an exemplary embodiment.
  • FIGS. 11A to 11C are diagrams illustrating a configuration of a wearable device according to an embodiment.
  • 12A and 12B are diagrams illustrating a user interface for controlling an operation of an actuator according to an exemplary embodiment.
  • FIGS. 13A and 13B are conceptual diagrams for explaining a haptic illusion effect according to an exemplary embodiment.
  • the term “user” means a person who controls a system, function, or operation, and may include a developer, administrator, or installer.
  • “modality” refers to a sensory channel (eg, a visual channel, an auditory channel, or a tactile channel) for interaction with a user wearing a wearable device or a signal, information, or data input and output through a sensory channel. etc. can be shown.
  • the auditory modality represents an audio signal output through an auditory channel (eg, a speaker)
  • the visual modality represents text, image, or video data output through a visual channel (eg, a display)
  • the tactile modality represents A vibration signal output through a tactile channel (eg, an actuator, etc.) may be indicated.
  • multi-channel may include channels separated in a frequency domain.
  • each of a plurality of filters for separating a sound signal into a specific frequency domain may correspond to one of the multi-channels.
  • PWM signals corresponding to each of the filtered signals may be transmitted to the actuator through individual channels.
  • one actuator may correspond to one channel.
  • a 'neural network' is a representative example of an artificial neural network model that mimics a cranial nerve, and is not limited to an artificial neural network model using a specific algorithm.
  • FIG. 1 is a conceptual diagram illustrating a wearable device providing multi-modality according to an embodiment.
  • the wearable device 100 may provide multi-modality to the user 10 .
  • the wearable device 100 may include at least one of a head mounted display, a smart watch, a smart band, and smart clothing, but the present disclosure is limited thereto and may include any device that the user 10 can wear or interact with.
  • the multi-modality may include a visual modality, an auditory modality, and a tactile modality, but the present disclosure is not limited thereto, and any modality capable of interacting with various sensory organs of the user 10 (eg, olfactory sense) , taste, etc.) may be further included.
  • the multi-modality provided by the wearable device 100 includes a visual modality, an auditory modality, and a tactile modality.
  • the wearable device 100 may obtain modality source data (or may be referred to as source data).
  • the modality source data may be multimedia data (eg, image data, text data, sound data, graphic data, video data, etc.).
  • the modality source data includes at least one of image data, text data, and sound data.
  • the present disclosure is not limited thereto, and the modality source data may include at least one of different types of data included in multimedia data.
  • Each of image data, text data, and sound data may correspond to each other.
  • the image data may include image information of a smiling person
  • the text data may include text information of “ ⁇ ”
  • the sound data may include information on a person's laughing sound.
  • the wearable device 100 when at least one of image data, text data, and sound data is not included in the modality source data, the wearable device 100 generates image data, text data, and/or sound data based on the acquired modality source data.
  • sound data may be generated.
  • the wearable device 100 may generate text data and sound data based on the image data.
  • the wearable device 100 may generate image data and sound data based on the text data.
  • the wearable device 100 may generate image data and text data based on the image data.
  • the wearable device 100 may generate sound data based on at least one of the image data and text data. For example, when image data and sound data are included in the modality source data, the wearable device 100 may generate text data based on at least one of the image data and sound data. For example, when sound data and text data are included in the modality source data, the wearable device 100 may generate image data based on at least one of the sound data and text data.
  • the wearable device 100 uses a neural network (eg, a generative model such as a generator of a generative adversarial network (GAN)) that takes the modality source data as an input, and includes the modality source data.
  • a neural network eg, a generative model such as a generator of a generative adversarial network (GAN)
  • GAN generative adversarial network
  • a neural network may be a concept including a plurality of neural networks (first to twelfth neural networks).
  • the plurality of neural networks take multimedia data (eg, image data, text data, and sound data) included in the modality source data as an input, and multimedia data included in the modality source data (e.g., image data, text data, and sound data).
  • the first neural network may generate text data by taking image data as an input.
  • the second neural network may generate sound data by taking image data as an input.
  • the third neural network may generate image data by taking text data as an input.
  • the fourth neural network may generate sound data by taking text data as an input.
  • the fifth neural network may generate image data by taking sound data as an input.
  • the sixth neural network may generate text data by taking sound data as an input.
  • the seventh neural network may generate sound data by using image data and text data as inputs.
  • the eighth neural network may generate text data using image data and sound data as inputs.
  • the ninth neural network may generate image data by taking text data and sound data as inputs.
  • the tenth neural network may generate text data and sound data by taking image data as an input.
  • the eleventh neural network may generate image data and sound data by taking text data as an input.
  • the twelfth neural network may generate image data and text data by taking sound data as an input.
  • the wearable device 100 may identify a neural network having at least one of image data, text data, and sound data included in modality source data as an input, among a plurality of neural networks.
  • the wearable device 100 may generate image data, text data, and sound data not included in the modality source data by using the identified neural network.
  • the wearable device 100 may generate a pulse width modulation (PWM) signal based on sound data. For example, the wearable device 100 may calculate (or extract) a sound feature based on sound data. The wearable device 100 may generate a PWM signal by modulating a pulse width of a sound feature. The wearable device 100 may output a tactile modality by controlling an actuator based on a PWM signal. That is, haptic feedback by tactile modality can be delivered to the user.
  • PWM pulse width modulation
  • the wearable device 100 may generate sub sound data by filtering sound data according to frequency.
  • the wearable device 100 may generate a corresponding PWM signal based on each of the sub sound data.
  • a PWM signal corresponding to each of the sub sound data may be transmitted to a corresponding actuator.
  • the wearable device 100 may generate a PWM signal using an Integrate-and-Fire Neuron (IFN) model that takes sound data as an input.
  • IFN Integrate-and-Fire Neuron
  • the wearable device 100 may generate a PWM signal that provides a haptic illusion effect to a user based on sound data.
  • a method of generating a PWM signal providing a haptic illusion effect is described in detail with reference to FIGS. 13A and 13B.
  • the wearable device 100 may adjust a PWM signal based on a user input.
  • the degree of perception that the user 10 feels the haptic feedback may be different.
  • the wearable device 100 may receive a user input corresponding to the strength of the haptic feedback.
  • the wearable device 100 may adjust the PWM signal so that the strength of the haptic feedback corresponding to the user input is formed.
  • the wearable device 100 may adjust a PWM signal based on user metadata.
  • User metadata may include user profile information representing user characteristics (eg, voice, age, gender, height, weight, etc.).
  • the wearable device 100 may adjust the PWM signal so that the strength of the haptic feedback is formed by reflecting the user's characteristics. An example of a method of reflecting the user's voice characteristics will be described in detail with reference to FIGS. 7A to 7C.
  • the wearable device 100 may output a visual modality based on image data and text data.
  • the wearable device 100 may output the visual modality by controlling a display included in the wearable device 100 .
  • the wearable device 100 may transmit image data to an external device and control the external device to output a visual modality.
  • the wearable device 100 may output an auditory modality based on sound data.
  • the wearable device 100 may output an auditory modality by controlling a speaker included in the wearable device 100 .
  • the wearable device 100 may transfer sound data to an external device and control the external device to output an auditory modality.
  • the wearable device 100 may simultaneously output multiple modalities including a visual modality, an auditory modality, and a tactile modality.
  • FIG. 2 is a block diagram for explaining an operation of a wearable device according to an exemplary embodiment. Since functions, configurations, and operations of the wearable device 100 described in FIG. 1 are similar to those of the wearable device 200 , overlapping contents may be omitted. It is assumed that the wearable device 100 and the wearable device 200 of FIG. 1 are the same device and will be described below.
  • the wearable device 200 may include a modality source identifier 210 , an unacquired modality source generator 220 , a PWM signal generator 230 , and a multi-modality output device 240 . At least some of the functions of the modality source identifier 210 , the unacquired modality source generator 220 , and the PWM signal generator 230 may be performed by at least one processor included in the wearable device 200 .
  • the modality source identifier 210 may receive modality source data MSD from an external device or a user.
  • the modality source identifier 210 may analyze the modality source data MSD.
  • the modality source identifier 210 may determine whether image data ID, text data TD, and sound data SD are included in the modality source data MSD.
  • the modality source identifier 210 converts the modality source data MSD to the multi-modality output device 240. ) can be passed on.
  • the modality source identifier 210 converts the modality source data (MSD) (directly) Alternatively, it may be transmitted to the unacquired modality source generator 220 and the multi-modality output device 240 through the unacquired modality source generator 220). In one embodiment, when the sound data SD is included in the modality source data MSD, the modality source identifier 210 may transfer the sound data SD to the PWM signal generator 230.
  • the unacquired modality source generator 220 may generate image data ID′, text data TD′, and sound data SD′ that are not included in the modality source data MSD.
  • the unacquired modality source generator 220 may receive modality source data MSD.
  • the operation of generating image data ID', text data TD', and sound data SD' based on the modality source data MSD is omitted since it has been described with reference to FIG. 1 .
  • the unacquired modality source generator 220 may transfer the sound data SD' to the PWM signal generator 230.
  • the unacquired modality source generator 220 may include a trained neural network 221 .
  • the trained neural network 221 may be a generator included in the GAN model.
  • the trained neural network 221 may generate image data ID′, text data TD′, and sound data SD′ based on the modality source data MSD.
  • the learning process of the learned neural network 221 will be described in detail in FIG. 3 .
  • the unacquired modality source generator 220 includes image data (ID′), text data (TD′), and sound data (not included in the modality source data MSD) but generated by the unacquired modality source generator 220 ( SD′) may be transmitted to the multi-modality output device 240 .
  • the PWM signal generator 230 may receive sound data SD from the modality source identifier 210 or receive sound data SD′ from the unacquired modality source generator 220 .
  • the PWM signal generator 230 may generate a PWM signal PWMS based on the sound data SD and SD′.
  • the PWM signal generator 230 may generate the PWM signal PWMS by pulse width modulating the sound energy waveform of the sound data SD and SD'.
  • the PWM signal generator 230 may generate the PWM signal PWMS according to the sound energy waveform (ie, the characteristics of the sound data) of the sound data SD, SD' or the type of application.
  • the PWM signal generator 230 may generate a PWM signal (PWM) based on a mapping table that maps a sound energy waveform (ie, characteristics of sound data) or a type of application and a PWM signal (PWMS) PWM signal generator The specific configuration and function of 230 will be described in detail with reference to FIGS. 4A and 4B.
  • PWM PWM signal
  • PWMS PWM signal
  • the multi-modality output device 240 is not included in the modality source data (MSD) (eg, at least one of image data (ID), text data (TD), and sound data (SD)), modality source data (MSD), Multi-modality may be output based on the image data (ID'), text data (TD'), sound data (SD'), and PWM signal (PWMS) generated by the unacquired modality source generator 220.
  • MSD modality source data
  • Multi-modality may be output based on the image data (ID'), text data (TD'), sound data (SD'), and PWM signal (PWMS) generated by the unacquired modality source generator 220.
  • the multi-modality output device 240 may include an actuator, a display, and a speaker.
  • the actuator may output a tactile modality based on a PWM signal (PWMS).
  • PWMS PWM signal
  • the display may output a visual modality based on image data (eg, ID or ID′) and text data (eg, TD or TD′).
  • a speaker may output an auditory modality based on sound data (eg, SD or SD').
  • An adversarial generative neural network may include a generator 321 , a discriminator 322 , and a loss function 323 .
  • GAN is a model in which the generator 321 and the discriminator 322 compete against each other by improving each other's performance through learning.
  • Each of the generator 321 and discriminator 322 may include at least one layer.
  • a layer may include a filter composed of weight information for extracting features from input data.
  • the generator 321 may be trained to output fake data FD by taking the data set DS as an input.
  • the data set DS may be a set of data including at least one of image, text, and sound.
  • the fake data FD may be fake image data, fake text data, or fake sound data.
  • the real data DB 310 may include a set of real data RD.
  • Real data RD may correspond to fake data FD.
  • the real data RD may be real image data.
  • the discriminator 322 may be trained to determine whether the fake data FD or the real data RD is fake by taking the fake data FD or the real data RD as an input.
  • the loss function 323 may calculate a loss function value based on the determination result DR.
  • the loss function value may be transmitted to the discriminator 322 and the generator 321 through backpropagation. Weights of at least one layer included in the discriminator 322 and the generator 321 may be updated based on the value of the loss function.
  • the generator 321 may include a plurality of sub generators according to the type and output data of the data set DS.
  • the first sub generator may be trained to output fake sound data by taking a data set, which is a set of image data, as an input.
  • the second sub generator may be trained to output fake text data by taking a data set, which is a set of image data, as an input.
  • the third sub generator may be trained to output fake sound data by taking a data set, which is a set of image data and text data, as an input.
  • the present disclosure is not limited thereto, and the generator 321 includes the type of data set (eg, a set of data including at least one of image, text, and sound) and output data (eg, fake image data, fake text) data or fake sound data).
  • the discriminator 322 may include a plurality of sub discriminators according to the type of output data output by the generator 321, that is, the fake data FD.
  • the first sub-discriminator may be trained to determine whether the fake sound data or the real sound data is fake by taking the fake sound data or the real sound data as an input.
  • the second sub discriminator may be trained to determine whether the fake image data or the real image data is fake by taking the fake image data or the real image data as an input.
  • the third sub-discriminator may be trained to determine whether the fake text data or the real text data is fake by taking the fake text data or the real text data as an input.
  • the generator 321 can be learned through the above-described GAN learning process, and the learned generator 321 is configured and functions similar to the learned neural network 221 of FIG. 2 . , the operation may be similar.
  • 4a and 4b are block diagrams showing the PWM signal generator of FIG. 2 in more detail.
  • the PWM signal generator 230 may include a divider 231, a sound feature extractor 232, an IFN model 233, and a PWM signal converter 234.
  • the distributor 231 may receive sound data (eg, SD or SD′) from the modality source identifier 210 or the unacquired modality source generator 220 .
  • the divider 231 may measure an energy spectrum for a frequency range of sound data (eg, SD or SD').
  • the divider 231 generates sub-sound data (eg, SSD1, SSD2, SSD3) with a predefined scale (eg, linear, log(log10, ln, Mel), exponential, etc.) based on the measured energy spectrum.
  • the number of sub sound data eg, SSD1, SSD2, and SSD3 may be equal to the number of actuators (eg, 410a, 410b, and 410c).
  • the number of actuators and sub-sound data is illustrated as three, but the present disclosure is not limited thereto.
  • the distributor 231 may include at least one filter (eg, 231a, 231b, or 231c).
  • the at least one filter eg, 231a, 231b, and 231c
  • the at least one filter may perform filtering into at least one sub-sound data (eg, SSD1, SSD2, and SSD3) according to a frequency component of the sound data (eg, SD or SD').
  • Each of the at least one filter eg, 231a, 231b, and 231c
  • the divider 231 includes a low pass filter (hereinafter referred to as LPF) 231a, a band pass filter (hereinafter referred to as BPF) 231b, and a high pass filter;
  • LPF low pass filter
  • BPF band pass filter
  • HPF high pass filter
  • the LPF 231a may be a filter that attenuates a signal exceeding a first cutoff frequency of a signal corresponding to sound data (eg, SD or SD′) and passes only signals below the cutoff frequency.
  • the LPF 231a may output first sub sound data SSD1 based on sound data (eg, SD or SD').
  • the BPF 231b may be a filter that passes only signals between a first cutoff frequency and a second cutoff frequency of a signal corresponding to sound data (eg, SD or SD').
  • the BPF 231b may output second sub-sound data SSD2 based on sound data (eg, SD or SD').
  • the HPF 231c may be a filter that passes only signals having a cutoff frequency or higher by attenuating signals below a second cutoff frequency of a signal corresponding to sound data (eg, SD or SD′).
  • the HPF 231c may output third sub sound data SSD3 based on sound data (eg, SD or SD').
  • the sound feature extractor 232 extracts at least one sound feature (eg, SF1, SF2, SF3) corresponding to each of the sub-sound data, based on the at least one sub-sound data (eg, SSD1, SSD2, and SSD3).
  • the sound feature eg, SF1, SF2, and SF3 includes sound energy (which may also be referred to as amplitude), frequency, pitch, and It may include at least one of the strengths, but the present disclosure is not limited thereto.
  • sound features may be extracted using a spectrogram technique, but the present disclosure is not limited thereto, and a spectrum, a Mel spectrogram, and a Mel-Frequency Cepstral Coefficient (MFCC) techniques, etc., may be used.
  • MFCC Mel-Frequency Cepstral Coefficient
  • the sound feature extractor 232 may extract at least one first sound feature SF1 based on the first sub-sound data SSD1.
  • the sound feature extractor 232 may extract at least one second sound feature SF2 based on the second sub-sound data SSD2.
  • the sound feature extractor 232 may extract at least one third sound feature SF3 based on the third sub-sound data SSD3.
  • the IFN model 233 is a correlation between sound features and sound A statistical distribution (eg, variance value) of each of the features may be calculated.
  • the IFN model 233 may select a representative sound feature among sound features.
  • the IFN model 233 may calculate variance values of sound features (eg, SF1, SF2, SF3) (or representative sound features).
  • the IFN model 233 may identify whether a variance value of a sound feature (eg, SF1 , SF2 , SF3 ) exceeds a threshold value.
  • the IFN model 233 calculates the sound energy intensity of at least one sub-sound data (eg, SSD1, SSD2, and SSD3) and at least one Sound features (eg, SF1, SF2, and SF3) may be filtered based on sound energy gradients of sub-sound data (eg, SSD1, SSD2, and SSD3) of .
  • the IFN model 233 may pass the filtered sound features (eg, SF1', SF2', SF3') to the PWM signal converter 234.
  • the sound energy intensity may represent the volume of voice corresponding to sound data.
  • sound energy intensity can be expressed in units of decibels (dB).
  • the sound energy gradient may indicate a change amount per unit time in sound energy intensity.
  • the sound energy gradient can be expressed as ddB/dt.
  • the IFN model 233 may include a normalizer 233_1, a sound energy intensity (SEI) filter 233_2, a sound energy gradient (SEG) filter 233_3, and an active function 233_4. there is.
  • SEI sound energy intensity
  • SEG sound energy gradient
  • the normalizer 233_1 may normalize sound features (eg, SF1, SF2, SF3) in the time domain and energy domain. For example, the normalizer 233_1 may normalize sound features based on the maximum and minimum values of sound energy intensity.
  • sound features eg, SF1, SF2, SF3
  • the normalizer 233_1 may normalize sound features based on the maximum and minimum values of sound energy intensity.
  • the SEI filter 233_2 may calculate an intensity threshold based on a distribution (eg, variance value) of sound energy intensities of at least one piece of sub-sound data (eg, SSD1, SSD2, and SSD3).
  • the intensity threshold may be calculated by a predefined equation.
  • the intensity threshold may be a predefined value.
  • the SEI filter 233_2 determines a period exceeding an intensity threshold of sound energy intensity of at least one subsound data (eg, SSD1, SSD2, and SSD3) among sound features (eg, SF1, SF2, and SF3) and an intensity threshold. An interval that does not exceed can be extracted.
  • the SEG filter 233_3 may calculate a gradient threshold based on a distribution of sound energy gradients of at least one piece of sub-sound data (eg, SSD1, SSD2, and SSD3).
  • the gradient threshold may be calculated by a predefined equation.
  • the gradient threshold value may be a predefined value.
  • the SEG filter 233_3 determines the slope threshold value and the section exceeding the slope threshold value of the sound energy slope of at least one sub-sound data (eg, SSD1, SSD2, SSD3) among the sound features (eg, SF1, SF2, and SF3). An interval that does not exceed can be extracted.
  • the IFN model 233 may pass intervals of sound features that exceed the intensity threshold and slope threshold.
  • the IFN model 233 may attenuate a section of a sound feature that does not exceed at least one of an intensity threshold value and a gradient threshold value by assigning a predefined weight value.
  • a function in which the IFN model 233 passes and attenuates a section of a specific sound feature may be named an active function 233_4. Sound features (eg, SF1', SF2', SF3') filtered through the active function 233_4 may be transmitted to the PWM signal converter 234.
  • the IFN model 233 may pass the sound features (eg, SF1, SF2, SF3) to the PWM signal converter 234. there is.
  • PWM signal converter 234 converts at least one PWM signal (eg, PWMS1, PWMS2) based on sound features (eg, SF1, SF2, SF3) or filtered sound features (eg, SF1', SF2', SF3'). , PWMS3) can be generated.
  • the PWM signal converter 234 converts at least one sub-sound data (eg, SSD1, SSD2) corresponding to a sound feature (eg, SF1, SF2, SF3) or a filtered sound feature (eg, SF1', SF2', SF3').
  • At least one PWM signal (eg, PWMS1, PWMS2, PWMS3) may be generated by mapping the sound energy intensity and the duty cycle of the SSD3.
  • the PWM signal converter 234 may generate the first PWM signal PWMS1 based on the first sound feature (eg, SF1 or SF1′).
  • the first PWM signal PWMS1 may be transmitted to the first actuator 410a.
  • the PWM signal converter 234 may generate the second PWM signal PWMS2 based on the second sound feature (eg, SF2 or SF2′).
  • the second PWM signal PWMS2 may be transmitted to the second actuator 410b.
  • the PWM signal converter 234 may generate the third PWM signal PWMS3 based on the third sound feature (eg, SF3 or SF3′).
  • the third PWM signal PWMS3 may be transmitted to the third actuator 410c.
  • the first to third actuators 410a, 410b, and 410c may be included in the wearable device 200.
  • a plurality of PWM signals corresponding to different frequency domains may be converted into vibration signals by the actuators 410a, 410b, and 410c.
  • Vibration signals of multi-channels including channels corresponding to different frequencies are effectively transmitted to the user, thereby improving the user's tactile response.
  • the PWM signal converter 234 may acquire user speech characteristics from the user metadata DB 420 .
  • the PWM signal converter 234 may adjust at least one PWM signal (eg, PWMS1, PWMS2, PWMS3) based on user speech characteristics.
  • the PWM signal converter 234 may perform time domain re-scaling or waveform interval shifting on the PWM signals (eg, PWMS1, PWMS2, and PWMS3).
  • the user speech feature may be data corresponding to the user's voice (eg, soft voice, loud voice, low voice, high voice, slow voice, fast voice, ringing voice, hoarse voice, cracked voice, etc.).
  • the PWM signal converter 234 may obtain (or receive) a user input (UI).
  • the PWM signal converter 234 may adjust at least one PWM signal (eg, PWMS1, PWMS2, PWMS3) based on a user input (UI).
  • PWMS1, PWMS2, PWMS3 a PWM signal reflecting user input
  • UI user input
  • the PWM signal generator 230 may include a sound feature extractor 232, an IFN model 233, and a PWM signal converter 234. That is, the distributor 231 shown in FIG. 4A may be omitted.
  • the configuration, function, and operation of the sound feature extractor 232 and the IFN model 233 are similar to those of the sound feature extractor 232 and the IFN model 233 described in FIG. is omitted below.
  • the sound feature extractor 232 may receive sound data (eg, SD or SD′) from the modality source identifier 210 or the unacquired modality source generator 220 .
  • the sound feature extractor 232 may extract a sound feature SF based on sound data (eg, SD or SD′).
  • the IFN model 233 may calculate the variance value of the sound feature (SF). When the variance value of the sound feature SF exceeds the threshold value, the IFN model 233 may filter the sound feature SF and pass the filtered sound feature SF' to the PWM signal converter 234. . When the variance value of the sound feature SF does not exceed the threshold value, the IFN model 233 may transfer the sound feature SF to the PWM signal converter 234 .
  • the PWM signal converter 234 may generate a PWM signal PWMSA and a partial PWM signal PWMSP based on a sound feature (eg, SF or SF').
  • the PWM signal converter 234 maps the sound energy intensity and duty cycle of the sound data (SD or SD') corresponding to the sound feature (SF) or the filtered sound feature (SF'), thereby generating a PWM signal (PWMSA). ) can be created.
  • a signal corresponding to the entire area DCI2 of the converted signal may be referred to as a PWM signal PWMSA, and a signal corresponding to the partial area DCI1 of the converted signal may be referred to as a partial PWM signal PWMSP.
  • the partial area DCI1 may be an area in which the duty cycle exceeds a predefined value.
  • the partial area DCI1 may be an area in which the duty cycle exceeds 200.
  • the PWM signal PWMSA may be transmitted to the second actuator 410b.
  • the partial PWM signal PWMSP may be transmitted to the first and third actuators 410a and 410c.
  • the wearable devices 100 and 200 may receive a user input.
  • the user input may be input through a touch input of a display directly connected to the wearable device 100 or 200 or a display of an external device, but the present disclosure is not limited to a method of receiving a user input through a touch input. .
  • the wearable devices 100 and 200 may display a frequency band selection window and a customization window on the display. Visualization data corresponding to sub-sound data filtered based on at least one filter may be displayed on the frequency band selection window.
  • the wearable devices 100 and 200 may receive a first user input for selecting a frequency band.
  • the wearable device 100 or 200 may display visualization data of a PWM signal corresponding to the selected frequency band on a display (eg, a customizing window) in response to the first user input.
  • the wearable devices 100 and 200 may receive a second user input for adjusting the PWM signal.
  • the second user input may correspond to data for increasing (UP) or decreasing (DOWN) the duty cycle of the PWM signal at a specific time point.
  • the second user input may correspond to data adjusting the time domain of the PWM signal.
  • FIG. 6 is a conceptual diagram for explaining a method in which a wearable device adjusts a PWM signal using a curve weight factor according to an embodiment.
  • the PWM signal generator 230 of the wearable device 100 or 200 may apply a curve weight factor to the PWM signal.
  • the PWM signal may be smoothed or roughed by applying a curve weight factor to the PWM signal.
  • FIGS. 7A to 7C are conceptual views illustrating a method of adjusting a PWM signal based on a user speech characteristic by a wearable device according to an embodiment.
  • the wearable devices 100 and 200 may obtain user speech characteristics from a user metadata DB.
  • the wearable devices 100 and 200 may select a custom filter based on user speech characteristics.
  • a custom filter may be determined by a manufacturer's setting or a user's input.
  • the custom filter may include a quieter filter, a louder filter, a slower filter, and a faster filter, but is not limited thereto.
  • the wearable devices 100 and 200 may adjust the PWM signal using a custom filter selected based on the user's speech characteristics.
  • the quieter filter may be a filter that reduces the duty cycle of the PWM signal by a certain percentage.
  • the quieter filter when the user's voice is loud or high-pitched, the strength of the PWM signal is reduced, thereby improving the user's tactile perception.
  • a louder filter may be a filter that increases the duty cycle of a PWM signal at a constant rate.
  • the louder filter when the user's voice is low or low, the intensity of the PWM signal is increased, so that the user's tactile perception can be improved.
  • a slower filter may be a filter that extends the time domain of the PWM signal by a constant rate.
  • a faster filter may be a filter that reduces the time domain of the PWM signal by a certain ratio.
  • the faster filter when the user's voice is of a slow style, the speed of the PWM signal is increased, so that the user's tactile perception may be improved.
  • the wearable devices 100 and 200 may provide multi-modality to the user.
  • the wearable devices 100 and 200 may filter sound features using the IFN model 233 .
  • FIG. 8 shows a case where the wearable devices 100 and 200 provide tactile modalities to each of 10 users using the IFN model 233 (C1_PM, C2_PM, ..., C10_PM) and the wearable devices 100 and 200
  • the tactile modality is provided to each of 10 users (C1_CM, C2_CM, ..., C10_CM) without using the IFN model 233
  • each of the 10 users displays an emoji (image, text, The results of testing the accuracy of distinguishing data containing sound energy) are shown.
  • the wearable devices 100 and 200 show better accuracy when the IFN model 233 is used. That is, when the wearable devices 100 and 200 use the IFN model 233, users' tactile perception can be improved.
  • FIG. 9A is a flowchart illustrating a method of operating a wearable device according to an exemplary embodiment.
  • the operating method of the wearable device 100 or 200 may include steps S910 to S950.
  • steps S910 to S950 may be performed by the wearable device 100 or 200 or the processor of the wearable device 100 or 200 .
  • the operating method of the wearable devices 100 and 200 according to an embodiment is not limited to that shown in FIG. 9A, and any one of the steps shown in FIG. 9A may be omitted, and steps not shown in FIG. 9A may be further included. may also include
  • the wearable devices 100 and 200 may obtain source data including at least one of image data, text data, and sound data.
  • source data may include image data.
  • Source data may include text data.
  • Source data may include sound data.
  • Source data may include image data and text data.
  • Source data may include image data and sound data.
  • Source data may include text data and sound data.
  • Source data may include image data, text data, and sound data.
  • step S920 the wearable devices 100 and 200 may identify whether image data, text data, and sound data are included in the source data. If at least one of image data, text data and sound data is not included in the source data, the procedure moves to step S930. If the source data includes all of image data, text data and sound data, the procedure moves to step S940. Detailed steps of step S920 are described in detail with reference to FIG. 9B.
  • step S930 the wearable devices 100 and 200 use a (learned) neural network (eg, a GAN generator) that takes the source data as an input to generate image data, text data, and sound data not included in the source data. is generated, and the procedure moves to step S940.
  • a (learned) neural network eg, a GAN generator
  • a neural network may be a generator of a GAN.
  • the GAN acquires training source data that does not include at least one of image data, text data, and sound data, and uses a generator that takes the training source data as an input to obtain image data and text data that are not included in the training source data. , and sound data, and determines whether the virtual data and the real data are real by using a discriminator that generates virtual data corresponding to at least one of the virtual data and the real data corresponding to the virtual data as inputs. It may be a pre-learned model by performing an operation of learning the generator and the discriminator based on the determination result.
  • step S940 the wearable device 100 or 200 may generate a PWM signal based on sound data. Detailed steps of step S940 will be described in detail with reference to FIG. 9c or 9d.
  • the wearable devices 100 and 200 may obtain user speech characteristics from user metadata. The wearable devices 100 and 200 may adjust the PWM signal based on user speech characteristics.
  • the wearable devices 100 and 200 may obtain a user input. The wearable devices 100 and 200 may adjust the PWM signal based on user input.
  • step S950 the wearable devices 100 and 200 output multi-modality based on the image data, text data, sound data, and PWM signal, and the process ends.
  • the wearable devices 100 and 200 may output a visual modality based on image data and text data.
  • the wearable devices 100 and 200 may output an auditory modality based on sound data.
  • the wearable devices 100 and 200 may output a tactile modality based on the PWM signal.
  • Step S920 is a flowchart illustrating a method of determining whether image data, text data, and sound data are included in source data according to an exemplary embodiment. For convenience of explanation, FIG. 9B will be described with reference to FIGS. 1 to 4B and 9A.
  • Step S920 according to an embodiment may include steps S921, S922a, S922b, and S922c.
  • step S921 the wearable device 100 or 200 may analyze the source data.
  • step S922a the wearable device 100 or 200 may identify whether image data exists in the source data based on the analysis result.
  • step S922b the wearable device 100 or 200 may identify whether text data exists in the source data based on the analysis result.
  • step S922c the wearable device 100 or 200 may identify whether sound data exists in the source data based on the analysis result.
  • step S921 the order in which steps S922a, S922b, and S922c are performed may be determined by a manufacturer's setting or a user's input.
  • 9c and 9d are flowcharts illustrating a method of generating a PWM signal based on sound data according to an exemplary embodiment.
  • Step S940 may include steps S941, S942, S943, S944, and S945.
  • the wearable device 100 or 200 may filter sound data into at least one sub-sound data according to frequency components using at least one filter (eg, LPF, BPF, HPF).
  • at least one filter eg, LPF, BPF, HPF.
  • the wearable device 100 or 200 may acquire a sound feature based on at least one piece of sub-sound data.
  • a sound feature may include at least one of sound energy (amplitude), frequency, pitch, and intensity.
  • step S942 includes extracting a plurality of sound features based on at least one sub-sound data, calculating a correlation between the plurality of sound features and a variance value of the plurality of sound features, and Selecting a representative sound feature based on the correlation and variance values.
  • step S943 the wearable device 100 or 200 may identify whether the variance value of the sound feature (when the representative sound feature is selected, the representative sound feature) exceeds a threshold value. If the variance value of the sound feature exceeds the threshold value, the procedure moves to step S944. If the variance value of the sound feature does not exceed the threshold value, the procedure moves to step S945.
  • the wearable device 100 or 200 may filter the sound feature based on the sound energy intensity of the at least one sub-sound data and the sound energy gradient of the at least one sub-sound data.
  • step S944 includes normalizing at least one sub-sound data, extracting a section in which sound energy intensity exceeds an intensity threshold value and a section in which sound energy intensity does not exceed an intensity threshold value among sound features; Among the sound features, extracting sections in which the sound energy gradient exceeds the gradient threshold and sections not exceeding the gradient threshold, passing the intensity threshold and the intervals of sound features exceeding the gradient threshold, and and attenuating a section of the sound feature that does not exceed at least one of a slope threshold.
  • the wearable device 100 or 200 may generate the PWM signal by mapping the sound energy intensity and duty cycle of at least one sub-sound data corresponding to the sound feature.
  • Step S940 may include steps S946, S947, and S948.
  • step S946 the wearable device 100 or 200 may obtain a sound feature based on the sound data.
  • the wearable device 100 or 200 may generate a PWM signal by mapping the sound energy intensity and duty cycle of the sound data corresponding to the sound feature.
  • step S948 the wearable device 100 or 200 transmits a signal corresponding to a partial area of the PWM signal having a duty cycle exceeding a predefined value to the first actuator, and controls a signal corresponding to the entire area of the PWM signal. 2 can be delivered to the actuator.
  • the wearable device 100 or 200 transfers a signal corresponding to a partial region in which the duty cycle exceeds a predefined value among the PWM signals to the first and third actuators, and to the entire region of the PWM signal. A corresponding signal may be transmitted to the second actuator.
  • FIG. 10 is a block diagram illustrating a configuration of a wearable device according to an exemplary embodiment.
  • the configuration, function, and operation of the wearable device 1000 may be similar to those of the wearable devices 100 and 200 .
  • the wearable device 1000 includes a communication interface 1100, a user interface 1200, a camera 1300, a microphone 1400, at least one actuator 1500, a display 1600, a speaker 1700, and a memory 1800. , and a processor 1900.
  • the communication interface 1100 may support establishment of a wired or wireless communication channel between the wearable device 1000 and another external electronic device (not shown) or a server (not shown) and communication through the established communication channel.
  • the communication interface 1100 receives data from another external electronic device (not shown) or server (not shown) through wired or wireless communication, or receives data from another external electronic device (not shown) or server (not shown). (not shown) may transmit data.
  • the communication interface 1100 is a wireless communication module (eg, a cellular communication module, a short-range wireless communication module, or a global navigation satellite system (GNSS) communication module) or a wired communication module (eg, a local area network (LAN)). ) communication module or power line communication module), and at least one network (eg, short-range communication network (eg, Bluetooth, WiFi direct, or IrDA (infrared data association)) using any one of the communication modules Alternatively, it may communicate with another external electronic device (not shown) or server (not shown) through a long-distance communication network (eg, a cellular network, the Internet, or a computer network (eg, LAN or WAN)).
  • GNSS global navigation satellite system
  • the communication interface 1100 may be an external device (eg, a smart phone, a smart pad, another wearable device worn by a user, a digital camera, a television, a monitor, a laptop computer, a black box, a robot, etc.) or Modality source data may be received through communication with a separate server device.
  • an external device eg, a smart phone, a smart pad, another wearable device worn by a user, a digital camera, a television, a monitor, a laptop computer, a black box, a robot, etc.
  • Modality source data may be received through communication with a separate server device.
  • the user interface 1200 may mean a means through which a user inputs data (or may also be referred to as a user input) for controlling the wearable device 1000 .
  • the user interface 1200 may include a key pad, a dome switch, a touch pad (contact capacitance method, pressure resistive film method, infrared sensing method, surface ultrasonic conduction method, integral type It may include at least one of a tension measurement method, a piezo effect method, etc.), a jog wheel, or a jog switch, but is not limited thereto.
  • the user interface 1200 may be omitted. In this case, at least some of the functions of the user interface 1200 may be implemented in another external electronic device (not shown).
  • the camera 1300 may receive light through a lens.
  • the camera 1300 may include an image processor.
  • An image processor (not shown) may generate image data about an external object based on the received light.
  • the modality source data may include image data generated by the camera 1300 .
  • the microphone 1400 may receive sound input.
  • the microphone 1400 may generate an audio signal based on sound input.
  • the modality source data may include sound data corresponding to an audio signal generated by the microphone 1400 .
  • At least one actuator 1500 may output a tactile modality based on a PWM signal. At least one actuator 1500 may be disposed on the wearable device 1000 to come into contact with the user's body. That is, haptic feedback based on the tactile modality may be delivered to the user. Haptic feedback refers to feedback provided to a user through force, vibration, and motion so that the user can feel tactile sensations such as force and motion. At least one actuator 1500 may include at least one of a linear resonance type, an eccentric rotating mass type, a piezo type, and a solenoid type, but the present disclosure is not limited thereto.
  • the number of at least one actuator 1500 may be equal to the number of PWM signals.
  • the actuators may be spaced apart at regular intervals and disposed on the wearable device 1000 .
  • the wearable device 1000 adjusts the position of at least one actuator 1500 closer to the user's body or adjusts the position of at least one actuator 1500 closer to the user's body. It may include physical structures that can be adjusted to move away from each other.
  • the display 1600 may visually provide information to the outside of the wearable device 1000 (eg, a user). For example, the display 1600 may output a visual modality based on image data and text data.
  • the display 1600 may include, for example, a hologram device, a projector, and/or control circuitry for controlling the display.
  • the display 1600 may include a touch sensor set to detect a touch or a pressure sensor set to measure the strength of a force generated by a touch.
  • the speaker 1700 may convert an electrical signal into sound.
  • the speaker 1700 may output an auditory modality based on sound data.
  • the speaker 1700 may output sound through an external electronic device connected to the wearable device 1000 directly or wirelessly.
  • the memory 1800 may store data processed or scheduled to be processed by the processor 1900, firmware, software, and process codes. In one embodiment, the memory 1800 may store image data, text data, or sound data.
  • the memory 1800 includes data and programs corresponding to at least one of the modality source identifier 1810, the unacquired modality source generator 1820, the PWM signal generator 1830, and the artificial intelligence module 1840. Codes can be stored.
  • the configuration, function, and operation of the modality source identifier 1810, the unacquired modality source generator 1820, and the PWM signal generator 1830 are the modality source identifier 210, the unacquired modality source generator 220, and the PWM signal generator 230. ) is similar to the configuration, function, and operation, so it is omitted below.
  • the artificial intelligence module 1840 may include at least some of the functions of the learned neural network 221 and/or the GAN 300 .
  • the artificial intelligence module 1840 may train a neural network (eg, the GAN 300) using a dataset.
  • the artificial intelligence module 1840 may output data using a neural network (eg, the GAN 300).
  • the memory 1800 may be used as a main storage device of the wearable device 1000 .
  • the memory 1800 may be a flash memory type, a hard disk type, a multimedia card micro type, or a card type memory (eg SD or XD memory). etc.), dynamic random access memory (DRAM), static random access memory (SRAM), phase-change random access memory (PRAM), magnetic random access memory (MRAM), ferroelectric random access memory (FeRAM), resistive random access memory (RRAM) memory), ROM (Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory), magnetic memory, magnetic disk, and optical disk. can do.
  • Memory 1800 may be referred to as buffer memory, working memory, or cache memory. Although not shown, the number of memories 1800 may be one or more.
  • the processor 1900 may be electrically connected to components included in the wearable device 1000 to perform operations or data processing related to control and/or communication of components included in the wearable device 1000 .
  • the processor 1900 may include at least one of a central processing unit (CPU), an application processor (AP), a graphic processing unit (GPU), or a neural processing unit (NPU).
  • CPU central processing unit
  • AP application processor
  • GPU graphic processing unit
  • NPU neural processing unit
  • the processor 1900 may load and process a command or data received from at least one of the other elements into the memory 1800, and store resultant data in the memory 1800.
  • the processor 1900 stores commands or data corresponding to functions of the modality source identifier 1810, the unacquired modality source generator 1820, the PWM signal generator 1830, and the artificial intelligence module 1840 in a memory ( 1800) and can be processed.
  • one or more processors 1900 may be provided according to functions or purposes.
  • at least one processor may distribute and perform operations or data processing related to control and/or communication of components included in the wearable device 1000 .
  • the wearable device 1000 may further include a separate processor for executing the artificial intelligence module 1840, for example, a neural processing unit (NPU).
  • NPU neural processing unit
  • processor 1900 may execute instructions to obtain modality source data.
  • processor 1900 may execute instructions to obtain image data generated by camera 1300 .
  • processor 1900 may execute instructions to obtain sound data corresponding to an audio signal generated by microphone 1400 .
  • the processor 1900 may execute an instruction for acquiring at least one of image data, text data, and sound data from an external device.
  • the processor 1900 may execute an instruction for acquiring at least one of image data, text data, and sound data stored in the memory 1800 .
  • FIGS. 11A to 11C are diagrams illustrating a configuration of a wearable device according to an embodiment.
  • the wearable device 2000 may be a smart watch or a smart band.
  • FIG. 11A an embodiment in which the wearable device 2000 is implemented as a smart watch is illustrated, but is not limited thereto. Since the functions and operations of the wearable dia wearable device 2000 are similar to those of the wearable devices 100, 200, and 1000 described with reference to FIGS. 1 to 10, overlapping details will be omitted.
  • a wearable device 2000 may include a wrist strap 2100 and a main body 2200 .
  • the wrist strap 2100 may be connected to the main body 2200 so as to be worn on a user's wrist.
  • a display may be disposed on an upper surface of the body unit 2200, but when the wearable device 2000 is implemented as a smart band, the display may be omitted.
  • a wrist strap 2100 may include an upper cover 2110, a substrate 2120, and a lower cover 2130.
  • the present disclosure is not limited thereto, and the upper cover 2110, the substrate 2120, and the lower cover 2130 may be integrally provided.
  • the substrate 2120 may be disposed between the upper cover 2110 and the lower cover 2130 . Based on the user's wrist, the upper cover 2110 may be an outer surface, and the lower cover 2130 may be an inner surface.
  • the substrate 2120 may include a printed circuit board (PCB) and/or a flexible printed circuit board (F-PCB).
  • the substrate 2120 may include glass, plastic, organic materials, and silicon.
  • the substrate 2120 may include various circuit elements.
  • the substrate 2120 may include wires electrically connecting various circuit elements.
  • a substrate 2120 includes actuators 2121, a battery 2122, a processor 2123, a communication module 2124, a light emitting diode (LED) module 2125, a switch unit 2126, A terminal unit 2127 may be included.
  • the present disclosure is not limited thereto, and some components included in the substrate 2120 may be omitted.
  • the actuators 2121 may include a first actuator 2121a, a second actuator 2121b, and a third actuator 2121c. In FIG. 11C, only three actuators 2121a, 2121b, and 2121c are shown, but the number of actuators is not limited thereto.
  • the actuators 2121 may receive PMW signals from the processor 2123 through wires.
  • the actuators 2121 may output vibration signals based on the PWM signal.
  • the first actuator 2121a may output a vibration signal based on a PWM signal corresponding to the first frequency.
  • the second actuator 2121b may output a vibration signal based on the PWM signal corresponding to the second frequency.
  • the third actuator 2121c may output a vibration signal based on the PWM signal corresponding to the third frequency.
  • the second frequency may be higher than the first frequency and lower than the third frequency.
  • the first to third frequencies may be changed according to a manufacturer's or a user's setting, and an example of changing by a user's setting will be described in detail with reference to FIGS. 12A to 12B.
  • the actuators 2121 may be disposed to directly or indirectly contact the user's skin (eg, skin at the wrist). Although the shapes of the actuators 2121 are illustrated as circular, this is only an example and the actuators 2121 may be implemented in various shapes. Although the actuators 2121 are illustrated as being spaced apart from each other at regular intervals, this is only an example and the actuators 2121 may be spaced apart from each other and disposed at different intervals.
  • the battery 2122 may supply power to components or circuit elements of the board.
  • the battery 2122 may be disposed on one side of the substrate 2120, but the arrangement of the battery 2122 is not limited thereto.
  • the battery 2122 may be electrically connected to the terminal unit 2127 .
  • the terminal unit 2127 may be configured as a universal series bus (USB) jack, but is not limited thereto.
  • the battery 2122 may be charged by connecting the external power supply device and the battery 2122 through the terminal unit 2127 .
  • a power management IC PMIC
  • a power control device (not shown) may appropriately convert power received from the battery 2122, and convert the converted voltage to components (eg, actuators 2121 and processor 2123) on the board 2120. , communication module 2124, etc.).
  • the processor 2123 may control overall operations of elements of the board 2120 .
  • the processor 2123 may process various operations to operate components of the board 2120 .
  • the processor 2123 may generate a PWM signal based on data (eg, sound data) obtained from the communication module 2124 .
  • the processor 2123 may control the actuators 2121 to output vibration signals based on the generated PWM signal or the PWM signal directly acquired from the communication module 2124 .
  • the processor 2123 may be implemented as a microcontroller unit (MCU), a general-purpose processor, a dedicated processor, or an application processor.
  • the communication module 2124 may be a Bluetooth module, but is not limited thereto.
  • the communication module 2124 may transfer received data to the processor 2123 through universal asynchronous receiver/transmitter (UART) communication, but the communication technique between the communication module 2124 and the processor 2123 is limited to this. It doesn't work.
  • UART universal asynchronous receiver/transmitter
  • the LED module 2125 may output light (eg, R, G, B) in a color according to an electrical signal (eg, an LED enable signal).
  • the LED module 2125 may output light related to the state of the strap 2100 or output light related to the operation of the strap 2100 .
  • the switch unit 2126 may turn on/off the power of the board 2120 .
  • the switch unit 2126 may be implemented as a tactile switch, but is not limited thereto.
  • the terminal unit 2127 is for electrically connecting an external device and the board 2120 .
  • the battery 2122 may be charged or external data (eg, sound data or a PWM signal) may be obtained through the terminal unit 2127 .
  • a tactile modality based on a vibration signal is provided to a user wearing the wearable device 2000 together with a visual modality and an auditory modality provided from the wearable device 2000 or external device(s), thereby providing the user's Multimedia immersion through various senses may be provided.
  • FIGS. 12A and 12B are views illustrating a user interface for controlling an operation of a wearable device according to an exemplary embodiment. Since the operations and functions of the wearable device 2000 of FIGS. 12A and 12B correspond to the wearable devices 100, 200, 1000, and 2000 of FIGS. 1 to 11C, overlapping descriptions are omitted. For convenience of description, it will be described with reference to FIGS. 4A to 5 and FIGS. 11A to 11C.
  • the user interface providing device 20 may be implemented in various forms.
  • the user interface providing device 20 may be a mobile terminal, but the present disclosure is not limited thereto, and may be any electronic device including a display (eg, a TV, a refrigerator, a computer, etc.).
  • mobile terminals include smart phones, laptop computers, tablet PCs, digital cameras, electronic book terminals, digital broadcasting terminals, personal digital assistants (PDA), portable multimedia players (PMP), navigation, There may be an MP3 player or the like, but is not limited thereto.
  • a mobile terminal may include a wearable device worn by a user.
  • the user interface providing apparatus 20 may transmit and receive information by directly or indirectly communicating with the wearable device 2000 .
  • the user interface providing apparatus 20 may transmit and receive information to and from the wearable device 2000 through a server device (not shown).
  • the user interface providing apparatus 20 may transmit and receive information to and from the wearable device 2000 through a wireless communication channel such as Bluetooth or WiFi.
  • the user interface providing apparatus 20 may provide a user interface for controlling the wearable device 2000 to the user.
  • the user interface providing device 20 may include a display 21 .
  • the display 21 may display a user interface for controlling the wearable device 2000 .
  • the user interface may be provided through a specific application (eg, a wearable device management application) installed in the interface providing device 20 .
  • the user interface providing apparatus 20 may provide a user interface including a strength threshold value slider 3100, an actuator-filter mapping button 3200, and a frequency range slider 3300.
  • Visualization data corresponding to the sub-sound data filtered based on at least one filter may be displayed on the user interface.
  • FIG. 12A shows three visualization data corresponding to three sub-sound data filtered based on LPF, BPF, and HPF, it is not limited thereto. Accordingly, visualization data corresponding to the number of multi-channel channels may be displayed.
  • the filters are composed of LPF, BPF, and HPF will be described below.
  • An intensity threshold slider 3100 for adjusting the intensity threshold of the sub sound data may be displayed on the user interface.
  • the user may adjust the intensity threshold of the sub-sound data using the intensity threshold slider 3100 .
  • the intensity threshold represents a minimum signal intensity value for the actuator to output a vibration signal. Accordingly, when the signal corresponding to the sub-sound data has an intensity value less than the intensity threshold, the actuator may not output a vibration signal. When the signal corresponding to the sub-sound data has an intensity value equal to or greater than the intensity threshold, the actuator may output a vibration signal corresponding to the intensity value.
  • a user may set strength threshold values corresponding to each of the LPF, BPF, and HPF using the threshold value slider 3100 .
  • Visualization data corresponding to the actuators 2121 of the wearable device 2000 may be displayed on the user interface.
  • three visualization data corresponding to the three actuators 2121a, 2121b, and 2121c are displayed, but the present invention is not limited thereto. Accordingly, visualization data as many as the number of actuators 2121 may be displayed.
  • the filters are composed of LPF, BPF, and HPF will be described below.
  • An actuator-filter mapping button 3200 for mapping actuators and filters may be displayed on the user interface.
  • a user may map actuators and filters using the actuator-filter mapping button 3200 .
  • Each of the first to third actuators 2121a, 2121b, and 2121c may be mapped to one of LPF, BPF, and HPF.
  • the first actuator 2121a may be mapped to HPF
  • the second actuator 2121b may be mapped to BPF
  • the third actuator 2121c may be mapped to LPF.
  • all of the first to third actuators 2121a, 2121b, and 2121c may be mapped to the LPF.
  • at least one of the first to third actuators 2121a, 2121b, and 2121c may not be mapped to a filter.
  • a frequency range slider 3300 for adjusting frequency ranges of filters may be displayed on the user interface.
  • a user may adjust the frequency range of each filter using the frequency range slider 3300 .
  • the filters are composed of LPF, BPF, and HPF.
  • the user may set the frequency range of the BPF using the frequency range slider 3300.
  • the frequency range of the BPF may be set to a frequency equal to or greater than the first cutoff frequency and less than or equal to the second cutoff frequency.
  • a frequency less than the first cutoff frequency of the BPF may be set as the frequency range of the LPF, and a frequency greater than the second cutoff frequency of the BPF may be set as the frequency range of the HPF. Accordingly, the frequency ranges of the LPF, BPF, and HPF may be linear.
  • the frequency ranges of each of the LPF, BPF, and HPF may be set using the frequency range slider 3300.
  • the frequency ranges of the LPF, BPF, and HPF may overlap each other, or a frequency range not covered by the frequency ranges of the LPF, BPF, and HPF may exist. Accordingly, the frequency ranges of the LPF, BPF, and HPF may be non-linear.
  • the user interface providing apparatus 20 may provide a user interface including a preference button 3400 and an automatic setting button 3500 .
  • a preference button 3400 for saving or recalling settings previously set by a user may be displayed on the user interface.
  • the number of preference buttons 3400 may be plural.
  • the user may use the preference button 3400 to save or recall operating characteristics of the wearable device 2000 set through the intensity threshold slider 3100, the actuator-filter mapping button 3200, and the frequency range slider 3300. there is.
  • An automatic setting button 3500 for automatically setting intensity thresholds corresponding to sub-sound data, mapping information between actuators and filters, frequency ranges of filters, etc. (that is, operating characteristics of the wearable device 2000) is displayed on the user interface. It can be. For example, operating characteristics of the wearable device 2000 set by the automatic setting button 3500 may be determined in advance. For example, the operating characteristics of the wearable device 2000 set by the automatic setting button 3500 may include characteristics of multimedia data, types of applications (eg, music playback applications, video playback applications, game applications, SNS applications, and information search). application, call application, message application, etc.). According to an embodiment, the wearable device 2000 (or a processor of the wearable device 2000) may identify characteristics of multimedia data or types of applications.
  • operating characteristics of the wearable device 2000 that enable actuators to output strong vibration signals may be determined.
  • a user may change operating characteristics of the wearable device 2000 by using the preference button 3400 .
  • the user interface providing apparatus 20 may transmit a control signal CS to the wearable device 2000 .
  • the user interface providing apparatus 20 may transmit a control signal CS to the wearable device 2000 through a server device (not shown).
  • the control signal CS may include information for controlling operating characteristics of the wearable device 2000 .
  • the wearable device 2000 may receive the control signal CS.
  • the control signal CS may be described as including data corresponding to a user input. Accordingly, the wearable device 2000 may adjust the PWM signal based on user input.
  • the operation of receiving a user input by the wearable device described in FIG. 5 corresponds to the operation of receiving a control signal CS by the wearable device described in FIGS. 12A and 12B, and in FIGS. 5, 12A, and 12B
  • the described embodiments of obtaining (or receiving) user input may be combined with each other.
  • a tactile modality considering characteristics of multimedia data (eg, music, movie, game), user's haptic sensitivity and acceptability, etc. may be provided. .
  • a personalized haptic feedback control function is provided through a user interface, so that an impact point desired by a user among various characteristics of multimedia data can be emphasized.
  • FIGS. 13A and 13B are conceptual diagrams for explaining a haptic illusion effect according to an exemplary embodiment.
  • the wearable device 4000 may include at least two actuators.
  • the wearable device 4000 includes three actuators 4121a, 4121b, and 4121c, but the present disclosure is not limited thereto.
  • the wearable device 4000 may provide haptic feedback corresponding to a haptic illusion point using at least two actuators.
  • a haptic illusion point may represent a virtual point existing between one actuator and another actuator.
  • a haptic illusion point may exist on a skin contact surface of a wrist strap of the wearable device 4000 .
  • a haptic feedback effect such that an actuator exists at a point where an actuator does not exist may be provided to the user.
  • a vibration sensation as if continuously moving from one point to another can be delivered to the user.
  • the shape of a wrist strap when the user wears the wearable device 4000 may be approximated to a circular shape.
  • the actuators 4121 may be arranged at regular intervals on the wrist strap. Therefore, each point of the actuators 4121 can be expressed only by an angle in a polar coordinate system. For example, the point of the first actuator may be expressed as 0°, the point of the second actuator as 90°, and the point of the third actuator as 180°.
  • the points of the actuators 4121 are not limited thereto, and for convenience of description, the above-described example will be assumed and described below.
  • frequencies of sound data corresponding to the actuators 4121a, 4121b, and 4121c may be different from each other.
  • the frequency range of sound data corresponding to the actuators 4121a, 4121b, and 4121c or haptic illusion points is shown to be 300 Hz to 7500 Hz, but the frequency range is not limited thereto, and the frequency range is not limited to the user or It can be changed by the manufacturer's settings.
  • the frequency of sound data corresponding to each of the actuators 4121a, 4121b, and 4121c may be determined by various functions (eg, a linear function, a logarithmic function, etc.). As shown in FIG.
  • the frequency corresponding to the first actuator 4121a is a first frequency (eg, 300 Hz)
  • the frequency corresponding to the second actuator 4121b is a second frequency (eg, 1500 Hz)
  • the third actuator eg, 1500 Hz
  • the frequency corresponding to 4121c may be a third frequency (eg, 7500 Hz). Accordingly, when the frequency of the sound data is the first frequency (eg, 300 Hz), the first actuator 4121a may operate based on the PWM signal.
  • the second actuator 4121b may operate based on the PWM signal.
  • the first actuator 4121c may operate based on the PWM signal.
  • the first frequency may be lower than the second frequency
  • the second frequency may be lower than the third frequency.
  • the first to third frequencies may be previously determined or changed according to settings of a user or a manufacturer.
  • the first to third actuators Two of the actuators 4121a, 4121b, and 4121c may operate based on the PWM signal.
  • the frequency of the sound data is higher than the first frequency (eg, 300 Hz) and lower than the second frequency (eg, 1500 Hz)
  • the first actuator 4121a and the second actuator 4121b operate based on the PWM signal. It can work.
  • the second actuator 4121b and the third actuator 4121c operate based on the PWM signal It can work.
  • the wearable device 4000 may identify a haptic illusion point (eg, 45°) corresponding to the frequency of sound data (eg, 671 Hz).
  • the haptic illusion point may exist between points where two actuators to be operated (eg, the first actuator 4121a and the second actuator 4121b) exist. For example, by a logarithmic function determined by frequencies (eg, 300 Hz, 1500 Hz) corresponding to two actuators (eg, the first actuator 4121a and the second actuator 4121b), the frequency of the sound data (eg, a haptic illusion point (eg, 45°) corresponding to 671 Hz) may be determined.
  • the wearable device 4000 may determine at least two actuators (eg, a first actuator 4121a and a second actuator 4121b) to be operated based on the haptic illusion point.
  • the wearable device 4000 may determine a duty cycle of a PWM signal input to each of the two actuators (eg, the first actuator 4121a and the second actuator 4121b).
  • a duty cycle of a PWM signal input to each of the two actuators may be determined using a trigonometric function.
  • Equation 1 is an equation for determining a duty cycle of a PWM signal when a haptic illusion point exists in the first actuator 4121a and the second actuator 4121b according to an embodiment.
  • Equation 2 is an equation for determining the duty cycle of the PWM signal when haptic illusion points exist in the second actuator 4121b and the third actuator 4121c according to an embodiment.
  • Equations 1 and 2 is defined as the minimum duty cycle corresponding to the intensity threshold of the sound data, Is defined as the duty cycle of the PWM signal input to the first actuator 4121a, Is defined as the duty cycle of the PWM signal input to the second actuator 4121b, Is defined as the duty cycle of the PWM signal input to the third actuator 4121c, Is defined as the duty cycle mapped to the sound energy intensity of the sound data, is defined as a haptic illusion point when the haptic illusion point exists in the first actuator 4121a and the second actuator 4121b, is defined as a haptic illusion point when the haptic illusion point exists in the second actuator 4121b and the third actuator 4121c.
  • is 150 and the frequency of the sound data is 671 Hz, is 45°, and are respectively 106 + am.
  • actuators 4121 are illustrated as corresponding to (or mapped to) the frequency of sound data, but are not limited thereto. Accordingly, the actuators 4121 may correspond to any characteristic of the sound data (eg, frequency, sound energy intensity (dB), spectrum, etc.), and the duty cycle of the PWM signal input to the actuators may also correspond to the characteristic. can be set.
  • the actuators 4121 may correspond to any characteristic of the sound data (eg, frequency, sound energy intensity (dB), spectrum, etc.), and the duty cycle of the PWM signal input to the actuators may also correspond to the characteristic. can be set.
  • a method of operating a wearable device may include acquiring source data including at least one of image data, text data, and sound data.
  • a method of operating a wearable device may include determining whether source data includes image data, text data, and sound data.
  • a method of operating a wearable device when at least one of image data, text data, and sound data is not included in the source data, using a neural network that takes the source data as an input, image data and text data not included in the source data , and generating sound data.
  • a method of operating a wearable device may include generating a PWM signal based on sound data.
  • the operating method of the wearable device may include outputting multi-modality based on image data, text data, sound data, and a PWM signal.
  • the multi-modality may include a visual modality, an auditory modality, and a tactile modality.
  • generating the PWM signal may include filtering into at least one sub-sound data according to a frequency component of the sound data using at least one filter that takes sound data as an input. there is. Generating the PWM signal may include obtaining a sound feature based on at least one sub-sound data. Generating the PWM signal may include identifying whether a variance value of the sound feature exceeds a threshold value. Generating the PWM signal may include filtering the sound feature based on the sound energy intensity of the at least one sub-sound data and the sound energy gradient of the at least one sub-sound data when the dispersion value of the sound feature exceeds a threshold value. steps may be included. Generating the PWM signal may include generating the PWM signal by mapping a sound energy intensity and a duty cycle of at least one sub-sound data corresponding to the sound feature.
  • the obtaining of sound features may include extracting a plurality of sound features based on at least one sub-sound data. Acquiring the sound features may include calculating a correlation between the plurality of sound features and a variance value of the plurality of sound features. Acquiring the sound feature may include selecting a representative sound feature based on the correlation and the variance value. A representative sound feature may be the above sound feature.
  • filtering the sound features may include normalizing at least one sub-sound data.
  • the filtering of the sound features may include extracting a section in which the sound energy intensity exceeds an intensity threshold value and a section in which the sound energy intensity does not exceed the intensity threshold value from among the sound features.
  • the filtering of the sound features may include extracting a section in which the sound energy slope exceeds a gradient threshold value and a section in which the sound energy gradient does not exceed the gradient threshold value, among the sound features.
  • the step of filtering sound features includes passing a section of sound features in which the sound energy intensity exceeds the intensity threshold and the sound energy slope exceeds the slope threshold, and the sound energy intensity does not exceed the intensity threshold or the sound energy slope Attenuating a section of the sound feature in which A does not exceed the slope threshold and a section of the sound feature in which the sound energy intensity does not exceed the intensity threshold and the sound energy slope does not exceed the slope threshold.
  • a sound feature may include at least one of sound energy, frequency, pitch, and intensity.
  • the operating method of the wearable device may include transmitting the PWM signal corresponding to at least one piece of sub sound data to a corresponding actuator.
  • a method of operating a wearable device includes transmitting a first PWM signal corresponding to first sub-sound data to a first actuator, and transmitting a second PWM signal corresponding to second sub-sound data to a second actuator. It may include a delivery step.
  • generating the PWM signal may include acquiring user speech characteristics from user metadata (or user metadata DB). Generating the PWM signal may include adjusting the PWM signal based on user speech characteristics.
  • generating the PWM signal may include obtaining a user input from user metadata (or user metadata DB). Generating the PWM signal may include adjusting the PWM signal based on user input.
  • generating the PWM signal may include obtaining a sound feature based on sound data. Generating the PWM signal may include generating the PWM signal by mapping a sound energy intensity and a duty cycle of sound data corresponding to the sound feature. In the generating of the PWM signal, a signal corresponding to a partial region of the PWM signal having a duty cycle exceeding a predefined value is transmitted to the first actuator, and a signal corresponding to the entire region of the PWM signal is transmitted to the second actuator. steps may be included.
  • the neural network may be a GAN generator.
  • the GAN may perform an operation of acquiring training source data that does not include at least one of image data, the text data, and the sound data.
  • the GAN may perform an operation of generating virtual data corresponding to at least one of image data, text data, and sound data not included in the training source data, using the generator that takes training source data as an input.
  • the GAN may perform an operation of determining whether the virtual data and the real data are real using a discriminator that receives virtual data and real data corresponding to the virtual data as inputs.
  • the GAN may perform an operation of learning the generator and the discriminator based on the determination result.
  • generating the PWM signal may include identifying a haptic illusion point corresponding to a frequency of the sound data. Generating the PWM signal may include determining at least two actuators to operate based on the haptic illusion point. Generating the PWM signal may include determining a duty cycle of a PWM signal input to each of the determined at least two actuators.
  • At least one filter may include first to third filters.
  • the first filter may generate first sub sound data based on sound data.
  • the second filter may generate second sub-sound data based on the sound data.
  • the third filter may generate third sub-sound data based on the sound data.
  • a method of operating a wearable device includes generating a first PWM signal based on the first sub-sound data; The method may further include generating a second PWM signal based on the second sub-sound data and generating a third PWM signal based on the third sub-sound data.
  • the user input may include intensity threshold values corresponding to the first to third sub-sound data.
  • generating the PWM signal may include adjusting the PWM signal based on an intensity threshold.
  • the user input may include mapping information between the first to third filters and the first to third actuators.
  • the operating method of the wearable device may further include transmitting the first to third PWM signals to at least one of the first to third actuators based on the mapping information.
  • the user input may include information about a frequency range of each of the first to third filters.
  • generating the PWM signal may include adjusting the PWM signal based on information about a frequency range.
  • a neural network may include a plurality of neural networks.
  • Each of the plurality of neural networks may be a neural network that receives at least one of image data, text data, and sound data as an input and outputs at least one of image data, text data, and sound data. Inputs and outputs of the plurality of neural networks may be different.
  • various embodiments of the above-described operating method of the wearable device may be provided in the form of a computer-readable recording medium on which a program to be executed by a computer is recorded.
  • a wearable device may include a display.
  • the wearable device may include a speaker.
  • a wearable device may include at least one actuator.
  • the wearable device may include a memory storing one or more instructions.
  • the wearable device may include at least one processor that executes one or more instructions stored in memory. At least one processor may execute one or more instructions to obtain source data including at least one of image data, text data, and sound data. At least one processor may execute one or more instructions to obtain source data including at least one of image data, text data, and sound data. At least one processor may execute one or more instructions to determine whether the source data includes image data, text data, and sound data.
  • At least one processor when at least one of image data, text data, and sound data is not included in the source data, image data and text data not included in the source data, by using a neural network that takes the source data as an input. , and generate sound data. At least one processor may execute one or more instructions to generate a PWM signal based on the sound data. The at least one processor may execute one or more instructions for controlling a display, a speaker, and at least one actuator to output multi-modality based on image data, text data, sound data, and a PWM signal.
  • At least one processor may control a display to output a visual modality based on image data and text data. At least one processor may control a speaker to output an auditory modality based on sound data. At least one processor may control at least one actuator to output a tactile modality.
  • the one or more instructions that generate the PWM signal generate the PWM signal by obtaining a sound feature based on the sound data and mapping a sound energy intensity and a duty cycle of the sound data corresponding to the sound feature. and transmits a signal corresponding to a partial region of the PWM signal in which the duty cycle exceeds a predefined value to a first actuator among the at least one actuator, and transmits a signal corresponding to the entire region of the PWM signal to the first actuator among the at least one actuator. It may include one or more instructions to pass to the second actuator.
  • a method of operating a wearable device may include receiving source data including one of image data, text data, and sound data.
  • the operating method of the wearable device may include generating first simulation data and second simulation data in response to receiving the source data.
  • the source data includes image data
  • the first simulation data may include simulated text data
  • the second simulation data may include simulated sound data.
  • the source data includes text data
  • the first simulation data may include simulated image data
  • the second simulation data may include simulated sound data.
  • the source data includes sound data
  • the first simulation data may include simulated image data
  • the second simulation data may include simulated text data.
  • a method of operating a wearable device may include generating a PWM signal based on sound data or simulated sound data.
  • a method of operating a wearable device may include outputting multi-modality based on source data, first simulation data, second simulation data, and a PWM signal.
  • generating the first simulation data and the second simulation data may be generated by a machine learning model.
  • the machine learning model may be a GAN.
  • the device-readable storage medium may be provided in the form of a non-transitory storage medium.
  • 'non-temporary storage medium' only means that it is a tangible device and does not contain signals (e.g., electromagnetic waves), and this term refers to the case where data is stored semi-permanently in the storage medium and temporary It does not discriminate if it is saved as .
  • a 'non-temporary storage medium' may include a buffer in which data is temporarily stored.
  • the method according to various embodiments disclosed in this document may be included and provided in a computer program product.
  • Computer program products may be traded between sellers and buyers as commodities.
  • a computer program product is distributed in the form of a device-readable storage medium (eg compact disc read only memory (CD-ROM)), or through an application store or between two user devices (eg smartphones). It can be distributed (e.g., downloaded or uploaded) directly or online.
  • a computer program product eg, a downloadable app
  • a device-readable storage medium such as a memory of a manufacturer's server, an application store server, or a relay server. It can be temporarily stored or created temporarily.
  • a computer program product may include a storage medium of a server or a storage medium of a client device in a system composed of a server and a client device.
  • the computer program product may include a storage medium of the third device.
  • the computer program product may include a S/W program itself transmitted from the server to the client device or the third device or from the third device to the client device.
  • one of the server, the client device and the third device may execute the computer program product to perform the method according to the disclosed embodiments.
  • two or more of the server, the client device, and the third device may execute the computer program product to implement the method according to the disclosed embodiments in a distributed manner.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 개시는 멀티 모달리티를 제공하는 웨어러블 디바이스 및 이의 동작 방법에 관한 것이다. 본 개시의 실시 예에 따른 웨어러블 디바이스의 동작 방법은, 이미지 데이터, 텍스트 데이터, 및 사운드 데이터 중 적어도 하나를 포함하는 소스 데이터를 획득하고, 소스 데이터에 이미지 데이터, 텍스트 데이터, 및 사운드 데이터가 포함되는지 여부를 결정하고, 소스 데이터에 이미지 데이터, 텍스트 데이터, 및 사운드 데이터 중 적어도 하나가 포함되지 않은 경우, 소스 데이터를 입력으로 하는 뉴럴 네트워크를 이용하여, 소스 데이터에 포함되지 않은 이미지 데이터, 텍스트 데이터, 및 사운드 데이터를 생성하고, 사운드 데이터에 기초하여 PWM 신호를 생성하고, 이미지 데이터, 텍스트 데이터, 사운드 데이터, 및 PWM 신호에 기초하여 멀티 모달리티를 출력한다.

Description

멀티 모달리티를 제공하는 웨어러블 디바이스 및 이의 동작 방법
본 개시는 웨어러블 디바이스 및 이의 동작 방법에 관한 것이다. 구체적으로, 본 개시는 소스 데이터로부터 소스 데이터에 포함되지 않는 이미지, 텍스트, 및 사운드를 생성하고, 사운드로부터 촉각 모달리티에 대응하는 PWM 신호를 생성하는 웨어러블 디바이스 및 이의 동작 방법에 관한 것이다.
과거 사용자 간 의사소통은 단독 모달리티인 사운드, 이미지, 또는 텍스트를 이용하여 이루어져 왔다. 최근 가상 현실 기반 메타버스의 시대가 빠르게 전개되고 있으며, 스마트 워치, 스마트 밴드, 스마트 의복, 헤드마운트 디스플레이 등 다양한 유형의 웨어러블 디바이스가 사용자에게 제공되고 있다. 웨어러블 디바이스는 웨어러블 디바이스의 동작을 수행하면서 사용자에게 멀티 모달리티를 제공함으로써, 사용자에게 개선된 디바이스 사용 경험을 제공할 수 있다.
메타버스 시대에 최적화된 다중 경험(예컨대, 시각, 청각, 촉각 등)의 구현을 위해 다양한 모달리티에 대한 연구가 진행되고 있다. 그 중 촉각 모달리티는 사운드, 이미지, 텍스트에 대해 사용자에게 몰입감을 주는 핵심 모달리티로 주목받고 있다. 촉각 모달리티는 웨어러블 디바이스를 장착한 사용자에게 사운드, 이미지, 텍스트에 대응하는 햅틱 피드백으로서 전달될 수 있다.
일 실시 예에 따른 멀티 모달리티를 제공하는 웨어러블 디바이스의 동작 방법은, 이미지 데이터, 텍스트 데이터, 및 사운드 데이터 중 적어도 하나를 포함하는 소스 데이터를 획득하는 단계를 포함할 수 있다. 웨어러블 디바이스의 동작 방법은, 상기 소스 데이터에 상기 이미지 데이터, 상기 텍스트 데이터, 및 상기 사운드 데이터가 포함되는지 여부를 결정하는 단계를 포함할 수 있다. 웨어러블 디바이스의 동작 방법은, 상기 소스 데이터에 상기 이미지 데이터, 상기 텍스트 데이터, 및 상기 사운드 데이터 중 적어도 하나가 포함되지 않은 경우, 상기 소스 데이터를 입력으로 하는 뉴럴 네트워크를 이용하여, 상기 소스 데이터에 포함되지 않은 상기 이미지 데이터, 상기 텍스트 데이터, 및 상기 사운드 데이터를 생성하는 단계를 포함할 수 있다. 웨어러블 디바이스의 동작 방법은, 상기 사운드 데이터에 기초하여 PWM(Pulse Width Modulation) 신호를 생성하는 단계를 포함할 수 있다. 웨어러블 디바이스의 동작 방법은, 상기 이미지 데이터, 상기 텍스트 데이터, 상기 사운드 데이터, 및 상기 PWM 신호에 기초하여 상기 멀티 모달리티를 출력하는 단계를 포함할 수 있다.
일 실시 예에 따른 멀티 모달리티를 제공하는 웨어러블 디바이스는, 디스플레이를 포함할 수 있다. 웨어러블 디바이스는, 스피커를 포함할 수 있다. 웨어러블 디바이스는, 적어도 하나의 액추에이터를 포함할 수 있다. 웨어러블 디바이스는, 하나 이상의 인스트럭션을 저장하는 메모리를 포함할 수 있다. 웨어러블 디바이스는, 상기 메모리에 저장된 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함할 수 있다. 상기 적어도 하나의 프로세서는, 이미지 데이터, 텍스트 데이터, 및 사운드 데이터 중 적어도 하나를 포함하는 소스 데이터를 획득하는, 상기 하나 이상의 인스트럭션을 실행할 수 있다. 상기 적어도 하나의 프로세서는, 상기 소스 데이터에 상기 이미지 데이터, 상기 텍스트 데이터, 및 상기 사운드 데이터가 포함되는지 여부를 결정하는, 상기 하나 이상의 인스트럭션을 실행할 수 있다. 상기 적어도 하나의 프로세서는, 상기 소스 데이터에 상기 이미지 데이터, 상기 텍스트 데이터, 및 상기 사운드 데이터 중 적어도 하나가 포함되지 않은 경우, 상기 소스 데이터를 입력으로 하는 뉴럴 네트워크를 이용하여, 상기 소스 데이터에 포함되지 않은 상기 이미지 데이터, 상기 텍스트 데이터, 및 상기 사운드 데이터를 생성하는, 상기 하나 이상의 인스트럭션을 실행할 수 있다. 상기 적어도 하나의 프로세서는, 상기 사운드 데이터에 기초하여 PWM(Pulse Width Modulation) 신호를 생성하는, 상기 하나 이상의 인스트럭션을 실행할 수 있다. 상기 적어도 하나의 프로세서는, 상기 이미지 데이터, 상기 텍스트 데이터, 상기 사운드 데이터, 및 상기 PWM 신호에 기초하여, 상기 디스플레이, 상기 스피커, 상기 적어도 하나의 액추에이터로 하여금 상기 멀티 모달리티를 출력하도록 제어하는, 상기 하나 이상의 인스트럭션을 실행할 수 있다.
일 실시 예에 따르면, 본 개시의 기술적 과제를 해결하기 위하여, 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
도 1은 일 실시 예에 따른 멀티 모달리티를 제공하는 웨어러블 디바이스를 보여주는 개념도이다.
도 2는 일 실시 예에 따른 웨어러블 디바이스의 동작을 설명하기 위한 블록도이다.
도 3은 일 실시 예에 따른 적대적 생성 신경망의 학습 방법을 보여주는 블록도이다.
도 4a 및 4b는 도 2의 PWM 신호 생성기를 좀 더 상세하게 보여주는 블록도들이다.
도 5는 일 실시 예에 따른 웨어러블 디바이스가 사용자 입력에 기초하여 PWM 신호를 조정하는 방법을 설명하기 위한 개념도이다.
도 6은 일 실시 예에 따른 웨어러블 디바이스가 커브 가중치 팩터를 이용하여 PWM 신호를 조정하는 방법을 설명하기 위한 개념도이다.
도 7a 내지 7c는 일 실시 예에 따른 웨어러블 디바이스가 사용자 스피치 특성에 기초하여 PWM 신호를 조정하는 방법을 설명하기 위한 개념도이다.
도 8은 일 실시 예에 따른 웨어러블 디바이스의 효과를 설명하기 위한 개념도이다.
도 9a는 일 실시 예에 따른 웨어러블 디바이스의 동작 방법을 설명하기 위한 흐름도이다.
도 9b는 일 실시 예에 따른 소스 데이터에 이미지 데이터, 텍스트 데이터, 및 사운드 데이터가 포함되는지 여부를 결정하는 방법을 설명하기 위한 흐름도이다.
도 9c 및 9d는 일 실시 예에 따른 사운드 데이터에 기초하여 PWM 신호를 생성하는 방법을 설명하기 위한 흐름도이다.
도 10은 일 실시 예에 따른 웨어러블 디바이스의 구성을 보여주는 블록도이다.
도 11a 내지 11c는 일 실시 예에 따른 웨어러블 디바이스의 구성을 보여주는 도면들이다.
도 12a 및 12b는 일 실시 예에 따른 액추에이터의 동작을 제어하기 위한 유저 인터페이스를 보여주는 도면들이다.
도 13a 및 13b는 일 실시 예에 따른 햅틱 일루전 효과를 설명하기 위한 개념도들이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 개시에 대해 구체적으로 설명하기로 한다.
본 개시에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 명세서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 또한, 본 명세서에서 사용되는 '제1' 또는 '제2' 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용할 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
아래에서는 첨부한 도면을 참고하여 실시 예들에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 명세서에서, “사용자”라는 용어는 시스템, 기능 또는 동작을 제어하는 사람을 의미하며, 개발자, 관리자 또는 설치 기사를 포함할 수 있다.
본 명세서에서, “모달리티(modality)”는 웨어러블 디바이스를 장착한 사용자와의 인터랙션을 위한 감각 채널(예를 들어, 시각 채널, 청각 채널, 촉각 채널) 또는 감각 채널을 통해 입출력되는 신호, 정보 또는 데이터 등을 나타낼 수 있다. 예를 들어, 청각 모달리티는 청각 채널(예컨대, 스피커)을 통해 출력되는 오디오 신호를 나타내고, 시각 모달리티는 시각 채널(예컨대, 디스플레이)을 통해 출력되는 텍스트, 이미지 또는 영상 데이터 등을 나타내고, 촉각 모달리티는 촉각 채널(예컨대, 액추에이터 등)을 통해 출력되는 진동 신호를 나타낼 수 있다.
본 명세서에서, "멀티 채널(multi-channel)"은 주파수 영역으로 분리된 채널들을 포함할 수 있다. 예를 들어, 사운드 신호를 특정 주파수 영역으로 분리시키는 복수의 필터들 각각은 멀티 채널 중 하나의 채널에 대응할 수 있다. 따라서, 필터링된 신호들 각각에 대응하는 PWM 신호들은 개별적인 채널을 통해 액추에이터로 전달될 수 있다. 일 실시 예에 따르면, 하나의 채널에 하나의 액추에이터가 대응될 수 있다.
본 명세서에서, '뉴럴 네트워크'는 뇌 신경을 모사한 인공신경망 모델의 대표적인 예시로써, 특정 알고리즘을 사용한 인공신경망 모델로 한정되지 않는다.
도 1은 일 실시 예에 따른 멀티 모달리티를 제공하는 웨어러블 디바이스를 보여주는 개념도이다. 도 1을 참조하면, 웨어러블 디바이스(100)는 사용자(10)에게 멀티 모달리티(Multi-Modality)를 제공할 수 있다.
예를 들어, 웨어러블 디바이스(100)는 헤드마운트 디스플레이(head mounted display), 스마트 워치(smart watch), 스마트 밴드(smart band), 스마트 의복 등 중 적어도 하나를 포함할 수 있으나, 본 개시는 이에 한정되지 않으며, 사용자(10)가 착용하거나 상호작용할 수 있는 임의의 디바이스를 포함할 수 있다. 예를 들어, 멀티 모달리티는 시각 모달리티, 청각 모달리티, 및 촉각 모달리티를 포함할 수 있으나, 본 개시는 이에 한정되지 않으며, 사용자(10)의 다양한 감각기관과 상호작용할 수 있는 임의의 모달리티(예컨대, 후각, 미각 등)를 더 포함할 수 있다. 설명의 편의를 위해, 웨어러블 디바이스(100)가 제공하는 멀티 모달리티는 시각 모달리티, 청각 모달리티, 및 촉각 모달리티를 포함하는 것으로 가정하여 이하 설명한다.
일 실시 예에 있어서, 웨어러블 디바이스(100)는 모달리티 소스 데이터(또는 소스 데이터로 지칭될 수 있음)를 획득할 수 있다. 예를 들어, 모달리티 소스 데이터는 멀티미디어(multimedia) 데이터(예컨대, 이미지 데이터, 텍스트 데이터, 사운드 데이터, 그래픽 데이터, 비디오 데이터 등)일 수 있다. 본 명세서에서, 모달리티 소스 데이터는 이미지 데이터, 텍스트 데이터, 및 사운드 데이터 중 적어도 하나를 포함하는 것을 가정하여 설명한다. 그러나, 본 개시는 이에 한정되는 것은 아니며, 모달리티 소스 데이터는 멀티미디어 데이터에 포함되는 서로 다른 타입의 데이터 중 적어도 하나를 포함할 수 있다.
이미지 데이터, 텍스트 데이터, 및 사운드 데이터 각각은 서로 대응될 수 있다. 예를 들어, 이미지 데이터는 웃는 사람의 이미지 정보를 포함하고, 텍스트 데이터는 “ㅋㅋㅋㅋㅋㅋ”의 텍스트 정보를 포함하고, 사운드 데이터는 사람의 웃는 소리 정보를 포함할 수 있다.
일 실시 예에 있어서, 모달리티 소스 데이터에 이미지 데이터, 텍스트 데이터, 및 사운드 데이터 중 적어도 하나가 포함되지 않는 경우, 웨어러블 디바이스(100)는 획득한 모달리티 소스 데이터에 기초하여 이미지 데이터, 텍스트 데이터, 및/또는 사운드 데이터를 생성할 수 있다. 예를 들어, 모달리티 소스 데이터에 이미지 데이터가 포함된 경우, 웨어러블 디바이스(100)는 이미지 데이터에 기초하여 텍스트 데이터 및 사운드 데이터를 생성할 수 있다. 예를 들어, 모달리티 소스 데이터에 텍스트 데이터가 포함된 경우, 웨어러블 디바이스(100)는 텍스트 데이터에 기초하여 이미지 데이터 및 사운드 데이터를 생성할 수 있다. 예를 들어, 모달리티 소스 데이터에 사운드 데이터가 포함된 경우, 웨어러블 디바이스(100)는 이미지 데이터에 기초하여 이미지 데이터 및 텍스트 데이터를 생성할 수 있다. 예를 들어, 모달리티 소스 데이터에 이미지 데이터 및 텍스트 데이터가 포함된 경우, 웨어러블 디바이스(100)는 이미지 데이터 및 텍스트 데이터 중 적어도 하나에 기초하여 사운드 데이터를 생성할 수 있다. 예를 들어, 모달리티 소스 데이터에 이미지 데이터 및 사운드 데이터가 포함된 경우, 웨어러블 디바이스(100)는 이미지 데이터 및 사운드 데이터 중 적어도 하나에 기초하여 텍스트 데이터를 생성할 수 있다. 예를 들어, 모달리티 소스 데이터에 사운드 데이터 및 텍스트 데이터가 포함된 경우, 웨어러블 디바이스(100)는 사운드 데이터 및 텍스트 데이터 중 적어도 하나에 기초하여 이미지 데이터를 생성할 수 있다.
일 실시 예에 있어서, 웨어러블 디바이스(100)는 모달리티 소스 데이터를 입력으로 하는 뉴럴 네트워크(예컨대, 적대적 생성 신경망(Generative Adversarial Network; GAN)의 생성기 등의 생성 모델)를 이용하여, 모달리티 소스 데이터에 포함되지 않은 이미지 데이터, 텍스트 데이터, 및 사운드 데이터를 생성할 수 있다. GAN 의 생성기가 학습되는 방법에 대한 예시는 도 3에서 상세하게 설명한다.
일 실시 예에 있어서, 뉴럴 네트워크는 복수의 뉴럴 네트워크들(제1 내지 제12 뉴럴 네트워크들)을 포함하는 개념일 수 있다. 복수의 뉴럴 네트워크들(제1 내지 제12 뉴럴 네트워크들)은 모달리티 소스 데이터에 포함되는 멀티미디어 데이터(예컨대, 이미지 데이터, 텍스트 데이터, 및 사운드 데이터)를 입력으로 하여, 모달리티 소스 데이터에 포함되는 멀티미디어 데이터(예컨대, 이미지 데이터, 텍스트 데이터, 및 사운드 데이터)를 생성할 수 있다.
예를 들어, 제1 뉴럴 네트워크는 이미지 데이터를 입력으로 하여 텍스트 데이터를 생성할 수 있다. 예를 들어, 제2 뉴럴 네트워크는 이미지 데이터를 입력으로 하여 사운드 데이터를 생성할 수 있다. 예를 들어, 제3 뉴럴 네트워크는 텍스트 데이터를 입력으로 하여 이미지 데이터를 생성할 수 있다. 예를 들어, 제4 뉴럴 네트워크는 텍스트 데이터를 입력으로 하여 사운드 데이터를 생성할 수 있다. 예를 들어, 제5 뉴럴 네트워크는 사운드 데이터를 입력으로 하여 이미지 데이터를 생성할 수 있다. 예를 들어, 제6 뉴럴 네트워크는 사운드 데이터를 입력으로 하여 텍스트 데이터를 생성할 수 있다. 예를 들어, 제7 뉴럴 네트워크는 이미지 데이터 및 텍스트 데이터를 입력으로 하여 사운드 데이터를 생성할 수 있다. 예를 들어, 제8 뉴럴 네트워크는 이미지 데이터 및 사운드 데이터를 입력으로 하여 텍스트 데이터를 생성할 수 있다. 예를 들어, 제9 뉴럴 네트워크는 텍스트 데이터 및 사운드 데이터를 입력으로 하여 이미지 데이터를 생성할 수 있다. 예를 들어, 제10 뉴럴 네트워크는 이미지 데이터를 입력으로 하여 텍스트 데이터 및 사운드 데이터를 생성할 수 있다. 예를 들어, 제11 뉴럴 네트워크는 텍스트 데이터를 입력으로 하여 이미지 데이터 및 사운드 데이터를 생성할 수 있다. 예를 들어, 제12 뉴럴 네트워크는 사운드 데이터를 입력으로 하여 이미지 데이터 및 텍스트 데이터를 생성할 수 있다.
일 실시 예에 있어서, 웨어러블 디바이스(100)는 복수의 뉴럴 네트워크 중에서, 모달리티 소스 데이터에 포함되는 이미지 데이터, 텍스트 데이터, 및 사운드 데이터 중 적어도 하나를 입력으로 하는 뉴럴 네트워크를 식별할 수 있다. 웨어러블 디바이스(100)는 식별된 뉴럴 네트워크를 이용하여 모달리티 소스 데이터에 포함되지 않은 이미지 데이터, 텍스트 데이터, 및 사운드 데이터를 생성할 수 있다.
일 실시 예에 있어서, 웨어러블 디바이스(100)는 사운드 데이터에 기초하여 PWM(pulse width modulation) 신호를 생성할 수 있다. 예를 들어, 웨어러블 디바이스(100)는 사운드 데이터에 기초하여 사운드 피처(feature)를 계산(또는 추출)할 수 있다. 웨어러블 디바이스(100)는 사운드 피처의 펄스 폭을 변조함으로써, PWM 신호를 생성할 수 있다. 웨어러블 디바이스(100)는 PWM 신호에 기초하여 액추에이터를 제어함으로써, 촉각 모달리티를 출력할 수 있다. 즉, 촉각 모달리티에 의한 햅틱 피드백(haptic feedback)이 사용자에게 전달할 수 있다.
일 실시 예에 있어서, 웨어러블 디바이스(100)는 사운드 데이터를 주파수에 따라 필터링함으로써 서브 사운드 데이터들을 생성할 수 있다. 웨어러블 디바이스(100)는 서브 사운드 데이터들 각각에 기초하여 대응하는 PWM 신호를 생성할 수 있다. 서브 사운드 데이터들 각각에 대응하는 PWM 신호는 대응하는 액추에이터에 전달될 수 있다.
일 실시 예에 있어서, 웨어러블 디바이스(100)는 사운드 데이터를 입력으로 하는 IFN(Integrate-and-Fire Neuron) 모델을 이용하여, PWM 신호를 생성할 수 있다. IFN 모델을 이용하는 방법에 대한 예시는 도 4a 및 4b에서 상세하게 설명한다.
일 실시 예에 있어서, 웨어러블 디바이스(100)는 사운드 데이터에 기초하여 사용자에게 햅틱 일루전(haptic illusion) 효과를 제공하는 PWM 신호를 생성할 수 있다. 햅틱 일루전 효과를 제공하는 PWM 신호를 생성하는 방법은 도 13a 및 13b에서 상세하게 설명한다.
일 실시 예에 있어서, 웨어러블 디바이스(100)는 사용자 입력에 기초하여 PWM 신호를 조정할 수 있다. 사용자(10)가 햅틱 피드백을 느끼는 인지 정도가 상이할 수 있다. 웨어러블 디바이스(100)는 햅틱 피드백의 세기에 대응하는 사용자 입력을 수신할 수 있다. 웨어러블 디바이스(100)는 사용자 입력에 대응하는 햅틱 피드백의 세기가 형성되도록 PWM 신호를 조정할 수 있다.
일 실시 예에 있어서, 웨어러블 디바이스(100)는 사용자 메타데이터에 기초하여 PWM 신호를 조정할 수 있다. 사용자 메타데이터는 사용자의 특성(예컨대, 목소리, 나이, 성별, 키, 몸무게 등)을 나타내는 사용자 프로파일 정보를 포함할 수 있다. 예를 들어, 웨어러블 디바이스(100)는 사용자의 특성을 반영하여 햅틱 피드백의 세기가 형성되도록 PWM 신호를 조정할 수 있다. 사용자의 목소리 특성을 반영하는 방법에 대한 예시는 도 7a 내지 7c에서 상세하게 설명한다.
일 실시 예에 있어서, 웨어러블 디바이스(100)는 이미지 데이터 및 텍스트 데이터에 기초하여 시각 모달리티를 출력할 수 있다. 예를 들어, 웨어러블 디바이스(100)는 웨어러블 디바이스(100)에 포함되는 디스플레이를 제어함으로써 시각 모달리티를 출력할 수 있다. 예를 들어, 웨어러블 디바이스(100)는 외부 장치에 이미지 데이터를 전달하고, 외부 장치로 하여금 시각 모달리티를 출력하도록 제어할 수 있다.
일 실시 예에 있어서, 웨어러블 디바이스(100)는 사운드 데이터에 기초하여 청각 모달리티를 출력할 수 있다. 예를 들어, 웨어러블 디바이스(100)는 웨어러블 디바이스(100)에 포함되는 스피커를 제어함으로써 청각 모달리티를 출력할 수 있다. 예를 들어, 웨어러블 디바이스(100)는 외부 장치에 사운드 데이터를 전달하고, 외부 장치로 하여금 청각 모달리티를 출력하도록 제어할 수 있다.
일 실시 예에 있어서, 웨어러블 디바이스(100)는 시각 모달리티, 청각 모달리티, 및 촉각 모달리티를 포함하는 멀티 모달리티를 동시에 출력할 수 있다.
도 2는 일 실시 예에 따른 웨어러블 디바이스의 동작을 설명하기 위한 블록도이다. 도 1에서 설명한 웨어러블 디바이스(100)의 기능, 구성, 및 동작은 웨어러블 디바이스(200)의 기능, 구성, 및 동작과 유사하므로, 중복되는 내용은 생략될 수 있다. 도 1의 웨어러블 디바이스(100)와 웨어러블 디바이스(200)가 동일한 장치인 것을 가정하여 이하 설명한다.
웨어러블 디바이스(200)는 모달리티 소스 식별기(210), 미획득 모달리티 소스 생성기(220), PWM 신호 생성기(230), 및 멀티 모달리티 출력 장치(240)를 포함할 수 있다. 모달리티 소스 식별기(210), 미획득 모달리티 소스 생성기(220), 및 PWM 신호 생성기(230)의 기능 중 적어도 일부는 웨어러블 디바이스(200)에 포함되는 적어도 하나의 프로세서에 의해 수행될 수 있다.
모달리티 소스 식별기(210)는 외부 장치 또는 사용자로부터 모달리티 소스 데이터(MSD)를 수신할 수 있다. 모달리티 소스 식별기(210)는 모달리티 소스 데이터(MSD)를 분석할 수 있다. 모달리티 소스 식별기(210)는 모달리티 소스 데이터(MSD)에 이미지 데이터(ID), 텍스트 데이터(TD), 및 사운드 데이터(SD)가 포함되는지 여부를 결정할 수 있다.
모달리티 소스 데이터(MSD)에 이미지 데이터(ID), 텍스트 데이터(TD), 및 사운드 데이터(SD) 모두 포함된 경우, 모달리티 소스 식별기(210)는 모달리티 소스 데이터(MSD)를 멀티 모달리티 출력 장치(240)에 전달할 수 있다.
모달리티 소스 데이터(MSD)에 이미지 데이터(ID), 텍스트 데이터(TD), 및 사운드 데이터(SD) 중 적어도 하나가 포함되지 않은 경우, 모달리티 소스 식별기(210)는 모달리티 소스 데이터(MSD)를 (직접 또는 미획득 모달리티 소스 생성기(220)를 통해) 미획득 모달리티 소스 생성기(220)와 멀티 모달리티 출력 장치(240)에 전달할 수 있다. 일 실시 예에 있어서, 모달리티 소스 데이터(MSD)에 사운드 데이터(SD)가 포함된 경우, 모달리티 소스 식별기(210)는 사운드 데이터(SD)를 PWM 신호 생성기(230)에 전달할 수 있다.
미획득 모달리티 소스 생성기(220)는 모달리티 소스 데이터(MSD)에 포함되지 않은 이미지 데이터(ID’), 텍스트 데이터(TD’), 및 사운드 데이터(SD’)를 생성할 수 있다. 미획득 모달리티 소스 생성기(220)는 모달리티 소스 데이터(MSD)를 수신할 수 있다. 모달리티 소스 데이터(MSD)에 기초하여 이미지 데이터(ID’), 텍스트 데이터(TD’), 및 사운드 데이터(SD’)가 생성되는 동작은 도 1에서 설명하였으므로 생략한다. 미획득 모달리티 소스 생성기(220)는 사운드 데이터(SD’)를 PWM 신호 생성기(230)에 전달할 수 있다.
일 실시 예에 있어서, 미획득 모달리티 소스 생성기(220)는 학습된 뉴럴 네트워크(221)를 포함할 수 있다. 학습된 뉴럴 네트워크(221)는 GAN 모델에 포함되는 생성기일 수 있다. 학습된 뉴럴 네트워크(221)는 모달리티 소스 데이터(MSD)에 기초하여 이미지 데이터(ID’), 텍스트 데이터(TD’), 및 사운드 데이터(SD’)를 생성할 수 있다. 학습된 뉴럴 네트워크(221)의 학습 과정은 도 3에서 상세하게 설명한다.
미획득 모달리티 소스 생성기(220)는, 모달리티 소스 데이터(MSD)에 포함되지 않았으나 미획득 모달리티 소스 생성기(220)에 의해 생성된 이미지 데이터(ID’), 텍스트 데이터(TD’), 및 사운드 데이터(SD’)를 멀티 모달리티 출력 장치(240)에 전달할 수 있다.
PWM 신호 생성기(230)는 모달리티 소스 식별기(210)로부터 사운드 데이터(SD)를 수신하거나, 미획득 모달리티 소스 생성기(220)로부터 사운드 데이터(SD’)를 수신할 수 있다. PWM 신호 생성기(230)는 사운드 데이터(SD, SD’)에 기초하여 PWM 신호(PWMS)를 생성할 수 있다. 예시적으로, PWM 신호 생성기(230)는 사운드 데이터(SD, SD’)의 사운드 에너지 파형을 펄스 폭 변조함으로써 PWM 신호(PWMS)를 생성할 수 있다. 일 실시 예에 있어서, PWM 신호 생성기(230)는 사운드 데이터(SD, SD')의 사운드 에너지 파형(즉, 사운드 데이터의 특성) 또는 애플리케이션의 타입에 따라 PWM 신호(PWMS)를 생성할 수 있다. PWM 신호 생성기(230)는 사운드 에너지 파형(즉, 사운드 데이터의 특성) 또는 애플리케이션의 타입과 PWM 신호(PWMS)을 맵핑하는 맵핑 테이블에 기초하여 PWM 신호(PWM를 생성할 수 있다.) PWM 신호 생성기(230)의 구체적인 구성 및 기능은 도 4a 및 4b에서 상세하게 설명한다.
멀티 모달리티 출력 장치(240)는 모달리티 소스 데이터(MSD)(예컨대, 이미지 데이터(ID), 텍스트 데이터(TD), 및 사운드 데이터(SD) 중 적어도 하나), 모달리티 소스 데이터(MSD)에 포함되지 않았으나 미획득 모달리티 소스 생성기(220)에 의해 생성된 이미지 데이터(ID’), 텍스트 데이터(TD’), 및 사운드 데이터(SD’), 및 PWM 신호(PWMS) 신호에 기초하여 멀티 모달리티를 출력할 수 있다.
일 실시 예에 있어서, 멀티 모달리티 출력 장치(240)는 액추에이터, 디스플레이, 및 스피커를 포함할 수 있다. 예를 들어, 액추에이터는 PWM 신호(PWMS)에 기초하여 촉각 모달리티를 출력할 수 있다. 예를 들어, 디스플레이는 이미지 데이터(예컨대, ID 또는 ID’) 및 텍스트 데이터(예컨대, TD 또는 TD’)에 기초하여 시각 모달리티를 출력할 수 있다. 예를 들어, 스피커는 사운드 데이터(예컨대, SD 또는 SD’)에 기초하여 청각 모달리티를 출력할 수 있다.
도 3은 일 실시 예에 따른 적대적 생성 신경망의 학습 방법을 보여주는 블록도이다. 적대적 생성 신경망(GAN)은 생성기(generator)(321), 판별기(discriminator)(322), 및 손실 함수(loss fuction)(323)을 포함할 수 있다. GAN은 학습을 통해 생성기(321)와 판별기(322)가 서로의 성능을 개선해 적대적으로 경쟁해 나가는 모델이다. 생성기(321) 및 판별기(322) 각각은 적어도 하나의 레이어를 포함할 수 있다. 레이어는 입력 데이터로부터 특징을 추출하기 위한 가중치 정보들로 구성된 필터를 포함할 수 있다.
생성기(321)는 데이터 셋(DS)을 입력으로 하여, 가짜 데이터(FD)를 출력하도록 학습될 수 있다. 데이터 셋(DS)은 이미지, 텍스트, 및 사운드 중 적어도 하나를 포함하는 데이터의 집합일 수 있다. 가짜 데이터(FD)는 가짜 이미지 데이터, 가짜 텍스트 데이터 또는 가짜 사운드 데이터일 수 있다.
실제 데이터 DB(310)는 실제 데이터(RD)의 집합을 포함할 수 있다. 실제 데이터(RD)는 가짜 데이터(FD)에 대응할 수 있다. 예를 들어, 가짜 데이터(FD)가 가짜 이미지 데이터인 경우, 실제 데이터(RD)는 실제 이미지 데이터일 수 있다.
판별기(322)는 가짜 데이터(FD) 또는 실제 데이터(RD)를 입력으로 하여, 가짜 데이터(FD) 또는 실제 데이터(RD)의 가짜 여부를 판별하도록 학습될 수 있다.
손실 함수(323)는 판별 결과(DR)에 기초하여 손실 함수 값을 계산할 수 있다. 손실 함수 값은 역전파를 통해 판별기(322) 및 생성기(321)에 전달될 수 있다. 판별기(322) 및 생성기(321)에 포함되는 적어도 하나의 레이어의 가중치는 손실 함수 값에 기초하여 업데이트될 수 있다.
일 실시 예에 있어서, 생성기(321)는 데이터 셋(DS)의 유형 및 출력 데이터에 따라 복수 개의 서브 생성기들을 포함할 수 있다. 예를 들어, 제1 서브 생성기는 이미지 데이터의 집합인 데이터 셋을 입력으로 하여, 가짜 사운드 데이터를 출력하도록 학습될 수 있다. 예를 들어, 제2 서브 생성기는 이미지 데이터의 집합인 데이터 셋을 입력으로 하여, 가짜 텍스트 데이터를 출력하도록 학습될 수 있다. 예를 들어, 제3 서브 생성기는 이미지 데이터 및 텍스트 데이터의 집합인 데이터 셋을 입력으로 하여, 가짜 사운드 데이터를 출력하도록 학습될 수 있다. 그러나 본 개시는 이에 제한되지 않으며, 생성기(321)는, 데이터 셋의 유형(예컨대, 이미지, 텍스트, 및 사운드 중 적어도 하나를 포함하는 데이터의 집합) 및 출력 데이터(예컨대, 가짜 이미지 데이터, 가짜 텍스트 데이터 또는 가짜 사운드 데이터)의 임의의 조합을 특징으로 하는 서브 생성기들을 포함할 수 있다.
일 실시 예에 있어서, 유사하게, 판별기(322)는 생성기(321)가 출력하는 출력 데이터, 즉 가짜 데이터(FD)의 유형에 따라 복수 개의 서브 판별기들을 포함할 수 있다. 예를 들어, 제1 서브 판별기는 가짜 사운드 데이터 또는 실제 사운드 데이터를 입력으로 하여, 가짜 사운드 데이터 또는 실제 사운드 데이터의 가짜 여부를 판별하도록 학습될 수 있다. 제2 서브 판별기는 가짜 이미지 데이터 또는 실제 이미지 데이터를 입력으로 하여, 가짜 이미지 데이터 또는 실제 이미지 데이터의 가짜 여부를 판별하도록 학습될 수 있다. 제3 서브 판별기는 가짜 텍스트 데이터 또는 실제 텍스트 데이터를 입력으로 하여, 가짜 텍스트 데이터 또는 실제 텍스트 데이터의 가짜 여부를 판별하도록 학습될 수 있다.
도 2와 함께, 도 3을 참조하면, 생성기(321)는 상술한 GAN의 학습 과정을 통해 학습될 수 있으며, 학습된 생성기(321)는 도 2의 학습된 뉴럴 네트워크(221)와 구성, 기능, 동작이 유사할 수 있다.
도 4a 및 4b는 도 2의 PWM 신호 생성기를 좀 더 상세하게 보여주는 블록도들이다.
도 2와 함께, 도 4a를 참조하면, PWM 신호 생성기(230)는 분배기(231), 사운드 피처 추출기(232), IFN 모델(233), 및 PWM 신호 변환기(234)를 포함할 수 있다.
분배기(231)는 모달리티 소스 식별기(210) 또는 미획득 모달리티 소스 생성기(220)로부터 사운드 데이터(예컨대, SD 또는 SD’)를 입력 받을 수 있다. 분배기(231)는 사운드 데이터(예컨대, SD 또는 SD’)의 주파수 범위에 대한 에너지 스펙트럼을 측정할 수 있다. 분배기(231)는 측정된 에너지 스펙트럼에 기초하여, 미리 정의된 스케일(예컨대, 선형, 로그(log10, ln, Mel), 지수 등)로 서브 사운드 데이터(예컨대, SSD1, SSD2, SSD3)를 생성할 수 있다. 예시적으로, 서브 사운드 데이터(예컨대, SSD1, SSD2, SSD3)의 개수는 액추에이터(예컨대, 410a, 410b, 410c)의 개수와 동일할 수 있다. 설명의 편의를 위해 액추에이터와 서브 사운드 데이터의 개수는 3 개인 것으로 도시되었으나, 본 개시는 이에 제한되지 않는다.
분배기(231)는 적어도 하나의 필터(예컨대, 231a, 231b, 231c)를 포함할 수 있다. 적어도 하나의 필터(예컨대, 231a, 231b, 231c)는 사운드 데이터(예컨대, SD 또는 SD’)의 주파수 성분에 따라 적어도 하나의 서브 사운드 데이터(예컨대, SSD1, SSD2, SSD3)로 필터링할 수 있다. 적어도 하나의 필터(예컨대, 231a, 231b, 231c) 각각은 주파수 영역으로 분리된 하나의 채널에 대응할 수 있다. 따라서, 예시적으로 도시된 세 개의 필터들(231a, 231b, 231c)은 멀티 채널에 포함되는 세 개의 채널에 대응하는 세 개의 서브 사운드 데이터(SSD1, SSD2, SSD3)를 출력할 수 있다.
예시적으로, 분배기(231)는 로우 패스 필터(low pass filter; 이하, LPF)(231a), 밴드 패스 필터(band pass filter; 이하, BPF)(231b), 및 하이 패스 필터(high pass filter; 이하, HPF)(231c)를 포함할 수 있다. LPF(231a)는 사운드 데이터(예컨대, SD 또는 SD’)에 대응하는 신호의 제1 차단 주파수(cutoff frequency)를 초과하는 신호를 감쇠시킴으로써 차단 주파수 이하의 신호만 통과시키는 필터일 수 있다. LPF(231a)는 사운드 데이터(예컨대, SD 또는 SD’)에 기초하여 제1 서브 사운드 데이터(SSD1)를 출력할 수 있다. BPF(231b)는 사운드 데이터(예컨대, SD 또는 SD’)에 대응하는 신호의 제1 차단 주파수 및 제2 차단 주파수 사이의 신호만 통과시키는 필터일 수 있다. BPF(231b)는 사운드 데이터(예컨대, SD 또는 SD’)에 기초하여 제2 서브 사운드 데이터(SSD2)를 출력할 수 있다. HPF(231c)는 사운드 데이터(예컨대, SD 또는 SD’)에 대응하는 신호의 제2 차단 주파수 미만의 신호를 감쇠시킴으로써 차단 주파수 이상의 신호만 통과시키는 필터일 수 있다. HPF(231c)는 사운드 데이터(예컨대, SD 또는 SD’)에 기초하여 제3 서브 사운드 데이터(SSD3)를 출력할 수 있다.
사운드 피처 추출기(232)는 적어도 하나의 서브 사운드 데이터(예컨대, SSD1, SSD2, SSD3)에 기초하여, 서브 사운드 데이터 각각에 대응하는 적어도 하나의 사운드 피처(예컨대, SF1, SF2, SF3)를 추출할 수 있다. 예를 들어, 사운드 피처(예컨대, SF1, SF2, SF3)는 적어도 하나의 서브 사운드 데이터(예컨대, SSD1, SSD2, SSD3) 각각의 사운드 에너지(진폭으로도 지칭될 수 있음), 주파수, 피치, 및 강도 중 적어도 하나를 포함할 수 있으나, 본 개시는 이에 제한되지 않는다. 예를 들어, 사운드 피처는 스펙트로그램(spectrogram) 기법을 이용하여 추출될 수 있으나, 본 개시는 이에 제한되지 않으며, 스펙트럼(spectrum), 멜 스펙트로그램(Mel spectrogram), MFCC(Mel-Frequency Cepstral Coefficient) 기법 등이 이용될 수 있다.
예시적으로, 사운드 피처 추출기(232)는 제1 서브 사운드 데이터(SSD1)에 기초하여 적어도 하나의 제1 사운드 피처(SF1)를 추출할 수 있다. 사운드 피처 추출기(232)는 제2 서브 사운드 데이터(SSD2)에 기초하여 적어도 하나의 제2 사운드 피처(SF2)를 추출할 수 있다. 사운드 피처 추출기(232)는 제3 서브 사운드 데이터(SSD3)에 기초하여 적어도 하나의 제3 사운드 피처(SF3)를 추출할 수 있다.
일 실시 예에 있어서, 서브 사운드 데이터(예컨대, SSD1, SSD2, SSD3) 각각에 대응하는 사운드 피처(예컨대, SF1, SF2, SF3)가 복수 개인 경우(예를 들어, 사운드 피처(예컨대, SF1, SF2, SF3)가 적어도 하나의 서브 사운드 데이터(예컨대, SSD1, SSD2, SSD3)의 사운드 에너지, 주파수, 피치, 및 강도 중 적어도 둘 이상인 경우), IFN 모델(233)은 사운드 피처들 간의 상관 관계 및 사운드 피처들 각각의 통계 분포(예컨대, 분산 값)를 계산할 수 있다. IFN 모델(233)은 사운드 피처들 중 대표 사운드 피처를 선정할 수 있다.
IFN 모델(233)은 사운드 피처(예컨대, SF1, SF2, SF3)(또는 대표 사운드 피처)의 분산 값을 계산할 수 있다. IFN 모델(233)은 사운드 피처(예컨대, SF1, SF2, SF3)의 분산 값의 임계 값 초과 여부를 식별할 수 있다. 사운드 피처(예컨대, SF1, SF2, SF3)의 분산 값이 임계 값을 초과한 경우, IFN 모델(233)은 적어도 하나의 서브 사운드 데이터(예컨대, SSD1, SSD2, SSD3)의 사운드 에너지 강도 및 적어도 하나의 서브 사운드 데이터(예컨대, SSD1, SSD2, SSD3)의 사운드 에너지 기울기(gradient)에 기초하여 사운드 피처(예컨대, SF1, SF2, SF3)를 필터링할 수 있다. IFN 모델(233)은 필터링된 사운드 피처(예컨대, SF1’, SF2’, SF3’)를 PWM 신호 변환기(234)에 전달할 수 있다. 예를 들어, 사운드 에너지 강도는 사운드 데이터에 대응하는 음성의 크기를 나타낼 수 있다. 예를 들어, 사운드 에너지 강도는 데시벨(dB)을 단위로 하여 표현될 수 있다. 예를 들어, 사운드 에너지 기울기는 사운드 에너지 강도의 단위 시간당 변화량을 나타낼 수 있다. 예를 들어, 사운드 에너지 기울기는 ddB/dt 와 같이 표현될 수 있다.
일 실시 예에 있어서, IFN 모델(233)은 노멀라이저(233_1), SEI(sound energy intensity) 필터(233_2), SEG(sound energy gradient) 필터(233_3), 및 액티브 함수(233_4)를 포함할 수 있다.
노멀라이저(233_1)는 사운드 피처(예컨대, SF1, SF2, SF3)를 시간 도메인 및 에너지 도메인에서 정규화할 수일 수 있다. 예를 들어, 노멀라이저(233_1)는 사운드 에너지 강도의 최댓값 및 최솟값에 기초하여 사운드 피처를 정규화할 수 있다.
SEI 필터(233_2)는 적어도 하나의 서브 사운드 데이터(예컨대, SSD1, SSD2, SSD3)의 사운드 에너지 강도의 분포(예컨대, 분산 값)에 기초하여 강도 임계 값을 계산할 수 있다. 일 실시 예에 있어서, 강도 임계 값은 미리 정의된 수학식에 의해 산출될 수 있다. 일 실시 예에 있어서, 강도 임계 값은 미리 정의된 값일 수 있다. SEI 필터(233_2)는 사운드 피처(예컨대, SF1, SF2, SF3) 중 적어도 하나의 서브 사운드 데이터(예컨대, SSD1, SSD2, SSD3)의 사운드 에너지 강도의 강도 임계 값을 초과하는 구간 및 강도 임계 값을 초과하지 않는 구간을 추출할 수 있다.
SEG 필터(233_3)는 적어도 하나의 서브 사운드 데이터(예컨대, SSD1, SSD2, SSD3)의 사운드 에너지 기울기의 분포에 기초하여 기울기 임계 값을 계산할 수 있다. 일 실시 예에 있어서, 기울기 임계 값은 미리 정의된 수학식에 의해 산출될 수 있다. 일 실시 예에 있어서, 기울기 임계 값은 미리 정의된 값일 수 있다. SEG 필터(233_3)는 사운드 피처(예컨대, SF1, SF2, SF3) 중 적어도 하나의 서브 사운드 데이터(예컨대, SSD1, SSD2, SSD3)의 사운드 에너지 기울기의 기울기 임계 값을 초과하는 구간 및 기울기 임계 값을 초과하지 않는 구간을 추출할 수 있다. IFN 모델(233)은 강도 임계 값 및 기울기 임계 값을 초과하는 사운드 피처의 구간을 통과시킬 수 있다. IFN 모델(233)은 강도 임계 값 및 기울기 임계 값 중 적어도 하나를 초과하지 않는 사운드 피처의 구간을 미리 정의된 가중치 값을 부여하여 감쇠시킬 수 있다. IFN 모델(233)이 특정 사운드 피처의 구간을 통과시키고, 감쇠시키는 기능은 액티브 함수(active function)(233_4)로 명명될 수 있다. 액티브 함수(233_4)를 통해 필터링된 사운드 피처(예컨대, SF1’, SF2’, SF3’)는 PWM 신호 변환기(234)로 전달될 수 있다.
사운드 피처(예컨대, SF1, SF2, SF3)의 분산 값이 임계 값을 초과하지 않은 경우, IFN 모델(233)은 사운드 피처(예컨대, SF1, SF2, SF3)를 PWM 신호 변환기(234)에 전달할 수 있다.
PWM 신호 변환기(234)는 사운드 피처(예컨대, SF1, SF2, SF3) 또는 필터링된 사운드 피처(예컨대, SF1’, SF2’, SF3’)에 기초하여, 적어도 하나의 PWM 신호(예컨대, PWMS1, PWMS2, PWMS3)를 생성할 수 있다. PWM 신호 변환기(234)는 사운드 피처(예컨대, SF1, SF2, SF3) 또는 필터링된 사운드 피처(예컨대, SF1’, SF2’, SF3’)에 대응하는 적어도 하나의 서브 사운드 데이터(예컨대, SSD1, SSD2, SSD3)의 사운드 에너지 강도와 듀티 사이클(duty cycle)을 맵핑함으로써, 적어도 하나의 PWM 신호(예컨대, PWMS1, PWMS2, PWMS3)를 생성할 수 있다.
예시적으로, PWM 신호 변환기(234)는 제1 사운드 피처(예컨대, SF1 또는 SF1’)에 기초하여 제1 PWM 신호(PWMS1)를 생성할 수 있다. 제1 PWM 신호(PWMS1)는 제1 액추에이터(410a)에 전달될 수 있다. PWM 신호 변환기(234)는 제2 사운드 피처(예컨대, SF2 또는 SF2’)에 기초하여 제2 PWM 신호(PWMS2)를 생성할 수 있다. 제2 PWM 신호(PWMS2)는 제2 액추에이터(410b)에 전달될 수 있다. PWM 신호 변환기(234)는 제3 사운드 피처(예컨대, SF3 또는 SF3’)에 기초하여 제3 PWM 신호(PWMS3)를 생성할 수 있다. 제3 PWM 신호(PWMS3)는 제3 액추에이터(410c)에 전달될 수 있다. 여기서, 제1 내지 제3 액추에이터들(410a, 410b, 410c)은 웨어러블 디바이스(200)에 포함될 수 있다.
일 실시 예에 따르면, 서로 다른 주파수 영역에 대응하는 복수의 PWM 신호들은 액추에이터들(410a, 410b, 410c)에 의해 진동 신호들로 변환될 수 있다. 서로 다른 주파수에 대응하는 채널들을 포함하는 멀티 채널의 진동 신호들이 사용자에게 효과적으로 전달됨으로써, 사용자의 촉각 반응이 향상될 수 있다.
일 실시 예에 있어서, PWM 신호 변환기(234)는 사용자 메타데이터 DB(420)로부터 사용자 스피치 특징을 획득할 수 있다. PWM 신호 변환기(234)는 사용자 스피치 특징에 기초하여 적어도 하나의 PWM 신호(예컨대, PWMS1, PWMS2, PWMS3)를 조정할 수 있다. 예를 들어, PWM 신호 변환기(234)는 PWM 신호(예컨대, PWMS1, PWMS2, PWMS3)에 대해 시간 도메인 리-스케일링(re-scaling) 또는 파형 간격 시프팅(waveform interval shifting)을 수행할 수 있다. 일 실시 예에 따르면, 사용자 스피치 특징을 반영한 PWM 신호가 생성됨으로써, 사용자에게 더 나은 햅틱 피드백을 전달할 수 있다. 예를 들어, 사용자 스피치 특징은 사용자의 목소리(예컨대, 작은 목소리, 큰 목소리, 낮은 목소리, 높은 목소리, 느린 목소리, 빠른 목소리, 울리는 목소리, 쉰 목소리, 갈라지는 목소리 등)에 대응하는 데이터일 수 있다.
일 실시 예에 있어서, PWM 신호 변환기(234)는 사용자 입력(UI)를 획득(또는 수신)할 수 있다. PWM 신호 변환기(234)는 사용자 입력(UI)에 기초하여 적어도 하나의 PWM 신호(예컨대, PWMS1, PWMS2, PWMS3)를 조정할 수 있다. 일 실시 예에 따르면, 사용자 입력을 반영한 PWM 신호가 생성됨으로써, 사용자에게 더 나은 햅틱 피드백을 전달할 수 있다.
도 2와 함께, 도 4b를 참조하면, 일 실시 예에 있어서, PWM 신호 생성기(230)는 사운드 피처 추출기(232), IFN 모델(233), 및 PWM 신호 변환기(234)를 포함할 수 있다. 즉, 도 4a에 도시된 분배기(231)가 생략될 수 있다. 사운드 피처 추출기(232) 및 IFN 모델(233)의 구성, 기능, 및 동작은 도 4a에서 설명한 사운드 피처 추출기(232) 및 IFN 모델(233)의 구성, 기능, 및 동작과 유사하므로, 중복되는 내용은 이하 생략한다.
사운드 피처 추출기(232)는 모달리티 소스 식별기(210) 또는 미획득 모달리티 소스 생성기(220)로부터 사운드 데이터(예컨대, SD 또는 SD’)를 입력 받을 수 있다. 사운드 피처 추출기(232)는 사운드 데이터(예컨대, SD 또는 SD’)에 기초하여, 사운드 피처(SF)를 추출할 수 있다. IFN 모델(233)은 사운드 피처(SF)의 분산 값을 계산할 수 있다. 사운드 피처(SF)의 분산 값이 임계 값을 초과한 경우, IFN 모델(233)은 사운드 피처(SF)를 필터링하고, 필터링된 사운드 피처(SF’)를 PWM 신호 변환기(234)에 전달할 수 있다. 사운드 피처(SF)의 분산 값이 임계 값을 초과하지 않은 경우, IFN 모델(233)은 사운드 피처(SF)를 PWM 신호 변환기(234)에 전달할 수 있다.
PWM 신호 변환기(234)는 사운드 피처(예컨대, SF 또는 SF’)에 기초하여 PWM 신호(PWMSA) 및 부분 PWM 신호(PWMSP)를 생성할 수 있다. PWM 신호 변환기(234)는 사운드 피처(SF) 또는 필터링된 사운드 피처(SF’)에 대응하는 사운드 데이터(SD 또는 SD’)의 사운드 에너지 강도와 듀티 사이클(duty cycle)을 맵핑함으로써 PWM 신호(PWMSA)를 생성할 수 있다.
변환된 신호의 전체 영역(DCI2)에 대응하는 신호가 PWM 신호(PWMSA)로 명명되고, 변환된 신호의 부분 영역(DCI1)에 대응하는 신호가 부분 PWM 신호(PWMSP)로 명명될 수 있다. 부분 영역(DCI1)은 듀티 사이클이 미리 정의된 값을 초과하는 영역일 수 있다. 예를 들어, 부분 영역(DCI1)은 듀티 사이클이 200을 초과하는 영역일 수 있다. PWM 신호(PWMSA)는 제2 액추에이터(410b)에 전달될 수 있다. 부분 PWM 신호(PWMSP)는 제1 및 제3 액추에이터들(410a, 410c)에 전달될 수 있다.
도 5는 일 실시 예에 따른 웨어러블 디바이스가 사용자 입력에 기초하여 PWM 신호를 조정하는 방법을 설명하기 위한 개념도이다. 도 1 내지 도 4b와 함께, 도 5를 참조하면, 웨어러블 디바이스(100, 200)는 사용자 입력을 수신할 수 있다. 예시적으로, 사용자 입력은 웨어러블 디바이스(100, 200)에 직접 연결된 디스플레이 또는 외부 장치의 디스플레이의 터치 입력을 통해 입력될 수 있으나, 본 개시는 터치 입력을 통해 사용자 입력을 수신하는 방식에 한정되지 않는다.
웨어러블 디바이스(100, 200)는 디스플레이에 주파수 대역 선택 창 및 커스터마이징 창을 표시할 수 있다. 주파수 대역 선택 창에는 적어도 하나의 필터에 기초하여 필터링된 서브 사운드 데이터들에 대응하는 시각화 데이터가 표시될 수 있다. 웨어러블 디바이스(100, 200)는 주파수 대역을 선택하기 위한 제1 사용자 입력을 수신할 수 있다. 웨어러블 디바이스(100, 200)는 제1 사용자 입력에 응답하여, 선택된 주파수 대역에 대응하는 PWM 신호의 시각화 데이터를 디스플레이(예컨대, 커스터마이징 창)에 표시할 수 있다.
웨어러블 디바이스(100, 200)는 PWM 신호를 조정하기 위한 제2 사용자 입력을 수신할 수 있다. 예를 들어, 제2 사용자 입력은 PWM 신호의 특정 시점에서의 듀티 사이클을 상승(UP)시키거나 하락(DOWN)시키는 데이터에 대응할 수 있다. 도시되지 않았으나, 제2 사용자 입력은 PWM 신호의 시간 도메인을 조정하는 데이터에 대응할 수 있다.
도 6은 일 실시 예에 따른 웨어러블 디바이스가 커브 가중치 팩터를 이용하여 PWM 신호를 조정하는 방법을 설명하기 위한 개념도이다. 도 1 내지 도 4b와 함께, 도 5를 참조하면, 웨어러블 디바이스(100, 200)의 PWM 신호 생성기(230)는 PWM 신호에 커브 가중치 팩터를 적용할 수 있다. 일 실시 예에 따르면, PWM 신호에 커브 가중치 팩터를 적용함으로써, PWM 신호를 스무딩(smoothing) 필터링하거나, 러핑(roughing) 필터링할 수 있다.
도 7a 내지 7c는 일 실시 예에 따른 웨어러블 디바이스가 사용자 스피치 특징에 기초하여 PWM 신호를 조정하는 방법을 설명하기 위한 개념도이다. 도 1 내지 도 4b와 함께, 도 7a 내지 7b를 참조하면, 웨어러블 디바이스(100, 200)는 사용자 메타데이터 DB로부터 사용자 스피치 특징을 획득할 수 있다. 웨어러블 디바이스(100, 200)는 사용자 스피치 특징에 기초하여 커스텀 필터를 선택할 수 있다. 커스텀 필터는 제조사의 설정 또는 사용자의 입력에 의해 결정될 수 있다. 예를 들어, 커스텀 필터는 quieter 필터, louder 필터, slower 필터, 및 faster 필터를 포함할 수 있으나, 이에 한정되는 것은 아니다. 웨어러블 디바이스(100, 200)는 사용자 스피치 특징에 기초하여 선택된 커스텀 필터를 이용하여, PWM 신호를 조정할 수 있다.
예를 들어, quieter 필터는 PWM 신호의 듀티 사이클을 일정 비율로 감소시키는 필터일 수 있다. 일 실시 예에 따른 quieter 필터를 이용함으로써, 사용자의 목소리가 크거나 높은 스타일인 경우, PWM 신호의 강도가 감소되어 사용자의 촉각 인지가 향상될 수 있다. 예를 들어, louder 필터는 PWM 신호의 듀티 사이클을 일정 비율로 증가시키는 필터일 수 있다. 일 실시 예에 따른 louder 필터를 이용함으로써, 사용자의 목소리가 작거나 낮은 스타일인 경우, PWM 신호의 강도가 증가되어 사용자의 촉각 인지가 향상될 수 있다. 예를 들어, slower 필터는 PWM 신호의 시간 도메인을 일정 비율로 확장시키는 필터일 수 있다. 일 실시 예에 따른 slower 필터를 이용함으로써, 사용자의 목소리가 빠른 스타일인 경우, PWM 신호의 속도가 감소되어 사용자의 촉각 인지가 향상될 수 있다. 예를 들어, faster 필터는 PWM 신호의 시간 도메인을 일정 비율로 축소시키는 필터일 수 있다. 일 실시 예에 따른 faster 필터를 이용함으로써, 사용자의 목소리가 느린 스타일인 경우, PWM 신호의 속도가 증가되어 사용자의 촉각 인지가 향상될 수 있다.
도 8은 일 실시 예에 따른 IFN 모델의 효과를 설명하기 위한 개념도이다. 도 1 내지 4b와 함께, 도 8을 참조하면, 웨어러블 디바이스(100, 200)는 멀티 모달리티를 사용자에게 제공할 수 있다. 웨어러블 디바이스(100, 200)는 IFN 모델(233)을 이용하여 사운드 피처를 필터링할 수 있다. 도 8은 웨어러블 디바이스(100, 200)가 IFN 모델(233)을 이용하여 촉각 모달리티를 10명의 사용자들 각각에게 제공한 경우(C1_PM, C2_PM, …, C10_PM)와, 웨어러블 디바이스(100, 200)가 IFN 모델(233)을 이용하지 않고 촉각 모달리티를 10명의 사용자들 각각에게 제공한 경우(C1_CM, C2_CM, …, C10_CM)에서, 10명의 사용자들 각각이 촉각 모달리티에 대응하는 이모지(이미지, 텍스트, 사운드 에너지을 포함하는 데이터)들을 구별하는 정확성을 실험한 결과를 보여준다. 도 8을 참조하면, 웨어러블 디바이스(100, 200)가 IFN 모델(233)를 이용한 경우에서 더 나은 정확성을 보여주는 것을 알 수 있다. 즉, 웨어러블 디바이스(100, 200)가 IFN 모델(233)을 이용함으로써 사용자들의 촉각 인지가 향상될 수 있다.
도 9a는 일 실시 예에 따른 웨어러블 디바이스의 동작 방법을 설명하기 위한 흐름도이다. 설명의 편의를 위해, 도 1 내지 4b를 참조하여 도 9a를 설명한다. 웨어러블 디바이스(100, 200)의 동작 방법은 단계 S910 내지 S950을 포함할 수 있다. 일 실시 예에 있어서, 단계 S910 내지 S950은 웨어러블 디바이스(100, 200) 또는 웨어러블 디바이스(100, 200)의 프로세서에 의해 수행될 수 있다. 일 실시 예에 따른 웨어러블 디바이스(100, 200)의 동작 방법은 도 9a에 도시된 바에 한정되지 않으며, 도 9a에 도시된 단계 중 어느 하나를 생략할 수도 있고, 도 9a에 도시되지 않은 단계를 더 포함할 수도 있다.
단계 S910에서, 웨어러블 디바이스(100, 200)는 이미지 데이터, 텍스트 데이터, 및 사운드 데이터 중 적어도 하나를 포함하는 소스 데이터를 획득할 수 있다. 예를 들어, 소스 데이터는 이미지 데이터를 포함할 수 있다. 소스 데이터는 텍스트 데이터를 포함할 수 있다. 소스 데이터는 사운드 데이터를 포함할 수 있다. 소스 데이터는 이미지 데이터 및 텍스트 데이터를 포함할 수 있다. 소스 데이터는 이미지 데이터 및 사운드 데이터를 포함할 수 있다. 소스 데이터는 텍스트 데이터 및 사운드 데이터를 포함할 수 있다. 소스 데이터는 이미지 데이터, 텍스트 데이터, 및 사운드 데이터를 포함할 수 있다.
단계 S920에서, 웨어러블 디바이스(100, 200)는 소스 데이터에 이미지 데이터, 텍스트 데이터 및 사운드 데이터가 포함되는지 여부를 식별할 수 있다. 소스 데이터에 이미지 데이터, 텍스트 데이터 및 사운드 데이터 중 적어도 하나가 포함되지 않은 경우, 절차는 단계 S930으로 이동한다. 소스 데이터에 이미지 데이터, 텍스트 데이터 및 사운드 데이터 모두가 포함된 경우, 절차는 단계 S940으로 이동한다. 단계 S920의 세부 단계들은 도 9b에서 상세하게 설명한다.
단계 S930에서, 웨어러블 디바이스(100, 200)는 소스 데이터를 입력으로 하는 (학습된) 뉴럴 네트워크(예컨대, GAN의 생성기)를 이용하여, 소스 데이터에 포함되지 않은 이미지 데이터, 텍스트 데이터, 및 사운드 데이터를 생성하고, 절차는 단계 S940으로 이동한다.
일 실시 예에 있어서, 뉴럴 네트워크는 GAN의 생성기일 수 있다. GAN은, 이미지 데이터, 텍스트 데이터, 및 사운드 데이터 중 적어도 하나를 포함하지 않는 훈련 소스 데이터를 획득하고, 훈련 소스 데이터를 입력으로 하는 생성기를 이용하여, 훈련 소스 데이터에 포함되지 않는 이미지 데이터, 텍스트 데이터, 및 사운드 데이터 중 적어도 하나에 대응하는 가상 데이터를 생성하고, 가상 데이터 및 가상 데이터에 대응하는 실제 데이터를 입력으로 하는 판별기(discriminator)를 이용하여, 가상 데이터 및 상기 실제 데이터의 실제 여부를 판단하고, 판단 결과에 기초하여 생성기 및 판별기를 학습시키는 동작을 수행함으로써 미리 학습된 모델일 수 있다.
단계 S940에서, 웨어러블 디바이스(100, 200)는 사운드 데이터에 기초하여 PWM 신호를 생성할 수 있다. 단계 S940의 세부 단계들은 도 9c 또는 9d에서 상세하게 설명한다. 일 실시 예에 있어서, 웨어러블 디바이스(100, 200)는 사용자 메타데이터로부터 사용자 스피치 특징을 획득할 수 있다. 웨어러블 디바이스(100, 200)는 사용자 스피치 특징에 기초하여 PWM 신호를 조정할 수 있다. 일 실시 예에 있어서, 웨어러블 디바이스(100, 200)는 사용자 입력을 획득할 수 있다. 웨어러블 디바이스(100, 200)는 사용자 입력에 기초하여 PWM 신호를 조정할 수 있다.
단계 S950에서, 웨어러블 디바이스(100, 200)는 이미지 데이터, 텍스트 데이터, 사운드 데이터, 및 PWM 신호에 기초하여 멀티 모달리티를 출력하고, 절차는 종료된다. 웨어러블 디바이스(100, 200)는 이미지 데이터 및 텍스트 데이터에 기초하여 시각 모달리티를 출력할 수 있다. 웨어러블 디바이스(100, 200)는 사운드 데이터에 기초하여 청각 모달리티를 출력할 수 있다. 웨어러블 디바이스(100, 200)는 PWM 신호에 기초하여 촉각 모달리티를 출력할 수 있다.
도 9b는 일 실시 예에 따른 소스 데이터에 이미지 데이터, 텍스트 데이터, 및 사운드 데이터가 포함되는지 여부를 결정하는 방법을 설명하기 위한 흐름도이다. 설명의 편의를 위해, 도 1 내지 4b, 및 9a를 참조하여 도 9b를 설명한다. 일 실시 예에 따른 단계 S920은 단계 S921, S922a,S 922b 및 S922c를 포함할 수 있다.
단계 S921에서, 웨어러블 디바이스(100, 200)는 소스 데이터를 분석할 수 있다. 단계 S922a에서, 웨어러블 디바이스(100, 200)는 분석 결과에 기초하여 소스 데이터에 이미지 데이터가 존재하는지를 식별할 수 있다. 단계 S922b에서, 웨어러블 디바이스(100, 200)는 분석 결과에 기초하여 소스 데이터에 텍스트 데이터가 존재하는지를 식별할 수 있다. 단계 S922c에서, 웨어러블 디바이스(100, 200)는 분석 결과에 기초하여 소스 데이터에 사운드 데이터가 존재하는지를 식별할 수 있다. 단계 S921 이후, 단계 S922a, S922b 및 S922c가 수행되는 순서는 제조사의 설정 또는 사용자의 입력에 의해 결정될 수 있다. 단계 S922a, S922b 및 S922c에 의해 이미지 데이터, 텍스트 데이터, 사운드 데이터 중 적어도 하나가 존재하지 않는 것으로 식별되는 경우, 절차는 S930으로 이동한다. 단계 S922a, S922b 및 S922c에 의해 이미지 데이터, 텍스트 데이터, 사운드 데이터 모두가 존재하는 것으로 식별되는 경우, 절차는 S940으로 이동한다.
도 9c 및 9d는 일 실시 예에 따른 사운드 데이터에 기초하여 PWM 신호를 생성하는 방법을 설명하기 위한 흐름도이다.
설명의 편의를 위해, 도 1 내지 4b, 및 9a를 참조하여 도 9c를 설명한다. 일 실시 예에 따른 단계 S940은 단계 S941, S942, S943, S944 및 S945를 포함할 수 있다.
단계 S941에서, 웨어러블 디바이스(100, 200)는 적어도 하나의 필터(예컨대, LPF, BPF, HPF)를 이용하여, 사운드 데이터를 주파수 성분에 따라 적어도 하나의 서브 사운드 데이터로 필터링할 수 있다.
단계 S942에서, 웨어러블 디바이스(100, 200)는 적어도 하나의 서브 사운드 데이터에 기초하여, 사운드 피처를 획득할 수 있다. 일 실시 예에 있어서, 사운드 피처는 사운드 에너지(진폭), 주파수, 피치, 및 강도 중 적어도 하나를 포함할 수 있다.
일 실시 예에 있어서, 단계 S942는, 적어도 하나의 서브 사운드 데이터에 기초하여 복수의 사운드 피처들을 추출하는 단계, 복수의 사운드 피처들 간의 상관 관계 및 복수의 사운드 피처들의 분산 값을 계산하는 단계, 및 상관 관계 및 분산 값에 기초하여 대표 사운드 피처를 선정하는 단계를 포함할 수 있다.
단계 S943에서, 웨어러블 디바이스(100, 200)는 사운드 피처(대표 사운드 피처를 선정한 경우, 대표 사운드 피처)의 분산 값의 임계 값 초과 여부를 식별할 수 있다. 사운드 피처의 분산 값이 임계 값을 초과한 경우, 절차는 단계 S944로 이동한다. 사운드 피처의 분산 값이 임계 값을 초과하지 않은 경우, 절차는 단계 S945로 이동한다.
단계 S944에서, 웨어러블 디바이스(100, 200)는 적어도 하나의 서브 사운드 데이터의 사운드 에너지 강도 및 적어도 하나의 서브 사운드 데이터의 사운드 에너지 기울기에 기초하여 사운드 피처를 필터링할 수 있다.
일 실시 예에 있어서, 단계 S944는, 적어도 하나의 서브 사운드 데이터를 정규화하는 단계, 사운드 피처 중, 사운드 에너지 강도가 강도 임계 값을 초과하는 구간 및 강도 임계 값을 초과하지 않는 구간을 추출하는 단계, 사운드 피처 중, 사운드 에너지 기울기가 기울기 임계 값을 초과하는 구간 및 기울기 임계 값을 초과하지 않는 구간을 추출하는 단계, 강도 임계 값 및 기울기 임계 값을 초과하는 사운드 피처의 구간을 통과시키고, 강도 임계 값 및 기울기 임계 값 중 적어도 하나를 초과하지 않는 사운드 피처의 구간을 감쇠시키는 단계를 포함할 수 있다.
단계 S945에서, 웨어러블 디바이스(100, 200)는 사운드 피처에 대응하는 적어도 하나의 서브 사운드 데이터의 사운드 에너지 강도와 듀티 사이클을 맵핑함으로써, 상기 PWM 신호를 생성할 수 있다.
설명의 편의를 위해, 도 1 내지 4b, 및 9a를 참조하여 도 9d를 설명한다. 일 실시 예에 따른 단계 S940은 단계 S946, S947, 및 S948를 포함할 수 있다.
단계 S946에서, 웨어러블 디바이스(100, 200)는 사운드 데이터에 기초하여 사운드 피처를 획득할 수 있다.
단계 S947에서, 웨어러블 디바이스(100, 200)는 사운드 피처에 대응하는 사운드 데이터의 사운드 에너지 강도와 듀티 사이클을 맵핑함으로써 PWM 신호를 생성할 수 있다.
단계 S948에서, 웨어러블 디바이스(100, 200)는 PWM 신호 중 듀티 사이클이 미리 정의된 값을 초과하는 부분 영역에 대응하는 신호를 제1 액추에이터에 전달하고, PWM 신호의 전체 영역에 대응하는 신호를 제2 액추에이터에 전달할 수 있다. 일 실시 예에 있어서, 웨어러블 디바이스(100, 200)는 PWM 신호 중 듀티 사이클이 미리 정의된 값을 초과하는 부분 영역에 대응하는 신호를 제1 및 제3 액추에이터에 전달하고, PWM 신호의 전체 영역에 대응하는 신호를 제2 액추에이터에 전달할 수 있다.
도 10은 일 실시 예에 따른 웨어러블 디바이스의 구성을 보여주는 블록도이다. 도 1 내지 4b와 함께, 도 5를 참조하면, 웨어러블 디바이스(1000)의 구성, 기능, 동작은 웨어러블 디바이스(100, 200)의 구성, 기능, 동작과 유사할 수 있다.
웨어러블 디바이스(1000)는 통신 인터페이스(1100), 사용자 인터페이스(1200), 카메라(1300), 마이크(1400), 적어도 하나의 액추에이터(1500), 디스플레이(1600), 스피커(1700), 메모리(1800), 및 프로세서(1900)을 포함할 수 있다.
통신 인터페이스(1100)는 웨어러블 디바이스(1000)와 외부의 다른 전자 장치(미도시) 또는 서버(미도시) 사이의 유선 또는 무선 통신 채널의 수립 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있다. 일 실시 예에 있어서, 통신 인터페이스(1100)는 유선 또는 무선 통신을 통해 외부의 다른 전자 장치(미도시) 또는 서버(미도시)로부터 데이터를 수신하거나 외부의 다른 전자 장치(미도시) 또는 서버(미도시)로 데이터를 송신할 수 있다.
일 실시 예에 있어서, 통신 인터페이스(1100)는 무선 통신 모듈(예컨대, 셀룰러 통신 모듈, 근거리 무선 통신 모듈, 또는 GNSS(global navigation satellite system) 통신 모듈) 또는 유선 통신 모듈(예컨대, LAN(local area network) 통신 모듈, 또는 전력선 통신 모듈)을 포함할 수 있고, 그 중 어느 하나의 통신 모듈을 이용하여 적어도 하나의 네트워크(예컨대, 근거리 통신 네트워크(예컨대, 블루투스, WiFi direct 또는 IrDA(infrared data association)) 또는 원거리 통신 네트워크(예컨대, 셀룰러 네트워크, 인터넷, 또는 컴퓨터 네트워크(예컨대, LAN 또는 WAN)))를 통하여 외부의 다른 전자 장치(미도시) 또는 서버(미도시)와 통신할 수 있다. 예를 들어, 통신 인터페이스(1100)는 외부 장치(예컨대, 스마트 폰, 스마트 패드(smart pad), 사용자가 착용 중인 다른 웨어러블 디바이스, 디지털 카메라, 텔레비전, 모니터, 랩톱 컴퓨터, 블랙박스, 로봇 등) 또는 별도의 서버 장치와의 통신을 통해 모달리티 소스 데이터를 수신할 수 있다.
사용자 인터페이스(1200)는 사용자가 웨어러블 디바이스(1000)를 제어하기 위한 데이터(또는 사용자 입력으로도 지칭될 수 있음)를 입력하는 수단을 의미할 수 있다. 예를 들어, 사용자 인터페이스(1200)는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠 또는 조그 스위치 중 적어도 하나를 포함할 수 있으나 이에 한정되는 것은 아니다. 일 실시 예에 있어서, 사용자 인터페이스(1200)는 생략될 수 있다. 이 경우, 사용자 인터페이스(1200)의 기능의 적어도 일부는 외부의 다른 전자 장치(미도시)에 구현될 수 있다.
카메라(1300)는 렌즈를 통해 광을 수신할 수 있다. 카메라(1300)는 이미지 처리기를 포함할 수 있다. 이미지 처리기(미도시)는 수신된 광에 기초하여, 외부 객체에 관한 이미지 데이터를 생성할 수 있다. 일 실시 예에 있어서, 모달리티 소스 데이터는 카메라(1300)에 의해 생성된 이미지 데이터를 포함할 수 있다.
마이크(1400)는 사운드 입력을 수신할 수 있다. 마이크(1400)는 사운드 입력에 기초하여 오디오 신호를 생성할 수 있다. 모달리티 소스 데이터는 마이크(1400)에 의해 생성된 오디오 신호에 대응하는 사운드 데이터를 포함할 수 있다.
적어도 하나의 액추에이터(1500)는 PWM 신호에 기초하여 촉각 모달리티를 출력할 수 있다. 적어도 하나의 액추에이터(1500)는 사용자의 신체에 접촉되도록 웨어러블 디바이스(1000) 상에 배치될 수 있다. 즉, 촉각 모달리티에 의한 햅틱 피드백(haptic feedback)이 사용자에게 전달될 수 있다. 햅틱 피드백은 힘, 진동 및 모션 등을 통해 사용자가 힘, 운동감 등의 촉각적 감각을 느낄 수 있도록 사용자에게 제공되는 피드백을 말한다. 적어도 하나의 액추에이터(1500)는 선형 공진(linear resonance) 타입, 이심 회전 질량(eccentric rotating mass) 타입, 피에조 타입, 솔레노이드 타입 중 적어도 하나를 포함할 수 있으나, 본 개시는 이에 한정되지 않는다.
일 실시 예에 있어서, 적어도 하나의 액추에이터(1500)의 개수는 PWM 신호의 개수와 동일할 수 있다. 적어도 하나의 액추에이터(1500)가 복수 개인 경우, 액추에이터들은 일정 간격으로 이격되어 웨어러블 디바이스(1000) 상에 배치될 수 있다. 웨어러블 디바이스(1000)는 사용자에게 햅틱 피드백을 제공하기 위해서, 적어도 하나의 액추에이터(1500)의 위치가 사용자의 신체에 더 가까워지도록 조절하거나, 적어도 하나의 액추에이터(1500)의 위치가 사용자의 신체로부터 더 멀어지도록 조절할 수 있는, 물리적인 구조들을 포함할 수 있다.
디스플레이(1600)는 웨어러블 디바이스(1000)의 외부(예컨대, 사용자)로 정보를 시각적으로 제공할 수 있다. 예를 들어, 디스플레이(1600)는 이미지 데이터 및 텍스트 데이터에 기초하여 시각 모달리티를 출력할 수 있다. 디스플레이(1600)는, 예를 들어, 홀로그램 장치, 프로젝터, 및/또는 디스플레이를 제어하기 위한 제어 회로를 포함할 수 있다. 일 실시 예에 있어서, 디스플레이(1600)는 터치를 감지하도록 설정된 터치 센서, 또는 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 압력 센서를 포함할 수 있다.
스피커(1700)는 전기 신호를 소리로 변환시킬 수 있다. 예를 들어, 스피커(1700)는 사운드 데이터에 기초하여 청각 모달리티를 출력할 수 있다. 일 실시 예에 있어서, 스피커(1700)는 웨어러블 디바이스(1000)와 직접 또는 무선으로 연결된 외부 전자 장치를 통해 소리를 출력할 수 있다.
메모리(1800)에는 프로세서(1900)에 의하여 처리되거나 처리될 예정인 데이터, 펌웨어, 소프트웨어, 및 프로세스 코드 등이 저장될 수 있다. 일 실시 예에 있어서, 메모리(1800)는 이미지 데이터, 텍스트 데이터, 또는 사운드 데이터가 저장될 수 있다.
일 실시 예에 있어서, 메모리(1800)에는 모달리티 소스 식별기(1810), 미획득 모달리티 소스 생성기(1820), PWM 신호 생성기(1830), 및 인공지능 모듈(1840) 중 적어도 하나에 대응되는 데이터 및 프로그램 코드들이 저장될 수 있다. 모달리티 소스 식별기(1810), 미획득 모달리티 소스 생성기(1820), PWM 신호 생성기(1830)의 구성, 기능, 동작은 모달리티 소스 식별기(210), 미획득 모달리티 소스 생성기(220), PWM 신호 생성기(230)의 구성, 기능, 동작과 유사하므로 이하 생략한다. 인공지능 모듈(1840)은 학습된 뉴럴 네트워크(221) 및/또는 GAN(300)의 기능의 적어도 일부를 포함할 수 있다. 인공지능 모듈(1840)은 뉴럴 네트워크(예컨대, GAN(300))를 데이터셋을 이용하여 학습시킬 수 있다. 인공지능 모듈(1840)은 뉴럴 네트워크(예컨대, GAN(300))를 이용하여 데이터를 출력할 수 있다.
메모리(1800)는 웨어러블 디바이스(1000)의 주 기억 장치로 이용될 수 있다. 예를 들어, 메모리(1800)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), DRAM(dynamic random access memory), SRAM(static random access memory), PRAM(phase-change random access memory), MRAM (magnetic random access memory), FeRAM(ferroelectric random access memory), RRAM(resistive random access memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 메모리(1800)는 버퍼 메모리, 워킹 메모리, 또는 캐시 메모리로서 지칭될 수 있다. 도시되지 않았지만, 메모리(1800)의 개수는 하나 이상일 수 있다.
프로세서(1900)는 웨어러블 디바이스(1000)에 포함된 구성들과 전기적으로 연결되어, 웨어러블 디바이스(1000)에 포함된 구성들의 제어 및/또는 통신에 관한 연산이나 데이터 처리를 수행할 수 있다. 예를 들어, 프로세서(1900)는 CPU(central processing unit), AP(application processor), GPU(graphic processing unit), 또는 NPU(neural processing unit) 중 적어도 하나를 포함할 수 있다.
일 실시 예에 있어서, 프로세서(1900)는 다른 구성들 중 적어도 하나로부터 수신된 명령 또는 데이터를 메모리(1800)에 로드하여 처리하고, 결과 데이터를 메모리(1800)에 저장할 수 있다. 예를 들어, 프로세서(1900)는 모달리티 소스 식별기(1810), 미획득 모달리티 소스 생성기(1820), PWM 신호 생성기(1830), 및 인공지능 모듈(1840)의 기능에 대응하는 명령 또는 데이터를 메모리(1800)에 로드하고 처리할 수 있다. 도시되지 않았지만, 프로세서(1900)는 기능 또는 목적에 따라 하나 이상일 수 있다. 이 경우, 적어도 하나의 프로세서는 웨어러블 디바이스(1000)에 포함된 구성들의 제어 및/또는 통신에 관한 연산이나 데이터 처리를 분산하여 수행할 수 있다. 예를 들어, 웨어러블 디바이스(1000)는 인공지능 모듈(1840)을 실행하기 위한 별도의 프로세서, 예컨대, NPU(neural processing unit)를 더 포함할 수 있다.
일 실시 예에 있어서, 프로세서(1900)는 모달리티 소스 데이터를 획득하는 인스트럭션을 실행할 수 있다. 예를 들어, 프로세서(1900)는 카메라(1300)에 의해 생성된 이미지 데이터를 획득하는 인스트럭션을 실행할 수 있다. 예를 들어, 프로세서(1900)는 마이크(1400)에 의해 생성된 오디오 신호에 대응하는 사운드 데이터를 획득하는 인스트럭션을 실행할 수 있다. 예를 들어, 프로세서(1900)는 외부 장치로부터 이미지 데이터, 텍스트 데이터, 및 사운드 데이터 중 적어도 하나를 획득하는 인스트럭션을 실행할 수 있다. 예를 들어, 프로세서(1900)는 메모리(1800)에 저장된 이미지 데이터, 텍스트 데이터, 및 사운드 데이터 중 적어도 하나를 획득하는 인스트럭션을 실행할 수 있다.
도 11a 내지 11c는 일 실시 예에 따른 웨어러블 디바이스의 구성을 보여주는 도면들이다. 일 실시 예에 있어서, 웨어러블 디바이스(2000)는 스마트 워치 또는 스마트 밴드일 수 있다. 도 11a에서, 웨어러블 디바이스(2000)가 스마트 워치로 구현되는 실시 예를 도시하였으나, 이에 한정되는 것은 아니다. 웨어러블 디아 웨어러블 디바이스(2000)의 기능 및 동작은 도 1 내지 10에서 설명한 웨어러블 디바이스(100, 200, 1000)의 기능 및 동작과 유사하므로, 중복되는 내용은 생략한다.
도 11a를 참조하면, 웨어러블 디바이스(2000)는 손목 스트랩(2100) 및 본체부(2200)를 포함할 수 있다. 손목 스트랩(2100)은 본체부(2200)와 연결되어 사용자의 손목에 착용 가능하도록 구비될 수 있다. 일 실시 예에 있어서, 본체부(2200)의 상면에 디스플레이가 배치될 수 있으나, 웨어러블 디바이스(2000)가 스마트 밴드로 구현되는 경우 디스플레이는 생략될 수 있다.
도 11b를 참조하면, 손목 스트랩(2100)은 상부 커버(2110), 기판(2120), 및 하부 커버(2130)를 포함할 수 있다. 그러나, 본 개시는 이에 한정되지 않으며, 상부 커버(2110), 기판(2120), 및 하부 커버(2130)는 일체형으로 제공될 수 있다.
기판(2120)은 상부 커버(2110) 및 하부 커버(2130) 사이에 배치될 수 있다. 사용자의 손목을 기준으로, 상부 커버(2110)는 바깥 면이고, 하부 커버(2130)은 안쪽 면일 수 있다.
기판(2120)은 PCB(Printed Circuit Board) 및/또는 F-PCB(Flexible Printed Circuit Board)을 포함할 수 있다. 기판(2120)은 유리, 플라스틱, 유기물 및 실리콘 등을 포함할 수 있다. 예를 들어, 기판(2120)은 다양한 회로 소자들을 포함할 수 있다. 기판(2120)은 다양한 회로 소자들을 전기적으로 연결하는 배선들을 포함할 수 있다.
도 11c를 참조하면, 기판(2120)은 액추에이터들(2121), 배터리(2122), 프로세서(2123), 통신 모듈(2124), LED(light emitting diode) 모듈(2125), 스위치부(2126), 단자부(2127)를 포함할 수 있다. 그러나, 본 개시는 이에 제한되지 않으며, 기판(2120)에 포함되는 일부 구성 요소는 생략될 수 있다.
액추에이터들(2121)의 기능 및 동작은 도 4a 및 4b의 제1 내지 제3 액추에이터(410a, 410b, 410c) 및 도 10의 적어도 하나의 액추에이터(1500)의 기능 및 동작과 유사하므로, 중복되는 내용은 생략한다. 액추에이터들(2121)은 제1 액추에이터(2121a), 제2 액추에이터(2121b), 제3 액추에이터(2121c)를 포함할 수 있다. 도 11c에서, 세 개의 액추에이터들(2121a, 2121b, 2121c)만을 도시하였으나, 액추에이터들의 개수는 이에 제한되지 않는다. 액추에이터들(2121)은, 배선을 통해, 프로세서(2123)로부터 PMW 신호를 수신할 수 있다. 액추에이터들(2121)은 PWM 신호에 기초하여 진동 신호를 출력할 수 있다.
일 실시 예에 있어서, 제1 액추에이터(2121a)는 제1 주파수에 대응하는 PWM 신호에 기초하여 진동 신호를 출력할 수 있다. 제2 액추에이터(2121b)는 제2 주파수에 대응하는 PWM 신호에 기초하여 진동 신호를 출력할 수 있다. 제3 액추에이터(2121c)는 제3 주파수에 대응하는 PWM 신호에 기초하여 진동 신호를 출력할 수 있다. 예를 들어, 제2 주파수는 제1 주파수보다 높고, 제3 주파수보다 낮을 수 있다. 제1 내지 제3 주파수는 제조사 또는 사용자의 설정에 따라 변경될 수 있으며, 사용자의 설정에 의해 변경되는 예시는 도 12a 내지 12b에서 상세하게 설명한다.
액추에이터들(2121)은 사용자의 피부(예컨대, 손목 부위의 피부)에 직접적으로 또는 간접적으로 접촉하도록 배치될 수 있다. 액추에이터들(2121)의 형상은 원형으로 도시되었으나, 이는 일 예시일 뿐 액추에이터들(2121)은 다양한 형상으로 구현될 수 있다. 액추에이터들(2121)은 일정한 간격으로 이격되어 배치되는 것으로 도시되었으나, 이는 일 예시일 뿐 액추에이터들(2121)은 서로 다른 간격으로 이격되어 배치될 수 있다.
배터리(2122)는 기판의 구성 요소들 또는 회로 소자들에 전력을 공급할 수 있다. 배터리(2122)는 기판(2120)의 일측에 배치될 수 있으나, 배터리(2122)의 배치는 이에 제한되지 않는다. 배터리(2122)는 단자부(2127)와 전기적으로 연결될 수 있다. 예를 들어, 단자부(2127)는 USB(universal series bus) 잭으로 구성될 수 있으나, 이에 한정되지 않는다. 단자부(2127)를 통해 외부 전원 공급 장치와 배터리(2122)가 연결됨으로써 배터리(2122)가 충전될 수 있다. 도시되지 않았지만, 기판(2120)에 전원 제어 장치(power management IC; PMIC)가 배치될 수 있다. 전원 제어 장치(미도시)는 배터리(2122)로부터 수신되는 전력을 적절하게 변환할 수 있고, 변환한 전압을 기판 상(2120)의 구성 요소들(예컨대, 액추에이터들(2121), 프로세서(2123), 통신 모듈(2124) 등)로 전달할 수 있다.
프로세서(2123)의 기능 및 동작은 도 10의 프로세서(1900)의 기능 및 동작과 유사하므로, 중복되는 내용은 생략한다. 프로세서(2123)는 기판(2120)의 구성 요소들의 전반적인 동작들을 제어할 수 있다. 프로세서(2123)는 기판(2120)의 구성 요소들을 동작시키기 위해 다양한 연산을 처리할 수 있다. 예를 들어, 프로세서(2123)는 통신 모듈(2124)로부터 획득한 데이터(예컨대, 사운드 데이터)에 기초하여 PWM 신호를 생성할 수 있다.
예를 들어, 프로세서(2123)는 생성된 PWM 신호 또는 통신 모듈(2124)로부터 직접 획득한 PWM 신호에 기초하여, 액추에이터들(2121)로 하여금 진동 신호를 출력하도록 제어할 수 있다. 예를 들어, 프로세서 예를 들어, 프로세서(2123)는 MCU(microcontroller unit), 범용 프로세서, 전용 프로세서, 또는 어플리케이션 프로세서(Application Processor)로 구현될 수 있다.
통신 모듈(2124)의 기능 및 동작은 도 10의 통신 인터페이스(1100)의 기능 및 동작과 유사하므로, 중복되는 내용은 생략한다. 예를 들어, 통신 모듈(2124)은 블루투스 모듈일 수 있으나, 이에 제한되는 것은 아니다. 예를 들어, 통신 모듈(2124)는 UART(niversal asynchronous receiver/transmitter) 통신을 통하여 프로세서(2123)에 수신된 데이터를 전달할 수 있으나, 통신 모듈(2124)과 프로세서(2123) 간의 통신 기법은 이에 한정되지 않는다.
LED 모듈(2125)는 전기적 신호(예컨대, LED 인에이블(enable) 신호)에 따른 색상에 빛(예컨대, R, G, B)을 출력할 수 있다. LED 모듈(2125)은 스트랩(2100)의 상태와 관련한 빛을 출력하거나, 스트랩(2100)의 동작과 관련한 빛을 출력할 수 있다. 스위치부(2126)은 기판(2120)의 전원을 온/오프할 수 있다. 예를 들어, 스위치부(2126)은 택타일(tactile) 스위치로 구현될 수 있으나, 이에 한정되는 것은 아니다. 단자부(2127)는 외부 장치와 기판(2120)을 전기적으로 연결하기 위한 것이다. 단자부(2127)를 통해 배터리(2122)가 충전되거나, 외부 데이터(예컨대, 소리 데이터 또는 PWM 신호)가 획득될 수 있다.
일 실시 예에 따르면, 웨어러블 디바이스(2000) 또는 외부 장치(들)로부터 제공되는 시각 모달리티 및 청각 모달리티와 함께, 웨어러블 디바이스(2000)를 착용한 사용자에게 진동 신호에 의한 촉각 모달리티가 제공됨으로써, 사용자의 다양한 감각을 통한 멀티미디어 몰입감이 제공될 수 있다.
도 12a 및 12b는 일 실시 예에 따른 웨어러블 디바이스의 동작을 제어하기 위한 유저 인터페이스를 보여주는 도면들이다. 도 12a 및 12b의 웨어러블 디바이스(2000)의 동작 및 기능은 도 1 내지 11c의 웨어러블 디바이스(100, 200, 1000, 2000)에 대응되므로, 중복되는 내용은 생략한다. 설명의 편의를 위해 도 4a 내지 5, 및 도 11a 내지 11c를 참조하여 설명한다.
일 실시 예에 따른 유저 인터페이스 제공 장치(20)는 다양한 형태로 구현될 수 있다. 예를 들어, 유저 인터페이스 제공 장치(20)는 모바일 단말일 수 있으나, 본 개시는 이에 한정되지 않으며, 디스플레이를 포함하는 임의의 전자 장치(예컨대, TV, 냉장고, 컴퓨터 등)일 수 있다. 또한, 모바일 단말은, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 태블릿 PC, 디지털 카메라, 전자북 단말기, 디지털방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, MP3 플레이어 등이 있을 수 있으나, 이에 한정되는 것은 아니다. 예를 들어, 모바일 단말은 사용자에 의해 착용될 수 있는 웨어러블 디바이스를 포함할 수 있다.
유저 인터페이스 제공 장치(20)는 웨어러블 디바이스(2000)와 직접 또는 간접적으로 통신함으로써 정보를 송수신할 수 있다. 일 실시 예에 있어서, 유저 인터페이스 제공 장치(20)는 서버 장치(미도시)를 통해 웨어러블 디바이스(2000)와 정보를 송수신할 수 있다. 일 실시 예에 있어서, 유저 인터페이스 제공 장치(20)는 블루투스, WiFi와 같은 무선 통신 채널을 통해 웨어러블 디바이스(2000)와 정보를 송수신할 수 있다.
유저 인터페이스 제공 장치(20)는 사용자에게 웨어러블 디바이스(2000)를 제어하기 위한 유저 인터페이스(user interface)를 제공할 수 있다. 유저 인터페이스 제공 장치(20)는 디스플레이(21)를 포함할 수 있다. 디스플레이(21)는 웨어러블 디바이스(2000)를 제어하기 위한 유저 인터페이스(user interface)를 표시할 수 있다. 유저 인터페이스는 인터페이스 제공 장치(20)에 설치된 특정 애플리케이션(예컨대, 웨어러블 디바이스 관리 애플리케이션)을 통해서 제공될 수 있다.
도 12a를 참조하면, 유저 인터페이스 제공 장치(20)는 강도 임계 값 슬라이더(3100), 액추에이터-필터 맵핑 버튼(3200), 및 주파수 범위 슬라이더(3300)를 포함하는 유저 인터페이스를 제공할 수 있다.
유저 인터페이스에는 적어도 하나의 필터에 기초하여 필터링된 서브 사운드 데이터에 대응하는 시각화 데이터가 표시될 수 있다. 도 12a에는, LPF, BPF, HPF에 기초하여 필터링된 세 개의 서브 사운드 데이터에 대응하는 세 개의 시각화 데이터가 표시된 것으로 도시되었으나, 이에 한정되는 것은 아니다. 따라서, 멀티 채널의 채널 개수만큼의 시각화 데이터가 표시될 수 있다. 설명의 편의를 위해, 필터들이 LPF, BPF, HPF로 구성되는 경우를 가정하여 이하 설명한다.
유저 인터페이스에는 서브 사운드 데이터의 강도 임계 값을 조정하기 위한 강도 임계 값 슬라이더(3100)가 표시될 수 있다. 사용자는 강도 임계 값 슬라이더(3100)를 이용하여 서브 사운드 데이터의 강도 임계 값을 조정할 수 있다. 여기서, 강도 임계 값은 액추에이터가 진동 신호를 출력하기 위한 최소한의 신호 강도 값을 나타낸다. 따라서, 서브 사운드 데이터에 대응하는 신호가 강도 임계 값 미만의 강도 값을 갖는 경우, 액추에이터는 진동 신호를 출력하지 않을 수 있다. 서브 사운드 데이터에 대응하는 신호가 강도 임계 값 이상의 강도 값을 갖는 경우, 액추에이터는 강도 값에 대응하는 진동 신호를 출력할 수 있다. 사용자는 임계 값 슬라이더(3100)를 이용하여 LPF, BPF, HPF 각각에 대응하는 강도 임계 값을 설정할 수 있다.
유저 인터페이스에는 웨어러블 디바이스(2000)의 액추에이터들(2121)에 대응하는 시각화 데이터가 표시될 수 있다. 도 12a에는, 세 개의 액추에이터들(2121a, 2121b, 2121c)에 대응하는 세 개의 시각화 데이터가 표시된 것으로 도시되었으나, 이에 한정되는 것은 아니다. 따라서, 액추에이터들(2121)의 개수만큼의 시각화 데이터가 표시될 수 있다. 설명의 편의를 위해, 필터들이 LPF, BPF, HPF로 구성되는 경우를 가정하여 이하 설명한다.
유저 인터페이스에는 액추에이터와 필터를 맵핑하기 위한 액추에이터-필터 맵핑 버튼(3200)이 표시될 수 있다. 사용자는 액추에이터-필터 맵핑 버튼(3200)을 이용하여 액추에이터와 필터를 맵핑할 수 있다. 제1 내지 제3 액추에이터들(2121a, 2121b, 2121c) 각각은 LPF, BPF, HPF 중 하나에 맵핑될 수 있다. 예를 들어, 제1 액추에이터(2121a)는 HPF에 맵핑될 수 있고, 제2 액추에이터(2121b)는 BPF에 맵핑될 수 있고, 제3 액추에이터(2121c)는 LPF에 맵핑될 수 있다. 예를 들어, 제1 내지 제3 액추에이터들(2121a, 2121b, 2121c)은 모두 LPF에 맵핑될 수도 있다. 일 실시 예에 있어서, 제1 내지 제3 액추에이터들(2121a, 2121b, 2121c) 중 적어도 하나는 필터에 맵핑되지 않을 수 있다.
유저 인터페이스에는 필터들의 주파수 범위를 조정하기 위한 주파수 범위 슬라이더(3300)가 표시될 수 있다. 사용자는 주파수 범위 슬라이더(3300)를 이용하여 필터들 각각의 주파수 범위를 조정할 수 있다. 설명의 편의를 위해, 필터들이 LPF, BPF, HPF로 구성되는 경우를 가정하여 이하 설명한다.
일 실시 예에 있어서, 사용자는 주파수 범위 슬라이더(3300)를 이용하여 BPF의 주파수 범위를 설정할 수 있다. BPF의 주파수범위는 제1 차단 주파수 이상 제2 차단 주파수 이하의 주파수로 설정될 수 있다. BPF의 제1 차단 주파수 미만의 주파수는 LPF의 주파수 범위로 설정되고, BPF의 제2 차단 주파수 초과의 주파수는 HPF의 주파수 범위로 설정될 수 있다. 따라서, LPF, BPF, HPF의 주파수 범위는 선형적일 수 있다.
일 실시 예에 있어서, 주파수 범위 슬라이더(3300)를 이용하여 LPF, BPF, HPF 각각의 주파수 범위를 설정할 수 있다. 이 경우, LPF, BPF, HPF의 주파수 범위는 서로 중복되거나, LPF, BPF, HPF의 주파수 범위가 커버하지 않는 주파수 범위가 존재할 수 있다. 따라서, LPF, BPF, HPF의 주파수 범위는 비-선형적일 수 있다.
도 12b를 참조하면, 유저 인터페이스 제공 장치(20)는 프리퍼런스(preference) 버튼(3400), 및 자동 설정 버튼(3500)을 포함하는 유저 인터페이스를 제공할 수 있다.
유저 인터페이스에는 사용자가 미리 설정한 설정을 저장하거나 불러오기 위한 프리퍼런스 버튼(3400)이 표시될 수 있다. 프리퍼런스 버튼(3400)은 복수 개일 수 있다. 사용자는 프리퍼런스 버튼(3400)을 이용하여 강도 임계 값 슬라이더(3100), 액추에이터-필터 맵핑 버튼(3200), 및 주파수 범위 슬라이더(3300)을 통해 설정된 웨어러블 디바이스(2000)의 동작 특성들을 저장하거나 불러올 수 있다.
유저 인터페이스에는 서브 사운드 데이터에 대응하는 강도 임계 값, 액추에이터와 필터 간의 맵핑 정보, 필터들의 주파수 범위 등(즉, 웨어러블 디바이스(2000)의 동작 특성)을 자동 설정하기 위한 자동 설정 버튼(3500)이 표시될 수 있다. 예를 들어, 자동 설정 버튼(3500)에 의해 설정되는 웨어러블 디바이스(2000)의 동작 특성은 미리 결정될 수 있다. 예를 들어, 자동 설정 버튼(3500)에 의해 설정되는 웨어러블 디바이스(2000)의 동작 특성은 멀티미디어 데이터의 특성, 애플리케이션의 타입(예컨대, 음악 재생 애플리케이션, 동영상 재생 애플리케이션, 게임 애플리케이션, SNS 애플리케이션, 정보 검색 애플리케이션, 통화 애플리케이션, 메시지 애플리케이션 등)에 기초하여 결정될 수 있다. 일 실시 예에 있어서, 웨어러블 디바이스(2000)(또는 웨어러블 디바이스(2000)의 프로세서)는 멀티미디어 데이터의 특성 또는 애플리케이션의 타입을 식별할 수 있다. 예를 들어, 사운드 데이터가 게임, 영화 폭파 등의 사운드 데이터로 분류되는 경우, 액추에이터들이 강한 진동 신호를 출력하도록 하는 웨어러블 디바이스(2000)의 동작 특성이 결정될 수 있다. 사용자는 프리퍼런스 버튼(3400)을 이용하여 웨어러블 디바이스(2000)의 동작 특성을 변경할 수 있다.
일 실시 예에 있어서, 유저 인터페이스 제공 장치(20)는 웨어러블 디바이스(2000)에 제어 신호(CS)를 송신할 수 있다. 일 실시 예에 있어서, 유저 인터페이스 제공 장치(20)는 서버 장치(미도시)를 통해 웨어러블 디바이스(2000)에 제어 신호(CS)를 송신할 수 있다. 예를 들어, 제어 신호(CS)는 웨어러블 디바이스(2000)의 동작 특성을 제어하기 위한 정보를 포함할 수 있다. 웨어러블 디바이스(2000)는 제어 신호(CS)를 수신할 수 있다. 본 명세서에서, 제어 신호(CS)는 사용자 입력에 대응하는 데이터를 포함하는 것으로 설명될 수 있다. 따라서, 웨어러블 디바이스(2000)는 사용자 입력에 기초하여 PWM 신호를 조정할 수 있다.
일 실시 예에 있어서, 도 5에서 설명한 웨어러블 디바이스가 사용자 입력을 수신하는 동작은, 도 12a 및 12b에서 설명한 웨어러블 디바이스가 제어 신호(CS)를 수신하는 동작에 대응하며, 도 5, 12a, 12b에서 설명한 사용자 입력을 획득(또는 수신)하는 실시 예들은 서로 조합될 수 있음은 물론이다.
일 실시 예에 따르면, 유저 인터페이스를 통해 개인화된 햅틱 피드백 제어 기능이 제공됨으로써, 멀티미디어 데이터(예컨대, 음악, 영화 게임)의 특성, 사용자의 햅틱 민감도 및 수용도 등을 고려한 촉각 모달리티가 제공될 수 있다.
일 실시 예에 따르면, 유저 인터페이스를 통해 개인화된 햅틱 피드백 제어 기능이 제공됨으로써, 멀티디디어의 데이터의 다양한 특성 중 사용자가 원하는 임팩트 포인트(impact point)가 강조될 수 있다.
도 13a 및 13b는 일 실시 예에 따른 햅틱 일루전 효과를 설명하기 위한 개념도들이다.
도 13a 및 13b의 웨어러블 디바이스(4000)의 동작 및 기능은 도 1 내지 11c의 웨어러블 디바이스(100, 200, 1000, 2000)에 대응되므로, 중복되는 내용은 생략한다.
웨어러블 디바이스(4000)는 적어도 두 개의 액추에이터들을 포함할 수 있다. 설명의 편의를 위해 도시된 웨어러블 디바이스(4000)가 세 개의 액추에이터들(4121a, 4121b, 4121c)을 포함하는 것을 가정하여 설명하나, 본 개시는 이에 한정되지 않는다. 일 실시 예에 따르면, 웨어러블 디바이스(4000)는 적어도 두 개의 액추에이터를 이용하여 햅틱 일루션 포인트에 대응하는 햅틱 피드백을 제공할 수 있다. 본 명세서에서, 햅틱 일루션 포인트는, 한 액추에이터와 다른 액추에이터 사이에 존재하는 가상의 포인트를 나타낼 수 있다. 예를 들어, 햅틱 일루션 포인트는 웨어러블 디바이스(4000)의 손목 스트랩의 피부 접촉면에 존재할 수 있다. 일 실시 예에 따르면, 햅틱 일루션 포인트가 생성됨으로써, 액추에이터가 존재하지 않는 지점에서 액추에이터가 존재하는 것과 같은 햅틱 피드백 효과가 사용자에게 제공될 수 있다. 일 실시 예에 따르면, 햅틱 일루션 포인트가 생성됨으로써, 한 지점에서 다른 지점으로 연속적으로 움직이는 듯한 진동 감각이 사용자에게 전달될 수 있다.
일 실시 예에 있어서, 사용자가 웨어러블 디바이스(4000)을 착용한 경우의 손목 스트랩의 형태는 원형으로 근사될 수 있다. 이 때, 액추에이터들(4121)은 손목 스트랩 상에 일정한 간격으로 배치될 수 있다. 따라서, 액추에이터들(4121) 각각의 지점은 극좌표계의 각도만으로 표현될 수 있다. 예를 들어, 제1 액추에이터의 지점은 0°, 제2 액추에이터의 지점은 90°, 제3 액추에이터의 지점은 180°로 표현될 수 있다. 액추에이터들(4121)의 지점이 이에 제한되는 것은 아니며, 설명의 편의를 위해, 상술한 예시를 가정하여 이하 설명한다.
일 실시 예에 있어서, 액추에이터들(4121a, 4121b, 4121c) 각각에 대응하는 사운드 데이터의 주파수는 서로 다를 수 있다. 도 12a에서, 액추에이터들(4121a, 4121b, 4121c), 또는 햅틱 일루션 포인트들에 대응하는 사운드 데이터의 주파수 범위가 300Hz 내지 7500Hz인 것으로 도시 되었으나, 주파수 범위가 이에 한정되는 것은 아니며, 주파수 범위는 사용자 또는 제조사의 설정에 의해 변경될 수 있다. 일 실시 예에 있어서, 액추에이터들(4121a, 4121b, 4121c) 각각에 대응하는 사운드 데이터의 주파수는 다양한 함수(예컨대, 선형 함수, 로그 함수 등)에 의해 결정될 수 있다. 도 13a에 도시된 바와 같이 로그 함수에 의해 액추에이터들과 사운드 데이터의 주파수가 대응되는 것을 가정하여 이하 설명하나, 본 개시는 이에 한정되지 않는다. 예를 들어, 제1 액추에이터(4121a)에 대응하는 주파수는 제1 주파수(예컨대, 300Hz)이고, 제2 액추에이터(4121b)에 대응하는 주파수는 제2 주파수(예컨대, 1500Hz)이고, 제3 액추에이터(4121c)에 대응하는 주파수는 제3 주파수(예컨대, 7500Hz)일 수 있다. 따라서, 사운드 데이터의 주파수가 제1 주파수(예컨대, 300Hz)인 경우 제1 액추에이터(4121a)가 PWM 신호에 기초하여 동작할 수 있다. 사운드 데이터의 주파수가 제2 주파수(예컨대, 1500Hz)인 경우 제2 액추에이터(4121b)가 PWM 신호에 기초하여 동작할 수 있다. 사운드 데이터의 주파수가 제3 주파수(예컨대, 7500Hz)인 경우 제1 액추에이터(4121c)가 PWM 신호에 기초하여 동작할 수 있다. 예를 들어, 제1 주파수는 제2 주파수보다 작고, 제2 주파수는 제3 주파수보다 작을 수 있다. 제1 내지 제3 주파수는 사용자 또는 제조사의 설정에 따라 미리 결정 또는 변경될 수 있다.
제1 내지 제3 액추에이터들(4121a, 4121b, 4121c)에 대응하는 사운드 데이터의 주파수 외의 주파수의 경우(즉, 제1 주파수보다 크고 제3 주파수보다 작은 주파수의 경우), 제1 내지 제3 액추에이터들(4121a, 4121b, 4121c) 중 두 개의 액추에이터들이 PWM 신호에 기초하여 동작할 수 있다. 예를 들어, 사운드 데이터의 주파수가 제1 주파수(예컨대, 300Hz)보다 크고 제2 주파수(예컨대, 1500Hz)보다 작은 경우, 제1 액추에이터(4121a) 및 제2 액추에이터(4121b)가 PWM 신호에 기초하여 동작할 수 있다. 예를 들어, 사운드 데이터의 주파수가 제2 주파수(예컨대, 1500Hz)보다 크고 제3 주파수(예컨대, 7500Hz)보다 작은 경우, 제2 액추에이터(4121b) 및 제3 액추에이터(4121c)가 PWM 신호에 기초하여 동작할 수 있다.
웨어러블 디바이스(4000)는 사운드 데이터의 주파수(예컨대, 671Hz)에 대응하는 햅틱 일루션 포인트(예컨대, 45°)를 식별할 수 있다. 햅틱 일루션 포인트는 동작시킬 두 개의 액추에이터들(예컨대, 제1 액추에이터(4121a) 및 제2 액추에이터(4121b))이 존재하는 지점들 사이에 존재할 수 있다. 예를 들어, 두 개의 액추에이터들(예컨대, 제1 액추에이터(4121a) 및 제2 액추에이터(4121b))에 대응하는 주파수들(예컨대, 300Hz, 1500Hz)로 결정되는 로그 함수에 의해, 사운드 데이터의 주파수(예컨대, 671Hz)에 대응하는 햅틱 일루션 포인트(예컨대, 45°)가 결정될 수 있다. 웨어러블 디바이스(4000)는 햅틱 일루션 포인트에 기초하여 동작시킬 적어도 두 개의 액추에이터들(예컨대, 제1 액추에이터(4121a) 및 제2 액추에이터(4121b))을 결정할 수 있다.
도 13b를 참조하면, 두 개의 액추에이터들(예컨대, 제1 액추에이터(4121a) 및 제2 액추에이터(4121b))이 PWM 신호에 기초하여 동작하는 경우, 두 개의 액추에이터들(예컨대, 제1 액추에이터(4121a) 및 제2 액추에이터(4121b)) 각각에 입력되는 PWM 신호의 듀티 사이클은 다를 수 있다. 웨어러블 디바이스(4000)는 두 개의 액추에이터들(예컨대, 제1 액추에이터(4121a) 및 제2 액추에이터(4121b)) 각각에 입력되는 PWM 신호의 듀티 사이클을 결정할 수 있다. 두 개의 액추에이터들(예컨대, 제1 액추에이터(4121a) 및 제2 액추에이터(4121b)) 각각에 입력되는 PWM 신호의 듀티 사이클은 삼각 함수를 활용하여 결정될 수 있다.
Figure PCTKR2022015862-appb-img-000001
Figure PCTKR2022015862-appb-img-000002
Figure PCTKR2022015862-appb-img-000003
Figure PCTKR2022015862-appb-img-000004
수학식 1은, 일 실시 예에 따른 햅틱 일루션 포인트가 제1 액추에이터(4121a) 및 제2 액추에이터(4121b)에 존재하는 경우 PWM 신호의 듀티 사이클을 결정하는 수학식이다. 수학식 2는, 일 실시 예에 따른 햅틱 일루션 포인트가 제2 액추에이터(4121b) 및 제3 액추에이터(4121c)에 존재하는 경우 PWM 신호의 듀티 사이클을 결정하는 수학식이다. 수학식 1 및 수학식 2를 참고하면,
Figure PCTKR2022015862-appb-img-000005
은 사운드 데이터의 강도 임계 값에 대응하는 최소 듀티 사이클로 정의되고,
Figure PCTKR2022015862-appb-img-000006
은 제1 액추에이터(4121a)에 입력되는 PWM 신호의 듀티 사이클로 정의되고,
Figure PCTKR2022015862-appb-img-000007
은 제2 액추에이터(4121b)에 입력되는 PWM 신호의 듀티 사이클로 정의되고,
Figure PCTKR2022015862-appb-img-000008
은 제3 액추에이터(4121c)에 입력되는 PWM 신호의 듀티 사이클로 정의되고,
Figure PCTKR2022015862-appb-img-000009
는 사운드 데이터의 사운드 에너지 강도에 맵핑되는 듀티 사이클로 정의되고,
Figure PCTKR2022015862-appb-img-000010
은 햅틱 일루션 포인트가 제1 액추에이터(4121a) 및 제2 액추에이터(4121b)에 존재하는 경우의 햅틱 일루션 포인트로 정의되고,
Figure PCTKR2022015862-appb-img-000011
은 햅틱 일루션 포인트가 제2 액추에이터(4121b) 및 제3 액추에이터(4121c)에 존재하는 경우의 햅틱 일루션 포인트로 정의된다. 예를 들어,
Figure PCTKR2022015862-appb-img-000012
이 150이고, 사운드 데이터의 주파수가 671Hz인 경우,
Figure PCTKR2022015862-appb-img-000013
은 45°이고,
Figure PCTKR2022015862-appb-img-000014
Figure PCTKR2022015862-appb-img-000015
는 각각 106 +
Figure PCTKR2022015862-appb-img-000016
이다.
도 13a 및 13b에서, 액추에이터들(4121)이 사운드 데이터의 주파수에 대응하는(또는 맵핑되는) 것으로 도시되었으나, 이에 한정되지 않는다. 따라서, 액추에이터들(4121)은 사운드 데이터의 임의의 특성(예컨대, 주파수, 사운드 에너지 강도(dB), 스펙트럼 등)에 대응할 수 있으며, 액추에이터들에 입력되는 PWM 신호의 듀티 사이클도 해당 특성에 대응하도록 설정될 수 있다.
일 실시 예에 있어서, 웨어러블 디바이스의 동작 방법은, 이미지 데이터, 텍스트 데이터, 및 사운드 데이터 중 적어도 하나를 포함하는 소스 데이터를 획득하는 단계를 포함할 수 있다. 웨어러블 디바이스의 동작 방법은, 소스 데이터에 이미지 데이터, 텍스트 데이터, 및 사운드 데이터가 포함되는지 여부를 결정하는 단계를 포함할 수 있다. 웨어러블 디바이스의 동작 방법은, 소스 데이터에 이미지 데이터, 텍스트 데이터, 사운드 데이터 중 적어도 하나가 포함되지 않은 경우, 소스 데이터를 입력으로 하는 뉴럴 네트워크를 이용하여, 소스 데이터에 포함되지 않은 이미지 데이터, 텍스트 데이터, 및 사운드 데이터를 생성하는 단계를 포함할 수 있다. 웨어러블 디바이스의 동작 방법은, 사운드 데이터에 기초하여 PWM 신호를 생성하는 단계를 포함할 수 있다. 웨어러블 디바이스의 동작 방법은, 이미지 데이터, 텍스트 데이터, 사운드 데이터, PWM 신호에 기초하여 멀티 모달리티를 출력하는 단계를 포함할 수 있다.
일 실시 예에 있어서, 멀티 모달리티는 시각 모달리티, 청각 모달리티, 및 촉각 모달리티를 포함할 수 있다.
일 실시 예에 있어서, PWM 신호를 생성하는 단계는, 사운드 데이터를 입력으로 하는 적어도 하나의 필터를 이용하여, 상기 사운드 데이터의 주파수 성분에 따라 적어도 하나의 서브 사운드 데이터로 필터링하는 단계를 포함할 수 있다. PWM 신호를 생성하는 단계는, 적어도 하나의 서브 사운드 데이터에 기초하여, 사운드 피처를 획득하는 단계를 포함할 수 있다. PWM 신호를 생성하는 단계는, 사운드 피처의 분산 값의 임계 값 초과 여부를 식별하는 단계를 포함할 수 있다. PWM 신호를 생성하는 단계는, 사운드 피처의 분산 값이 임계 값을 초과한 경우, 적어도 하나의 서브 사운드 데이터의 사운드 에너지 강도 및 적어도 하나의 서브 사운드 데이터의 사운드 에너지 기울기에 기초하여 사운드 피처를 필터링하는 단계를 포함할 수 있다. PWM 신호를 생성하는 단계는, 사운드 피처에 대응하는 적어도 하나의 서브 사운드 데이터의 사운드 에너지 강도와 듀티 사이클을 맵핑함으로써, PWM 신호를 생성하는 단계를 포함할 수 있다.
일 실시 예에 있어서, 사운드 피처를 획득하는 단계는, 적어도 하나의 서브 사운드 데이터에 기초하여 복수의 사운드 피처들을 추출하는 단계를 포함할 수 있다. 사운드 피처를 획득하는 단계는, 복수의 사운드 피처들 간의 상관 관계 및 복수의 사운드 피처들의 분산 값을 계산하는 단계를 포함할 수 있다. 사운드 피처를 획득하는 단계는, 상관 관계 및 상기 분산 값에 기초하여 대표 사운드 피처를 선정하는 단계를 포함할 수 있다. 대표 사운드 피처는 상기 사운드 피처일 수 있다.
일 실시 예에 있어서, 사운드 피처를 필터링하는 단계는, 적어도 하나의 서브 사운드 데이터를 정규화하는 단계를 포함할 수 있다. 사운드 피처를 필터링하는 단계는, 사운드 피처 중, 상기 사운드 에너지 강도가 강도 임계 값을 초과하는 구간 및 상기 강도 임계 값을 초과하지 않는 구간을 추출하는 단계를 포함할 수 있다. 사운드 피처를 필터링하는 단계는, 사운드 피처 중, 상기 사운드 에너지 기울기가 기울기 임계 값을 초과하는 구간 및 상기 기울기 임계 값을 초과하지 않는 구간을 추출하는 단계를 포함할 수 있다. 사운드 피처를 필터링하는 단계는, 사운드 에너지 강도가 강도 임계 값을 초과하고 사운드 에너지 기울기가 기울기 임계 값을 초과하는 사운드 피처의 구간을 통과시키고, 사운드 에너지 강도가 강도 임계 값을 초과하지 않거나 사운드 에너지 기울기가 기울기 임계 값을 초과하지 않는 사운드 피처의 구간과, 사운드 에너지 강도가 강도 임계 값을 초과하지 않고 사운드 에너지 기울기가 기울기 임계 값을 초과하지 않는 사운드 피처의 구간을 감쇠시키는 단계를 포함할 수 있다.
일 실시 예에 있어서, 사운드 피처는 사운드 에너지, 주파수, 피치, 및 강도 중 적어도 하나를 포함할 수 있다.
일 실시 예에 있어서, 웨어러블 디바이스의 동작 방법은, 적어도 하나의 서브 사운드 데이터에 대응하는 상기 PWM 신호를, 대응하는 액추에이터에 전달하는 단계를 포함할 수 있다. 예시적으로, 웨어러블 디바이스의 동작 방법은, 제1 서브 사운드 데이터에 대응하는 제1 PWM 신호를 제1 액추에이터에 전달하는 단계, 및 제2 서브 사운드 데이터에 대응하는 제2 PWM 신호를 제2 액추에이터에 전달하는 단계를 포함할 수 있다.
일 실시 예에 있어서, PWM 신호를 생성하는 단계는, 사용자 메타데이터(또는 사용자 메타데이터 DB)로부터 사용자 스피치 특징을 획득하는 단계를 포함할 수 있다. PWM 신호를 생성하는 단계는, 사용자 스피치 특징에 기초하여 PWM 신호를 조정하는 단계를 포함할 수 있다.
일 실시 예에 있어서, PWM 신호를 생성하는 단계는, 사용자 메타데이터(또는 사용자 메타데이터 DB)로부터 사용자 입력을 획득하는 단계를 포함할 수 있다. PWM 신호를 생성하는 단계는, 사용자 입력에 기초하여 PWM 신호를 조정하는 단계를 포함할 수 있다.
일 실시 예에 있어서, PWM 신호를 생성하는 단계는, 사운드 데이터에 기초하여 사운드 피처를 획득하는 단계를 포함할 수 있다. PWM 신호를 생성하는 단계는, 사운드 피처에 대응하는 사운드 데이터의 사운드 에너지 강도와 듀티 사이클을 맵핑함으로써, PWM 신호를 생성하는 단계를 포함할 수 있다. PWM 신호를 생성하는 단계는, PWM 신호 중 듀티 사이클이 미리 정의된 값을 초과하는 부분 영역에 대응하는 신호를 제1 액추에이터에 전달하고, PWM 신호의 전체 영역에 대응하는 신호를 제2 액추에이터에 전달하는 단계를 포함할 수 있다.
일 실시 예에 있어서, 상기 뉴럴 네트워크는 GAN의 생성기일 수 있다. 상기 GAN은, 이미지 데이터, 상기 텍스트 데이터, 및 상기 사운드 데이터 중 적어도 하나를 포함하지 않는 훈련 소스 데이터를 획득하는 동작을 수행할 수 있다. GAN은, 훈련 소스 데이터를 입력으로 하는 상기 생성기를 이용하여, 훈련 소스 데이터에 포함되지 않는 이미지 데이터, 텍스트 데이터, 및 사운드 데이터 중 적어도 하나에 대응하는 가상 데이터를 생성하는 동작을 수행할 수 있다. GAN은, 가상 데이터 및 가상 데이터에 대응하는 실제 데이터를 입력으로 하는 판별기를 이용하여, 가상 데이터 및 실제 데이터의 실제 여부를 판단하는 동작을 수행할 수 있다. GAN은, 판단 결과에 기초하여 상기 생성기 및 상기 판별기를 학습시키는 동작을 수행할 수 있다.
일 실시 예에 있어서, PWM 신호를 생성하는 단계는, 사운드 데이터의 주파수에 대응하는 햅틱 일루션 포인트를 식별하는 단계를 포함할 수 있다. PWM 신호를 생성하는 단계는, 햅틱 일루션 포인트에 기초하여, 동작시킬 적어도 두 개의 액추에이터들을 결정하는 단계를 포함할 수 있다. PWM 신호를 생성하는 단계는, 결정된 적어도 두 개의 액추에이터들 각각에 입력되는 PWM 신호의 듀티 사이클을 결정하는 단계를 포함할 수 있다.
일 실시 예에 있어서, 적어도 하나의 필터는 제1 내지 제3 필터들을 포함할 수 있다.
일 실시 예에 있어서, 제1 필터는, 사운드 데이터에 기초하여 제1 서브 사운드 데이터를 생성할 수 있다. 제2 필터는, 사운드 데이터에 기초하여 제2 서브 사운드 데이터를 생성할 수 있다. 제3 필터는, 사운드 데이터에 기초하여 제3 서브 사운드 데이터를 생성할 수 있다.일 실시 예에 있어서, 웨어러블 디바이스의 동작 방법은, 제1 서브 사운드 데이터에 기초하여 제1 PWM 신호를 생성하고, 제2 서브 사운드 데이터에 기초하여 제2 PWM 신호를 생성하고, 제3 서브 사운드 데이터에 기초하여 제3 PWM 신호를 생성하는 단계를 더 포함할 수 있다.
일 실시 예에 있어서, 사용자 입력은, 제1 내지 제3 서브 사운드 데이터에 대응하는 강도 임계 값을 포함할 수 있다.
일 실시 예에 있어서, PWM 신호를 생성하는 단계는, 강도 임계 값에 기초하여 PWM 신호를 조정하는 단계를 포함할 수 있다.
일 실시 예에 있어서, 사용자 입력은, 제1 내지 제3 필터들과 제1 내지 제3 액추에이터들 간의 맵핑 정보를 포함할 수 있다.
일 실시 예에 있어서, 웨어러블 디바이스의 동작 방법은, 맵핑 정보에 기초하여 제1 내지 제3 PWM 신호들을 제1 내지 제3 액추에이터들 중 적어도 하나에 전달하는 단계를 더 포함할 수 있다.
일 실시 예에 있어서, 사용자 입력은, 제1 내지 제3 필터들 각각의 주파수 범위에 관한 정보를 포함할 수 있다.
일 실시 예에 있어서, PWM 신호를 생성하는 단계는, 주파수 범위에 관한 정보에 기초하여 PWM 신호를 조정하는 단계를 포함할 수 있다.
일 실시 예에 있어서, 뉴럴 네트워크는 복수의 뉴럴 네트워크들을 포함할 수 있다. 복수의 뉴럴 네트워크들 각각은, 이미지 데이터, 텍스트 데이터, 사운드 데이터 중 적어도 하나를 입력으로 하여, 이미지 데이터, 텍스트 데이터, 사운드 데이터 중 적어도 하나를 출력으로 하는 뉴럴 네트워크일 수 있다. 복수의 뉴럴 네트워크들의 입력 및 출력은 서로 다를 수 있다.
일 실시 예에 있어서, 상술한 웨어러블 디바이스의 동작 방법의 다양한 실시 예들은 컴퓨터에서 수행하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체의 형태로 제공될 수 있다.
일 실시 예에 있어서, 웨어러블 디바이스는, 디스플레이를 포함할 수 있다. 웨어러블 디바이스는, 스피커를 포함할 수 있다. 웨어러블 디바이스는, 적어도 하나의 액추에이터를 포함할 수 있다. 웨어러블 디바이스는, 하나 이상의 인스트럭션을 저장하는 메모리를 포함할 수 있다. 웨어러블 디바이스는, 메모리에 저장된 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함할 수 있다. 적어도 하나의 프로세서는, 이미지 데이터, 텍스트 데이터, 및 사운드 데이터 중 적어도 하나를 포함하는 소스 데이터를 획득하는, 하나 이상의 인스트럭션을 실행할 수 있다. 적어도 하나의 프로세서는, 이미지 데이터, 텍스트 데이터, 및 사운드 데이터 중 적어도 하나를 포함하는 소스 데이터를 획득하는, 하나 이상의 인스트럭션을 실행할 수 있다. 적어도 하나의 프로세서는, 소스 데이터에 이미지 데이터, 텍스트 데이터, 및 사운드 데이터가 포함되는지 여부를 결정하는, 하나 이상의 인스트럭션을 실행할 수 있다. 적어도 하나의 프로세서는, 소스 데이터에 이미지 데이터, 텍스트 데이터, 및 사운드 데이터 중 적어도 하나가 포함되지 않은 경우, 소스 데이터를 입력으로 하는 뉴럴 네트워크를 이용하여, 소스 데이터에 포함되지 않은 이미지 데이터, 텍스트 데이터, 및 사운드 데이터를 생성하는, 하나 이상의 인스트럭션을 실행할 수 있다. 적어도 하나의 프로세서는, 사운드 데이터에 기초하여 PWM 신호를 생성하는, 하나 이상의 인스트럭션을 실행할 수 있다. 적어도 하나의 프로세서는, 이미지 데이터, 텍스트 데이터, 사운드 데이터, 및 PWM 신호에 기초하여, 디스플레이, 스피커, 적어도 하나의 액추에이터로 하여금 멀티 모달리티를 출력하도록 제어하는, 상기 하나 이상의 인스트럭션을 실행할 수 있다.
일 실시 예에 있어서, 적어도 하나의 프로세서는, 이미지 데이터 및 텍스트 데이터에 기초하여 디스플레이로 하여금 시각 모달리티를 출력하도록 제어할 수 있다. 적어도 하나의 프로세서는, 사운드 데이터에 기초하여 스피커로 하여금 청각 모달리티를 출력하도록 제어할 수 있다. 적어도 하나의 프로세서는, 적어도 하나의 액추에이터로 하여금 촉각 모달리티를 출력하도록 제어할 수 있다.
일 실시 예에 있어서, PWM 신호를 생성하는, 하나 이상의 인스트럭션은, 사운드 데이터에 기초하여 사운드 피처를 획득하고, 사운드 피처에 대응하는 사운드 데이터의 사운드 에너지 강도와 듀티 사이클을 맵핑함으로써, PWM 신호를 생성하고, PWM 신호 중 상기 듀티 사이클이 미리 정의된 값을 초과하는 부분 영역에 대응하는 신호를 적어도 하나의 액추에이터 중 제1 액추에이터에 전달하고, PWM 신호의 전체 영역에 대응하는 신호를 적어도 하나의 액추에이터 중 제2 액추에이터에 전달하는, 하나 이상의 인스트럭션을 포함할 수 있다.
일 실시 예에 있어서, 웨어러블 디바이스의 동작 방법은, 이미지 데이터, 텍스트 데이터, 및 사운드 데이터 중 하나를 포함하는 소스 데이터를 수신하는 단계를 포함할 수 있다. 웨어러블 디바이스의 동작 방법은, 소스 데이터를 수신하는 것에 응답하여, 제1 시뮬레이션 데이터 및 제2 시뮬레이션 데이터를 생성하는 단계를 포함할 수 있다. 소스 데이터가 이미지 데이터를 포함하는 경우, 제1 시뮬레이션 데이터는 시뮬레이션 텍스트 데이터를 포함하고, 제2 시뮬레이션 데이터는 시뮬레이션 사운드 데이터를 포함할 수 있다. 소스 데이터가 텍스트 데이터를 포함하는 경우, 제1 시뮬레이션 데이터는 시뮬레이션 이미지 데이터를 포함하고, 제2 시뮬레이션 데이터는 시뮬레이션 사운드 데이터를 포함할 수 있다. 소스 데이터가 사운드 데이터를 포함하는 경우, 제1 시뮬레이션 데이터는 시뮬레이션 이미지 데이터를 포함하고, 제2 시뮬레이션 데이터는 시뮬레이션 텍스트 데이터를 포함할 수 있다. 웨어러블 디바이스의 동작 방법은, 사운드 데이터 또는 시뮬레이션 사운드 데이터에 기초하여 PWM 신호를 생성하는 단계를 포함할 수 있다. 웨어러블 디바이스의 동작 방법은, 소스 데이터, 제1 시뮬레이션 데이터, 제2 시뮬레이션 데이터, 및 PWM 신호에 기초하여 멀티 모달리티를 출력하는 단계를 포함할 수 있다.
일 실시 예에 있어서, 제1 시뮬레이션 데이터 및 제2 시뮬레이션 데이터를 생성하는 단계는 머신 러닝 모델에 의해 생성될 수 있다.
일 실시 예에 있어서, 머신 러닝 모델은 GAN일 수 있다.
기기로 읽을 수 있는 저장매체(또는 기록매체)는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
일 실시 예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
컴퓨터 프로그램 제품은, 서버 및 클라이언트 장치로 구성되는 시스템에서, 서버의 저장매체 또는 클라이언트 장치의 저장매체를 포함할 수 있다. 또는, 서버 또는 클라이언트 장치와 통신 연결되는 제3 장치(예, 스마트폰)가 존재하는 경우, 컴퓨터 프로그램 제품은 제3 장치의 저장매체를 포함할 수 있다. 또는, 컴퓨터 프로그램 제품은 서버로부터 클라이언트 장치 또는 제3 장치로 전송되거나, 제3 장치로부터 클라이언트 장치로 전송되는 S/W 프로그램 자체를 포함할 수 있다.
이 경우, 서버, 클라이언트 장치 및 제3 장치 중 하나가 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 수행할 수 있다. 또는, 서버, 클라이언트 장치 및 제3 장치 중 둘 이상이 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 분산하여 실시할 수 있다.
이상에서 실시예들에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속한다.

Claims (15)

  1. 멀티 모달리티(multi-modality)를 제공하는 웨어러블 디바이스(100, 200, 1000)의 동작 방법에 있어서,
    이미지 데이터, 텍스트 데이터, 및 사운드 데이터 중 적어도 하나를 포함하는 소스 데이터를 획득하는 단계(S910);
    상기 소스 데이터에 상기 이미지 데이터, 상기 텍스트 데이터, 및 상기 사운드 데이터가 포함되는지 여부를 결정하는 단계(S920);
    상기 소스 데이터에 상기 이미지 데이터, 상기 텍스트 데이터, 및 상기 사운드 데이터 중 적어도 하나가 포함되지 않은 경우, 상기 소스 데이터를 입력으로 하는 뉴럴 네트워크를 이용하여, 상기 소스 데이터에 포함되지 않은 상기 이미지 데이터, 상기 텍스트 데이터, 및 상기 사운드 데이터를 생성하는 단계(S930);
    상기 사운드 데이터에 기초하여 PWM(Pulse Width Modulation) 신호를 생성하는 단계(S940); 및
    상기 이미지 데이터, 상기 텍스트 데이터, 상기 사운드 데이터, 및 상기 PWM 신호에 기초하여 상기 멀티 모달리티를 출력하는 단계(S950)를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 PWM 신호를 생성하는 단계는:
    상기 사운드 데이터를 입력으로 하는 적어도 하나의 필터를 이용하여, 상기 사운드 데이터의 주파수 성분에 따라 적어도 하나의 서브 사운드 데이터로 필터링하는 단계(S941);
    상기 적어도 하나의 서브 사운드 데이터에 기초하여, 사운드 피처를 획득하는 단계(S942);
    상기 사운드 피처의 분산 값의 임계 값 초과 여부를 식별하는 단계(S943);
    상기 사운드 피처의 분산 값이 상기 임계 값을 초과한 경우, 상기 적어도 하나의 서브 사운드 데이터의 사운드 에너지 강도 및 상기 적어도 하나의 서브 사운드 데이터의 사운드 에너지 기울기에 기초하여 상기 사운드 피처를 필터링하는 단계(S944);
    상기 사운드 피처에 대응하는 상기 적어도 하나의 서브 사운드 데이터의 상기 사운드 에너지 강도와 듀티 사이클을 맵핑함으로써, 상기 PWM 신호를 생성하는 단계(S945)를 포함하는, 방법.
  3. 제2항에 있어서,
    상기 사운드 피처를 획득하는 단계는:
    상기 적어도 하나의 서브 사운드 데이터에 기초하여 복수의 사운드 피처들을 추출하는 단계;
    상기 복수의 사운드 피처들 간의 상관 관계 및 복수의 사운드 피처들의 분산 값을 계산하는 단계; 및
    상기 상관 관계 및 상기 분산 값에 기초하여 대표 사운드 피처를 선정하는 단계를 포함하되,
    상기 대표 사운드 피처는 상기 사운드 피처인, 방법.
  4. 제2항 및 제3항 중 어느 한 항에 있어서,
    상기 사운드 피처를 필터링하는 단계는,
    상기 적어도 하나의 서브 사운드 데이터를 정규화하는 단계;
    상기 사운드 피처 중, 상기 사운드 에너지 강도가 강도 임계 값을 초과하는 구간 및 상기 강도 임계 값을 초과하지 않는 구간을 추출하는 단계;
    상기 사운드 피처 중, 상기 사운드 에너지 기울기가 기울기 임계 값을 초과하는 구간 및 상기 기울기 임계 값을 초과하지 않는 구간을 추출하는 단계;
    상기 사운드 에너지 강도가 상기 강도 임계 값을 초과하고 상기 사운드 에너지 기울기가 상기 기울기 임계 값을 초과하는 상기 사운드 피처의 구간을 통과시키고, 상기 사운드 에너지 강도가 상기 강도 임계 값을 초과하지 않거나 상기 사운드 에너지 기울기가 상기 기울기 임계 값을 초과하지 않는 상기 사운드 피처의 구간과, 상기 사운드 에너지 강도가 상기 강도 임계 값을 초과하지 않고 상기 사운드 에너지 기울기가 상기 기울기 임계 값을 초과하지 않는 상기 사운드 피처의 구간을 감쇠시키는 단계를 포함하는, 방법.
  5. 제2항 내지 제4항 중 어느 한 항에 있어서,
    상기 사운드 피처는 사운드 에너지, 주파수, 피치, 및 강도 중 적어도 하나를 포함하는, 방법.
  6. 제2항 내지 제5항 중 어느 한 항에 있어서,
    상기 적어도 하나의 서브 사운드 데이터에 대응하는 상기 PWM 신호를, 대응하는 액추에이터에 전달하는 단계를 더 포함하는 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 PWM 신호를 생성하는 단계는:
    사용자 메타데이터로부터 사용자 스피치 특징을 획득하는 단계; 및
    상기 사용자 스피치 특징에 기초하여 상기 PWM 신호를 조정하는 단계를 포함하는, 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 PWM 신호를 생성하는 단계는:
    사용자 입력을 획득하는 단계; 및
    상기 사용자 입력에 기초하여 상기 PWM 신호를 조정하는 단계를 포함하는, 방법.
  9. 제1항, 제7항, 및 제8항 중 어느 한 항에 있어서,
    상기 PWM 신호를 생성하는 단계는:
    상기 사운드 데이터에 기초하여 사운드 피처를 획득하는 단계(S946);
    상기 사운드 피처에 대응하는 상기 사운드 데이터의 사운드 에너지 강도와 듀티 사이클을 맵핑함으로써, 상기 PWM 신호를 생성하는 단계(S947);
    상기 PWM 신호 중 상기 듀티 사이클이 미리 정의된 값을 초과하는 부분 영역에 대응하는 신호를 제1 액추에이터에 전달하고, 상기 PWM 신호의 전체 영역에 대응하는 신호를 제2 액추에이터에 전달하는 단계(S948)를 포함하는, 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    상기 뉴럴 네트워크는, 적대적 생성 신경망(Generative Adversarial Network; GAN)의 생성기(generator)이고,
    상기 GAN은:
    상기 이미지 데이터, 상기 텍스트 데이터, 및 상기 사운드 데이터 중 적어도 하나를 포함하지 않는 훈련 소스 데이터를 획득하고,
    상기 훈련 소스 데이터를 입력으로 하는 상기 생성기를 이용하여, 상기 훈련 소스 데이터에 포함되지 않는 상기 이미지 데이터, 상기 텍스트 데이터, 및 상기 사운드 데이터 중 적어도 하나에 대응하는 가상 데이터를 생성하고,
    상기 가상 데이터 및 상기 가상 데이터에 대응하는 실제 데이터를 입력으로 하는 판별기(discriminator)를 이용하여, 상기 가상 데이터 및 상기 실제 데이터의 실제 여부를 판단하고,
    상기 판단 결과에 기초하여 상기 생성기 및 상기 판별기를 학습시키는 동작을 수행함으로써 미리 학습된 모델인, 방법.
  11. 멀티 모달리티(multi-modality)를 제공하는 웨어러블 디바이스(100, 200, 1000)에 있어서,
    디스플레이(1600);
    스피커(1700);
    적어도 하나의 액추에이터(1500);
    하나 이상의 인스트럭션을 저장하는 메모리(1800);
    상기 메모리(1800)에 저장된 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서(1900)를 포함하되, 상기 적어도 하나의 프로세서(1900)는,
    이미지 데이터, 텍스트 데이터, 및 사운드 데이터 중 적어도 하나를 포함하는 소스 데이터를 획득하고,
    상기 소스 데이터에 상기 이미지 데이터, 상기 텍스트 데이터, 및 상기 사운드 데이터가 포함되는지 여부를 결정하고,
    상기 소스 데이터에 상기 이미지 데이터, 상기 텍스트 데이터, 및 상기 사운드 데이터 중 적어도 하나가 포함되지 않은 경우, 상기 소스 데이터를 입력으로 하는 뉴럴 네트워크를 이용하여, 상기 소스 데이터에 포함되지 않은 상기 이미지 데이터, 상기 텍스트 데이터, 및 상기 사운드 데이터를 생성하고,
    상기 사운드 데이터에 기초하여 PWM(Pulse Width Modulation) 신호를 생성하고,
    상기 이미지 데이터, 상기 텍스트 데이터, 상기 사운드 데이터, 및 상기 PWM 신호에 기초하여, 상기 디스플레이(1600), 상기 스피커(1700), 상기 적어도 하나의 액추에이터(1500)로 하여금 상기 멀티 모달리티를 출력하도록 제어하는, 상기 하나 이상의 인스트럭션을 실행하는, 웨어러블 디바이스.
  12. 제11항에 있어서,
    상기 PWM 신호를 생성하는, 상기 하나 이상의 인스트럭션은,
    상기 사운드 데이터를 입력으로 하는 적어도 하나의 필터를 이용하여, 상기 사운드 데이터의 주파수 성분에 따라 적어도 하나의 서브 사운드 데이터로 필터링하고,
    상기 적어도 하나의 서브 사운드 데이터에 기초하여, 사운드 피처를 획득하고,
    상기 사운드 피처의 분산 값의 임계 값 초과 여부를 식별하고,
    상기 사운드 피처의 분산 값이 임계 값을 초과한 경우, 상기 적어도 하나의 서브 사운드 데이터의 사운드 에너지 강도 및 상기 적어도 하나의 서브 사운드 데이터의 사운드 에너지 기울기에 기초하여 상기 사운드 피처를 필터링하고,
    상기 사운드 피처에 대응하는 상기 적어도 하나의 서브 사운드 데이터의 상기 사운드 에너지 강도와 듀티 사이클을 맵핑함으로써, 상기 PWM 신호를 생성하는, 상기 하나 이상의 인스트럭션을 포함하는, 웨어러블 디바이스.
  13. 제12항에 있어서,
    상기 사운드 피처를 획득하는, 상기 하나 이상의 인스트럭션은,
    상기 적어도 하나의 서브 사운드 데이터에 기초하여 복수의 사운드 피처들을 추출하고,
    상기 복수의 사운드 피처들 간의 상관 관계 및 복수의 사운드 피처들의 분산 값을 계산하고,
    상기 상관 관계 및 분산 값에 기초하여 대표 사운드 피처를 선정하는, 상기 하나 이상의 인스트럭션을 포함하되,
    상기 대표 사운드 피처는 상기 사운드 피처인, 웨어러블 디바이스
  14. 제12항 및 제13항 중 어느 한 항에 있어서,
    상기 사운드 피처를 필터링하는, 상기 하나 이상의 인스트럭션은,
    상기 적어도 하나의 서브 사운드 데이터를 정규화하고,
    상기 사운드 피처 중, 상기 사운드 에너지 강도가 강도 임계 값을 초과하는 구간 및 상기 강도 임계 값을 초과하지 않는 구간을 추출하고,
    상기 사운드 피처 중, 상기 사운드 에너지 기울기가 기울기 임계 값을 초과하는 구간 및 상기 기울기 임계 값을 초과하지 않는 구간을 추출하고,
    상기 사운드 에너지 강도가 상기 강도 임계 값을 초과하고 상기 사운드 에너지 기울기가 상기 기울기 임계 값을 초과하는 상기 사운드 피처의 구간을 통과시키고, 상기 사운드 에너지 강도가 상기 강도 임계 값을 초과하지 않거나 상기 사운드 에너지 기울기가 상기 기울기 임계 값을 초과하지 않는 상기 사운드 피처의 구간과, 상기 사운드 에너지 강도가 상기 강도 임계 값을 초과하지 않고 상기 사운드 에너지 기울기가 상기 기울기 임계 값을 초과하지 않는 상기 사운드 피처의 구간을 감쇠시키는, 상기 하나 이상의 인스트럭션을 포함하는, 웨어러블 디바이스.
  15. 제1항 내지 제10항 중 어느 한 항의 방법을 컴퓨터에서 수행하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체.
PCT/KR2022/015862 2021-10-19 2022-10-18 멀티 모달리티를 제공하는 웨어러블 디바이스 및 이의 동작 방법 WO2023068756A1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP22883979.1A EP4354259A4 (en) 2021-10-19 2022-10-18 WEARABLE DEVICE WITH MULTIMODALITY AND METHOD OF OPERATING THE SAME
CN202280062566.XA CN117980865A (zh) 2021-10-19 2022-10-18 提供多模态的可穿戴设备及其操作方法
US18/126,862 US20230239618A1 (en) 2021-10-19 2023-03-27 Wearable device for providing multi-modality and operation method thereof

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2021-0139739 2021-10-19
KR20210139739 2021-10-19
KR1020220116642A KR20230055947A (ko) 2021-10-19 2022-09-15 멀티 모달리티를 제공하는 웨어러블 디바이스 및 이의 동작 방법
KR10-2022-0116642 2022-09-15

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/126,862 Continuation US20230239618A1 (en) 2021-10-19 2023-03-27 Wearable device for providing multi-modality and operation method thereof

Publications (1)

Publication Number Publication Date
WO2023068756A1 true WO2023068756A1 (ko) 2023-04-27

Family

ID=86059390

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/015862 WO2023068756A1 (ko) 2021-10-19 2022-10-18 멀티 모달리티를 제공하는 웨어러블 디바이스 및 이의 동작 방법

Country Status (3)

Country Link
US (1) US20230239618A1 (ko)
EP (1) EP4354259A4 (ko)
WO (1) WO2023068756A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110061437A (ko) * 2009-12-01 2011-06-09 삼성전자주식회사 휴대용 단말기에서 햅틱 기능을 제공하기 위한 장치 및 방법
CN112464814A (zh) * 2020-11-27 2021-03-09 北京百度网讯科技有限公司 视频处理方法、装置、电子设备及存储介质
US20210151034A1 (en) * 2019-11-14 2021-05-20 Comcast Cable Communications, Llc Methods and systems for multimodal content analytics
KR20210058305A (ko) * 2019-11-14 2021-05-24 삼성전자주식회사 사용자의 정보를 제공하기 위한 웨어러블 디바이스 및 방법
KR20210081300A (ko) * 2019-12-23 2021-07-01 주식회사 후본 멀티모달 인터페이스 기반의 햅틱 장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5684722A (en) * 1994-09-21 1997-11-04 Thorner; Craig Apparatus and method for generating a control signal for a tactile sensation generator
US10455320B2 (en) * 2017-08-02 2019-10-22 Body Beats, Llc System, method and apparatus for translating, converting and/or transforming audio energy into haptic and/or visual representation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110061437A (ko) * 2009-12-01 2011-06-09 삼성전자주식회사 휴대용 단말기에서 햅틱 기능을 제공하기 위한 장치 및 방법
US20210151034A1 (en) * 2019-11-14 2021-05-20 Comcast Cable Communications, Llc Methods and systems for multimodal content analytics
KR20210058305A (ko) * 2019-11-14 2021-05-24 삼성전자주식회사 사용자의 정보를 제공하기 위한 웨어러블 디바이스 및 방법
KR20210081300A (ko) * 2019-12-23 2021-07-01 주식회사 후본 멀티모달 인터페이스 기반의 햅틱 장치
CN112464814A (zh) * 2020-11-27 2021-03-09 北京百度网讯科技有限公司 视频处理方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4354259A4 *

Also Published As

Publication number Publication date
EP4354259A4 (en) 2024-10-23
EP4354259A1 (en) 2024-04-17
US20230239618A1 (en) 2023-07-27

Similar Documents

Publication Publication Date Title
WO2020032608A1 (en) Feedback method and apparatus of electronic device for confirming user's intention
WO2017026743A1 (en) Method for playing virtual musical instrument and electronic device for supporting the same
WO2021025350A1 (en) Electronic device managing plurality of intelligent agents and operation method thereof
WO2020242274A1 (en) Electronic device for controlling skin-care device and method of operating the same
WO2020091505A1 (en) Electronic device and method for intelligent interaction thereof
WO2016105166A1 (en) Device and method of controlling wearable device
WO2019124963A1 (ko) 음성 인식 장치 및 방법
EP3238012A1 (en) Device and method of controlling wearable device
WO2016064132A1 (en) Wearable device and method of transmitting content
EP3411780A1 (en) Intelligent electronic device and method of operating the same
WO2019112181A1 (ko) 오디오 데이터에 포함된 음소 정보를 이용하여 어플리케이션을 실행하기 위한 전자 장치 및 그의 동작 방법
WO2019240562A1 (en) Electronic device and operating method thereof for outputting response to user input, by using application
WO2020036467A1 (ko) 사용자의 음성 입력에 기초하여 응답 메시지를 제공하는 서버 및 그 동작 방법
WO2018208093A1 (ko) 햅틱 피드백을 제공하는 방법 및 이를 수행하는 전자 장치
WO2020091248A1 (ko) 음성 명령에 응답하여 컨텐츠를 표시하기 위한 방법 및 그 전자 장치
WO2017171137A1 (ko) 보청장치, 휴대장치 및 그 제어방법
WO2020130691A1 (en) Electronic device and method for providing information thereof
WO2016204444A1 (ko) 운동 정보 제공 방법 및 이를 위한 웨어러블 장치
WO2022010157A1 (ko) 인공지능 가상 비서 서비스에서의 화면 제공 방법 및 이를 지원하는 사용자 단말 장치 및 서버
WO2020197263A1 (en) Electronic device and multitasking supporting method thereof
WO2020167006A1 (en) Method of providing speech recognition service and electronic device for same
WO2020130301A1 (en) Electronic device for tracking user activity and method of operating the same
EP3930831A1 (en) Electronic device for controlling skin-care device and method of operating the same
EP3847641A1 (en) Electronic device and system which provides service based on voice recognition
WO2019103471A1 (en) Method of providing vibration and electronic device for supporting same

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22883979

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2022883979

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2022883979

Country of ref document: EP

Effective date: 20240111

WWE Wipo information: entry into national phase

Ref document number: 202280062566.X

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 202427027016

Country of ref document: IN

NENP Non-entry into the national phase

Ref country code: DE